Méthodes d'apprentissage supervisé

Principe

Cette section regroupe les opérateurs destinés à construire un modèle de prédiction à partir d'un apprentissage supervisé.

Attention !!! Les opérateurs doivent être intégrés dans un opérateur "Méta-Apprentissage" pour être concrètement mis en oeuvre.

Statut des variables

Une seule variable "target" qui est la variables à prédire, elle doit être discrète. Une ou plusieurs variables prédictives "input", de type quelconque.

Opérateurs d'apprentissage supervisé

Opérateur Description Paramétrage Remarques

Binary logistic regression
Régression logistique binaire, méthode du maximum de vraisemblance.

Algorithme directement adapté de la bibliothèque de J. DEBORD (http://ourworld.compuserve.com/homepages/JDebord/regnlin.htm), seul l'algorithme de Marquardt a été porté ici.
Les autres références utilisées sont :
- L. Lebart, A. Morineau, M. Piron, "Statistique exploratoire multidimensionnelle", Ed. Dunod, pp. 290-294, 2000.
- R. Giraud, "L'économétrie", Collection QSJ - Presses Universitaires de France, pp. 67-75, 2000.

- La variable à prédire comporte obligatoirement deux modalités.
- Les variables prédictives doivent être continues.
- La constante est imposée dans l'équation de régression.

k-Nearest Neighbor (k-NN)
Méthode des k-plus proches voisins, s'appuyant sur des distances pouvant appréhender tous types de variables (Heterogenous Value Difference Metric).

- Sur la méthode : D. Aha, D. Kibler, M. Albert, "Instance-based learning algorithms", Machine Learning, vol.6, pp. 37-66, 1991.
- Sur la distance utilisée : D. Randall, T. Martinez, "Improved heterogenous distance functions", JAIR, vol.6, pp. 1-34, 1997.

Nombre de voisins à considérer - Les variables prédictives peuvent être un mix de discrètes et continues.
- Aucune transformation (normalisation) préalable des variables n'est à réaliser.

Multi-layer perceptron
Perceptron multi-couches, algorithme du rétro-propagation du gradient.

- T. Mitchell, "Machine learning", Mc Graw-Hill International Editions, pp.86-126, 1997.
- K. Mehrotra, C. Mohan, S. Ranka, "Elements of artificial neural network", MIT Press, pp.66-87, 1997.
- T. Hastie, R. Tibshirani, J. Friedman, "The elements of statistical learning. Data Mining, inference and predictions.", Springer, pp.350-369, 2001.

Architecture du réseau
- Utilisation d'une couche cachée
- Nombre de neurones dans la couche cachée
Paramètres d'apprentissage
- Constante d'apprentissage
- Proportion de l'échantillon pour la validation
- Transformation des variables (aucune, centrée ou normalisée)
Règle d'arrêt
- Nombre d'itérations maximum
- Taux d'erreur seuil
- Evaluation de la stagnation de l'erreur
- Délai de l'évaluation de la stagnation de l'erreur
- Les variables prédictives sont obligatoirement continues.
- Aucune transformation (normalisation) préalable des variables n'est à réaliser.

Prototype-NN
Des noyaux sont préalablement construits, à chaque noyau est affecté une modalité d'appartenance de la variable à prédire, généralement celle qui est majoritaire. On affecte alors à l'individu à classer la modalité du loyau dont le centre de gravité lui est le plus proche.

Il s'agit d'une interprétation et d'une généralisation de l'approche suggérée dans l'ouvrage de Hastie et al. (pp. 411-433). On remarquera que sous certaines condition (orthogonalité des variables, égalité des matrices de variance-covariance) cette méthode est équivalente à une analyse discriminate linéaire pour peu que l'on choisisse les modalités de la variable à prédire elle-même pour définir les noyaux.

Plus généralement, on peut utiliser un clustering pour définir les noyaux.

- La variable de définition des noyaux
- Méthode de normalisation de la distance
- Les variables prédictives sont exclusivement continues.
- Aucune transformation (normalisation) préalable des variables n'est à réaliser.

ID3
Algorithme de base des arbres de décision : ID3.

- Algorithme de base (ID3) : J.R. Quinlan, "Discovering rules by induction from large collections of examples", D. Michie ed., Expert Systems in the Microelectronic age, pp. 168-201, 1979.
- Algorithme amélioré (ID3-IV) - L'article qui fait référence : J.R. Quinlan, "Induction of Decision Trees", Machine Learning, vol. 1, pp. 81-106, 1986.
- Point de vue général : D. Zighed, R. Rakotomalala, "Graphes d'induction - Apprentissage et Data Mining", Ed. Hermes, 2000.

- Taille minimale d'un noeud pour la segmentation.
- Taille minmale des feuilles générées.
- Profondeur maximale de l'arbre.
- Gain d'entropie minimum acceptée.
Une partie des paramètres sont ad-hoc, non décrits directement dans les articles de Quinlan qui, par ailleurs, a présenté plusieurs versions de ID3.

Linear Discriminant Analysis
Analyse discriminante linéaire prédictive (modèle bayesien).

- L'article de référence : R.A. Fisher, "The use of multiple measurements in taxonomic problems", Annals of Eugenics, vol. 7, pp. 179-188, 1936.
- K. Fukunaga, "Statistical Pattern Recognition", Academic Press, 1972.
- T. Hastie, R. Tibshirani, J. Friedman, "The elements of statistical learning. Data Mining, inference and predictions.", Springer, pp.79-111, 2001.

Les variables prédictives doivent être continues. Attention à la colinéarité.

Naive Bayes
Modèle bayesien naïf, modèle d'indépendance conditionnelle.

- P. Domingos, M. Pazzani, "On the optimality of the simple bayesian classifier under zero-one loss", Machine Learning, vol. 29, pp.103-130, 1997.

Les variables prédictives doivent être discrètes.

Radial basis function
Réseau de neurones RBF (Radial basis function). Il s'agit d'un perceptron simple où la couche d'entrée est constituée de noyaux. L'implémentation choisie est off-line, càd les noyaux sont construits ex-ante, avant le processus d'apprentissage du réseau, par un clustering par exemple.

- K. Mehrotra, C. Mohan, S. Ranka, "Elements of artificial neural network", MIT Press, pp.141-156, 1997.
- F. Blayo, M. Verleysen, "Les réseaux de neurones artificels", QSJ, Presses Universitaires de France, pp.67-73, 1996.

- La variable définissant les noyaux.
- Les autres paramètres sont identiques à ceux du MLP.
Les variables prédictives doivent être continues.

Il y a quelques doutes sur l'implémentation actuelle, la méthode est loin des performances affichées dans les articles. Avis aux amateurs !


Dernière modification : 12 janvier 2004.