Didactiels - Méthodes Supervisées

Problématique Opérateurs utilisés Didacticiel Fichier
Arbres de Décision
Prédire l'existence d'un cancer du sein à partir de cellules ponctionnées sur des patients.
Dataset
Define Status
Spv Learning (Meta Spv)
ID3
breast
Arbres de Décision - La méthode CART
Construction d'un arbre de décision avec la méthode CART. Evaluation du modèle sur un fichier test. Quelques pistes pour la détection de la taille "optimale" de l'arbre. Courbe d'erreur.
Dataset
Define Status
Spv Learning (Meta Spv)
C-RT
Test
dataset
Discrétisation et Bayesien Naïf
Discrétisation des attributs continus pour l'apprentissage supervisé.
Dataset
Define Status
MDLPC
Naive Bayes
breast
Sélection de descripteurs
Utilisation de la sélection de variables dans l'apprentissage supervisé.
Dataset
Define Status
MDLPC
MIFS
iris
Classement de nouveaux individus
Appliquer un modèle de prédiction sur un autre ensemble de données
Dataset
Select examples
Define Status
C-RT
View dataset
Export dataset
datasets
SCORING
Mettre en place une procédure de ciblage de clientèle.
Le fichier a été présenté dans une compétition de Data Mining, il s'agissait de détecter des clients susceptibles d'adhérer à une police d'assurance particulière (CoIL -- 2000).
Scoring
Lift
Spv Learning
tic data
Courbe ROC
Utiliser la courbe ROC pour comparer l'analyse discriminante linéaire et les machines à vecteur de supports (SVM linéaires) sur un problème de détection de maladies cardiovasculaires.
Scoring
Roc curve
Spv Learning
heart data
Comparaison de classifieurs
Comparer plusieurs algorithmes d'apprentissage supervisé sur le même ensemble test défini par l'utilisateur.
Spv Learning
Test
sonar data
Comparaison de Classifieurs
Comparaison des performances de deux méthodes supervisées, en resubstitution et en validation croisée
Spv Learning
ID3 et K-NN
Cross-Validation
heart
Estimation de l'erreur de prédiction
Evaluation de l'erreur de prédiction (taux d'erreur) à l'aide des différentes techniques : erreur en resubstitution (empirique), erreur en test, validation croisée, leave one out, bootstrap.
Spv Learning
Leave-One-Out
Cross-Validation
Bootstrap
wave(ab)
Analyse Discriminante Linéaire
La supériorité manifeste de l'analyse discriminante sur axes principaux sur le fichier WAVEFORM de Breiman et al. Un bel exemple de régularisation en tous les cas (cf. Lebart, Morineau et Piron, pp.269-275).
Spv Learning
Linear Discriminant Analysis
Principal component analysis
Scatterplot
Train-test
waveform
Traitement de gros fichiers
Montrer les performances du logiciel en traitant le très gros fichier COVER TYPE avec 581102 individus, et 55 variables, toutes discrètes. L'analyse consiste en une prédiction simple à l'aide d'un arbre de décision. Aucun échantillonnage n'est effectué, toutes les données sont en mémoire.
ID3
Supervised Learning
covtype
Mode BATCH
Un exemple d'exécution de TANAGRA en mode BATCH. Les rapports sont générés automatiquement, il est possible de les lire dans un browser. Le fichier "experiments.txt" est chargé de collecter le taux d'erreur mesuré sur chaque cas à évaluer.
Exécution en mode batch (traitement par lots) exemple
Création de variables synthétiques
NIPALS, une technique rapide de calcul des axes factoriels, particulièrement efficace lorsque la dimensionnalité est très élevée. Application à la reconnaissance de familles de protéines à partir de leurs structures primaires.
NIPALS
Spv Learning
K-NN
Bootstrap
données
SVM
SVM -- Machines à Vecteurs de Support. Une méthode d'apprentissage supervisée particulièrement efficace pour les problèmes de grande dimension.
SVM
Spv Learning
Bootstrap
sonar
Comparaison de Classifieurs
Comparer les listes de décision (CN2) et les arbres de décision (C-RT) sur le fichier HEART. Il n'y a pas de surprises, les deux méthodes se valent.
MDLPC
Decision List
Spv Learning
Bootstrap
heart
SVM Multi-classes
C-SVC, un SVM multi-classes pour l'apprentissage supervisé. Ce composant est issu de la bibliothèque LIBSVM qui est particulièrement efficace.
SVM
Spv Learning
Bootstrap
protein classification
Random Forest
Apprentissage avec les Random Forests.
BAGGING
Random Tree
heart
STEPDISC
Stepwise Discriminant Analysis. Sélection automatique de variables pour l'analyse discriminante.
Stepdisc
Linear Discriminant Analysis
sonar
FORWARD/BACKWARD LOGIT
Sélection automatique de variables pour la régression logistique binaire.
Forward-logit
Backward-logit
Scoring
Lift curve
Binary logistic regression
bank
MULTINOMIAL LOGISTIC REGRESSION
Régression logistique multinomiale (ou régression logistique polytomique à variable dépendante nominale).
Multinomial Logistic Regression brand
ANALYSE DISCRIMINANTE PLS
Utiliser le principe de la Régression PLS pour l'apprentissage supervisé.
C-PLS
PLS-DA
PLS-LDA
breast
La méthode CART dans Tanagra et R (package rpart)
Mise en oeuvre de la méthode d'induction d'arbres de décision CART (Breiman et al, 1984) avec Tanagra. Comparaison des résultats avec ceux du package rpart du logiciel R.
Discrete Select Examples
C-RT
Supervised Learning
Test
wave


Ricco Rakotomalala.