Didactiels - Statistique Exploratoire

Problématique Opérateurs utilisés Didacticiel Fichier
Analyse en Composantes Principales (ACP)
Lecture et mise en oeuvre de l'ACP. Les données et la description des résultats ont été alignés sur un exemple tiré de l'ouvrage de G. Saporta (« Probabilités, Analyse de Données et Statistique », Dunod, 2006, pages 177 à 181)
Dataset
Define Status
PCA
voitures
Analyse Factorielle des Correspondances (AFC)
Lecture et mise en oeuvre de l'AFC. Les données et la description des résultats ont été alignés sur un exemple tiré de l'ouvrage de Lebart, Morineau et Piron, "Statistique Exploratoire Multidimensionnelle", Dunod, 2000 (pages 104 à 107).
Dataset
Define Status
CA
media
Analyse des Correspondances Multiples (ACM)
Lecture et mise en oeuvre de l'ACM. Les données et la description des résultats ont été alignés sur un exemple tiré de l'ouvrage de M. Tenenhaus (« Méthodes Statistiques en Gestion », Dunod, 1996, pages 212 à 222)
Dataset
Define Status
MCA
races canines
Projection to Latent Structures (PLS)
La régression PLS est aussi une méthode factorielle. Les observations sont projetés dans un nouvel espace qui permet de mieux expliciter les relations entre les variables, de mieux situer les proximités entre les individus. Les résultats de Tanagra sont mis en parallèle avec quelques logiciels phares du domaine.
PLSR
Define Status
Scatterplot with label
Correlation scatter plot
cars
Clustering -- HAC
CAH MIXTE sur le fichier IRIS.
Construction et interprétation des classes (clusters) avec le composant de caractérisation des groupes.
Dataset
Define Status
HAC
Group characterization
iris
Clustering -- K-Means
Construire des groupes avec un clustering, les confronter par la suite avec un regroupement naturel existant par ailleurs. Un exemple de "validation externe" en classification.
Multiple correspondance analysis
K-Means
Group characterization
Cross-tabulation
vote
Classification de variables (VARCLUS)
Mise en oeuvre de la classification de variables et lecture des résultats. Trois approches sont disponibles VARKMEANS, VARHCA, VARCLUS. La présentation est inspirée de la lecture de l'ouvrage de J.P. Nakache et J. Confais, "Approche Pragmatique de la Classification", Editions TECHNIP, 2005, chapitre 9. Une autre référence est le manuel de présentation d'un logiciel bien connu => http://www2.stat.unibo.it/ManualiSas/stat/chap68.pdf
Dataset
Define Status
VARKMEANS
VARHCA
VARCLUS
crime dataset
Travailler sur les corrélations partielles
Mise en oeuvre d'un composant méconnu : le composant RESIDUAL SCORES. L'idée est de soustraire à une série de variables l'effet induit par un ou plusieurs facteurs confondants. Les résultats sont étonnants, montrant si besoin était que la corrélation brute est certes un très bon indicateur, mais il peut se réveler trompeur s'il est utilisé sans précautions, dans une analyse en composantes principales (ACP) par exemple.
Dataset
Define Status
RESIDUAL SCORES
PCA
VARCLUS
body dataset
NIPALS -- SVD
NIPALS, une technique rapide de calcul des axes factoriels, particulièrement efficace lorsque la dimensionnalité est très élevée. Application à la reconnaissance de familles de protéines à partir de leurs structures primaires.
NIPALS
Spv Learning
K-NN
Bootstrap
données
Analyse Factorielle Discriminante
Analyse Factorielle Discriminante ou Analyse Discriminante Descriptive : produire les axes factoriels qui permettent de discerner au mieux les vins selon leur qualité. Création, interprétation des axes et projection d'individus supplémentaires.
Canonical Discriminant Analysis
Wine Quality
Visual group exploration
Description d'un sous-groupes d'observations formé manuellement par l'utilisateur.
Group characterization
Group exploration
autos
(Predictive) Clustering Trees
Création d'une typologie décrite par un arbre de classification. La méthode détermine automatiquement le "bon" nombre de classes et sélectionne les variables pertinentes.
Comparaison des résultats avec un K-MEANS, confrontation des classes obtenues.
CTP & CT
zoo
Combiner CAH et ACP
Montrer qu'en combinant les techniques de classification (CAH) et les techniques de visualisation (ACP), nous améliorons l'exploration des données.
HAC
PCA
Correlation Scatterplot
cars
Classification automatique avec l'algorithme EM
Les modèles de mélanges gaussiens peuvent être utilisés pour la classification automatique. La recherche de la solution optimale repose sur l'algorithme Expectation-Maximization.
Il est possible de déterminer automatiquement le nombre adéquat de classes.
EM-CLUSTERING
EM-SELECTION
two gaussians
Rotation des axes factoriels
Rotation VARIMAX et QUARTIMAX des axes factoriels de l'ACP.
PCA
Factor Rotation
crime
Sélection automatique du nombre de facteurs dans la régression PLS
Déterminer par validation croisée le nombre adéquat de facteurs dans la régression PLS. Exemple sur un problème de classement automatique de protéines.
PLS-FACTORIAL
PLS-SELECTION
protein
Traitement de gros volumes - CAH Mixte
Mettre en oeuvre la CAH-MIXTE (K-Means + CAH) sur un fichier comportant 500.000 observations et 68 variables. Faire le parallèle entre les résultats de Tanagra et ceux du logiciel R.
Principal Component Analysis
K-Means
HAC
Group Characterization
Export Dataset
census
Classification automatique - Déploiement de modèles
(1) A partir des individus actifs, construire une typologie à l'aide de la méthode des K-Means. (2) Classer automatiquement les individus supplémentaires/illustratifs. Faire le parallèle entre les résultats de Tanagra et ceux du logiciel R.
Multiple Correspondence Analysis
K-Means
Group Characterization
Contingency Chi-Square
Export Dataset
banque


Ricco Rakotomalala.