Didacticiels - Nouvelle organisation

TANAGRA, au-delà du logiciel, c'est aussi une série de tutoriels élaborés au fil des années. On approche la centaine en français. Ils ont principalement deux objectifs : montrer aux utilisateurs comment mettre en oeuvre telle ou telle méthode de fouille de données avec le logiciel ; parler un peu des techniques, leurs tenants et aboutissants, la lecture et l'interprétation des résultats.

Des utilisateurs sont très satisfaits de l'organisation actuelle, d'autres en revanche ont un peu de mal à s'y retrouver. Au fil du temps, je me rends compte qu'il est parfois difficile d'identifier rapidement le document approprié. J'ai donc décidé de doubler la diffusion actuelle par un blog qui recense l'ensemble des didacticiels (en français pour l'instant). L'idée est de profiter des fonctionnalités des moteurs de blogs en matière d'indexation (catégorisation) et de recherche. J'en ai profité pour mieux les documenter. Dorénavant, chaque article sera accompagné d'un texte de présentation, d'une liste de mots-clés, du lien vers les données, du lien vers le didacticiel lui- même (document pdf), d'une ou plusieurs références bibliographique lorsque cela est nécessaire.

Les deux modes de diffusion vont cohabiter pendant un moment. On verra par la suite celui qui aura la faveur des utilisateurs.

Accès au blog des tutoriels

Didacticiels - Manipulation des données

Problématique Opérateurs utilisés Didacticiel Fichier
Une macro complémentaire pour faire la jonction entre EXCEL et TANAGRA.

Cette approche est une alternative aux technologies (XLMINER et XLSTAT par exemple) où les techniques statistiques apparaissent comme des menus supplémentaires d'EXCEL, et où les rapports sont édités dans les feuilles de calcul du classeur.

dataset
Une macro complémentaire pour faire la jonction entre OOoCalc (Open Office Calc) et TANAGRA. View Dataset
C-RT
Cross-validation
breast dataset
Importer un fichier texte
Construire un ensemble de données sous EXCEL, le sauver au format texte pour l'importer dans TANAGRA.
Wizard d'importation
Dataset
weather
Statistiques descriptives
Réaliser des statistiques descriptives sur un fichier texte importé.
Wizard d'importation
Dataset
Define Status
Univariate continuous stat
Univariate discrete stat
Group characterization
breast
Discrétisation
Discrétisation des attributs continus pour l'apprentissage supervisé.
Dataset
Define Status
MDLPC
Naive Bayes
breast
Codage disjonctif complet
Codage 0/1 des variables prédictives catégorielles pour la régression logistique ou l'analyse discriminante.
Dataset
Define Status
0_1_BINARIZE
Logistic Regression
Linear Discriminant Analysis
c.heart
Importer un fichier EXCEL
Manipuler directement un fichier issu du tableur EXCEL (97 & 2000)
Dataset
Define Status
Group characterization
adult
Importer un fichier WEKA
Manipuler directement un fichier au format WEKA (.ARFF)
Attention, le module DATANAMORF est conseillé si vous désirez bénéficier d'options étendues pour le traitement des données manquantes
Dataset
sick
Traitement de gros fichiers
Montrer les performances du logiciel en traitant le très gros fichier COVER TYPE avec 581102 individus, et 55 variables, toutes discrètes. L'analyse consiste en une prédiction simple à l'aide d'un arbre de décision. Aucun échantillonnage n'est effectué, toutes les données sont en mémoire.
ID3
Supervised Learning
covtype
Copier/coller dans le diagramme
Avec la version 1.4.7, il est possible de copier/coller des portions du diagramme. Cela permet d'appliquer des traitements similaires sur différentes expressions d'un fichier de données.
Supervised Learning
sonar
Sauver/Charger des parties du diagramme
Avec la version 1.4.8, il est possible de sauver/charger des portions du diagramme. Cela permet d'appliquer des traitements similaires sur différents fichiers de données.
Supervised Learning
vote & zoo
Détection univariée des données aberrantes (atypiques)
La version 1.4.24 intègre un composant destiné à la détection univariée (variable par variable) des observations aberrantes. Notre principale référence est le site de NIST.
More Univariate Cont Stat
Univariate Continuous Stat
Univariate Outlier Detection
body mass index


Ricco Rakotomalala.