Interface

Initié par SPAD de DECISIA au début des années 90, la définition d'un enchaînement de traitements sous forme de filière a fait école depuis. Consciemment ou inconsciemment, la majorité des " dinosaures " de l'industrie du DATA MINING ont adopté la notion de programmation visuelle pour décrire les opérations successivement appliquées sur les données.

TANAGRA se situe dans cette mouvance, l'interface est donc classiquement subdivisée en trois grandes parties : la description de la chaîne de traitements, un " TreeView " dans notre cas ; la panoplie des opérateurs (composants), dans la fenÍtre du bas ; et enfin, la description des résultats, sous forme de rapport HTML.

Accès aux données

L'accès et l'analyse du fichier de données sont réalisés lors de la définition d'une nouvelle chaîne de traitements. Les données sont chargées en mémoire après avoir été codées en interne. La rapidité est un critère clé lors de cette importation.

A l'heure actuelle, seuls les fichiers au format texte, séparateur "tabulation" sont importés, qu'ils soient d'origine UNIX ou DOS. Le nom des variables est récupéré sur la première ligne, leur type (discret ou continu) est determiné à partir de la ligne suivante.

Opérateurs (composants)

Les opérateurs de fouille de données (les icônes, les composants) sont regroupés dans la fenÍtre du bas du logiciel. Tous prennent des données en entrée, effectuent des traitements et produisent des résultats ; quelques uns seulement en revanche effectuent des projections. Ils rajoutent, dans ce cas, une ou plusieurs variables à l'ensemble de données qui sera transmis à l'opérateur suivant.

Les opérateurs sont regroupés en catégories. Si certains découpages sont communément admis (description / structuration / explication-prédiction / association par exemple), d'autres sont plus discutables. Il y avait en réalité une seconde contrainte non dite, la nécessité de ne pas trop multiplier les catégories de méthodes...

Traitements

A l'instar des logiciels du marché, le Data Miner peut, à partir d'une source de données, enchaîner les traitements en plaÁant des opérateurs les uns à la suite des autres. Il est possible d'explorer différentes voies de traitements à partir des mÍmes données, ceci pour tester différentes hypothèses d'analyse et comparer les résultats obtenus.

Le choix de la structure arborescente (TreeView) permet de simplifier la gestion des chaînes de traitements, tant au niveau de la programmation qu'au niveau de l'utilisation du logiciel. Des analyses très complexes peuvent Ítre menées et représentées aisément. A contrario, il n'est pas possible de procéder à des fusions dans le graphe de traitement, comme on le voit souvent dans les logiciels graphiques, il n'est pas possible par exemple de procéder automatiquement à des regroupements de plusieurs sources de données.

Résultats

Les opérateurs de TANAGRA produisent, la plupart du temps, des sorties au format HTML. Cette standardisation permet d'exporter facilement les résultats vers un logiciel d'édition, EXCEL(c) par exemple, pour un éventuel post-traitement.

Les sorties comportent généralement deux parties : la description des paramètres du traitement demandé, et les résultats associés.

La choix du format HTML a une seconde conséquence, l'exportation des résultats pour une lecture en dehors du logiciel est simplifiée. Il en est de mÍme pour les impressions.

Lorsque cela est nécessaire, il reste possible de produire des résultats dans une fenÍtre dans laquelle l'utilisateur peut agir de manière interactive. Il en est ainsi par exemple pour l'opérateur "Graphique X-Y", l'utilisateur peut modifier à la souris les variables en abcisses et ordonnées pour mieux comprendre la distribution des points.


Dernière modification : 12 janvier 2004.