Spv learning assessment

Principe

Cette section regroupe les opérateurs qui permettent d'évaluer les performances des méthodes d'apprentissage supervisé. La performance étant le plus souvent traduit en évaluation plus ou moins non biaisée dutaux d'erreur en classement.

Ce type de composant n'a aucune existence propre, il est nécessairement placé tout de suite après un composant méta-apprentissage supervisé

Il existe plusieurs articles qui permettent de comprendre et situer les différentes méthodes :
D. Zighed, R. Rakotomalala, "Graphes d'induction : Apprentissage et Data Mining", Hermès, pp.237-262, 2000.
R. Kohavi, "Wrappers for performance enhancement and oblivious decision graphs", PhD Thesis, Stanford University, 1995.
T. Dietterich, "Statistical tests for comparing supervised learning algorithms", Technical Report, Oregon State University, 1996.

La plupart des méthodes proposées dans cette section fonctionnent sur le modèle apprentissage-test, par subdivision de la base initiale. Dans TANAGRA, cette subdivision est effectuée sur le premier opérateur, l'accès aux données : au-delà du composant "apprentissage supervisé", c'est bien toute la chaîne de traitement qui est donc évaluée, notamment les opérateurs intermédiaires de transformation, sélection, des données.

Statut des variables

Idem opérateurs "apprentissage supervisé".

Opérateurs de Spv learning assessment

Opérateur Description Paramétrage Remarques

Train-Test
Subdivision en apprentissage et test de l'échantillon initial, apprentissage sur la première partie de la base, et évaluation de l'erreur sur la seconde partie. - Proportion de la base utilisée pour l'apprentissage (le reste est utilisée pour le test).
- Nombre de répétitions des sessions apprentissage-test

Cross-validation
Validation croisée, il est possible de répeter plusieurs fois la validation croisée pour avoir une idée, non seulement de la valeur de l'erreur, mais également de sa distribution.. - Nombre de "folds".
- Nombre de répétitions de la validation croisée.
Plusieurs travaux (Kohavi, Dieterrich) convergent pour montrer que la 5 2-folds validation croisée donne une estimation efficace de l'erreur.

Dernière modification : 12 janvier 2004.