Sélection d'individus

Principe

Cette section regroupe les opérateurs destinés à sélectionner le sous-ensemble des individus réellement utilisés pour les calculs (modélisation, apprentissage, etc.) dans la chaîne de traitement en aval. De manière générale, les opérateurs de cette famille subdivise l'ensemble de données en deux blocs, les individus actifs et les individus inactifs.

Cette famille d'opérateurs intervient souvent dans les chaînes de traitement. Si, de manière générale, les calculs peuvent Ítre restreints sur un sous-ensemble d'individus, les projections sont toujours réalisées sur la totalité des exemples.

Statut des variables

Aucun paramétrage préalable des variables n'est nécessaire.

Opérateurs de sélection d'individus

Opérateur Description Paramétrage Remarques

Sampling
Echantillonnage simple, sans remise.

Echantillonnage séquentiel avec mise à jour des probabilités, de complexité O(N), cf. article de J.M Grosbras.

- Taille de l'échantillon demandé : en pourcentage de la base initiale, ou en absolu.

Stratified Sampling
Echantillonnage simple, sans remise, avec attribut de stratification. - Attribut de stratification, forcément catégoriel.
- Type de stratification : échantillon équilibré ou respectant la répartition de l'attribut de stratification.
- Taille de l'échantillon demandé : en pourcentage de la base initiale, ou en absolu.
Cet opérateur ne peut fonctionner que s'il y a au moins un attribut catégoriel dans l'ensemble de données.

Recover examples
Permet d'inverser la sélection des individus actifs - Rendre actifs : tous les individus, ou uniquement ceux qui étaient inactifs.

Dernière modification : 12 janvier 2004.