Antoine Cornu - PowerPoint PPT Presentation

About This Presentation
Title:

Antoine Cornu

Description:

Pertinence et sous-ensemble d'attributs pertinents. 3- M thodes de ... peut tre tir e avec une probabilit non nulle (ou appartient l' chantillon) ... – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 44
Provided by: Anto179
Category:

less

Transcript and Presenter's Notes

Title: Antoine Cornu


1
Sélection dattributs
  • Antoine Cornuéjols

CNAM-IIE et L.R.I., Université de Paris-Sud,
Orsay (France) antoine_at_lri.fr http//www.lri.fr/a
ntoine/
2
Cours plan
  • 1- Pourquoi sélectionner les attributs
  • 2- Définition du problème
  • Pertinence et sous-ensemble dattributs
    pertinents
  • 3- Méthodes de sélection
  • Trois familles dapproches
  • Mesures de pertinence
  • Détermination du seuil
  • 4- Étude de cas

3
Pourquoi la sélection dattributs
  • Facteurs sans influence ou peu influents
  • Facteurs redondants
  • Dimension des entrées telle que coût de
    lapprentissage trop grand

4
Pourquoi la sélection dattributs
  • Apprentissage moins coûteux
  • Faciliter lapprentissage
  • Meilleure performance en classification
  • Meilleure compréhensibilité de lhypothèse
  • Identifier les facteurs pertinents
  • Génomique
  • Vision

5
La sélection dattributs
  • Idéalement
  • Identifier le sous-ensemble dattributs de taille
    minimale nécessaire et suffisant pour définir le
    concept cible
  • Classiquement
  • Sélectionner un sous-ensemble dattributs de
    taille n lt d, tel quun critère soit optimisé par
    rapport à tous les sous-ensembles de taille n.
  • Amélioration de lerreur en classification
  • Apprentissage supervisé
  • Rester proche de la distribution originale des
    classes
  • Apprentissage non supervisé

6
Pertinence dun attribut
  • Non pertinent ou redondant
  • Si sa présence naméliore pas
  • Lerreur en classification (supervisé)
  • La proximité à la distribution originale des
    classes (non supervisé)

7
Définitions de la  pertinence 
Blum Langley, 97, Bell Wang, 00
  • Pas de définition unique car dépend du domaine
  • Par rapport à la cible
  • di est pertinent si ? une paire dexemples ne
    différant quen di et de classes différentes
  • Idem par rapport à la distribution (ou à
    léchantillon)
  • Idem, sauf que la paire dexemples peut être
    tirée avec une probabilité non nulle (ou
    appartient à léchantillon)
  • Faible pertinence
  • Si pertinent quand on retire un sous-ensemble des
    attributs

8
Le problème de la sélection dattributs
  • Recherche parmi tous les sous-ensembles
    dattributs
  • Pour une taille n
  • 2n sous-ensembles candidats
  • Généralement prohibitif

9
Le problème de la sélection dattributs
  • Problème NP-difficile
  • Mais a priori plus simple que celui de la
    classification (apprentissage de la relation de
    dépendance)
  • E.g. Supposons 3 attributs binaires et fonctions
    booléennes

a1 a2 a3 XOR
0 0 0 -
0 0 1
0 1 0
0 1 1 -
1 0 0 -
1 0 1
1 1 0
1 1 1 -
fonctions possibles
Mais seulement 10 tris possibles sur les
attributs (e.g. (a1,a2,a3)) Et 4 seuils
10
Le problème de la sélection dattributs (2)
  • Pourtant il manque une théorie fournissant des
    garanties sur la qualité des classements
    (analogue à la théorie statistique de
    lapprentissage)
  • Pas déquivalent du risque empirique
  • Tâche non supervisée

11
Procédure générale
  • Dash Liu, 1997

12
Procédure générale
  • Génération (exploration dun espace de
    recherche)
  • Initialisation un attribut / tous / un
    sous-ensemble
  • Opérateurs de recherche ajout ou retrait
    attribut par attribut
  • Évaluation
  • Mesure de la valeur du sous-ensemble dattributs
  • Critère darrêt
  • dattributs pré-défini atteint ou
    ditérations atteint
  • Amélioration insuffisante
  • Méthode de témoins
  • Validation
  • E.g. par validation croisée

13
Critères darrêt
  • Evaluation passe en-dessous dun certain seuil
  • Méthode par  témoin 
  • Inclure des attributs aléatoires
  • Ne pas retenir les attributs dont lévaluation
    est en-dessous

14
Les approches
  • Approche intégrée ( embedded )
  •  Wrapper methods  (approche symbiose)
  • Utilisent la performance en aval pour
    sélectionner les attributs
  • Deux stratégies
  • Ascendante ( forward selection )
  • Par ajouts successifs dattributs
  • Descendante ( backward selection )
  • Par retraits successifs dattributs
  •  Filter methods  (approche par filtre)
  • Indépendantes des traitements aval

Blum Langley, 97 Guyon Elisseeff, 03
15
Approche  filter 
16
Approche  wrapper 
17
Hypothèse de linéarité
  • Chaque attribut est évalué indépendamment des
    autres

18
Mesures de pertinence
  • Exemples
  • Mesures dinformation
  • Mesures de distance
  • Mesures de dépendance
  • Critère de cohérence
  • Mesures de précision

19
Mesure dinformation
  • Entropie dune variable X
  • Entropie de X après observation de Y
  • Gain dinformation

20
Critère de cohérence
  • Chercher un sous-ensemble minimal dattributs
    maintenant la cohérence
  • Une incohérence survient lorsque 2 exemples ont
    la même description mais sont de classes
    différentes
  • Remarque
  • Valide seulement pour des attributs à domaine fini

21
Mesures de précision
  • Utilisation dun système de classification pour
    mesurer la précision

22
Critères de performance
  • Hypothèse de distribution paramétrique N (m,s)
  • Comparaison à hypothèse nulle locale ANOVA
  • Idem (mais différent) SAM
  • Méthodes non paramétriques
  • Critère heuristique RELIEF

23
Utilisation dANOVA
  • Deux classes (Irradiée / Non Irradiée)
  • N(m1,s) et N (m2,s)
  • Comparaison
  • Variance intra-classe
  • Variance inter-classes
  • Hypothèse nulle H0 m1 m2
  • Rejet si

significativement trop grand par rapport aux
quantiles de la foi F (k-1,n-k)
24
SAM (Significance Analysis of Microarrays)
  • Pour chaque gène

Constante gt 0
  • déviation standard
  • Gènes potentiellement significatifs gènes dont
    le score d(g) est supérieur au score moyen du
    gène obtenu après permutations des classes, de
    plus dun certain seuil D
  • Calcul du nombre de gènes faussement
    significatifs nombre moyen de gènes faussement
    significatifs pour chaque permutation
  • Taux de fausse découverte (FDR)

25
RELIEF (1)
  • Kira Rendell,92, Kononenko,94
  • Les attributs les plus pertinents sont ceux qui
    varient plus lorsque lexemple (lame) considéré
    change de classe que lorsquil ne change pas
  • Complexité faible
  • Grande résistance au bruit

26
RELIEF (2)
27
RELIEF (3)
  • Une lame L est vue comme un point dans un espace
    à p 6135 dimensions
  • On cherche ses k plus proches voisins dans la
    même classe et on note H (nearest Hit) leur
    barycentre.
  • On calcule ses k plus proches voisins dans
    lautre classe et on note M (nearest Miss) leur
    barycentre.
  • où est la
    projection selon gène du point x, et m est le
    nombre total de lames.
  • Le poids calculé pour chaque gène gène est ainsi
    une approximation de la différence de deux
    probabilités comme suit 
  • Poids(gène) P (gène a une valeur différente /
    k plus proches voisins dans une classe
    différente) - P
    (gène a une valeur différente / k plus proches
    voisins dans la même classe)
  • Algorithme polynomial Q(pm2)
  • Rôle de k prise en compte du bruit

28
Comparaison
  •  Filter methods 
  • Hypothèse de linéarité
  • Peu coûteuses
  •  Wrapper methods 
  • Coûteuses
  • Plus précises ?
  • Pas bonnes si m ltlt d
  • Biaisées ?

29
Etude de cas les faibles radiations
  • Danger indiscutable dans certains cas. En
    particulier pour les fortes doses dirradiation.
  • Quel impact des faibles doses ?
  • Biologiquement aucun détecté
  • Y a-t-il des effets au niveau desgènes ?

30
Protocole expérimental
  • S. Cerevisiae en croissance exponentielle
    (séquencée complètement et eucaryote avec peu de
    gènes).
  • Six cultures (Irradiées I) exposées pendant 20
    heures entre 15 et 30 mGy/h
  • Douze cultures non exposées (Non Irradiées NI)
  • Mesure effectuées sur puce Corning où
    lhybridation a été faite avec double marquage
    fluorescent (Cy3 pour les cADN contrôles et Cy5
    pour les cADN étudiés).

31
Questions des biologistes
  • Lirradiation à de faibles doses est-elle
    détectable ?
  • Nombre de gènes impliqués dans la réponse à une
    irradiation à faible dose ?
  • Groupes de gènes impliqués dans la réponse à
    lirradiation et de quelle manière ?
  • Est-il possible de deviner le traitement subi par
    une levure en regardant lexpression de son
    génome ?
  • Peut-on généraliser cette approche à dautres
    types de traitements (pollutions, cancer, ...)

32
 Précarité  des données
  • Extrêmement peu de données / dimension (12 -
    (non irradiées) 6 (irradiées) vs. 6135
    gènes)
  • Données imparfaites
  • Bruit expérimental
  • Irradiation
  • Puces à ADN
  • Prétraitement et normalisation
  • Pas idéales
  • Déséquilibre des classes et -
  • Absence dindépendance conditionnelle entre les
    gènes

33
Sélection des attributs
  • Y a-t-il vraiment de linformation dans les
    données ?
  • Quels gènes retenir ?
  • Avec quelle confiance ?

34
Hypothèse nulle globale
Nombre de gènes dont le poids dépasse la valeur
repérée en abscisse rouge Avec les classes
réelles bleu Courbe moyenne obtenue avec
des classes aléatoires
35
Hypothèse nulle globale
Nombre de gènes dont le poids dépasse la valeur
repérée en abscisse rouge Avec les classes
réelles bleu Courbe moyenne obtenue avec
des classes aléatoires
36
Précision ou rappel choix dun seuil
  • Il faut choisir entre
  • Une liste contenant presque tous les gènes
    impliqués mais comportant des faux-positifs
  • Une liste de gènes impliquées de manière
    quasi-certaine dans la réponse à lIrradiation
    (quitte à ne pas avoir tous les gènes impliqués)
  • Problème du seuil

37
Combinaison de méthodes ?
  • Peut-on faire mieux avec deux méthodes ?
  • Est-ce mieux de prendre lintersection de leurs
    sélections ?
  • Doit-on avoir plus de confiance dans la valeur du
    résultat ainsi obtenu ?

38
Intersections (1)
  • Pour les 500 meilleurs gènes de chaque technique
    (poids 0.2)

ANOVA
ANOVA
RELIEF
278
SAM
409
RELIEF
Pour les 35 meilleurs (poids 0.5)
0
0
8
SAM
ANOVA
39
Intersections (2)
  • Est-ce que ces intersections sont significatives
    ?
  • Problème
  • Étant données 2 méthodes sélectionnant au hasard
    chacune n gènes parmi N gènes, quelle est la
    probabilité que ces deux paquets de n gènes aient
    une intersection de cardinal supérieur ou égal à
    k ?
  • gt loi hypergéométrique H(n, N-n, k)
  • avec N 6157
  • n 500 P (taille intersection ? 257 )
    10-169
  • n 35 P (taille intersection ? 8 ) 10-12
  • Le biologiste est satisfait !

40
Répartition des meilleurs gènes
41
Interprétation biologique
42
Problèmes
  • Attributs corrélés
  • Quasi absence de fondements théoriques
  • Tri plutôt que sélection
  • Boosting de tris ?
  • Nouveau domaine de recherche

43
Bibliographie
  • Blum, A. and Langley, P. (1997) Selection of
    relevant features and examples in machine
    learning. Artificial Intelligence journal (97).
    245-271.
  • Dash, M. and Liu, H. (1997) Feature selection for
    classification. Intelligent Data Analysis, 1.
    131-156.
  • Guyon, I. and Elisseeff, A. (2003) An
    introduction to variable and feature selection.
    Journal of Machine Learning Research, 3.
    1157-1182.
Write a Comment
User Comments (0)
About PowerShow.com