Title: Apprendre et optimiser la courbe ROC Une application mdicale
1Apprendre et optimiser la courbe ROCUne
application médicale
CAP03
Michèle Sébag, Jérôme Azé, Noël Lucas
2Les risques dathérosclérose
- Les données
- Les buts
- Reformuler le problème
- Utilisation des courbes ROC
- Résultats
- Conclusion
3Lathérosclérose
- Association variable de remaniement de la paroi
des artères consistant en une accumulation de
lipides, de produits sanguins et de dépôts
calcaires le tout saccompagnant de
modification de diamètre et de la solidité du
vaisseau (OMS)
4Une plaque dathérosclérose
5(No Transcript)
6Doù viennent les données
- Collecte des données sur 20 ans
- St Charles University,
- Academy of Sciences, Prague
- Contexte un challenge européen
- Helsinki, Août 2002
- European Conference on Machine Learning
- Principles and Practice of Knowledge Discovery in
Databases - http//lisp.vse.cz/challenge/ecmlpkdd2003/
7Deux bases de données
- Entry (cliché informations familiales)
- 1419 hommes dage moyen
- 219 attributs
- 3 classes (normal, à risque, pathologique)
- Control (suivi sur 20 ans 1976-1999)
- 10610 examens
- 66 attributs (changements, maladies, examen bio,
)
8Objectifs
- But
- Prévention des maladies cardio-vasculaires
- Identification des facteurs de risque
- Questions
- Quels facteurs sont importants ?
- Comment interagissent-ils ?
- Analyse exploratoire des données
9Difficultés 1
- Remarque (1) et (2) sont renseignés dans la
base - (3) est une information cachée
- ? Identification des conditions nécessaires
- mais pas des conditions suffisantes
10Difficultés 2
Description détaillée ? creuse Infarctus de la
4ème sur, renseigné 4 fois dans la base
11Redescription des données
- Métaphore Le corps est un pont
- La robustesse initiale du pont anamnèse
familiale - La robustesse courante du pont attributs
personnels - Le trafic qui charge le pont alcool, tabac,
- Redescription des facteurs de risque en utilisant
cette métaphore et avec laide intensive de
lexpert - Facteurs familiaux 160 var? 9 var, (ANAES1)
- État de santé 32 var ?16 var
- Intoxication (tabac, alcool) 13 var ?2 var
1 Agence Nationale dAccréditation et Évaluation
en Santé
12Difficulté 3Communication avec lexpert
- Approches usuelles
- Apprentissage artificiel
- Fouille de données ? des hypothèses
(nombreuses) - Lexpert dit oui ou non.
- Approche proposée
- Représentation du risque ? des graphiques
- Lexpert dit ceci suggère que
- Using vision to think
- Card, Mackinlay, Schneiderman, 1999
13Classes de risque ? Indicateur de risque
- Besoin
- Une perception fine du risque
- (risque du patient X gt risque du patient Y)
- Objectif
- Apprendre un indicateur (numérique) de risque
- Approche
- Un critère dévaluation la courbe ROC
- Un moteur doptimisation algorithmes génétiques
- (problème doptimisation mixte, combinatoire et
numérique)
14La courbe ROC(Receiver Operating Characteristics)
- Évaluation dun test médical compromis entre
- Taux de vrais positifs (sensibilité médicale)
- Taux de vrais négatifs (spécificité médicale)
Vrais positifs
Faux positifs
15Aire sous la courbe ROC
- Critère plus fiable que la précision (Ling,
Huang, Zhang, AI03) - Insensible à la distribution
- Indépendant des coûts derreur
- De plus en plus utilisé en apprentissage
supervisé - Ferry, Flach, Hernandez-Orallo, ICML2002
- Mozer et al., NIPS01
16Algorithme, 1
- Espace de recherche / espace des hypothèses
- Combinaison linéaire des attributs
- h(Ex) ??i x atti (Ex) avec (Ex, /-)
- Qualité dune hypothèse Aire sous la courbe ROC
- h ? (risque(Ex), Etiq(Ex))
- Trier les exemples par risque croissant
- --------------------
- malade (exemple positif pour
lathérosclérose) - - sain (exemple négatif pour lathérosclérose)
-
17Algorithme, 2
- Critère à optimiser
- maximiser laire sous la courbe ROC
- ? minimiser la somme des rangs des ex.
positifs -
?rang 21
?rang 25
?rang 26
18Algorithme, 3
- Moteur doptimisation
- Stratégies dévolution (utilisation dEvolC)
- Validation expérimentale
- 2/3 apprentissage , 1/3 test
- 21 exécutions indépendantes
- Calcul de la courbe ROC médiane
19Évaluation et courbe ROC
- Courbe médiane, comparaison avec Machines à
Vecteurs Supports
20Évaluation et courbe ROC
Pathologique
Risque
À risque
Normal
Individus triés par risque croissant
21Analyse de sensibilité
- Exploitation des 21 runs (algs. Stochastique)
22Analyse dimpact le facteur tabac
- Procédure
- A 100 individus non fumeurs
- B 100 individus gros fumeurs
- Ordonner A et B par risque croissant
- Tracer (i, risque(i))
23Impact du tabac
24Impact de lalcool
25Conclusion et perspectives
- Mériter lattention dun expert médecin
- Un algorithme stable
- Des résultats précis et lisibles
- La retenir
- Explorer des hypothèses que se passe-t-il si ?
- Je fige limportance de lalcool, de lanamnèse
familiale que devient limportance de léducation
? - Extension de comités dexperts
- Apprendre la fonction dintérêt de lutilisateur