Title: tude comparative des transcrits issus de tissus cancreux versus des transcrits issus de tissus sains
1Essai de discrimination de la sévérité de
lallergie à larachide
O.Collignon1,2, J.M.Monnez1, P.Vallois1 F.Codrean
u3, J.M.Renaudin3, G.Kanny3, B.E.Bihain2,
S.Jacquenet2, D.Moneret-Vautrin3
- Institut Elie Cartan, UMR 7502, Nancy Université,
CNRS, INRIA, BP 239, 54506, Vandoeuvre-lès-Nancy,
France - Genclis SAS, 15 rue du Bois de la Champelle,
- Centre Hospitalier Universitaire, Service
d'allergologie, 29 av. Mar De Lattre de Tassigny,
54000 Nancy, France
Journée Apprentissage Nancy, le 9 juin 2009
Fédération Charles Hermite
2Lallergie à larachide
Une allergie est une réaction exagérée du système
immunitaire vis-à-vis de substances étrangères en
principe sans danger pour lhomme.
Lallergie à larachide
? 2e aliment impliqué dans des réactions
allergiques chez lenfant
? Touche 0.5 à 1 de la population
? Peut causer la mort
? Très rares cas de guérison spontanée
? Pas de traitement disponible
? Seule solution le régime déviction stricte
3Le test de provocation orale (TPO)
Faire manger de larachide à une personne dont on
soupçonne lallergie jusquà voir apparaître des
symptômes
4Le score de sévérité du TPO
5La dose réactogène (DR)
Administration des doses ingérées
Le TPO est stoppé lorsque les premiers symptômes
apparaissent et la sévérité de la réaction est
évaluée par le score précédent
15 mg
65 mg
215 mg
495 mg
965 mg
Les doses darachide sont administrées par
paliers on connaît seulement lintervalle
auquel appartient la dose réactogène.
6Le problème
Grâce au dossier médical du patient, on peut
également construire selon la même graduation que
celle du TPO un score du premier accident.
- On dispose donc de trois mesures de la sévérité
de lallergie à larachide - Le score du TPO
- Lintervalle de la dose réactogène
- Le score du premier accident
Est-il possible de les prédire correctement avec
un nombre raisonnable de variables facilement
mesurables ?
Une allergie est caractérisée par la présence
danticorps (ou immunoglobulines).
Deux types de mesures permettent de mettre en
évidence la présence danticorps.
7Les variables
1. Les dosages immunologiques (à partir dune
prise de sang)
_ les IgE (immunoglobulines de type E) totales,
_ les IgE spécifiques de larachide (f13), les
IgE spécifiques de certaines protéines
particulières contenues dans larachide _
rAra-h1, _ rAra-h2 (une autre étude que nous
avons effectuée montre que rAra-h2 permet de bien
discriminer les allergiques à larachide des
atopiques) _ rAra-h3, _ rAra-h8.
Les dosages immunologiques sont des variables
continues.
8Les variables
2. Les tests cutanés ou prick-tests
7 légumineuses (pois chiche, fève, lentille,
haricot sec, petit pois, soja, lupin), 11
fruits à coque (amande, noix, noisette, noix de
cajou, noix du Brésil, noix de Macadamia, noix de
pécan, pistache, pignon, châtaigne, arachide
grillée), 12 pneumallergènes (Dermatophagoïdes
Pteronyssinus (acariens), Alternaria, blatte,
poils de chat, poils de chien, 12 graminées,
bouleau, armoise, plantain, frêne, colza, latex).
On mesure le diamètre de la papule, que lon
rapporte au diamètre de la papule pour un test à
la codéine. Les prick-tests sont des variables
continues.
9Les données
- Une étude clinique a été menée sur 93 patients
allergiques, âgés de 3 à 18 ans et ayant un TPO
positif, sur lesquels sont effectués - 6 dosages immunologiques,
-
- 30 tests cutanés,
- et pour lesquels on connaît le score du TPO,
lintervalle de la dose réactogène ainsi que le
score du premier accident pour 54 dentre eux. -
But mener des analyses discriminantes afin de
prédire ces 3 mesures de sévérité en connaissant
uniquement les valeurs des 36 variables
explicatives.
Remarque Parmi les variables explicatives, les
prick-tests sont beaucoup plus nombreux que les
dosages et pourraient avoir un poids plus
important dans le modèle.
10Lanalyse discriminante
- Cadre détude
- On dispose des observations de variables sur un
ensemble dindividus - . y variable expliquée qualitative à q
modalités exclusives - . x1, , xp variables explicatives
quantitatives. - Lanalyse discriminante, dont le but est de
discriminer les classes induites par les
modalités de y à laide des variables x1,,xp, va
se dérouler en trois phases - Première phase sélection parmi x1,,xp de
variables discriminantes. - Deuxième phase définition dune méthode de
classement (ou classification supervisée) à
partir dun ensemble dapprentissage EA. - Troisième phase validation de la méthode de
classement à partir dun ensemble de validation
EV.
11Etude statistique pour les scores du TPO et du
premier accident
Sélection des variables discriminantes par
le test de Kruskal-Wallis ou sélection
pas-à-pas progressive par le lambda de Wilks
12Sélection de variables discriminantes
- Test de KRUSKAL-WALLIS
- test de comparaison des lois dune variable xj
dans les classes induites par les modalités de y.
Si lon conclut que les lois sont différentes, la
variable est retenue comme discriminante. - Sélection pas-à-pas ascendante
- au premier pas, on détermine la variable xj la
plus discriminante au sens dun critère de
discrimination - au deuxième pas, on lui adjoint une deuxième
variable telle que le couple soit le plus
discriminant parmi les couples contenant la
première variable on teste si la variable
introduite améliore significativement la
discrimination si ce nest pas le cas, on
arrête - et ainsi de suite.
- Dans la méthode progressive, on teste à chaque
pas le pouvoir discriminant en présence des
autres de chaque variable déjà introduite.
13Facteurs dune ACP ou dune AFM
- En ACP normée, on représente un individu de EA
par un point de Rp qui a pour coordonnées les
valeurs centrées réduites des variables
explicatives x1, ,xp. Chaque variable a alors la
même importance dans la définition de la distance
euclidienne usuelle entre deux points. - On détermine alors un sous-espace de Rp tel que
par projection sur ce sous-espace, le nuage de
points obtenu soit limage la plus fidèle
possible du nuage de points initial (distances
conservées au mieux dans leur ensemble par
projection). - Les axes dune base orthonormée de ce sous-espace
passant par lorigine (axes dinertie maximale)
représentent de nouvelles variables combinaisons
linéaires des variables centrées réduites
initiales, qui sont non corrélées et de variance
maximale, appelées facteurs. - En AFM, lensemble des variables est a priori
divisé en groupes (ici, deux). On définit une
distance pondérée de telle manière que chaque
groupe de variables ait la même importance dans
la détermination des facteurs.
14Etude statistique pour les scores du TPO et du
premier accident
Sélection des variables discriminantes par
le test de Kruskal-Wallis ou sélection
pas-à-pas progressive par le lambda de Wilks
15Méthodes de classement
- A partir des valeurs de x1,,xp, on prédit la
modalité de y. - LDA un individu à classer est représenté dans
Rp par un point a qui a pour coordonnées les
valeurs de x1,,xp. Chaque classe correspondant à
une modalité k de y est représentée par un
ensemble de points de EA dont on détermine le
barycentre gk. On définit une distance d(a,gk).
On affecte lindividu à la classe à distance
minimale. - QDA On définit une distance spécifique à chaque
classe k, dk(a,gk), et on applique le principe
précédent. - kNN On détermine dans Rp les k points de EA les
plus proches de a on détermine la fréquence de
chaque classe en y dans cet ensemble de points.
On affecte lindividu a à la classe de fréquence
maximale. -
16Méthodes de classement (2)
- 4) Segmentation (CART)
-
- Premier pas lensemble EA est divisé en deux
segments xjltc et xjgtc, - j et c étant choisis de telle manière que la
distance entre ces deux segments - relativement à y soit maximale.
-
- Deuxième pas chacun de ces deux segments est
lui-même divisé en deux segments selon le même
principe. - Et ainsi de suite.
- On obtient ainsi un arbre de segmentation.
- Etant donné un individu à classer, on laffecte
daprès ses caractéristiques à un des segments
terminaux. On détermine la modalité de y de
fréquence maximale dans ce segment. On affecte
lindividu à la classe correspondante.
17Validation croisée
- Cette méthode de validation est utilisée
lorsquon ne dispose pas dindividus en nombre
suffisant. - On divise lensemble des individus en m parties
de même cardinal. Par exemple, m4 on a les
parties 1, 2, 3, 4. - On prend pour EA la réunion des parties 2, 3, 4,
et pour EV la partie 1. On définit la règle de
classement à partir de EA, et on lapplique aux
individus de EV, dont on connaît le classement
réel. On détermine ainsi le nombre dindividus de
EV bien classés, cest-à-dire classés dans leur
classe réelle. - On recommence trois fois, en prenant pour EV
successivement les parties 2, 3, 4. - On calcule le pourcentage dindividus bien
classés qui est une mesure de la qualité de la
règle de classement et permet de comparer
différentes règles.
18Etude statistique pour la dose réactogène
Algorithme de classification des intervalles
consécutifs de DR et de sélection des variables
discriminantes des classes simultanées
19Classification et sélection
- On dispose de 23 intervalles de dose réactogène.
Un certain nombre dintervalles sont
sous-représentés dans lensemble de 93 individus. - En réunissant des intervalles consécutifs, on va
en réduire le nombre. Selon quel critère faire le
regroupement (ou classification) ? - Idée déterminer simultanément la classification
et les variables discriminantes en optimisant un
critère de discrimination. - A regroupement fixé, on peut déterminer les
variables les plus discriminantes - à ensemble de variables discriminantes fixé, on
peut déterminer le regroupement qui optimise le
critère. - On définit un algorithme doptimisation alternée.
20Résultats les variables discriminantes
21Résultats score du premier accident
Dans le tableau suivant sont indiqués
_ la meilleure règle de classement en fonction du
type de prédicteurs et du nombre de classes,
_ les pourcentages de bien-classés et les
pourcentages de patients dont lallergie est
sévère qui sont bien classés.
22Résultats score du TPO
Dans le tableau suivant sont indiqués
_ la meilleure règle de classement en fonction du
type de prédicteurs et du nombre de classes,
_ les pourcentages de bien-classés et les
pourcentages de patients dont lallergie est
sévère qui sont bien classés.
23Résultats dose réactogène
Dans le tableau suivant sont indiqués
_ la meilleure règle de classement en fonction du
type de prédicteurs et du nombre de classes,
_ les pourcentages de bien-classés et pourcentage
de patients dont lallergie est sévère qui sont
bien classés.
24Conclusions
_ A notre connaissance, les analyses
discriminantes proposées dans cette étude sont
les premières à avoir été réalisées. Elles
constituent un premier pas vers la conception
dun test simple et sans danger de diagnostic de
sévérité de lallergie à larachide. _ Les
résultats sont encourageants malgré un certain
nombre de limites imprécision de la mesure des
prick-tests, premier accident éventuellement mal
renseigné, influence inconnue de facteurs de
confusion (prise de médicaments, efforts). _ La
taille de lensemble dapprentissage est
insuffisante. En particulier, il serait
souhaitable de valider les modèles sur un jeu
indépendant de données. _ Les résultats
suggèrent que certains dosages immunologiques
peuvent jouer un rôle important pour la
prédiction de la sévérité de lallergie à
larachide. Dautres dosages existent et peuvent
être introduits dans le modèle. _ La sélection
des variables discriminantes met en évidence de
nouvelles variables dintérêt dans la prédiction
de la sévérité (ex blatte, frêne) , en
éliminent dautres (ex latex, noix de Brésil),
et en confortent certaines (ex lupin). Ces
constatations si elles sont confirmées devront
être validées biologiquement.
25Conclusion
- TOUS LES MODELES SONT FAUX, CERTAINS SONT UTILES.
26Le diagnostic dallergie à larachide
27Détection et mesure des IgE spécifiques par
ELISA (Enzyme-Linked ImmunoSorbent Assay)
28ACP des variables cercle des corrélations
29LAnalyse Factorielle Multiple
Supposons que lon dispose de p variables
mesurées sur n individus et divisées en q groupes
xk,1,...,xk,mk, k1,,q, où mk est le nombre
de variables du groupe k , avec m1mkp.
Notons Xk la matrice des données correspondant au
k-ième groupe de variables , et X(X1Xq) la
matrice des données pour lensemble des variables.
Pour le k-ième groupe de variables, on choisit
une métrique Mk dans Rmk.
Soit D la matrice diagonale des poids des
individus.
- LAFM se déroule en deux étapes
- Pour tout k1q, on réalise lACP (Xk,Mk,D) et on
note ?1k la plus grande valeur propre, - associée au premier facteur.
- 2. On réalise lACP (X,M,D), avec la métrique M
définie dans Rp par
30Un algorithme pour létudede la dose réactogène
La nature de la dose réactogène ne permet pas de
faire une régression, ni une analyse
discriminante (23 modalités dont certaines
sous-représentées).
Idée regrouper les intervalles de la dose
réactogène en un nombre limité de classes, tout
en choisissant les variables qui discriminent au
mieux ces classes.
-gt Algorithme doptimisation alternée par le
critère ? de Wilks (donne une règle darrêt)
-gt Stratégie pas-à-pas pour limiter les calculs
Pas 1 on cherche la partition C1 en réunions
dintervalles de la dose réactogène qui minimise
?, calculé avec les tous les prédicteurs (i.e.
variables ou facteurs) disponibles
on choisit le prédicteur v1 qui minimise ?
correspondant à la partition C1 précédemment
trouvée
Pas 2 on cherche la partition C2 en réunions
dintervalles de la dose réactogène qui minimise
?, calculé avec le prédicteur v1 précédemment
trouvé
on choisit le prédicteur v2 tel que le couple de
prédicteurs (v1,v2) minimise ? calculé avec la
partition C2
et ainsi de suite
Pas n la procédure s'arrête si aucun des
prédicteurs restants ne peut améliorer le pouvoir
discriminant du modèle, i.e. , si la p-valeur de
la statistique F d'entrée est plus grande que
0.15, ou si tous les prédicteurs ont déja été
sélectionnés.
31Exemple en 4 classes avec les variables