Title: Evaluation des performances des tests diagnostiques en absence de Gold Standard
1Evaluation des performances des tests
diagnostiques en absence de Gold Standard
- Christophe Combescure
- Laboratoire de Biostatistique, IURC
2Problématique
- Indicateurs classiques des performances
- Sensibilité(q)ProbTgtqD1
- Spécificité(q)ProbTltqD0
- Linformation malade/non malade est donnée par le
Gold Standard (GS), supposé parfait. - Mais en pratique le GS est aussi un test
diagnostique - Conséquences
- La sensibilité et la spécificité représentent la
capacité du test diag. à reproduire les résultats
du GS. - Il est impossible de montrer quun test
diagnostique est meilleur que le GS. - Le GS peut ne pas exister (psychiatrie), ou ne
peut pas être mis en œuvre (coût,).
Malade Malade
oui Non
Test évalué A B
Test évalué - C D
3K tests diagnostiques binaires
- Contexte GS absent.
- Soient K tests binaires et R le vecteur aléatoire
de leurs résultats et D la variable malade/non
malade . Alors - Et la log vraisemblance des données observées
sécrit - D est la classe latente. En complétant les
données observées par la variable D, alors les
données observées se décomposent en deux
effectifs latents - où Xr (resp. Yr) est leffectif des non malades
(resp. malades) ayant le résultat aux tests R
4- La log vraisemblance des données complètes
sécrit - Cette log vraisemblance se maximise facilement
- Doù lutilisation de lalgorithme EM.
5Généralités sur lalgorithme EM
- La log vraisemblance des données observées est
notée - On suppose que les données Y sont complétées par
Z de telle manière que lestimation des
paramètres en maximisant la vraisemblance des
données complètes est possible. - On note
- Etape E calcul de
- (revient dans les fait à estimer les effectifs
latents par leur espérance conditionnelle) - Etape M
6- Remarque
- Convergence mais vers des points stationnaires
- Variance des estimateurs (T. Louis, 1982)
- On note H(qq(k)) lespérance du log de la
vraisemblance de la variable Z conditionnellement
à la variable Y - Les variances des paramètres estimés peuvent se
déduire en utilisant la matrice dinformation de
Fisher. La matrice dinformation de Fisher se
décompose en deux termes
7Retour aux K tests binaires
- Nécessité de poser des hypothèses sur les
probabilités conjointes des scores sinon il y a
surparamétrisation - Hypothèse dindépendance conditionnelle entre les
tests hypothèse la plus simplificatrice - Le nombre de paramètres devient 2K1, le nombre
de ddl est 2K-1. - Nécessité que Kgt2
- Etape E estimation des effectifs latents
8 9Application - lecture de clichés IRM avant et
après injection dun produit de contraste- 2
lecteurs- Gold Standard biopsie
10Données poolées
11Estimation pour les différents niveaux de lecture
considérés séparément
12Estimation pour les différents niveaux de lecture
considérés appariés
13Introduction de la dépendance conditionnelle
Les paramètres de dépendance chez les malades
(i .e. d1) sont notés dk et ceux chez les non
malades gk. Ils sont définis par
14(No Transcript)
152 tests ordinaux
- Notations
- P la prévalence de la maladie dans létude.
- ai , i1,,R probabilité davoir un score i
au test 1 dans le groupe des patients réellement
malades (i .e. dans la classe latente D1). - ai- , i1,,R probabilité davoir un score i
au test 1 dans le groupe des patients réellement
non malades (i .e. dans la classe latente D0). - bj , j1,,R probabilité davoir un score j
au test 2 dans le groupe des patients réellement
malades (i .e. dans la classe latente D1). - bj- , j1,,R probabilité davoir un score j
au test 2 dans le groupe des patients réellement
non malades (i .e. dans la classe latente D0). - Nij le nombre de patients qui ont un score i au
test 1, un score j au test 2. Nij se décompose de
la manière suivante NijXijYij
16- la vraisemblance sécrit en fonction des
paramètres de la manière suivante -
-
- Dans létape E de lalgorithme EM, les effectifs
latents sont estimés par leur espérance
conditionnelle - ou encore
-
17- Dans létape M de lalgorithme EM, les paramètres
sont estimés en maximisant lespérance
conditionnelle de la log-vraisemblance des
données latentes
18(No Transcript)
19Modélisation selon Agresti
Pour des données ordinales, Agresti propose un
modèle avec une association de type
linear-by-linear où u1ltltur sont les
scores attribués à chaque réponse. Ce modèle a un
seul paramètre en plus que le modèle sous
indépendance, et log odds ratio locaux sont
20Introduction dans les modèles à classes
latentes (Agresti A. and Lang J.B.,
1993) où D la variable latente, ui et uj
les scores observés aux tests 1 et 2
respectivement, et ud la classe latente Etape
E en fonction des paramètres, on estime la
probabilité dêtre malade sachant les scores
et les effectifs latents Etape M à partir des
effectifs latents estimés dans létape E, on
estime par maximum de vraisemblance le modèle
de régression
21(No Transcript)
22Questions/Perspectives
- Variantes de EM plus adaptées à cette
problématique ou adaptées à de petits effectifs
? - Mesure de ladéquation des modèles
- Simulation de données ordinales appariées pour
valider les algorithmes - Modèles de régression ordinale pour données
appariées (prise en compte de la covariance entre
2 tests) - Gold standard imparfait sur un seul test
diagnostique - Etude du nombre nécessaire de patients