Evaluation des performances des tests diagnostiques en absence de Gold Standard - PowerPoint PPT Presentation

About This Presentation

Title:

Evaluation des performances des tests diagnostiques en absence de Gold Standard

Description:

Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC – PowerPoint PPT presentation

Number of Views:79

Avg rating:3.0/5.0

Slides: 23

Provided by: DIM1150

Category:

more less

Transcript and Presenter's Notes

Title: Evaluation des performances des tests diagnostiques en absence de Gold Standard

1
Evaluation des performances des tests
diagnostiques en absence de Gold Standard

Christophe Combescure
Laboratoire de Biostatistique, IURC

2
Problématique

Indicateurs classiques des performances
Sensibilité(q)ProbTgtqD1
Spécificité(q)ProbTltqD0
Linformation malade/non malade est donnée par le
Gold Standard (GS), supposé parfait.
Mais en pratique le GS est aussi un test
diagnostique
Conséquences
La sensibilité et la spécificité représentent la
capacité du test diag. à reproduire les résultats
du GS.
Il est impossible de montrer quun test
diagnostique est meilleur que le GS.
Le GS peut ne pas exister (psychiatrie), ou ne
peut pas être mis en œuvre (coût,).

Malade Malade
oui Non
Test évalué A B
Test évalué - C D
3
K tests diagnostiques binaires

Contexte GS absent.
Soient K tests binaires et R le vecteur aléatoire
de leurs résultats et D la variable malade/non
malade . Alors
Et la log vraisemblance des données observées
sécrit
D est la classe latente. En complétant les
données observées par la variable D, alors les
données observées se décomposent en deux
effectifs latents
où Xr (resp. Yr) est leffectif des non malades
(resp. malades) ayant le résultat aux tests R

La log vraisemblance des données complètes
sécrit
Cette log vraisemblance se maximise facilement
Doù lutilisation de lalgorithme EM.

5
Généralités sur lalgorithme EM

La log vraisemblance des données observées est
notée
On suppose que les données Y sont complétées par
Z de telle manière que lestimation des
paramètres en maximisant la vraisemblance des
données complètes est possible.
On note
Etape E calcul de
(revient dans les fait à estimer les effectifs
latents par leur espérance conditionnelle)
Etape M

Remarque
Convergence mais vers des points stationnaires
Variance des estimateurs (T. Louis, 1982)
On note H(qq(k)) lespérance du log de la
vraisemblance de la variable Z conditionnellement
à la variable Y
Les variances des paramètres estimés peuvent se
déduire en utilisant la matrice dinformation de
Fisher. La matrice dinformation de Fisher se
décompose en deux termes

7
Retour aux K tests binaires

Nécessité de poser des hypothèses sur les
probabilités conjointes des scores sinon il y a
surparamétrisation
Hypothèse dindépendance conditionnelle entre les
tests hypothèse la plus simplificatrice
Le nombre de paramètres devient 2K1, le nombre
de ddl est 2K-1.
Nécessité que Kgt2
Etape E estimation des effectifs latents

Etape M

9
Application - lecture de clichés IRM avant et
après injection dun produit de contraste- 2
lecteurs- Gold Standard biopsie
10
Données poolées
11
Estimation pour les différents niveaux de lecture
considérés séparément
12
Estimation pour les différents niveaux de lecture
considérés appariés
13
Introduction de la dépendance conditionnelle
Les paramètres de dépendance chez les malades
(i .e. d1) sont notés dk et ceux chez les non
malades gk. Ils sont définis par
14
(No Transcript)
15
2 tests ordinaux

Notations
P la prévalence de la maladie dans létude.
ai , i1,,R probabilité davoir un score i
au test 1 dans le groupe des patients réellement
malades (i .e. dans la classe latente D1).
ai- , i1,,R probabilité davoir un score i
au test 1 dans le groupe des patients réellement
non malades (i .e. dans la classe latente D0).
bj , j1,,R probabilité davoir un score j
au test 2 dans le groupe des patients réellement
malades (i .e. dans la classe latente D1).
bj- , j1,,R probabilité davoir un score j
au test 2 dans le groupe des patients réellement
non malades (i .e. dans la classe latente D0).
Nij le nombre de patients qui ont un score i au
test 1, un score j au test 2. Nij se décompose de
la manière suivante NijXijYij

la vraisemblance sécrit en fonction des
paramètres de la manière suivante
Dans létape E de lalgorithme EM, les effectifs
latents sont estimés par leur espérance
conditionnelle
ou encore

Dans létape M de lalgorithme EM, les paramètres
sont estimés en maximisant lespérance
conditionnelle de la log-vraisemblance des
données latentes

18
(No Transcript)
19
Modélisation selon Agresti
Pour des données ordinales, Agresti propose un
modèle avec une association de type
linear-by-linear où u1ltltur sont les
scores attribués à chaque réponse. Ce modèle a un
seul paramètre en plus que le modèle sous
indépendance, et log odds ratio locaux sont
20
Introduction dans les modèles à classes
latentes (Agresti A. and Lang J.B.,
1993) où D la variable latente, ui et uj
les scores observés aux tests 1 et 2
respectivement, et ud la classe latente Etape
E en fonction des paramètres, on estime la
probabilité dêtre malade sachant les scores
et les effectifs latents Etape M à partir des
effectifs latents estimés dans létape E, on
estime par maximum de vraisemblance le modèle
de régression
21
(No Transcript)
22
Questions/Perspectives

Variantes de EM plus adaptées à cette
problématique ou adaptées à de petits effectifs
?
Mesure de ladéquation des modèles
Simulation de données ordinales appariées pour
valider les algorithmes
Modèles de régression ordinale pour données
appariées (prise en compte de la covariance entre
2 tests)
Gold standard imparfait sur un seul test
diagnostique
Etude du nombre nécessaire de patients