Title: Principes gnraux du traitement des donnes manquantes lors de lanalyse
1Principes généraux du traitement des données
manquantes lors de lanalyse
- Luc LETENNEUR
- INSERM U 593
- Bordeaux
- Luc.letenneur_at_bordeaux.inserm.fr
2Classification des données manquantes
- MCAR Missing completely at random
- Les sujets ayant une donnée manquante ne peuvent
pas être distingués des sujets ayant une donnée
observée. - MAR Missing at random (ou ignorable)
- Le fait davoir une donnée manquante dépend
dautres caractéristiques observées, mais pas de
la mesure manquante (qui aurait pu être observée) - MNAR Missing not at random (ou non ignorable,
informative) - Le fait davoir une donnée manquante nest pas
aléatoire, ne peut pas être déduit des autres
variables et dépend de la mesure manquante (qui
aurait pu être observée)
3Traitement des données manquantes délétion
- Analyse sur données complètes (Complete case
analysis) - Seuls les sujets ayant toutes les variables
complètes sont analysés. - Facile à mettre en oeuvre, utilisation logiciels
standards - Valable si le nombre de données manquantes est
faible et si MCAR tendance Ă sur-estimation de
la variance - SINON Biais important
4Traitement des données manquantes délétion
- Analyse sur données disponibles (Available case
analysis) -
- Effectifs différents selon la variable étudiée
-
- - Valable si MCAR (estimateur non biaisé).
- - peu satisfaisante (perte de puissance).
- - Variance incorrecte
-
5Traitement des données manquantes imputation
- Hot deck
- La valeur manquante est remplacée par une valeur
observée chez un individu ayant les mêmes
caractéristiques.
5
6Traitement des données manquantes imputation
- Hot deck
- Nécessité davoir une métrique
- Choix des variables dappariement (nombre de
classes pour les variables catégorielles) - Calcul dune distance (permettant la combinaison
de variables quantitatives et qualitatives) - Sujet le plus proche retenu.
7Traitement des données manquantes imputation
- Hot deck
- MĂ©thode simple
- Obtention dun fichier complet
- Imputation valide
- Difficultés à définir les similarités.
- Assurer un nombre suffisant de sujets (en
conservant une variance raisonnable). - Peut conduire à des estimateurs biaisés.
- Estimation de la variance légèrement biaisée
(trop faible)
8Traitement des données manquantes imputation
- Imputation par la moyenne
- La moyenne de la variable observée chez les
sujets remplace les données manquantes. - Donne des estimations non biaisées si les
données sont MCAR. - Formules usuelles pas utilisables pour les
estimateurs non linéaires (variance, corrélation,
). - Sous-estimation de la variance.
- Distorsion de la distribution empirique. Si la
variable est regroupée en classes, toutes les
données manquantes sont dans la même classe.
9Traitement des données manquantes imputation
- Imputation par la moyenne
- Utilisation dune variable indicatrice
supplémentaire - - A déconseiller même si données MAR
- - Utile si MAR totalement fausse
- (ex indicateur de donnée manquante de test
neuropsychologique très associé au risque de
démence)
10Traitement des données manquantes imputation
- Imputation par modèle de régression
- La variable est modélisée par un modèle de
régression (à partir des données observées), et
la prédiction du modèle remplace la donnée
manquante. - Possibilité dajouter un aléa à la prédiction.
- Coefficients corrects mais variance sous-estimée
- Qualité de limputation dépend de la technique de
modélisation
11Traitement des données manquantes Utilisation
de modèles
- Approche par maximum de la vraisemblance
- Utilise toutes les informations disponibles
- Calcul direct des variances des paramètres et des
tests statistiques. - Procédures disponibles dans les logiciels du
commerce. - Bonne approche en cas de données MAR.
12Traitement des données manquantes Utilisation
de modèles
- Approche par maximum de la vraisemblance
Algorithme EM (Expectation Maximisation) - Procédure itérative en 2 étapes
- Calcul de lespérance identification de la
distribution des données manquantes en fonction
des données observées et les variables
explicatives. - Etape Maximisation qui remplace les données
manquantes par les valeurs attendues. - Problème estimation des variances.
13Etude de lévolution du score au test de Wechsler
chez le sujet âgé non dément.
- Test des codes de Wechsler
- Raisonnement logique simple ,
- Test dattention
- Temps limité à 90 secondes
- Echantillon
- 2026 sujets
- Non diagnostiqués dément jusquà 10 ans
- Ayant fait le test au moins une fois
14Données manquantes
15Evolution de la moyenne empirique du score au test
16Evolution de la moyenne empirique du score au test
17Moyennes empriques et moyennes estimées par un
modèle mixte (données MAR)
18(No Transcript)