Principes gnraux du traitement des donnes manquantes lors de lanalyse

About This Presentation

Title:

Principes gnraux du traitement des donnes manquantes lors de lanalyse

Description:

Le fait d'avoir une donn e manquante d pend d'autres caract ristiques observ es, mais pas de la mesure manquante (qui aurait pu tre observ e) ... – PowerPoint PPT presentation

Number of Views:39

Avg rating:3.0/5.0

Slides: 19

Provided by: ll53

Category:

more less

Transcript and Presenter's Notes

Title: Principes gnraux du traitement des donnes manquantes lors de lanalyse

1
Principes généraux du traitement des données
manquantes lors de lanalyse

Luc LETENNEUR
INSERM U 593
Bordeaux
Luc.letenneur_at_bordeaux.inserm.fr

2
Classification des données manquantes

MCAR Missing completely at random
Les sujets ayant une donnée manquante ne peuvent
pas être distingués des sujets ayant une donnée
observée.
MAR Missing at random (ou ignorable)
Le fait davoir une donnée manquante dépend
dautres caractéristiques observées, mais pas de
la mesure manquante (qui aurait pu être observée)
MNAR Missing not at random (ou non ignorable,
informative)
Le fait davoir une donnée manquante nest pas
aléatoire, ne peut pas être déduit des autres
variables et dépend de la mesure manquante (qui
aurait pu être observée)

3
Traitement des données manquantes délétion

Analyse sur données complètes (Complete case
analysis)
Seuls les sujets ayant toutes les variables
complètes sont analysés.
Facile à mettre en oeuvre, utilisation logiciels
standards
Valable si le nombre de données manquantes est
faible et si MCAR tendance à sur-estimation de
la variance
SINON Biais important

4
Traitement des données manquantes délétion

Analyse sur données disponibles (Available case
analysis)
Effectifs différents selon la variable étudiée
- Valable si MCAR (estimateur non biaisé).
- peu satisfaisante (perte de puissance).
- Variance incorrecte

5
Traitement des données manquantes imputation

Hot deck
La valeur manquante est remplacée par une valeur
observée chez un individu ayant les mêmes
caractéristiques.

5
6
Traitement des données manquantes imputation

Hot deck
Nécessité davoir une métrique
Choix des variables dappariement (nombre de
classes pour les variables catégorielles)
Calcul dune distance (permettant la combinaison
de variables quantitatives et qualitatives)
Sujet le plus proche retenu.

7
Traitement des données manquantes imputation

Hot deck
Méthode simple
Obtention dun fichier complet
Imputation valide
Difficultés à définir les similarités.
Assurer un nombre suffisant de sujets (en
conservant une variance raisonnable).
Peut conduire à des estimateurs biaisés.
Estimation de la variance légèrement biaisée
(trop faible)

8
Traitement des données manquantes imputation

Imputation par la moyenne
La moyenne de la variable observée chez les
sujets remplace les données manquantes.
Donne des estimations non biaisées si les
données sont MCAR.
Formules usuelles pas utilisables pour les
estimateurs non linéaires (variance, corrélation,
).
Sous-estimation de la variance.
Distorsion de la distribution empirique. Si la
variable est regroupée en classes, toutes les
données manquantes sont dans la même classe.

9
Traitement des données manquantes imputation

Imputation par la moyenne
Utilisation dune variable indicatrice
supplémentaire
- A déconseiller même si données MAR
- Utile si MAR totalement fausse
(ex indicateur de donnée manquante de test
neuropsychologique très associé au risque de
démence)

10
Traitement des données manquantes imputation

Imputation par modèle de régression
La variable est modélisée par un modèle de
régression (à partir des données observées), et
la prédiction du modèle remplace la donnée
manquante.
Possibilité dajouter un aléa à la prédiction.
Coefficients corrects mais variance sous-estimée
Qualité de limputation dépend de la technique de
modélisation

11
Traitement des données manquantes Utilisation
de modèles

Approche par maximum de la vraisemblance
Utilise toutes les informations disponibles
Calcul direct des variances des paramètres et des
tests statistiques.
Procédures disponibles dans les logiciels du
commerce.
Bonne approche en cas de données MAR.

12
Traitement des données manquantes Utilisation
de modèles

Approche par maximum de la vraisemblance
Algorithme EM (Expectation Maximisation)
Procédure itérative en 2 étapes
Calcul de lespérance identification de la
distribution des données manquantes en fonction
des données observées et les variables
explicatives.
Etape Maximisation qui remplace les données
manquantes par les valeurs attendues.
Problème estimation des variances.

13
Etude de lévolution du score au test de Wechsler
chez le sujet âgé non dément.

Test des codes de Wechsler
Raisonnement logique simple ,
Test dattention
Temps limité à 90 secondes
Echantillon
2026 sujets
Non diagnostiqués dément jusquà 10 ans
Ayant fait le test au moins une fois

14
Données manquantes
15
Evolution de la moyenne empirique du score au test
16
Evolution de la moyenne empirique du score au test
17
Moyennes empriques et moyennes estimées par un
modèle mixte (données MAR)
18
(No Transcript)

Write a Comment

User Comments (0)