Principes gnraux du traitement des donnes manquantes lors de lanalyse - PowerPoint PPT Presentation

1 / 18
About This Presentation
Title:

Principes gnraux du traitement des donnes manquantes lors de lanalyse

Description:

Le fait d'avoir une donn e manquante d pend d'autres caract ristiques observ es, mais pas de la mesure manquante (qui aurait pu tre observ e) ... – PowerPoint PPT presentation

Number of Views:39
Avg rating:3.0/5.0
Slides: 19
Provided by: ll53
Category:

less

Transcript and Presenter's Notes

Title: Principes gnraux du traitement des donnes manquantes lors de lanalyse


1
Principes généraux du traitement des données
manquantes lors de lanalyse
  • Luc LETENNEUR
  • INSERM U 593
  • Bordeaux
  • Luc.letenneur_at_bordeaux.inserm.fr

2
Classification des données manquantes
  • MCAR Missing completely at random
  • Les sujets ayant une donnĂ©e manquante ne peuvent
    pas être distingués des sujets ayant une donnée
    observée.
  • MAR Missing at random (ou ignorable)
  • Le fait davoir une donnĂ©e manquante dĂ©pend
    dautres caractéristiques observées, mais pas de
    la mesure manquante (qui aurait pu être observée)
  • MNAR Missing not at random (ou non ignorable,
    informative)
  • Le fait davoir une donnĂ©e manquante nest pas
    aléatoire, ne peut pas être déduit des autres
    variables et dépend de la mesure manquante (qui
    aurait pu être observée)

3
Traitement des données manquantes délétion
  • Analyse sur donnĂ©es complètes (Complete case
    analysis)
  • Seuls les sujets ayant toutes les variables
    complètes sont analysés.
  • Facile Ă  mettre en oeuvre, utilisation logiciels
    standards
  • Valable si le nombre de donnĂ©es manquantes est
    faible et si MCAR tendance Ă  sur-estimation de
    la variance
  • SINON Biais important

4
Traitement des données manquantes délétion
  • Analyse sur donnĂ©es disponibles (Available case
    analysis)
  • Effectifs diffĂ©rents selon la variable Ă©tudiĂ©e
  • - Valable si MCAR (estimateur non biaisĂ©).
  • - peu satisfaisante (perte de puissance).
  • - Variance incorrecte

5
Traitement des données manquantes imputation
  • Hot deck
  • La valeur manquante est remplacĂ©e par une valeur
    observée chez un individu ayant les mêmes
    caractéristiques.

5
6
Traitement des données manquantes imputation
  • Hot deck
  • NĂ©cessitĂ© davoir une mĂ©trique
  • Choix des variables dappariement (nombre de
    classes pour les variables catégorielles)
  • Calcul dune distance (permettant la combinaison
    de variables quantitatives et qualitatives)
  • Sujet le plus proche retenu.

7
Traitement des données manquantes imputation
  • Hot deck
  • MĂ©thode simple
  • Obtention dun fichier complet
  • Imputation valide
  • DifficultĂ©s Ă  dĂ©finir les similaritĂ©s.
  • Assurer un nombre suffisant de sujets (en
    conservant une variance raisonnable).
  • Peut conduire Ă  des estimateurs biaisĂ©s.
  • Estimation de la variance lĂ©gèrement biaisĂ©e
    (trop faible)

8
Traitement des données manquantes imputation
  • Imputation par la moyenne
  • La moyenne de la variable observĂ©e chez les
    sujets remplace les données manquantes.
  • Donne des estimations non biaisĂ©es si les
    données sont MCAR.
  • Formules usuelles pas utilisables pour les
    estimateurs non linéaires (variance, corrélation,
    ).
  • Sous-estimation de la variance.
  • Distorsion de la distribution empirique. Si la
    variable est regroupée en classes, toutes les
    données manquantes sont dans la même classe.

9
Traitement des données manquantes imputation
  • Imputation par la moyenne
  • Utilisation dune variable indicatrice
    supplémentaire
  • - A dĂ©conseiller mĂŞme si donnĂ©es MAR
  • - Utile si MAR totalement fausse
  • (ex indicateur de donnĂ©e manquante de test
    neuropsychologique très associé au risque de
    démence)

10
Traitement des données manquantes imputation
  • Imputation par modèle de rĂ©gression
  • La variable est modĂ©lisĂ©e par un modèle de
    régression (à partir des données observées), et
    la prédiction du modèle remplace la donnée
    manquante.
  • PossibilitĂ© dajouter un alĂ©a Ă  la prĂ©diction.
  • Coefficients corrects mais variance sous-estimĂ©e
  • QualitĂ© de limputation dĂ©pend de la technique de
    modélisation

11
Traitement des données manquantes Utilisation
de modèles
  • Approche par maximum de la vraisemblance
  • Utilise toutes les informations disponibles
  • Calcul direct des variances des paramètres et des
    tests statistiques.
  • ProcĂ©dures disponibles dans les logiciels du
    commerce.
  • Bonne approche en cas de donnĂ©es MAR.

12
Traitement des données manquantes Utilisation
de modèles
  • Approche par maximum de la vraisemblance
    Algorithme EM (Expectation Maximisation)
  • ProcĂ©dure itĂ©rative en 2 Ă©tapes
  • Calcul de lespĂ©rance identification de la
    distribution des données manquantes en fonction
    des données observées et les variables
    explicatives.
  • Etape Maximisation qui remplace les donnĂ©es
    manquantes par les valeurs attendues.
  • Problème estimation des variances.

13
Etude de lévolution du score au test de Wechsler
chez le sujet âgé non dément.
  • Test des codes de Wechsler
  • Raisonnement logique simple ,
  • Test dattention
  • Temps limitĂ© Ă  90 secondes
  • Echantillon
  • 2026 sujets
  • Non diagnostiquĂ©s dĂ©ment jusquĂ  10 ans
  • Ayant fait le test au moins une fois

14
Données manquantes
15
Evolution de la moyenne empirique du score au test
16
Evolution de la moyenne empirique du score au test
17
Moyennes empriques et moyennes estimées par un
modèle mixte (données MAR)
18
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com