Les mthodes microconomtriques dvaluation et leurs applications aux politiques actives demploi - PowerPoint PPT Presentation

1 / 35

About This Presentation

Title:

Les mthodes microconomtriques dvaluation et leurs applications aux politiques actives demploi

Description:

Comment valuer l'effet d'un passage par un dispositif d'emploi, un stage, une ... individuelles observables qui affectent vraisemblablement la participation au programme ... – PowerPoint PPT presentation

Number of Views:29

Avg rating:3.0/5.0

Slides: 36

Provided by: Admini405

Category:

more less

Transcript and Presenter's Notes

Title: Les mthodes microconomtriques dvaluation et leurs applications aux politiques actives demploi

1
Les méthodes micro-économétriques dévaluation et
leurs applications aux politiques actives
demploi

Denis Fougère
(CNRS, CREST-INSEE, CEPR et IZA)
XVèmes Journées du Sésame
(Rennes, 26 septembre 2005)

2
Introduction (1)

Comment évaluer leffet dun passage par un
dispositif demploi, un stage, une session de
formation continue, sur le devenir à court terme
des bénéficiaires de ces mesures ?
Comment ce programme ou ce stage aurait-il
modifié le salaire ou lemployabilité dun
individu qui na pas pu en bénéficier ?
Questions au centre dune littérature
économétrique riche en avancées méthodologiques
au cours de la dernière décennie
Les méthodes statistiques disponibles sont en
général basées sur une comparaison entre des
individus passant par le dispositif que lon
souhaite évaluer et des individus ny passant pas
Si lon ne tient pas compte des biais de
sélectivité, lon risque de produire des
estimations biaisées des effets du dispositif en
comparant directement les situations des deux
groupes, bénéficiaires et non bénéficiaires

3
Introduction (2)

Le cadre statistique général adapté à la démarche
évaluative le modèle causal de Rubin (modèle
voisin du modèle économétrique dauto sélection
de Roy)
Ce modèle permet de définir clairement tout à la
fois leffet causal de la politique que lon
souhaite évaluer et la nature du biais de
sélectivité
Les deux caractéristiques importantes de leffet
causal, tel que défini dans ce cadre, sont
son hétérogénéité dans la population
son caractère inobservable
Cette non-observabilité oblige lanalyste à
formuler les hypothèses permettant didentifier
certains paramètres de la distribution de leffet
causal

4
Introduction (3)

Méthodes passées en revue pour données non
expérimentales
Estimateurs par appariement (matching
estimators) adaptés lorsque la sélection à
lentrée du dispositif dépend uniquement de
caractéristiques observables (pas dinstrument
valide)
Méthode des doubles différences
(differences-in-differences), utilisable si
accès à des données de panel avant et après
réforme
Doubles différences par appariement
(differences-in-differences kernel matching)
Modèles à changements de régimes de type Tobit
(sélection sur observables et inobservables)

5
Le modèle canonique pour lévaluation (1)

Notations et hypothèses
Laccès au programme (i.e. au traitement) est
représenté par une variable aléatoire T, qui vaut
1 si lindividu accède au programme, 0 sinon
Lefficacité du programme est mesurée par deux
variables latentes de résultat, notées Y1 et Y0
selon que lindividu reçoit le traitement (T1)
ou non (T0)
Remarques
Ces variables correspondent aux résultats
potentiels du programme
Elles ne sont jamais simultanément observées pour
un même individu
Pour un individu traité, Y1 est observée tandis
que Y0 est inconnue
Dans ce cas, la variable Y0 correspond au
résultat qui aurait été réalisé si lindividu
navait pas été traité (contre factuel)
Pour un individu non traité, on observe au
contraire Y0, tandis que Y1 est inconnue

6
Le modèle canonique pour lévaluation (2)

La variable de résultat observée peut donc se
déduire des variables potentielles et de la
variable de traitement par la relation
Y T Y1 (1-T)Y0
Seul le couple (Y,T) est observé pour chaque
individu
Leffet causal du traitement est défini pour
chaque individu par lécart ? Y1 Y0
Cet écart représente la différence entre ce que
serait la situation de lindividu sil était
traité et ce quelle serait sil ne létait pas
Leffet causal a ainsi deux caractéristiques
importantes
il est inobservable, puisque seule une des deux
variables potentielles est observée pour chaque
individu,
il est individuel, et de ce fait il existe une
distribution de leffet causal dans la population

7
Le modèle canonique pour lévaluation (3)

La distribution de leffet causal nest pas
identifiable
Néanmoins, grâce à des hypothèses sur la loi
jointe de (Y0, Y1, T), on peut identifier
certains paramètres de la distribution de leffet
causal à partir de la densité des variables
observables (Y, T)
Deux paramètres font généralement lobjet dun
examen spécifique
leffet moyen du traitement dans la population
?ATE E(Y1 Y0)
leffet moyen du traitement dans la population
des individus traités ?TT E(Y1 Y0 T1)
Ces deux paramètres ne sont égaux que sous
certaines hypothèses très restrictives

8
Le modèle canonique pour lévaluation (4)

En particulier, si les variables de résultat sont
indépendantes de la variable daccès au
traitement, cest-à-dire si (Y0, Y1)?? T, il est
possible didentifier les deux paramètres
dintérêt ?ATE et ?TT préalablement définis
En effet, si cette condition (suffisante) est
satisfaite, ces deux paramètres dintérêt
deviennent
?ATE ?TT E(Y T1) - E(Y T0)
Dans ce cas, les deux paramètres sont égaux et
peuvent être estimés simplement comme la
différence des moyennes des variables de résultat
observées dans le groupe des individus traités et
dans le groupe des individus non traités

9
Le modèle canonique pour lévaluation (5)

Dès lors que la propriété dindépendance
précédente nest plus satisfaite, lestimateur
naturel formé par la différence des moyennes des
variables de résultat est affecté dun biais de
sélection
E(YT1) E(YT0) E(Y1T1) E(Y0T0)
E(Y1T1) E(Y0T1) E(Y0T1) E(Y0T0)
?TT BTT
Le biais de sélection est le terme BTT
E(Y0T1) E(Y0T0)
Ce biais trouve son origine dans le fait que la
situation moyenne des individus qui ont reçu le
traitement naurait pas été la même en labsence
de traitement que celle des individus nayant pas
reçu le traitement
Il en est ainsi parce que ces deux populations ne
sont pas identiques, sauf dans le cas particulier
dune expérience contrôlée

10
Identification sous lhypothèse dindépendance
conditionnelle à des observables (1)

En pratique, les bénéficiaires et les non
bénéficiaires diffèrent par la distribution des
caractéristiques individuelles observables qui
affectent vraisemblablement la participation au
programme
Lindépendance (inconditionnelle) entre les
variables latentes de résultat (Y0 ,Y1) et
laffectation au traitement T est une hypothèse
très improbable
Condition moins restrictive il existe un
ensemble de variables observables X
conditionnellement auquel la propriété
dindépendance entre les résultats latents et
laffectation au traitement est vérifiée
Proposition Si (Y0, Y1) ? T X, alors les
distributions marginales l(Y0), l(Y1), et
conditionnelles l(Y0T0), l(Y1T1) des
variables de résultat sont identifiables

11
Identification sous lhypothèse dindépendance
conditionnelle à des observables (1 bis)

Preuve
Sous lhypothèse dindépendance conditionnelle
aux observables X, on a
l(YkX) l(YkX, Tk) l(YX, Tk) pour k0, 1
Comme la distribution des variables observables X
est identifiable, il en résulte que les quatre
distributions l(Y0), l(Y1), l(Y0T0) et
l(Y1T1) sont identifiables
Il est alors possible didentifier lensemble des
paramètres de chacune de ces quatre distributions
On peut en particulier identifier leur espérance
et donc leffet moyen du traitement, de même que
leffet moyen du traitement pour le groupe des
individus traités

12
Identification sous lhypothèse dindépendance
conditionnelle à des observables (2)

La condition didentification pour ce dernier
paramètre est moins forte, puisquelle ne
nécessite que lindépendance entre le résultat
potentiel en labsence de traitement et le
traitement, soit Y0 ? T X
Le principe de lestimation est dutiliser les
informations dont on dispose sur les individus
non traités pour construire pour chaque individu
traité un contre factuel
Considérons par exemple leffet causal du
traitement sur les traités
?TT E(Y1 Y0 T1) E(Y Y0 T1)
EY E(Y0X, T1) T1 EY
E(Y0X, T0) T1
EY E(YX, T0) T1

13
Identification sous lhypothèse dindépendance
conditionnelle à des observables (3)

Le problème est donc destimer pour chaque
individu traité de caractéristique xi la quantité
E(Y X xi , T0 ) g(xi)
Lestimateur final est alors obtenu comme la
moyenne des écarts de la situation des individus
traités et du contre factuel construit
Formule
où I1 est le sous-échantillon des individus
traités et N1 est le nombre dindividus traités

14
Estimation par appariement (1)

Estimation par appariement sur les
caractéristiques observables
Principe associer à chaque individu i traité un
individu non traité, noté i(i), dont les
caractéristiques sont identiques à celles de
lindividu i
Cette méthode suppose que lon observe pour
chaque individu traité un individu non traité
comparable, au sens des caractéristiques X,
cest-à-dire tel que Xi(i) Xi
La quantité Yi(i) est un estimateur de
lespérance du résultat potentiel Y0i
Lestimateur de leffet moyen du traitement sur
les traités est alors égal à
La propriété dindépendance conditionnelle
nécessite en général la prise en compte dun
nombre important de variables de conditionnement

15
Estimation par appariement (2)

2. Estimation par appariement sur le score de
propension
Le problème de dimension du vecteur X peut être
fortement réduit
Proposition (Rosenbaum et Rubin, 1983) Si la
variable de résultat Y0 est indépendante de
laccès au traitement T conditionnellement aux
observables X, alors elle est également
indépendante de T conditionnellement au score de
propension P(X) Pr (T 1 X)
Y0 ? T X ? Y0 ? T P(X)
En raison de cette propriété, il suffit
dapparier les individus sur leur score de
propension, lequel constitue un résumé
unidimensionnel de lensemble de ces variables
Lindividu non traité noté i, qui est apparié
avec lindividu traité i, est alors défini par
P(xi) P(xi )
Néanmoins, les propriétés asymptotiques de cet
estimateur restent inconnues

16
Estimation par appariement (3)

3. Estimation par appariement avec fonction noyau
(kernel matching)
Heckman, Ichimura et Todd (1998) proposent
dutiliser des estimateurs à noyau pour estimer
lespérance contrefactuelle
Le plus simple de ces estimateurs sécrit sous la
forme
où I0 est lensemble des individus non
traités, N0 est le nombre dindividus non
traités, K est une fonction noyau et h la fenêtre
destimation
Chaque individu non traité participe à la
construction du contre factuel de lindividu i,
avec une importance qui varie selon la distance
entre son score et celui de lindividu considéré
Estimateur convergent, asymptotiquement normal,
avec une vitesse de convergence en racine carrée
de N

17
Estimation par appariement (4)

4. Support des distributions du score
conditionnel au traitement
Une estimation non paramétrique du contre factuel
impose que lon dispose pour chaque individu
traité dindividus non traités dont les scores
ont des valeurs proches du score de lindividu
traité
On ne peut donc construire de contre factuel que
pour les individus dont le score appartient à
lintersection des supports des distributions des
scores des individus traités et des individus non
traités
Conséquence même sous lhypothèse dindépendance
conditionnelle à des observables, on ne peut pas
systématiquement estimer ?ATE , puisque E(?P(X))
ne peut être estimé que pour les individus dont
le score appartient au support commun de la
distribution des scores
Lestimateur obtenu in fine est alors un
estimateur local on est seulement en mesure
destimer
E(?P(X)?S? , T 1)

18
Estimation par appariement (5)

4. Support des distributions du score
conditionnel au traitement (suite)
Mise en pratique
Exclure les observations dont le score de
propension estimé est proche de 1 ou de 0
Supprimer toutes les observations du groupe de
contrôle pour lesquelles le score de propension
estimé est inférieur au minimum des scores de
propension estimés dans le groupe de traitement
même règle pour le maximum (Dehejia et Wabba,
1999)
Supprimer les observations du groupe de contrôle
dont les covariables ont une densité inférieure à
un certain seuil (Heckman, Ichimura et Todd, 1998)

19
Exemple

Brodaty, Crépon et Fougère (2001, 2005)
Relations entre la durée de chômage avant
l'entrée dans un dispositif d'aide à l'emploi et
l'effet de ce dispositif sur l'employabilité
ultérieure des bénéficiaires
Mise en évidence de l'existence d'effets
différenciés sur l'employabilité des chômeurs de
courte et de longue durée
Méthode qui permet de tenir compte à la fois de
la multiplicité des dispositifs et de celle des
dates d'entrée dans ces dispositifs
Scores de propension déduits dun modèle de durée
de chômage à risques concurrents
Deux ensembles de données individuelles
1986-1988, 1995-1998
Les résultats montrent que, pour ce qui est de
l'employabilité des jeunes chômeurs, les
dispositifs d'aide à l'emploi ont été
généralement moins efficaces à la fin des années
90
Toutefois, certains dispositifs semblent avoir
bénéficié plus aux jeunes chômeurs de longue
durée
Cela a été particulièrement le cas des stages de
formation à la fin des années 80, et des emplois
aidés dans le secteur marchand dix ans plus tard

20
Lestimateur des doubles différences (1)

Cadre modèle à effets fixes individuels et
temporels
Yit ? Tit ?i ?t ?it
avec i 1,,N et t 1,,T
Yit variable de résultat (emploi, salaire) pour
lindividu i à la date t
Tit variable indicatrice du traitement pour
lindividu i à la date t (1 si traité, 0 sinon)
?i effet fixe individuel, ?t effet temporel
commun
Tit, ?i et ?t potentiellement corrélés
?it aléa centré, homoscédastique, non corrélé à
Tit, ?i et ?t

21
Lestimateur des doubles différences (2)

Hypothèse seuls les individus appartenant à un
groupe particulier (âge, ville, région, etc.)
sont traités à partir de la date t ?
Tit 1 pour i ? T et t ? ?
Tit 0 pour i ? C ou t lt ?
Principe de la méthode éliminer les effets
fixes et temporels
Première différence élimination des effets
fixes
Yit ? ? Tit ? ?t ? ?it
où ? est lopérateur de différences premières
?Yit Yit Yit-1 , ??t ?t ?t ?t-1 ,
??it vit ?it ?it-1

22
Lestimateur des doubles différences (3)

Posons t ? et t - 1 ? - 1 (ou t ? ? et t -
1 ? ? - 1 )
Si i ? T , ?Ti? 1 ? ?Yi?T ? ??T vi?T
Si i ? C , ?Ti? 0 ? ?Yi?C ??C vi?C
Deuxième différence élimination des effets
temporels
? E(?Yi?T) - E(?Yi?C)
puisque ?tT ?tC et E(vitT)
E(vitC) 0
Estimateur des doubles différences
avec

23
Lestimateur des doubles différences (4)

Extension au cas avec covariables
Yit ? Tit Zit ? ?i ?t ?it
avec i 1,,N et t 1,,T
Lestimateur des doubles différences est
équivalent à lestimateur within dans le
modèle projeté sur lespace orthogonal aux effets
fixes et temporels
W Y W X ? W ?
où X it Tit Zit , ? (?, ?) ,
W INT G BN BT
G JNT / NT , J étant une matrice carrée
composée de 1,
BN (IN ? JT)/ T G , BT (JN ? IT)/
N G
Donc
et

24
Lestimateur des doubles différences (5)

Exemples
Card et Krueger (1994) effets du salaire minimum
sur lemploi
En 1992, hausse de 80 du salaire
minimum au New Jersey
Emploi dans les fast-foods situés des
deux côtés de la frontière entre New Jersey et
Pennsylvanie
Hausse de lemploi (équivalent temps
complet) de 0.47 points dans le New Jersey
Baisse de lemploi (équivalent TC) de
2.28 points en Pennsylvanie
Card (1990) effets de limmigration sur
lemploi non qualifié
Arrivée massive dimmigrés cubains non
qualifiés à Miami en 1979
Taux de chômage des travailleurs non
qualifiés blancs, noirs et hispaniques à Miami et
dans quatre autres villes (Atlanta, Houston, Los
Angeles et Tampa) pas de hausse significative à
Miami
Par exemple, hausse de 1.3 points du
taux de chômage des noirs à Miami, mais hausse de
2.6 points dans les autres villes, de 79 à 81

25
Lestimateur des doubles différences (6)

Hypothèses cruciales pour la mise en uvre de
lestimateur des doubles différences
Effets temporels communs ?tT ?tC au moins en
t ? et t - 1 ? - 1
Pas dattrition ou de sélection endogène entre (?
- 1) et ? Exemple dune réforme fiscale (PPE)
supposée influencer le nombre dheures
travaillées, variable de résultat continue
certaines personnes sans emploi en (? - 1) mais
employées en ? (ou linverse)
Pas dauto corrélation des erreurs et des
covariables Sinon sous-estimation systématique
de lécart-type de leffet du traitement
(Bertrand, Duflo, Mullainathan, 04) Lhypothèse
nulle H0 ? 0 est trop souvent rejetée

26
Doubles différences par appariement (1)

Problème une variable de résultat telle que
lemploi présente une forte dépendance détat
(auto corrélation dordre 1)
Pr(Yit 1 Yi,t-1 1) gtgt Pr(Yit 1 Yi,t-1
0)
Modèle général
Yit ae(Xi) ?eit? Tit ?ie uite
si Yi,t-1 1 (emploi)
Yit an(Xi) ?nit? Tit ?in uitn
si Yi,t-1 0 (non emploi)
où
Tit indicatrice de traitement ( 1 si i ? T
et t ? ? , 0 sinon)
ae(Xi) et an(Xi) fonctions quelconques des
covariables fixes Xi
?eit? et ?nit? effets du traitement, dépendant
de lindividu et de létat précédent,
?ie et ?in effets fixes individuels, dépendant
de létat antérieur,
uite et uitn aléas spécifiques à lindividu et
à la période, dépendant de létat antérieur

27
Doubles différences par appariement (2)

Hypothèses
Leffet du traitement survient après le
traitement, i.e. ?kit? 0 pour t lt ? et k e,
n
Les effets du traitement ?kit? (k e, n) peuvent
varier avec i, t et ?
Les moyennes des erreurs uite et uitn sont
indépendantes de la trajectoire passée du
traitement
Le traitement Tit(?) peut dépendre des erreurs
passées ui,?-sk (k e, n) avec s 1,, S
(Ashenfelters dip)
Mais les erreurs passées ui,?-sk ne sont pas
corrélées avec les erreurs futures ui,tk pour s
? 1 et t ? ? (k e, n)

28
Doubles différences par appariement (3)

La méthode a pour but dappliquer les doubles
différences après appariement afin déliminer les
effets des différences de variables non
observables
Estimateur des doubles différences par
appariement
la période t1 se situant après la date ? de
traitement de lindividu i et la période t0 avant
?-S
N1 étant le nombre de participants pour qui la
différence (t1 - t0) peut être déterminée
N0 étant le nombre de non participants pour qui
la différence (t1 - t0) peut être déterminée

29
Doubles différences par appariement (4)

Cet estimateur est valide
si le processus demploi ne présente pas de
dépendance détat
ae(Xi) an(Xi) a(Xi) , ?ie ?in ?i , uite
uitn uit
et si lespérance conditionnelle du terme
derreur est indépendante du traitement Ti et des
covariables Xi
E(uit Ti 1, Xi) E(uit Ti 0, Xi) pour t ?
? et t lt ? - S
Mais leffet fixe individuel peut être corrélé
avec Ti et Xi
Exemples Heckman et Smith (1999), Blundell,
Costas Dias, Meghir et Van Reenen (2004)

30
Doubles différences conditionnelles par
appariement (1)

Estimateur
où
l représente la situation demploi au cours du
mois précédent (l 0 ou 1)
Nl est lensemble des individus traités pour qui
Yi,t1-1 Yi,t0-1 l
nl est le nombre dindividus dans Nl
les individus du groupe de contrôle sont
également tels que Yj,t1-1
Yj,t0-1 l
gi est un ensemble de pondérations qui rendent
compte du fait que Nl nest pas léchantillon
entier
Probabilités de ré-emploi quand l 0, et
probabilités de rester employé quand l 1

31
Doubles différences conditionnelles par
appariement (2)

Cet estimateur est valide sous la seule hypothèse
que lespérance conditionnelle des erreurs est
indépendante du traitement Ti et des covariables
Xi
E(uite Ti 1, Xi) E(uite Ti 0, Xi)
E(uitn Ti 1, Xi) E(uitn Ti 0, Xi)
pour t ? ? et t lt ? - S
Les effets fixes individuels ?ie et ?in peuvent
être corrélés avec Ti et Xi
Exemple Bergemann, Fitzenberger, Speckesser
(2004)

32
Doubles différences conditionnelles par
appariement (3)

Cet estimateur nidentifie pas leffet du
traitement sur les traités
E(?ki,t1,? T 1)
mais leffet conditionnel du traitement sur
les traités
E(?ki,t1,? T 1, Yt1-1 l, Yt0-1 l)
sachant que létat précédent les mois t1 et
t0 était l
Difficultés pour identifier leffet non
conditionnel du traitement sur les traités

33
Sélectivité sur variables inobservables

Hypothèse les résultats potentiels (Y0 , Y1 )
et laffectation au traitement T dépendent de
termes derreur inobservables potentiellement
corrélés entre eux
La variable daffectation au traitement est
supposée être déterminée par un indice latent T
appelé propension à être traitée
T 1(T gt 0) 1(Z? V gt 0)
Les variables de résultat sont supposées être
chacune engendrée par un modèle de régression
linéaire de la forme
yj aj X bj Uj , j0,1
Les expressions des paramètres dintérêt
deviennent

34
Le modèle Tobit de sélection endogène

En pratique, on fait très souvent lhypothèse que
les résidus V, U0 et U1 suivent une loi normale
de moyenne 0 et de matrice de variances et
covariances ?
En ce cas, les paramètres dintérêt sont égaux à
Dautres estimateurs paramétriques peuvent être
mis en uvre à laide de familles de lois plus
générales que la loi normale (Lee, 1983 Heckman,
Tobias et Vytlacil, 2000)
Lestimation semi-paramétrique de ce modèle (sans
hypothèse sur la forme de la distribution des
résidus V, U0 et U1 ) repose sur lexistence dun
instrument continu dans Z (exclu de X)

35
Conclusion quelle méthode adopter?

Le contexte propre à lobservation détermine le
recours à tel ou tel type de méthode dans le but
de réduire les biais spécifiques au problème de
lévaluation. Mais il conditionne aussi la
précision des estimations et donc leur caractère
informatif et opérationnel
Les méthodes dappariement sur les niveaux des
variables de résultat (plutôt que sur leurs
différences premières) sont mal adaptées il y a
persistance deffets individuels inobservés, même
lorsque lon introduit un grand nombre de
caractéristiques individuelles observables
Les méthodes dappariement appliquées aux
variations des variables de résultat, telles que
lestimation par différences de différences ,
marchent bien, mais leur bonne performance dépend
néanmoins de la richesse des variables de
conditionnement
Les problèmes relatifs au support des scores de
propension ont une réelle importance dans la
pratique. Ils reflètent lhétérogénéité de
leffet du traitement dans la population et
mettent laccent sur les difficultés
dextrapolation des résultats obtenus
Lhypothèse de normalité dans les modèles de
sélection sur inobservables conduit en général à
des estimations biaisées compte-tenu de ces
biais potentiels, des approches semi
paramétriques semblent préférables. Mais il faut
disposer dinstruments valides