Title: Les mthodes microconomtriques dvaluation et leurs applications aux politiques actives demploi
1Les méthodes micro-économétriques dévaluation et
leurs applications aux politiques actives
demploi
- Denis Fougère
- (CNRS, CREST-INSEE, CEPR et IZA)
- XVèmes Journées du Sésame
- (Rennes, 26 septembre 2005)
2Introduction (1)
- Comment évaluer leffet dun passage par un
dispositif demploi, un stage, une session de
formation continue, sur le devenir à court terme
des bénéficiaires de ces mesures ? - Comment ce programme ou ce stage aurait-il
modifié le salaire ou lemployabilité dun
individu qui na pas pu en bénéficier ? - Questions au centre dune littérature
économétrique riche en avancées méthodologiques
au cours de la dernière décennie - Les méthodes statistiques disponibles sont en
général basées sur une comparaison entre des
individus passant par le dispositif que lon
souhaite évaluer et des individus ny passant pas - Si lon ne tient pas compte des biais de
sélectivité, lon risque de produire des
estimations biaisées des effets du dispositif en
comparant directement les situations des deux
groupes, bénéficiaires et non bénéficiaires
3Introduction (2)
- Le cadre statistique général adapté à la démarche
évaluative le modèle causal de Rubin (modèle
voisin du modèle économétrique dauto sélection
de Roy) - Ce modèle permet de définir clairement tout à la
fois leffet causal de la politique que lon
souhaite évaluer et la nature du biais de
sélectivité - Les deux caractéristiques importantes de leffet
causal, tel que défini dans ce cadre, sont - son hétérogénéité dans la population
- son caractère inobservable
- Cette non-observabilité oblige lanalyste à
formuler les hypothèses permettant didentifier
certains paramètres de la distribution de leffet
causal
4Introduction (3)
- Méthodes passées en revue pour données non
expérimentales - Estimateurs par appariement (matching
estimators) adaptés lorsque la sélection à
lentrée du dispositif dépend uniquement de
caractéristiques observables (pas dinstrument
valide) - Méthode des doubles différences
(differences-in-differences), utilisable si
accès à des données de panel avant et après
réforme - Doubles différences par appariement
(differences-in-differences kernel matching) - Modèles à changements de régimes de type Tobit
(sélection sur observables et inobservables)
5Le modèle canonique pour lévaluation (1)
- Notations et hypothèses
- Laccès au programme (i.e. au traitement) est
représenté par une variable aléatoire T, qui vaut
1 si lindividu accède au programme, 0 sinon - Lefficacité du programme est mesurée par deux
variables latentes de résultat, notées Y1 et Y0
selon que lindividu reçoit le traitement (T1)
ou non (T0) - Remarques
- Ces variables correspondent aux résultats
potentiels du programme - Elles ne sont jamais simultanément observées pour
un même individu - Pour un individu traité, Y1 est observée tandis
que Y0 est inconnue - Dans ce cas, la variable Y0 correspond au
résultat qui aurait été réalisé si lindividu
navait pas été traité (contre factuel) - Pour un individu non traité, on observe au
contraire Y0, tandis que Y1 est inconnue
6Le modèle canonique pour lévaluation (2)
- La variable de résultat observée peut donc se
déduire des variables potentielles et de la
variable de traitement par la relation - Y T Y1 (1-T)Y0
- Seul le couple (Y,T) est observé pour chaque
individu - Leffet causal du traitement est défini pour
chaque individu par lécart ? Y1 Y0 - Cet écart représente la différence entre ce que
serait la situation de lindividu sil était
traité et ce quelle serait sil ne létait pas - Leffet causal a ainsi deux caractéristiques
importantes - il est inobservable, puisque seule une des deux
variables potentielles est observée pour chaque
individu, - il est individuel, et de ce fait il existe une
distribution de leffet causal dans la population
7Le modèle canonique pour lévaluation (3)
- La distribution de leffet causal nest pas
identifiable - Néanmoins, grâce à des hypothèses sur la loi
jointe de (Y0, Y1, T), on peut identifier
certains paramètres de la distribution de leffet
causal à partir de la densité des variables
observables (Y, T) - Deux paramètres font généralement lobjet dun
examen spécifique - leffet moyen du traitement dans la population
?ATE E(Y1 Y0) - leffet moyen du traitement dans la population
des individus traités ?TT E(Y1 Y0 T1) - Ces deux paramètres ne sont égaux que sous
certaines hypothèses très restrictives
8Le modèle canonique pour lévaluation (4)
- En particulier, si les variables de résultat sont
indépendantes de la variable daccès au
traitement, cest-à-dire si (Y0, Y1)?? T, il est
possible didentifier les deux paramètres
dintérêt ?ATE et ?TT préalablement définis - En effet, si cette condition (suffisante) est
satisfaite, ces deux paramètres dintérêt
deviennent - ?ATE ?TT E(Y T1) - E(Y T0)
- Dans ce cas, les deux paramètres sont égaux et
peuvent être estimés simplement comme la
différence des moyennes des variables de résultat
observées dans le groupe des individus traités et
dans le groupe des individus non traités
9Le modèle canonique pour lévaluation (5)
- Dès lors que la propriété dindépendance
précédente nest plus satisfaite, lestimateur
naturel formé par la différence des moyennes des
variables de résultat est affecté dun biais de
sélection - E(YT1) E(YT0) E(Y1T1) E(Y0T0)
- E(Y1T1) E(Y0T1) E(Y0T1) E(Y0T0)
- ?TT BTT
- Le biais de sélection est le terme BTT
E(Y0T1) E(Y0T0) - Ce biais trouve son origine dans le fait que la
situation moyenne des individus qui ont reçu le
traitement naurait pas été la même en labsence
de traitement que celle des individus nayant pas
reçu le traitement - Il en est ainsi parce que ces deux populations ne
sont pas identiques, sauf dans le cas particulier
dune expérience contrôlée
10Identification sous lhypothèse dindépendance
conditionnelle à des observables (1)
- En pratique, les bénéficiaires et les non
bénéficiaires diffèrent par la distribution des
caractéristiques individuelles observables qui
affectent vraisemblablement la participation au
programme - Lindépendance (inconditionnelle) entre les
variables latentes de résultat (Y0 ,Y1) et
laffectation au traitement T est une hypothèse
très improbable - Condition moins restrictive il existe un
ensemble de variables observables X
conditionnellement auquel la propriété
dindépendance entre les résultats latents et
laffectation au traitement est vérifiée - Proposition Si (Y0, Y1) ? T X, alors les
distributions marginales l(Y0), l(Y1), et
conditionnelles l(Y0T0), l(Y1T1) des
variables de résultat sont identifiables
11Identification sous lhypothèse dindépendance
conditionnelle à des observables (1 bis)
- Preuve
- Sous lhypothèse dindépendance conditionnelle
aux observables X, on a - l(YkX) l(YkX, Tk) l(YX, Tk) pour k0, 1
- Comme la distribution des variables observables X
est identifiable, il en résulte que les quatre
distributions l(Y0), l(Y1), l(Y0T0) et
l(Y1T1) sont identifiables - Il est alors possible didentifier lensemble des
paramètres de chacune de ces quatre distributions - On peut en particulier identifier leur espérance
et donc leffet moyen du traitement, de même que
leffet moyen du traitement pour le groupe des
individus traités
12Identification sous lhypothèse dindépendance
conditionnelle à des observables (2)
- La condition didentification pour ce dernier
paramètre est moins forte, puisquelle ne
nécessite que lindépendance entre le résultat
potentiel en labsence de traitement et le
traitement, soit Y0 ? T X - Le principe de lestimation est dutiliser les
informations dont on dispose sur les individus
non traités pour construire pour chaque individu
traité un contre factuel - Considérons par exemple leffet causal du
traitement sur les traités - ?TT E(Y1 Y0 T1) E(Y Y0 T1)
- EY E(Y0X, T1) T1 EY
E(Y0X, T0) T1 - EY E(YX, T0) T1
13Identification sous lhypothèse dindépendance
conditionnelle à des observables (3)
- Le problème est donc destimer pour chaque
individu traité de caractéristique xi la quantité
E(Y X xi , T0 ) g(xi) - Lestimateur final est alors obtenu comme la
moyenne des écarts de la situation des individus
traités et du contre factuel construit - Formule
- où I1 est le sous-échantillon des individus
traités et N1 est le nombre dindividus traités
14Estimation par appariement (1)
- Estimation par appariement sur les
caractéristiques observables - Principe associer à chaque individu i traité un
individu non traité, noté i(i), dont les
caractéristiques sont identiques à celles de
lindividu i - Cette méthode suppose que lon observe pour
chaque individu traité un individu non traité
comparable, au sens des caractéristiques X,
cest-à-dire tel que Xi(i) Xi - La quantité Yi(i) est un estimateur de
lespérance du résultat potentiel Y0i -
- Lestimateur de leffet moyen du traitement sur
les traités est alors égal à -
-
- La propriété dindépendance conditionnelle
nécessite en général la prise en compte dun
nombre important de variables de conditionnement
15Estimation par appariement (2)
- 2. Estimation par appariement sur le score de
propension - Le problème de dimension du vecteur X peut être
fortement réduit - Proposition (Rosenbaum et Rubin, 1983) Si la
variable de résultat Y0 est indépendante de
laccès au traitement T conditionnellement aux
observables X, alors elle est également
indépendante de T conditionnellement au score de
propension P(X) Pr (T 1 X) - Y0 ? T X ? Y0 ? T P(X)
- En raison de cette propriété, il suffit
dapparier les individus sur leur score de
propension, lequel constitue un résumé
unidimensionnel de lensemble de ces variables - Lindividu non traité noté i, qui est apparié
avec lindividu traité i, est alors défini par
P(xi) P(xi ) - Néanmoins, les propriétés asymptotiques de cet
estimateur restent inconnues
16Estimation par appariement (3)
- 3. Estimation par appariement avec fonction noyau
(kernel matching) - Heckman, Ichimura et Todd (1998) proposent
dutiliser des estimateurs à noyau pour estimer
lespérance contrefactuelle - Le plus simple de ces estimateurs sécrit sous la
forme - où I0 est lensemble des individus non
traités, N0 est le nombre dindividus non
traités, K est une fonction noyau et h la fenêtre
destimation - Chaque individu non traité participe à la
construction du contre factuel de lindividu i,
avec une importance qui varie selon la distance
entre son score et celui de lindividu considéré - Estimateur convergent, asymptotiquement normal,
avec une vitesse de convergence en racine carrée
de N
17Estimation par appariement (4)
- 4. Support des distributions du score
conditionnel au traitement - Une estimation non paramétrique du contre factuel
impose que lon dispose pour chaque individu
traité dindividus non traités dont les scores
ont des valeurs proches du score de lindividu
traité - On ne peut donc construire de contre factuel que
pour les individus dont le score appartient à
lintersection des supports des distributions des
scores des individus traités et des individus non
traités - Conséquence même sous lhypothèse dindépendance
conditionnelle à des observables, on ne peut pas
systématiquement estimer ?ATE , puisque E(?P(X))
ne peut être estimé que pour les individus dont
le score appartient au support commun de la
distribution des scores - Lestimateur obtenu in fine est alors un
estimateur local on est seulement en mesure
destimer - E(?P(X)?S? , T 1)
18Estimation par appariement (5)
- 4. Support des distributions du score
conditionnel au traitement (suite) - Mise en pratique
- Exclure les observations dont le score de
propension estimé est proche de 1 ou de 0 - Supprimer toutes les observations du groupe de
contrôle pour lesquelles le score de propension
estimé est inférieur au minimum des scores de
propension estimés dans le groupe de traitement
même règle pour le maximum (Dehejia et Wabba,
1999) - Supprimer les observations du groupe de contrôle
dont les covariables ont une densité inférieure à
un certain seuil (Heckman, Ichimura et Todd, 1998)
19Exemple
- Brodaty, Crépon et Fougère (2001, 2005)
- Relations entre la durée de chômage avant
l'entrée dans un dispositif d'aide à l'emploi et
l'effet de ce dispositif sur l'employabilité
ultérieure des bénéficiaires - Mise en évidence de l'existence d'effets
différenciés sur l'employabilité des chômeurs de
courte et de longue durée - Méthode qui permet de tenir compte à la fois de
la multiplicité des dispositifs et de celle des
dates d'entrée dans ces dispositifs - Scores de propension déduits dun modèle de durée
de chômage à risques concurrents - Deux ensembles de données individuelles
1986-1988, 1995-1998 - Les résultats montrent que, pour ce qui est de
l'employabilité des jeunes chômeurs, les
dispositifs d'aide à l'emploi ont été
généralement moins efficaces à la fin des années
90 - Toutefois, certains dispositifs semblent avoir
bénéficié plus aux jeunes chômeurs de longue
durée - Cela a été particulièrement le cas des stages de
formation à la fin des années 80, et des emplois
aidés dans le secteur marchand dix ans plus tard
20Lestimateur des doubles différences (1)
- Cadre modèle à effets fixes individuels et
temporels - Yit ? Tit ?i ?t ?it
- avec i 1,,N et t 1,,T
- Yit variable de résultat (emploi, salaire) pour
lindividu i à la date t - Tit variable indicatrice du traitement pour
lindividu i à la date t (1 si traité, 0 sinon) - ?i effet fixe individuel, ?t effet temporel
commun - Tit, ?i et ?t potentiellement corrélés
- ?it aléa centré, homoscédastique, non corrélé à
Tit, ?i et ?t
21Lestimateur des doubles différences (2)
- Hypothèse seuls les individus appartenant à un
groupe particulier (âge, ville, région, etc.)
sont traités à partir de la date t ? - Tit 1 pour i ? T et t ? ?
- Tit 0 pour i ? C ou t lt ?
- Principe de la méthode éliminer les effets
fixes et temporels - Première différence élimination des effets
fixes - Yit ? ? Tit ? ?t ? ?it
- où ? est lopérateur de différences premières
- ?Yit Yit Yit-1 , ??t ?t ?t ?t-1 ,
??it vit ?it ?it-1
22Lestimateur des doubles différences (3)
- Posons t ? et t - 1 ? - 1 (ou t ? ? et t -
1 ? ? - 1 ) - Si i ? T , ?Ti? 1 ? ?Yi?T ? ??T vi?T
- Si i ? C , ?Ti? 0 ? ?Yi?C ??C vi?C
- Deuxième différence élimination des effets
temporels - ? E(?Yi?T) - E(?Yi?C)
- puisque ?tT ?tC et E(vitT)
E(vitC) 0 - Estimateur des doubles différences
-
- avec
23Lestimateur des doubles différences (4)
- Extension au cas avec covariables
- Yit ? Tit Zit ? ?i ?t ?it
- avec i 1,,N et t 1,,T
- Lestimateur des doubles différences est
équivalent à lestimateur within dans le
modèle projeté sur lespace orthogonal aux effets
fixes et temporels - W Y W X ? W ?
- où X it Tit Zit , ? (?, ?) ,
W INT G BN BT - G JNT / NT , J étant une matrice carrée
composée de 1, - BN (IN ? JT)/ T G , BT (JN ? IT)/
N G - Donc
- et
24Lestimateur des doubles différences (5)
- Exemples
- Card et Krueger (1994) effets du salaire minimum
sur lemploi - En 1992, hausse de 80 du salaire
minimum au New Jersey - Emploi dans les fast-foods situés des
deux côtés de la frontière entre New Jersey et
Pennsylvanie - Hausse de lemploi (équivalent temps
complet) de 0.47 points dans le New Jersey - Baisse de lemploi (équivalent TC) de
2.28 points en Pennsylvanie - Card (1990) effets de limmigration sur
lemploi non qualifié - Arrivée massive dimmigrés cubains non
qualifiés à Miami en 1979 - Taux de chômage des travailleurs non
qualifiés blancs, noirs et hispaniques à Miami et
dans quatre autres villes (Atlanta, Houston, Los
Angeles et Tampa) pas de hausse significative à
Miami - Par exemple, hausse de 1.3 points du
taux de chômage des noirs à Miami, mais hausse de
2.6 points dans les autres villes, de 79 à 81
25Lestimateur des doubles différences (6)
- Hypothèses cruciales pour la mise en uvre de
lestimateur des doubles différences - Effets temporels communs ?tT ?tC au moins en
t ? et t - 1 ? - 1 - Pas dattrition ou de sélection endogène entre (?
- 1) et ? Exemple dune réforme fiscale (PPE)
supposée influencer le nombre dheures
travaillées, variable de résultat continue
certaines personnes sans emploi en (? - 1) mais
employées en ? (ou linverse) - Pas dauto corrélation des erreurs et des
covariables Sinon sous-estimation systématique
de lécart-type de leffet du traitement
(Bertrand, Duflo, Mullainathan, 04) Lhypothèse
nulle H0 ? 0 est trop souvent rejetée
26Doubles différences par appariement (1)
- Problème une variable de résultat telle que
lemploi présente une forte dépendance détat
(auto corrélation dordre 1) - Pr(Yit 1 Yi,t-1 1) gtgt Pr(Yit 1 Yi,t-1
0) - Modèle général
- Yit ae(Xi) ?eit? Tit ?ie uite
si Yi,t-1 1 (emploi) - Yit an(Xi) ?nit? Tit ?in uitn
si Yi,t-1 0 (non emploi) - où
- Tit indicatrice de traitement ( 1 si i ? T
et t ? ? , 0 sinon) - ae(Xi) et an(Xi) fonctions quelconques des
covariables fixes Xi - ?eit? et ?nit? effets du traitement, dépendant
de lindividu et de létat précédent, - ?ie et ?in effets fixes individuels, dépendant
de létat antérieur, - uite et uitn aléas spécifiques à lindividu et
à la période, dépendant de létat antérieur
27Doubles différences par appariement (2)
- Hypothèses
- Leffet du traitement survient après le
traitement, i.e. ?kit? 0 pour t lt ? et k e,
n - Les effets du traitement ?kit? (k e, n) peuvent
varier avec i, t et ? - Les moyennes des erreurs uite et uitn sont
indépendantes de la trajectoire passée du
traitement - Le traitement Tit(?) peut dépendre des erreurs
passées ui,?-sk (k e, n) avec s 1,, S
(Ashenfelters dip) - Mais les erreurs passées ui,?-sk ne sont pas
corrélées avec les erreurs futures ui,tk pour s
? 1 et t ? ? (k e, n)
28Doubles différences par appariement (3)
- La méthode a pour but dappliquer les doubles
différences après appariement afin déliminer les
effets des différences de variables non
observables - Estimateur des doubles différences par
appariement - la période t1 se situant après la date ? de
traitement de lindividu i et la période t0 avant
?-S - N1 étant le nombre de participants pour qui la
différence (t1 - t0) peut être déterminée - N0 étant le nombre de non participants pour qui
la différence (t1 - t0) peut être déterminée
29Doubles différences par appariement (4)
- Cet estimateur est valide
- si le processus demploi ne présente pas de
dépendance détat - ae(Xi) an(Xi) a(Xi) , ?ie ?in ?i , uite
uitn uit - et si lespérance conditionnelle du terme
derreur est indépendante du traitement Ti et des
covariables Xi - E(uit Ti 1, Xi) E(uit Ti 0, Xi) pour t ?
? et t lt ? - S - Mais leffet fixe individuel peut être corrélé
avec Ti et Xi - Exemples Heckman et Smith (1999), Blundell,
Costas Dias, Meghir et Van Reenen (2004)
30Doubles différences conditionnelles par
appariement (1)
- Estimateur
-
- où
- l représente la situation demploi au cours du
mois précédent (l 0 ou 1) - Nl est lensemble des individus traités pour qui
Yi,t1-1 Yi,t0-1 l - nl est le nombre dindividus dans Nl
- les individus du groupe de contrôle sont
également tels que Yj,t1-1
Yj,t0-1 l - gi est un ensemble de pondérations qui rendent
compte du fait que Nl nest pas léchantillon
entier - Probabilités de ré-emploi quand l 0, et
probabilités de rester employé quand l 1
31Doubles différences conditionnelles par
appariement (2)
- Cet estimateur est valide sous la seule hypothèse
que lespérance conditionnelle des erreurs est
indépendante du traitement Ti et des covariables
Xi - E(uite Ti 1, Xi) E(uite Ti 0, Xi)
- E(uitn Ti 1, Xi) E(uitn Ti 0, Xi)
- pour t ? ? et t lt ? - S
- Les effets fixes individuels ?ie et ?in peuvent
être corrélés avec Ti et Xi - Exemple Bergemann, Fitzenberger, Speckesser
(2004)
32Doubles différences conditionnelles par
appariement (3)
- Cet estimateur nidentifie pas leffet du
traitement sur les traités - E(?ki,t1,? T 1)
- mais leffet conditionnel du traitement sur
les traités - E(?ki,t1,? T 1, Yt1-1 l, Yt0-1 l)
- sachant que létat précédent les mois t1 et
t0 était l - Difficultés pour identifier leffet non
conditionnel du traitement sur les traités
33Sélectivité sur variables inobservables
- Hypothèse les résultats potentiels (Y0 , Y1 )
et laffectation au traitement T dépendent de
termes derreur inobservables potentiellement
corrélés entre eux - La variable daffectation au traitement est
supposée être déterminée par un indice latent T
appelé propension à être traitée - T 1(T gt 0) 1(Z? V gt 0)
- Les variables de résultat sont supposées être
chacune engendrée par un modèle de régression
linéaire de la forme - yj aj X bj Uj , j0,1
- Les expressions des paramètres dintérêt
deviennent
34Le modèle Tobit de sélection endogène
- En pratique, on fait très souvent lhypothèse que
les résidus V, U0 et U1 suivent une loi normale
de moyenne 0 et de matrice de variances et
covariances ? - En ce cas, les paramètres dintérêt sont égaux à
- Dautres estimateurs paramétriques peuvent être
mis en uvre à laide de familles de lois plus
générales que la loi normale (Lee, 1983 Heckman,
Tobias et Vytlacil, 2000) - Lestimation semi-paramétrique de ce modèle (sans
hypothèse sur la forme de la distribution des
résidus V, U0 et U1 ) repose sur lexistence dun
instrument continu dans Z (exclu de X)
35Conclusion quelle méthode adopter?
- Le contexte propre à lobservation détermine le
recours à tel ou tel type de méthode dans le but
de réduire les biais spécifiques au problème de
lévaluation. Mais il conditionne aussi la
précision des estimations et donc leur caractère
informatif et opérationnel - Les méthodes dappariement sur les niveaux des
variables de résultat (plutôt que sur leurs
différences premières) sont mal adaptées il y a
persistance deffets individuels inobservés, même
lorsque lon introduit un grand nombre de
caractéristiques individuelles observables - Les méthodes dappariement appliquées aux
variations des variables de résultat, telles que
lestimation par différences de différences ,
marchent bien, mais leur bonne performance dépend
néanmoins de la richesse des variables de
conditionnement - Les problèmes relatifs au support des scores de
propension ont une réelle importance dans la
pratique. Ils reflètent lhétérogénéité de
leffet du traitement dans la population et
mettent laccent sur les difficultés
dextrapolation des résultats obtenus - Lhypothèse de normalité dans les modèles de
sélection sur inobservables conduit en général à
des estimations biaisées compte-tenu de ces
biais potentiels, des approches semi
paramétriques semblent préférables. Mais il faut
disposer dinstruments valides