Master 2: Econométrie 2

Transcription

Master 2: Econométrie 2
Partie 1
Michel BEINE
[email protected]
Université du Luxembourg
Master 2: Econométrie 2 – p. 1/22
Manuel
La partie économétrique du cours est basé sur le livre
Introductory Econometrics, a Modern Approach
(second edition) de Jeffrey M. Wooldridge, édition
Thomson South-Western.
Sur le site web : http://www.swcollege.com/bef/wooldridge/
... wooldridge2e/wooldridge2e.html
il y a des données nécessaires pour les
exercices et plusieurs liens intéressants.
Plan du cours (Partie 1 Économétrie 2)
Chapitre 1. Rappels économétriques .
Chapitre 2. Corrélation sérielle et hétéroscédasticité.
Chapitre 3. Méthodes simples de panel.
Chapitre 4. Méthodes avancées de panel.
Chapitre 5. Estimation par variables instrumentales.
Chapitre 6. Modèles à équations simultanées.
Rappels Structure des données
Structure des données
Il existe 3 types de données. Chaque type de données peut
appeler des techniques économétriques particulières.
Données “Cross-section”.
Séries temporelles.
Données de Panel.
Données “Cross-section”
Échantillon d’individus, ménages, firmes, ..., pris à un
point du temps donné.
Important: on peut souvent supposer que les obs. =
échantillon aléatoire → simplifie l’analyse.
Données très utilisées en économie et sciences
sociales → micro appliquée: marché du travail, finances
publiques, organisation industrielle, économie spatiale,
démographie, économie de la santé, etc.
Example: Wage1.wf1.
Séries temporelles
Séries chronologiques. Ex: PNB, importations, indices
de prix, etc.
Important: Rarement indépendantes au court du temps
→ complexifie l’analyse.
Différentes fréquences: annuel, trimestriel, mensuel,
hebdomadaire, journalier, intra-journalier.
Données très utilisées en macro-économie et en
finance.
Example: PRMINWGE.wf1.
Données de panel
Série temporelle pour chaque unité/individu.
Important: la même unité est observée plusieurs fois au
court du temps.
Example: WAGEPAN.wf1.
Rappels Modèle de régression simple
Modèle de régression simple
Objectif: estimer un modèle du type
wage = β0 + β1 educ + u.
(1)
De manière générale:
y = β0 + β1 x + u.
(2)
→ (2) est supposé tenir sur la population d’intérêt.
u est le terme d’erreur (aléas) = facteurs non-observés
autres que x qui affectent y .
u et x sont des variables aléatoires.
Interprétation Ceteris Paribus: Si ∆u = 0 (autres
facteurs inchangés) → ∆y = β1 ∆x.
Pour estimer β0 et β1 et garder cette interprétation CP il
faut faire certaines hypothèses.
E(u) = 0: normalisation → on ne perd rien.
E(u|x) = E(u): pour toute valeur de x, la moyenne des
u correspondantes est la même.
→ implique la non-corrélation (linéaire). Ex:
wage = β0 + β1 educ + u → E(abil|8) = E(abil|16).
En combinant ces 2 hypothèses:
→ E(u|x) = E(u) = 0: hyp. moyenne cond. nulle.
→ E(y|x) = β0 + β1 x: fonction de régression de la
population.
Estimation de β0 et β1
(xi , yi ) : i = 1, . . . , n = échantillon aléatoire de taille n tiré de
la population.
yi = β0 + β1 xi + ui , ∀i.
E(u) = 0 → E(y − β0 − β1 x) = 0.
E(u|x) = 0 → Cov. nulle entre u et x
→ E[(y − β0 − β1 x)x] = 0.
Pour obtenir β̂0 et β̂1 on va résoudre ce système en
remplaçant
E(.) par son équivalant empirique
Pn
1/n i=1 (.).
Estimation de β0 et β1
n−1
n−1
n
X
i=1
n
X
i=1
(yi − β̂0 − β̂1 xi ) = 0
(3)
[(yi − β̂0 − β̂1 xi )xi ] = 0
֒→ β̂0 = y − β̂1 x
Pn
(xi − x)(yi − y)
i=1
֒→ β̂1 = Pn
.
2
i=1 (xi − x) si > 0
(4)
(5)
(6)
Estimation de β0 et β1 par la méthode des moments.
Moindres carrés ordinaires (MCO)
minb0 ,b1
ordre”:
Pn
2 → 2 équations “de premier
(y
−
b
−
b
x
)
0
1
i
i
i=1
−2
−2
n
X
i=1
n
X
i=1
(yi − β̂0 − β̂1 xi ) = 0
[(yi − β̂0 − β̂1 xi )xi ] = 0
֒→ β̂0 = y − β̂1 x
Pn
i=1 (xi − x)(yi − y)
P
֒→ β̂1 =
.
n
2
i=1 (xi − x) si > 0
(7)
(8)
(9)
(10)
Estimation de β0 et β1 par la méthode des MCO donne les
même β̂0 et β̂1 .
Propriétés des estimateurs MCO
SLR=Simple Linear Regression.
SLR.1 y = β0 + β1 x + u → linéaire en les paramètres.
SLR.2 (xi , yi ) : i = 1, . . . , n → échantillon aléatoire de
taille n tiré de la population.
SLR.3 E(u|x) = 0 → moyenne conditionnelle nulle.
Permet de dériver les propriétés des MCO
conditionnellement aux valeurs de xi dans notre
échantillon. Techniquement identique à supposer xi
fixes dans des échantillons répétés (pas très réaliste).
Pn
SLR.4 i=1 (xi − x)2 6= 0 → variation dans les x.
Théorème 2.1: Sous les hypothèses SLR.1 - SLR.4,
E(β̂0 ) = β0 et E(β̂1 ) = β1 .
SLR.5 V ar(u|x) = σ 2 → homoscédasticité.
σ 2 n−1
Pn
2
x
i=1 i
V ar(β̂0 ) = Pn
2
i=1 (xi − x)
σ2
V ar(β̂1 ) = Pn
2
(x
−
x)
i
i=1
1 Pn
2
2
2
E(σ̂ ) = σ , où σ̂ = n−2 i=1 û2i .
Rappels Modèle de régression multiple
Modèle de régression multiple
Objectif: estimer un modèle du type
wage = β0 + β1 educ + β2 exper + u.
(11)
De manière générale:
(12)
y = β0 + β1 x1 + . . . + βk xk + u.
Pn
OLS: minb0 ,b1 ,...,bk i=1 (yi − b0 − b1 xi1 − . . . − bk xik )2 .
Modèle de régression multiple
Exemple: y = β0 + β1 x1 + β2 x2 + u.
→ Comment obtenir β1 ?
Régresser x1 sur x2 : x̂1 = α̂0 + α̂1 x2 .
Calculer r̂1 = x1 − x̂1 .
β̂1 =
n
i=1 r̂i1 yi
n
2
i=1 r̂i1
.
β1 est bien l’effet net de x1 sur y , où net signifie après
avoir tenu compte de l’effet des autres variables.
Goodness-of-Fit
Il est possibleP
de décomposer la variabilité observée sur y ,
c-à-d SST ≡ ni=1 (yi − y)2 , en 2 quantités:
Pn
SSE ≡ i=1 (ŷi − y)2 : variabilité expliquée par le
modèle;
Pn
SSR ≡ i=1 û2i : variabilité non-expliquée par le
modèle.
→ SST = SSE + SSR.
On peut donc définir une mesure de “qualité” de la
régression (GoF):
R2 = SSE/SST compris entre 0 et 1.
MLR=Multiple Linear Regression.
MLR.1 y = β0 + β1 x1 + . . . + βk xk + u → linéaire en les
paramètres.
MLR.2 (x1i , . . . , xki , yi ) : i = 1, . . . , n → échantillon
aléatoire de taille n tiré de la population.
MLR.3 E(u|x1 , . . . , xk ) = 0 → moyenne conditionnelle
nulle.
Pn
MLR.4 i=1 (xji − x)2 6= 0 ∀j = 1, . . . , k et pas de
relation linéaire parfaite entre les xj → variation dans
les xj et pas de collinéarité parfaite.
Théorème 3.1: Sous les hypothèses MLR.1 - MLR.4,
E(β̂j ) = βk ∀j = 0, . . . , k .
MLR.5 V ar(u|x1 , . . . , xk ) = σ 2 → homoscédasticité.
V ar(β̂j ) =
(1 − Rj2 )
σ2
Pn
i=1 (xij
− xj )2
où Rj2 est le R2 de le régression de xj sur les autres x
(+ une constante).
Théorème 3.3: Sous les hypothèses MLR.1 - MLR.5
(appelées hypothèses de Gauss-Markov),
Pn
1
2
2
2
E(σ̂ ) = σ , où σ̂ = n−k−1 i=1 û2i .
Théorème 3.4 où théorème de Gauss-Markov: Sous
les hypothèses MLR.1 - MLR.5, β̂j est BLUE,
∀i = 0, . . . , k .
Rappels sur l’Inférence
Hypothèse de normalité
Pour faire de l’inférence statistique, il faut ajouter une
hypothèse supplémentaire:
MLR.6 u ∼ N (0, σ 2 ) et indépendant des xj → normalité.
Les hypothèses MLR.1 - MLR.6 sont appelées
hypothèses classiques du modèle linéaire (CLM) =
Gauss-Markov + normalité.
CLM → MCO à la variance minimale.
Comment justifier cette hypothèse de normalité des
résidus ?
Si u est la somme de beaucoup de facteurs
non-observés différents, on peut appeler le théorème
central limite pour justifier la normalité.
Théorème Central Limite
Soit Y1 , Y2 , . . . , Yn un échantillon de variables aléatoires
de moyenne µ et de variance σ 2 .
→ Zn =
Y n√
−µ
σ/ n
suit asymptotiquement une distribution
N(0,1).
Si Y ∼ χ2 (1), µ = 1 et σ 2 = 2.
Inférence
β̂j ∼ N (βj , V ar(β̂j )), ∀i = 0, . . . , k , où
σ2
V ar(β̂j ) = (1−R2 ) n (xij −xj )2 .
j
i=1
Exemple.
β̂j −βj
se(β̂j )
∼ tn−k−1 , ∀i = 0, . . . , k , où
q
se(β̂j ) = V ar(β̂j ) et σ 2 est remplacé par σ̂ 2 .
On peut donc tester H0 : βj = aj contre
H1 : βj <, 6=, > aj .
P-valeur
P-valeur: “Quelle est le plus petit niveau de
significativité auquel H0 serait rejeté”.
Comment la calculer? Prendre la t-stat et regarder à
quel pourcentile elle correspond dans la distribution de
Student appropriée.
→ Rejeter H0 si la P-Valeur < au seuil fixé (ex: 5%).
Tests multiples de restrictions linéaires
Si H0 : βj = 0 pour j ∈ 0, 1, . . . , k . Ex: H0 : β1 = β2 = 0.
et H1 : H0 n’est pas vrai.
→ 1) Estimer le modèle non contraint.
→ 2) Estimer le modèle contraint.
(SSRc −SSRnc )/q
SSRnc /(n−k−1) ,
où SSR
dénote la somme des carrés des résidus et les indices c
et nc signifient respectivement contraint et
non-contraint.
→ 3) Calculer la statistique F ≡
Sous H0 , F ∼ Fq,n−k−1 , où F =Fisher.
α
Rejet H0 , si F > cα , où c = Fq,n−k−1
.
Exercices récapitulatifs
Exercice 4.12.
Exercice 4.17.
Exercice 4.19.
Rappels propriétés asymptotiques des MCO: Chapitre 5
Propriétés exactes des MCO
Pour prouver le caractère non-biaisé et BLUE des MCO
nous avons imposé des hypothèses assez fortes
(MLR.1-MLR.5).
Idem pour effectuer de l’inférence statistique (MLR.6:
normalité).
Ces propriétés sont vraies quel que soit la taille de
l’échantillon (∀n).
→ On parle dès lors de propriété exacte, d’échantillon
fini, ou encore de petit échantillon.
Propriétés asymptotiques des MCO
Dans certains cas, le rejet de certaines hypothèses ne
signifie pas que les MCO sont invalides.
Ex: non-normalité de u.
→ En effet, les MCO peuvent être encore valides en
grand échantillon sous des hypothèses plus faibles.
→ Étudier les propriétés statistiques pour n grand =
étudier les propriétés asymptotiques.
Nouveau concept: CONVERGENCE.
Pour rappel. Théorème 3.1: Sous les hypothèses
MLR.1 - MLR.4, E(β̂j ) = βk ∀j = 0, . . . , k .
Pour rappel. MLR.3 E(u|x1 , . . . , xk ) = 0 → moyenne
conditionnelle nulle.
On a vu que E(u|x1 ) = 0 implique Cov(u, x1 ) = 0.
Définition: plim = Limite en probabilité = valeur vers
laquelle un estimateur converge lorsque la taille de
l’échantillon tend vers l’infini. Voir page 741.
Hors, il est possible de montrer que:
plim β̂1
Cov(x1 , u)
= β1 +
V ar(x1 )
= β1 , si Cov(u, x1 ) = 0.
→ Il est possible de relâcher MLR.3 pour prouver tout
de même que les MCO sont convergents.
MLR.3’ E(u) = 0 et Cov(xj , u) = 0 ∀j = 1, . . . , k →
moyenne nulle et correlation nulle.
→ Sous les hypothèses MLR.1 - MLR.2 - MLR.3’ MLR.4, β̂j est un estimateur convergent de βj ,
∀j = 1, . . . , k .
Normalité asymptotique
La normalité ne joue aucun rôle dans le caractère
non-biasés des MCO ni dans leur caractère BLUE.
Par contre, pour effectuer de l’inférence statistique nous
avons supposé que u ∼ N (0, σ 2 ) et donc que la
distribution de y|x1 , . . . , xk est normale.
→ distribution symétrique autour de sa moyenne.
→ peut prendre des valeurs sur ℜ.
→ plus de 95% des observations sont comprises entre
2 écart-types.
Normalité asymptotique
Devons nous abandonner les t-stats si u n’est pas
normalement distribué ?
Non: on fait appel au théorème central limite pour
conclure que les MCO satisfont la normalité
asymptotique.
Si n grand, β̂j est approximativement N (βj , V ar(β̂j )).
Illustration via une Simulation de Monte-Carlo: Prg,
Output n=2000,Output n=30.
Rappels Hétéroscédasticité: Chapitre 8
Conséquences de l’hétéroscédasticité
Une fois de plus l’hétéroscédasticité n’a pas d’influence
sur le caractère non-biaisé ou convergent des MCO.
Par contre la formule traditionnelle de V ar(β̂j ) donne un
estimateur biaisé de la variance des estimateurs si
l’hypothèse d’homoscédasticité est violée.
→ Inférence incorrecte si on utilise cette formule.
→ MCO ne sont plus “BLUE”.
Solution 1: Corriger cette formule → Écart-types
robustes à l’hétéroscédasticité (White, 1980).
Solution 2: Déterminer la source de cette
hétéroscédasticité et la prendre en compte dans
l’estimation → Moindres Carrés Pondérés.
Corrélation sérielle et hétéroskedasticité: Chapitre 2
Section 1: Corrélation sérielle
Biais des MCO et autocorrélation
Supposons que yt = β0 + β1 xt + ut .
Supposons que le terme d’erreur suit un
AR(1) : ut = ρut−1 + et avec |ρ < 1| et et ∼ iid(0, σe2 ).
Chapitre 10: TS.1-TS.3 → MCO non-biaisés pour
autant que x soit strictement exogène.
Chapitre 11: TS.1’-TS.3’ → MCO consistant pour
autant que yt soit faiblement dépendant et E(ut |xt ) = 0.
Rien n’est dit sur le fait que ut ne puisse pas suivre un
AR(1).
Par contre les MCO ne sont plus BLUE car violation de
TS.5 et TS.5’.
Efficience-Inférence des MCO
Estimation du modèle yt = β0 + β1 xt + ut par MCO, où
ut supposé iid(0, σ 2 ) et pour simplifier x = 0.
Rappelons que ut suit en réalité un AR(1).
Pn
Pn
2.
−1
x
x
u
,
où
SST
=
β̂1 = β1 + SSTx
t
t
x
i=1 t
i=1
V ar(β̂1 ) = SSTx−2 V ar(
n
X
xt ut )
i=1

= SSTx−2 
=
σ2
SSTx
n
X
x2t V ar(ut ) + 2
t=1 j=1
i=1
+2
σ2
SSTx2
n−1
n−t
XX
n−1
n−t
XX

xt xt+j E(ut ut+j )
ρj xt xt+j
t=1 j=1
Efficience-Inférence des MCO
La formule traditionnelle ignore le second terme.
Si ρ > 0 → on sous-estime V ar(β̂1 ).
Si ρ < 0 → on sur-estime V ar(β̂1 ).
Question: Supposons que ut = et + αet−1 . Montrez que
la formule traditionnelle pour calculer V ar(β̂1 ) est
incorrecte si α 6= 0.
Tester la présence d’autocorrélation
Dans le modèle général:
yt = β0 + β1 xt1 + . . . + βk xtk + ut → comment tester la
présence de corrélation sérielle ?
Deux types de tests:
1. Tests basés sur l’hypothèse que X est strictement
exogène: t-test ou DW.
2. Tests basés sur l’hypothèse que X n’est pas
strictement exogène.
Si X est strictement exogène
Supposons que yt = β0 + β1 xt + ut .
Nous voulons tester si le terme d’erreur suit un
AR(1) : ut = ρut−1 + et avec |ρ < 1|.
H0 : ρ = 0.
Développons tout d’abord un test valide quand n est
grand et quand X est strictement exogène.
Hypothèses supplémentaires disant en quelque sorte
que et est iid:
E(et |ut−1 , ut−2 , . . .) = 0 et V ar(et |ut−1 ) = V ar(et ) = σe2 .
Si les ut étaient observés on pourrait utiliser le
Théorème 11.2 pour valider l’utilisation asymptotique
des t-tests dans la régression ut = ρut−1 + et .
Que ce passe-t-il si on remplace ut par ût ? A noter que
ût dépend de β̂0 et de β̂1 .
Marche à suivre pour le t-test
Estimer yt = β0 + β1 xt + ut et obtenir ût .
Estimer ût = ρût−1 + et .
Utiliser un t-test pour tester H0 : ρ = 0 contre
H1 : ρ <6=> 0.
Test de Durbin-Watson
Le test de Durbin-Watson est un autre test pour tester
la corrélation sérielle d’ordre 1 sous l’hypothèse que X
est strictement exogène.
La statistique DW =
n
2
t=2 (ût −ût−1 )
n
2
t=1 ût
, où ût est le résidu
d’une régression du type
yt = β0 + β1 x1t + . . . + βk xkt + ut .
Il est facile de montrer que DW ≈ 2(1 − ρ̂).
Durbin et Watson (1951) ont dérivé la distribution de
DW conditionnellement à X sous l’hypothèse que les
hypothèses du modèle linéaire classique sont vérifiées
(incluant la normalité).
La distribution de DW dépend de n, k , et du fait qu’on a
inclut une constante ou pas.
Test de Durbin-Watson
Notons
que
Pn
Pn
Pn
Pn
2
2
2
t=2 (ût − ût−1 ) =
t=2 ût +
t=2 ût−1 − 2
t=2 ût ût−1 .
Si ρ̂ = 1 → DW = 0.
Si ρ̂ = −1 → DW = 4.
Si ρ̂ = 0 → DW = 2.
H0 : ρ = 0 contre généralement H1 : ρ > 0.
Durbin et Watson (1951) reportent des valeurs critiques
inférieures dL et supérieures dU .
Si dL ≤ DW ≤ dU , on ne rejette pas H0 .
La plupart des logiciels économétriques reportent DW
mais pas les valeurs critiques.
Table de Durbin-Watson pour H1 : ρ > 0
Si X n’est pas strictement exogène
Durbin (1970 propose un autre test valable si X n’est
pas strictement exogène, par exemple si le modèle
contient yt−1 comme variable explicative.
i) Estimer le modèle yt = β0 + β1 xt1 + . . . + βk xtk + ut et
obtenir ût , ∀t = 1, 2, . . . , n.
ii) Estimer le modèle ût = γ0 + γ1 xt1 + . . . + γk xtk + ρût−1 ,
∀t = 2, 3, . . . , n et obtenir ρ̂ ainsi que tρ̂ .
iii) Utiliser tρ̂ de la manière usuelle pour tester
H0 : ρ = 0 contre H1 : ρ <6=> 0.
→ On régresse ût sur xt et ût−1 et donc on permet à
chaque xtj d’être corrélé avec ut−1 .
→ tρ̂ a approximativement une distribution en t si n est
grand.
Tester un AR(q)
i) Estimer le modèle yt = β0 + β1 xt1 + . . . + βk xtk + ut et
obtenir ût , ∀t = 1, 2, . . . , n.
ii) Estimer le modèle
ût = γ0 + γ1 xt1 + . . . + γk xtk + ρ1 ût−1 + . . . + ρq ût−q ,
∀t = q + 1, q + 2, . . . , n.
iii) Effectuer le F-test suivant H0 : ρ1 = . . . = ρq = 0
contre H1 : un des ρj <6=> 0, ∀j = 1, . . . , q .
Si les xt sont supposés strictement exogènes, on peut
les omettre dans les étapes i) et ii).
A noter que ces tests supposent
V ar(ut |xt , ut−1 , . . . , ut−q ) = σ 2 . Il existe une version de
ces tests robuste à l’hétéroskedasticité comme on le
verra plus loin.
Tester un AR(q)
Une alternative a F -test est d’utiliser un Lagrange
Multiplier (LM) Test: LM = (n − q)Rû2 ,
où Rû2 est le R2 de la régression
ût = γ0 + γ1 xt1 + . . . + γk xtk + ρ1 ût−1 + . . . + ρq ût−q ,
∀t = q + 1, q + 2, . . . , n.
Sous H0 , LM ∼ χ2q asymptotiquement.
Ce test est connu sous le nom de test de
Breusch-Godfrey.
Il est test est disponible en Eviews (avec le F -test).
Exemple: Taux d’intérêt US obligataire à 3 mois.
ci3t = α0 + α1 ci3t−1 .
Correction pour corrélation sérielle
Si on détecte de la corrélation sérielle, on peut modifier
le modèle initial pour tenter d’obtenir un modèle
dynamiquement complet (ex: AR(1) → AR(2)).
Dans certains cas nous ne sommes pas intéressé par
modéliser cette dynamique → l’intérêt réside plutôt
dans les autres variables incluses dans le modèle.
Mais l’inférence est compromise → Que faire ?
→ Calculer des écart-types robustes à n’importe quelle
forme de corrélation sérielle.
Écart-types robustes
Considérons le modèle yt = β0 + β1 xt1 + . . . + βk xtk + ut ,
t = 1, . . . , n.
Comment obtenir un écart-type pour β̂1 robuste à la
corrélation sérielle ?
xt1 = δ0 + δ2 xt2 . . . + δk xtk + rt , où E(rt ) = 0 et
Corr(rt , xtj ) = 0, ∀j ≥ 2.
Il est possible de montrer que Avar(β̂1 ) =
V ar(
(
n
i=1
n
i=1
rt ut )
2
E(rt2 )
)
,
où Avar dénote la variance asymptotique.
Sous l’hypothèse TS.5’, at ≡ rt ut est non corrélé
sériellement et donc la formule traditionnelle de V ar(β̂1 )
est valide. Par contre si TS.5’ ne tient pas, Avar(β̂1 ) doit
tenir compte de la corrélation entre at et as ∀t 6= s.
Newey et West (1987) et Wooldridge (1989) ont montré
que Avar(β̂1 ) peut être estimé de la manière suivante.
i) Estimer par MCO yt = β0 + β1 xt1 + . . . + βk xtk + ut ,
t = 1, . . . , n. se(β̂1 ) dénote l’écart-type de β̂1 et σ̂
l’écart-type de ût .
ii) Estimer la régression auxiliaire:
xt1 = δ0 + δ2 xt2 . . . + δk xtk + rt .
iii) Calculer ât = r̂t ût , ∀t = 1, . . . , n.
iv) Pour une valuer g > 0 donnée, calculer:
Pn
Pg
Pn
2
v̂ = t=1 ât + 2 h=1 [1 − h/(g + 1)]
t=h+1 ât ât−h .
→ g contrôle la “quantité" de corrélation sérielle que
nous permettons.
Ex: g = 1, v̂ =
Pn
2
â
t=1 t
+
Pn
t=2 ât ât−1 .
v) L’écart-type robuste à la corrélation sérielle de β̂1 est:
√
∗
2
se (β̂1 ) = [se(β̂1 )/σ̂ ] v̂ .
On peut montrer que cet estimateur est aussi robuste à
toute forme d’hétéroskedasticité → cas plus général de
ce qui est exposé au Chapitre 8.
Comment choisir g ?
La théorie nous dit que g doit croître avec n.
Choix de g
Certains travaux ont suggéré pour:
- des données annuelles → g = 1, 2;
- des données trimestrielles → g = 4, 8;
- des données mensuelles → g = 12, 24.
Newey et West (1987) recommandent de prendre la
partie entière de 4(n/100)2/9 → implémenté en Eviews.
Exemple: Taux d’intérêt US obligataire à 3 mois.
ci3t = α0 + α1 ci3t−1 .
Section 2: Hétéroscédasticité
Hétéroscédasticité
Pour beaucoup de séries temporelles, l’hypothèse TS.4
ou TS.4’ d’homoscédasticité est violée.
Exemple: Rendements journaliers du NYSE
→ n’affecte pas le caractère non-biaisé ou convergent
des MCO mais invalide l’inférence statistique
traditionnelle.
Il existe deux manières d’aborder le problème lié à
l’hétéroscédasticité.
i) Corriger les écart-types pour effectuer de l’inférence
correctement.
ii) Modéliser la dynamique présente dans la variance.
Écart-types robustes à la White (1980)
White (1980) propose une méthode permettant de
rendre les écart-types robustes à toute forme
d’hétéroscédasticité.
→ offre une solution intéressante, pour autant que
l’intérêt ne se porte que sur la modélisation de la
moyenne conditionnelle.
Eviews, ainsi que beaucoup d’autres logiciels
économétriques, offre cette option.
Il est possible de montrer que la formule de White
(1980) est un cas particulier de la formule de Newey et
West (1987) qui permet de tenir compte également
d’une possible autocorrélation des résidus.
Exemple: AR(1) sur NYSE
Tester la présence d’hétéroscédasticité
Avant de modéliser la dynamique présente dans la
variance, il est judicieux de tester la présence
d’hétéroscédasticité afin d’avoir une meilleure idée de
la spécification à adopter.
Pour appliquer les tests présentés ci-dessous il faut
supposer que les résidus ut sont non corrélé
sériellement→ tester avant.
Test de Breusch-Pagan:
u2t = δ0 + δ1 xt1 + . . . + δk xtk + vt ; H0 : δ1 = . . . + δk = 0.
Pour utiliser un F -test, il faut que les écart-types des
MCO soient valables et donct que vt satisfasse TS.4 ou
TS.4’ et TS.5 ou TS.5’.
Exemple:
AR(1) sur NYSE: Estimer û2t = α0 + α1 returnt−1 + et
Modèles ARCH
Considérons un modèle simple: yt = β0 + β1 zt + ut .
Une caractéristique largement admise des séries
financières à fréquence élevée est que la variance n’est
pas constante au court du temps et qu’il existe des
grappes de volatilité.
→ Si la variance en t est grande, elle le sera
probablement demain et les jours qui suivent.
→ Si la variance en t est petite, elle le sera
probablement demain et les jours qui suivent.
Engle (1982) a proposé un modèle appelé ARCH:
Autoregressive Conditional Heteroskedasticity.
Modèles ARCH
La caractéristique du modèle ARCH(1) est que:
E(u2t |ut−1 , ut−2 , . . .) = E(u2t |ut−1 ) = α0 + α1 u2t−1 , alors
que E(u2t |ut−1 , ut−2 , . . .) = 0.
Les ut sont non corrélés sériellement alors que les u2t le
sont.
Conditions de positivité: E(u2t |ut−1 ) > 0, ∀t → α0 > 0 et
α1 ≥ 0.
Si α1 = 0 → homoscédasticité.
→ on peut tester la présence d’effets ARCH en
estimant ce modèle (sur ût ), voir une version plus
étendue (plus de retards).
On peut tester α1 , . . . , αq = 0 en utilisant un LM −test ou
F −test.
Chapitre 3: Pooling de données “cross-section” ou
méthodes simples de données de panel:
Pooling
Une série “cross-section” (ou en coupes) constitue bien
souvent un ensemble de données relatives à des unités
(individus, firmes, etc.) interrogées à un moment donné.
Dans certains cas, l’enquête est répétée plusieurs fois
donnant lieu à des échantillons différents, représentatifs
de la population.
La technique du pooling suppose que les différents
échantillons sont chaque fois tirés aléatoirement de la
population.
→ On n’observe pas nécessairement les mêmes unités.
→ On dispose de plusieurs échantillons indépendants.
→ Par conséquent, Corr(ut , us ) = 0, ∀t 6= s et donc on
peut donc (sous réserve) empiler les enquêtes et
effectuer une analyse MCO traditionnelle.
Panel
Par contre, lorsqu’on observe la même unité au court
du temps, on parle de données de panel ou
longitudinales.
Par conséquent, on ne peut pas supposer que les
observations sont indépendantes.
→ Un facteur non-observé (comme le QI) qui affecte le
salaire d’un individu en 1995 va également affecter son
salaire en 2000 = hétérogénéité non observée.
→ Requiert des techniques particulières pour traiter ce
problème.
→ Empiler les échantillons et utiliser les MCO donne
des estimateurs biaisés.
Technique de pooling
Beaucoup d’enquêtes auprès des ménages sont
répétées au court du temps.
Vu que le taux d’attrition est souvent assez grand, on
veille à interroger de nouvelles personnes pour
accroître l’échantillon.
→ On a alors des échantillons indépendants.
Pourquoi effectuer plusieurs enquêtes ?
→ Pour avoir plus d’observations et donc plus de
précision dans l’estimation des paramètres et des
écarts-type.
Technique de pooling
→ Pour effectuer des tests nécessitant l’utilisation
d’observations à différents moments du temps.
Exemple : Pour tester l’efficacité d’une politique
économique il faut des observations avant et après la
mise en oeuvre de la politique.
Etude de cas : La base de données FERTIL1.wf1
concerne l’étude de Sanders (1994) sur la fertilité aux
USA.
Fréquence : une enquête tous les 2 ans de 1972 à
1984 → 7 vagues.
La question posée est “Comment évolue la fertilité au
court du temps ?”
→ après avoir contrôlé pour des facteurs tels que
éducation, âge, race, région (à 16 ans), environnement
(à 16 ans).
Variable dépendante : KIDS
Variable
C
EDUC
AGE
AGESQ
BLACK
EAST
NORTHCEN
WEST
FARM
OTHRURAL
TOWN
SMCITY
Y74
Y76
Y78
Y80
Y82
Y84
Coefficient
-7.742457
-0.128427
0.532135
-0.005804
1.075658
0.217324
0.363114
0.197603
-0.052557
-0.162854
0.084353
0.211879
0.268183
-0.097379
-0.068666
-0.071305
-0.522484
-0.545166
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
Std. Error
3.051767
0.018349
0.138386
0.001564
0.173536
0.132788
0.120897
0.166913
0.147190
0.175442
0.124531
0.160296
0.172716
0.179046
0.181684
0.182771
0.172436
0.174516
0.129512
0.116192
1.554847
2685.898
-2091.224
2.010694
t-Statistic
-2.537040
-6.999272
3.845283
-3.710324
6.198484
1.636626
3.003501
1.183867
-0.357072
-0.928248
0.677367
1.321799
1.552737
-0.543881
-0.377945
-0.390136
-3.030016
-3.123871
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
Prob.
0.0113
0.0000
0.0001
0.0002
0.0000
0.1020
0.0027
0.2367
0.7211
0.3535
0.4983
0.1865
0.1208
0.5866
0.7055
0.6965
0.0025
0.0018
2.743136
1.653899
3.736447
3.816627
9.723282
0.000000
Données de Panel à 2 périodes
Supposons maintenant que nous disposons des
données individuelles pour lesquelles un individu est
observé en t = 1 et t = 2.
Exemple : la base de donnée CRIME2 comprend des
données sur les taux de criminalité et de chômage pour
46 villes américaines en 1982 et 1987.
Estimation pour l’année 1987 : Résultat.
Comment expliquer ce résultat ? ← Si chômage
augmente, le crime diminue.
Variables omises observables ? On pourrait contrôler
pour des facteurs tels que (la distribution de) l’âge,
éducation, etc.
Données de Panel à 2 périodes
Variables omises non-observables ? On peut imaginer
que certains de ces facteurs sont constants au court du
temps et certains varient au court du temps.
yit = β0 + δ0 d2t + β1 xit + ai + uit , t = 1, 2.
i → unité et t → temps.
d2t = 0 si t = 1 et d2t = 1 si t = 2 → intercept différent
pour t = 1 ou 2.
ai capture tous les facteur non-observé affectant yit →
effet non-observé ,fixe ou individuel.
Ce modèle s’appelle donc modèle à effet non-observé
ou à effet fixe.
uit est le terme d’erreur idiosyncratique ou variant dans
le temps.
Exemple
crmrteit = β0 + δ0 d87t + β1 unemit + ai + uit , t = 1, 2.
ai reprend tous les autres facteurs affectant le taux de
criminalité qui ne varient pas entre t = 1 et 2.
→ caractéristiques géographiques (localisations aux
USA).
→ caractéristiques démographiques (age, race,
éducation, etc.) : à vérifier.
→ certaines villes peuvent avoir leurs propres
méthodes pour comptabiliser les crimes.
Comment estimer β1 ?
Pooling ?
Pooling
yit = β0 + δ0 d2t + β1 xit + vit , t = 1, 2.
→ vit = ai + uit .
Pour estimer ce modèle par MCO il faut supposer que
ai est non corrélé avec xit sinon vit (erreur composé)
serait corrélé avec xit .
Si ce n’est pas le cas les MCO donne lieu à un biais
d’hétérogénéité non observée.
→ Biais dû à l’omission d’une variable constante au
court du temps.
Exemple : CRIME2. → 92 observations: 46 villes et 2
périodes.
Panel
Si ai est corrélé avec xit , la technique du pooling est
donc inappropriée.
Solution simple : estimer un modèle en différence
première.
yi1 = β0 + β1 xi1 + ai + ui1 (t = 1)
yi2 = (β0 + δ0 ) + β1 xi2 + ai + ui2 (t = 2).
Par conséquent,
(yi2 − yi1 ) = δ0 + β1 ∆(xi2 − xi1 ) + (ui2 − ui1 )
∆yi = δ0 + β1 ∆xi + ∆ui .
Panel
∆yi = δ0 + β1 ∆xi + ∆ui peut être estimé par MCO si les
hypothèses traditionnelles sont validées.
En particulier, il faut que Corr(∆ui , ∆xi ) = 0, ce qui est
naturellement vrai si Corr(uit , xit ) = 0, ∀t = 1, 2.
Dans notre exemple Corr(∆ui , ∆unemi ) = 0 ?
Faux si par exemple si l’effort d’application de la loi
(∈ uit ) augmente plus dans des villes où le taux de
chômage diminue Corr(uit , unemit ) < 0 → biais des
MCO.
Important : on ne peut estimer par cette méthode l’effet
de variables constantes au court du temps (zi ).
Exemple : Distance par rapport à la capitale → ∆zi = 0.
Exemple : CRIME2.
Modèle en DP pour T > 2
yit = δ0 + δ2 d2t + δ3 d3t + β1 xit1 + . . . + βk xitk + ai + uit ,
où t = 1, 2 et 3 → 3N observations.
→ on a considéré ici 2 variables auxiliaires temporelles
en plus de l’intercept.
Si Corr(ai , xitj ) 6= 0 ∀j = 1, . . . , k → β̂j obtenu par MCO
sur des données poolées sont biaisés et inconsistants.
→ utiliser les techniques de panel si Corr(xitj , uis ) = 0
∀t, s et j , c-à-d si exogénéité stricte des xitj après
contrôle des effets fixes ai .
Pour éliminer ai on peut différencier les séries.
Exemple : ∆yi2 = yi2 − yi1 et ∆yi3 = yi3 − yi2 .
Modèle en DP pour T > 2
∆yit = δ2 ∆d2t + δ3 ∆d3t + β1 ∆xit1 + . . . + βk ∆xitk + ∆uit ,
où t = 2 et 3 → 2N observations.
→ Estimer le modèle par MCO sur les données poolées
si les autres hypothèses des MCO sont validées.
→ Il est important de vérifier que corr(∆uit , ∆xitj ) = 0
∀j = 1, . . . , k et t = 2, 3.
Notons que cette équation n’a pas d’intercept → on ne
peut pas calculer de R2 .
Mais ∆d2t = 1 si t = 2 (−1 si t = 3) et ∆d3t = 1 si t = 3
(0 si t = 2).
→ ∆yit = α0 + α3 d3t + β1 ∆xit1 + . . . + βk ∆xitk + ∆uit .
Panel Balancé
Idem si T > 3.
Si T est le même pour tous les individus → on a un
panel balancé.
Si T > 2 il faut évidemment vérifier que ∆uit n’est pas
corrélé sériellement.
Hypothèses de l’estimateur à DP
7 hypothèses sous-jacentes à l’estimation par DP :
FD.1 ∀i Le modèle s’écrit :
yit = β1 xit1 + β2 xit2 + ... + βk xitk + ai + uit , t = 1, 2, ..., T.
FD.2 On dispose d’un échantillon aléatoire pour chaque
dimension en coupes transversales (“cross-section”).
FD.3 E(uit |Xi , ai ) = 0 → L’espérance conditionnelle du
terme d’erreur est nulle ∀t ⇒ E(∆uit |Xi ) = 0 pour
t = 2, . . . , T.
FD.4 Chaque variable explicative change dans le temps
(au moins pour certains i) et il n’y a pas de relation
linéaire parfaite entre les variables explicatives.
FD.5 ∀t, V ar(∆uit |Xi ) = V ar(∆uit ) = σu2 .
FD.6 ∀t 6= s, Cov(∆uit , ∆uis |Xi ) = 0.
Hypothèses de l’estimateur à DP
FD.7 (Hypothèse de normalité) : Conditionnellement à
Xi , les ∆uit sont indépendamment et identiquement
distribués suivant une N (0, σu2 ).
Sous les hypothèses FD.1-FD.6, l’estimateur par DP
est BLUE (conditionnellement à X).
Sous les hypothèses FD.1-FD.7, l’estimateur DP est
normalement distribué.
Illustration
Cette illustration concerne l’effet de l’alcool au volant.
Quel est l’effet des taxes et des lois sur l’alcool au
volant sur la mortalité liée à un accident de voiture ?
Données sur mortalité liée à un accident de voiture,
taxes sur l’alcool, lois sur l’alcool au volant et d’autres
variables concernant 48 états américains contigus.
Fréquence : Annuel de 1982 à 1988 → 7 années.
Modèle simple : F atalityRate = α0 + α1 BeerT ax + u,
où F atalityRate = nombre annuel de morts suite à un
accident de voiture par 10.000 personnes (aux USA)
= 10000 × mrall,
et BeerT ax = taxe réelle sur un casier de bière.
Fatality rate (par 10.000)
MCO pour les années 1982 et 1988
1982
4
^
FatalityRate
= 2.01 + 0.15 BeraTax
(0.15) (0.13)
3
2
Fatality rate (par 10.000)
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
Bear Tax (Dollars par caise en $1988)
2.25
2.50
2.75
4
1988
^
FatalityRate
= 2.86 + 0.44 BeraTax
(0.11) (0.13)
3
2
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
Bear Tax (Dollars par caise en $1988)
2.25
2.50
2.75
Eviews
- Workfile Eviews.
- Programme Eviews.
Code Eviews :
’ Equation OLS FatalityRate = alpha_0 + alpha_1 BeerTax + u for year 1982
smpl 1982 1982
states.ls(h) vfrall? c beertax?
freeze(eq_OLS_1982) states
Eviews
Dependent Variable: VFRALL?
Method: Pooled Least Squares
Sample: 1982 1982
Included observations: 1
Number of cross-sections used: 48
Total panel (balanced) observations: 48
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable
Coefficient Std. Error
t-Statistic Prob.
C
BEERTAX?
2.010381
0.148460
13.44082
1.119565
0.149573
0.132605
R-squared
0.013324
Adjusted R-squared -0.008126
S.E. of regression 0.670480
F-statistic
0.621164
0.0000
0.2687
Mean dependent var
S.D. dependent var
Sum squared resid
Prob(F-statistic)
2.089106
0.667772
20.67898
0.434658
Eviews
Sample: 1988 1988
Variable
t-Statistic Prob.
C
BEERTAX?
1.859073
0.438755
16.22053
3.431391
R-squared
Adjusted R-squared
S.E. of regression
F-statistic
0.114612
0.127865
0.134003
0.115177
0.490251
7.117958
0.0000
0.0013
Mean dependent var
S.D. dependent var
Sum squared resid
Prob(F-statistic)
2.069594
0.521183
11.05591
0.010503
Modèle en différence première
- Ce résultat contre intuitif peut s’expliquer par le fait que
certaines variables omises sont corrélées avec BeerT ax →
estimateur biaisé.
- Si ces variables sont constantes au court du temps, on
peut estimer un modèle de panel en différence première.
- Exemple : attitudes culturelles vis-à-vis de l’alcool et de la
conduite → constant au court du temps (t) mais varie entre
les états (i). Code Eviews :
’ Equation OLS on first difference for t=1982 and 1988 --> T=2
smpl 1982 1988
states.genr dbtax?=beertax?-beertax?(-6)
states.genr dvfrall?=vfrall?-vfrall?(-6)
states.ls(h) dvfrall? c dbtax?
freeze(eq_OLS_FD) states
Eviews
Dependent Variable: DVFRALL?
Sample(adjusted): 1988 1988
Included observations: 1 after adjusting endpoints
Variable
C
DBTAX?
-0.072037
-1.040973
R-squared
Adjusted R-squared
S.E. of regression
F-statistic
0.065355
0.355006
0.119194
0.100046
0.394025
6.224897
t-Statistic Prob.
-1.102239
-2.932267
0.2761
0.0052
Mean dependent var
S.D. dependent var
Sum squared resid
Prob(F-statistic)
-0.019512
0.415349
7.141752
0.016248
Méthodes de panel avancées: Chapitre 4
Objectif
Dans le chapitre précédent, nous avons vu l’approche du
pooling ainsi qu’une méthode pour prendre en compte
l’hétérogénéité non observée : differences premières.
Dans ce chapitre, 2 autres méthodes.
Estimation par effets fixes → comme pour les premières
différences, cette méthode élimine les effets individuels
ai avant estimation ainsi que l’effet des variables
constantes dans le temps.
Estimation avec effets aléatoires si effet individuel non
corrélé avec les variables explicatives.
Ces 2 méthodes sont mises en oeuvre dans la plupart
des logiciels économétriques comme Eviews, Rats et
PcGive.
Effets fixes
Transformation par différences premières élimine les
effets individuels ai .
Méthode alternative meilleure sous certaines
hypothèses : transformation par effets fixes.
Modèle :
yit = β1 xit + ai + uit , t = 1, 2, ..., T.
Pour chaque i, la moyenne temporelle des yit est :
y i = β1 xi + ai + ui ,
où y i =
1
T
PT
i=1 yit .
Effets fixes
Par conséquent,
yit − y i = β1 (xit − xi ) + (uit − ui ), t = 1, 2, ..., T.
Ou encore,
ÿit = β1 ẍit + üit ,
où ÿit = yit − y i est la valeur de y en déviation par
rapport à sa moyenne temporelle.
La transformation par effets fixes est aussi appelé
transformation within.
On peut remarquer que ai a disparu : on peut donc
estimer le modèle ÿit = β1 ẍit + üit par MCO poolés
→ Estimateur à effets fixes ou estimateur within
(estimateur EF).
Effets fixes
On peut généraliser ce modèle au cas multivarié :
Le modèle à EF correspondant est alors :
ÿit = β1 ẍit1 + β2 ẍit2 + ... + βk ẍitk + üit .
Ceci peut également s’estimer par MCO.
L’estimateur par effets fixes est non biaisé sous
l’hypothèse de variables explicatives exogènes ou sous
l’hypothèse que uit est non corrélé avec ces variables
explicatives pour toutes les périodes (exogénéité
stricte).
Hypothèses de l’estimateur à EF
7 hypothèses sous-jacentes à l’estimation par EF :
FE.1 ∀i Le modèle s’écrit :
FE.2 On dispose d’un échantillon aléatoire pour chaque
dimension en coupes transversales (“cross-section”).
FE.3 E(uit |Xi , ai ) = 0 → L’espérance conditionnelle du
terme d’erreur est nulle ∀t.
FE.4 Chaque variable explicative change dans le temps
(au moins pour certains i) et il n’y a pas de relation
linéaire parfaite entre les variables explicatives.
FE.5 ∀t, V ar(uit |Xi , ai ) = V ar(uit ) = σu2 .
FE.6 ∀t 6= s, Cov(uit , uis |Xi , ai ) = 0.
Hypothèses de l’estimateur à EF
FE.7 (Hypothèse de normalité) : Conditionnellement à
Xi et ai , les uit sont indépendamment et identiquement
distribués suivant une N (0, σu2 ).
Sous les hypothèses FE.1-FE.6, l’estimateur par EF est
BLUE (conditionnellement à X et à ai ). L’estimateur en
première différence est donc moins précis du fait de
l’absence de l’hypothèse FE.6.
Sous les hypothèses FE.1-FE.7, l’estimateur EF est
normalement distribué BLUE (conditionnellement à X et
à ai ).
Effets fixes : suite
L’estimateur de panel à effets fixes permet une
corrélation entre ai et les variables explicatives pour
n’importe quelle période.
→ Comme l’estimateur élimine les ai , toute variable
constante dans le temps sera également éliminée :
ẍit = 0 pour tout i et t si xit est constant dans le temps
→ on ne peut pas inclure des variables constantes
dans le temps.
Estimation par effets fixes : suite
Le nombre de degrés de liberté dans le modèle à effets
fixes est égal à N T − N − k = N (T − 1) − k → pour
chaque i on perd 1 degré de liberté car on doit estimer
xi .
On peut néanmoins introduire des variables constantes
dans le temps qui vont interagir avec des variables qui
varient dans le temps.
Exemple : impact de de l’éducation sur le salaire → pas
possible d’estimer le return car éducation constante
dans le temps (en général); néanmoins, en multipliant
educ par le temps, on peut voir si le rendement de
l’éducation évolue dans le temps.
Régression par variable dummy
Idée de l’estimation par EF : le paramètre ai doit être
estimé pour chaque i.
Pour T ≥ 2, une solution est de mettre une variable
dummy pour chaque coupe transversale (chaque i).
→ Régression par variable dummy → mise en oeuvre
lorsque N pas trop élevé.
Cette méthode donne exactement les même valeurs
estimées β̂j que l’estimation sur ÿit .
Avantage : le nombre de degrés de liberté correct est
calculé directement.
Estimation des effets individuels
L’estimation des valeurs estimées âi peut être d’un
intérêt économique. On peut en effet étudier leur
distribution sur tous les i.
On peut calculer les âi après estimation par effets fixes
: âi = y i − β̂1 xi1 − ... − β̂k xik , i = 1, ..., N .
Attention, certains logiciels reportent l’intercept. Cet
intercept reporté peut être la moyenne pour tous les i
des âi → à ne pas confondre avec les âi .
Sous les hypothèses FE.1-FE.4, l’estimation des ai est
non biaisée. Néanmoins, pout T fixe , elle n’est pas
consistante quand N → ∞. On obtient de meilleurs
estimateurs de ai avec T large.
Effets fixes vs. première différence
Les 2 méthodes permettent de traiter le problème de
l’hétérogénéité non observée. Laquelle choisir ?
Pour T = 2, les 2 méthodes donnent des résultats
strictement identiques → Estimateur en PD permet
d’estimer aisément des écarts-type robustes à
l’hétéroscédasticité.
Pour T ≥ 3, il faut comparer les estimateurs sur base de
leur efficience relative (les 2 sont non biaisés sous
FE.1-FE.4 et consistants).
⇒ Si les uit sont non autocorrélés (FE.6) → l’estimateur
EF est plus efficient.
⇒ Si les uit sont très autocorrélés (FE.6) → l’estimateur
PD est plus efficient.
A l’extrême, si les uit suivent une marche aléatoire,
alors △uit sera non autocorrélé → l’estimateur PD est
préférable.
Dans les cas intermédiaires (autocorrélation positive
mais ρ < 1), il est préférable d’utiliser les 2 estimateurs.
Pour tester l’hypothèse de non autocorrélation, on peut
utiliser les △uit après estimation en PD.
→ si non autocorrélation, estimateur PD meilleur;
→ si autocorrélation négative importante, alors
estimateur EF préférable car l’estimateur PD crée de
l’autocorrélation par sur-différenciation.
Prudence dans l’utilisation de l’estimateur EF lorsque N
pas très large (ex: N = 20) et T large (ex: T = 30).
En effet, sous FE.1-FE.7, la distribution de l’estimateur
EF est correcte ∀ N et T .
Par contre, problème avec l’estimateur à EF si une des
hypothèses violées et que N petit et T large.
Exemple : cas de racines unités → l’estimateur PD
rendra la série stationnaire.
Si non normalité, utiliser estimateur PD car FE.7 pas
nécessaire.
Si hétéroscédasticité, on peut utiliser estimateur PD
avec écarts-type robustes.
D’un autre côté, l’utilisation de l’estimateur à EF est
moins sensible à une violation de l’hypothèse
d’exogénéité, surtout avec T large.
→ Si hypothèse d’exogénéité pose problème (exemple :
variables dépendantes retardées), alors l’estimateur EF
est préférable.
Pour conclure : choix non trivial entre méthodes EF et
PD.
Illustration
- Revenons à l’exemple sur l’effet de l’alcool au volant.
- Considérons maintenant les 7 vagues de données.
Code Eviews :
’ Equation Fixed Effects
smpl 1982 1988
states.ls(h,f) vfrall? c beertax?
freeze(eq_OLS_EF) states
Illustration
Sample: 1982 1988
Variable
Coefficient Std. Error t-Statistic Prob.
BEERTAX?
-0.655874
0.188154
-3.485841
0.0006
Fixed Effects
_AL--C 3.477630 _AZ--C 2.909903 ... _WY--C 3.249126
R-squared
Adjusted R-squared
S.E. of regression
F-statistic
Prob(F-statistic)
0.905015
0.889129
0.189859
56.96916
0.000000
Mean dependent var
S.D. dependent var
Sum squared resid
Durbin-Watson stat
2.040444
0.570194
10.34537
1.286873
Effets fixes dans un panel non cylindré
Si pour certaines années, il y a des observations
manquantes pour un nombre d’individus i, alors on a un
panel non balancé ou non cylindré.
Si panel non balancé, on peut utiliser l’estimateur à EF
sous une condition cruciale.
Condition cruciale : la raison pour laquelle on a des
observations manquantes ne doit pas être corrélée aux
uit → Ceci garantit l’existence d’un échantillon aléatoire
pour chaque coupe (FE.2).
Exemple : panel de firmes pour étudier si le degré de
syndicalisation affecte la profitabilité des firmes; si
certaines firmes absentes pour des raisons de faible
profitabilité (faillites, fusions, acquisitions), alors FE.2
est violée → phénomène d’attrition → estimateurs
biaisés.
Estimation avec effets aléatoires
Modèle de base :
yit = β1 xit1 + β2 xit2 + ... + βk xitk + ai + uit .
Avec les estimateurs EF ou PD, le but est d’éliminer les
ai car ils sont sensés être corrélés avec les xitj .
Supposons maintenant que
Cov(xitj , ai ) = 0, t = 1, 2, ..., T ; j = 1, 2, ..., k .
Dans ce cas l’estimateur à EF est non efficient et il est
préférable d’utiliser un estimateur à effets aléatoires
(estimateur EA).
Hypothèses de l’estimation avec EA
3 hypothèses supplémentaires aux hypothèses FE.1, FE.2,
FE.3, FE.5, FE.6 :
RE.3 La valeur attendue des ai étant donnés les Xi est
constante : E(ai |Xi ) = β0 .
RE.4 Il n’y a pas de relation linéaire parfaite entre les
variables explicatives.
RE.5 La variance des ai est constante,
conditionnellement aux Xi : V ar(ai |Xi ) = σa2 .
Estimation avec EA
Comment estimer les βj sous les hypothèses précédentes ?
Quid si on estime le modèle par MCO poolés ?
Ceci produit des estimateurs de βj consistants mais
non efficients car les erreurs seront autocorrélées.
Le modèle est en effet :
yit = β0 + β1 xit1 + β2 xit2 + ... + βk xitk + νit ,
avec νit = ai + uit .
Exemple : T = 2 → ν11 = a1 + u11 et ν12 = a1 + u12 .
Donc Corr(νi1 , νi2 ) 6= 0 de part la présence de ai dans
les 2 termes.
A cause des ai , les νit sont donc autocorrélés :
σa2
Cov(νit , νis ) = σa2 +σu2 > 0, t 6= s, avec σa2 = V ar(ai ) et
σu2 = V ar(uit ).
Estimation avec EA
Comme Cov(νit , νis ) 6= 0, l’estimation par MCO poolés
donnent des estimateurs inefficients (écarts-type
biaisés) et des statistiques en t invalides.
Le modèle doit être estimé par Moindres carrés
généralisés (MCG).
Les MCG impliquent une transformation du modèle qui
élimine cette autocorrélation :
yit − λy i = β0 (1 − λ) + β1 (xit1 − λxi1 ) + β2 (xit2 − λxi2 )
+ ... + (βk xitk − λxik ) + (νit − λν i ).
On peut montrer (non démontré ici) que :
1
σu2
λ = 1 − [ σu2 +T σa2 ] 2 .
Estimation avec EA
L’estimateur à EA est simplement l’estimateur MCO
poolé du modèle sur yit − λy i .
On voit que selon les valeurs de σu2 et de σa2 , 0 ≤ λ ≤ 1
→ données quasi en déviation par rapport à leur
moyenne → l’estimateur à EA est basé sur un modèle
dans lequel on soustrait une fraction de la moyenne
temporelle de chaque variable.
Pour λ = 0, on retrouve les MCO poolés.
Pour λ = 1, on retrouve l’estimateur EF.
Comme on ne retranche plus la totalité de la moyenne,
on peut inclure dans le modèle à EA des variables
constantes dans le temps.
Estimation par MCG “faisable” (FGLS)
λ est inconnu → il faut l’estimer : MCG faisables.
# 21
"
λ̂ = 1 −
1
σ̂ 2
1+T σ̂a2
.
u
Ceci requiert donc de trouver les estimateur de σa2 et de
σu2 → basés sur modèle de départ estimé par MCO
poolés.
PN PT −1 PT
−1
2
σ̂a = [N T (T − 1)/2 − (k + 1)]
i=1
t=1
s=t+1 (ν̂it ν̂is ),
où ν̂it sont les résidus du modèle MCO poolé.
On peut alors calculer : σ̂u2 = σ̂ν2 − σ̂a2 où σ̂ν2 est le carré
de l’erreur de régression du modèle de base.
Lorsque l’on utilise λ̂ à la place de λ, on obtient
l’estimateur à effets aléatoires.
Propriétés de l’estimateur à EA
Sous les hypothèses FE.1, FE.2, RE.3, RE.4, RE.5,
FE.6, l’estimateur EA est consistant si N >> pour T
fixe. De plus, l’estimateur EA est approximativement
nominalement distribué pour N grand et les écarts-type
standards sont valides.
Pour N petit et T large, les propriétés sont beaucoup
moins connues → prudence.
Effets fixes vs. effets aléatoires
Le choix entre EF et EA réside dans la nature perçue
des ai .
Si on ne peut pas considérer que les ai sont le resultat
de tirages aléatoires dans une population, alors on doit
les considérer comme des paramètres fixes à estimer
→ estimateur à effets fixes.
Exemple : données portant sur les provinces d’un pays.
Sinon, il faut évaluer si les ai sont corrélés ou non avec
les xit . Si non corrélés → estimateur à effets aléatoires.
Pour évaluer le degré de corrélation, on peut comparer
les valeurs estimées par EF et EA → idée du test
d’Hausman(1978) (pas vu ici).
Illustration: équation de salaire
On estime une équation de salaire pour des hommes.
On considère 7 variables explicatives :
- 3 facteurs constants dans le temps :
educ, black, hispan.
- 4 facteurs variables dans le temps :
exper, exper2 , married, union.
Néanmoins, exper s’accroît de 1 chaque année → non
variable en DP.
On envisage 3 méthodes : MCO poolés, EF, EA.
Résultats d’estimation
Var Expl
educ
black
hispan
exper
exper2
married
U nion
Pool
EA
EF
0.091
0.092
(0.005)
(0.011)
-0.139
-0.139
(0.024)
(0.048)
0.016
0.022
(0.021)
(0.043)
0.067
0.106
(0.014)
(0.015)
-0.0024 -0.0047 -0.0052
(0.0008) (0.0007) (0.0007)
0.108
0.064
0.047
(0.016)
(0.017)
(0.018)
0.182
0.106
0.080
(0.017)
(0.018)
(0.019)
Commentaires
Il n’est pas possible d’inclure les 4 premières variables
dans le modèle à effets fixes.
Pour les 4 premières variables, les coefficients sont
similaires entre Pool et EA.
Néanmoins, les écarts-type sont différents : l’estimateur
des MCO poolés donnent des écarts-type biaisés car il
ignore l’autocorrélation (positive).
Pour les variables variables dans le temps, on observe
des coefficients assez différents entre MCO poolés
d’une part et EA et EF d’autre part.
λ̂ = 0.643 → l’estimateur EA est plus proche de
l’estimateur EF que du MCO poolé.
Chapitre 5: Estimation par variables instrumentales et
doubles moindres carres
Utilisation des variables instrumentales
L’utilisation de la méthode des variables instrumentales (VI)
se justifie dans différents contextes
Variables explicatives endogènes.
Problème d’erreurs de mesures sur certaines variables.
Ex : revenu déclaré.
Problème d’omission de variables explicatives
appropriées.
Variables explicatives endogènes
Dans ce contexte, l’utilisation de VI donne lieu à une
nouvelle méthode d’estimation : les doubles moindres
carrés.
Méthode très populaire, notamment pour estimer
modèles macroéconomiques à plusieurs équations.
Des exemples spécifiques seront developpés dans le
chapitre 16: modèles à équations simultanées.
Exemple: Relation entre le taux de meurtre et taille des
forces de polices. Le taux de meurtre dépend de la
taille des forces de polices et la taille des forces de
polices dépend du taux de meurtre : problème de
simultanéité .
Erreurs de mesure
Problème d’erreurs de mesures sur certaines variables
explicatives.
Exemple : revenu déclaré
Omission de variables explicatives
Omission de variables explicatives appropriées mène à
un biais d’estimation des coefficients de régression.
Ce biais peut être éliminé si l’on dispose de variables
proxy. Quid si pas de proxy.
Dans un contexte de données de panel, élimination du
biais par différenciation si variable omise est
indépendante du temps.
Quid si la variable omise dépend du temps ou si l’intérêt
se porte sur des variables qui ne varient pas dans le
temps (éliminées par différentiation) ?
Illustration: variables omises
Exemple: relation salaire-éducation
Le vrai modèle de régression est :
wage = β0 + β1 educ + β2 abil + e.
Problème : on n’observe pas abil (compétence).
On peut utiliser le QI comme variable proxy de abil →
Quid si indisponible ?
Si on ignore abil → Le modèle de régression devient :
wage = β0 + β1 educ + u.
→ u englobe abil → si abil est corrélé avec educ, viole
l’hypothèse SLR.3 E(u|x) = 0 → biais dans l’estimation
de β1 .
Le modèle de régression s’écrit :
y = β0 + β1 x + u.
A cause de l’omission de certaines variables :
Cov(x, u) 6= 0
(13)
→ les MCO donnent des estimateurs biaisés
Idée des VI : utiliser une information additionnelle sous
la forme d’une variable observable z qui remplit 2
conditions:
Condition 1: Cov(z, u) = 0.
Condition 2: Cov(z, x) 6= 0.
Conditions 1 des VI
Condition 1. Dans la population,
Cov(z, u) = 0.
z est dite exogène dans le modèle de régression.
Dans le contexte d’omission des variables,z n’a pas
d’effet partiel sur y conditionnellement à x et u.
Il est impossible de tester cette hypothèse → faire appel
à la théorique économique.
Conditions 2 des VI
Condition 2.
Cov(z, x) 6= 0.
z est corrélée avec la variable explicative x
On peut tester cette hypothèse :
x = π0 + π1 z + ν.
Comme π1 = Cov(z, x)/V ar(z), condition 2 tient ssi on
rejette l’hypothèse H0 : π1 = 0 contre hypothèse
alternative H1 : π1 6= 0.
Exemples et contre-exemples de VI
Revenons à la relation salaire-education;
Regardons quelques candidats de VI pour educ.→
Trouver z tel que Cov(z, abil) = 0 et Cov(z, educ) 6= 0.
Derniers numéros de sécurité sociale de l’individu:
Condition 1 OK; Condition 2 non remplie.
QI : Condition 2 OK mais Condition 1 violée car QI
corrélé avec abil et donc u.
Exemples et contre-exemples de VI
Education de la mère: Condition 2 OK (les parents
éduqués ont plus de chance d’avoir des enfants
éduqués) ; Condition 1 moins évidente car corrélation
compétence-éducation de la mère pas claire → Voir la
théorie économique.
Nombre de frères et soeurs pendant l’enfance:
condition 2 OK car souvent beaucoup de frères et
soeurs corrélés avec niveau d’éducation faible;
condition 1 vraissemblable.
Estimation et Inférence par la méthode des variables
instrumentales
Estimateurs des VI
Si l’on dispose d’une bonne VI, on peut estimer de manière
consistente l’équation y = β0 + β1 x + u..
Les 2 conditions des VI permettent d’identifier β1 ,
c’est-à-dire d’écrire β1 en termes de moments des
variables observables:Cov(z, y) = Cov(z, β0 + β1 x + u) =
β1 Cov(z, x) + Cov(z, u).
Voir pp. 712-713 pour les propriétés de calcul des
covariances.
Si Cov(z, u) = 0, alors β1 =
Cov(z, x) 6= 0.
Cov(z,y)
Cov(z,x)
qui existe ssi
Estimateurs des VI
L’estimateur par VI de β1 :
Pn
(zi − z)(yi − y)
i=1
β̂1 = Pn
.
i=1 (zi − z)(xi − x)
Remarque : si x = z (cas de x exogène) , alors on
retrouve l’estimateur des MCO. Dans ce cas,x est son
propre instrument.
L’estimateur de l’intercept est simplement: β̂0 = y − β̂1 y .
Sous les conditions 1 et 2, plim(β̂1 ) = β1 → β̂1 est
convergent.
Inférence avec les estimateurs des VI
Les estimateurs VI sont comme les estimateurs MCO
asymptotiquement distribués normalement. Pour faire
de l’inférence, on a donc besoin d’un estimateur de la
variance de β̂0 et β̂1 .
On fait l’hypothèse d’homoscédasticité :
E(u2 |z) = V ar(u) = σ 2 .
Sous conditions 1 et 2 des VI et cette hypothèse, alors
σ2
la variance asymptotique de β̂1 est égale à nσx2 ρ2x,z où
ρxz est la corrélation entre x et z .
Un estimateur consistent de σ 2 peut s’obtenir comme
1 Pn
2
pour les MCO par : σ̂ = n−2 i=1 û2i .
Inférence avec les Estimateurs des VI
La variance asymptotique de β1 peut également s’écrire
Pn
σ̂ 2
où SCTx = i=1 x2i .
: SCTx Rx,z
2
Ceci permet de comparer avec la variance
asymptotique de β1 estimé par MCO qui est pour rappel
σ̂ 2
: SCTx .
2 (R2 de la régression de X sur Z )
On voit que plus Rx,z
i
i
est faible (instruments faibles), plus la précision de
l’estimateur des VI est faible.
2 < 1 , la variance des estimateurs VI et des
Comme Rx,z
DMC est toujours plus élevée que celle des MCO : le
coût de l’estimation des VI se paye en termes de
précision de l’estimateur.
Illustration
Regardons ce que l’estimation par VI donne dans le cas de
la relation salaire-education(ex 15.1) pour les hommes
MCO sur log(wage) = β0 + β1 educ + u.
Exemple: wage2.wf1 .
Endogénéité du niveau d’éducation pose problème.
On peut utiliser l’éducation du père comme VI de educ
Cette variable remplit la condition 2 des VI : une
régression de educ sur fathereduc montre une
corrélation positive et significative.
L’estimation par VI donne un impact plus faible (0.059
vs 0.109) et des écart-types plus élevés que ceux
obtenus par MCO (0.035 vs 0.014): on perd la
significativité de l’éducation.
Propriétés des VI avec instruments faibles
Instruments faibles = VI pour lesquelles corrélation
entre x et z est faible → conséquences non désirables.
Rappel pour les MCO :
plim β̂1
Cov(x, u)
= β1 +
V ar(x)
σu
= β1 + Corr(x, u)
σx
= β1 , si Corr(x, u) = 0.
Pour les VI :
Corr(z, u)
plim β̂1 = β1 +
Corr(z, x)
σu
σx
.
(14)
Propriétés des VI avec instruments faibles
Si Corr(z, x) est faible, une faible corrélation entre z et u
donne lieu à un estimateur largement inconsistent .
Et ce, même si Corr(z, u) est faible.
En termes de consistence, les VI sont préférables aux
MCO ssi Corr(z,u)
Corr(z,x) < Corr(x, u).
→ Même en cas d’endogénéité, les MCO peuvent être
préférables : tout dépend de la corrélation entre la VI et
x.
Illustration
Relation entre le poids du bébé à la naissance et le
nombre de cigarettes fumées par la mère.
Exemple: BWGHT.wf1 .
Problème : le nombre de cigarettes peut être corrélé
avec des facteurs de santé non observés dans la
régression → corrélation entre x et u.
Idée de VI : prix des cigarettes dans la région
d’habitation : faiblement corrélé avec le nombre de
cigarettes (effet positif et non significatif): instrument
faible.
: résultat de la régression par VI : effet du nombre de
cigarette positif sur le poids du bébé m is non significatif
car écart-type très élevé.
Instruments faibles (non valables) → biais d’estimation
important .
Estimation par VI en régression multiple
régression multiple
Exemple : log(wage) = β0 + β1 educ + β2 exper + u.
y1 = β0 + β1 y2 + β2 z1 + u1 → Equation structurelle →
objet : estimation des βj .
y1 : variable dépendante ou endogène → log(wage)
y2 : variable explicative endogène (corrélée avec u1 )
→ educ
z1 : variable explicative exogène (non corrélée avec u1 )
→ exper.
E(u1 ) = 0, Corr(u1 , z1 ) = 0 mais Corr(u1 , y2 ) 6= 0
Si estimation par MCO: tous les βj seront biaisés.
z1 ne peut pas servir d’instrument pour y2 → recourt à
z2 , une VI.
Hypothèses cruciales: E(u1 ) = 0, Cov(z1 , u1 ) = 0,
Cov(z2 , u1 ) = 0 ⇒ E(z1 , u1 ) = E(z2 , u2 ) = 0.
Approche par la méthode des moments
n
X
i=1
n
X
i=1
n
X
i=1
(yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
zi1 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0
zi2 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0.
3 équations linéaires pour 3 inconnues (β0 ,β1 ,β2 ).
si z2 = y2 (y2 exogène), on retrouve les conditions du
premier ordre des MCO
La variable instrumentale z2 doit être
conditionnellement corrélée avec y2 :
y2 = π0 + π1 z1 + π2 z2 + ν2 .
Il s’agit d’un exemple d’équation en forme réduite : la
variable endogène est exprimée exclusivement en
termes de variables exogènes.
La condition d’identification (généralisation de la
condition 2 vue précédemment) est :π2 6= 0.
Exemple de régression multiple
Lien éducation-salaire : 5 variables exogènes →
expérience, expérience au carré, dummy pour noir,
dummy pour zone urbaine et dummy pour état du sud.
Exemple: CARD.raw .
Une VI candidate pour educ: dummy pour habitation
proche d’une école (nearc4).
Vérification de la condition 2 (condition d’identification)
par une régression de educ sur nearc4 et les 5 autres
variables exogènes → coefficient de nearc4 positif et
significatif : condition 2 remplie pour VI.
L’estimation par VI donne un impact plus élevé de
l’éducation sur le salaire que les MCO (0.132 vs 0.075)
mais une plus grande incertitude (0.055 vs 0.003).
Doubles Moindres Carrés
Variable explicative endogène unique
Soit le modèle de régression : y1 = β0 + β1 y2 + β2 z1 + u.
On dispose de 2 variables exogènes exclues : z2 et z3
→ 2 restrictions d’exclusion.
Si z2 et z3 sont corrélées avec y2 , on dispose de 2 VI
potentielles.
Dans ce cas, on va choisir la combinaison linéaire des
variables exogènes z1 ,z2 ,z3 la plus corrélée avec y2 →
y2∗ .
Variable explicative endogène unique
Soit l’équation en forme réduite :
y2 = π0 + π1 z1 + π2 z2 + π3 z3 + ν2 .
Les hypothèses sont les suivantes: E(ν2 ) = 0,
Cov(z1 , ν2 ) = 0,Cov(z2 , ν2 ) = 0 et Cov(z3 , ν2 ) = 0.
On trouve y2∗ à partir de y2∗ = π0 + π1 z1 + π2 z2 + π3 z3 .
La condition d’identification devient : π1 6= 0 ou π2 6= 0
Cette condition peut s’évaluer en testant H0 :π1 = 0 et
π2 = 0 à l’aide d’un F-test.
Les doubles moindres carrés (DMC)
La méthode des DMC met en oeuvre ce qu’on vient de voir
à travers 2 étapes.
Étape 1 : On estime la meilleure combinaison linéaire
des VI en régressant par MCO y2 sur z1 ,z2 et z3 →
ŷ2 = π̂0 + π̂1 z1 + π̂2 z2 + π̂3 z3 .
Étape 2 : on utilise ŷ2 comme instrument de y2 . La
troisième condition des moments devient :
n
X
i=1
ŷi2 (yi1 − β̂0 − β̂1 yi2 − β̂2 zi1 ) = 0.
(15)
L’étape 2 implique donc simplement d’utiliser ŷ2 obtenu
en première étape comme régresseur :
y1 = β0 + β1 ŷ2 + β2 z1 + ν2 .
Illustration des DMC
Reprenons l’exemple de la relation salaire-éducation.
On dispose de l’équation structurelle :
log(wage) = β0 + β1 educ + β2 exper + β3 exper2 + u1 .
exper et exper2 sont non corrélés avec u1 .
On va utiliser l’éducation des parents comme VI :
f atheduc et motheduc.
L’equation en forme réduite s’écrit donc : educ =
π0 + π1 exper + π2 exper2 + π3 motheduc + π4 f atheduc + ν2 .
La condition d’identification requiert donc : π3 6= 0 ou
π4 6= 0, ce qui peut se tester par un test classique en F.
Illustration des DMC
Exemple: Rendements de l’education pour les femmes
actives
MROZ.raw .
Le test en F à partir de l’équation en forme réduite
donne une valeur de 55.40, ce qui correspond à une
p-value de .0000 → instruments qui satisfont la
condition 2.
La régression dans la forme structurelle par DMC
donne un rendement de l’éducation (des femmes)
(coefficient β1 ) de 0.061 et à peine significatif
(gonflement de l’écart-type 0.031).
Extensions liées aux VI
Variables endogènes multiples
Cas de plusieurs variables endogènes exemple : y2 et
y3 : y1 = β0 + β1 y2 + β2 y3 + β3 z1 + β4 z2 + u1 où z1 et z2
sont des variables exogènes.
Condition nécessaire d’identification = Condition
d’ordre ou de rang : On a besoin d’au moins autant de
variables exogènes exogènes exclues (de l’équation
structurelle) que de variables endogènes présentes
(dans l’équation structurelle).
Dans l’exemple, l’identification requiert 2 variables
exogènes z3 et z4 qui doivent être significatives dans
l’équation en forme réduite.
Erreurs de mesure sur variables
Vrai modèle de régression: y1 = β0 + β1 x∗1 + β2 x2 + u où
x∗1 est observé avec erreur → on n’observe que x1 :
x∗1 = x1 + e
y1 = β0 + β1 x1 + β2 x2 + (u − β1 e1 ) → Ceci crée un
problème d’endogénéité : corrélation entre x1 et le
terme d’erreur (u − β1 e1 ) → MCO biaisés.
Solution: trouver une VI pour x1 . Dans le cas des
problèmes de mesure, idée est de trouver une variable
z1 corrélée avec x∗1 mais dont l’erreur de mesure est
non corrélée avec e1 .
Erreurs de mesure sur variables
Exemples
salaire annuel reporté par travailleurs (erreurs de
mesure) : VI = salaire reporté par l’employeur.
Revenu annuel d’un ménage : VI = niveau annuel de
l’épargne du ménage.
Niveau d’éducation reporté par les travailleurs : VI=
nombre d’années d’éducation reporté par frère jumeau
ou soeur jumelle.
Test d’endogénéité
y1 = β0 + β1 y2 + β2 z1 + β3 z2 + u1 → Supposons que z1 et
z2 sont des variables exogènes et z3 et z4 variables
exclues.
Comment tester si y2 est endogène ?
Test d’Hausman (1978) basé sur la comparaison entre
valeurs estimées par MCO et par DMC.
Pour voir si différences sont significatives, procédure en
3 étapes.
Test d’endogénéité d’Hausman
Étape 1: estimation de la forme réduite :
y2∗ = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + ν2 .
Si problème d’endogénéité, ν2 est corrélé avec u1 et y1
→ Étape 2: on récupère le résidu ν̂2 , contrepartie
observable de ν2 .
Étape 3: On estime par MCO
y1 = β0 + β1 y1 + β2 z1 + β3 z2 + δ1 ν̂2 + error et on teste par
un test en t H0 : δ1 = 0; On conclut à l’endogénéité de
y2 si rejet de H0 .
Exemple de test d’endogénéité
On récupère le résidu ν̂2 de l’equation : educ =
π0 + π1 exper + π2 exper2 + π3 motheduc + π4 f atheduc + ν2 .
On inclut ν̂2 dans l’équation structurelle :
log(wage) = β0 + β1 educ + β2 exper + β3 exper2 + δ1 ν̂2 + u1 .
Le test en t de H0 : δ1 = 0 est égale à 1.67 → Evidence
limitée d’endogénéité de educ → doute → Il est
préférable d’utiliser conjointement MCO et DMC.
Test de suridentification
De manière générale, on ne peut pas tester la condition
1 des VI càd Cov(z, u) = 0.
Néanmoins une exception importante : lorsque l’on
dispose d’au moins 1 restriction de suridentifcation.
Le nombre de restrictions de suridentification = nombre
d’instruments excédentaires par rapport au nombre de
variables endogènes.
Exemple : y1 = β0 + β1 y2 + β2 z1 + β3 z2 + u1 . Si on
dispose de 2 VI z3 et z4 , on dispose d’1 condition de
suridentification.
Pourquoi est-ce possible ? on peut estimer les β avec
une VI, récupérer les résidus et tester la corrélation par
rapport à l’autre VI → pas possible si on ne dispose que
d’une seule VI.
3 étapes.
Étape 1:Estimer l’équation structurelle par VI et
récupérer les résidus û1 .
Étape 2: Régresser sur toutes les variables exogènes
et récupérer le R-carré R12 .
Sous hypothèse de non corrélation entre les VI et u1
(validité de la condition 2), nR12 est distribué suivant une
loi du χ2q ou q est le nombre de condition de
suridentification.
Étape 3: Si nR12 excède la valeur critique (à 5% par
exemple), on rejette la validité de la condition 2 et on
conclut qu’au moins une des 2 VI n’est pas exogène.
Rendements de l’education pour femmes actives. En
régressant le résidu des DMC û1 sur exper et
exper2 ,motheduc et f atheduc, on obtient R12 = .0009 →
nR12 = 428(0.0009) = .3852 qui est faible par rapport à
une distribution en χ21 (p − valeur = .535) → L’éducation
des parents satisfont au test de suridentification.
Chapitre 6: Modèles à équations simultanées
Simultanéité
Dans le chapitre précédent, nous avons vu 2 raisons
principales d’utilisation de la méthode des variables
instrumentales (VI.
1) Problème d’erreurs de mesure.
2) Problème d’omission de variables explicatives
appropriées.
→ Dans chaque cas, le problème donne lieu à un
problème d’endogénéité.
Dans ce chapitre, on va étudier en détails une autre
raison importante: le problème de simultanéité .
Simultanéité
Le problème de simultanéité: Une ou plusieurs
variables explicatives sont déterminées conjointement
avec la variable dépendante, par exemple à travers une
relation d’équilibre.
Les problèmes de simultanéité se posent par
excellence dans les modèles à équations simultanées
(MES).
→ La méthode d’estimation des VI et des DMC
s’applique pour estimer les modèles à équations
simultanées alors que l’estimation par MCO génère
des estimateurs biaisés → biais de simulatnéité.
Caractéristique des MES
Exemple de MES: Offre et demande de travail.
Equation d’offre de travail: hs = α1 w + β1 z1 + u1 .
Equation structurelle avec hs = offre de travail,w =
salaire et z1 = facteurs exogènes.
Problème : La condition ceteris paribus n’est pas
respectée→ les variation de w ne sont pas exogènes
car w est un salaire observé à l’équilibre (demande de
travail=offre de travail).
Caractéristique des MES
Equation de demande de travail: hd = α2 w + β2 z2 + u2 .
Equation structurelle avec hd = demande de travail,w =
salaire et z2 facteurs exogènes (de la demande).
A l’équilibre, pour chaque individu i, on a : hid = his .
On obtient alors un MES:
his = α1 wi + β1 zi1 + ui1
hid = α2 wi + β2 zi2 + ui2 .
→ MES à 2 équations dans leur forme structurelle; hi et
wi sont des variables endogènes;zi1 et zi2 sont des
variables exogènes.
Autres exemples de MES
Relation taux de meurtre et taille des forces de polices.
Equation explicative des meurtres par ville:
murdpc = α1 polpc + β10 + β11 incpc + u1
murdpc = Taux de meurtre par habitant;polpc =nombre
de policiers par habitant; incpc:revenu par habitant.
Equation explicative du nombre de policiers :
polpc = α2 murdpc + β20 + autresf acteurs + u2 .
polpc et murdpc sont 2 variables endogènes d’un MES à
2 équations.
Biais de simultanéité
L’utilisation des MCO pour estimer les équations
structurelles d’un MES donne lieu à un biais.
Soit un MES à 2 équations:
y1 = α1 y2 + β1 z1 + u1
y2 = α2 y1 + β2 z2 + u2 .
Trouvons la forme réduite de y2 :
y2 = α2 (α1 y2 + β1 z1 + u1 ) + u2 .
Ceci se réécrit comme :
y2 = π21 z1 + π22 z2 + ν2 ,
avec π21 =
α1 β1
1−α2 α1 ;
π22 =
β2
1−α2 α1 ;
ν2 =
α2 u1 +u2
1−α2 α1 .
On peut estimer par MCO de manière consistente cette
forme réduite car z1 et z2 sont exogènes et donc non
corrélés avec u1 et u2 et donc ν2 .
L’estimation de la forme structurelle par MCO donne
lieu à un estimateur biaisé.
Exemple :équation y1 = α1 y2 + β1 z1 + u1 → y2 est
corrélé avec u1
Pourquoi? y2 = f (ν2 =
α2 u1 +u2
1−α2 α1 ).
Plus formellement :
α2
2 ) = [ α2 ]σ 2
]E(u
Cov(y2 , u1 ) = Cov(ν2 , u1 ) = [ 1−α
1
1−α2 α1 1
2 α1
Si α2 6= 0 (cas d’un MES), alors MCO biaisés.
Rappels : plim α̂1 = α1 +
Cov(y2 ,u1 )
V ar(y2 ) .
Le biais (asymptotique) de simultanéité aura le même
signe que la covariance entre ν2 et u1 .
Le biais de simulatnéité dépend des paramètres α2 et
α1 .
Exemple : si α2 > 0 et α2 α1 < 1, alors le biais
asymptotique sera positif → l’effet de y2 sera surestimé.
Identification d’un MES à 2 équations
Considérons le cas d’un MES à 2 équations.
y1 = β10 + α1 y2 + β1 z1 + u1
y2 = β20 + α2 y1 + β2 z2 + u2
Les variables z1 et z2 représentent un ensemble de
respectivement k1 et k2 variables exogènes (avec une
possible intersection entre les 2):
z1 β1 = β11 z11 + β12 z12 + ... + β1k1 z1k1
z2 β2 = β21 z21 + β22 z22 + ... + β2k2 z2k2 .
Identification d’un MES à 2 équations
La présence ou non de ces variables zi va permettre de
définir des restrictions d’exclusion qui permettront de
définir la condition d’identification (condition d’ordre) de
chaque équation.
Condition de rang pour l’identification d’une équation
structurelle : La première équation dans un MES à 2
équations est identifiée ssi la seconde équation contient
au moins une variable exogène (avec un coefficient β2i
non nul) qui est exclu de la première équation.
Exemples d’identification
Modèle de demande et d’offre.
Equation d’offre : q = α1 p + β1 z1 + u1 → α1 = élasticité
de la quantité offerte par rapport au prix p
Equation de demande: q = α2 p + u2 → α2 = élasticité de
la quantité demandée par rapport au prix p.
Dans ce MES, l’offre n’est pas identifiée; la demande
est identifiée.
Modèle : offre de travail des femmes mariées → 2
équations structurelles
Equation d’offre de travail (heures travaillées) :
hours = α1 log(wage) + β10 + β11 educ + β12 age +
β13 kidslt6 + β14 nwif einc + u1 ; kidslt6 =nombre
d’enfants <6ans;nwif einc =revenu non salarial de la
femme mariée.
Equation de salaire: log(wage) =
α2 hours + β20 + β21 educ + β22 exper + β23 exper2 + u2 .
A partir des équations structurelles, la condition
d’identification de l’équation d’offre de travail : β22 6= 0
ou β23 6= 0.
L’identification requiert :β12 6= 0 ou β13 6= 0 ou β14 6= 0.
On peut évaluer cela aussi en terme de forme réduite :
log(wage) = π20 + π21 educ + π22 kidslt6 + π23 nwif einc +
π24 age + π25 exper + π26 exper2 + ν2 .
→ L’identification de l’équation de salaire requiert :
π25 6= 0 ou π26 6= 0. Pourquoi ?
Estimation par DMC
L’estimation par DMC peut se faire pour une équation
identifiée.
Dans ce cas, les VI sont simplement les variables
exogènes de l’autre équation.
Exemple : Offre de travail des femmes mariées.
MES à plus 2 équations
Considérons le cas d’un MES à 3 équations
y1 = α12 y2 + α13 y3 + β11 z1 + u1
y2 = α21 y1 + β21 z1 + β22 z2 + β23 z3 + u2
y3 = α32 y2 + β31 z1 + β32 z2 + β33 z3 + β34 z4 + u3 .
Les conditions d’identification sont des conditions
nécessaire mais non suffisantes → Il n’est pas facile de
déterminer les équations identifiées mais plus facile de
déterminer les équations non identifiées .
Equation explicative de y3 est clairement non identifiée
car il n’y a pas de restrictions d’exclusion.
Condition d’ordre pour l’identification :Une équation
dans un MES respecte la condition d’ordre pour
l’identification si le nombre de variables exogènes
exclues de l’équation est plus grand ou égal au nombre
de variables explicatives endogènes de l’équation
La condition d’ordre est une condition nécessaire mais
non suffisante → conditions suffisantes plus difficiles à
déterminer
La seconde équation
(y2 = α21 y1 + β21 z1 + β22 z2 + β23 z3 + u2 ) est identifiée ssi
β34 6= 0. Dans ce cas, l’équation est juste identifiée car
on a 1 variable endogène explicative (y1 ) et 1 VI (z4 ) →
L’identification d’une équation dépend de la valeur des
paramètres des autres équations.
La première équation est sur-identifiée car on dispose
de 3 VI (z1 , z2 , z3 ) pour 2 variables endogènes (y2 , y3 ).
MES en séries temporelles
Exemple type : Modèle keynésien en économie fermée
Ct = β0 + β1 (Yt − Tt ) + β2 rt + ut1
It = γ0 + γ1 rt + ut2
Yt ≡ Ct + It + Gt .
Tt =taxes, rt =taux d’intérêt, It =Investissement,
Gt =dépenses publiques.
3 équations pour 3 variables endogènes : Ct , It et Yt .
Troisième équation est une identité.
Si rt est exogène, alors la seconde équation peut
s’estimer par MCO.
La première équation (Consommation) doit s’estimer
par DMC (Yt endogène), 3 instruments : (Tt , Gt et rt ).
Le modèle keynésien est aujourd’hui peu estimé pour 2
raisons.
1. On a besoin d’hypothèses d’exogénéité qui sont
discutables → rt n’est pas exogène; pour l’estimation
par DMC, Tt et Gt doivent être exogènes, ce qui n’est
pas garanti.
2. Le modèle est statique → irréaliste.
Quid si on met de la dynamique ?
It = γ0 + γ1 rt + γ2 Yt−1 + ut2 .
Peut-on considérer Yt−1 comme exogène ?
Oui (si ut2 non autocorrélé) : Yt−1 est une variable dite
prédéterminée → si rt est exogène, l’équation peut être
estimée par MCO.
Puisque Yt−1 est exogène, il peut également être
considéré comme un instrument potentiel.
MES en séries temporelles: exemple
relation consommation-revenu: test de l’hypothèse du
revenu permannent gct = β0 + β1 gyt + β2 r3t + ut .
gct est le taux de croissance de la consommation →
variable I(0).
gyt est le taux de croissance de la consommation →
variable I(0).
r3t est le taux d’intérêt réel à 3 mois → variable I(0).
gct et gyt sont mutuellement dépendentes →
simultanéité → estimation par DMC.
MES en séries temporelles: exemple
L’hypothèse du revenu permanent (HRP) implique:
1. β0 = β1 = 0.
2. ut est non autocorrélé.
Instruments valides : valeurs retardées de gct , gyt et r3t .
→ estimation par DMC montre que HRP est rejetée
(H0 : β1 = 0 rejetée).
Régresser ût sur ût−1 → Rejet de H0 : processus AR(1).

Master 2: Econométrie 2

Transcription

Documents pareils

Je trie donc je suis

285 000€ lille - jocelyn plessiet

Notre brochure DR 401 - Acheter un avion robin neuf dans l`ouest

155 - Acheter un avion robin neuf dans l`ouest

Informations : 03 86 34 93 12 —

info déchetterie

Stage développeur Web Frontend ou Full Stack (H/F)

Projet pédagogique vacances

Ramassage (pdf

1 La symétrie centrale 2 La symétrie axiale 3 La translation 4 La