Econométrie des variables qualitatives

Transcription

Econométrie des variables qualitatives
Econométrie des variables qualitatives
Examen - 23 mai 2003 (2h sans documents)
Exercice 1
On estime un modèle PROBIT pour expliquer la variable dichotomique “avoir des enfants”
(ENF ! 1 ou 0) sachant le diplôme de l’individu (DIPL ! 1 si diplôme inférieur au bac, ! 2 si niveau
bac,! 3 si diplôme supérieur au bac), son âge (AGE) et son âge au carré divisé par 100
2
(AGE2 ! AGE
). Voici les résultats de l’estimation avec STATA, la commande vce affichant la matrice
100
de variance-covariance des paramètres estimés. L’échantillon ne contient que des personnes d’âge
compris entre 20 et 60 ans. Les variables _Idipl_1, _Idipl_2, _Idipl_3 résultent de la dichotomisation de
la variable DIPL.
. xi: probit enf i.dipl age age2
i.dipl
_Idipl_1-3
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
log
log
log
log
likelihood
likelihood
likelihood
likelihood
Probit estimates
Log likelihood = -17369.568
=
=
=
=
(naturally coded; _Idipl_1 omitted)
-18636.845
-17371.858
-17369.568
-17369.568
Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
=
=
=
=
28922
2534.55
0.0000
0.0680
-----------------------------------------------------------------------------enf |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Idipl_2 | -.1324138
.0236364
-5.60
0.000
-.1787404
-.0860873
_Idipl_3 | -.2885005
.018667
-15.46
0.000
-.325087
-.2519139
age |
.2996346
.006378
46.98
0.000
.2871339
.3121352
age2 | -.3834785
.0080627
-47.56
0.000
-.3992812
-.3676758
_cons | -4.966942
.1199125
-41.42
0.000
-5.201966
-4.731918
-----------------------------------------------------------------------------. vce
| _Idipl_2 _Idipl_3
age
age2
_cons
-------------+--------------------------------------------_Idipl_2 | .000559
_Idipl_3 | .000104 .000348
age | 5.3e-06 -4.8e-06 .000041
age2 | -3.7e-06 7.8e-06 -.000051 .000065
_cons | -.000248 -.000041 -.000755 .000932 .014379
1. Pourquoi l’estimation de ce modèle PROBIT fournit-il un modèle statistique de la fécondité ?
(Dites ce qu’estime un modèle PROBIT et faites le lien avec la notion démographique de
fécondité. Quelques lignes suffisent!)
2. Pourquoi a-t-on divisé le carré de l’âge par 100 pour effectuer la régression?
3. Diriez-vous que la fécondité diminue avec le diplôme ?
4. Comment testeriez-vous que le paramètre de la variable _Idipl_3 est significativement différent du
paramètre de la variable _Idipl_2 ?
5. Quel est l’effet de l’âge sur la fécondité ? A quel âge, toutes choses égales d’ailleurs, le modèle
estime-t-il maximale la probabilité d’avoir un enfant?
6. Calculer à l’aide de la matrice variance-covariance un estimateur de l’écart-type de cette
estimation. Vous pourrez utiliser le résultat numérique suivant:
2
1
41
! 102 0. 29963 " 65 0. 2996 4 ! 1. 675 # 10 !2 ;
10. 903 ! 0. 129.
2
400 0. 3835
0. 3835
0. 3835
Exercice 2
On construit maintenant la variable NENF qui vaut 0, 1, 2, 3 ou 4 si le nombre d’enfants dans le
ménage est égal à 0, 1, 2, 3 ou plus de 4 enfants. On estime ensuite un modèle PROBIT ordonné à
seuils inconnus :
NENF i ! k " !0, 1, 2, 3, 4" si s k $ x %i b " u i # s k"1 ,
avec u i $ N#0, ! 2 $, s 0 ! 0 et s 5 ! "%.
Voici les résultats d’estimation obtenus à l’aide de STATA (les paramètres _cut1, ..., _cut4
dénotent les seuils s 1 , ..., s 4 du modèle):
. xi: oprobit nenf i.dipl age age2
i.dipl
_Idipl_1-3
Iteration 0:
Iteration 1:
Iteration 2:
(naturally coded; _Idipl_1 omitted)
log likelihood = -40356.058
log likelihood = -39014.837
log likelihood = -39013.178
Ordered probit estimates
Log likelihood = -39013.178
Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
=
=
=
=
28922
2685.76
0.0000
0.0333
-----------------------------------------------------------------------------nenf |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Idipl_2 | -.1145041
.0194437
-5.89
0.000
-.1526129
-.0763952
_Idipl_3 | -.2033115
.0155256
-13.10
0.000
-.2337412
-.1728817
age |
.26945
.0054888
49.09
0.000
.2586921
.280208
age2 | -.3453101
.006959
-49.62
0.000
-.3589496
-.3316706
-------------+---------------------------------------------------------------_cut1 |
4.436445
.1032947
(Ancillary parameters)
_cut2 |
5.178941
.1041345
_cut3 |
6.082835
.1050567
_cut4 |
6.83505
.1058442
-----------------------------------------------------------------------------. vce
| _Idipl_2 _Idipl_3
age
age2
_cut1
_cut2
_cut3
-------------+--------------------------------------------------------------_Idipl_2 | .000378
_Idipl_3 | .000066 .000241
age | 3.9e-06 -1.9e-06
.00003
age2 | -3.1e-06 3.3e-06 -.000038 .000048
_cut1 | .000168 .000047 .000559 -.000692
.01067
_cut2 | .000167 .000043 .000564 -.000698 .010729 .010844
_cut3 | .000165 .000041 .000569 -.000704 .010794 .010898 .011037
_cut4 | .000162 .000039 .000569 -.000705 .010803 .010903 .011025
|
_cut4
-------------+--------_cut4 | .011203
1. Vous observez que le programme n’estime ni la constante de la régression, ni la variance ! 2 .
Pourquoi?
2. Les paramètres estimés par le modèle PROBIT ordonné sont proches de ceux estimés par le
modèle PROBIT simple. Pourquoi? En déduire que la constante du modèle PROBIT est égale à
l’opposé du seuil s 1 #! _cut1$.
3. Quelle est la probabilité estimée d’avoir 3 enfants pour un ménage de diplôme inférieur au bac et
de 35 ans (posez le calcul; ne le faites pas sans ordinateur!).
4. Calculer théoriquement le nombre d’enfants prédit par le modèle pour un ménage de
caractéristiques quelconques.
Exercice 3
Un couple de personnes en ménage est propriétaire de son logement s’il est assez riche. Soient X 1 et
X 2 leurs revenus respectifs. On suppose que les revenus des deux conjoints sont en réalité corrélés (par
un phénomène d’endogamie bien connu) et que
X1
$N
X2
m1
,
m2
1. Calculer Pr!X 1 " X 2 & s|X 2 ! x 2 ".
Note: je rappelle que X 1 |X 2 ! x 2 $ N#m 1 "
2. Calculer Pr!X 1 " X 2 & s".
"! 1
!2
! 21
"! 1 ! 2
"! 1 ! 2
! 22
.
#x 2 ! m 2 $, #1 ! " 2 $! 21 $.
Exercice 4
Soit une variable aléatoire X $ N#m, ! 2 $. Soit a un réel positif.
1. Montrer sans calcul que E#X|X 2 & a$ ! 0 si m ! 0.
2. Montrer ensuite en toute généralité que
E#X|X & a$ ! m " !
#
2
pour un seuil a & 0 quelconque.
!
a !m
!
! a !m
!
!#
! a !m
!
"1!!
a !m
!
Corrigé
1
Exercice 1
On estime un modèle PROBIT pour expliquer la probabilité d’avoir des enfants (ENF = 1 ou
0) sachant le diplôme du chef du ménage (DIP L = 1 si diplôme inférieur au bac, = 2 si niveau
bac,= 3 si diplôme supérieur au bac), l’âge (AGE), l’âge au carré (AGE2 = AGE 2 /100).
Voici les résultats de l’estimation (la commande vce de STATA affiche la matrice de variancecovariance des paramètres estimés.
. xi: probit enf i.dipl age age2
i.dipl
_Idipl_1-3
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
log
log
log
log
likelihood
likelihood
likelihood
likelihood
=
=
=
=
(naturally coded; _Idipl_1 omitted)
-18636.845
-17371.858
-17369.568
-17369.568
Probit estimates
Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
Log likelihood = -17369.568
=
=
=
=
28922
2534.55
0.0000
0.0680
-----------------------------------------------------------------------------enf |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Idipl_2 | -.1324138
.0236364
-5.60
0.000
-.1787404
-.0860873
_Idipl_3 | -.2885005
.018667
-15.46
0.000
-.325087
-.2519139
age |
.2996346
.006378
46.98
0.000
.2871339
.3121352
age2 | -.3834785
.0080627
-47.56
0.000
-.3992812
-.3676758
_cons | -4.966942
.1199125
-41.42
0.000
-5.201966
-4.731918
-----------------------------------------------------------------------------. vce
| _Idipl_2 _Idipl_3
age
age2
_cons
-------------+--------------------------------------------_Idipl_2 | .000559
_Idipl_3 | .000104 .000348
age | 5.3e-06 -4.8e-06 .000041
age2 | -3.7e-06 7.8e-06 -.000051 .000065
_cons | -.000248 -.000041 -.000755 .000932 .014379
1. Pourquoi l’estimation de ce modèle PROBIT fournit-il un modèle statistique de la fécondité ? (Dites ce qu’estime un modèle PROBIT et faites le lien avec la notion démographique de fécondité.)
Un modèle dichotomique permet de décrire comment la probabilité d’un évènement change
avec les caractéristiques socio-démographiques des individus. L’étude de la fécondité est
justement l’étude socio-démographique de la propension à avoir des enfants.
1
2. Pourquoi a-t-on divisé le carré de l’âge par 100 pour effectuer la régression?
Pour augmenter l’ordre de grandeur du paramètre de la régression correpondant d’un
facteur 100.
3. Diriez-vous que la fécondité diminue avec le diplôme ?
Oui puisque le paramètre de la variable _Idipl_2 = (dipl == 2) est négatif et que la
différence du paramètre de _Idipl_3 et de celui de _Idipl_2 est aussi négatif. Avoir le
bac réduit donc les chances d’avoir des enfants et avoir un diplôme du supérieur les réduit
encore plus.
4. Comment testeriez-vous que le paramètre de la variable _Idipl_3 est signiÞcativement
différent du paramètre de la variable _Idipl_2 ?
b3 et bb2
Soit b3 le paramètre associé à _Idipl_3 et soit b2 celui associé à _Idipl_2, et b
leurs estimations. On estime b3 − b2 comme bb3 − bb2 = −(0.2885 − 0.1324) = −0.1561 et
´
´
³
³
= Vbb3 + Vbb2 − 2 Cov b
V bb3 − bb2
b3 , bb2
¡
¢2
= (348 + 559 − 2 × 104) × 10−6 = 699 × 10−6 = 2.6434 × 10−2
−0.1561
La statistique de Student du test de l’hypothèse b3 −b2 = 0 est donc 2.6434×10
−2 = −5.9053.
Elle est largement supérieure à 2. On rejette donc l’hypothèse nulle au seuil de 5%.
5. Quel est l’effet de l’âge sur la fécondité ? A quel âge, toutes choses égales d’ailleurs, le
modèle estime-t-il maximale la probabilité d’avoir un enfant?
2
0
Calculons la dérivée de la fonction: f(AGE) = 0.2996AGE − 0.3834 AGE
100 . f (AGE) =
AGE
0.2996×100
0
0.2996 − 2 × 0.3834 100 . On a f (AGE) > 0 pour tout AGE ≤ 2×0.3834 = 39.0. Les
chances d’avoir des enfants croissent donc jusqu’à l’âge de 39 ans et décroissent ensuite.
6. Calculer à l’aide de la matrice variance-covariance un estimateur de l’écart-type de cette
estimation. Vous pourrez utiliser le résultat numérique suivant:
¶
µ
√
1
0.2996
0.29962
41
= 1. 675 × 10−2 ;
− 102
+ 65
10.903 = 0.129.
2
3
4
400 0.3835
0.3835
0.3835
2
Notons a ³le coefficient
de l’âge et b celui de AGE
100 . L’estimateur de l’âge optimal est
´
c = 100 × − bab . Sa variance asymptotique est
b
2b
´
´
³
³
a
b
b
a
¶
µ
µ
¶
∂ − b
b
a ∂ − 2bb
b
a
104 × V −
= 104 × ³ 2b´ V b
µ ¶
b
b
a
2bb
∂ b
a, bb
∂ b
b
¶µ
¶Ã 1 !
µ
−6
−6
− b
b
a
1
41
×
10
−51
×
10
2b
= 104 × − ,
b
a
−6
−6
2
−51 × 10
65 × 10
2bb 2bb
2bb2
¶
µ
−2
2
10
b
a
b
a
41
=
+ 2 × 51 ×
+ 65
×
bb2
bb3
bb4
4
¶
µ
0.2996
0.29962
41
1
.
− 102
+ 65
=
400 0.38352
0.38353
0.38354
2
2
Exercice 2
On construit maintenant la variable NENF qui vaut 0, 1, 2, 3 ou 4 si le nombre d’enfants dans
le ménage est égal à 0, 1, 2, 3 ou plus de 4 enfants. On estime ensuite un modèle PROBIT
ordonné à seuils inconnus :
NENFi = k ∈ {0, 1, 2, 3, 4} si sk < x0i b + ui ≤ sk+1 ,
¢
¡
avec ui ∼ N 0, σ2 , s0 = 0 et s5 = +∞.
Voici les résultats d’estimation obtenus à l’aide de STATA (les paramètres _cut1, ..., _cut4
dénotent les seuils s1 , ..., s4 du modèle):
. xi: oprobit nenf i.dipl age age2
i.dipl
_Idipl_1-3
Iteration 0:
Iteration 1:
Iteration 2:
(naturally coded; _Idipl_1 omitted)
log likelihood = -40356.058
log likelihood = -39014.837
log likelihood = -39013.178
Ordered probit estimates
Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
Log likelihood = -39013.178
=
=
=
=
28922
2685.76
0.0000
0.0333
-----------------------------------------------------------------------------nenf |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Idipl_2 | -.1145041
.0194437
-5.89
0.000
-.1526129
-.0763952
_Idipl_3 | -.2033115
.0155256
-13.10
0.000
-.2337412
-.1728817
age |
.26945
.0054888
49.09
0.000
.2586921
.280208
age2 | -.3453101
.006959
-49.62
0.000
-.3589496
-.3316706
-------------+---------------------------------------------------------------_cut1 |
4.436445
.1032947
(Ancillary parameters)
_cut2 |
5.178941
.1041345
_cut3 |
6.082835
.1050567
_cut4 |
6.83505
.1058442
-----------------------------------------------------------------------------. vce
| _Idipl_2 _Idipl_3
age
age2
_cut1
_cut2
_cut3
-------------+--------------------------------------------------------------_Idipl_2 | .000378
_Idipl_3 | .000066 .000241
age | 3.9e-06 -1.9e-06
.00003
age2 | -3.1e-06 3.3e-06 -.000038 .000048
_cut1 | .000168 .000047 .000559 -.000692
.01067
_cut2 | .000167 .000043 .000564 -.000698 .010729 .010844
_cut3 | .000165 .000041 .000569 -.000704 .010794 .010898 .011037
_cut4 | .000162 .000039 .000569 -.000705 .010803 .010903 .011025
|
_cut4
-------------+--------_cut4 | .011203
1. Vous observez que le programme n’estime ni la constante de la régression, ni la variance
σ2 . Pourquoi?
3
Parce que le modèle PROBIT ordonné avec seuils inconnus ne permet d’identiÞer la variable latente qu’à une translation et une homothétie près. L’usage le plus courant est alors
de poser la constante dans l’espérance égale à 0 et la variance égale à 1.
2. Les paramètres estimés par le modèle PROBIT ordonné sont proches de ceux estimés par
le modèle PROBIT simple. Pourquoi? Montrer que la constante du modèle PROBIT est
égale à l’opposé du seuil s1 (= _cut1).
Parce que
Pr {ENFi = 1|xi } =
=
=
=
1 − Pr {NENFi = 0|x}
©
ª
1 − Pr x0 b + ui ≤ s1
¡
¢
1 − Φ s1 − x0i b
¢
¡
Φ x0i b − s1
On voit au passage que la constante du modèle PROBIT est égale à l’opposé du seuil
s1 (= _cut1).
3. Quelle est la probabilité estimée d’avoir 3 enfants pour un ménage de diplôme inférieur
au bac et de 35 ans (posez le calcul; ne le faites pas sans ordinateur!).
2
On a x0i b = 0.2695 × 35 − 0.3453 × 35
100 = 5.2026 et
ª
¡
¢
¡
¢
©
= Φ s4 − x0i b − Φ s3 − x0i b
Pr s3 < x0i b + ui ≤ s4
= Φ (6.8351 − 5.2026) − Φ (6.0829 − 5.2026)
= 0.9487 − 0.8107 = 0.138.
4. Calculer théoriquement le nombre d’enfants prédit par le modèle pour un ménage de
caractéristiques quelconques.
On a
E (NENF |x) =
=
4
X
k=0
4
X
k=0
3
k Pr (NENF = k|x)
£ ¡
¢
¡
¢¤
k Φ sk+1 − x0i b − Φ sk − x0i b .
Exercice 3
Un couple de personnes en ménage est propriétaire de son logement s’il est assez riche. Soient
X1 et X2 leurs revenus respectifs. On suppose que les revenus des deux conjoints sont en réalité
corrélés (par un phénomène d’endogamie bien connu) et que
µ
¶
µµ
¶ µ
¶¶
X1
m1
σ21
ρσ1 σ2
∼N
,
.
X2
m2
ρσ1 σ 2
σ22
1. Calculer Pr {X1 + X2 > s|X2 = x³2 }
Je rappelle que X1 |X2 = x2 ∼ N m1 +
ρσ 1
σ2
4
¢ ´
¡
(x2 − m2 ) , 1 − ρ2 σ 21 .
On a
Pr {X1 + X2 > s|X2 = x2 } = Pr {X1 > s − x2 |X2 = x2 }
Ã
!
1
s − x2 − m1 − ρσ
σ2 (x2 − m2 )
p
= 1−Φ
.
1 − ρ2 σ 1
4
2. Calculer Pr {X1 + X2 > s} .
¡
¢
La loi de la variable X1 + X2 est N m1 + m2 , σ21 + σ22 + 2ρσ1 σ2 . D’où
Ã
!
s − m1 − m2
Pr {X1 + X2 > s} = 1 − Φ p 2
.
σ1 + σ 22 + 2ρσ1 σ2
Exercice 4
¡
¢
Soit une variable aléatoire X ∼ N m, σ2 . Soit a un réel positif.
¢
¡
1. Montrer sans calcul que E X|X 2 > a = 0 si m = 0.
La loi normale étant symétrique par rapport à la moyenne, la loi de X sachant un conditionnement symétrique par rapport à la moyenne respecte la symétrie et son espérance
est la même que celle de la loi non conditionnelle.
2. Montrer ensuite en toute généralité que
¢
¡
E X|X 2 > a = m + σ
Φ
φ
³
´
√
− a−m
σ
´
³√
´
√
− a−m
a−m
+
1
−
Φ
σ
σ
³√
a−m
σ
´
−φ
³
pour un seuil a > 0 quelconque.
Posons X = m + σu avec u ∼ N (0, 1). On a
¢
¡
¡
√
√ ¢
E X|X 2 > a = E m + σu|m + σu > a ou m + σu < − a
µ
¶
√
√
a−m
− a−m
= m + σE u|u >
ou u <
σ
σ
Z +∞
Z −√a−m
σ
uφ(u)du + √
uφ(u)du
a−m
−∞
σ
´
³√
´
³ √
= m+σ
Φ − σa−m + 1 − Φ a−m
σ
√
− a−m
σ
√
[−φ(u)]−∞
+ [−φ(u)]+∞
a−m
´
³√ σ ´
= m+σ ³ √
Φ − σa−m + 1 − Φ a−m
σ
³√
´
³ √
´
a−m
− a−m
φ
−
φ
σ
σ
´
³√
´.
= m+σ ³ √
− a−m
a−m
+
1
−
Φ
Φ
σ
σ
5

Documents pareils