C:\Documents and Settings\JMR\M

Transcription

C:\Documents and Settings\JMR\M
Econométrie des variables
qualitatives
Examen - 15 mai 2002
(2h avec documents)
Exercice 1
Un sondage d’opinion enregistre les intentions de vote d’un échantillon de n individus
(k choix possible plus une modalité “sans opinion”) ainsi que trois caractéristiques
individuelles : la PCS (5 modalités : agriculteur ou indépendant (1), ouvrier (2), employé
(3), professions intermédiaires et supérieures (4), sans profession (6)), le sexe (2 modalités :
homme ou femme), la catégorie d’âge (4 modalités : moins de 30 ans, 30-45, 45-60, 60).
Question 1
On veut d’abord modéliser la décision de non réponse conditionnellement aux
caractéristiques individuelles. Quel modèle vous semble-t-il le mieux approprié?
1. Un modèle PROBIT.
2. Un modèle LOGIT.
3. Les deux.
Question 2
Modélisons la décision de ne pas répondre (y  1) sachant le vecteur des variables
explicatives x à l’aide d’un modèle PROBIT. Comment s’écrit Pry  1|x ?
1. x  b.
exp x  b
.
2. 1exp
xb
Question 3
Combien le vecteur x des trois variables explicatives (PCS, sexe, âge) plus la constante
de régression a-t-il de composantes ?
1. 4.
2. 12.
3. 9.
Exercice 2
Pour simplifier, supposons trois modalités de vote possible (disons : abstention, Mr
Cuilà et Mme Cuici) et une seule variable explicative, la PCS, avec trois modalité (inactif,
salarié, indépendant). Un sondage auprès de 1 000 individus donne les résultats suivants :
abstention
Cuilà
Cuici Total
(y  1 (y  2 (y  3
Inactifs
(x  1
150
200
100
450
Salariés
(x  2
100
150
200
450
Indépendants (x  3
20
50
30
100
270
400
Ensemble
330 1000
Soit x  1, 2, 3 la variable explicative. On construit trois variables binaires x 1 , x 2 et x 3
telles que x k  1 si x  k,  0 sinon. Soit y  1, 2, 3 la variable dépendante. On modélise le
résultat du vote, y, sachant la PCS, x, à l’aide d’un modèle LOGIT multinomial, c’est-à-dire
:
3
Pry  |x 1 , x 2 , x 3  
exp  k1 b k x k
3
b k x k
 3 1 exp  k1
,
où les b k ,   1, 2, 3, k  1, 2, 3, sont des paramètres à estimer.
Question 1
Tous les paramètres sont-ils identifiables ? Quelle est la normalisation habituelle ?
Peut-on identifier en plus de b 1 , b 2 , b 3 une constante de régression supplémentaire pour
chaque modalité  de la variable dépendante ?
Question 2
Calculer Pry  |x  k.
Question 3
Ecrire la log-vraisemblance de l’échantillon.
Question 4
Calculer un estimateur de  k  exp b k , pour tous , k, par maximisation de la
log-vraisemblance sous la contrainte identifiante que  1k   2k   3k  1 pour tout k. On
montrera que le problème revient à maximiser
L 11 ,  21 ,  12 ,  22 ,  13 ,  23   ? ln  11  ? ln  21  ? ln1   11   21 
 ? ln  12  ? ln  22  ? ln1   12   22 
 ? ln  13  ? ln  23  ? ln1   13   23 ,
où les ? sont des nombres qu’il vous revient de préciser.
Question 5
 1k , 
 2k , 
 3k , l’estimateur des paramètres correspondant au groupe k de
Soit 
 k  



PCS. Montrer que  1 ,  2 et  3 sont asymptotiquement indépendants.
Question 6
Montrer qu’un estimateur de la matrice de variance-covariance asymptotique de
 
  11 ,  21  (inactifs) est
1
450
15
2
9
2
9
2
27
4
1
4. 9
3. 3
 10 4 .
3. 3 5. 5
 11  
 21 est de 3.810 4 . En déduire
Montrer que la variance asymptotique de 
 31  1  


 ( 4. 9  2. 2,
un intervalle de confiance asymptotique à 95% de  ,  et 
5. 5  2. 3, 3. 8  1. 9).

11
21
31
Exercice 3
Soit un échantillon iid d’un couple y i , x i   R  R K . On suppose que y i  |y i | avec
y i  Nx i ,  2 . Ecrire la vraisemblance conditionnelle de l’échantillon.
Corrigé
Exo 1.
1. Réponse 3.
2. Réponse 1.
3. Réponse 3.
Exo 2.
1. Un des vecteurs de paramètres b   b 1 , b 2 , b 3   pour un des   1, 2, 3 n’est pas
identifié séparément des deux autres:
3
Pry  |x 1 , x 2 , x 3  
exp  k1 b k x k
3
b k x k
 3 1 exp  k1
3

exp  k1 b k  b 1 x k
3
3
1     2 exp  k1 b   k  b 1 x k
,
On voit que changer b k en b k  c k pour tous c 1 , c 2 , c 3 ne change pas les probabilités de
choix.
La normalisation habituelle est d’en fixer un arbitrairement à 0, par exemple
b 1  b 2  b k  0.
On ne peut évidemment pas introduire un terme constant supplémentaire car alors le
système 1, x 1i , x 2i , x 3i  des variables explicatives serait lié.
b
2. Pry  |x  k  e b1k eeb2kk e b3k :  k b 1k , b 2k , b 3k  (disons). Constater que
 1k   2k   3k  1, k.
3.
Lb 1 , b 2 , b 3   150 ln  11  200 ln  21  100 ln  31
 100 ln  12  150 ln  22  200 ln  32
 20 ln  13  50 23  30 ln  33
4. Puisque  1k   2k   3k  1, k, la log-vraisemblance s’écrit encore
L  150 ln  11  200 ln  21  100 ln1   11   21 
 100 ln  12  150 ln  22  200 ln1   12   22 
 20 ln  13  50 23  30 ln1   13   23 
Alors
 21  200  4 ; 
  100  2 ;
max L  
 11  150  1 ; 
450
450
450
3
9 31
9



100
150
200
2
1
  12 
 ;  22 
 ;  32 
 4;
450
450
450
9
3
9



  13  20  1 ;  23  50  1 ;  33  30  3 .
5
100
100
100
10
2
5. On sait que deux variables aléatoires normales sont indépendantes si et seulement si

elles ne sont pas corrélées. L’estimateur du MV est asymptotiquement normal ;  k et 
 k
sont asymptotiquement indépendants si leur covariance asymptotique
plim cov
 k, 
 k    0. Or L est additivement séparable en trois composantes L 1 , L 2 , L 3
telles que L k ne dépend que de  1k ,  2k  :
L  L1  L2  L3
L 1  150 ln  11  200 ln  21  100 ln1   11   21 
L 2  100 ln  12  150 ln  22  200 ln1   12   22 
L 3  20 ln  13  50 23  30 ln1   13   23 
La matrice d’information de Fisher est donc bloc-diagonale :
2L
 0, k  k  .
 1k ,  2k    1k  ,  2k  
6. Le score pour l’ensemble de l’échantillon est
L 1

 1k ,  2k  
150
 11

100
1 11  21
200
 21

100
1 11  21
.
La matrice d’information de Fisher de l’ensemble de l’échantillon est
150
 11  2
2L1


 1k ,  2k    1k ,  2k 

100
1 11  21  2
100
1 11  21  2
100
1 11  21  2
 450
450
150
450
100
 450
15
2
9
2

200
 21  2
450
100
450
100
450
200


100
1 11  21  2
450
100
9
2
27
4
3375. 0 2025. 0

2025. 0 3037. 5
et son inverse est
4. 9
3. 3
 10 4 .
5. 5
 1
 11  
 21 est
3. 3
La variance asymptotique de 
 31
1, 1
4. 9
3. 3
3. 3
5. 5
 10 4 
1
1
 3. 8  10 4 .
L’intervalle de confiance s’obtient comme le paramètre plus ou moins deux fois l’écart
type.
Exo 3. On a
y i  y  , y  y i  y, y    y  , y
et
lim
0
Pry i  y  , y
Pry i  y, y    Pry i  y  , y
 lim


0


1  y  x i   1  y  x i  .
 



La log vraisemblance de l’échantillon s’écrit alors
n
L
y i  x i 
1
ln

 

i1

1  yi  xi
 

.