C:\Documents and Settings\JMR\M
Transcription
C:\Documents and Settings\JMR\M
Econométrie des variables qualitatives Examen - 15 mai 2002 (2h avec documents) Exercice 1 Un sondage d’opinion enregistre les intentions de vote d’un échantillon de n individus (k choix possible plus une modalité “sans opinion”) ainsi que trois caractéristiques individuelles : la PCS (5 modalités : agriculteur ou indépendant (1), ouvrier (2), employé (3), professions intermédiaires et supérieures (4), sans profession (6)), le sexe (2 modalités : homme ou femme), la catégorie d’âge (4 modalités : moins de 30 ans, 30-45, 45-60, 60). Question 1 On veut d’abord modéliser la décision de non réponse conditionnellement aux caractéristiques individuelles. Quel modèle vous semble-t-il le mieux approprié? 1. Un modèle PROBIT. 2. Un modèle LOGIT. 3. Les deux. Question 2 Modélisons la décision de ne pas répondre (y 1) sachant le vecteur des variables explicatives x à l’aide d’un modèle PROBIT. Comment s’écrit Pry 1|x ? 1. x b. exp x b . 2. 1exp xb Question 3 Combien le vecteur x des trois variables explicatives (PCS, sexe, âge) plus la constante de régression a-t-il de composantes ? 1. 4. 2. 12. 3. 9. Exercice 2 Pour simplifier, supposons trois modalités de vote possible (disons : abstention, Mr Cuilà et Mme Cuici) et une seule variable explicative, la PCS, avec trois modalité (inactif, salarié, indépendant). Un sondage auprès de 1 000 individus donne les résultats suivants : abstention Cuilà Cuici Total (y 1 (y 2 (y 3 Inactifs (x 1 150 200 100 450 Salariés (x 2 100 150 200 450 Indépendants (x 3 20 50 30 100 270 400 Ensemble 330 1000 Soit x 1, 2, 3 la variable explicative. On construit trois variables binaires x 1 , x 2 et x 3 telles que x k 1 si x k, 0 sinon. Soit y 1, 2, 3 la variable dépendante. On modélise le résultat du vote, y, sachant la PCS, x, à l’aide d’un modèle LOGIT multinomial, c’est-à-dire : 3 Pry |x 1 , x 2 , x 3 exp k1 b k x k 3 b k x k 3 1 exp k1 , où les b k , 1, 2, 3, k 1, 2, 3, sont des paramètres à estimer. Question 1 Tous les paramètres sont-ils identifiables ? Quelle est la normalisation habituelle ? Peut-on identifier en plus de b 1 , b 2 , b 3 une constante de régression supplémentaire pour chaque modalité de la variable dépendante ? Question 2 Calculer Pry |x k. Question 3 Ecrire la log-vraisemblance de l’échantillon. Question 4 Calculer un estimateur de k exp b k , pour tous , k, par maximisation de la log-vraisemblance sous la contrainte identifiante que 1k 2k 3k 1 pour tout k. On montrera que le problème revient à maximiser L 11 , 21 , 12 , 22 , 13 , 23 ? ln 11 ? ln 21 ? ln1 11 21 ? ln 12 ? ln 22 ? ln1 12 22 ? ln 13 ? ln 23 ? ln1 13 23 , où les ? sont des nombres qu’il vous revient de préciser. Question 5 1k , 2k , 3k , l’estimateur des paramètres correspondant au groupe k de Soit k PCS. Montrer que 1 , 2 et 3 sont asymptotiquement indépendants. Question 6 Montrer qu’un estimateur de la matrice de variance-covariance asymptotique de 11 , 21 (inactifs) est 1 450 15 2 9 2 9 2 27 4 1 4. 9 3. 3 10 4 . 3. 3 5. 5 11 21 est de 3.810 4 . En déduire Montrer que la variance asymptotique de 31 1 ( 4. 9 2. 2, un intervalle de confiance asymptotique à 95% de , et 5. 5 2. 3, 3. 8 1. 9). 11 21 31 Exercice 3 Soit un échantillon iid d’un couple y i , x i R R K . On suppose que y i |y i | avec y i Nx i , 2 . Ecrire la vraisemblance conditionnelle de l’échantillon. Corrigé Exo 1. 1. Réponse 3. 2. Réponse 1. 3. Réponse 3. Exo 2. 1. Un des vecteurs de paramètres b b 1 , b 2 , b 3 pour un des 1, 2, 3 n’est pas identifié séparément des deux autres: 3 Pry |x 1 , x 2 , x 3 exp k1 b k x k 3 b k x k 3 1 exp k1 3 exp k1 b k b 1 x k 3 3 1 2 exp k1 b k b 1 x k , On voit que changer b k en b k c k pour tous c 1 , c 2 , c 3 ne change pas les probabilités de choix. La normalisation habituelle est d’en fixer un arbitrairement à 0, par exemple b 1 b 2 b k 0. On ne peut évidemment pas introduire un terme constant supplémentaire car alors le système 1, x 1i , x 2i , x 3i des variables explicatives serait lié. b 2. Pry |x k e b1k eeb2kk e b3k : k b 1k , b 2k , b 3k (disons). Constater que 1k 2k 3k 1, k. 3. Lb 1 , b 2 , b 3 150 ln 11 200 ln 21 100 ln 31 100 ln 12 150 ln 22 200 ln 32 20 ln 13 50 23 30 ln 33 4. Puisque 1k 2k 3k 1, k, la log-vraisemblance s’écrit encore L 150 ln 11 200 ln 21 100 ln1 11 21 100 ln 12 150 ln 22 200 ln1 12 22 20 ln 13 50 23 30 ln1 13 23 Alors 21 200 4 ; 100 2 ; max L 11 150 1 ; 450 450 450 3 9 31 9 100 150 200 2 1 12 ; 22 ; 32 4; 450 450 450 9 3 9 13 20 1 ; 23 50 1 ; 33 30 3 . 5 100 100 100 10 2 5. On sait que deux variables aléatoires normales sont indépendantes si et seulement si elles ne sont pas corrélées. L’estimateur du MV est asymptotiquement normal ; k et k sont asymptotiquement indépendants si leur covariance asymptotique plim cov k, k 0. Or L est additivement séparable en trois composantes L 1 , L 2 , L 3 telles que L k ne dépend que de 1k , 2k : L L1 L2 L3 L 1 150 ln 11 200 ln 21 100 ln1 11 21 L 2 100 ln 12 150 ln 22 200 ln1 12 22 L 3 20 ln 13 50 23 30 ln1 13 23 La matrice d’information de Fisher est donc bloc-diagonale : 2L 0, k k . 1k , 2k 1k , 2k 6. Le score pour l’ensemble de l’échantillon est L 1 1k , 2k 150 11 100 1 11 21 200 21 100 1 11 21 . La matrice d’information de Fisher de l’ensemble de l’échantillon est 150 11 2 2L1 1k , 2k 1k , 2k 100 1 11 21 2 100 1 11 21 2 100 1 11 21 2 450 450 150 450 100 450 15 2 9 2 200 21 2 450 100 450 100 450 200 100 1 11 21 2 450 100 9 2 27 4 3375. 0 2025. 0 2025. 0 3037. 5 et son inverse est 4. 9 3. 3 10 4 . 5. 5 1 11 21 est 3. 3 La variance asymptotique de 31 1, 1 4. 9 3. 3 3. 3 5. 5 10 4 1 1 3. 8 10 4 . L’intervalle de confiance s’obtient comme le paramètre plus ou moins deux fois l’écart type. Exo 3. On a y i y , y y i y, y y , y et lim 0 Pry i y , y Pry i y, y Pry i y , y lim 0 1 y x i 1 y x i . La log vraisemblance de l’échantillon s’écrit alors n L y i x i 1 ln i1 1 yi xi .