Informations qualitatives
Transcription
Informations qualitatives
Chapitre 5 Les informations qualitatives Licence Econométrie / MASS Econométrie II, 2007-2008 Martin Fournier [email protected] L3 Econométrie/MASS Econométrie II 1 1. Les variables indicatrices Variables « dummy » L3 Econométrie/MASS Econométrie II 2 1.1 Variables “dummy” Une variable indicatrice (dummy) est une variable qui prend seulement deux valeurs possibles : 1 ou 0 Exemples: sexe (1 pour les hommes, 0 pour les femmes), géographie (1 pour Paris, 0 sinon), race, etc. On peut également parler de variables binaires (binary variables) L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 3 1.2 Exemple L3 Econométrie/MASS Econométrie II 4 1.3 Une « dummy » comme variable explicative Considérons un modèle simple avec une variable continue (x) et une variable dummy (d) y = b 0 + d 0d + b 1x + u Le coefficient (MCO) de la variable dummy peut être interprété comme une translation du modèle (modification du terme constant) Si d = 0, alors y = b0 + b1x + u Si d = 1, alors y = (b0 + d0) + b1x + u Le cas d = 0 est le groupe de référence L3 Econométrie/MASS Econométrie II 5 1.3 Exemple (avec δ0 > 0) y y = (β 0 + δ0) + β 1x d=1 δ0 { Dans les 2 cas, la pente = β1 d=0 } β0 y = β 0 + β 1x x L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 6 1.5 Exemple wage = β 0 + β 1 female + β 2 educ + u Ce modèle permet de déterminer l’espérance mathématique du différentiel de salaire entre hommes et femmes en contrôlant par le niveau d’éducation atteint β 1 = Ε(wage female = 1, educ ) − Ε(wage female = 0, educ ) = Ε(wage female, educ ) − Ε(wage male, educ ) Puisque Ε(wage female, educ ) = β 0 + β 1 + β 2 educ Ε(wage male, educ ) = β 0 + β 2 educ L3 Econométrie/MASS Econométrie II 7 1.6 Exemple (2) Hommes : wage = β 0 + β 2 educ Femmes : wage = (β 0 + β 1 ) + β 2 educ L3 Econométrie/MASS Econométrie II 8 1.6 Exemple (3) wage = β 0 + β 1 female + β 2 educ + u Le même modèle aurait pu être estimé en utilisant une variable dummy « Homme » (i.e. en prenant les femmes comme groupe de référence) wage = γ 0 + γ 1 male + γ 2 educ + u On obtiendrait alors : β2 = γ 2 → β 1 = −γ 1 β0 = γ 0 + γ1 γ 0 = β 0 + β1 L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 9 1.6 Exemple (4) Attention : On ne peut pas en revanche inclure conjointement les variables dummy female et male dans la régression. On se retrouverait alors avec une collinéarité parfaite entre les variables explicatives du fait que : female + male = 1 Ce qui viole les hypothèses du théorème de GaussMarkov et invalide l’estimateur des MCO L3 Econométrie/MASS Econométrie II 10 1.7 Exemple (5) Application pratique : Test et évaluation d’une différence de revenu entre hommes et femmes : incearn = β 0 + β1 female + β 2 education + β 3tenure + β 4businesses + u incearn = β 0 + δ1male + β 2 education + β 3tenure + β 4businesses + u Incearn : Revenu Female : Variable dummy (Femme female=1) Male : Variable dummy (Femme female=1) Education : Nombre d’années d’éducation Tenure : Nombre d’années d’expérience L3 Econométrie/MASS Econométrie II 11 L3 Econométrie/MASS Econométrie II 12 L3 Econométrie/MASS - Econométrie II 1.9 Exemple (7) Si la variable dépendante est sous forme logarithmique, le coefficient de la variable dummy s’interprète donc comme la différence espérée entre les deux groupes en pourcentage : log(incearn) = β 0 + β1 female + β 2 educ + β 3tenure + β 4tenure2 + β 5businesses + β 6businesses2 + u E (incearn female, X ) − E (incearn male, X ) E (incearn male, X ) = exp(βˆ1 ) − 1 ≈ βˆ1 (pour βˆ1 proche de 0) L3 Econométrie/MASS Econométrie II 13 1.10 Exemple (8) : Forme logaritmique exp(βˆ1 ) − 1 = 123% L3 Econométrie/MASS Econométrie II 14 2. Variables indicatrices et information complexe L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 15 2.1 Variables dummy et catégories multiples On peut utiliser des variables dummy pour contrôler une information discrète multiple : Prenons l’exemple d’une variable d’éducation pouvant prendre trois niveaux : Primaire, Secondaire et Supérieure On peut créer deux variables dummy permettant de capter toute l’information : SUP = 1 si éducation supérieure et 0 sinon SEC = 1 si éducation secondaire (seulement) et 0 sinon Catégorie de référence : éducation primaire seulement L3 Econométrie/MASS Econométrie II 16 2.2 Variables dummy et catégories multiples (2) Toute variable catégorielle peut être transformée en un jeu de variables dummy Le groupe de référence est représenté par le terme constant S’il y a n catégories, il doit y avoir seulement n – 1 variables dummy On peut rapidement se retrouver avec un nombre important de variables redéfinition des groupes (ex. : CSP, secteurs industriels) L3 Econométrie/MASS Econométrie II 17 2.3 Exemple log(wage) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + β 4education + β 5tenure + β 6tenure2 + β 7businesses + β8businesses2 + u Marrmale : Homme marié Marrfem : Femme mariée Singfem : Femme célibataire Référence : Homme célibataire L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 18 L3 Econométrie/MASS Econométrie II 19 2.5 Variables dummy information ordonnées On dispose parfois d’information qualitatives ordonnées (niveaux de satisfaction, classements, niveaux de risque, etc.) Une augmentation d’une unité n’a pas de raison d’avoir un effet constant Variables dummies Exemple : Classement de clients par niveaux de risque pour une assurance : 1 : Risque très faible 2 : Risque faible 3 : Risque incertain 4 : Risque élevé 5 : Risque très élevé L3 Econométrie/MASS Econométrie II 20 2.6 Variables dummy information ordonnées (2) On peut parfois créer des variables dummy à partir de variables quantitatives pour capter les non-linéarités Exemples : Classes d’âge Classes de revenu Niveaux d’éducation construits à partir du nombre d’années Etc. Permet une spécification plus flexible au prix du nombre de coefficients à estimer L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 21 3. Les variables indicatrices comme variables d’interaction L3 Econométrie/MASS Econométrie II 22 3.1 Interractions entre variables dummy Important lorsque la valeur d’une variable qualitative influence l’effet d’une autre variable qualitative sur la variable expliquée Exemple : L’effet du sexe sur le revenu peut dépendre du statut marital de la personne Si l’on n’est intéressé que par les différences de revenu entre hommes et femmes ou entre mariés et célibataires, on inclue seulement ces deux variables : log (incearn ) = β 0 + β1 female + β 2 married + K L3 Econométrie/MASS Econométrie II 23 3.2 Interractions entre variables dummy (2) Si l’on veut également prendre en compte le fait que le sexe puisse influencer la manière dont le statut marital modifie le revenu espéré, il faut également inclure la variable croisée entre les deux variables dummy : log(incearn ) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married + K λ0 λ + λ 0 2 λ0 + λ1 λ0 + λ1 + λ2 + λ3 Hommes célibataires (référence) Hommes mariés Femmes célibataires Femmes mariées L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 24 3.3 Interactions entre variables dummy (3) log(incearn ) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + ... log (incearn) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married K Les deux spécifications sont équivalentes : β 0 = λ0 - Hommes célibataires β 0 + β1 = λ0 + λ 2 - Hommes mariés β 0 + β 2 = λ 0 + λ1 + λ 2 + λ 3 - Femmes mariées β 0 + β 3 = λ 0 + λ1 - Femmes célibataires La deuxième approche permet de tester directement le fait que l’impact du sexe dépend du statut marital : Η 0 : λ3 = 0 L3 Econométrie/MASS Econométrie II 25 3.4 Interactions entre variables Dummy et variable continue Permet de capter des différences de pentes entre groupes : log (wage ) = β 0 + β 1 female + β 2 educ + β 3 female ⋅ educ + K β2 : Rendement de l' éducation des hommes β 2 + β 3 : Rendement de l' éducation des femmes T-test sur β3 : test de l’égalité des rendements de l’éducation entre hommes et femmes L3 Econométrie/MASS Econométrie II 26 3.5 Exemple avec β3 > 0 y Femmes y = β0 + β2.educ Hommes y = β0 + β1 + (β2 + β3).educ L3 Econométrie/MASS Econométrie II x L3 Econométrie/MASS - Econométrie II 27 3.6 Test de structures différentes par groupes Pour tester si le modèle est différents entre deux groupes (e.g. hommes/femmes) peut être fait simplement en croisant chaque variable avec une variable dummy de groupe et de tester la significativité jointe des termes croisés NB : On peut se retrouver très rapidement avec un nombre considérables de variables L3 Econométrie/MASS Econométrie II 28 3.7 Exemple Modèle général log(incearn) = β 0 + β1education + β 2tenure + β 3businesses + u Test d’une différence de modèle entre hommes et femmes : log(incearn) = β 0 + β1 female + β 2education + β 3 female ⋅ education + β 4tenure + β 5 female ⋅ tenure + β 6businesses + β 7 female ⋅ businesses + u Η 0 : β 1 = 0, β 3 = 0, β 5 = 0, β 7 = 0 L3 Econométrie/MASS Econométrie II 29 L3 Econométrie/MASS Econométrie II 30 L3 Econométrie/MASS - Econométrie II 3.9 Test de Chow Lorsqu’il y a trop de variables explicatives, une alternative consiste à effectuer l’estimation séparément sur les deux groupes et de tester l’égalité des coefficients entre les deux régressions : y = β g , 0 + β g ,1 x1 + β g , 2 x 2 + L + β g , k x k + u L3 Econométrie/MASS Econométrie II 31 3.10 Test de Chow (2) La solution réside dans le fait que la somme des carrés des résidus du modèle non restreint (avec une variable dummy et un croisement de cette variable dummy avec toutes les autres variables du modèle) est égale à la somme des carrés des résidus des modèles estimés sur chacun des groupes (1 et 2 ici): SSRur = SSR1 + SSR 2 Il suffit alors d’estimer le modèle restreint (sur toutes les données, sans variable dummy) et d’en déduire la somme des carrés des résidus : SSRr L3 Econométrie/MASS Econométrie II 32 3.11 Test de Chow (3) Il suffit alors d’effectuer un test de Fisher (k+1 coefficients testés sur 2k+1 variables + 1 constante : F≡ (SSRr − SSRur ) (k + 1) SSRur (n − 2k − 2 ) Le test de Chow consistant à dériver la somme des carrés des résidus du modèle non restreint des estimations menées distinctement,t sur les deux groupes : F= [SSRP − (SSR1 + SSR2 )] ⋅ [n − 2(k + 1)] SSR1 + SSR2 k +1 L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 33 L3 Econométrie/MASS Econométrie II 34 4. Les variables indicatrices comme variable expliquée L3 Econométrie/MASS Econométrie II 35 4.1 Le Problème On observe un état par une variable indicatrices : Actif (Act=1) / Inactif (Act=0) Éducation supérieure (Sup=1) / Lycée ou moins (Sup=0) Produit de bonne qualité (Qual=1) / Mauvaise (Qual=0) Etc. On veut pouvoir modéliser l’état observé en fonction de variables explicatives : Act = f(éducation, âge, structure familiale…) Sup = f(éducation parents, âge, revenu parents…) Qual = f(taux de contrôle, pénalité, coût de vérification…) L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 36 4.2 Le modèle de probabilité linéaire On peut modéliser la probabilité pour la variable dummy y de prendre la valeur 1 en notant que : P(y = 1|x) = E(y|x) On peut alors écrire le modèle : P(y = 1|x) = b0 + b1x1 + … + bkxk On peut estimer le modèle par les MCO L’estimateur de bj donne une mesure de la variation de la probabilité de succès (y=1) lorsque xj est modifié L3 Econométrie/MASS Econométrie II 37 4.3 Le modèle de probabilité linéaire (2) Remarques : La valeur prédite de y par les résultats du modèle estimé permet d’obtenir une probabilité prédite de succès La valeur prédite peut être simulée en dehors du support de la probabilité [0,1] Les variations prédites de probabilités pour une variation d’une explicative xi peut être supérieure à 1 L3 Econométrie/MASS Econométrie II 38 4.3 Le modèle de probabilité linéaire (2) Remarques (suite) : Le modèle viole l’hypothèse d’homoscédasticité Il existe des méthodes plus adaptées (modèles Probit et Logit) par maximum de vraisemblance Cette approche peut malgré tout être utile en première phase d’analyse du problème L3 Econométrie/MASS Econométrie II L3 Econométrie/MASS - Econométrie II 39 5. Variables dummies et évaluations de programmes L3 Econométrie/MASS Econométrie II 40 5.1 Évaluation d’un programme Les variables dummy peuvent apparaître comme un outil particulièrement utile lors de l’évaluation de programmes Exemple : Revenu des individus ayant reçu une formation pilote / revenu des individus ne l’ayant pas reçue Malheureusement, le plus souvent la variable dummy provient d’un processus de sélection (par le programme ou par auto-sélection des individus) L3 Econométrie/MASS Econométrie II 41 5.1 Évaluation d’un programme (2) log(salaire) = β 0 + ∑ β i xi + β 3 formi + ui i Si toutes les dimensions de la sélection sont inclues dans les variables xi alors le coefficient β3 fournit une bonne évaluation de l’effet de la formation Malheureusement, le plus souvent certains déterminants de la sélection sont inobservables et corrélés à des déterminants inobservés du salaire Rejet de l’hypothèse d’exogénéité de la variable dummy Estimation biaisée fournie par les MCO L3 Econométrie/MASS Econométrie II Chapitre suivant L3 Econométrie/MASS - Econométrie II 42