Informations qualitatives

Transcription

Informations qualitatives
Chapitre 5
Les informations qualitatives
Licence Econométrie / MASS
Econométrie II, 2007-2008
Martin Fournier
[email protected]
L3 Econométrie/MASS Econométrie II
1
1. Les variables indicatrices
Variables « dummy »
L3 Econométrie/MASS Econométrie II
2
1.1 Variables “dummy”
Une variable indicatrice (dummy) est une
variable qui prend seulement deux valeurs
possibles : 1 ou 0
Exemples: sexe (1 pour les hommes, 0
pour les femmes), géographie (1 pour Paris,
0 sinon), race, etc.
On peut également parler de variables
binaires (binary variables)
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
3
1.2 Exemple
L3 Econométrie/MASS Econométrie II
4
1.3 Une « dummy » comme
variable explicative
Considérons un modèle simple avec une variable
continue (x) et une variable dummy (d)
y = b 0 + d 0d + b 1x + u
Le coefficient (MCO) de la variable dummy peut
être interprété comme une translation du modèle
(modification du terme constant)
Si d = 0, alors y = b0 + b1x + u
Si d = 1, alors y = (b0 + d0) + b1x + u
Le cas d = 0 est le groupe de référence
L3 Econométrie/MASS Econométrie II
5
1.3 Exemple (avec δ0 > 0)
y
y = (β 0 + δ0) + β 1x
d=1
δ0
{
Dans les 2 cas,
la pente = β1
d=0
} β0
y = β 0 + β 1x
x
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
6
1.5 Exemple
wage = β 0 + β 1 female + β 2 educ + u
Ce modèle permet de déterminer l’espérance
mathématique du différentiel de salaire entre hommes et
femmes en contrôlant par le niveau d’éducation atteint
β 1 = Ε(wage female = 1, educ ) − Ε(wage female = 0, educ )
= Ε(wage female, educ ) − Ε(wage male, educ )
Puisque
Ε(wage female, educ ) = β 0 + β 1 + β 2 educ
Ε(wage male, educ ) = β 0 + β 2 educ
L3 Econométrie/MASS Econométrie II
7
1.6 Exemple (2)
Hommes :
wage = β 0 + β 2 educ
Femmes :
wage = (β 0 + β 1 ) + β 2 educ
L3 Econométrie/MASS Econométrie II
8
1.6 Exemple (3)
wage = β 0 + β 1 female + β 2 educ + u
Le même modèle aurait pu être estimé en utilisant une
variable dummy « Homme » (i.e. en prenant les femmes
comme groupe de référence)
wage = γ 0 + γ 1 male + γ 2 educ + u
On obtiendrait alors :
β2 = γ 2
→ β 1 = −γ 1
β0 = γ 0 + γ1
γ 0 = β 0 + β1
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
9
1.6 Exemple (4)
Attention : On ne peut pas en revanche inclure
conjointement les variables dummy female et male dans
la régression.
On se retrouverait alors avec une collinéarité parfaite
entre les variables explicatives du fait que :
female + male = 1
Ce qui viole les hypothèses du théorème de GaussMarkov et invalide l’estimateur des MCO
L3 Econométrie/MASS Econométrie II
10
1.7 Exemple (5)
Application pratique :
Test et évaluation d’une différence de revenu entre hommes et
femmes :
incearn = β 0 + β1 female + β 2 education + β 3tenure + β 4businesses + u
incearn = β 0 + δ1male + β 2 education + β 3tenure + β 4businesses + u
Incearn : Revenu
Female : Variable dummy (Femme female=1)
Male : Variable dummy (Femme female=1)
Education : Nombre d’années d’éducation
Tenure : Nombre d’années d’expérience
L3 Econométrie/MASS Econométrie II
11
L3 Econométrie/MASS Econométrie II
12
L3 Econométrie/MASS - Econométrie II
1.9 Exemple (7)
Si la variable dépendante est sous forme logarithmique, le
coefficient de la variable dummy s’interprète donc comme la
différence espérée entre les deux groupes en pourcentage :
log(incearn) = β 0 + β1 female + β 2 educ + β 3tenure + β 4tenure2 +
β 5businesses + β 6businesses2 + u
E (incearn female, X ) − E (incearn male, X )
E (incearn male, X )
= exp(βˆ1 ) − 1
≈ βˆ1 (pour βˆ1 proche de 0)
L3 Econométrie/MASS Econométrie II
13
1.10 Exemple (8) : Forme
logaritmique
exp(βˆ1 ) − 1 = 123%
L3 Econométrie/MASS Econométrie II
14
2. Variables indicatrices et
information complexe
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
15
2.1 Variables dummy et catégories
multiples
On peut utiliser des variables dummy pour
contrôler une information discrète multiple :
Prenons l’exemple d’une variable d’éducation pouvant
prendre trois niveaux : Primaire, Secondaire et
Supérieure
On peut créer deux variables dummy permettant de
capter toute l’information :
SUP = 1 si éducation supérieure et 0 sinon
SEC = 1 si éducation secondaire (seulement) et 0 sinon
Catégorie de référence : éducation primaire seulement
L3 Econométrie/MASS Econométrie II
16
2.2 Variables dummy et
catégories multiples (2)
Toute variable catégorielle peut être transformée
en un jeu de variables dummy
Le groupe de référence est représenté par le terme
constant S’il y a n catégories, il doit y avoir
seulement n – 1 variables dummy
On peut rapidement se retrouver avec un nombre
important de variables redéfinition des groupes
(ex. : CSP, secteurs industriels)
L3 Econométrie/MASS Econométrie II
17
2.3 Exemple
log(wage) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + β 4education +
β 5tenure + β 6tenure2 + β 7businesses + β8businesses2 + u
Marrmale : Homme marié
Marrfem : Femme mariée
Singfem : Femme célibataire
Référence : Homme célibataire
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
18
L3 Econométrie/MASS Econométrie II
19
2.5 Variables dummy information
ordonnées
On dispose parfois d’information qualitatives ordonnées
(niveaux de satisfaction, classements, niveaux de risque,
etc.)
Une augmentation d’une unité n’a pas de raison d’avoir
un effet constant Variables dummies
Exemple : Classement de clients par niveaux de risque
pour une assurance :
1 : Risque très faible
2 : Risque faible
3 : Risque incertain
4 : Risque élevé
5 : Risque très élevé
L3 Econométrie/MASS Econométrie II
20
2.6 Variables dummy information
ordonnées (2)
On peut parfois créer des variables dummy à partir de
variables quantitatives pour capter les non-linéarités
Exemples :
Classes d’âge
Classes de revenu
Niveaux d’éducation construits à partir du nombre d’années
Etc.
Permet une spécification plus flexible au prix du nombre
de coefficients à estimer
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
21
3. Les variables indicatrices
comme variables d’interaction
L3 Econométrie/MASS Econométrie II
22
3.1 Interractions entre variables
dummy
Important lorsque la valeur d’une variable qualitative
influence l’effet d’une autre variable qualitative sur la
variable expliquée
Exemple : L’effet du sexe sur le revenu peut dépendre
du statut marital de la personne
Si l’on n’est intéressé que par les différences de
revenu entre hommes et femmes ou entre mariés et
célibataires, on inclue seulement ces deux variables :
log (incearn ) = β 0 + β1 female + β 2 married + K
L3 Econométrie/MASS Econométrie II
23
3.2 Interractions entre variables
dummy (2)
Si l’on veut également prendre en compte le fait que le
sexe puisse influencer la manière dont le statut marital
modifie le revenu espéré, il faut également inclure la
variable croisée entre les deux variables dummy :
log(incearn ) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married + K
λ0
λ + λ
 0
2

λ0 + λ1
λ0 + λ1 + λ2 + λ3
Hommes célibataires (référence)
Hommes mariés
Femmes célibataires
Femmes mariées
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
24
3.3 Interactions entre variables
dummy (3)
log(incearn ) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + ...
log (incearn) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married K
Les deux spécifications sont équivalentes :
β 0 = λ0
- Hommes célibataires
β 0 + β1 = λ0 + λ 2
- Hommes mariés
β 0 + β 2 = λ 0 + λ1 + λ 2 + λ 3
- Femmes mariées
β 0 + β 3 = λ 0 + λ1
- Femmes célibataires
La deuxième approche permet de tester directement le
fait que l’impact du sexe dépend du statut marital :
Η 0 : λ3 = 0
L3 Econométrie/MASS Econométrie II
25
3.4 Interactions entre variables
Dummy et variable continue
Permet de capter des différences de pentes
entre groupes :
log (wage ) = β 0 + β 1 female + β 2 educ + β 3 female ⋅ educ + K
β2
: Rendement de l' éducation des hommes
β 2 + β 3 : Rendement de l' éducation des femmes
T-test sur β3 : test de l’égalité des
rendements de l’éducation entre hommes et
femmes
L3 Econométrie/MASS Econométrie II
26
3.5 Exemple avec β3 > 0
y
Femmes
y = β0 + β2.educ
Hommes
y = β0 + β1 + (β2 + β3).educ
L3 Econométrie/MASS Econométrie II
x
L3 Econométrie/MASS - Econométrie II
27
3.6 Test de structures différentes
par groupes
Pour tester si le modèle est différents entre deux
groupes (e.g. hommes/femmes) peut être fait
simplement en croisant chaque variable avec une
variable dummy de groupe et de tester la
significativité jointe des termes croisés
NB : On peut se retrouver très rapidement avec
un nombre considérables de variables
L3 Econométrie/MASS Econométrie II
28
3.7 Exemple
Modèle général
log(incearn) = β 0 + β1education + β 2tenure + β 3businesses + u
Test d’une différence de modèle entre hommes et
femmes :
log(incearn) = β 0 + β1 female + β 2education + β 3 female ⋅ education
+ β 4tenure + β 5 female ⋅ tenure
+ β 6businesses + β 7 female ⋅ businesses + u
Η 0 : β 1 = 0, β 3 = 0, β 5 = 0, β 7 = 0
L3 Econométrie/MASS Econométrie II
29
L3 Econométrie/MASS Econométrie II
30
L3 Econométrie/MASS - Econométrie II
3.9 Test de Chow
Lorsqu’il y a trop de variables explicatives, une
alternative consiste à effectuer l’estimation séparément sur
les deux groupes et de tester l’égalité des coefficients entre
les deux régressions :
y = β g , 0 + β g ,1 x1 + β g , 2 x 2 + L + β g , k x k + u
L3 Econométrie/MASS Econométrie II
31
3.10 Test de Chow (2)
La solution réside dans le fait que la somme des carrés
des résidus du modèle non restreint (avec une variable
dummy et un croisement de cette variable dummy avec
toutes les autres variables du modèle) est égale à la somme
des carrés des résidus des modèles estimés sur chacun des
groupes (1 et 2 ici):
SSRur = SSR1 + SSR 2
Il suffit alors d’estimer le modèle restreint (sur toutes les
données, sans variable dummy) et d’en déduire la somme
des carrés des résidus : SSRr
L3 Econométrie/MASS Econométrie II
32
3.11 Test de Chow (3)
Il suffit alors d’effectuer un test de Fisher (k+1
coefficients testés sur 2k+1 variables + 1 constante :
F≡
(SSRr − SSRur ) (k + 1)
SSRur (n − 2k − 2 )
Le test de Chow consistant à dériver la somme des
carrés des résidus du modèle non restreint des
estimations menées distinctement,t sur les deux groupes :
F=
[SSRP − (SSR1 + SSR2 )] ⋅ [n − 2(k + 1)]
SSR1 + SSR2
k +1
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
33
L3 Econométrie/MASS Econométrie II
34
4. Les variables indicatrices
comme variable expliquée
L3 Econométrie/MASS Econométrie II
35
4.1 Le Problème
On observe un état par une variable indicatrices :
Actif (Act=1) / Inactif (Act=0)
Éducation supérieure (Sup=1) / Lycée ou moins (Sup=0)
Produit de bonne qualité (Qual=1) / Mauvaise (Qual=0)
Etc.
On veut pouvoir modéliser l’état observé en fonction
de variables explicatives :
Act = f(éducation, âge, structure familiale…)
Sup = f(éducation parents, âge, revenu parents…)
Qual = f(taux de contrôle, pénalité, coût de vérification…)
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
36
4.2 Le modèle de probabilité
linéaire
On peut modéliser la probabilité pour la variable
dummy y de prendre la valeur 1 en notant que :
P(y = 1|x) = E(y|x)
On peut alors écrire le modèle :
P(y = 1|x) = b0 + b1x1 + … + bkxk
On peut estimer le modèle par les MCO
L’estimateur de bj donne une mesure de la
variation de la probabilité de succès (y=1) lorsque
xj est modifié
L3 Econométrie/MASS Econométrie II
37
4.3 Le modèle de probabilité
linéaire (2)
Remarques :
La valeur prédite de y par les résultats du
modèle estimé permet d’obtenir une probabilité
prédite de succès
La valeur prédite peut être simulée en dehors du
support de la probabilité [0,1]
Les variations prédites de probabilités pour une
variation d’une explicative xi peut être
supérieure à 1
L3 Econométrie/MASS Econométrie II
38
4.3 Le modèle de probabilité
linéaire (2)
Remarques (suite) :
Le modèle viole l’hypothèse
d’homoscédasticité
Il existe des méthodes plus adaptées (modèles
Probit et Logit) par maximum de vraisemblance
Cette approche peut malgré tout être utile en
première phase d’analyse du problème
L3 Econométrie/MASS Econométrie II
L3 Econométrie/MASS - Econométrie II
39
5. Variables dummies et
évaluations de programmes
L3 Econométrie/MASS Econométrie II
40
5.1 Évaluation d’un programme
Les variables dummy peuvent apparaître comme
un outil particulièrement utile lors de l’évaluation
de programmes
Exemple : Revenu des individus ayant reçu une
formation pilote / revenu des individus ne l’ayant pas
reçue
Malheureusement, le plus souvent la variable
dummy provient d’un processus de sélection (par
le programme ou par auto-sélection des individus)
L3 Econométrie/MASS Econométrie II
41
5.1 Évaluation d’un programme (2)
log(salaire) = β 0 + ∑ β i xi + β 3 formi + ui
i
Si toutes les dimensions de la sélection sont
inclues dans les variables xi alors le coefficient β3
fournit une bonne évaluation de l’effet de la
formation
Malheureusement, le plus souvent certains
déterminants de la sélection sont inobservables et
corrélés à des déterminants inobservés du salaire
Rejet de l’hypothèse d’exogénéité de la variable
dummy
Estimation biaisée fournie par les MCO
L3 Econométrie/MASS Econométrie II
Chapitre suivant
L3 Econométrie/MASS - Econométrie II
42

Documents pareils