Informations qualitatives

Transcription

Chapitre 5
Les informations qualitatives
Licence Econométrie / MASS
Econométrie II, 2007-2008
Martin Fournier
[email protected]
L3 Econométrie/MASS Econométrie II
1
1. Les variables indicatrices
Variables « dummy »
2
1.1 Variables “dummy”
Une variable indicatrice (dummy) est une
variable qui prend seulement deux valeurs
possibles : 1 ou 0
Exemples: sexe (1 pour les hommes, 0
pour les femmes), géographie (1 pour Paris,
0 sinon), race, etc.
On peut également parler de variables
binaires (binary variables)
L3 Econométrie/MASS - Econométrie II
3
1.2 Exemple
4
1.3 Une « dummy » comme
variable explicative
Considérons un modèle simple avec une variable
continue (x) et une variable dummy (d)
y = b 0 + d 0d + b 1x + u
Le coefficient (MCO) de la variable dummy peut
être interprété comme une translation du modèle
(modification du terme constant)
Si d = 0, alors y = b0 + b1x + u
Si d = 1, alors y = (b0 + d0) + b1x + u
Le cas d = 0 est le groupe de référence
5
1.3 Exemple (avec δ0 > 0)
y
y = (β 0 + δ0) + β 1x
d=1
δ0
{
Dans les 2 cas,
la pente = β1
d=0
} β0
y = β 0 + β 1x
x
6
1.5 Exemple
wage = β 0 + β 1 female + β 2 educ + u
Ce modèle permet de déterminer l’espérance
mathématique du différentiel de salaire entre hommes et
femmes en contrôlant par le niveau d’éducation atteint
β 1 = Ε(wage female = 1, educ ) − Ε(wage female = 0, educ )
= Ε(wage female, educ ) − Ε(wage male, educ )
Puisque
Ε(wage female, educ ) = β 0 + β 1 + β 2 educ
Ε(wage male, educ ) = β 0 + β 2 educ
7
1.6 Exemple (2)
Hommes :
wage = β 0 + β 2 educ
Femmes :
wage = (β 0 + β 1 ) + β 2 educ
8
1.6 Exemple (3)
wage = β 0 + β 1 female + β 2 educ + u
Le même modèle aurait pu être estimé en utilisant une
variable dummy « Homme » (i.e. en prenant les femmes
comme groupe de référence)
wage = γ 0 + γ 1 male + γ 2 educ + u
On obtiendrait alors :
β2 = γ 2
→ β 1 = −γ 1
β0 = γ 0 + γ1
γ 0 = β 0 + β1
9
1.6 Exemple (4)
Attention : On ne peut pas en revanche inclure
conjointement les variables dummy female et male dans
la régression.
On se retrouverait alors avec une collinéarité parfaite
entre les variables explicatives du fait que :
female + male = 1
Ce qui viole les hypothèses du théorème de GaussMarkov et invalide l’estimateur des MCO
10
1.7 Exemple (5)
Application pratique :
Test et évaluation d’une différence de revenu entre hommes et
femmes :
incearn = β 0 + β1 female + β 2 education + β 3tenure + β 4businesses + u
incearn = β 0 + δ1male + β 2 education + β 3tenure + β 4businesses + u
Incearn : Revenu
Female : Variable dummy (Femme female=1)
Male : Variable dummy (Femme female=1)
Education : Nombre d’années d’éducation
Tenure : Nombre d’années d’expérience
11
12
1.9 Exemple (7)
Si la variable dépendante est sous forme logarithmique, le
coefficient de la variable dummy s’interprète donc comme la
différence espérée entre les deux groupes en pourcentage :
log(incearn) = β 0 + β1 female + β 2 educ + β 3tenure + β 4tenure2 +
β 5businesses + β 6businesses2 + u
E (incearn female, X ) − E (incearn male, X )
E (incearn male, X )
= exp(βˆ1 ) − 1
≈ βˆ1 (pour βˆ1 proche de 0)
13
1.10 Exemple (8) : Forme
logaritmique
exp(βˆ1 ) − 1 = 123%
14
2. Variables indicatrices et
information complexe
15
2.1 Variables dummy et catégories
multiples
On peut utiliser des variables dummy pour
contrôler une information discrète multiple :
Prenons l’exemple d’une variable d’éducation pouvant
prendre trois niveaux : Primaire, Secondaire et
Supérieure
On peut créer deux variables dummy permettant de
capter toute l’information :
SUP = 1 si éducation supérieure et 0 sinon
SEC = 1 si éducation secondaire (seulement) et 0 sinon
Catégorie de référence : éducation primaire seulement
16
2.2 Variables dummy et
catégories multiples (2)
Toute variable catégorielle peut être transformée
en un jeu de variables dummy
Le groupe de référence est représenté par le terme
constant S’il y a n catégories, il doit y avoir
seulement n – 1 variables dummy
On peut rapidement se retrouver avec un nombre
important de variables redéfinition des groupes
(ex. : CSP, secteurs industriels)
17
2.3 Exemple
log(wage) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + β 4education +
β 5tenure + β 6tenure2 + β 7businesses + β8businesses2 + u
Marrmale : Homme marié
Marrfem : Femme mariée
Singfem : Femme célibataire
Référence : Homme célibataire
18
19
2.5 Variables dummy information
ordonnées
On dispose parfois d’information qualitatives ordonnées
(niveaux de satisfaction, classements, niveaux de risque,
etc.)
Une augmentation d’une unité n’a pas de raison d’avoir
un effet constant Variables dummies
Exemple : Classement de clients par niveaux de risque
pour une assurance :
1 : Risque très faible
2 : Risque faible
3 : Risque incertain
4 : Risque élevé
5 : Risque très élevé
20
2.6 Variables dummy information
ordonnées (2)
On peut parfois créer des variables dummy à partir de
variables quantitatives pour capter les non-linéarités
Exemples :
Classes d’âge
Classes de revenu
Niveaux d’éducation construits à partir du nombre d’années
Etc.
Permet une spécification plus flexible au prix du nombre
de coefficients à estimer
21
comme variables d’interaction
22
3.1 Interractions entre variables
dummy
Important lorsque la valeur d’une variable qualitative
influence l’effet d’une autre variable qualitative sur la
variable expliquée
Exemple : L’effet du sexe sur le revenu peut dépendre
du statut marital de la personne
Si l’on n’est intéressé que par les différences de
revenu entre hommes et femmes ou entre mariés et
célibataires, on inclue seulement ces deux variables :
log (incearn ) = β 0 + β1 female + β 2 married + K
23
3.2 Interractions entre variables
dummy (2)
Si l’on veut également prendre en compte le fait que le
sexe puisse influencer la manière dont le statut marital
modifie le revenu espéré, il faut également inclure la
variable croisée entre les deux variables dummy :
log(incearn ) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married + K
λ0
λ + λ
 0
2

λ0 + λ1
λ0 + λ1 + λ2 + λ3
Hommes célibataires (référence)
Hommes mariés
Femmes célibataires
Femmes mariées
24
3.3 Interactions entre variables
dummy (3)
log(incearn ) = β 0 + β1marrmale + β 2 marrfem + β 3 singfem + ...
log (incearn) = λ0 + λ1 female + λ2 married + λ3 female ⋅ married K
Les deux spécifications sont équivalentes :
β 0 = λ0
- Hommes célibataires
β 0 + β1 = λ0 + λ 2
- Hommes mariés
β 0 + β 2 = λ 0 + λ1 + λ 2 + λ 3
- Femmes mariées
β 0 + β 3 = λ 0 + λ1
- Femmes célibataires
La deuxième approche permet de tester directement le
fait que l’impact du sexe dépend du statut marital :
Η 0 : λ3 = 0
25
3.4 Interactions entre variables
Dummy et variable continue
Permet de capter des différences de pentes
entre groupes :
log (wage ) = β 0 + β 1 female + β 2 educ + β 3 female ⋅ educ + K
β2
: Rendement de l' éducation des hommes
β 2 + β 3 : Rendement de l' éducation des femmes
T-test sur β3 : test de l’égalité des
rendements de l’éducation entre hommes et
femmes
26
3.5 Exemple avec β3 > 0
y
Femmes
y = β0 + β2.educ
Hommes
y = β0 + β1 + (β2 + β3).educ
x
27
3.6 Test de structures différentes
par groupes
Pour tester si le modèle est différents entre deux
groupes (e.g. hommes/femmes) peut être fait
simplement en croisant chaque variable avec une
variable dummy de groupe et de tester la
significativité jointe des termes croisés
NB : On peut se retrouver très rapidement avec
un nombre considérables de variables
28
3.7 Exemple
Modèle général
log(incearn) = β 0 + β1education + β 2tenure + β 3businesses + u
Test d’une différence de modèle entre hommes et
femmes :
log(incearn) = β 0 + β1 female + β 2education + β 3 female ⋅ education
+ β 4tenure + β 5 female ⋅ tenure
+ β 6businesses + β 7 female ⋅ businesses + u
Η 0 : β 1 = 0, β 3 = 0, β 5 = 0, β 7 = 0
29
30
3.9 Test de Chow
Lorsqu’il y a trop de variables explicatives, une
alternative consiste à effectuer l’estimation séparément sur
les deux groupes et de tester l’égalité des coefficients entre
les deux régressions :
y = β g , 0 + β g ,1 x1 + β g , 2 x 2 + L + β g , k x k + u
31
3.10 Test de Chow (2)
La solution réside dans le fait que la somme des carrés
des résidus du modèle non restreint (avec une variable
dummy et un croisement de cette variable dummy avec
toutes les autres variables du modèle) est égale à la somme
des carrés des résidus des modèles estimés sur chacun des
groupes (1 et 2 ici):
SSRur = SSR1 + SSR 2
Il suffit alors d’estimer le modèle restreint (sur toutes les
données, sans variable dummy) et d’en déduire la somme
des carrés des résidus : SSRr
32
3.11 Test de Chow (3)
Il suffit alors d’effectuer un test de Fisher (k+1
coefficients testés sur 2k+1 variables + 1 constante :
F≡
(SSRr − SSRur ) (k + 1)
SSRur (n − 2k − 2 )
Le test de Chow consistant à dériver la somme des
carrés des résidus du modèle non restreint des
estimations menées distinctement,t sur les deux groupes :
F=
[SSRP − (SSR1 + SSR2 )] ⋅ [n − 2(k + 1)]
SSR1 + SSR2
k +1
33
34
comme variable expliquée
35
4.1 Le Problème
On observe un état par une variable indicatrices :
Actif (Act=1) / Inactif (Act=0)
Éducation supérieure (Sup=1) / Lycée ou moins (Sup=0)
Produit de bonne qualité (Qual=1) / Mauvaise (Qual=0)
Etc.
On veut pouvoir modéliser l’état observé en fonction
de variables explicatives :
Act = f(éducation, âge, structure familiale…)
Sup = f(éducation parents, âge, revenu parents…)
Qual = f(taux de contrôle, pénalité, coût de vérification…)
36
4.2 Le modèle de probabilité
linéaire
On peut modéliser la probabilité pour la variable
dummy y de prendre la valeur 1 en notant que :
P(y = 1|x) = E(y|x)
On peut alors écrire le modèle :
P(y = 1|x) = b0 + b1x1 + … + bkxk
On peut estimer le modèle par les MCO
L’estimateur de bj donne une mesure de la
variation de la probabilité de succès (y=1) lorsque
xj est modifié
37
linéaire (2)
Remarques :
La valeur prédite de y par les résultats du
modèle estimé permet d’obtenir une probabilité
prédite de succès
La valeur prédite peut être simulée en dehors du
support de la probabilité [0,1]
Les variations prédites de probabilités pour une
variation d’une explicative xi peut être
supérieure à 1
38
linéaire (2)
Remarques (suite) :
Le modèle viole l’hypothèse
d’homoscédasticité
Il existe des méthodes plus adaptées (modèles
Probit et Logit) par maximum de vraisemblance
Cette approche peut malgré tout être utile en
première phase d’analyse du problème
39
5. Variables dummies et
évaluations de programmes
40
5.1 Évaluation d’un programme
Les variables dummy peuvent apparaître comme
un outil particulièrement utile lors de l’évaluation
de programmes
Exemple : Revenu des individus ayant reçu une
formation pilote / revenu des individus ne l’ayant pas
reçue
Malheureusement, le plus souvent la variable
dummy provient d’un processus de sélection (par
le programme ou par auto-sélection des individus)
41
5.1 Évaluation d’un programme (2)
log(salaire) = β 0 + ∑ β i xi + β 3 formi + ui
i
Si toutes les dimensions de la sélection sont
inclues dans les variables xi alors le coefficient β3
fournit une bonne évaluation de l’effet de la
formation
Malheureusement, le plus souvent certains
déterminants de la sélection sont inobservables et
corrélés à des déterminants inobservés du salaire
Rejet de l’hypothèse d’exogénéité de la variable
dummy
Estimation biaisée fournie par les MCO
Chapitre suivant
42

Informations qualitatives

Transcription

Documents pareils

USED05 - Séminaire transversal Statistique pour les

M2 MOSEF

CV GRATUIT Charge d etudes

master 2 : statistiques et econométrie

Présentation générale - Econometrie

Samson Anne-laure - Université Paris

Double diplômé : ingénieur mathématicien et économiste

Marketing, Vente

Universit Paris X-Nanterre