x - Free

Transcription

x - Free
Introduction à l’Econométrie
MOSEF
Partie 5
Le modèle linéaire multiple
Qualité d’ajustement (R2 et R2 ajusté)
chaque observation est constituée de la part expliquée et inexpliquée.
yi = yˆ i + uˆi
Nous définissons :
2
(
)
−
Somme des Carrés Totale (SCT)
y
y
∑ i
2
ˆ
(
)
−
Somme des Carrés Expliquée (SCE)
y
y
∑ i
2
ˆ
u
∑ i
Somme des Carrés Résiduelle (SCR)
Ainsi :
SCT = SCE + SCR
.
Le modèle linéaire multiple
Qualité d’ajustement (R2)
Rappel :
R2=SCE/SCT=1-SCR/SCT
En ajoutant n on découvre que c’est un ratio de variances
R2=(SCE/n)/(SCT/n)=1-(SCR/n) /(SCT/n)
On peut aussi considérer R 2 comme
le carré de coefficient de correlation entre
les yi observées et estimées ( yˆ i )
(
( y − y )(yˆ − yˆ ))
∑
=
(∑ ( y − y ) )(∑ (yˆ − yˆ ) )
2
.
R
2
i
i
2
2
i
i
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté
R2=(SCE)/SCT=1-(SCR) /(SCT)
R2 compare la variance des erreurs à la variance de y.
Quand il est petit cela signifie que la variance d’erreur est relativement grande par
rapport à la variance de y
R2 peut être faible et les estimateurs peuvent être non biaisés.
Petit R2 veut dire que nous n’avons pas pris en compte certains facteurs dans notre
modèle, mais ces facteurs, qui se trouvent dans u, peuvent être non corrélés avec
d’autres variables indépendantes du modèle.
R2 augmente automatiquement quand on introduit plus de variables dans le
modèle.
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté (le nombre de variables dans le modèle)
2
Le R ajusté prend en compte le nombre de variables dans le modèle et il peut
diminuer.
σ y 2 = la variance de y dans la population générale
σ u 2 = la variance de u dans la population générale
ρ 2 = R 2 dans la population générale
ρ 2 = 1− σ u2 /σ y2,
calculé avec σ u (par SCR/n ) , il est biaisé.
2
il faut remplacer σ u par son estimateur non biaisé
2
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté
On remplace ainsi :
SCR/n par SCR/(n - k - 1) et
SCT/n par SCT/(n - 1) et on obtient :
R 2 ≡ 1−
= 1−
[SCR (n − k − 1)]
[SCT (n − 1)]
σˆ 2
[SCT (n − 1)]
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté
2
Le R (ajusté) n’est pas “meilleur” que R2 (non ajusté).
Le ratio des estimateurs non biaisés n’est par forcement un estimateur non biaisé
2
Le R ajusté donne une « pénalité » aux modèles avec beaucoup de variables
indépendantes par rapport au nombre d’observations.
2
Le R ajusté est une simple transformation de R2 :
R 2 =(1 – R2)(n – 1) / (n – k – 1)
Dans la plupart des cas on donne à la fois R2 et R 2
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté , exemple comparaison entre les modèles: y différents
On peut comparer 2 modèles avec le même y en comparant R2 ajusté ou non ajusté ,
mais non les modèles avec y différent par exemple y par rapport à ln(y)
Le plus souvent il vaut mieux utiliser d’autres critères d’ajustement (écart types des
paramètres estimés par exemple)
Ne pas inclure de variables qui n’ont pas d’interprétation claire (ceteris paribus)
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté , exemple de comparaison entre les modèles: y
identiques
. reg price
Source
lotsize
bdrms
SS
df
MS
Model
Residual
3 0 9 14 8 . 8 89
6 0 8 70 5 . 6 16
2
85
1 5 4 57 4 . 4 45
7 1 6 1. 2 4 2 55
Total
9 1 7 85 4 . 5 06
87
1 0 5 50 . 0 5 18
price
Coef.
lotsize
bdrms
_cons
. 0 02 8 5 8 3
5 7 .3 1 2 8 5
6 3 .2 6 2 2 4
Std. Err.
.0 0 0 9 00 1
10 . 8 8 45 2
39 . 6 1 95 7
t
3 .1 8
5 .2 7
1 .6 0
Number of obs
F( 2,
85)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0 . 00 2
0 . 00 0
0 . 11 4
=
=
=
=
=
=
88
21.58
0. 0 0 0 0
0. 3 3 6 8
0. 3 2 1 2
84 . 6 2 4
[95% Conf. Interval]
. 00 1 0 6 85
35 . 6 7 15
- 1 5. 5 1 2 08
. 00 4 6 4 8
7 8. 9 5 4 2
1 4 2. 0 3 6 6
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté , exemple comparaison entre les modèles: y identiques
. reg
price lotsize sqrft bdrms colonial
Source
SS
df
MS
Model
Residual
6 20 27 8. 63 5
2 97 57 5. 87 1
4
83
1 55 06 9. 65 9
3 58 5. 25 14 5
Total
9 17 85 4. 50 6
87
1 05 50 .0 51 8
price
Coef.
lotsize
sqrft
bdrms
colonial
_cons
.0 02 07 58
.1 24 23 75
11 .0 04 29
13 .7 15 54
- 24 .1 26 53
Std. Err.
. 00 06 42 7
. 01 33 38 3
9. 51 52 6
1 4. 63 72 7
2 9. 60 34 5
t
3. 23
9. 31
1. 16
0. 94
- 0. 81
Number of obs
F( 4,
83)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0 .0 02
0 .0 00
0 .2 51
0 .3 51
0 .4 17
=
=
=
=
=
=
88
43 .2 5
0 .0 00 0
0 .6 75 8
0 .6 60 2
5 9. 87 7
[95% Conf. Interval]
. 00 07 97 6
. 09 77 08 2
-7 .9 21 17 8
-1 5. 39 73 9
-8 3. 00 66 1
.0 03 35 4
. 15 07 66 7
2 9. 92 97 6
4 2. 82 84 7
3 4. 75 35 5
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté , exemple comparaison entre les modèles: y différents
Le modèle linéaire multiple
Quelques questions particulières,
R2 ajusté , exemple comparaison entre les modèles: y différents
SCT (SS) premier=391732982
SCT (SS) deuxième=66,72
Il y a donc beaucoup moins de variance à expliquer dans le modèle avec
logsalary qu’avec salary
Il faut d’autres critères pour choisir entre les modèles. On peut
considérer par exemple, que la meilleure estimation des paramètres est
à la faveur du modèle avec logsalary.
D’autres critères peuvent être aussi utilisés.
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: AKAIKE critérium (AIC)
Critérium d’Information AKAIKE (AIC),
AIC=n* ln (∑u2) + 2k
(n nombre d’observation, k nombre de variables)
Addition d’une variable indépendante supplémentaire se
justifie uniquement quand AIC diminue.
Remarque: la diminution de (∑u2) ne coduit pas toujours à la
diminution de AIC. S’il est faible l’augmentation due à 2k peut
dominée cet effet.
________________________________________
Un autre critère souvent utilisé (Critère Bayes- Schwarz, BIC)
BIC=n* ln (∑u2) + k*ln(n)
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: AKAIKE critérium (AIC)
. reg
price
Source
lotsize bdrms
SS
df
MS
Model
Residual
309148.889
608705.616
2
85
154574.445
7161.24255
Total
917854.506
87
10550.0518
price
Coef.
lotsize
bdrms
_cons
.0028583
57.31285
63.26224
. statfit
unrecognized command:
r(199);
Std. Err.
.0009001
10.88452
39.61957
t
3.18
5.27
1.60
Number of obs
F( 2,
85)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.002
0.000
0.114
=
=
=
=
=
=
88
21.58
0.0000
0.3368
0.3212
84.624
[95% Conf. Interval]
.0010685
35.6715
-15.51208
.004648
78.9542
142.0366
statfit
. fitstat
Measures of Fit for regress of price
Log-Lik Intercept Only:
D(85):
R2:
AIC:
BIC:
-531.975
1027.807
0.337
11.748
647.234
Log-Lik Full Model:
LR(2):
Prob > LR:
Adjusted R2:
AIC*n:
BIC':
-513.904
36.142
0.000
0.321
1033.807
-27.187
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: critérium AKAIKE (AIC)
. reg price lotsize bdrms sqrft colonial
Source
SS
df
MS
Model
Residual
620278.635
297575.871
4
83
155069.659
3585.25145
Total
917854.506
87
10550.0518
price
Coef.
lotsize
bdrms
sqrft
colonial
_cons
.0020758
11.00429
.1242375
13.71554
-24.12653
Std. Err.
.0006427
9.51526
.0133383
14.63727
29.60345
t
3.23
1.16
9.31
0.94
-0.81
Number of obs
F( 4,
83)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.002
0.251
0.000
0.351
0.417
=
=
=
=
=
=
88
43.25
0.0000
0.6758
0.6602
59.877
[95% Conf. Interval]
.0007976
-7.921178
.0977082
-15.39739
-83.00661
.003354
29.92976
.1507667
42.82847
34.75355
. fitstat
Measures of Fit for regress of price
Log-Lik Intercept Only:
D(83):
R2:
AIC:
BIC:
-531.975
964.829
0.676
11.078
593.210
Log-Lik Full Model:
LR(4):
Prob > LR:
Adjusted R2:
AIC*n:
BIC':
AIC est moins sensible que R2
-482.414
99.121
0.000
0.660
974.829
-81.211
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: critérium AKAIKE (AIC), regression sans constante
Le principal avantage de AIC est la comparaison des
différents modèles par exemple les modèles avec et sans la
constante, non linéaire par rapport aux paramètre (à voir
plus tard)
Exemple (modèle sans constante, nb peu intéressant en soi ):
R2 dans le modèle sans la constante n’est pas calculé de la
même façon.
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: critérium AKAIKE (AIC), regression sans constante
y=β1x1 +β2x2 + … + βkxk
Dans ce modèle certains propriétés de MCO ne sont pas satisfaites en particulier
résidus d’échantillon n’ont pas la moyenne zéro
SCR= ∑(y-b1x1 -b2x2 - … - bkxk)2
(b estimateurs de β)
SCR Peut être négatif
.
Le modèle linéaire multiple
Qualité d’ajustement (R2)
( yˆ − y ) SCE
SCR
∑
=
= 1−
=
SCT
∑ ( y − y ) SCT
y − ∑ uˆ
uˆ
∑
∑
=
= 1−
∑y
∑y
2
R
2
i
2
i
2
2
sc
R
2
i
i
i
2
i
NB : Rsc2 (peut être négatif)
.
2
2
i
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: AKAIKE critérium (AIC)
. reg price lotsize bdrms sqrft colonial
Source
SS
df
MS
Model
Residual
620278.635
297575.871
4
83
155069.659
3585.25145
Total
917854.506
87
10550.0518
price
Coef.
lotsize
bdrms
sqrft
colonial
_cons
.0020758
11.00429
.1242375
13.71554
-24.12653
Std. Err.
.0006427
9.51526
.0133383
14.63727
29.60345
t
3.23
1.16
9.31
0.94
-0.81
Number of obs
F( 4,
83)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.002
0.251
0.000
0.351
0.417
=
=
=
=
=
=
88
43.25
0.0000
0.6758
0.6602
59.877
[95% Conf. Interval]
.0007976
-7.921178
.0977082
-15.39739
-83.00661
.003354
29.92976
.1507667
42.82847
34.75355
. fitstat
Measures of Fit for regress of price
Log-Lik Intercept Only:
D(83):
R2:
AIC:
BIC:
-531.975
964.829
0.676
11.078
593.210
Log-Lik Full Model:
LR(4):
Prob > LR:
Adjusted R2:
AIC*n:
BIC':
-482.414
99.121
0.000
0.660
974.829
-81.211
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: AKAIKE critérium (AIC), regression sans constante
. reg
price lotsize
Source
bdrms
SS
sqrft
colonial, nocon
df
MS
Model
Residual
8200793.4
299957.228
4
84
2050198.35
3570.91938
Total
8500750.63
88
96599.4389
price
Coef.
lotsize
bdrms
sqrft
colonial
.0020617
6.738631
.1207838
12.70225
Std. Err.
.0006411
7.930509
.0126219
14.55519
t
3.22
0.85
9.57
0.87
Number of obs
F( 4,
84)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.002
0.398
0.000
0.385
=
=
=
=
=
=
88
574.14
0.0000
0.9647
0.9630
59.757
[95% Conf. Interval]
.0007868
-9.032056
.0956838
-16.24233
.0033367
22.50932
.1458837
41.64684
. fitstat
Measures of Fit for regress of price
Log-Lik Intercept Only:
D(84):
.
965.530
R2:
AIC:
BIC:
0.965
11.063
589.434
Log-Lik Full Model:
LR(4):
Prob > LR:
Adjusted R2:
AIC*n:
BIC':
-482.765
.
.
0.963
973.530
.
Le modèle linéaire multiple
Quelques questions particulières, comparaison entre les
modèles: spécification du modèle
L’amélioration de la précision d’ajustement mesurée par
différents indicateurs dépend essentiellement de la spécification du
modèle.
Ajouter une variable indépendante non corrélée avec les autres
diminue la variance d’erreur ( positif, à faire toujours si possible)
Ajouter une variable indépendante redondante (over controlling):
non seulement il y a un risque de multicolinéarité (violation de
l’independence entre les X), mais aussi un risque d’une mauvaise
interprétation des paramètres d’autres variables.
En spécifiant le modèle pensez toujours à ce que vous voudrez
savoir à travers ses paramètres estimés.
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
y= β0+β1x1+ …+ βkxk
(1)
Nous voulons utiliser les estimations du modèle (1) pour obtenir une prédiction
pour un y moyen parmi toutes les observations ayant les caractéristiques x(i-k)
y= β0+β1x1+ …+ βkxk
(1)
On a une observation donnée et on voudrait estimer pour elle sa valeur prédite par le
modèle:
(y | x1=c1, x2=c2,… xk= ck) =
θ0 = β0+β1c1+ …+ βkck
(2)
On l’obtient facilement en remplaçant les x par les c, dans le modèle estimé
L’estimateur de θ0 =
θˆ0 = βˆ0 + βˆ1c1 + βˆ2 c2 + βˆ1c1 + ... + βˆk ck
Problème :quel écart type de cette prédiction? On fait le même astuce que
pour(b1=b2)
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
On peut réécrire (2) comme
β0 = θ0 – β1c1 –β2c2 … – βkck
On le met dans (1) et on regroupe
y = θ0 + β 1 (x1 - c1) + … + β k (xk - ck) + u
(3)
En estimant (3) la constante va donner les valeurs de la
prédiction avec l’écart type.
NB: L’écart type sera le plus petit quand c=x(moy)
(la somme des carrés d’une variable est >= que la somme des carrés des écarts à sa
moyenne E(x2)>=E(xmoy)2 )
23
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
Gpa2
1. sat
2. tothrs
3. colgpa
4. athlete =1
5. verbmath
6. hsize
7. hsrank
8. hsperc
9. female =1
10. white =1
11. black =1
12. Hsizesq
test d’aptitude ( SAT)
nombre d’heures d’enseignement
GPA (note moyenne du collège)
si sportif
verbal/math SAT score
la taille de la dernière classe, 100s
classement dans la dernière classe
100*(hsrank/hsize)
si femme
si blanc
si noir
hsize^2 la taille de la classe au carré
24
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
Sat=1200, hsperc=30, hsize=5
Prédiction=2,7
25
modèle linéaire multiple
Quelques questions particulières, Prédiction
Prédiction (constante)=2,7 Ecart type=.019, intervalle de confiance (95%) 2,662,73
26
modèle linéaire multiple
Quelques questions particulières, Prédiction
L’écart type calculé précédemment n’est pas le même que le l’écart type
pour n’importe quelle valeur de y (de la population générale).
Il faut aussi tenir compte de la variance des erreurs u (non observables)
2 types d’erreurs dans la prédiction:
1. La différence entre les vrais paramètres β de la population générale et
leurs estimateurs
2.Nous ne connaissons pas des termes d’erreurs (u) au déla de l’échantillon
observé.
27
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
Erreur de prédiction pour un y particulier
qui n' appartient pas forcement à l' échantillon ( y 0 )
eˆ 0 = y 0 − yˆ 0 =
(
)
E (eˆ ) = 0
Var (eˆ ) = Var ( yˆ ) + Var (u )
= β 0 + β1 x10 + K + β k xk0 + u 0 − yˆ 0
0
0
0
0
2 sources d' erreur
1.échantillon versus pop.générale
2. variance du terme d' erreur de la population générale - inconnu
( )
= Var yˆ 0 + σ 2
en utilisant l' estiamteur non biaisé de ce dernier on obtient :
( ) [et (yˆ )] + σˆ
se eˆ 0 =
0
2
2
28
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
eˆ 0
~ t n − k −1 ,
0
et eˆ
( )
avec eˆ 0 = y 0 − yˆ 0
nous obtenons l' interval de prédiction de 95%
pour y 0
( )
yˆ 0 ± t.025 • et eˆ 0
29
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
Normalement l’estimateur de σ2 est plus large que la variance de la
prédiction ,
donc l’intervalle de prédiction sera plus large (exemple suite)
30
Le modèle linéaire multiple
Quelques questions particulières, Prédiction
Précédemment l’intervalle de confiance (95%) pour le résultat GPA
prédit moyen (2,70) pour tous les étudiants ayant des caractéristiques
particulières était (2,66-2,77).
Maintenant nous cherchons un intervalle de confiance (95%) pour
n’importe quel étudiant ayant les mêmes caractéristiques.
(mais avec les caractéristiques individuelles souvent inobservables,
mais qui influencent le score)
Nous avons tous les éléments: écart type =0,198, et sigma =0,56
(MSE dans le tableau) est 2,70+- 1,96*(0,56) donc de 1,60 à 3,80;
31
modèle linéaire multiple
Quelques questions particulières, Prédiction
1. Prédiction=2,7 Ecart type=.019, intervalle de confiance (95%) 2,66-2,73 (la moyenne du
grade prédit pour un ensemble d’étudiants ayant les mêmes caractéristiques son
l’intervalle de confiance)
2. l’intervalle de confiance (95%) 2,70+- 1,96*(0,56) donc de 1,60 à 3,80 =
2,70+- 1,96*(0,56) donc de 1,60 à 3,80 ( l’intervalle de confiance pour
n’importe quel individu )
32
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
y = β0 + β1x1 + β2x2 + . . . βkxk + u
Les variables muettes (variables 0,1) ce sont le variables qui ne prennent que les
valeurs 0 ou 1.
Elles servent à décrire les situations qualitatives:
Ex: homme (= 1 si homme, 0 sinon), nord (= 1 si dans le nord, 0 sinon), mais
aussi effet saisonnier (si le premier trimestre alors =1 sinon 0), d’une période
particulière (si l’année 1939 alors=1 sinon 0)… etc.
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
Comment introduit – on ces variables. - une particularité par rapport aux
variables quantitatives.
Exemple variable de trimestre: il y a 4 trimestres, mais on n’introduit dans
l’équation que 3 variables (semestre 1,2,3, ou 2,3,4 ou 1,3,4 ou 2, 1, 4.
Pourquoi?
Si on en introduit toutes on aura pour chaque observation un cas=1
const trim1t trim2 trim3
trim4 revenus
1
0
0
1
0
6546546
1
1
0
0
0
3265890
1
1
0
0
0
5478944
1
0
1
0
0
4355874
1
1
0
0
0
3558889
1
0
0
0
1
2588963
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
Sur m modalités de variable qualitative X, il faut prendre seulement m-1
modalités. La modalité abandonné intégre la constante et devient une modalité
de référence (par exemple 1 trimestre). Interprétation des paramètres de trimestre
(changement par rapport au trimestre 1).
const
trim2 trim3
trim4 revenus
1
0
1
0
6546546
1
0
0
0
3265890
1
0
0
0
5478944
1
1
0
0
4355874
1
0
0
0
3558889
1
0
0
1
2588963
Attention: La modalité de référence peut être complexe en présence de plusieurs
variables qualitatives.
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple
Un modèle avec une variable continue (x) et une variable muette d =(0,1)
y = β0 + δ0d + β1x + u
Cela peut être interprété comme un déplacement de la constante:
Si d = 0, alors y = β0 + β1x + u
Si d = 1, alors y = (β0 + δ0) + β1x + u
d = 0 est le cas du groupe de référence
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
Variable muette dépendante unique
salaire = β0 + δ0 femme + β1education+ u
femme= 1, sinon 0
homme= groupe de référence
(le choix du groupe de référence n’a pas de d’importance sur le plan
éconmétrique, mais il ne faut pas se tromper à l’interprétation
δ0=E(salaire|femme=1, éducation) - E(salaire|femme=0, éducation)
ou plus simplement:
δ0=E(salaire|femme, education) - E(salaire|homme, education)
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple de δ0 < 0, homme groupe de référence,,
y
Salaire(homme)= (β0 + β1education)
femme= 0
pente = β1
femme = 1
β0
}
Salaire(femme)= (β0 + δ0)+ β1(education)
β0 +δ0
x
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple numerique
salaire = β0 + δ0 femme + β1education+ u
H0: δ0 =0 (pas de différence homme- femme |X)
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemples numériques (analyse de possibles discriminations)
Ajouter plus de variables continues ne change pas d’interprétation
(sinon les estimations de paramètres)
H0: δ0 =0 (pas de différence homme- femme |X)
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple numérique
Quelques remarques:
La différence homme femme estimée est plus
grande dans le premier cas. Nous n’avons tenu compte que des différences
de l’éducation.
Si on tient compte aussi de l’expérience et de l’ancienneté la différence
homme femme baisse.
Si on tenait compte de toutes les variables (souvent inobservables) qui
influencent le salaire peut être la différence changerait de signe (???)
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemples numériques
Très souvent les variables muettes sont utilisées pour expliquer les conditions
de choix individuels.
Question: l’achat d’un ordinateur améliore-t-il les performances scolaire?
Note moyenne à l’université = f(ordinateur (0,1),note au lycée, test IQ)
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple numerique (effet de comportement individuels)
Note moyenne à l’université = f(ordinateur (0,1),note au lycée, test de
performance)
Un étudiant avec un ordinateur a une note env. 0.16 points plus élevée
que l’étudiant sans PC (en tenant compte de X)
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple numerique (effets de politique publique)
Nombre d’heures de formation =f(subvention (0.1), log(nombre d’employés),
log(chiffres d’affaires))
Subvention (grant) est très significative: les firmes qui ont eu la subvention
ont donné 34 heurs de formation de plus que les autres, chiffres d’affaires
n’a pas d’importance, nombre d’employés a un effet négatif significatif
(10% plus d’employés implique 0,67 heures de formation en moins.
Le modèle linéaire multiple
Introduction de l’information qualitative, les variables muettes
exemple numerique (interprétation quand var. dépendante est en log:%)
Log (prix de la maison)=f(log (surface terrain), log(surface de la maison),
nombre de chambres, caractère colonial(0,1))
Le caractère colonial(0,1 ) est peu significatif, s’il l’était, cela signifierait
qu’avoir le style colonial augmente le prix de la maison d’à peu près 5.4%
pour les niveau donné des autres X. (coef *100, semi élasticité).
La surface du terrain et de la maison ont une influence déterminante (élasticités)
Le modèle linéaire multiple
Introduction de l’information qualitative, plusieurs variables muettes, ,
variable dépendante en log, exemple numérique,
Plusieurs variables muettes peuvent être présentes dans la régression.
Log (salaire)=f(femme (0,1) , marié (0,1), non blanc (0, 1), éducation,
expérience…).
.
(« Ceteris paribus », si marié, on gagne plus, si une femme on gagne
moins (env 30%) , mais pas d’effet de la couleur de la peau.
Effet exact: 100*(exp(β)-1) =-34.9%
Le modèle linéaire multiple
Introduction de l’information qualitative, plusieurs niveaux d’une
variables muette, exemple numerique,
Chaque variable qualitative peut être transformée en un ensemble des
variables muettes.
Le groupe de référence est représenté par la constante . Si on a n
catégories on ne peut avoir que n – 1 variables muettes.
On peut aussi grouper certaines catégories.
Age (0-10, 11-40, 41-60, 60 et plus
Exemple: classement
(1)top 10
(2) 11 – 25,
(3)26-40,
( 4) 41-60
.
(5) 61-100et plus etc.
Le modèle linéaire multiple
Introduction de l’information qualitative, plusieurs niveaux d’une
variables muette, exemple numérique,
1. rank
2. salary
3. cost
4. LSAT
5. GPA
6. libvol
7. faculty
8. age
9. clsize
10. north
11. south
12. east
13. west
14. lsalary
15. studfac
16. top10
17. r11_25
18. r26_40
19. .r41_60
20. llibvol
21. lcost
law school ranking
median starting salary
law school cost
median LSAT score
median college GPA
no. volumes in lib., 1000s
no. of faculty
age of law sch., years
size of entering class
=1 if law sch in north
=1 if law sch in south
=1 if law sch in east
=1 if law sch in west
log(salary)
student-faculty ratio
=1 if ranked in top 10
=1 if ranked 11-25
=1 if ranked 26-40
=1 if ranked 41-60
log(libvol)
log(cost)
Le modèle linéaire multiple
Introduction de l’information qualitative, plusieurs niveaux d’une
variables muette, exemple numérique (écoles de droit)
Plusieurs niveaux de variables muettes peuvent être présents dans l’équation.
Log (salaire)=f(ranking des écoles (5 niveaux),… d’autres variables LSAT-Law school
admission test)
.
Réf = rang 100 et plus: Classements selon le rang très significatif .Autres non
significatives sauf LSAT (test d’aptitude).La diférence entre top et end = du simple au
double:100*exp(0.697)-1= 100,06 %
Le modèle linéaire multiple
Introduction de l’information qualitative, plusieurs niveaux d’une
variables muette, exemple numérique (écoles de droit)
.
Le modèle linéaire multiple
Variable dependante 0,1
Modèle linéaire de probabilité
P(y = 1|x) = E(y|x), quand y est une variable muette.
Le modèle peut être écrit:
P(y = 1|x) = β0 + β1x1 + … + βkxk
Interprétation de βj : le changement dans la probablité du succès quand xj changent,
toutes choses égales par ailleurs (ceteris paribus).
∆P(y = 1|x)= βj ∆ xj
.
La prédiction de y est la probabilité prédite de succès
( problème: cela parfois peut tomber en dehors de [0,1])
Le modèle linéaire multiple
Variable dépendante 0,1
Modèle linéaire de probabilité (MLP), problème de hétéroscedasticité
Problème économétrique :
MLP ne satisfait pas une des hypothèses GM- homoscedasticité.
Donc problème avec inférence.
Var(y|x)=p(x)(1-p(x)) avec p(x) = probabilité de succès
p(x) = β0 + β1x1 + … + βkxk
Variance dépend explicitement de X ne peut pas être constante, sauf si aucun des X n’
influence p.
Hétéroscedasticité ne cause pas de biais, mais le calcul des statistiques F et t est
.
impossible
et donc le calcul correct des erreurs est impossible.
Toutefois on peut corriger les erreurs des effets de heteroscedasticité (on verra cela plus
tard).
On peut donc utiliser le modèle MLP à cette précaution près.
Le modèle linéaire multiple
Variable dépendante 0,1
Modèle linéaire de probabilité, exemple, individus ayant subis déjà au
moins une condamnation, probabilité de récidive
Population: personnes ayant été arrêtés au moins 1 fois avant 1986
arr86b =1 si arrêté, 0 sinon
Arr86b=f(% des arrestations précédentes suivies des condamnations
pcnv, sentence moyenne en mois avgsen,total du temps passé en prison
depuis l’age de 18 ans en mois tottime, nb de mois en prison en 1986
nombre de trimestre d’emploi en 1986)
1.narr86
2. nfarr86
3. nparr86
4. pcnv
5. avgsen
6. tottime
7. ptime86
8. qemp86
9. inc86
10. durat
11. .black
12. hispan
13. born60
14. pcnvsq
15. pt86sq
16. inc86sq
# times arrested, 1986
# felony arrests, 1986
# property crme arr., 1986
proportion of prior arests leading to convictions
avg sentence length, mos.
time in prison since te age 18 (mos.)
months in prison during 1986
# quarters employed, 1986
legal income, 1986, $100s
recent unemp duration
=1 if black
=1 if Hispanic
=1 if born in 1960
pcnv^2
ptime86^2
inc86^2
Le modèle linéaire multiple
Variable dependante 0,1
Modèle linéaire de probabilité, exemple, probabilité de récidive
.
probabilité de récidive diminue avec l’emploi (qemp):4 trimestre de travail diminue
la proba de 4*0.043=0.172; La proba d’être arrêté par rapport à la moyenne
inconditionnelle (0.277) est: 0.277-0.172=0.105
Le modèle linéaire multiple
Variable dépendante 0,1
Modèle linéaire de probabilité, exemple, la prise en compte de la
heteroscedasticité.
.