x - Free
Transcription
x - Free
Introduction à l’Econométrie MOSEF Partie 5 Le modèle linéaire multiple Qualité d’ajustement (R2 et R2 ajusté) chaque observation est constituée de la part expliquée et inexpliquée. yi = yˆ i + uˆi Nous définissons : 2 ( ) − Somme des Carrés Totale (SCT) y y ∑ i 2 ˆ ( ) − Somme des Carrés Expliquée (SCE) y y ∑ i 2 ˆ u ∑ i Somme des Carrés Résiduelle (SCR) Ainsi : SCT = SCE + SCR . Le modèle linéaire multiple Qualité d’ajustement (R2) Rappel : R2=SCE/SCT=1-SCR/SCT En ajoutant n on découvre que c’est un ratio de variances R2=(SCE/n)/(SCT/n)=1-(SCR/n) /(SCT/n) On peut aussi considérer R 2 comme le carré de coefficient de correlation entre les yi observées et estimées ( yˆ i ) ( ( y − y )(yˆ − yˆ )) ∑ = (∑ ( y − y ) )(∑ (yˆ − yˆ ) ) 2 . R 2 i i 2 2 i i Le modèle linéaire multiple Quelques questions particulières, R2 ajusté R2=(SCE)/SCT=1-(SCR) /(SCT) R2 compare la variance des erreurs à la variance de y. Quand il est petit cela signifie que la variance d’erreur est relativement grande par rapport à la variance de y R2 peut être faible et les estimateurs peuvent être non biaisés. Petit R2 veut dire que nous n’avons pas pris en compte certains facteurs dans notre modèle, mais ces facteurs, qui se trouvent dans u, peuvent être non corrélés avec d’autres variables indépendantes du modèle. R2 augmente automatiquement quand on introduit plus de variables dans le modèle. Le modèle linéaire multiple Quelques questions particulières, R2 ajusté (le nombre de variables dans le modèle) 2 Le R ajusté prend en compte le nombre de variables dans le modèle et il peut diminuer. σ y 2 = la variance de y dans la population générale σ u 2 = la variance de u dans la population générale ρ 2 = R 2 dans la population générale ρ 2 = 1− σ u2 /σ y2, calculé avec σ u (par SCR/n ) , il est biaisé. 2 il faut remplacer σ u par son estimateur non biaisé 2 Le modèle linéaire multiple Quelques questions particulières, R2 ajusté On remplace ainsi : SCR/n par SCR/(n - k - 1) et SCT/n par SCT/(n - 1) et on obtient : R 2 ≡ 1− = 1− [SCR (n − k − 1)] [SCT (n − 1)] σˆ 2 [SCT (n − 1)] Le modèle linéaire multiple Quelques questions particulières, R2 ajusté 2 Le R (ajusté) n’est pas “meilleur” que R2 (non ajusté). Le ratio des estimateurs non biaisés n’est par forcement un estimateur non biaisé 2 Le R ajusté donne une « pénalité » aux modèles avec beaucoup de variables indépendantes par rapport au nombre d’observations. 2 Le R ajusté est une simple transformation de R2 : R 2 =(1 – R2)(n – 1) / (n – k – 1) Dans la plupart des cas on donne à la fois R2 et R 2 Le modèle linéaire multiple Quelques questions particulières, R2 ajusté , exemple comparaison entre les modèles: y différents On peut comparer 2 modèles avec le même y en comparant R2 ajusté ou non ajusté , mais non les modèles avec y différent par exemple y par rapport à ln(y) Le plus souvent il vaut mieux utiliser d’autres critères d’ajustement (écart types des paramètres estimés par exemple) Ne pas inclure de variables qui n’ont pas d’interprétation claire (ceteris paribus) Le modèle linéaire multiple Quelques questions particulières, R2 ajusté , exemple de comparaison entre les modèles: y identiques . reg price Source lotsize bdrms SS df MS Model Residual 3 0 9 14 8 . 8 89 6 0 8 70 5 . 6 16 2 85 1 5 4 57 4 . 4 45 7 1 6 1. 2 4 2 55 Total 9 1 7 85 4 . 5 06 87 1 0 5 50 . 0 5 18 price Coef. lotsize bdrms _cons . 0 02 8 5 8 3 5 7 .3 1 2 8 5 6 3 .2 6 2 2 4 Std. Err. .0 0 0 9 00 1 10 . 8 8 45 2 39 . 6 1 95 7 t 3 .1 8 5 .2 7 1 .6 0 Number of obs F( 2, 85) Prob > F R-squared Adj R-squared Root MSE P>|t| 0 . 00 2 0 . 00 0 0 . 11 4 = = = = = = 88 21.58 0. 0 0 0 0 0. 3 3 6 8 0. 3 2 1 2 84 . 6 2 4 [95% Conf. Interval] . 00 1 0 6 85 35 . 6 7 15 - 1 5. 5 1 2 08 . 00 4 6 4 8 7 8. 9 5 4 2 1 4 2. 0 3 6 6 Le modèle linéaire multiple Quelques questions particulières, R2 ajusté , exemple comparaison entre les modèles: y identiques . reg price lotsize sqrft bdrms colonial Source SS df MS Model Residual 6 20 27 8. 63 5 2 97 57 5. 87 1 4 83 1 55 06 9. 65 9 3 58 5. 25 14 5 Total 9 17 85 4. 50 6 87 1 05 50 .0 51 8 price Coef. lotsize sqrft bdrms colonial _cons .0 02 07 58 .1 24 23 75 11 .0 04 29 13 .7 15 54 - 24 .1 26 53 Std. Err. . 00 06 42 7 . 01 33 38 3 9. 51 52 6 1 4. 63 72 7 2 9. 60 34 5 t 3. 23 9. 31 1. 16 0. 94 - 0. 81 Number of obs F( 4, 83) Prob > F R-squared Adj R-squared Root MSE P>|t| 0 .0 02 0 .0 00 0 .2 51 0 .3 51 0 .4 17 = = = = = = 88 43 .2 5 0 .0 00 0 0 .6 75 8 0 .6 60 2 5 9. 87 7 [95% Conf. Interval] . 00 07 97 6 . 09 77 08 2 -7 .9 21 17 8 -1 5. 39 73 9 -8 3. 00 66 1 .0 03 35 4 . 15 07 66 7 2 9. 92 97 6 4 2. 82 84 7 3 4. 75 35 5 Le modèle linéaire multiple Quelques questions particulières, R2 ajusté , exemple comparaison entre les modèles: y différents Le modèle linéaire multiple Quelques questions particulières, R2 ajusté , exemple comparaison entre les modèles: y différents SCT (SS) premier=391732982 SCT (SS) deuxième=66,72 Il y a donc beaucoup moins de variance à expliquer dans le modèle avec logsalary qu’avec salary Il faut d’autres critères pour choisir entre les modèles. On peut considérer par exemple, que la meilleure estimation des paramètres est à la faveur du modèle avec logsalary. D’autres critères peuvent être aussi utilisés. Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC) Critérium d’Information AKAIKE (AIC), AIC=n* ln (∑u2) + 2k (n nombre d’observation, k nombre de variables) Addition d’une variable indépendante supplémentaire se justifie uniquement quand AIC diminue. Remarque: la diminution de (∑u2) ne coduit pas toujours à la diminution de AIC. S’il est faible l’augmentation due à 2k peut dominée cet effet. ________________________________________ Un autre critère souvent utilisé (Critère Bayes- Schwarz, BIC) BIC=n* ln (∑u2) + k*ln(n) Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC) . reg price Source lotsize bdrms SS df MS Model Residual 309148.889 608705.616 2 85 154574.445 7161.24255 Total 917854.506 87 10550.0518 price Coef. lotsize bdrms _cons .0028583 57.31285 63.26224 . statfit unrecognized command: r(199); Std. Err. .0009001 10.88452 39.61957 t 3.18 5.27 1.60 Number of obs F( 2, 85) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.002 0.000 0.114 = = = = = = 88 21.58 0.0000 0.3368 0.3212 84.624 [95% Conf. Interval] .0010685 35.6715 -15.51208 .004648 78.9542 142.0366 statfit . fitstat Measures of Fit for regress of price Log-Lik Intercept Only: D(85): R2: AIC: BIC: -531.975 1027.807 0.337 11.748 647.234 Log-Lik Full Model: LR(2): Prob > LR: Adjusted R2: AIC*n: BIC': -513.904 36.142 0.000 0.321 1033.807 -27.187 Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC) . reg price lotsize bdrms sqrft colonial Source SS df MS Model Residual 620278.635 297575.871 4 83 155069.659 3585.25145 Total 917854.506 87 10550.0518 price Coef. lotsize bdrms sqrft colonial _cons .0020758 11.00429 .1242375 13.71554 -24.12653 Std. Err. .0006427 9.51526 .0133383 14.63727 29.60345 t 3.23 1.16 9.31 0.94 -0.81 Number of obs F( 4, 83) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.002 0.251 0.000 0.351 0.417 = = = = = = 88 43.25 0.0000 0.6758 0.6602 59.877 [95% Conf. Interval] .0007976 -7.921178 .0977082 -15.39739 -83.00661 .003354 29.92976 .1507667 42.82847 34.75355 . fitstat Measures of Fit for regress of price Log-Lik Intercept Only: D(83): R2: AIC: BIC: -531.975 964.829 0.676 11.078 593.210 Log-Lik Full Model: LR(4): Prob > LR: Adjusted R2: AIC*n: BIC': AIC est moins sensible que R2 -482.414 99.121 0.000 0.660 974.829 -81.211 Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC), regression sans constante Le principal avantage de AIC est la comparaison des différents modèles par exemple les modèles avec et sans la constante, non linéaire par rapport aux paramètre (à voir plus tard) Exemple (modèle sans constante, nb peu intéressant en soi ): R2 dans le modèle sans la constante n’est pas calculé de la même façon. Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC), regression sans constante y=β1x1 +β2x2 + … + βkxk Dans ce modèle certains propriétés de MCO ne sont pas satisfaites en particulier résidus d’échantillon n’ont pas la moyenne zéro SCR= ∑(y-b1x1 -b2x2 - … - bkxk)2 (b estimateurs de β) SCR Peut être négatif . Le modèle linéaire multiple Qualité d’ajustement (R2) ( yˆ − y ) SCE SCR ∑ = = 1− = SCT ∑ ( y − y ) SCT y − ∑ uˆ uˆ ∑ ∑ = = 1− ∑y ∑y 2 R 2 i 2 i 2 2 sc R 2 i i i 2 i NB : Rsc2 (peut être négatif) . 2 2 i Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC) . reg price lotsize bdrms sqrft colonial Source SS df MS Model Residual 620278.635 297575.871 4 83 155069.659 3585.25145 Total 917854.506 87 10550.0518 price Coef. lotsize bdrms sqrft colonial _cons .0020758 11.00429 .1242375 13.71554 -24.12653 Std. Err. .0006427 9.51526 .0133383 14.63727 29.60345 t 3.23 1.16 9.31 0.94 -0.81 Number of obs F( 4, 83) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.002 0.251 0.000 0.351 0.417 = = = = = = 88 43.25 0.0000 0.6758 0.6602 59.877 [95% Conf. Interval] .0007976 -7.921178 .0977082 -15.39739 -83.00661 .003354 29.92976 .1507667 42.82847 34.75355 . fitstat Measures of Fit for regress of price Log-Lik Intercept Only: D(83): R2: AIC: BIC: -531.975 964.829 0.676 11.078 593.210 Log-Lik Full Model: LR(4): Prob > LR: Adjusted R2: AIC*n: BIC': -482.414 99.121 0.000 0.660 974.829 -81.211 Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC), regression sans constante . reg price lotsize Source bdrms SS sqrft colonial, nocon df MS Model Residual 8200793.4 299957.228 4 84 2050198.35 3570.91938 Total 8500750.63 88 96599.4389 price Coef. lotsize bdrms sqrft colonial .0020617 6.738631 .1207838 12.70225 Std. Err. .0006411 7.930509 .0126219 14.55519 t 3.22 0.85 9.57 0.87 Number of obs F( 4, 84) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.002 0.398 0.000 0.385 = = = = = = 88 574.14 0.0000 0.9647 0.9630 59.757 [95% Conf. Interval] .0007868 -9.032056 .0956838 -16.24233 .0033367 22.50932 .1458837 41.64684 . fitstat Measures of Fit for regress of price Log-Lik Intercept Only: D(84): . 965.530 R2: AIC: BIC: 0.965 11.063 589.434 Log-Lik Full Model: LR(4): Prob > LR: Adjusted R2: AIC*n: BIC': -482.765 . . 0.963 973.530 . Le modèle linéaire multiple Quelques questions particulières, comparaison entre les modèles: spécification du modèle L’amélioration de la précision d’ajustement mesurée par différents indicateurs dépend essentiellement de la spécification du modèle. Ajouter une variable indépendante non corrélée avec les autres diminue la variance d’erreur ( positif, à faire toujours si possible) Ajouter une variable indépendante redondante (over controlling): non seulement il y a un risque de multicolinéarité (violation de l’independence entre les X), mais aussi un risque d’une mauvaise interprétation des paramètres d’autres variables. En spécifiant le modèle pensez toujours à ce que vous voudrez savoir à travers ses paramètres estimés. Le modèle linéaire multiple Quelques questions particulières, Prédiction y= β0+β1x1+ …+ βkxk (1) Nous voulons utiliser les estimations du modèle (1) pour obtenir une prédiction pour un y moyen parmi toutes les observations ayant les caractéristiques x(i-k) y= β0+β1x1+ …+ βkxk (1) On a une observation donnée et on voudrait estimer pour elle sa valeur prédite par le modèle: (y | x1=c1, x2=c2,… xk= ck) = θ0 = β0+β1c1+ …+ βkck (2) On l’obtient facilement en remplaçant les x par les c, dans le modèle estimé L’estimateur de θ0 = θˆ0 = βˆ0 + βˆ1c1 + βˆ2 c2 + βˆ1c1 + ... + βˆk ck Problème :quel écart type de cette prédiction? On fait le même astuce que pour(b1=b2) Le modèle linéaire multiple Quelques questions particulières, Prédiction On peut réécrire (2) comme β0 = θ0 – β1c1 –β2c2 … – βkck On le met dans (1) et on regroupe y = θ0 + β 1 (x1 - c1) + … + β k (xk - ck) + u (3) En estimant (3) la constante va donner les valeurs de la prédiction avec l’écart type. NB: L’écart type sera le plus petit quand c=x(moy) (la somme des carrés d’une variable est >= que la somme des carrés des écarts à sa moyenne E(x2)>=E(xmoy)2 ) 23 Le modèle linéaire multiple Quelques questions particulières, Prédiction Gpa2 1. sat 2. tothrs 3. colgpa 4. athlete =1 5. verbmath 6. hsize 7. hsrank 8. hsperc 9. female =1 10. white =1 11. black =1 12. Hsizesq test d’aptitude ( SAT) nombre d’heures d’enseignement GPA (note moyenne du collège) si sportif verbal/math SAT score la taille de la dernière classe, 100s classement dans la dernière classe 100*(hsrank/hsize) si femme si blanc si noir hsize^2 la taille de la classe au carré 24 Le modèle linéaire multiple Quelques questions particulières, Prédiction Sat=1200, hsperc=30, hsize=5 Prédiction=2,7 25 modèle linéaire multiple Quelques questions particulières, Prédiction Prédiction (constante)=2,7 Ecart type=.019, intervalle de confiance (95%) 2,662,73 26 modèle linéaire multiple Quelques questions particulières, Prédiction L’écart type calculé précédemment n’est pas le même que le l’écart type pour n’importe quelle valeur de y (de la population générale). Il faut aussi tenir compte de la variance des erreurs u (non observables) 2 types d’erreurs dans la prédiction: 1. La différence entre les vrais paramètres β de la population générale et leurs estimateurs 2.Nous ne connaissons pas des termes d’erreurs (u) au déla de l’échantillon observé. 27 Le modèle linéaire multiple Quelques questions particulières, Prédiction Erreur de prédiction pour un y particulier qui n' appartient pas forcement à l' échantillon ( y 0 ) eˆ 0 = y 0 − yˆ 0 = ( ) E (eˆ ) = 0 Var (eˆ ) = Var ( yˆ ) + Var (u ) = β 0 + β1 x10 + K + β k xk0 + u 0 − yˆ 0 0 0 0 0 2 sources d' erreur 1.échantillon versus pop.générale 2. variance du terme d' erreur de la population générale - inconnu ( ) = Var yˆ 0 + σ 2 en utilisant l' estiamteur non biaisé de ce dernier on obtient : ( ) [et (yˆ )] + σˆ se eˆ 0 = 0 2 2 28 Le modèle linéaire multiple Quelques questions particulières, Prédiction eˆ 0 ~ t n − k −1 , 0 et eˆ ( ) avec eˆ 0 = y 0 − yˆ 0 nous obtenons l' interval de prédiction de 95% pour y 0 ( ) yˆ 0 ± t.025 • et eˆ 0 29 Le modèle linéaire multiple Quelques questions particulières, Prédiction Normalement l’estimateur de σ2 est plus large que la variance de la prédiction , donc l’intervalle de prédiction sera plus large (exemple suite) 30 Le modèle linéaire multiple Quelques questions particulières, Prédiction Précédemment l’intervalle de confiance (95%) pour le résultat GPA prédit moyen (2,70) pour tous les étudiants ayant des caractéristiques particulières était (2,66-2,77). Maintenant nous cherchons un intervalle de confiance (95%) pour n’importe quel étudiant ayant les mêmes caractéristiques. (mais avec les caractéristiques individuelles souvent inobservables, mais qui influencent le score) Nous avons tous les éléments: écart type =0,198, et sigma =0,56 (MSE dans le tableau) est 2,70+- 1,96*(0,56) donc de 1,60 à 3,80; 31 modèle linéaire multiple Quelques questions particulières, Prédiction 1. Prédiction=2,7 Ecart type=.019, intervalle de confiance (95%) 2,66-2,73 (la moyenne du grade prédit pour un ensemble d’étudiants ayant les mêmes caractéristiques son l’intervalle de confiance) 2. l’intervalle de confiance (95%) 2,70+- 1,96*(0,56) donc de 1,60 à 3,80 = 2,70+- 1,96*(0,56) donc de 1,60 à 3,80 ( l’intervalle de confiance pour n’importe quel individu ) 32 Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes y = β0 + β1x1 + β2x2 + . . . βkxk + u Les variables muettes (variables 0,1) ce sont le variables qui ne prennent que les valeurs 0 ou 1. Elles servent à décrire les situations qualitatives: Ex: homme (= 1 si homme, 0 sinon), nord (= 1 si dans le nord, 0 sinon), mais aussi effet saisonnier (si le premier trimestre alors =1 sinon 0), d’une période particulière (si l’année 1939 alors=1 sinon 0)… etc. Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes Comment introduit – on ces variables. - une particularité par rapport aux variables quantitatives. Exemple variable de trimestre: il y a 4 trimestres, mais on n’introduit dans l’équation que 3 variables (semestre 1,2,3, ou 2,3,4 ou 1,3,4 ou 2, 1, 4. Pourquoi? Si on en introduit toutes on aura pour chaque observation un cas=1 const trim1t trim2 trim3 trim4 revenus 1 0 0 1 0 6546546 1 1 0 0 0 3265890 1 1 0 0 0 5478944 1 0 1 0 0 4355874 1 1 0 0 0 3558889 1 0 0 0 1 2588963 Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes Sur m modalités de variable qualitative X, il faut prendre seulement m-1 modalités. La modalité abandonné intégre la constante et devient une modalité de référence (par exemple 1 trimestre). Interprétation des paramètres de trimestre (changement par rapport au trimestre 1). const trim2 trim3 trim4 revenus 1 0 1 0 6546546 1 0 0 0 3265890 1 0 0 0 5478944 1 1 0 0 4355874 1 0 0 0 3558889 1 0 0 1 2588963 Attention: La modalité de référence peut être complexe en présence de plusieurs variables qualitatives. Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple Un modèle avec une variable continue (x) et une variable muette d =(0,1) y = β0 + δ0d + β1x + u Cela peut être interprété comme un déplacement de la constante: Si d = 0, alors y = β0 + β1x + u Si d = 1, alors y = (β0 + δ0) + β1x + u d = 0 est le cas du groupe de référence Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes Variable muette dépendante unique salaire = β0 + δ0 femme + β1education+ u femme= 1, sinon 0 homme= groupe de référence (le choix du groupe de référence n’a pas de d’importance sur le plan éconmétrique, mais il ne faut pas se tromper à l’interprétation δ0=E(salaire|femme=1, éducation) - E(salaire|femme=0, éducation) ou plus simplement: δ0=E(salaire|femme, education) - E(salaire|homme, education) Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple de δ0 < 0, homme groupe de référence,, y Salaire(homme)= (β0 + β1education) femme= 0 pente = β1 femme = 1 β0 } Salaire(femme)= (β0 + δ0)+ β1(education) β0 +δ0 x Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple numerique salaire = β0 + δ0 femme + β1education+ u H0: δ0 =0 (pas de différence homme- femme |X) Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemples numériques (analyse de possibles discriminations) Ajouter plus de variables continues ne change pas d’interprétation (sinon les estimations de paramètres) H0: δ0 =0 (pas de différence homme- femme |X) Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple numérique Quelques remarques: La différence homme femme estimée est plus grande dans le premier cas. Nous n’avons tenu compte que des différences de l’éducation. Si on tient compte aussi de l’expérience et de l’ancienneté la différence homme femme baisse. Si on tenait compte de toutes les variables (souvent inobservables) qui influencent le salaire peut être la différence changerait de signe (???) Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemples numériques Très souvent les variables muettes sont utilisées pour expliquer les conditions de choix individuels. Question: l’achat d’un ordinateur améliore-t-il les performances scolaire? Note moyenne à l’université = f(ordinateur (0,1),note au lycée, test IQ) Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple numerique (effet de comportement individuels) Note moyenne à l’université = f(ordinateur (0,1),note au lycée, test de performance) Un étudiant avec un ordinateur a une note env. 0.16 points plus élevée que l’étudiant sans PC (en tenant compte de X) Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple numerique (effets de politique publique) Nombre d’heures de formation =f(subvention (0.1), log(nombre d’employés), log(chiffres d’affaires)) Subvention (grant) est très significative: les firmes qui ont eu la subvention ont donné 34 heurs de formation de plus que les autres, chiffres d’affaires n’a pas d’importance, nombre d’employés a un effet négatif significatif (10% plus d’employés implique 0,67 heures de formation en moins. Le modèle linéaire multiple Introduction de l’information qualitative, les variables muettes exemple numerique (interprétation quand var. dépendante est en log:%) Log (prix de la maison)=f(log (surface terrain), log(surface de la maison), nombre de chambres, caractère colonial(0,1)) Le caractère colonial(0,1 ) est peu significatif, s’il l’était, cela signifierait qu’avoir le style colonial augmente le prix de la maison d’à peu près 5.4% pour les niveau donné des autres X. (coef *100, semi élasticité). La surface du terrain et de la maison ont une influence déterminante (élasticités) Le modèle linéaire multiple Introduction de l’information qualitative, plusieurs variables muettes, , variable dépendante en log, exemple numérique, Plusieurs variables muettes peuvent être présentes dans la régression. Log (salaire)=f(femme (0,1) , marié (0,1), non blanc (0, 1), éducation, expérience…). . (« Ceteris paribus », si marié, on gagne plus, si une femme on gagne moins (env 30%) , mais pas d’effet de la couleur de la peau. Effet exact: 100*(exp(β)-1) =-34.9% Le modèle linéaire multiple Introduction de l’information qualitative, plusieurs niveaux d’une variables muette, exemple numerique, Chaque variable qualitative peut être transformée en un ensemble des variables muettes. Le groupe de référence est représenté par la constante . Si on a n catégories on ne peut avoir que n – 1 variables muettes. On peut aussi grouper certaines catégories. Age (0-10, 11-40, 41-60, 60 et plus Exemple: classement (1)top 10 (2) 11 – 25, (3)26-40, ( 4) 41-60 . (5) 61-100et plus etc. Le modèle linéaire multiple Introduction de l’information qualitative, plusieurs niveaux d’une variables muette, exemple numérique, 1. rank 2. salary 3. cost 4. LSAT 5. GPA 6. libvol 7. faculty 8. age 9. clsize 10. north 11. south 12. east 13. west 14. lsalary 15. studfac 16. top10 17. r11_25 18. r26_40 19. .r41_60 20. llibvol 21. lcost law school ranking median starting salary law school cost median LSAT score median college GPA no. volumes in lib., 1000s no. of faculty age of law sch., years size of entering class =1 if law sch in north =1 if law sch in south =1 if law sch in east =1 if law sch in west log(salary) student-faculty ratio =1 if ranked in top 10 =1 if ranked 11-25 =1 if ranked 26-40 =1 if ranked 41-60 log(libvol) log(cost) Le modèle linéaire multiple Introduction de l’information qualitative, plusieurs niveaux d’une variables muette, exemple numérique (écoles de droit) Plusieurs niveaux de variables muettes peuvent être présents dans l’équation. Log (salaire)=f(ranking des écoles (5 niveaux),… d’autres variables LSAT-Law school admission test) . Réf = rang 100 et plus: Classements selon le rang très significatif .Autres non significatives sauf LSAT (test d’aptitude).La diférence entre top et end = du simple au double:100*exp(0.697)-1= 100,06 % Le modèle linéaire multiple Introduction de l’information qualitative, plusieurs niveaux d’une variables muette, exemple numérique (écoles de droit) . Le modèle linéaire multiple Variable dependante 0,1 Modèle linéaire de probabilité P(y = 1|x) = E(y|x), quand y est une variable muette. Le modèle peut être écrit: P(y = 1|x) = β0 + β1x1 + … + βkxk Interprétation de βj : le changement dans la probablité du succès quand xj changent, toutes choses égales par ailleurs (ceteris paribus). ∆P(y = 1|x)= βj ∆ xj . La prédiction de y est la probabilité prédite de succès ( problème: cela parfois peut tomber en dehors de [0,1]) Le modèle linéaire multiple Variable dépendante 0,1 Modèle linéaire de probabilité (MLP), problème de hétéroscedasticité Problème économétrique : MLP ne satisfait pas une des hypothèses GM- homoscedasticité. Donc problème avec inférence. Var(y|x)=p(x)(1-p(x)) avec p(x) = probabilité de succès p(x) = β0 + β1x1 + … + βkxk Variance dépend explicitement de X ne peut pas être constante, sauf si aucun des X n’ influence p. Hétéroscedasticité ne cause pas de biais, mais le calcul des statistiques F et t est . impossible et donc le calcul correct des erreurs est impossible. Toutefois on peut corriger les erreurs des effets de heteroscedasticité (on verra cela plus tard). On peut donc utiliser le modèle MLP à cette précaution près. Le modèle linéaire multiple Variable dépendante 0,1 Modèle linéaire de probabilité, exemple, individus ayant subis déjà au moins une condamnation, probabilité de récidive Population: personnes ayant été arrêtés au moins 1 fois avant 1986 arr86b =1 si arrêté, 0 sinon Arr86b=f(% des arrestations précédentes suivies des condamnations pcnv, sentence moyenne en mois avgsen,total du temps passé en prison depuis l’age de 18 ans en mois tottime, nb de mois en prison en 1986 nombre de trimestre d’emploi en 1986) 1.narr86 2. nfarr86 3. nparr86 4. pcnv 5. avgsen 6. tottime 7. ptime86 8. qemp86 9. inc86 10. durat 11. .black 12. hispan 13. born60 14. pcnvsq 15. pt86sq 16. inc86sq # times arrested, 1986 # felony arrests, 1986 # property crme arr., 1986 proportion of prior arests leading to convictions avg sentence length, mos. time in prison since te age 18 (mos.) months in prison during 1986 # quarters employed, 1986 legal income, 1986, $100s recent unemp duration =1 if black =1 if Hispanic =1 if born in 1960 pcnv^2 ptime86^2 inc86^2 Le modèle linéaire multiple Variable dependante 0,1 Modèle linéaire de probabilité, exemple, probabilité de récidive . probabilité de récidive diminue avec l’emploi (qemp):4 trimestre de travail diminue la proba de 4*0.043=0.172; La proba d’être arrêté par rapport à la moyenne inconditionnelle (0.277) est: 0.277-0.172=0.105 Le modèle linéaire multiple Variable dépendante 0,1 Modèle linéaire de probabilité, exemple, la prise en compte de la heteroscedasticité. .