Modèle de régression linéaire simple
Transcription
Modèle de régression linéaire simple
14/09/2013 1. Définition et modélisation économétrique a) Présentation du modèle • Introduction à l’économétrie II. Modèle de régression linéaire simple Claudio Araujo CERDI, Université d’Auvergne Clermont-Ferrand, France www.cerdi.org http://www.cerdi.org/claudio-araujo/perso/ Une régression économétrique permet de décrire et d’évaluer la relation entre une variable dépendante (y) et une ou plusieurs variables indépendantes (xk). – Dans le modèle de régression simple, k = 1. – Dans le modèle de régression multiple, k > 1. • Afin d’obtenir des information des variables pour l’ensemble d’une population, on fait de l’inférence statistique. – Inférence statistique : consiste à obtenir des informations sur la population à partir de l’échantillon. – Echantillon : sous-ensemble de la population étudiée. Licence 3 1. Définition et modélisation économétrique • L’estimation du modèle peut être ponctuelle (obtention d’une valeur spécifique du paramètre) ou par intervalle (la vraie valeur du paramètre est comprise dans un intervalle de confiance). • Le plus souvent, on s’intéresse aux propriétés d’une variable conditionnellement à d’autres variables. – Propriété conditionnelle : espérance d’une variable y conditionnelle à la variable x. E(y|x) = f(x) Dépendante, endogène, expliquée, régressant, de réponse Indépendante, exogène, explicative, régresseur, de contrôle Licence 3 Claudio Araujo, CERDI 1. Définition et modélisation économétrique • Dans une régression, la variable y et la (ou les) variable(s) x est (sont) traitée(s) de manière asymétrique. – La variable y est supposée être aléatoire ou stochastique. – La (ou les) variable(s) x est (sont) supposée(s), au sens strict, avoir des valeurs fixes d’un échantillon à l’autre. • En raison du caractère aléatoire de y, les valeurs observées dévient de leur espérance conditionnelle. Cette déviation est qualifiée d’écart aléatoire (ε). – Cas d’une régression linéaire simple : yi = Ε( yi xi , ε i ) = β1 + β 2 xi + ε i β1 : ordonnée à l’origine (constante - intercept) β2 : pente, mesure l’impact marginal, ceteris paribus, de x sur y. Licence 3 1 14/09/2013 1. Définition et modélisation économétrique 1. b) Rôle des erreurs stochastiques • • Calculer la valeur théorique de y, sachant que β1 = 1000 et β2 = 0,8 ; dans le cas d’une régression linéaire. Revenu Consommation disponible (x) observée (y) 9 000 8 170 Consommation théorique 8 200 Cobs – Cth On remarque que la relation spécifiée entre y et x ne peut pas être déterministe. : – – – 30 9 500 11 000 8 800 9 700 8 600 9 800 200 – 100 – 12 000 10 500 10 600 – 100 – 13 500 11 200 11 800 – 600 11 000 9 674 Le processus de génération des données (PGD) est inconnu. Il est souvent impossible d’observer la totalité des variables y et x de la population. On doit ajouter un terme aléatoire, ε (terme d’erreur ou perturbation stochastique) au processus. On peut obtenir une estimation de ε ; le ε estimé est appelé résidu. y i = β1 + β 2 x i + ε i Moyenne Licence 3 1. • – Du point de vue statistique : réalisation d’une variable aléatoire, ayant sa propre distribution de probabilité pour chaque i (ou t, dans le cas des TS). Du point de vue économique : • • • – Licence 3 Définition et modélisation économétrique Interprétation de l’écart aléatoire : – Erreur de spécification : la seule variable explicative n’est pas suffisante pour rendre compte de la totalité du phénomène expliqué. Erreur de mesure : les données ne représentent pas exactement le phénomène. Erreur de fluctuation d’échantillonnage : les observations comprises dans l’échantillon, et donc les estimations, peuvent être différentes. Conséquences des termes aléatoires Licence 3 Claudio Araujo, CERDI Définition et modélisation économétrique 1. Définition et modélisation économétrique c) Méthodes d’estimation • Méthode des moments – – – – – Principe : l’estimation des moments de la population doivent être estimé par les moments de l’échantillon (moyenne, variance, …). On estime plusieurs paramètres. Il doit y avoir autant de conditions sur les moments que de paramètres à estimer. Dans le cas où le nombre de conditions sur le moments est supérieur au nombre de paramètres à estimer, le modèle est sur-identifié : utilisation de la méthode des moments généralisés (GMM). Estimateurs robuste (problème des points aberrants). Aucune hypothèse particulière concernant la distribution des écarts aléatoires est nécessaire. Licence 3 2 14/09/2013 1. • Définition et modélisation économétrique Méthode du maximum de vraisemblance – – – Principe : des populations différentes engendrent des échantillons différents. Il est plus vraisemblable qu’un échantillon donné provienne d’une population particulière. La méthode consiste à estimer les paramètres inconnus de manière à maximiser la probabilité d’observer les yi sachant la valeur de xi. On suppose que les yi (εi) sont distribués normalement et indépendamment (nid) de moyenne β1 + β2 xi et de variance σ². 1. • Méthode des moindres carrés – Principe : estimation des moments de la distribution de la population autours de zéro. – Soit la régression suivante : yi = β1 + β 2 xi + ε i – Licence 3 Exercices pratiques • Calculer la valeur théorique de demande d’essence sachant que : β1 = – 0.117 et β2 = 0,168 ; dans le cas d’une régression linéaire. Prix de l’essence 0.054 Demande d’essence 0.011 0.061 0.073 0.049 0.077 0.166 0.115 0.469 0.054 Demande Dobs – Dth théorique Travailler avec la source des données qui est sur la plateforme pédagogique. Données en log ; période de 1960 à 1995. D = f (P) Définition et modélisation économétrique On cherche les valeurs des coefficients β1 et β2 qui minimisent la somme des carrés des écarts aléatoires. Licence 3 2. L’estimation des paramètres par les MCO a) La méthode des moindres carrés ordinaires (MCO / OLS) • • Cette méthode consiste à ajuster le nuage de points à l’aide d’une droite en minimisant la distance au carré entre chaque valeur observée et la droite d’estimation. Cette distance mesure le résidu (ê) pour chaque observation : eˆi = ε i = yi − yˆ i Moyenne Licence 3 Claudio Araujo, CERDI Licence 3 3 14/09/2013 2. L’estimation des paramètres par les MCO 2. y . y4 ^ ê4 { y3 y2 Les estimateurs des coefficients sont obtenus en minimisant la somme du carré des résidus (SCR) ^ E(y) = β1 + β2x N N i =1 i =1 . Conditions de 1er ordre ∂Ο =0 ∂β 1 .} ê1 i x2 x4 x3 2. i L’estimation des paramètres par les MCO On obtient les estimateurs β1 et β2 à partir des équations normales : ∑ ( x − x )( y − y ) ∑ x y − nx y n i i ∑ (x − x ) i =1 2 = i i =1 n i i 2 i ∑x i =1 − nx 2 • ∂Ο 2 >0 ∂ 2 β1 – – βˆ1 = y − βˆ2 x • (R – Rm)² (C – Cm) * (R – Rm) – 1 504 – 874 – 2 000 – 1 500 4 000 000 2 250 000 3 008 000 1 311 000 26 826 1 000 1 000 000 826 000 – 2 500 SOMME 6 250 000 13 500 000 3 815 000 8 960 000 – • • Claudio Araujo, CERDI ∂Ο 2 >0 ∂2β2 Équations normales L’estimation des paramètres par les MCO β^1 = 2 373,26 (ordonnée à l’origine) ; β^2 = 0,66 (pente de la droite) Le coefficient β2 mesure l’impact d’une variation du revenu sur la consommation (β2 = ∆y / ∆x). Interprétation (en supposant que x et y soient mesurés en €) : Si x varie d’1 point de %, y varie de 0,66 €. Ne pas confondre régression et corrélation. R - Rm (x) Licence 3 i ; En utilisant les données de consommation et revenu, on obtient les valeurs suivantes pour les estimateurs : C – Cm (y) 1 526 β1 , β 2 i Licence 3 2. n n i = Min Ο − 2∑ yi − nβˆ1 − βˆ2 ∑ xi = 0 x Licence 3 i =1 2 Conditions de 2nd ordre ∂Ο =0 ∂β 2 ; ) − 2∑ xi yi − βˆ1 ∑ xi − βˆ2 ∑ xi2 = 0 x1 βˆ2 = ( Min ∑ ε i2 = Min ∑ yi − βˆ1 − βˆ2 xi } ê3 ê2 { . y1 • L’estimation des paramètres par les MCO b) Calcul des estimateurs Dans une régression, les variables sont traitées de manière asymétrique (y : aléatoire ; x : fixe). Quant à la corrélation, les variables sont traitées de manière symétrique (x et y : aléatoires). Licence 3 4 14/09/2013 2. L’estimation des paramètres par les MCO c) La corrélation • • Lorsque deux phénomènes ont une évolution commune, ils sont « corrélés ». La corrélation simple (multiple) mesure le degré de liaison existant entre ces deux (plusieurs) phénomènes. La corrélation entre les variables peut être positive, négative ou non corrélées. Linéaire ou non linéaire. Le coefficient de corrélation linéaire simple permet de calculer l’intensité de la liaison. Il varie entre – 1 et 1. • • • N ρ x, y = cov( x, y ) σ xσ y 2. = • Ce coefficient est calculé à partir d’un échantillon d’observations et non pas sur la population. On peut tester la significativité de ce coefficient à l’aide de la théorie des tests statistiques (t de Student empirique). – – – ∑(x − x )( y − y ) i =1 i N Soit H0 : ρx,y = 0 ; HA : ρx,y ≠ 0 On rejette H0 (ρ est significativement différent de 0) au seuil α (α = 0,05) et à N – 2 ddl, si : * t > t nα− 22 Soit : t* = i N L’estimation des paramètres par les MCO i =1 2 i =1 (1− ρ ) 2 x, y n−2 ∑(x − x ) ∑( y − y ) i ρ x, y 2 i Licence 3 Licence 3 2. • L’estimation des paramètres par les MCO Exercices pratiques Limites de la corrélation – – La relation testée est linéaire. • Par exemple : l’équation d’un cercle donné par : (x – x)² + (y – y)² = R² • Les variables x et y sont liées entre elles, mais leur covariance est nulle, ρ est donc = 0. Une corrélation différente de 0, n’implique pas une liaison d’ordre économique (ou physique ou autre) – corrélation fortuite. • Par exemple : nombre de taches solaires et taux de criminalité. Licence 3 Claudio Araujo, CERDI • Calculer le coefficient de corrélation. – Liaison entre rendement de maïs (x) d’une parcelle de terre et la quantité d’engrais (y) – Tracer le nuage de points, commenter, calculer le coefficient de corrélation et tester sa signification (α = 5%) Rendement Engrais Rendement Engrais Rendement Engrais 16 18 23 24 20 24 28 22 28 29 26 31 32 28 32 36 32 34 41 41 Licence 3 5 14/09/2013 3. 3. Identification et propriétés des estimateurs a) Notion d’un estimateur • Soit les variables aléatoires x et y, leurs distributions sont caractérisées par β. La population originale est composée de toutes les valeurs de x et y. Le paramètre β est une des caractéristiques paramétrique de cette population. x et/ou y peuvent être continu ou discret. L’estimation de β dépend de l’information de l’échantillon, on peut la décrire par une formule d’estimation : l’estimateur • • • • ( ˆ =β ˆ y , y ,L , y ; x , x , L , x β 1 2 N 1 2 N • ) Sans biais si • – – – – Modèle linéaire par rapport à ses paramètres. Fonction couramment utilisé pour linéariser un modèle par rapport à ses paramètres : logarithme népérien (ou naturel). Propriété importante : approximation d’une variation en proportion. Différents types de fonctions et interprétation de β2 Niveau – niveau : ∆y = β 2 ∆x Log – niveau : % ∆y ≅ (100 β 2) ∆x Niveau – log : ∆y = (β 2 / 100) % ∆x Log – log : % ∆y ≅ (β 2) % ∆x Licence 3 Claudio Araujo, CERDI Asymptotiquement sans biais si () limn →∞ E βˆ = β – Fonction linéaire des observation de l’échantillon – Non-biaisé – Variance minimale 3. • Convergent si p lim βˆ = β (consistant en « franglais ») Meilleur Estimateur linéaire sans biais (BLUE) si les 3 conditions sont satisfaites: Efficience asymptotique, si les 3 conditions sont satisfaites – Distribution asymptotique avec moyenne et variance finies – Convergent – Variance asymptotique minimale Licence 3 Identification et propriété des estimateurs L’estimateur est sans biais – L’estimateur existe () E β̂ = β – Non-biaisé – Variance minimale Identification et propriété des estimateurs b) Propriétés sur petits échantillons Propriétés sur échantillon de taille infinie (propriétés asymptotiques) Efficace si les 2 conditions suivantes sont satisfaites: L’estimateur a des propriétés que l’on distingue selon la taille de l’échantillon. Licence 3 3. Identification et propriété des estimateurs Propriétés sur petit échantillon L’erreur (conditionnelle) est, en moyenne, nulle. • • – La variable x doit être strictement exogène par rapport au terme d’erreur : • • • – E(ε | x) = 0 → E(ε) = 0 E(ε | x) = 0 = E(ε) → Cov(ε , x) = 0 → E(ε . x) = 0 x et ε ne sont pas corrélés au temps : E(εt | xt) = 0 ⇒ Cov(εt , xt) = 0 x n’a aucun effet décalé sur le terme d’erreur : E(εt | xt-s) = 0 ⇒ Cov(εt , xt-s) = 0, ∀ s > 0 Le terme d’erreur n’a aucun effet décalé sur x : E(εt | xt+s) = 0 ⇒ Cov(εt , xt+s) = 0 ⇒ Cov(εt-s , xt) = 0, ∀ s > 0 Sous ces hypothèses la valeur moyenne des estimations est égale à la valeur « vraie » du paramètre : E (β̂ ) = β Licence 3 6 14/09/2013 3. • Identification et propriété des estimateurs () f β̂ Illustrations graphiques La variance de l’erreur est constante (ou homoscédastique) • • – Elle ne dépend pas de x et ne varie pas au cours du temps V(ε | x) = V(ε) = E(ε ²) = σ² Non-biaisé Il n’y a pas de corrélation sérielle dans les erreurs (indépendance sérielle des écarts) • • • 3. L’estimateur est BLUE (best linear unbiased estimator) – • Identification et propriété des estimateurs ( β = Eβˆ Efficience Corr(εt , εs | x) = 0 Il n’y a pas de corrélation entre les erreur à l’instant t et une erreur suivante (s > t) ou précédente (s < t). () β̂ β Licence 3 3. Licence 3 Identification et propriété des estimateurs 3. Identification et propriété des estimateurs d) Caractéristiques de base de la distribution de βˆ () E β̂ Moyenne Variance () () [ ( )] = E(βˆ )− [E(βˆ )] Var βˆ = E βˆ − E βˆ f β̂ Biais Erreur Quadratique Moyen (MSE) β β̂ 2 2 2 βˆ − β Erreur d’échantillonnage Licence 3 Claudio Araujo, CERDI β̂ f β̂ Sous l’hypothèses de Gauss – Markov (existence, sans biais et efficience), l’estimateur MCO est BLUE Si une hypothèse est violée, l’estimateur n’est pas BLUE. c) Propriétés sur grandes échantillons de taille infinie (propriété asymptotiques) • L’estimateur est « consistant » (convergent) – Un estimateur sans biais est nécessairement convergent, mais l’inverse n’est pas vrai. – Pour les données temporelles, il suffit que E(εt | xt) = 0 pour qu’un estimateur soit convergent. – Un estimateur efficient ne garantit pas, non plus, la convergence d’un estimateur. ) () E βˆ − β ( E βˆ − β ) 2 Il peut avoir conflit entre absence de biais et variance minimale. La minimisation de l’EQM (MSE) est un moyen d’arbitrer Licence 3 7 14/09/2013 3. Identification et propriété des estimateurs 4. Biaisé Variance minimale Erreur Quadratique Moyen (MSE) () f β̂ Non-biaisé ( MSE = E βˆ − β ) Dispersion élevée 2 β β̂ [ () () ] {[ ( )] [ ( ) ]} = E[βˆ − E(βˆ )] + E[E(βˆ ) − β ] + 2E[βˆ − E(βˆ )][E(βˆ ) − β ] 2 MSE = E βˆ − E βˆ + E βˆ − β = E βˆ − E βˆ + E βˆ − β 2 Inférence statistique a) Normalité des erreurs • Les caractéristiques de l’échantillon reflètent, avec une certaine marge d’erreur, celles de la population. • Pour pouvoir induire les paramètres inconnus (β) d’une population sur un échantillon issu de cette population, on pose l’hypothèse de normalités des erreurs 2 – Soit εi → N(0,σε²) – Sous les hypothèses du modèle de régression linéaire classique : βˆi − β i βˆ − β i ≈ N (0,1) → i ≈ t n − 2 , i = (1,2 ) σˆ βˆ V (β i ) 2 i Variance (Biais)² 4. Licence 3 =0 Inférence statistique b) Test sur un seul coefficient : t ratio • Soit l’équation suivante : yi = β1 + β2 xi + εi • Etapes pour effectuer un test sur un seul coefficient: 1. Estimation de β1 , β2 , σβ1² , σβ2² par MCO βˆ − βˆ2* 2. Calcul de la statistique t de Student empirique t * = 2 σˆ βˆ2 β2* : valeur de β2 sous H0 * Lorsque β2 = 0 et que le test est bilatéral, t* est appelé le RATIO t de Student (t-ratio test). 3. Préciser les H0 et HA et choisir un seuil de significativité (taille du test, α). Seuil fréquent : 10%, 5% ou 1%. 4. Sous les hypothèses du modèle de régression classique, la statistique du t de Student empirique suit une loi de Student à N – K degrés de liberté (cte comprise ds k). Licence 3 Claudio Araujo, CERDI Licence 3 4. 5. Inférence statistique Utiliser la table statistique (Student) pour obtenir la valeur critique (quantile de la distribution, au-delà duquel l’hypothèse nulle est rejetée). Pour un test bilatéral, avec k = 2, α = 10% et N = 30 ; ddl = N – K = 28 H0 : β 2 = β 2* Pour un test unilatéral : Région de non rejet (H0) HA : β 2 ≠ β 2* H0 : β 2 = β 2* HA soit : β 2 > β 2*, si partie droite f(t) HA soit : β 2 < β 2*, si partie gauche H0 (1−α) ½ α (%) 90 % HA - tα/2 β2* ½ α (%) + tα/2 HA t Licence 3 8 14/09/2013 4. 6. Utiliser la règle de décision suivante : – 4. Inférence statistique 1. Estimation de β1 , β2 , σβ1² , σβ2² par MCO 2. Choix du seuil de significativité, α , pour obtenir un intervalle de confiance à (1 – α) %. Par exemple si α = 0,05, intervalle de confiance = 95%. 3. Utiliser la table statistique de Student pour obtenir la valeur critique, ddl = N – K. 4. L’intervalle de confiance est donnée par : Pour un test bilatéral, H0 est rejetée si βˆ2 − β 2* Sˆ β 2 > t Nα −2K – Pour un test unilatéral dans la partie droite , H0 est rejetée si βˆ2 − β 2* α > tN −K Sˆ – Pour un test unilatéral dans la partie gauche, H0 est rejetée si {(βˆ β2 βˆ2 − β 2* Sˆ β 2 2 ) d) • • • • • • • Licence 3 Claudio Araujo, CERDI } Licence 3 Inférence statistique Les tests d’hypothèses permettent d’évaluer la robustesse d’un modèle estimé. Les tests d’hypothèses économiques sont conditionnés au non rejet de la spécification économétrique. Le principe consiste à comparer des paramètres. Confrontation d’une hypothèse nulle (ou restreinte) – H0 à une hypothèse alternative (HA). Rappel : Aucune hypothèse ne peut être définitivement infirmée. Elle est testé en liaison avec d’autres hypothèses auxiliaires. Ne pas rejeter H0 contre HA signifie que H0 est provisoirement « acceptée ». Cela ne signifie nullement l’acceptation de H0. Si une hypothèse nulle est rejetée à α %, cela signifie que le résultat est qualifié de « significatif à α % ». Si H0 est rejetée à 1 %, elle sera aussi rejetée à 5 % et 10 %. Un résultat peut être significatif au niveau statistique mais marginal sur le plan économique. ) 5. On rejette H0, si β2* se trouve à l’extérieur de l’intervalle de confiance • Le test bilatéral sur coefficient et l’intervalle de confiance aboutissent toujours aux mêmes conclusions. < −t αN − K Interprétation et observations • ( − t αN − K × Sˆβ 2 , βˆ2 + t αN − K × Sˆ β 2 Licence 3 4. Inférence statistique c) Intervalle de confiance 4. • Inférence statistique Schématiquement : 2 sous-régions Rejet de H0 Non rejet de H0 Erreur de première espèce Taille du test α est la probabilité de rejeter H0 sachant qu’elle est vraie seuil de signification « p-value » Licence 3 9 14/09/2013 4. • • Inférence statistique Il n’est pas exclu d’accepter H0 sachant qu’elle est fausse – Erreur de deuxième espèce (β) La décision se traduit par 2 erreurs : α et β antagonistes 5. a) Equation fondamentale N SCT = ∑ ( yi − y ) Décision Hypothèses vraies • • • H0 H0 Pas d’erreur HA β HA i =1 α N Puissance d’un test (1 – β ) : puissance d’un test. Mesure de la probabilité de rejeter H0 sachant qu’elle est fausse Plus la région d’acceptation est grande plus β est élevée L’erreur de première espèce est plus grave que l’erreur de deuxième espèce 3 paramètres du modèle Obs : ne pas confondre ici α et β Licence avec les 5. • L’ajustement par la droite des MCO est meilleur quand SCE est proche de SCT Pour mesurer la qualité d’ajustement (goodness-of-fit) on utilise le coefficient de détermination, R². SCE SCR = 1− SCT SCT Le R² varie entre 0 et 1. Plus le R² est proche de 1, mieux est l’ajustement de la droite de régression. Mais l’objectif n’est pas de maximiser le R². R2 = • • Licence 3 Claudio Araujo, CERDI 2 N SCR = ∑ ( yi − yˆ i ) = ∑ ε i2 2 i =1 i SCE = ∑ ( yˆ i − y ) 2 i =1 Somme des carrés des résidus SCT = SCE + SCR Cf. démonstration dans l’ABC d’E page 55 Somme des carrés expliquée Licence 3 ANOVA b) Coefficient de détermination • ANOVA (ANalysis Of VAriance) Exercices pratiques • Calculer le coefficient de détermination pour les modèle de consommation. – Vous devez calculer : SCT, SCE et SCR à partir du tableau contenant, le revenu disponible et la consommation observée. • Calculer le coefficient de détermination pour les modèle de demande d’essence en fonction du prix. Licence 3 10