Le modèle de régression linéaire
Transcription
Le modèle de régression linéaire
✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 9 — #25 ✐ ✐ Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie traite de la construction de modèles. Le premier point de l’analyse consiste à se poser la question : « Quel est le modèle ? ». Le choix de ce dernier commence d’habitude par une observation ou une proposition selon laquelle une variable est « causée par » ou « varie avec » une autre, ou encore par une assertion au sujet d’une relation entre une variable et une ou plusieurs covariables dont on attend qu’elles soient liées à la variable d’intérêt. Le modèle pourrait décrire de manière générale un comportement, comme suggérer, par exemple, que l’utilisation d’un système de santé par un individu dépend, entre autres, de l’état de santé tel qu’il est perçu par ce dernier, des variables démographiques telles que le revenu, l’âge et le niveau d’instruction, et du montant et du type d’assurance que détient l’individu. Il pourrait prendre la forme d’une proposition verbale ou même d’une figure comme un organigramme ou un diagramme de corrélations qui indique les directions des effets. Il est rare que le modèle économétrique fleurisse d’emblée en ensemble d’équations. Au lieu de cela, il prend naissance à travers une idée ou une relation. La prochaine étape que doit naturellement suivre l’économètre est la traduction de cette idée en un ensemble d’équations tout en gardant en tête que certaines caractéristiques de ces équations vont répondre à des questions intéressantes sur la variable d’intérêt. Pour poursuivre notre exemple, un énoncé bien défini de la relation entre l’assurance détenue et les soins demandés pourrait être en mesure de répondre à la question « Comment l’utilisation d’un système de santé dépend-elle de la couverture en assurance ? ». Plus précisément, la relation est-elle « positive » – toutes choses égales par ailleurs, un consommateur assuré est-il davantage enclin à « demander plus de soins de santé » – ou bien « négative » ? Finalement, on pourrait considérer une proposition plus précise, comme par exemple « Combien en plus (en moins) ? ». Ce chapitre, et les suivants, vont développer un ensemble d’outils dont les modélisateurs se servent pour étudier en détail des questions comme celles posées précédemment, à partir des données et des méthodes économétriques. D’un point de vue purement statistique, le chercheur pourrait avoir en tête une variable y représentant la « demande de soins de santé, H », un vecteur de © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 10 — #26 ✐ 10 ✐ Chapitre 2 – Le modèle de régression linéaire covariables x (le revenu I, l’assurance T ) et une distribution de probabilité conjointe p(H,I,T ). Énoncée sous cette forme, la « relation » n’est pas décrite d’une manière particulièrement intéressante : quel est le processus statistique qui engendre la demande de soins de santé, le revenu et la couverture en assurance ? Il est cependant vrai que p(H,I,T ) = p(H|I,T )p(I,T ), c’est-à-dire que la probabilité de distribution conjointe se décompose en une distribution conjointe de la couverture en assurance et du revenu dans la population, et une distribution de la « demande de soins de santé » pour un revenu et une couverture en assurance définis. De ce point de vue, la distribution conditionnelle p(H|I,T ) présente un intérêt tandis que p(I,T ), la distribution du revenu et de la couverture en assurance dans la population, ne peut avoir que très peu, voire aucun intérêt. (Par ailleurs, du même point de vue, et étant donné le revenu, p(T |I), la « demande » conditionnelle de couverture en assurance pourrait être aussi intéressante.) En suivant ce raisonnement, le modélisateur s’intéresse souvent non pas à la variation conjointe de toutes les variables du modèle mais à la variation conditionnelle d’une ou plusieurs variables liées aux autres. La notion de distribution conditionnelle constitue un point de départ intéressant dans la réflexion sur la relation entre une variable d’intérêt « y » et un ensemble de variables « x » dont on pense qu’elles peuvent y être liées. Une question nous ramène à celle posée précédemment, à savoir « Quel est le modèle ? ». Quelles sont les caractéristiques de la distribution conditionnelle qui nous intéressent ? En réfléchissant en ces termes, le modélisateur porte souvent son attention sur la valeur espérée E[y|x] qui n’est autre que la fonction de régression et qui nous amène au sujet de ce chapitre. Concernant l’exemple précédent, le « nombre de visites chez le médecin » pourrait constituer un choix naturel pour y, comme dans un exemple étudié à plusieurs reprises tout au long du livre. Cependant, au cas où l’on considérerait le revenu I dont la distribution est souvent fortement asymétrique, il se peut que la moyenne ne soit pas très intéressante. Compte tenu de la catégorie d’âge, M [I|x], la médiane conditionnelle pourrait se révéler une statistique plus intéressante. Par ailleurs, considérant toujours la distribution du revenu (sachant la catégorie d’âge), d’autres quantiles comme le 20e percentile ou encore un seuil de pauvreté défini comme par exemple le 5e percentile pourraient être encore plus intéressants. Finalement, si l’on considère des études en finance où la variable d’intérêt est le rendement d’un actif, alors dans certains cas, la moyenne ne présente aucun intérêt : la variance et la variance conditionnelle sont particulièrement intéressantes. Nous avons commencé l’étude du modèle de régression en essayant de comprendre le concept de « modèle ». Nous nous intéresserons maintenant à la moyenne conditionnelle qui est ordinairement la caractéristique qui suscite notre intérêt. Après avoir expliqué comment étudier la fonction de régression, nous nous en servirons comme point de départ pour observer d’autres caractéristiques telles que les quantiles et les variances. Le modèle de régression linéaire est l’outil le plus utilisé du kit de l’économètre. Bien que ce dernier s’en serve de plus en plus comme d’un simple point de départ de l’analyse complète, il demeure l’outil de référence pour commencer toute recherche empirique. Il est aussi une sorte de lentille à travers laquelle on voit des relations entre les variables. Au sein de ce chapitre, nous développerons le modèle de régression linéaire. Nous présenterons en détail les hypothèses fondamentales du modèle. Aux chapitres suivants, nous étudierons plus en détail les spécifications et les © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 11 — #27 ✐ 2.2 – Le modèle de régression linéaire ✐ 11 difficultés qui se présenteront si l’on applique des techniques fondées sur le modèle simple tel que présenté ici. 2.2 Le modèle de régression linéaire Le modèle de régression linéaire multiple étudie la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Sa forme générique est y = f (x1 , x2 , . . . , xK ) + ε = x1 β1 + x2 β2 + . . . + xK βK + ε, (2-1) où y est la variable dépendante ou variable expliquée et x1 , . . . , xK sont les variables indépendantes ou variables explicatives. On appelle la fonction f (x1 , x2 , . . . , xK ) l’équation de régression de la population de y sur x1 , . . . , xK . Dans cette spécification, on appelle aussi xk , k = 1, . . . , K, régresseurs ou covariables. La théorie économique permet de déterminer les variables dépendantes et indépendantes du modèle. Cela n’est pas toujours facile. Par exemple, une fonction de demande, quantité = β1 + prix × β2 + revenu × β3 + ε, et une fonction inverse de demande, prix = γ1 + quantité × γ2 + revenu × γ3 + u sont des représentations identiques d’un système de marché. En modélisation, il apparaît souvent utile de considérer des « variations autonomes » de certaines variables. On peut concevoir ainsi des variations des variables indépendantes en dehors de la relation définie par le modèle, tandis qu’une variation de la variable dépendante est la réponse à un choc indépendant ou exogène. 1 Le terme ε est une perturbation aléatoire. En effet, il « perturbe » une relation qui, autrement, serait stable. Celle-ci a plusieurs origines dont la principale relève du fait que, dans une approximation, on ne peut capter tous les effets d’une variable économique. L’effet net (positif ou négatif) des facteurs omis est pris en compte par la perturbation. D’autres raisons expliquent la présence de cette dernière dans un modèle empirique. Les « erreurs de mesure » en sont probablement la plus importante. Si établir une théorie sur les relations liant des variables semble facile, il en va autrement lorsqu’il s’agit d’obtenir des mesures précises de celles-ci. Par exemple, il est difficile d’obtenir des mesures correctes de profits, de taux d’intérêt, de stocks de capitaux, etc. À l’extrême, il se peut que la variable théorique ne soit pas observable. Le modèle de consommation avec revenu permanent (Friedman, 1957) en fournit un exemple édifiant. On suppose que chaque observation de l’échantillon (yi , xi1 , xi2 , . . . , xiK ), avec i = 1, . . . , n, est généré par un processus décrit par yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi . La valeur observée de yi est la somme de deux composantes : l’une d’entre elles est déterministe et l’autre est aléatoire, εi . L’objectif est d’estimer les paramètres inconnus 1. Pour la relation de demande étudiée ici, cette définition suppose que seul le revenu peut être considéré comme une variable indépendante, tandis que le prix et la quantité sont des variables dépendantes. En effet, sur un marché, prix et quantités sont déterminés en même temps, et ne varient que lorsqu’un élément change en dehors du marché. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 12 — #28 ✐ 12 ✐ Chapitre 2 – Le modèle de régression linéaire du modèle, d’utiliser les données pour étudier la validité des propositions théoriques et, éventuellement, d’utiliser le modèle pour prévoir la variable y. La manière de procéder dépend fortement des hypothèses émises sur le processus stochastique ayant conduit aux données. Exemple 2.1 : La fonction de consommation de Keynes Dans l’exemple 1.2, nous avons étudié un modèle de consommation proposé par Keynes dans sa Théorie Générale (1936). L’idée selon laquelle la consommation, C, et le revenu, X, sont liés semble conforme aux observations des figures 1.1 et 2.1. (Ces données figurent au tableau F2.1.) Naturellement, la fonction linéaire n’est qu’une approximation. Même en ignorant les années de guerre, la consommation et le revenu ne peuvent être liés par une simple relation déterministe. Le modèle linéaire C = α+βX décrit seulement les faits saillants de l’économie observée. L’étape suivante consiste à incorporer l’aléa inhérent au monde réel. Ainsi, on écrit C = f (X, ε), où ε est un terme stochastique. Il est important de ne pas considérer ε comme un passe-partout qui permet de pallier les insuffisances du modèle. Le modèle incorporant ε semble convenable pour décrire les données ne comprenant pas les années de guerre. Durant cette période, la consommation n’a pas atteint les niveaux historiquement conformes aux revenus correspondants en raison du rationnement. Un modèle susceptible de décrire la consommation pendant cette période devrait intégrer cela. Pour intégrer le terme stochastique dans le modèle, la méthode la plus fréquente consiste à supposer qu’il est additif. L’équation se réécrit alors : C = α + βX + ε. Celle-ci est l’équivalent empirique du modèle théorique de Keynes. Mais qu’en est-il des années de guerre ? S’il fallait « ajuster » ces données par une droite, la meilleure approximation serait celle en pointillé de la figure 2.1. Une spécification cependant plus appropriée, satisfaisant à la fois la nature stochastique des données et les circonstances particulières des années 1942-1945, pourrait être celle qui décale la droite vers le bas. On a alors C = α+βX +dguerre δw +ε, où dguerre est une variable indicatrice (on dit encore variable muette) prenant la valeur 1 lorsqu’on se situe entre 1942-1945 et 0 sinon, avec δw < 0. 350 1950 325 1949 1947 1948 1946 300 C 1945 275 1944 1941 250 1943 1942 1940 225 225 250 275 300 325 350 375 X Figure 2.1 : Données de consommation, 1940-1950. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 13 — #29 ✐ 2.2 – Le modèle de régression linéaire ✐ 13 Le modèle de régression multiple présente un aspect très important : il permet d’identifier les effets d’un ensemble de variables explicatives sur une variable dépendante. L’exemple 2.2 décrit une application connue. Exemple 2.2 : Salaire et niveau d’instruction Des études ont été faites sur le lien entre le salaire et le niveau d’instruction. En moyenne, on s’attend à ce que des niveaux d’études élevés entraînent des revenus importants. Le modèle de régression simple salaires = β1 + β2 instruction + ε, néglige cependant le fait que la plupart des individus n’obtiennent des salaires élevés qu’à un âge avancé, quel que soit leur niveau d’études. Ainsi, β2 va surestimer l’effet marginal du niveau d’études. Si l’âge et l’instruction sont positivement corrélés, alors le modèle de régression va associer toute hausse du salaire à une hausse du niveau d’études. Une spécification tenant compte de l’effet de l’âge s’écrit salaires = β1 + β2 instruction + β3 âge + ε. On observe souvent que le salaire augmente moins vite durant les dernière années de travail que pendant les premières. Pour prendre en compte ce phénomène, on redéfinit le modèle pour obtenir salaires = β1 + β2 instruction + β3 âge + β4 âge 2 + ε, où les coefficients β3 et β4 sont supposés respectivement positif et négatif. Ce modèle peut être utilisé pour comparer les salaires de deux individus de même âge mais ayant des niveaux d’études différents, même si les données disponibles ne portent pas sur de tels individus. Demeure la difficulté de mesurer le niveau d’études. Ashenfelter et Krueger (1994) ont étudié les revenus de jumeaux en utilisant la spécification précédente. Nous examinerons cette étude à la section 8.5.3. [Les études portant sur les jumeaux et, de manière générale, sur les frères et sœurs offrent un courant de recherche intéressant sur le lien entre le niveau d’instruction et le revenu. On pourrait citer comme exemples les études de Ashenfelter et Zimmerman (1997) et de Bonjour, Cherkas, Haskel, Hawkes, et Spector (2003).] L’expérience sous-jacente au modèle de salaire spécifié précédemment est une comparaison entre deux individus qui sont identiques en termes de niveau d’instruction, mais différents par leur âge. Si l’on considère cette interprétation, « l’effet » du niveau d’instruction sur le salaire est donné par ∂E[salaires|âge,instruction]/∂instruction = β2 . En fait, l’économètre pense à l’expérience consistant à augmenter d’une année supplémentaire le niveau d’études de l’individu, ce qui est inobservable. En effet, il faudrait pouvoir observer le niveau d’études de l’individu deux fois, à savoir tel qu’il est effectivement observé dans l’échantillon, instruction i , et une seconde fois dans le cas hypothétique (contrefactuel), instruction i + 1. Si nous considérons le niveau d’instruction comme un « traitement », alors l’objectif de l’expérience est de mesurer « l’impact du traitement sur les données traitées ». Au chapitre 19, nous obtiendrons un tel résultat en utilisant des données non expérimentales. De nombreuses études se sont penchées sur le sujet. Dans cette formulation, le niveau d’instruction n’est pas vraiment « indépendant ». Les individus ayant une forte motivation choisiront de poursuivre leurs études. Ils peuvent également entreprendre des démarches qui, en moyenne, leur garantiront des revenus plus élevés. Le cas échéant, un β2 positif mesure-t-il vraiment l’effet du niveau d’instruction sur le revenu, ou reflète-t-il © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 14 — #30 ✐ 14 ✐ Chapitre 2 – Le modèle de régression linéaire certains effets sous-jacents sur les deux variables ? Nous aborderons ces questions dans le chapitre 19. 2 2.3 Hypothèses du modèle de régression linéaire Le modèle de régression linéaire se fonde sur un ensemble d’hypothèses concernant les données et la relation retenue. Ces hypothèses sont énoncées au sein du tableau 2.1. 2.3.1 Linéarité du modèle de régression Soient xk le vecteur colonne de n observations de la variable xk , k = 1, . . . , K, et X une matrice n × K constituée des données ainsi empilées. Dans la plupart des cas, la première colonne de X est formée du vecteur unitaire de sorte que β1 représente la constante du modèle. Soient y le vecteur des n observations, y1 , . . . , yn , et ε le vecteur des perturbations. Le modèle (2-1) se réécrit y = x1 β1 + . . . + xK βK + ε, (2-2) ou, si l’on utilise l’hypothèse 1, Hypothèse : y = Xβ + ε. (2-3) Notation Nous utiliserons des caractères gras x pour désigner une colonne ou une ligne de X. Dans (2-2), xk représente la k-ième colonne de X. Les indices j et k représenteront les variables colonnes. La relation (2-3) se réécrit pour une observation yi = x′i β + εi . (2-4) Les indices i et t désignent les observations lignes de X. Dans (2-4), xi est un vecteur colonne, transposé de la i-ième 1 × K ligne de X. Nous nous intéressons principalement à l’estimation et à l’inférence statistique du vecteur des paramètres β. Remarquons que l’exemple 2.1 présente un cas particulier de modèle simple de régression où X ne possède que deux colonnes dont la première est la colonne unitaire. L’hypothèse de linéarité suppose également l’additivité de la perturbation. Pour qu’une régression soit linéaire, elle doit être de la forme (2-1), soit par rapport aux variables telles quelles, soit après une transformation appropriée. Par exemple, le modèle y = A xβ eε 2. Une autre difficulté à laquelle se trouve confronté l’économètre disposant de données en coupe transversale est qu’il n’est pas possible, en comparant tout simplement les individus âgés et les jeunes individus dans l’échantillon, de déduire les caractéristiques du revenu de ces derniers dans le cas où ils seraient plus âgés. Nous reviendrons sur un problème comparable au chapitre 19 portant sur les effets de traitement des données. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 15 — #31 ✐ 2.3 – Hypothèses du modèle de régression linéaire ✐ 15 Tableau 2.1 : Hypothèses du modèle de régression linéaire H1. Linéarité : yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi . La relation entre y et x1 , . . . , xK est linéaire. H2. Plein rang : Il n’existe pas de relation linéaire exacte entre les variables indépendantes. Cette hypothèse est nécessaire pour l’estimation des paramètres du modèle. H3. Exogénéité des variables indépendantes : E [εi | xj1 , xj2 , . . . , xjK ] = 0. L’espérance de la perturbation conditionnelle aux réalisations des variables indépendantes est nulle. En d’autres termes, les variables indépendantes n’interviennent pas dans la prédiction de εi . H4. Homoscédasticité et absence d’autocorrélation : La variance de εi est constante et finie σ 2 et εi n’est pas corrélé avec εj , pour i 6= j. Cette hypothèse restrictive sera dans certains cas levée dans les chapitres suivants. H5. Génération des données : Les observations de (xj1 , xj2 , . . . , xjK ) peuvent être un mélange de constantes et de variables aléatoires. Les hypothèses les plus importantes, à ce stade de l’étude, sont l’hypothèse d’indépendance par la moyenne (H3) et l’hypothèse implicite d’indépendance par la variance (H4). Les régressions seront effectuées conditionnellement à X. Ainsi, que les variables explicatives soient déterministes ou aléatoires n’a aucune influence sur les résultats. Plus tard dans certains chapitres, nous préciserons la nature de la relation qui existe entre εi et xj . H6. Distribution normale : Les perturbations sont distribuées selon la loi normale. Cette hypothèse n’est pas indispensable pour l’analyse. est linéaire (après transformation logarithmique), alors que y = A xβ + ε ne l’est pas. Ainsi, la variable dépendante est la somme de deux composantes : une composante déterministe α+βx et une composante aléatoire ε . Ces deux composantes ne sont pas directement observées car α et β sont inconnus. L’hypothèse de linéarité n’est pas aussi restrictive qu’il paraît au premier abord. Dans la régression, la linéarité se réfère à la manière dont les paramètres et la perturbation sont incorporés dans l’équation, pas nécessairement à la relation entre les variables. Par exemple, les équations y = α + βx + ε, y = α + β cos(x) + ε, y = α + β/x + ε, et y = α + β ln x + ε sont toutes linéaires par rapport à une fonction de x. Dans ces exemples, seul x a été transformé, mais y aurait pu l’être également, comme dans le cas y = A xβ eε où la transformation logarithmique donne ln y = α + β ln x + ε. Plusieurs formes fonctionnelles peuvent être utilisées. Par exemple, le modèle loglinéaire s’écrit ln y = β1 + β2 ln x2 + β3 ln x3 + . . . + βK ln xK + ε. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 16 — #32 ✐ 16 ✐ Chapitre 2 – Le modèle de régression linéaire Cette équation est aussi appelée forme fonctionnelle à élasticité constante. En effet, l’élasticité de y par rapport à x est ∂ ln y/∂ ln xk = βk . La forme log-linéaire est souvent utilisée dans des modèles de demande et de production. Exemple 2.3 : Le marché de l’essence aux États-Unis Les données utilisées concernent le marché américain de l’essence et portent sur les années 1953-2004. Elles sont fournies au tableau F2.2. Nous utilisons ces données pour estimer l’élasticité de la demande par rapport au revenu et aux prix direct et croisé. Elles nous permettent également de soulever l’intéressante question au sujet de la proposition « toutes choses égales par ailleurs ». Considérons le modèle de consommation d’essence par tête : ln(essence/pop) = β1 + β2 ln(revenu/pop) + β3 lnPessence + β4 ln Pvoitures neuves + β5 ln Pvoitures d′ occasion + ε. Dans cette spécification, les paramètres β mesurent respectivement les élasticités revenu, prix croisés et prix directs des voitures neuves et d’occasion. La voiture et l’essence sont des biens complémentaires. Si le prix des voitures neuves augmente, « toutes choses égales par ailleurs », soit la consommation d’essence baisse, soit les consommateurs réduisent leurs achats de voitures neuves. Si les voitures d’occasion consomment plus d’essence que les neuves, alors une augmentation du prix des voitures neuves entraînera une augmentation de la consommation d’essence. On peut utiliser le modèle de régression multiple et les données sur l’essence pour répondre à ces questions. La spécification semi-log est souvent utilisée dans les modèles de croissance : ln yt = x′t β + δt + εt . Dans ces modèles, le taux de croissance autonome (non expliqué par le modèle luimême) est ∂ ln y/∂t = δ. D’autres formulations peuvent être issues de la forme générale f (yt ) = g(x′t β + εt ). Le modèle de régression linéaire est parfois interprété comme une approximation d’une fonction inconnue (voir section A.8.1). Cette interprétation du modèle linéaire a cependant ses limites car une telle approximation (même avec des formes quadratiques) ne s’applique qu’à des cas restreints de variations des variables indépendantes. En revanche, le modèle « translog » étudié dans l’exemple suivant est plus souple en termes d’approximation. Exemple 2.4 : Le modèle translog Les travaux récents portant sur la demande et la production utilisent des formes fonctionnelles flexibles. En économétrie, celles-ci permettent de modéliser les effets de second ordre comme les élasticités de substitution, fonction de la dérivée seconde des fonctions de production, de coût, ou d’utilité. Dans le modèle linéaire, ces effets sont nuls. Le modèle log-linéaire (par exemple, le modèle de Cobb-Douglas) contraint ceuxci à prendre des valeurs inintéressantes, −1 ou +1. La forme fonctionnelle flexible la plus courante est la forme translog. Elle est souvent interprétée comme une approximation de second ordre d’une forme fonctionnelle inconnue (Berndt et Christensen, 1973). Posons y = g(x1 , . . . , xK ). On a ln y = ln g(. . .) = f (. . .). Si l’on utilise la transformation xk = exp(ln xk ), la fonction s’interprète comme le logarithme des x, et © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 17 — #33 ✐ 2.3 – Hypothèses du modèle de régression linéaire ✐ 17 ln y = f (ln x1 , . . . , ln xK ). Le développement de Taylor du second ordre au point x = [1,1, . . . ,1]′ donne ln y =f (0) + K X [∂f (·)/∂ ln xk ]| ln x=0 ln xk k=1 + K K 1 XX 2 [∂ f (·)/∂ ln xk ∂ ln xl ]| ln x=0 ln xk ln xl + ε. 2 k=1 l=1 Cette fonction se réécrit ln y = β0 + K X k=1 βk ln xk + K K 1 XX γkl ln xk ln xl + ε. 2 k=1 l=1 Ce modèle est linéaire par définition mais peut s’adapter à plusieurs courbures lorsqu’il est utilisé comme approximation d’une autre fonction. Le modèle log-linéaire devient ainsi un cas particulier lorsque γkl = 0. En outre, on peut tester la théorie sous-jacente. En effet, si la fonction étudiée est continue et deux fois différentiable, alors, d’après le théorème de Young, γkl = γlk . En dépit de sa grande souplesse, le modèle linéaire ne couvre pas tous les cas. Dans l’exemple 18.10 du chapitre 18, nous étudierons un modèle de régression expliquant le nombre de visites chez le médecin, un exemple déjà évoqué dans l’introduction de ce chapitre. La moyenne conditionnelle E[y|x] = exp(x′ β) constitue une spécification adéquate pour une telle variable dépendante. On pourrait être tenté de linéariser la moyenne conditionnelle par une transformation logarithmique, à savoir ln E[y|x] = x′ β. Cela n’est pas une bonne idée puisque ln E[y|x] est différent de E[ln y|x]. De plus, comme y peut prendre la valeur zéro (comme c’est le cas de beaucoup d’observations de l’échantillon), la spécification linéaire x′ β (qui peut être négative) ne peut s’appliquer ni à ln y ni à y. Ainsi, les méthodes envisagées dans ce chapitre ne s’appliquent pas aux modèles ayant une variable dépendante similaire à celle mentionnée dans ce paragraphe. Des techniques plus ou moins simples ont été développées pour étudier ce genre de modèles non linéaires. Nous les étudierons dans le chapitre 7. 2.3.2 Hypothèse de plein rang L’hypothèse 2 énonce qu’il n’existe pas de relation linéaire exacte entre les variables. Hypothèse : X est une matrice n × K de rang K. (2-5) Par conséquent, X est de plein rang-colonne. Les colonnes de X sont linéairement indépendantes avec K observations au moins (voir A-42). Cette hypothèse est connue sous le terme de condition d’identification. L’intérêt de cette hypothèse est illustré dans l’exemple suivant. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 18 — #34 ✐ 18 ✐ Chapitre 2 – Le modèle de régression linéaire Exemple 2.5 : Rang court Soit le modèle en coupe transversale C = β1 + β2 revenu non salarial + β3 salaire + β4 revenu total + ε, où le revenu total est égal au salaire plus le revenu non salarial. Il existe évidemment une relation linéaire exacte entre les régresseurs du modèle. Posons β2′ =β2 + a, β3′ =β3 + a, β4′ =β4 − a, où a est un nombre quelconque. Si l’on substitue β2′ , β3′ , et β4′ à β2 , β3 , et β4 , alors on obtient la même valeur du second membre du modèle. Manifestement, on ne peut estimer les paramètres de ce modèle. Si le nombre d’observations est inférieur à K, alors X ne peut être de plein rang. On formule donc l’hypothèse (redondante) que n est au moins aussi grand que K. Dans un modèle linéaire avec deux variables et un terme constant, l’hypothèse de plein rang signifie que le régresseur x varie. Dans le cas contraire, les observations forment une ligne verticale. Ce dernier cas n’invalide pas les autres hypothèses du modèle. Nous faisons juste face à un problème de données. Exemple 2.6 : Un modèle non identifié Dans l’exemple 3.4, nous étudierons un modèle dont la variable expliquée est le prix de vente des toiles de Monet. Les théoriciens du domaine ont en tête divers modèles expliquant le prix de vente de toiles vendues aux enchères. Un étudiant naïf suggère le modèle suivant : ln prix = β1 + β2 ln taille + β3 ln(rapport d′ aspect) + β4 ln hauteur + ε = β1 + β2 x2 + β3 x3 + β4 x4 + ε, où taille = largeur × hauteur et rapport d′ aspect = largeur/hauteur. Ce modèle a les mêmes problèmes que rencontre le modèle de consommation de l’exemple 2.5. Dans ce cas-ci, x2 − x4 = x3 + x4 , ce qui rend le modèle non estimable car non identifé. 2.3.3 Régression La structure du terme d’erreur est telle que E [εi | X] = 0. (2-6) Pour l’ensemble des observations, l’hypothèse 3 se réécrit : E [ε1 | X] E [ε2 | X] Hypothèse : E [ε | X] = = 0. .. . (2-7) E [εn | X] © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 19 — #35 ✐ 2.3 – Hypothèses du modèle de régression linéaire ✐ 19 Notons que dans (2-7), le membre de gauche stipule que l’espérance de chaque εi conditionnellement à toutes les observations xi est nulle. Cela signifie que les observations x ne fournissent pas d’informations sur la valeur moyenne de la perturbation. Dans le cas des séries temporelles, bien que xi ne donne pas d’information sur E[εi |·], il se pourrait que xj donne des indications sur les observations des périodes futures. Nous étudierons les conséquences de l’omission d’une telle hypothèse (Wooldridge, 1995). Nous supposerons également que les perturbations ne donnent aucune information sur elles-mêmes, c’est-à-dire E [εi | ε1 , . . . , εi−1 , εi+1 , . . . , εn ] = 0. À ce niveau, nous supposons que les perturbations sont générées de manière purement aléatoire. La nullité de l’espérance conditionnelle entraîne également celle de l’espérance non conditionnelle puisque E [εi ] = Ex [E [εi | X]] = Ex [0] = 0. En effet, pour chaque εi , Cov[E [εi | X], X] = Cov[εi , X] et l’hypothèse 3 suppose que Cov[εi , X] = 0 pour tout i. L’implication inverse n’est pas vraie, c’est-à-dire, E[εi ] = 0 n’implique pas E[εi |xi ] = 0. L’exemple suivant illustre ce phénomène. Exemple 2.7 : Non-nullité de la moyenne conditionnelle des perturbations La figure 2.2 montre la différence qui existe entre E[εi ] = 0 et E[εi |xi ] = 0. Globalement, la moyenne des perturbations dans l’échantillon est nulle. Cependant, si l’on se restreint à des intervalles spécifiques de x, cette moyenne est non nulle. Une telle observation dans l’échantillon devrait nous amener à nous interroger sur l’adéquation de cette hypothèse. Dans ce cas précis, la véritable expression de la moyenne conditionnelle (que l’économètre ne connaît pas en général) est E[y|x] = 1 + exp(1,5x). Visiblement, le modèle linéaire ne s’applique pas aux données de cet échantillon. 12 10 8 Y 6 4 2 0 0 0,25 0,50 0,75 1 1,25 1,50 X Ajustement Y a = +0,8485 b = +5,2193 R2 = 0,9106 Figure 2.2 : Perturbations dont la moyenne conditionnelle est non nulle mais dont la moyenne non-conditionnelle est nulle. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 20 — #36 ✐ 20 ✐ Chapitre 2 – Le modèle de régression linéaire Dans la plupart des cas, l’hypothèse de nullité de l’espérance n’est pas restrictive. Considérons un modèle à deux variables et supposons que l’espérance de ε est µ 6= 0. Alors, α + βx + ε est identique à (α + µ) + βx + (ε − µ). Si l’on pose α′ = α + µ et ε′ = ε − µ, on reproduit le modèle d’origine. Les analyses concernant les frontières de la fonction de production fournissent un exemple d’application dans le chapitre 18. Si le modèle d’origine ne contient pas de terme constant, supposer que E [εi ] = 0 pourrait être substantiel. Cela suggère l’existence d’un problème possible dans les modèles sans constante. En règle générale, les modèles de régression ne devraient pas être spécifiés sans constante, à moins que cela ne soit explicitement dicté par la théorie sous-jacente. 3 Si nous avons des raisons de supposer que l’espérance de la perturbation est non nulle, alors cela doit être spécifié dans la régression. L’hypothèse 3 suppose également que E [y | X] = Xβ. (2-8) La régression de y sur X est l’espérance conditionnelle, E [y | X]. Si l’on omet l’hypothèse 3, Xβ n’est pas la fonction « espérance conditionnelle ». Les autres hypothèses apportent des informations supplémentaires sur les caractéristiques des perturbations et indiquent sous quelles conditions sont obtenues les observations de x. 2.3.4 Perturbations sphériques La quatrième hypothèse concerne la variance et la covariance des perturbations : Var[εi | X] = σ 2 , pour tout i = 1, . . . , n, et Cov[εi , εj | X] = 0, pour tout i 6= j. Lorsque la variance est constante, on parle d’homoscédasticité. Soit le modèle expliquant les profits d’une entreprise en fonction de sa taille. Même en tenant compte de la taille, les profits des grandes entreprises seront sujets à des variations plus importantes que ceux des petites. L’hypothèse d’homoscédasticité ne semble donc pas convenir dans ce cas. De même, les dépenses des ménages sont soumises à une forte hétéroscédasticité même si le revenu et la taille du ménage sont pris en compte. Lorsque les observations ne sont pas corrélées entre elles, on parle de d’absence d’autocorrélation. La figure 2.1 suggère que les perturbations ne sont pas vraiment indépendantes. Bien que le nombre d’observations soit faible, il apparaît que, en moyenne, chaque perturbation tend à être suivie d’une autre de même signe. Cette « inertie » est appelée autocorrélation. Beaucoup d’études sont consacrées aux méthodes permettant de tenir compte de l’autocorrélation (voir chapitre 20). Notons que l’absence d’autocorrélation ne suppose pas que les observations yi et yj ne soient 3. Les modèles de différences premières peuvent être spécifiés sans constante de régression. Considérons yt − yt−1 . S’il existe une constante α dans le membre de droite de l’équation, alors yt est une fonction de αt, qui est alors un régresseur explosif. Les modèles avec une tendance linéaire font l’objet d’une attention particulière dans la littérature sur les séries temporelles (voir chapitre 19). © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 21 — #37 ✐ 2.3 – Hypothèses du modèle de régression linéaire ✐ 21 pas corrélées. L’hypothèse énonce que les écarts des observations par rapport à leurs moyennes ne sont pas corrélés. Ces deux hypothèses supposent que E [ε1 ε1 | X] E [ε1 ε2 | X] . . . E [ε1 εn | X] E [ε2 ε1 | X] E [ε2 ε2 | X] . . . E [ε2 εn | X] E [εε′ | X] = .. .. .. .. . . . . E [εn ε1 | X] E [εn ε2 | X] . . . E [εn εn | X] 2 σ 0 ... 0 0 σ2 . . . 0 = .. . 0 0 . . . σ2 Cela se résume dans l’hypothèse 4 : Hypothèse : . E [εε′ | X] = σ 2 I. (2-9) Si l’on utilise la formule de la décomposition de la variance (B-69), on obtient Var[ε] = E [Var[ε | X]] + Var[E [ε | X]] = σ 2 I. Dans le cadre des séries temporelles, les modèles du type Var[εt | εt−1 ] = σ 2 + αε2t−1 – dits « GARCH » (voir chapitre 20) – ne violent pas l’hypothèse précédente, mais supposent que Var[εt | εt−1 ] 6= Var[εt ]. Les perturbations qui ne satisfont pas les hypothèses d’homoscédasticité et d’absence d’autocorrélation sont parfois dites sphériques. 4 2.3.5 Processus générateur des régresseurs On suppose généralement que xi est non stochastique, ce qui est le cas des données expérimentales. Dans une étude, la liste des régresseurs est choisie pour yi donné. À ce stade, l’hypothèse de régresseurs non stochastiques est purement d’ordre technique et simplifie l’analyse. En effet, cela permet d’utiliser des résultats de statistique mathématique en considérant le vecteur xi comme une constante connue pour la distribution de probabilité de yi . Dans ce cas, les hypothèses H3 et H4 deviennent non conditionnelles et la distribution de probabilité de εi n’incorpore pas de constantes de X. Les spécialistes des sciences sociales n’ont presque jamais accès à des données expérimentales, et seuls quelques-uns de leurs modèles sont construits avec des régresseurs non aléatoires. Une telle approche paraît difficilement soutenable dans un modèle macroéconomique. Normalement, les régresseurs xi ainsi que yi devraient être aléatoires et le problème est alors celui de la nature du processus générant les régresseurs. 4. Ce terme se rapporte à la distribution normale multivariée (voir B-95). Dans la densité normale multivariée, si Σ = σ2 I, alors f (x) = c est l’équation d’une « boule » centrée en µ de rayon σ dans un espace de dimension n. Le terme sphérique est employé, que la distribution supposée soit normale ou non. Parfois cette hypothèse est explicite. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 22 — #38 ✐ 22 ✐ Chapitre 2 – Le modèle de régression linéaire Si ces derniers sont aléatoires, la distribution conjointe de yi et de xi doit être prise en compte en énonçant les hypothèses 1 à 4. La nature précise du régresseur et la manière dont on conçoit le processus d’échantillonnage sont primordiales pour les propriétés statistiques des estimateurs et des statistiques de test. Finalement, l’hypothèse essentielle est l’hypothèse 3 d’absence de corrélation entre X et ε. Cette méthode ne semble pas complètement satisfaisante non plus, puisque X peut contenir des éléments non stochastiques, y compris une constante, une tendance temporelle, et des variables indicatrices (ou muettes). Nous supposerons alors que X peut être un mélange de constantes et de variables aléatoires et que la moyenne et la variance de εi sont indépendantes de tous les éléments de X. Hypothèse : 2.3.6 X peut être fixe ou aléatoire. (2-10) Normalité On suppose que les perturbations sont normalement distribuées, d’espérance nulle et de variance constante. Ce faisant, on ajoute la normalité de la distribution aux hypothèses 3 et 4. Hypothèse : ε | X ∼ N [0, σ 2 I]. (2-11) Compte tenu de la structure et de la source de ε, les conditions d’application du théorème central limite sont vérifiées, du moins approximativement, et il est raisonnable de formuler l’hypothèse de normalité. Cette dernière semble souvent inutile et inadéquate dans le cadre des modèles de régression. Mis à part les situations où une distribution différente est clairement spécifiée [c’est par exemple le cas des modèles à frontières stochastiques (voir chapitre 18)], l’hypothèse de normalité est tout à fait raisonnable. L’hypothèse de normalité n’est pas nécessaire pour obtenir les résultats du modèle de régression multiple. Elle permet cependant d’obtenir des résultats statistiques exacts, et de construire des intervalles de confiance et des statistiques de test, comme nous le montrerons à la section 4.5 et au chapitre 5. Cette hypothèse sera levée ultérieurement et la plupart des résultats statistiques maintenus (voir sections 4.4 et 5.6). 2.3.7 Indépendance Le terme « indépendant » a été utilisé plusieurs fois dans ce chapitre. À la section 2.2, nous avons appelé les régresseurs du modèle variables indépendantes. Cette notion d’indépendance s’explique par les sources de variation qui, dans ce contexte, sont extérieures au processus décrit. Ainsi, dans notre exemple de demande de soins de santé, nous avons expliqué les variations dans la demande de soins par des variations de revenu. Nous n’avons cependant pas donné d’explications concernant les variations du revenu. Nous avons ainsi supposé que celles-ci proviennent de sources extérieures au modèle. On appelle l’hypothèse (2-6), à savoir E[εi |X] = 0, l’hypothèse d’indépendance par la moyenne. Elle suppose que les variations des perturbations ne sont pas expliquées par celles des variables indépendantes. Nous avons aussi supposé à la section 2.3.4 que les perturbations sont non corrélées entre elles (hypothèse H4 du tableau 2.1). © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐ ✐ ✐ “econometric” — 2011/11/15 — 16:46 — page 23 — #39 ✐ ✐ Résumé et conclusions 23 Cela implique que E[εi |εj ] = 0 pour tout i 6= j, c’est-à-dire, les perturbations sont aussi indépendantes à travers leur moyenne. L’hypothèse de leur normalité (conditionnelle) de la section 2.3.6 (hypothèse H6) suppose qu’elles sont statistiquement indépendantes, ce qui constitue une hypothèse plus forte que celle d’indépendance par la moyenne. Nous avons enfin étudié à la section 2.3.2 l’indépendance linéaire des colonnes de la matrice X. Cette notion d’indépendance provient de l’algèbre et est liée à la notion de rang en colonnes de X. Pour la modélisation, une telle notion implique que, si les variables ne varient pas de façon indépendante, il est impossible de les inclure dans un modèle de régression linéaire. Il existe cependant une ambiguïté dans cette notion d’indépendance des variables. En effet, nous avons inclus dans l’exemple 2.2 âge et âge2 comme régresseurs. Ces régresseurs ne varient pas de façon indépendante l’un de l’autre, ce qui ne constitue pas un obstacle à l’estimation du modèle de régression. En effet, même si ces deux variables ne sont pas indépendantes de façon fonctionnelle, elles le sont de façon linéaire. C’est cette dernière hypothèse qui compte pour le modèle de régression linéaire. Résumé et conclusions Ce chapitre a posé le cadre du modèle de régression linéaire qui sert de point de départ à la modélisation en économétrie. Les hypothèses du modèle sont résumées au sein de la figure 2.3 dans le cas de deux variables. E(y | x) x E(y|x x2 ) N( E(y|x x1 ) E(y|x x0 ) x0 x1 x2 , x2 2 ) x Figure 2.3 : Le modèle de régression. © 2011 Pearson Education France – Econométrie, 7e édition – William Greene ✐ ✐ ✐ ✐