Le modèle de régression linéaire

Transcription

✐
✐
“econometric” — 2011/11/15 — 16:46 — page 9 — #25
✐
✐
Chapitre 2
2.1
Introduction
L’économétrie traite de la construction de modèles. Le premier point de l’analyse
consiste à se poser la question : « Quel est le modèle ? ». Le choix de ce dernier commence d’habitude par une observation ou une proposition selon laquelle une variable
est « causée par » ou « varie avec » une autre, ou encore par une assertion au sujet
d’une relation entre une variable et une ou plusieurs covariables dont on attend
qu’elles soient liées à la variable d’intérêt. Le modèle pourrait décrire de manière générale un comportement, comme suggérer, par exemple, que l’utilisation d’un système
de santé par un individu dépend, entre autres, de l’état de santé tel qu’il est perçu
par ce dernier, des variables démographiques telles que le revenu, l’âge et le niveau
d’instruction, et du montant et du type d’assurance que détient l’individu. Il pourrait
prendre la forme d’une proposition verbale ou même d’une figure comme un organigramme ou un diagramme de corrélations qui indique les directions des effets.
Il est rare que le modèle économétrique fleurisse d’emblée en ensemble d’équations.
Au lieu de cela, il prend naissance à travers une idée ou une relation. La prochaine
étape que doit naturellement suivre l’économètre est la traduction de cette idée en
un ensemble d’équations tout en gardant en tête que certaines caractéristiques de
ces équations vont répondre à des questions intéressantes sur la variable d’intérêt.
Pour poursuivre notre exemple, un énoncé bien défini de la relation entre l’assurance
détenue et les soins demandés pourrait être en mesure de répondre à la question
« Comment l’utilisation d’un système de santé dépend-elle de la couverture en assurance ? ». Plus précisément, la relation est-elle « positive » – toutes choses égales par
ailleurs, un consommateur assuré est-il davantage enclin à « demander plus de soins
de santé » – ou bien « négative » ? Finalement, on pourrait considérer une proposition
plus précise, comme par exemple « Combien en plus (en moins) ? ». Ce chapitre, et
les suivants, vont développer un ensemble d’outils dont les modélisateurs se servent
pour étudier en détail des questions comme celles posées précédemment, à partir des
données et des méthodes économétriques.
D’un point de vue purement statistique, le chercheur pourrait avoir en tête une variable y représentant la « demande de soins de santé, H », un vecteur de
© 2011 Pearson Education France – Econométrie, 7e édition – William Greene
✐
✐
✐
✐
✐
✐
✐
10
✐
Chapitre 2 – Le modèle de régression linéaire
covariables x (le revenu I, l’assurance T ) et une distribution de probabilité conjointe
p(H,I,T ). Énoncée sous cette forme, la « relation » n’est pas décrite d’une manière
particulièrement intéressante : quel est le processus statistique qui engendre la demande de soins de santé, le revenu et la couverture en assurance ? Il est cependant
vrai que p(H,I,T ) = p(H|I,T )p(I,T ), c’est-à-dire que la probabilité de distribution
conjointe se décompose en une distribution conjointe de la couverture en assurance
et du revenu dans la population, et une distribution de la « demande de soins de
santé » pour un revenu et une couverture en assurance définis. De ce point de vue, la
distribution conditionnelle p(H|I,T ) présente un intérêt tandis que p(I,T ), la distribution du revenu et de la couverture en assurance dans la population, ne peut avoir
que très peu, voire aucun intérêt. (Par ailleurs, du même point de vue, et étant donné
le revenu, p(T |I), la « demande » conditionnelle de couverture en assurance pourrait être aussi intéressante.) En suivant ce raisonnement, le modélisateur s’intéresse
souvent non pas à la variation conjointe de toutes les variables du modèle mais à la
variation conditionnelle d’une ou plusieurs variables liées aux autres.
La notion de distribution conditionnelle constitue un point de départ intéressant
dans la réflexion sur la relation entre une variable d’intérêt « y » et un ensemble
de variables « x » dont on pense qu’elles peuvent y être liées. Une question nous
ramène à celle posée précédemment, à savoir « Quel est le modèle ? ». Quelles sont
les caractéristiques de la distribution conditionnelle qui nous intéressent ? En réfléchissant en ces termes, le modélisateur porte souvent son attention sur la valeur
espérée E[y|x] qui n’est autre que la fonction de régression et qui nous amène
au sujet de ce chapitre. Concernant l’exemple précédent, le « nombre de visites chez
le médecin » pourrait constituer un choix naturel pour y, comme dans un exemple
étudié à plusieurs reprises tout au long du livre. Cependant, au cas où l’on considérerait le revenu I dont la distribution est souvent fortement asymétrique, il se peut
que la moyenne ne soit pas très intéressante. Compte tenu de la catégorie d’âge,
M [I|x], la médiane conditionnelle pourrait se révéler une statistique plus intéressante. Par ailleurs, considérant toujours la distribution du revenu (sachant la
catégorie d’âge), d’autres quantiles comme le 20e percentile ou encore un seuil de
pauvreté défini comme par exemple le 5e percentile pourraient être encore plus intéressants. Finalement, si l’on considère des études en finance où la variable d’intérêt
est le rendement d’un actif, alors dans certains cas, la moyenne ne présente aucun
intérêt : la variance et la variance conditionnelle sont particulièrement intéressantes.
Nous avons commencé l’étude du modèle de régression en essayant de comprendre le
concept de « modèle ». Nous nous intéresserons maintenant à la moyenne conditionnelle qui est ordinairement la caractéristique qui suscite notre intérêt. Après avoir
expliqué comment étudier la fonction de régression, nous nous en servirons comme
point de départ pour observer d’autres caractéristiques telles que les quantiles et les
variances. Le modèle de régression linéaire est l’outil le plus utilisé du kit de l’économètre. Bien que ce dernier s’en serve de plus en plus comme d’un simple point de
départ de l’analyse complète, il demeure l’outil de référence pour commencer toute
recherche empirique. Il est aussi une sorte de lentille à travers laquelle on voit des
relations entre les variables. Au sein de ce chapitre, nous développerons le modèle
de régression linéaire. Nous présenterons en détail les hypothèses fondamentales du
modèle. Aux chapitres suivants, nous étudierons plus en détail les spécifications et les
✐
✐
✐
✐
✐
✐
✐
2.2 – Le modèle de régression linéaire
✐
11
difficultés qui se présenteront si l’on applique des techniques fondées sur le modèle
simple tel que présenté ici.
2.2
Le modèle de régression linéaire multiple étudie la relation entre une variable
dépendante et une ou plusieurs variables indépendantes. Sa forme générique est
y
= f (x1 , x2 , . . . , xK ) + ε
= x1 β1 + x2 β2 + . . . + xK βK + ε,
(2-1)
où y est la variable dépendante ou variable expliquée et x1 , . . . , xK sont les variables
indépendantes ou variables explicatives. On appelle la fonction f (x1 , x2 , . . . , xK )
l’équation de régression de la population de y sur x1 , . . . , xK . Dans cette spécification, on appelle aussi xk , k = 1, . . . , K, régresseurs ou covariables.
La théorie économique permet de déterminer les variables dépendantes et indépendantes du modèle. Cela n’est pas toujours facile. Par exemple, une fonction
de demande, quantité = β1 + prix × β2 + revenu × β3 + ε, et une fonction inverse
de demande, prix = γ1 + quantité × γ2 + revenu × γ3 + u sont des représentations
identiques d’un système de marché. En modélisation, il apparaît souvent utile de
considérer des « variations autonomes » de certaines variables. On peut concevoir
ainsi des variations des variables indépendantes en dehors de la relation définie par
le modèle, tandis qu’une variation de la variable dépendante est la réponse à un choc
indépendant ou exogène. 1
Le terme ε est une perturbation aléatoire. En effet, il « perturbe » une relation
qui, autrement, serait stable. Celle-ci a plusieurs origines dont la principale relève
du fait que, dans une approximation, on ne peut capter tous les effets d’une variable
économique. L’effet net (positif ou négatif) des facteurs omis est pris en compte par la
perturbation. D’autres raisons expliquent la présence de cette dernière dans un modèle
empirique. Les « erreurs de mesure » en sont probablement la plus importante. Si
établir une théorie sur les relations liant des variables semble facile, il en va autrement
lorsqu’il s’agit d’obtenir des mesures précises de celles-ci. Par exemple, il est difficile
d’obtenir des mesures correctes de profits, de taux d’intérêt, de stocks de capitaux, etc.
À l’extrême, il se peut que la variable théorique ne soit pas observable. Le modèle de
consommation avec revenu permanent (Friedman, 1957) en fournit un exemple édifiant.
On suppose que chaque observation de l’échantillon (yi , xi1 , xi2 , . . . , xiK ), avec
i = 1, . . . , n, est généré par un processus décrit par
yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi .
La valeur observée de yi est la somme de deux composantes : l’une d’entre elles est
déterministe et l’autre est aléatoire, εi . L’objectif est d’estimer les paramètres inconnus
1. Pour la relation de demande étudiée ici, cette définition suppose que seul le revenu peut être
considéré comme une variable indépendante, tandis que le prix et la quantité sont des variables
dépendantes. En effet, sur un marché, prix et quantités sont déterminés en même temps, et ne
varient que lorsqu’un élément change en dehors du marché.
✐
✐
✐
✐
✐
✐
✐
12
✐
du modèle, d’utiliser les données pour étudier la validité des propositions théoriques
et, éventuellement, d’utiliser le modèle pour prévoir la variable y. La manière de
procéder dépend fortement des hypothèses émises sur le processus stochastique ayant
conduit aux données.
Exemple 2.1 : La fonction de consommation de Keynes
Dans l’exemple 1.2, nous avons étudié un modèle de consommation proposé par Keynes
dans sa Théorie Générale (1936). L’idée selon laquelle la consommation, C, et le revenu,
X, sont liés semble conforme aux observations des figures 1.1 et 2.1. (Ces données figurent au tableau F2.1.) Naturellement, la fonction linéaire n’est qu’une approximation.
Même en ignorant les années de guerre, la consommation et le revenu ne peuvent être
liés par une simple relation déterministe. Le modèle linéaire C = α+βX décrit seulement les faits saillants de l’économie observée. L’étape suivante consiste à incorporer
l’aléa inhérent au monde réel. Ainsi, on écrit C = f (X, ε), où ε est un terme stochastique. Il est important de ne pas considérer ε comme un passe-partout qui permet de
pallier les insuffisances du modèle. Le modèle incorporant ε semble convenable pour
décrire les données ne comprenant pas les années de guerre. Durant cette période, la
consommation n’a pas atteint les niveaux historiquement conformes aux revenus correspondants en raison du rationnement. Un modèle susceptible de décrire la consommation
pendant cette période devrait intégrer cela.
Pour intégrer le terme stochastique dans le modèle, la méthode la plus fréquente consiste
à supposer qu’il est additif. L’équation se réécrit alors : C = α + βX + ε. Celle-ci est
l’équivalent empirique du modèle théorique de Keynes. Mais qu’en est-il des années de
guerre ? S’il fallait « ajuster » ces données par une droite, la meilleure approximation
serait celle en pointillé de la figure 2.1. Une spécification cependant plus appropriée,
satisfaisant à la fois la nature stochastique des données et les circonstances particulières
des années 1942-1945, pourrait être celle qui décale la droite vers le bas. On a alors
C = α+βX +dguerre δw +ε, où dguerre est une variable indicatrice (on dit encore variable
muette) prenant la valeur 1 lorsqu’on se situe entre 1942-1945 et 0 sinon, avec δw < 0.
350
1950
325
1949
1947
1948
1946
300
C
1945
275
1944
1941
250
1943
1942
1940
225
225
250
275
300
325
350
375
X
Figure 2.1 : Données de consommation, 1940-1950.
✐
✐
✐
✐
✐
✐
✐
2.2 – Le modèle de régression linéaire
✐
13
Le modèle de régression multiple présente un aspect très important : il permet d’identifier les effets d’un ensemble de variables explicatives sur une variable dépendante.
L’exemple 2.2 décrit une application connue.
Exemple 2.2 : Salaire et niveau d’instruction
Des études ont été faites sur le lien entre le salaire et le niveau d’instruction. En moyenne,
on s’attend à ce que des niveaux d’études élevés entraînent des revenus importants. Le
modèle de régression simple
salaires = β1 + β2 instruction + ε,
néglige cependant le fait que la plupart des individus n’obtiennent des salaires élevés
qu’à un âge avancé, quel que soit leur niveau d’études. Ainsi, β2 va surestimer l’effet
marginal du niveau d’études. Si l’âge et l’instruction sont positivement corrélés, alors
le modèle de régression va associer toute hausse du salaire à une hausse du niveau
d’études. Une spécification tenant compte de l’effet de l’âge s’écrit
salaires = β1 + β2 instruction + β3 âge + ε.
On observe souvent que le salaire augmente moins vite durant les dernière années de
travail que pendant les premières. Pour prendre en compte ce phénomène, on redéfinit
le modèle pour obtenir
salaires = β1 + β2 instruction + β3 âge + β4 âge 2 + ε,
où les coefficients β3 et β4 sont supposés respectivement positif et négatif. Ce modèle
peut être utilisé pour comparer les salaires de deux individus de même âge mais ayant des
niveaux d’études différents, même si les données disponibles ne portent pas sur de tels
individus. Demeure la difficulté de mesurer le niveau d’études. Ashenfelter et Krueger
(1994) ont étudié les revenus de jumeaux en utilisant la spécification précédente. Nous
examinerons cette étude à la section 8.5.3. [Les études portant sur les jumeaux et, de
manière générale, sur les frères et sœurs offrent un courant de recherche intéressant sur
le lien entre le niveau d’instruction et le revenu. On pourrait citer comme exemples les
études de Ashenfelter et Zimmerman (1997) et de Bonjour, Cherkas, Haskel, Hawkes,
et Spector (2003).]
L’expérience sous-jacente au modèle de salaire spécifié précédemment est une comparaison entre deux individus qui sont identiques en termes de niveau d’instruction, mais
différents par leur âge. Si l’on considère cette interprétation, « l’effet » du niveau d’instruction sur le salaire est donné par ∂E[salaires|âge,instruction]/∂instruction = β2 .
En fait, l’économètre pense à l’expérience consistant à augmenter d’une année supplémentaire le niveau d’études de l’individu, ce qui est inobservable. En effet, il faudrait
pouvoir observer le niveau d’études de l’individu deux fois, à savoir tel qu’il est effectivement observé dans l’échantillon, instruction i , et une seconde fois dans le cas hypothétique (contrefactuel), instruction i + 1. Si nous considérons le niveau d’instruction
comme un « traitement », alors l’objectif de l’expérience est de mesurer « l’impact du
traitement sur les données traitées ». Au chapitre 19, nous obtiendrons un tel résultat
en utilisant des données non expérimentales.
De nombreuses études se sont penchées sur le sujet. Dans cette formulation, le niveau
d’instruction n’est pas vraiment « indépendant ». Les individus ayant une forte motivation choisiront de poursuivre leurs études. Ils peuvent également entreprendre des
démarches qui, en moyenne, leur garantiront des revenus plus élevés. Le cas échéant, un
β2 positif mesure-t-il vraiment l’effet du niveau d’instruction sur le revenu, ou reflète-t-il
✐
✐
✐
✐
✐
✐
✐
14
✐
certains effets sous-jacents sur les deux variables ? Nous aborderons ces questions dans
le chapitre 19. 2
2.3
Hypothèses du modèle de régression linéaire
Le modèle de régression linéaire se fonde sur un ensemble d’hypothèses concernant les
données et la relation retenue. Ces hypothèses sont énoncées au sein du tableau 2.1.
2.3.1
Linéarité du modèle de régression
Soient xk le vecteur colonne de n observations de la variable xk , k = 1, . . . , K, et X
une matrice n × K constituée des données ainsi empilées. Dans la plupart des cas,
la première colonne de X est formée du vecteur unitaire de sorte que β1 représente
la constante du modèle. Soient y le vecteur des n observations, y1 , . . . , yn , et ε le
vecteur des perturbations. Le modèle (2-1) se réécrit
y = x1 β1 + . . . + xK βK + ε,
(2-2)
ou, si l’on utilise l’hypothèse 1,
Hypothèse : y = Xβ + ε.
(2-3)
Notation
Nous utiliserons des caractères gras x pour désigner une colonne ou une ligne de X.
Dans (2-2), xk représente la k-ième colonne de X. Les indices j et k représenteront
les variables colonnes. La relation (2-3) se réécrit pour une observation
yi = x′i β + εi .
(2-4)
Les indices i et t désignent les observations lignes de X. Dans (2-4), xi est un
vecteur colonne, transposé de la i-ième 1 × K ligne de X.
Nous nous intéressons principalement à l’estimation et à l’inférence statistique du
vecteur des paramètres β. Remarquons que l’exemple 2.1 présente un cas particulier
de modèle simple de régression où X ne possède que deux colonnes dont la première
est la colonne unitaire. L’hypothèse de linéarité suppose également l’additivité de la
perturbation. Pour qu’une régression soit linéaire, elle doit être de la forme (2-1), soit
par rapport aux variables telles quelles, soit après une transformation appropriée. Par
exemple, le modèle
y = A xβ eε
2. Une autre difficulté à laquelle se trouve confronté l’économètre disposant de données en coupe
transversale est qu’il n’est pas possible, en comparant tout simplement les individus âgés et les jeunes
individus dans l’échantillon, de déduire les caractéristiques du revenu de ces derniers dans le cas où
ils seraient plus âgés. Nous reviendrons sur un problème comparable au chapitre 19 portant sur les
effets de traitement des données.
✐
✐
✐
✐
✐
✐
✐
2.3 – Hypothèses du modèle de régression linéaire
✐
15
Tableau 2.1 : Hypothèses du modèle de régression linéaire
H1. Linéarité : yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi . La relation entre y et
x1 , . . . , xK est linéaire.
H2. Plein rang : Il n’existe pas de relation linéaire exacte entre les variables
indépendantes. Cette hypothèse est nécessaire pour l’estimation des paramètres du
modèle.
H3. Exogénéité des variables indépendantes : E [εi | xj1 , xj2 , . . . , xjK ] = 0.
L’espérance de la perturbation conditionnelle aux réalisations des variables
indépendantes est nulle. En d’autres termes, les variables indépendantes
n’interviennent pas dans la prédiction de εi .
H4. Homoscédasticité et absence d’autocorrélation : La variance de εi est
constante et finie σ 2 et εi n’est pas corrélé avec εj , pour i 6= j. Cette hypothèse
restrictive sera dans certains cas levée dans les chapitres suivants.
H5. Génération des données : Les observations de (xj1 , xj2 , . . . , xjK ) peuvent
être un mélange de constantes et de variables aléatoires. Les hypothèses les plus
importantes, à ce stade de l’étude, sont l’hypothèse d’indépendance par la moyenne
(H3) et l’hypothèse implicite d’indépendance par la variance (H4). Les régressions
seront effectuées conditionnellement à X. Ainsi, que les variables explicatives soient
déterministes ou aléatoires n’a aucune influence sur les résultats. Plus tard dans
certains chapitres, nous préciserons la nature de la relation qui existe entre εi et xj .
H6. Distribution normale : Les perturbations sont distribuées selon la loi normale. Cette hypothèse n’est pas indispensable pour l’analyse.
est linéaire (après transformation logarithmique), alors que
y = A xβ + ε
ne l’est pas. Ainsi, la variable dépendante est la somme de deux composantes : une
composante déterministe α+βx et une composante aléatoire ε . Ces deux composantes
ne sont pas directement observées car α et β sont inconnus.
L’hypothèse de linéarité n’est pas aussi restrictive qu’il paraît au premier abord. Dans
la régression, la linéarité se réfère à la manière dont les paramètres et la perturbation
sont incorporés dans l’équation, pas nécessairement à la relation entre les variables.
Par exemple, les équations y = α + βx + ε, y = α + β cos(x) + ε, y = α + β/x + ε,
et y = α + β ln x + ε sont toutes linéaires par rapport à une fonction de x. Dans ces
exemples, seul x a été transformé, mais y aurait pu l’être également, comme dans
le cas y = A xβ eε où la transformation logarithmique donne ln y = α + β ln x + ε.
Plusieurs formes fonctionnelles peuvent être utilisées. Par exemple, le modèle loglinéaire s’écrit
ln y = β1 + β2 ln x2 + β3 ln x3 + . . . + βK ln xK + ε.
✐
✐
✐
✐
✐
✐
✐
16
✐
Cette équation est aussi appelée forme fonctionnelle à élasticité constante. En
effet, l’élasticité de y par rapport à x est ∂ ln y/∂ ln xk = βk . La forme log-linéaire est
souvent utilisée dans des modèles de demande et de production.
Exemple 2.3 : Le marché de l’essence aux États-Unis
Les données utilisées concernent le marché américain de l’essence et portent sur les
années 1953-2004. Elles sont fournies au tableau F2.2. Nous utilisons ces données pour
estimer l’élasticité de la demande par rapport au revenu et aux prix direct et croisé. Elles
nous permettent également de soulever l’intéressante question au sujet de la proposition
« toutes choses égales par ailleurs ». Considérons le modèle de consommation d’essence
par tête :
ln(essence/pop) = β1 + β2 ln(revenu/pop) + β3 lnPessence + β4 ln Pvoitures neuves
+ β5 ln Pvoitures d′ occasion + ε.
Dans cette spécification, les paramètres β mesurent respectivement les élasticités revenu,
prix croisés et prix directs des voitures neuves et d’occasion. La voiture et l’essence sont
des biens complémentaires. Si le prix des voitures neuves augmente, « toutes choses
égales par ailleurs », soit la consommation d’essence baisse, soit les consommateurs
réduisent leurs achats de voitures neuves. Si les voitures d’occasion consomment plus
d’essence que les neuves, alors une augmentation du prix des voitures neuves entraînera une augmentation de la consommation d’essence. On peut utiliser le modèle de
régression multiple et les données sur l’essence pour répondre à ces questions.
La spécification semi-log est souvent utilisée dans les modèles de croissance :
ln yt = x′t β + δt + εt .
Dans ces modèles, le taux de croissance autonome (non expliqué par le modèle luimême) est ∂ ln y/∂t = δ. D’autres formulations peuvent être issues de la forme
générale
f (yt ) = g(x′t β + εt ).
Le modèle de régression linéaire est parfois interprété comme une approximation d’une
fonction inconnue (voir section A.8.1). Cette interprétation du modèle linéaire a cependant ses limites car une telle approximation (même avec des formes quadratiques)
ne s’applique qu’à des cas restreints de variations des variables indépendantes. En revanche, le modèle « translog » étudié dans l’exemple suivant est plus souple en termes
d’approximation.
Exemple 2.4 : Le modèle translog
Les travaux récents portant sur la demande et la production utilisent des formes fonctionnelles flexibles. En économétrie, celles-ci permettent de modéliser les effets de
second ordre comme les élasticités de substitution, fonction de la dérivée seconde des
fonctions de production, de coût, ou d’utilité. Dans le modèle linéaire, ces effets sont
nuls. Le modèle log-linéaire (par exemple, le modèle de Cobb-Douglas) contraint ceuxci à prendre des valeurs inintéressantes, −1 ou +1. La forme fonctionnelle flexible la
plus courante est la forme translog. Elle est souvent interprétée comme une approximation de second ordre d’une forme fonctionnelle inconnue (Berndt et Christensen,
1973). Posons y = g(x1 , . . . , xK ). On a ln y = ln g(. . .) = f (. . .). Si l’on utilise la
transformation xk = exp(ln xk ), la fonction s’interprète comme le logarithme des x, et
✐
✐
✐
✐
✐
✐
✐
✐
17
ln y = f (ln x1 , . . . , ln xK ). Le développement de Taylor du second ordre au point x
= [1,1, . . . ,1]′ donne
ln y =f (0) +
K
X
[∂f (·)/∂ ln xk ]| ln x=0 ln xk
k=1
+
K
K
1 XX 2
[∂ f (·)/∂ ln xk ∂ ln xl ]| ln x=0 ln xk ln xl + ε.
2
k=1 l=1
Cette fonction se réécrit
ln y = β0 +
K
X
k=1
βk ln xk +
K
K
1 XX
γkl ln xk ln xl + ε.
2
k=1 l=1
Ce modèle est linéaire par définition mais peut s’adapter à plusieurs courbures lorsqu’il
est utilisé comme approximation d’une autre fonction. Le modèle log-linéaire devient
ainsi un cas particulier lorsque γkl = 0. En outre, on peut tester la théorie sous-jacente.
En effet, si la fonction étudiée est continue et deux fois différentiable, alors, d’après le
théorème de Young, γkl = γlk .
En dépit de sa grande souplesse, le modèle linéaire ne couvre pas tous les cas. Dans
l’exemple 18.10 du chapitre 18, nous étudierons un modèle de régression expliquant
le nombre de visites chez le médecin, un exemple déjà évoqué dans l’introduction
de ce chapitre. La moyenne conditionnelle E[y|x] = exp(x′ β) constitue une spécification adéquate pour une telle variable dépendante. On pourrait être tenté de
linéariser la moyenne conditionnelle par une transformation logarithmique, à savoir
ln E[y|x] = x′ β. Cela n’est pas une bonne idée puisque ln E[y|x] est différent de
E[ln y|x]. De plus, comme y peut prendre la valeur zéro (comme c’est le cas de beaucoup d’observations de l’échantillon), la spécification linéaire x′ β (qui peut être négative) ne peut s’appliquer ni à ln y ni à y. Ainsi, les méthodes envisagées dans ce
chapitre ne s’appliquent pas aux modèles ayant une variable dépendante similaire à
celle mentionnée dans ce paragraphe. Des techniques plus ou moins simples ont été
développées pour étudier ce genre de modèles non linéaires. Nous les étudierons dans
le chapitre 7.
2.3.2
Hypothèse de plein rang
L’hypothèse 2 énonce qu’il n’existe pas de relation linéaire exacte entre les variables.
Hypothèse : X est une matrice n × K de rang K.
(2-5)
Par conséquent, X est de plein rang-colonne. Les colonnes de X sont linéairement
indépendantes avec K observations au moins (voir A-42). Cette hypothèse est connue
sous le terme de condition d’identification. L’intérêt de cette hypothèse est illustré
dans l’exemple suivant.
✐
✐
✐
✐
✐
✐
✐
18
✐
Exemple 2.5 : Rang court
Soit le modèle en coupe transversale
C = β1 + β2 revenu non salarial + β3 salaire + β4 revenu total + ε,
où le revenu total est égal au salaire plus le revenu non salarial. Il existe évidemment
une relation linéaire exacte entre les régresseurs du modèle. Posons
β2′ =β2 + a,
β3′ =β3 + a,
β4′ =β4 − a,
où a est un nombre quelconque. Si l’on substitue β2′ , β3′ , et β4′ à β2 , β3 , et β4 , alors
on obtient la même valeur du second membre du modèle. Manifestement, on ne peut
estimer les paramètres de ce modèle.
Si le nombre d’observations est inférieur à K, alors X ne peut être de plein rang.
On formule donc l’hypothèse (redondante) que n est au moins aussi grand que K.
Dans un modèle linéaire avec deux variables et un terme constant, l’hypothèse de
plein rang signifie que le régresseur x varie. Dans le cas contraire, les observations
forment une ligne verticale. Ce dernier cas n’invalide pas les autres hypothèses du
modèle. Nous faisons juste face à un problème de données.
Exemple 2.6 : Un modèle non identifié
Dans l’exemple 3.4, nous étudierons un modèle dont la variable expliquée est le prix
de vente des toiles de Monet. Les théoriciens du domaine ont en tête divers modèles
expliquant le prix de vente de toiles vendues aux enchères. Un étudiant naïf suggère le
modèle suivant :
ln prix = β1 + β2 ln taille + β3 ln(rapport d′ aspect) + β4 ln hauteur + ε
= β1 + β2 x2 + β3 x3 + β4 x4 + ε,
où taille = largeur × hauteur et rapport d′ aspect = largeur/hauteur. Ce modèle a les
mêmes problèmes que rencontre le modèle de consommation de l’exemple 2.5. Dans ce
cas-ci, x2 − x4 = x3 + x4 , ce qui rend le modèle non estimable car non identifé.
2.3.3
Régression
La structure du terme d’erreur est telle que
E [εi | X] = 0.
(2-6)
Pour l’ensemble des observations, l’hypothèse 3 se réécrit :


E [ε1 | X]
 E [ε2 | X] 


Hypothèse : E [ε | X] = 
 = 0.
..


.
(2-7)
E [εn | X]
✐
✐
✐
✐
✐
✐
✐
✐
19
Notons que dans (2-7), le membre de gauche stipule que l’espérance de chaque εi
conditionnellement à toutes les observations xi est nulle. Cela signifie que les observations x ne fournissent pas d’informations sur la valeur moyenne de la perturbation. Dans le cas des séries temporelles, bien que xi ne donne pas d’information
sur E[εi |·], il se pourrait que xj donne des indications sur les observations des périodes futures. Nous étudierons les conséquences de l’omission d’une telle hypothèse
(Wooldridge, 1995). Nous supposerons également que les perturbations ne donnent
aucune information sur elles-mêmes, c’est-à-dire E [εi | ε1 , . . . , εi−1 , εi+1 , . . . , εn ] = 0.
À ce niveau, nous supposons que les perturbations sont générées de manière purement
aléatoire.
La nullité de l’espérance conditionnelle entraîne également celle de l’espérance non
conditionnelle puisque
E [εi ] = Ex [E [εi | X]] = Ex [0] = 0.
En effet, pour chaque εi , Cov[E [εi | X], X] = Cov[εi , X] et l’hypothèse 3 suppose que
Cov[εi , X] = 0 pour tout i. L’implication inverse n’est pas vraie, c’est-à-dire, E[εi ] = 0
n’implique pas E[εi |xi ] = 0. L’exemple suivant illustre ce phénomène.
Exemple 2.7 : Non-nullité de la moyenne conditionnelle des perturbations
La figure 2.2 montre la différence qui existe entre E[εi ] = 0 et E[εi |xi ] = 0. Globalement, la moyenne des perturbations dans l’échantillon est nulle. Cependant, si l’on se
restreint à des intervalles spécifiques de x, cette moyenne est non nulle. Une telle observation dans l’échantillon devrait nous amener à nous interroger sur l’adéquation de
cette hypothèse. Dans ce cas précis, la véritable expression de la moyenne conditionnelle
(que l’économètre ne connaît pas en général) est E[y|x] = 1 + exp(1,5x). Visiblement,
le modèle linéaire ne s’applique pas aux données de cet échantillon.
12
10
8
Y
6
4
2
0
0
0,25
0,50
0,75
1
1,25
1,50
X
Ajustement Y
a = +0,8485
b = +5,2193
R2 = 0,9106
Figure 2.2 : Perturbations dont la moyenne conditionnelle est non nulle
mais dont la moyenne non-conditionnelle est nulle.
✐
✐
✐
✐
✐
✐
✐
20
✐
Dans la plupart des cas, l’hypothèse de nullité de l’espérance n’est pas restrictive.
Considérons un modèle à deux variables et supposons que l’espérance de ε est µ 6= 0.
Alors, α + βx + ε est identique à (α + µ) + βx + (ε − µ). Si l’on pose α′ = α + µ et
ε′ = ε − µ, on reproduit le modèle d’origine. Les analyses concernant les frontières de
la fonction de production fournissent un exemple d’application dans le chapitre 18.
Si le modèle d’origine ne contient pas de terme constant, supposer que E [εi ] = 0
pourrait être substantiel. Cela suggère l’existence d’un problème possible dans les
modèles sans constante. En règle générale, les modèles de régression ne devraient pas
être spécifiés sans constante, à moins que cela ne soit explicitement dicté par la théorie
sous-jacente. 3 Si nous avons des raisons de supposer que l’espérance de la perturbation
est non nulle, alors cela doit être spécifié dans la régression. L’hypothèse 3 suppose
également que
E [y | X] = Xβ.
(2-8)
La régression de y sur X est l’espérance conditionnelle, E [y | X]. Si l’on omet l’hypothèse 3, Xβ n’est pas la fonction « espérance conditionnelle ».
Les autres hypothèses apportent des informations supplémentaires sur les caractéristiques des perturbations et indiquent sous quelles conditions sont obtenues les observations de x.
2.3.4
Perturbations sphériques
La quatrième hypothèse concerne la variance et la covariance des perturbations :
Var[εi | X] = σ 2 ,
pour tout i = 1, . . . , n,
et
Cov[εi , εj | X] = 0,
pour tout i 6= j.
Lorsque la variance est constante, on parle d’homoscédasticité. Soit le modèle expliquant les profits d’une entreprise en fonction de sa taille. Même en tenant compte
de la taille, les profits des grandes entreprises seront sujets à des variations plus importantes que ceux des petites. L’hypothèse d’homoscédasticité ne semble donc pas
convenir dans ce cas. De même, les dépenses des ménages sont soumises à une forte
hétéroscédasticité même si le revenu et la taille du ménage sont pris en compte.
Lorsque les observations ne sont pas corrélées entre elles, on parle de d’absence
d’autocorrélation. La figure 2.1 suggère que les perturbations ne sont pas vraiment indépendantes. Bien que le nombre d’observations soit faible, il apparaît que,
en moyenne, chaque perturbation tend à être suivie d’une autre de même signe. Cette
« inertie » est appelée autocorrélation. Beaucoup d’études sont consacrées aux méthodes permettant de tenir compte de l’autocorrélation (voir chapitre 20). Notons
que l’absence d’autocorrélation ne suppose pas que les observations yi et yj ne soient
3. Les modèles de différences premières peuvent être spécifiés sans constante de régression. Considérons yt − yt−1 . S’il existe une constante α dans le membre de droite de l’équation, alors yt est
une fonction de αt, qui est alors un régresseur explosif. Les modèles avec une tendance linéaire font
l’objet d’une attention particulière dans la littérature sur les séries temporelles (voir chapitre 19).
✐
✐
✐
✐
✐
✐
✐
✐
21
pas corrélées. L’hypothèse énonce que les écarts des observations par rapport à leurs
moyennes ne sont pas corrélés. Ces deux hypothèses supposent que


E [ε1 ε1 | X] E [ε1 ε2 | X] . . . E [ε1 εn | X]
 E [ε2 ε1 | X] E [ε2 ε2 | X] . . . E [ε2 εn | X] 


E [εε′ | X] = 

..
..
..
..


.
.
.
.
E [εn ε1 | X] E [εn ε2 | X] . . . E [εn εn | X]
 2
σ
0 ... 0
 0 σ2 . . . 0

=
..

.
0 0 . . . σ2
Cela se résume dans l’hypothèse 4 :
Hypothèse :



.

E [εε′ | X] = σ 2 I.
(2-9)
Si l’on utilise la formule de la décomposition de la variance (B-69), on obtient
Var[ε] = E [Var[ε | X]] + Var[E [ε | X]] = σ 2 I.
Dans le cadre des séries temporelles, les modèles du type Var[εt | εt−1 ] = σ 2 + αε2t−1
– dits « GARCH » (voir chapitre 20) – ne violent pas l’hypothèse précédente, mais
supposent que Var[εt | εt−1 ] 6= Var[εt ].
Les perturbations qui ne satisfont pas les hypothèses d’homoscédasticité et d’absence
d’autocorrélation sont parfois dites sphériques. 4
2.3.5
Processus générateur des régresseurs
On suppose généralement que xi est non stochastique, ce qui est le cas des données
expérimentales. Dans une étude, la liste des régresseurs est choisie pour yi donné.
À ce stade, l’hypothèse de régresseurs non stochastiques est purement d’ordre technique et simplifie l’analyse. En effet, cela permet d’utiliser des résultats de statistique
mathématique en considérant le vecteur xi comme une constante connue pour la distribution de probabilité de yi . Dans ce cas, les hypothèses H3 et H4 deviennent non
conditionnelles et la distribution de probabilité de εi n’incorpore pas de constantes
de X.
Les spécialistes des sciences sociales n’ont presque jamais accès à des données expérimentales, et seuls quelques-uns de leurs modèles sont construits avec des régresseurs
non aléatoires. Une telle approche paraît difficilement soutenable dans un modèle
macroéconomique. Normalement, les régresseurs xi ainsi que yi devraient être aléatoires et le problème est alors celui de la nature du processus générant les régresseurs.
4. Ce terme se rapporte à la distribution normale multivariée (voir B-95). Dans la densité normale
multivariée, si Σ = σ2 I, alors f (x) = c est l’équation d’une « boule » centrée en µ de rayon σ dans
un espace de dimension n. Le terme sphérique est employé, que la distribution supposée soit normale
ou non. Parfois cette hypothèse est explicite.
✐
✐
✐
✐
✐
✐
✐
22
✐
Si ces derniers sont aléatoires, la distribution conjointe de yi et de xi doit être prise en
compte en énonçant les hypothèses 1 à 4. La nature précise du régresseur et la manière
dont on conçoit le processus d’échantillonnage sont primordiales pour les propriétés
statistiques des estimateurs et des statistiques de test. Finalement, l’hypothèse essentielle est l’hypothèse 3 d’absence de corrélation entre X et ε. Cette méthode ne
semble pas complètement satisfaisante non plus, puisque X peut contenir des éléments non stochastiques, y compris une constante, une tendance temporelle, et des
variables indicatrices (ou muettes). Nous supposerons alors que X peut être un mélange de constantes et de variables aléatoires et que la moyenne et la variance de εi
sont indépendantes de tous les éléments de X.
Hypothèse :
2.3.6
X peut être fixe ou aléatoire.
(2-10)
Normalité
On suppose que les perturbations sont normalement distribuées, d’espérance nulle
et de variance constante. Ce faisant, on ajoute la normalité de la distribution aux
hypothèses 3 et 4.
Hypothèse : ε | X ∼ N [0, σ 2 I].
(2-11)
Compte tenu de la structure et de la source de ε, les conditions d’application du
théorème central limite sont vérifiées, du moins approximativement, et il est raisonnable de formuler l’hypothèse de normalité. Cette dernière semble souvent inutile et
inadéquate dans le cadre des modèles de régression. Mis à part les situations où une
distribution différente est clairement spécifiée [c’est par exemple le cas des modèles
à frontières stochastiques (voir chapitre 18)], l’hypothèse de normalité est tout à fait
raisonnable.
L’hypothèse de normalité n’est pas nécessaire pour obtenir les résultats du modèle de
régression multiple. Elle permet cependant d’obtenir des résultats statistiques exacts,
et de construire des intervalles de confiance et des statistiques de test, comme nous le
montrerons à la section 4.5 et au chapitre 5. Cette hypothèse sera levée ultérieurement
et la plupart des résultats statistiques maintenus (voir sections 4.4 et 5.6).
2.3.7
Indépendance
Le terme « indépendant » a été utilisé plusieurs fois dans ce chapitre. À la section 2.2,
nous avons appelé les régresseurs du modèle variables indépendantes. Cette notion
d’indépendance s’explique par les sources de variation qui, dans ce contexte, sont
extérieures au processus décrit. Ainsi, dans notre exemple de demande de soins de
santé, nous avons expliqué les variations dans la demande de soins par des variations
de revenu. Nous n’avons cependant pas donné d’explications concernant les variations
du revenu. Nous avons ainsi supposé que celles-ci proviennent de sources extérieures
au modèle.
On appelle l’hypothèse (2-6), à savoir E[εi |X] = 0, l’hypothèse d’indépendance par
la moyenne. Elle suppose que les variations des perturbations ne sont pas expliquées
par celles des variables indépendantes. Nous avons aussi supposé à la section 2.3.4
que les perturbations sont non corrélées entre elles (hypothèse H4 du tableau 2.1).
✐
✐
✐
✐
✐
✐
✐
✐
Résumé et conclusions
23
Cela implique que E[εi |εj ] = 0 pour tout i 6= j, c’est-à-dire, les perturbations sont
aussi indépendantes à travers leur moyenne. L’hypothèse de leur normalité (conditionnelle) de la section 2.3.6 (hypothèse H6) suppose qu’elles sont statistiquement
indépendantes, ce qui constitue une hypothèse plus forte que celle d’indépendance
par la moyenne.
Nous avons enfin étudié à la section 2.3.2 l’indépendance linéaire des colonnes de
la matrice X. Cette notion d’indépendance provient de l’algèbre et est liée à la notion
de rang en colonnes de X. Pour la modélisation, une telle notion implique que, si les
variables ne varient pas de façon indépendante, il est impossible de les inclure dans
un modèle de régression linéaire. Il existe cependant une ambiguïté dans cette notion
d’indépendance des variables. En effet, nous avons inclus dans l’exemple 2.2 âge et
âge2 comme régresseurs. Ces régresseurs ne varient pas de façon indépendante l’un de
l’autre, ce qui ne constitue pas un obstacle à l’estimation du modèle de régression. En
effet, même si ces deux variables ne sont pas indépendantes de façon fonctionnelle,
elles le sont de façon linéaire. C’est cette dernière hypothèse qui compte pour le
modèle de régression linéaire.
Résumé et conclusions
Ce chapitre a posé le cadre du modèle de régression linéaire qui sert de point de départ
à la modélisation en économétrie. Les hypothèses du modèle sont résumées au sein de
la figure 2.3 dans le cas de deux variables.
E(y | x)
x
E(y|x
x2 )
N(
E(y|x
x1 )
E(y|x
x0 )
x0
x1
x2 ,
x2
2
)
x
Figure 2.3 : Le modèle de régression.
✐
✐
✐
✐

Le modèle de régression linéaire

Transcription

Documents pareils

Sté MIRKENTA sarl BP.29 ZI 1 chemin de la Sablière 91430 Igny Tél.

Intitulé du cours ECONOMETRIE Code du cours QANT1324 Type

Développement psychomoteur

« Madame, couvrez ce sein que je ne saurais voir !» La négociation

R RÉGRE ESSION AVEC R R

VANDA LOURENÇO, Faculdade de Ciências e Tecnologia da

Calcul des paramètres statistiques, régression

Utilisation de la fréquence cardiaque nette (FCN) pour apprécier ou

bac lecorbusier - SNES Versailles