Polycopié de cours (100p) : disponible à mi

Transcription

Polycopié de cours (100p) : disponible à mi
Econométrie
F. Karamé
Introduction
1 Qu’est-ce que l’économétrie ?
1.1 Définition
Littéralement : c’est la mesure en économie. Mais un peu large car cela inclut alors toutes les
définitions d’agrégats macro-économique de la comptabilité nationale. Une autre définition
donnée par Maddala (un vénérable économètre) :
« Il s’agit de l’ensemble des méthodes statistiques et mathématiques
appliquées à l’analyse de données économiques. Son but consiste à fournir
un contenu empirique aux théories économiques en les vérifiant ou en les
réfutant. »
L’analyse économique est basée sur des représentations théoriques qui décrivent le
comportement des agents et les mécanismes à l’origine des phénomènes observés. Ce sont
des énoncés logiques qui reposent sur des hypothèses plus ou moins réalistes et qui
conduisent à des conclusions dont la portée peut être positive ou normative.
Ces énoncés théoriques doivent être confrontés à la « réalité », c'est-à-dire les données, pour
être validés ou invalidés. C’est à l’économétrie qu’il revient de procéder à cette confrontation,
par l’application de méthodes statistiques issues de la théorie des probabilités.
1.2 Historique
-
C’est une science jeune : apparition de la discipline en 1930 avec la création de la
société d’Econométrie (Frish et I. Fisher).
Mais les méthodes employées existent depuis les XVIIIème et XIXème siècles : méthode
des moindres carrés par Legendre [1805], la droite de régression par Galton [1886],
différents travaux sur l’estimation des fonctions d’offre et de demande de blé aux USA
-
entre 1910 et 1930. Les tous premiers travaux sur la consommation datent de 1699 par
Davenant.
1933 : publication de la revue de la société d’Econométrie : Econometrica.
1944 : avènement de l’économétrie moderne avec l’intégration de l’approche probabiliste
dans la démarche économétrique : article fondateur de Haavelmo dans Econometrica.
Utilisation de la statistique inférencielle pour spécifier la relation entre les lois
économiques et les données observées.
1.3 Le rôle de l’économétrie
Deux fonctions essentielles :
- Tester les théories économiques : bien que découlant de raisonnements rigoureux, les
théories reposent également sur des hypothèses plus ou moins vraisemblables et donc
discutables. D’où la coexistence de différentes théories parfois contradictoires.
L’économétrie doit donc permettre de trancher.
- Evaluer les paramètres d’intérêt dans les relations économiques : l’idée est aussi
d’avoir une fonction d’évaluation des paramètres. Expl : le cas de la fonction de
consommation du type C i = α + βR i . Quand le revenu varie, quel est l’impact sur la
consommation ? Expl : obtenir des prévisions pour C.
Capturer et expliquer la « réalité » au moyen d’un modèle économétrique est donc le but de
l’économétrie.
Le plan de cette introduction générale est donc le suivant.
Dans un premier temps, nous allons donc nous intéresser à ce qu’est cette réalité au travers
des données. Ensuite, nous étudierons la notion de modèle économétrique, qui est l’outil
qui nous permettra de capturer cette réalité. Enfin, nous verrons comment spécifier,
estimer et évaluer un modèle économétrique.
2 Les données
Les données sont au centre de la réflexion économétrique. En effet, ce sont elles qui vont
permettre de mesurer le phénomène étudié et ses déterminants. C’est la « réalité » que le
modèle économétrique cherche à représenter. Dès lors, un vrai travail de recherche, de
construction quand c’est possible, mais surtout de sélection, d’interprétation, de
compréhension et d’analyse critique des données doit être mené en préalable à toute
étude, afin de connaître les richesses et les limites des données que l’on utilise. Nous
verrons également plus tard qu’elles conditionneront les choix méthodologiques
effectués.
On considérera ici la convention suivante : les données sont des tableaux avec les
observations en ligne et les variables en colonnes.
Il existe différents types de données permettant différents types d’analyse.
2.1 La nature des observations
-
-
-
Les séries temporelles ou chronologiques correspondent à des observations répétées
de variables (généralement des agrégats macro-économiques) à intervalles temporels
réguliers (le mois, le trimestre, le semestre, l’année). On les note généralement avec un
indice t faisant référence à la date (avec t = 1,…, T).
Les coupes instantanées ou transversales ou encore en coupe correspondent à
l’observation à un moment donné de différents individus (entreprises, ménages,
secteurs, pays, …). On les note généralement avec un indice i faisant référence au
numéro de l’individu observé dans l’échantillon (avec i = 1,…, N).
Enfin, les données de panel ou encore individuelles-temporelles intègrent les deux
dimensions individuelles et temporelles et permettent le suivi des variables caractérisant
4
des individus au cours du temps. Les données sont double-indicées en i pour les
individus et en t pour les dates (avec t = 1,…, T et i = 1,…, N).
La première et dernière catégories de données feront l’objet de techniques spécifiques.
Certaines données, comme les données financières, peuvent ne pas être observées à
intervalles réguliers. Elles feront également l’objet de méthodes spécifiques.
2.2 La nature des variables
Beaucoup de variables sont quantitatives, c’est-à-dire mesurent des phénomènes en
prenant des valeurs numériques réelles. Par exemple, le montant de consommation, de
l’investissement, … D’autres sont qualitatives et mesurent les phénomènes au moyen de
valeurs numériques entières. Par exemple, le sexe : codage à 1 pour les hommes et 2 pour
les femmes.
Une variable qualitative peut très bien être utilisée pour expliquer un phénomène
quantitatif. Par exemple, la disparité de salaires s’explique en fonction du sexe, du diplôme,
… Cela ne soulève pas de problème particulier d’un point de vue méthodologique.
A l’inverse, on peut aussi chercher à expliquer une variable qualitative. Par exemple, les
déterminants de l’obtention d’un CDI. Cela pose alors des problèmes spécifiques qui seront
traités avec des méthodes spécifiques.
2.3 Collecte et construction des données
Les données individuelles peuvent concerner des individus, ménages ou entreprises. Elles
peuvent être exhaustives (obtenues par recensement) ou d’enquêtes. Dans ce dernier cas, il
faut s’interroger sur la signification des réponses, à mettre en relation avec
- la rédaction du questionnaire et le type de questions posées : questions parfois
sensibles du type salaires, impôts, … qui vont conditionner l’honnêteté de la réponse
- la méthode d’échantillonnage utilisée et la fréquence des interrogations : par exemple
problème de l’impôt statistique pour les petites entreprises.
- le mode d’interview utilisé : face à face, téléphone, courrier, …
Enfin, on s’expose au problème de traitement, lourd selon la taille de l’échantillon, coûteux
en temps d’exploitation et économiquement, aux problèmes de non réponses, d’erreur de
mesure, …. Ces différents points feront l’objet d’un cours spécifique de théorie des sondages
au second semestre.
Les données agrégées peuvent être à la fois temporelles ou en coupe, et concerner des
agrégats macro-économiques (production, investissement, exportations ou importations, …)
ou des regroupements d’individus (régions, secteurs, …). A ce niveau, on peut s’intéresser à
des modèles macro-économiques permettant d’effectuer des simulations de politiques
économiques. Cependant plusieurs inconvénients apparaissent. D’une part, les données
agrégées sont moins précises (et moins potentiellement moins riches puisque qu’en
sommant sur les individus, on perd l’information capturée par l’hétérogénéité individuelle).
D’autre part, on s’expose à des biais d’agrégation dans la mesure où les comportements des
individus agrégés sont hétérogènes.
3 La notion de modèle économétrique
Prenons le cas de deux variables : C la consommation et R le revenu. Et supposons que l’on
observe ces 2 informations pour N individus, notés génériquement i.
3.1 Les différents types de relations entre variables
On peut dire qu’il existe trois types de relations possibles entre ces deux variables.
La première est la relation fonctionnelle déterministe : à une valeur de Ri correspond une
valeur de Ci.
La représentation graphique associée dans le cas où la relation est linéaire, est alors :
5
5
4
3
Ci
2
1
0
0
2
4
6
Ri
8
10
12
Graphique 1 : relation déterministe fonctionnelle
La deuxième est l’absence de toute relation entre les deux variables. On parle alors
d’indépendance. La représentation graphique donne alors :
4
3
Ci
2
1
0
0
2
4
6
8
10
12
Ri
Graphique 2 : indépendance
A toute valeur de Ri peut correspondre une infinité de valeurs de Ci.
Le troisième type de relation se situe entre les deux. On fait l’hypothèse d’une relation
fonctionnelle, mais celle-ci n’est pas parfaitement vérifiée pour chaque observation parce
que la réalité économique est trop complexe à appréhender.
La représentation graphique est alors :
6
5
4
Ci
3
2
1
0
0
2
4
6
8
10
12
Ri
Graphique 3 : corrélation linéaire positive
6
On dit alors que les deux variables sont corrélées. Le graphique précédent montre que la
relation représentée par la droite ne passe pas exactement par tous les points de
l’échantillon, mais que les 2 variables semblent montrer « un certain degré de dépendance »
et que la droite passe « au milieu du nuage de points ».
Il existe deux types de corrélations : la corrélation linéaire et la corrélation non linéaire.
Le graphique 3 fournit une représentation de corrélation linéaire positive. Le graphique 4
présente une corrélation non linéaire positive.
12
9
6
3
0
0
2
4
6
8
10
Graphique 4 : corrélation non linéaire positive
Il existe bien évidemment les cas de corrélation négative (linéaire et non linéaire). Le
graphique 2 représente un cas de corrélation nulle. Le graphique 1 représente le cas d’une
corrélation linéaire parfaite.
Pour mesurer la corrélation linéaire entre deux variables x et y, on utilise le coefficient de
corrélation linéaire simple :
n
rx , y =
Cov (x , y )
=
σx σy
∑ (xi − x )(yi − y )
i =1
n
n
i =1
i =1
∑ (xi − x )2 ∑ (yi − y )2
Ce coefficient est compris entre –1 et 1.
•
Ainsi, pour un coefficient de corrélation linéaire simple proche de 1, les deux
variables sont très linéairement corrélées positivement (quand une variable
évolue dans un sens, l’autre évolue dans le même sens).
•
Pour un coefficient de corrélation linéaire simple proche de –1, les deux variables
sont très linéairement corrélées négativement (quand une variable évolue dans
un sens, l’autre évolue dans le sens contraire).
•
Enfin, pour un coefficient de corrélation linéaire nul, les deux variables sont non
corrélées linéairement. Quand une variable évolue dans un sens, on ne peut rien
dire sur le sens d’évolution de l’autre variable (dans le cadre d’une relation
linéaire).
Il convient de noter qu’une corrélation linéaire nulle ne signifie pas l’absence de corrélation
non linéaire entre les deux variables. Autrement dit, l’absence de corrélation linéaire
n’implique pas l’indépendance.
7
3.2 Implications
Plaçons-nous dans le cas de la corrélation, qui permet de retrouver les 2 cas extrêmes de
relation mathématique et d’indépendance. On considère que chaque ménage est ici un cas
particulier d’une règle générale spécifiée dans l’équation suivante :
Ci = f (Ri ) + ui
On observe Ri et Ci pour chaque ménage i (ou plus généralement observation i), la fonction
f(.) est supposée. On a également supposé que Ci est la variable à expliquer et Ri la variable
explicative. Un modèle peut comporter plusieurs variables explicatives. Ici, on a fait un
pas supplémentaire vers un schéma explicatif puisque contrairement à la
corrélation qui est une relation symétrique, on suppose un sens de causalité de la
variable R vers la variable C.
Pour gérer les erreurs et l’incertitude inhérentes au modèle que l’on s’est donné, on
utilise une approche probabiliste qui considère ui comme une variable aléatoire appelée
perturbation aléatoire. ui représente et capture :
•
l’oubli de variables dans le modèle,
•
l’absence de variables explicatives remplacées par des approximations,
•
tous les facteurs du second ordre qui ne sont pas pris en compte dans le schéma explicatif
de notre modèle,
•
les erreurs de mesure sur les variables,
• l’incertitude sur la forme du modèle f,
en un mot, tout ce qui nous éloigne de la vraie équation du processus qu’on cherche à
expliquer.
ui est un processus théorique, non observable et il en existe une réalisation particulière pour
chaque observation i.
On fixera certaines propriétés de ui. Ainsi, lorsqu’on spécifie comme loi des perturbations, une
2
loi normale N (0, σ ) par exemple, on qualifie l’approche de paramétrique. Dans le cas
contraire, elle est semi-paramétrique.
Remarques :
- Comme ui est aléatoire, Ci l’est aussi d’après le modèle. On considère alors que
l’observation de la consommation de l’observation i est fournie par la réalisation de la
variable aléatoire Ci lors du tirage aléatoire de notre échantillon dans la population.
-
Si on connaissait toutes les variables explicatives de Ci, on pourrait en théorie
construire la relation fonctionnelle déterministe, c’est-à-dire non aléatoire. Même si
de toutes façons cela n’est pas possible, on ne le voudrait pas forcément, dans la mesure
où on recherche une approximation acceptable de la réalité.
D’où un premier essai de définition…
3.3 Définition d’un modèle économétrique
Un modèle économétrique est une équation dont le rôle est « d’expliquer » un phénomène
grâce à des variables que l’on juge déterminantes au premier plan. L’objectif en est de
capturer le ou les faits les plus marquants de la réalité qu’il cherche à représenter.
Le modèle économétrique est une « histoire » qui s’applique à chacune des observations de
l’échantillon, à une erreur possible près représentée par la perturbation aléatoire.
Les paramètres inconnus du modèle mesurent l’impact des variables explicatives sur la
variable à expliquer. C’est l’économétrie qui va permettre une évaluation de ces
8
paramètres en utilisant l’information contenue dans toutes les observations de
l’échantillon et donc d’analyser et d’utiliser les résultats obtenus.
Du fait des différentes sources d’incertitude qui l’entourent, il faut comprendre et
accepter que tout modèle économétrique est une représentation simplifiée voire
simpliste d’une réalité complexe. On pourrait donc le considérer dès le départ et quels que
soient nos efforts, comme erroné. L’idée étant cependant que cette représentation soit
acceptable au regard de critères techniques et interprétatifs. Le but étant, au travers du
modèle économétrique et de son évaluation, de « raconter une histoire convaincante » pour
expliquer le phénomène étudié.
3.4 Discussion sur la notion de modèle économétrique
Un modèle économétrique est donc une représentation forcément simplifiée d’un
phénomène (expl : la consommation d’orange dépend du prix des oranges). En effet, on
pourrait dire aussi que cela dépend de la consommation de café, du prix des pommes, du
temps pour la récolte, du prix de l’essence …
Cette approche simplifiée dépend aussi de façon cruciale des données dont on dispose ou
dont on peut disposer. Il faut y inclure toutes celles dont on pense qu’elles jouent un rôle
vraiment important et ne pas s’occuper des autres. Ces dernières sont alors incluses dans la
perturbation aléatoire.
Une question se pose alors concernant la fiabilité d’un modèle économétrique pour
raconter des histoires et s’il peut constituer une représentation acceptable de la
« réalité ».
Selon Popper [1959] et Friedman [1953], un modèle est forcément quelque chose de simple
car c’est plus facile à comprendre, à faire comprendre et à tester. Mais cela conduit
cependant à deux critiques importantes.
- La sur-simplification : dans l’exemple précédent, la spécification du modèle
économétrique est trop simpliste. En règle générale, deux écoles s’affrontent pour
spéficier un modèle :
- la première dit qu’il faut commencer par un modèle simple et le
compliquer progressivement (Koopmans [1957], conception ascendante de
la modélisation).
- La seconde dit qu’il faut partir d’un modèle très général et le simplifier
progressivement sur la base des données utilisables et de tests
statistiques (Sargan puis Hendry, conception descendante de la
modélisation).
- Les deux s’accordent pour retenir le modèle présentant un arbitrage
acceptable entre parcimonie et réalisme.
- Les hypothèses irréalistes : sur ce point, Friedman réplique en soulignant que la
question n’est pas tant de savoir si les hypothèses formulées par les théories sont
réalistes sur le plan descriptif (ce qu’elles sont rarement) mais plutôt si elles
constituent des approximations suffisamment bonnes pour répondre à la question
que l’on se pose. Et l’on ne peut y répondre qu’en regardant si une théorie
fonctionne, c’est-à-dire si elle fournit des prédictions suffisamment précises.
4 Le modèle linéaire
La première étape de l’analyse économétrique consiste à dégager les mécanismes théoriques
à l’œuvre pour expliquer le phénomène qui nous intéresse.
La deuxième étape de l’analyse consiste ensuite à en déduire la forme de la relation entre les
variables explicatives supposées et la variable à expliquer. C’est généralement une forme
linéaire qui est retenue, du fait de sa simplicité. Notre modèle s’écrit donc :
Ci = a + bRi + ui
9
Dans la nature, il n’y a absolument aucune raison qu’une relation soit linéaire en fonction
des coefficients. En effet, les implications d’une telle hypothèse sont fortes. Ici, si le revenu
varie positivement d’une unité, la consommation varie de b unités. Inversement, si le revenu
varie négativement d’une unité, alors la consommation varie de –b. Retenir une telle
spécification implique donc une réponse symétrique de la consommation à une variation du
revenu, ce que l’on pourrait considérer comme une hypothèse forte.
Cependant, retenir une forme linéaire pour la spécification du modèle économétrique a
aussi le mérite d’éviter d’avoir recours à des méthodes économétriques plus complexes, tout
en n’interdisant pas forcément de s’intéresser à des phénomènes fortement non linéaires.
L’important pour la suite étant que le modèle soit linéaire en les coefficients ; rien
n’interdit de faire apparaître des variables ayant subi des transformations non
linéaires…
Expl1 : la relation entre la formation du salaire et l’expérience professionnelle.
wi = a si + b étudei + c expi + d + ui
Un modèle linéaire pour cette représentation n’est pas réaliste dans la mesure où il revient à
dire qu’une année d’expérience supplémentaire en début ou en fin de carrière va induire une
augmentation identique du salaire. Or on sait que le rendement marginal de l’expérience est
décroissant : ainsi, les salaires croissent rapidement avec l’expérience en début de carrière
et de façon beaucoup plus lente par la suite. Ainsi, le modèle estimé sera plutôt :
2
wi = a si + b étudei + c expi + c ' (expi ) + d + ui
On constate qu’il s’agit encore d’un modèle linéaire sur le logarithme du salaire. On
conclura ici que le rendement marginal de l’expérience est décroissant si l’estimation de c’
est négative.
Expl2 : L’effet sur le niveau de consommation des ménages du nombre des enfants.
C i = α + βR i + γnenf i + u i
Il n’y a aucune raison de supposer qu’un enfant supplémentaire va avoir un effet identique
s’il y en a déjà 1 ou 8. Mais comment prendre en compte cet effet non linéaire car il existe
probablement des effets de discontinuités rendant la prise en compte de ces effets par une
forme quadratique difficile (achat d’une voiture plus grande, d’une maison plus grande, …).
Une possibilité est ici de poser les variables nenf0i égale à 1 pour des ménages n’ayant pas
d’enfant et à 0 sinon, nenf12i égale à 1 pour les ménages ayant 1 ou 2 enfants et à 0 sinon
et nenf3i égal à 1 pour les ménages ayant 3 enfants et plus et à 0 sinon. Le modèle devient
alors :
C i = βR i + γ 1nenf 0 i + γ 2nenf 12i + γ 3nenf 3 i + u i
Le modèle est toujours linéaire en ces coefficients, alors qu’on a modélisé plusieurs
discontinuités dans les données. Les effets différenciés portent sur le niveau moyen de la
consommation et sont pris en charge par les estimations de γ1 , γ 2 et γ 3 (voir exercice du
TD1).
Expl3 : la fonction de production de Cobb-Douglas : c’est une relation non linéaire entre le
niveau du produit Qt et les facteurs de production capital Kt et travail Lt :
α
β
Q t = AL t K t
Ce modèle non linéaire est équivalent à un modèle linéaire lorsqu’on en prend le
logarithme :
ln Q t = ln( A ) + α ln(L t ) + β ln( K t ) + u t
10
Cependant, l’exemple suivant montre que se ramener à une forme linéaire n’est pas toujours
possible.
Expl4 : l’estimation d’une fonction de production CES :
[
Qt = µL−t ρ + (1 − µ )K t− ρ
]
−
1
ρ
Il n’y a pas de traduction linéaire de ce modèle. Il faudra donc avoir recours à d’autres
méthodes que celles présentées ici pour l’estimer.
5 L’estimation des paramètres inconnus
La question posée, les données utilisées et la complexité de la spécification du modèle à
estimer conditionnent la méthode d’estimation à utiliser.
Plaçons-nous dans un cas simple et supposons que l’on cherche à présent à estimer le
modèle suivant :
yi = a + b xi + ui
On dispose des données concernant la consommation et le revenu pour N ménages à une
date donnée. Les données dont on dispose sont en réalité un échantillon supposé
représentatif tiré dans une population dont on cherche à caractériser les comportements de
consommation au moyen des paramètres inconnus a et b. Ainsi cette population peut être
l’ensemble des ménages belges de Los Angeles, des célibataires de Clermond-Ferrand, …
Pour cette population, on suppose qu’il existe une loi qu’il s’agit de connaître le mieux
possible au travers de l’échantillon tiré. Pour cela, on va calculer des estimations des
paramètres inconnus a et b à partir des observations de cet échantillon.
5.1 La méthode d’estimation des MCO
Les estimations sont obtenues grâce à une méthode d’estimation. Ici, on retiendra la
méthode des moindres carrés ordinaires (MCO ou Ordinary Least Squares en anglais)
car le modèle est linéaire en les coefficients.
Si ça n’avait pas été le cas, on aurait choisi une autre méthode plus adaptée (moindres
carrés non linéaires, maximum de vraisemblance, méthode des moments généralisée, ...).
Le principe de la méthode est le suivant. Pour une droite permettant d’ajuster le nuage de
points, on va minimiser la distance entre chaque point de la variable à expliquer et le
modèle. On va donc chercher une valeur pour les paramètres qui confère un rôle
(total quadratique) minimum aux perturbations aléatoires à chaque observation. Le
critère d’estimation est donc de trouver a et b tels que :
{aˆ, bˆ } = arg min ∑ u
N
a ,b
2
i
N
= arg min
a ,b
i =1
∑ (y
i
− a − bxi )2
i =1
Les estimations sont obtenues à partir de formules théoriques qui dépendent des variables
aléatoires caractérisant le problème étudié (en particulier yi) : ce sont des estimateurs, qui
sont donc eux-mêmes des variables aléatoires. En effet, comme ui est aléatoire, yi l’est
ˆ et Bˆ .
aussi, et comme l’estimateur est fonction de yi… On pourra noter les estimateurs A
La valeur des estimations, qu’on note aˆ et bˆ , dépend des observations de l’échantillon. Avec
un autre échantillon, l’application des formules des estimateurs donnerait des estimations
numériquement différentes mais d’un ordre de grandeur relativement comparable si les
deux échantillons sont représentatifs.
11
Remarque :
On manipule donc trois types de paramètres :
- a et b les « vrais » paramètres inconnus que l’on n’observe jamais, mais qui peuvent
être utilisés dans les calculs théoriques.
-
Aˆ et Bˆ les estimateurs, qui sont des variables aléatoires.
aˆ et bˆ les estimations des paramètres inconnus, c’est-à-dire des valeurs numériques
particulières associées à l’échantillon, des réalisations particulières des estimateurs
associées à l’échantillon.
Dans les cours d’économétrie traditionnels et à l’inverse des cours de probabilités, on fait
rarement la différence dans les notations entre les estimations et les estimateurs. Ce sera
donc à vous de bien faire attention lors des calculs concernant les propriétés théoriques des
estimateurs de savoir quel objet vous manipulez.
-
5.2 Les propriétés des estimateurs
Les estimateurs que l’on utilise pour évaluer les paramètres inconnus sont associés à la
méthode d’estimation choisie et sont intéressants pour les propriétés qu’ils possèdent et qui
peuvent varier d’une méthode d’estimation à une autre. Ainsi :
- lorsqu’ils fournissent en moyenne la valeur des paramètres inconnus, on dit alors qu’ils
sont sans biais (unbiased).
ˆ) = a .
Définition : l’estimateur  est sans biais si E (A
-
Les estimations sont réalisées avec des marges d’erreur dues aux imprécisions associées
aux incertitudes entourant le modèle. Ces marges d’erreur diminuent avec la taille de
l’échantillon, et on pourrait même dire que lorsque la taille de l’échantillon tend vers
l’infini (c’est-à-dire la taille de la population), on pourrait connaître parfaitement la
valeur des paramètres inconnus. On dit alors que les estimateurs sont convergents
(consistent).
Définition : l’estimateur  est convergent si V ( Aˆ ) → 0 .
N →∞
-
Lorsque parmi deux estimateurs du même paramètre, un possède une marge d’erreur
inférieure à l’autre, on dit qu’il est meilleur (best).
'
Définition : l’estimateur  est meilleur que Â' si V (Aˆ ) < V (Aˆ ) .
-
Enfin, si dans une classe d’estimateurs sans biais, un estimateur possède la plus petite
variance possible, on dit qu’il est efficace (efficient).
Si la méthode des MCO est plus utilisée que les autres, c’est parce que ses
estimateurs possèdent, sous certaines conditions, les meilleures propriétés possibles.
6 La démarche économétrique
Dans l’absolu, la démarche économétrique doit être la suivante.
1) Formuler clairement la question que l’on se pose.
2) Construire ou partir d’une théorie expliquant les différents mécanismes que l’on
cherche à mettre en évidence.
3) Sélectionner les données dont on a besoin, les construire et les étudier.
4) Formuler le modèle économétrique à partir de la théorie, de la disponibilité des
données et de ses propres a priori (interactions avec l’étape 3 pour ce qui est de la
collecte et de la construction des données dont on a besoin).
5) Estimer le modèle.
6) Tester la pertinence (statistique et logique) du modèle. S’il est rejeté par les tests
statistiques, revenir à l’étape 4 et éventuellement à l’étape 3.
12
7)
S’il est accepté, l’utiliser pour faire de la prévision ou des recommandations. Cette
étape permet donc de « valider » la théorie utilisée pour formuler le modèle, et
éventuellement d’orienter les évolutions théoriques à partir de ce que disent les
données. On est alors en présence d’une vraie interaction entre la théorie et
l’économétrie appliquée.
13
Chapitre 1
Le modèle de régression linéaire
Introduction et notations
Soit le modèle de régression linéaire multiple fourni par la théorie économique, et dans le
cadre de la démarche économétrique énoncée précédemment :
yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut
-
yt est la réalisation observée en t de la variable à expliquer, appelée encore variable
endogène ou variable dépendante.
-
-
x1t, x2t , …, xk−1t sont les réalisations observées en t des variables explicatives, encore
appelées encore variables exogènes ou variables indépendantes. Le modèle est multiple
s’il y en a plus d’une.
ut est la réalisation non observée en t de la perturbation aléatoire.
-
a et b1, … bk−1 sont les paramètres inconnus dont on recherche la valeur.
On a vu dans l’introduction générale que ce modèle est considéré comme linéaire, car yt est
une fonction linéaire des paramètres inconnus.
Il est qualifié de simple lorsqu’il ne comporte qu’une seule variable explicative.
yt = a + b xt + ut
Dans ce cas particulier, on va donc ajuster le nuage des observations par une droite dans le
plan (xt, yt) et les paramètres inconnus s’interprètent donc comme la pente de la droite pour
b et comme l’ordonnée à l’origine pour a.
14
6
5
4
Ci
3
2
1
0
0
2
4
6
8
10
12
Ri
Dans le cas du modèle de régression linéaire multiple, ce modèle comporte k variables
explicatives (y compris la constante) et l’ajustement du nuage des T observations se fera
par un (hyper-)plan de dimension k (le nombre des variables explicatives).
L’objectif est ici de fournir une estimation pour les paramètres a, b1, …, bk−1. Pour cela nous
utiliserons la méthode des MCO pour déduire les formules des estimateurs et leurs
propriétés.
Le plan du chapitre est le suivant.
•
Nous allons envisager les différentes écritures possibles du modèle et particulièrement
l’écriture générale matricielle (section 1).
•
Il sera ensuite nécessaire de formuler différentes hypothèses concernant les
perturbations aléatoires. Nous allons donc les énumérer et les interpréter (section 2).
•
Nous allons ensuite trouver la solution du problème des MCO et l’expression des
estimateurs (section 3).
•
Nous en étudierons ensuite les propriétés théoriques à distance finie (section 4) puis
asymptotiquement (section 5) en utilisant les différentes hypothèses formulées sur les
perturbations aléatoires.
•
Nous étudierons la possibilité d’estimateurs alternatifs comme celui du maximum de
vraisemblance et ses relations avec l’estimateur des MCO (section 6) pour nous
convaincre que c’est le meilleur estimateur possible.
•
Enfin nous discuterons des prévisions dans un modèle économétrique (section 7).
1 Les différentes formulations du modèle de
régression linéaire multiple
Pour passer aux notations matricielles, il est nécessaire d’appliquer l’écriture générique du
modèle pour chaque observation :
y1 = a + b1 x1,1 + b2 x 2,1 + ... + bk −1 xk −1,1 + u1
y2 = a + b1 x1,2 + b2 x 2,2 + ... + bk −1 xk −1,2 + u2
...
yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut
...
yT = a + b1 x1,T + b2 x 2,T + ... + bk −1 xk −1,T + uT
On peut réécrire vectoriellement le modèle linéaire en gardant bien à l’esprit les formats des
vecteurs :
15
 x1,1 
 xk −1,1   u1 
 y1 
1 



  
 
 
 x1,2 
 xk −1,2   u2 
 y2 
1 
 ... 
 ...
  ... 
 ... 
 ...
 + ... + bk −1 
+ 
  = a   + b1 
 x1,t 
 xk −1,t   ut 
 yt 
1 
 ... 
 ...
  ... 
 ... 
 ...



  
 
 



  
1 
 yT 
 x1,T 
 xk −1,T   uT 
On peut donc réécrire le modèle linéaire multiple comme une combinaison linéaire dans
T
IR :
y = a eT + b1 x1 + ... + bk −1 xk −1 + u
(T ×1)
(1×1) (T ×1) (1×1) (T ×1)
(1×1) (T ×1)
(T ×1)
avec
- y le vecteur des T observations de la variable à expliquer.
- eT le vecteur de dimension T ne comportant que des 1. C’est une « variable » qui prend la
même valeur pour toutes les observations. Elle capture donc ce qui est commun à
toutes les observations dans le phénomène à expliquer.
- x1,… xk–1 les (k – 1) vecteurs des T observations des variables explicatives. Chaque
variable prend des valeurs différentes entre les observations. C’est ce qui caractérise
l’hétérogénéité entre les observations dans le phénomène à expliquer.
- L’influence de chaque variable explicative sur le phénomène à expliquer est
mesurée par les k paramètres inconnus a, b1, … bk–1 dont on recherche la valeur.
C’est l’hétérogénéité des déterminants dans l’ensemble des observations qui va expliquer
l’hétérogénéité du phénomène à expliquer.
- u le vecteur des T réalisations non observées de la perturbation aléatoire.
Posons à présent la matrice X composée des observations des k variables explicatives (y
compris la constante) ainsi que β le vecteur contenant les paramètres inconnus à estimer :
1

 ...
X = 1
(T ×k ) 
 ...
1

xk −1,1 

...

xk −1,t 

...

xk −1,T 
x1,1
...
x1,t
...
x1,T
et
 a 


b
β = 1 
(k ×1)  ... 


 bk −1 
Il est important à ce stade d’envisager les deux sens de lecture de la matrice X :
-
-
d’une part, une ligne correspond à une observation, caractérisée dans l’espace des
k
variables IR (puisque ici une observation se définit avec k coordonnées). L’ajustement
du nuage de points des observations se fera dans l’espace des variables, comme on l’a vu
dans le cadre du modèle de régression linéaire simple.
D’autre part, une colonne correspond à une variable, caractérisée dans l’espace des
T
observations IR (puisque ici une variable se définit avec T coordonnées). Ce sont ces
variables qu’on étudie dans cet espace lors de l’interprétation géométrique des MCO.
Le modèle se réécrit alors :
y = X
(T ×1)
β + u
(T ×k ) (k ×1) (T ×1)
On a présenté précédemment la matrice X, soit de façon encore condensée sous sa forme en
colonne :
16

X =  eT
(T ×k )  (T ,1)

x1
...
(T ,1)

xk −1 

(T ,1) 
Sous cette forme, une colonne correspond à toutes les observations d’une variable. Dans la
littérature, on pourra également rencontrer l’écriture dite en ligne :
 X' 
 (1,k1) 




 ... 


 '
X =  Xt 
(T ×k )  (1,k ) 


 ... 


 ' 
 XT 
 (1,k ) 
Sous cette forme, une ligne correspond à la réalisation de toutes les variables pour une
observation :

X t' = 
(1,k ) 
1
(1,1)
x1,t
...
(1,1)

xk −1,t 

(1,1) 
Sous cette forme, le modèle s’écrit encore de façon générique :
yt = X t' ⋅ β + ut
(1,1)
(1,k ) (k ,1)
(1,1)
Pour la suite, il est nécessaire de bien savoir manipuler ces différentes écritures et de bien
garder à l’esprit le format des matrices afin d’éviter les erreurs, même si dans la suite nous
nous concentrerons majoritairement sur l’écriture la plus compacte.
2 Les premières hypothèses sur les perturbations
aléatoires
Avant de pouvoir tirer une conclusion quelconque sur la question que l’on se pose grâce au
modèle économétrique que l’on a formulé, il faut avoir dépassé les étapes techniques de
spécification du modèle. Sur le plan technique, une fois le modèle formulé, la démarche est
la suivante :
•
Enoncer un certain nombre d’hypothèses concernant les perturbations aléatoires
(non observées).
•
Utiliser une méthode d’estimation sous ces hypothèses.
•
Tester la validité des hypothèses formulées une fois l’estimation du modèle réalisée,
à partir d’une estimation des perturbations.
•
Envisager la meilleure méthode d’estimation lorsque telle ou telle hypothèse n’est
pas vérifiée.
Détaillons la liste et l’interprétation des hypothèses sur les perturbations.
2.1 La perturbation est d’espérance nulle
H1 : E ( u
(T ,1)
17
X) = 0
(T ,1)
L’espérance des perturbations conditionnellement aux variables explicatives est nulle pour
chaque réalisation. L’ensemble des déterminants non retenus dans le modèle (et
regroupés dans les perturbations) est d’espérance nulle, c’est-à-dire que leurs effets sur la
variable à expliquer des variables de second ordre se compensent entre eux à chaque
observation. Autrement dit, l’approximation constituée par le modèle correspond à la loi
moyenne de la variable aléatoire à expliquer :
E (y X ) = X β
Dans le cas contraire, on ferait le modèle ferait une erreur systématique à chaque
observation pour expliquer y.
2.2 Les variables exogènes sont des variables certaines
H2 : E (X ' ⋅ u ) = 0
Cette hypothèse implique que X et u ne sont pas linéairement corrélés. Cela signifie que
l’approximation constituée par le modèle est telle que les déterminants de seconde
importance de y que l’on a négligés et qui figurent donc dans la perturbation aléatoire ne
sont pas liés aux variables explicatives de première importance X retenues dans le modèle.
C’est cette implication qui est essentielle et qui doit être respectée si X est finalement une
matrice constituée de variables aléatoires, car elle permet d’obtenir des estimateurs non
biaisés.
Pour simplifier les calculs qui vont suivre sans avoir d’impact fondamental sur les résultats,
on supposera :
H2-bis : X est une matrice de variables certaines.
2.3 X est une matrice de plein rang colonne
H3 : X est une matrice de rang égal à k c’est-à-dire de plein rang colonne.
On fait ici l’hypothèse que les colonnes de la matrice X (c’est-à-dire les variables) sont
linéairement indépendantes entre elles.
Dans le cas contraire, cela signifierait qu’au moins une variable explicative pourrait s’écrire
comme une combinaison linéaire d’autres variables explicatives du modèle. Dans un tel cas
de figure, cette variable serait alors redondante et n’apporterait rien au modèle. De plus,
cela nous empêcherait même d’estimer ses paramètres puisque le même phénomène
interviendrait deux fois dans l’explication. On est alors dans le cas de multicolinéarité
stricte et le modèle n’est pas identifiable.
Dans le cas du modèle de régression linéaire simple, cela signifie que les observations xt
1 T
2
(xt − x )2 ≠ 0 i.e. elles ne sont pas toutes égales à x ) et se
possèdent une variance ( sx =
T t =1
∑
comportent de façon différente de la constante. Elles apportent donc une information
supplémentaire et non redondante relativement à la constante du modèle (ce point sera plus
compréhensible dans la section sur l’interprétation géométrique du modèle linéaire simple).
C’est cette variabilité de comportement de la variable x qui va permettre d’expliquer la
variable y.
2.4 L’hypothèse d’homoscédasticité et de non covariance
des perturbations
H4 : E ( u ⋅ u ' ) = σ2I T .
(T ,1) (1,T )
18
La matrice de variances-covariances des perturbations est une matrice scalaire, c’est-à-dire
qu’elle s’écrit comme le produit d’un scalaire par la matrice identité. En effet, pour H1
vérifiée :
 u1 
 
 ... 
'
V ( u ) = E ( u ⋅ u ) = E  ut  ⋅ ( u1
(T ,1)
(T ,1) (1,T )
 
 ... 
 u 
 T 
 E (u12 )

 ...

=  E (u1ut )

 ...

E (u1uT )
...
E (u1ut )
...
ut
...
...
E (ut2 )
...
...
E (ut uT )
...
...



uT )  = E




 u12

 ...

 u1ut

 ...

u1uT
E (u1uT )  σ2
 
...   ...
 
E (ut uT ) =  0
 
...   ...
 
E (uT2 )   0
...
u1ut
...
...
ut2
...
...
...
0
ut uT
...
...
σ2
...
...
0
...
...
u1uT 

... 

ut uT 

... 

uT2 
0

... 

2
0  = σ IT

... 

σ2 
Envisageons plus précisément ces deux hypothèses.
•
L’homoscédasticité des perturbations : la variance des perturbations est identique
pour tout t. En effet,
∀t ,
2
2
2
V (ut ) = E [ut − E (ut )] = E (ut ) = σ
Cela revient à dire que l’ampleur des erreurs (ou l’approximation réalisée par le
modèle) est constante pour toute observation. Cela revient encore à dire que cette
ampleur ne dépend pas d’une variable ou d’un facteur ayant rapport avec
l’observation t, auquel cas le modèle « oublierait » d’expliquer quelque chose de
systématique qui demeure dans l’erreur et ne serait donc pas acceptable. C’est dès
lors l’hypothèse la plus simple à formuler concernant la variance des erreurs,
puisqu’elle ne peut pas être supposée nulle. On ne formule donc pas d’hypothèse
concernant la valeur de σ². C’est un paramètre inconnu supplémentaire, mais on
sent bien que les résultats de l’estimation seront d’autant plus précis que σ² sera
faible.
•
La non-autocorrélation des perturbations :
∀t1 ≠ t2, Cov(ut1 , ut2 ) = E [ut1 − E (ut1 )] ⋅ [ut2 − E (ut2 )] = E [ut1 ⋅ ut2 ] = 0
Une erreur faite sur une observation ne dépend linéairement d’aucune autre
erreur faite sur une autre observation. Dans le cas contraire, cela signifierait en
effet que le modèle « oublierait » systématiquement un facteur explicatif important de
yt dans la partie de la perturbation aléatoire et ne serait donc pas acceptable. De façon
rigoureuse, cela signifie qu’il n’existe pas de relation linéaire entre les perturbations.
On a vu en effet en introduction que le coefficient de corrélation linéaire entre deux
variables s’exprime comme le rapport de la covariance entre les variables et le produit
des écart-types de variables (ici la variance puisqu’on est sous l’hypothèse
d’homoscédasticité). Pour une covariance nulle, le coefficient de corrélation linéaire est
nul. Cependant, cela n’implique pas forcément l’indépendance entre les perturbations,
comme on l’a vu en introduction et dans le cours de probabilités (à moins bien sûr que
les perturbations soient normalement distribuées).
19
3 L’estimation par
carrés ordinaires
la
méthode
des
moindres
Il faut à présent rechercher une méthode d’estimation qui fournit des estimateurs pour le
vecteur de paramètres inconnus possédant des propriétés intéressantes (non biaisés,
convergents, …). Nous allons donc commencer par étudier la méthode des moindres carrés
ordinaires (MCO).
3.1 Le critère des MCO
Le modèle linéaire multiple s’écrit :
yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut
k
On est en présence d’un nuage de T points (que l’on ne peut représenter) dans IR , l’espace
des variables. En effet, chaque point a besoin de k coordonnées pour être défini dans cet
k
espace. L’ajustement du nuage dans IR se fera donc par un hyperplan dont l’équation
s’écrit :
yˆt = aˆ + bˆ1 x1,t + bˆ2 x 2,t + ... + bˆk −1 xk −1,t
et qui passe le plus près possible de tous les points de l’échantillon. La généralisation du
programme des MCO se fait dans la droite ligne du cas de la régression linéaire simple : on
recherche les paramètres aˆ, bˆ1, bˆ2,... et bˆk −1 tels que :
{aˆ,bˆ1,...,bˆk −1} = arg (a,bmin
,...,b
1
= arg
= arg
k −1
)
S (a , b1,..., bk −1 )
T
min
∑ ut2
(a ,b1 ,...,bk −1 ) t =1
T
min
∑ (yt − a − b1 x1,t − b2 x2,t − ... − bk −1 xk −1,t )2
)
(a ,b1 ,...,bk −1 t =1
On est en présence d’une fonction scalaire à k paramètres que l’on chercher à minimiser.
On doit donc résoudre le système formé par les k équations du premier ordre (CPO)
calculées en les solutions aˆ, bˆ , bˆ ,...bˆ , c’est-à-dire la valeur particulièrement permettant
1
2
k −1
d’égaler chaque CPO à 0.
∂S (a , b1,..., bk −1 )
∂a
T
a =aˆ
b1 =bˆ1
...
b =bˆ
k −1
∂S (a , b1,..., bk −1 )
∂b1
= 0 ⇔ −2∑ (yˆt − aˆ − bˆ1 x1,t − ... − bˆk −1 xk −1,t ) = 0
t =1
k −1
T
a =aˆ
b1 =bˆ1
...
b =bˆ
k −1
= 0 ⇔ −2∑ (yˆt − aˆ − bˆ1 x1,t − ... − bˆk −1 xk −1,t ) ⋅ x1,t = 0
t =1
k −1
...
20
∂S (a , b1,..., bk −1 )
∂bk −1
T
a =aˆ
b1 =bˆ1
...
bk −1 =bˆk −1
= 0 ⇔ −2∑ (yˆt − aˆ − bˆ1 x1,t − ... − bˆk −1 xk −1,t ) ⋅ xk −1,t = 0
t =1
Ensuite, on doit valider cette solution en calculant les conditions du second ordre (CSO)
pour caractériser un minimum.
Mais écrivons directement la solution pour le cas général.
3.2 Expression matricielle de l’estimateur des MCO
On peut également calculer l’expression matricielle de l’estimateur des MCO. Pour cela, il
suffit d’écrire le programme des MCO sous forme matricielle. Ainsi, en repartant du modèle
y = X
β + u
(T ×k ) (k ×1) (T ×1)
(T ×1)
le programme précédent se réécrit :
βˆ = arg min S (β) = arg min(u'u ) = arg min(y − X β)' (y − X β)
β
β
β
Développons l’expression à minimiser :
S (β ) = (y − X β)' ⋅ (y − X β ) = ( y ' − β'
(1×T )
X ' )⋅( y − X
(1×k ) (k ×T )
(T ×1)
β ) = y 'y − y ' X β− β' X 'y + β' X ' X β
(T ×k ) (k ×1)
(1×1)
(1×1)
(1×1)
(1×1)
Comme y ' X β et β' X 'y sont des scalaires et qu’ils sont la transposée l’un de l’autre, ils sont
(1×1)
(1×1)
égaux. Le critère se réécrit donc :
S (β ) = y 'y − 2 y ' X β+ β' X ' X β
(1×1)
(1×1)
(1×1)
Dérivons le critère afin d’obtenir les CPO. La fonction S(β) est minimum en β̂ si :
∂S (β)
∂β
β=βˆ
=0
Pour pouvoir résoudre ce programme, il est nécessaire de connaître les règles de dérivation
matricielle des combinaisons linéaires et des formes quadratiques.
n
Rappels : pour une forme linéaire du type a 'z = z 'a = ∑ ai zi , avec a et z deux vecteurs
i =1
colonnes de taille n, la dérivation par rapport au vecteur de variables z donne :
∂(a 'z ) ∂(z 'a )
=
=a
∂z
∂z
Pour une forme quadratique z ' Az avec A une matrice carrée symétrique, la dérivation
toujours par rapport au vecteur z donne :
21
∂(z ' Az )
= 2Az
∂z
On a alors :
−2 X '
y + 2 X'
(k ×T ) (T ×1)
βˆ = 0
X
(k ×T ) (T ×k ) (k ×1)
(k ×1)
En réécrivant l’expression, on obtient :
X ' X βˆ = X 'y
(k ×k ) (k ×1)
(k ×1)
Ce système correspond au système de k équations évoqué au point précédent. C’est le
système des équations normales. Il admet une solution unique si la matrice X’X est
inversible (c’est-à-dire si elle est de rang égal à k), ce qui est une implication de l’hypothèse
H3.
Le vecteur β̂ se définit donc comme :
βˆ = ( X ' X )−1 X 'y
(k ×1)
(k ×k )
(k ×1)
C’est l’expression matricielle de l’estimateur des MCO dans le cadre de la régression linéaire
multiple.
L’expression de la dérivée seconde (2X’X) du programme étant une matrice définie positive,
on est bien à un minimum en le point solution du programme fourni par les conditions du
premier ordre.
On en déduit alors la valeur ajustée par le modèle :
yˆ = X
(T ×1)
βˆ
(T ×k ) (k ×1)
qui est donc une combinaison linéaire des variables explicatives, ainsi que le vecteur des
résidus estimés :
uˆ = y − yˆ
(T ×1)
(T ×1) (T ×1)
3.3 Remarques
-
-
D’autres critères pourraient être envisagés pour minimiser la distance entre l’hyperplan
estimé et les observations. Cela pourrait être par exemple la somme de la valeur absolue
des écarts (plutôt que des carrés comme ici) ou une distance de projection orthogonale
des observations sur la droite estimée (plutôt que verticale comme ici). Cependant, on
va bientôt voir que c’est le critère des MCO qui permet de fournir les estimateurs
possédant les meilleures propriétés.
βˆ = (aˆ , bˆ ,..., bˆ )' est l’estimateur des moindres carrés ordinaires du vecteur de
1
k −1
paramètres inconnus β = (a , b1,..., bk −1 )' . β̂ est un vecteur de variables aléatoires puisque
c’est une fonction linéaire du vecteur y, qui dépend lui-même du vecteur des
perturbations aléatoires u, les poids de la combinaison linéaire étant rassemblés dans la
matrice (X ' X )−1 X ' .
-
On appelle estimations les valeurs particulières prises par les fonctions βˆ = (aˆ , bˆ1,..., bˆk −1 )'
pour les réalisations des variables de l’échantillon. Comme pour les variables aléatoires,
22
-
-
on ne distinguera pas formellement la variable aléatoire de sa réalisation particulière,
mais il s’agit bien de deux choses différentes.
yˆ = aˆ + bˆ x est la valeur ajustée ou prédiction ou encore valeur estimée de la variable yt
t
t
dans le cadre de la régression linéaire simple C’est la droite de régression de y sur x. Ce
terme est dû à Sir Francis Galton pour ses travaux concernant la relation entre la taille
des parents et de leurs enfants. Il a en effet observé que plus (moins) les parents étaient
grands, plus (moins) leurs enfants l’étaient, mais plus ils se rapprochaient de la
moyenne. D’où le terme de régression (vers le point moyen de l’échantillon) mais qui
désigne aujourd’hui couramment l’estimation générale d’un modèle linéaire.
On a vu que la perturbation aléatoire ut, encore appelée aléa ou erreur, est une variable
aléatoire dont on a supposé certaines propriétés et dont les réalisations ne sont pas
observées. En revanche, on peut calculer : uˆt = yt − yˆt appelé résidu ou résidu estimé.
On a donc :
y = X ⋅β + u
y = X ⋅ βˆ + uˆ = yˆ + uˆ
-
La première formulation sera utilisée pour démontrer les propriétés théoriques des
estimateurs sous les hypothèses 1 à 6 formulées.
Lorsque l’hypothèse H3 n’est pas vérifiée, le système n’a pas de solution unique. On dit
que le modèle n’est pas identifiable : il y a une infinité de solutions β̂ et l’influence de
chaque variable explicative sur la variable à expliquer ne peut être mesurée.
4 Propriétés de l’estimateur des MCO à distance
finie
On va s’intéresser aux propriétés du vecteur aléatoire β̂ dans le cadre du modèle de
régression linéaire multiple :
y = X
(T ×1)
β + u
(T ×k ) (k ×1) (T ×1)
On a montré que c’est un vecteur aléatoire comme fonction de la variable aléatoire y. On va
donc étudier comme au chapitre précédent s’il vérifie les propriétés standards qu’on
recherche chez un estimateur lorsque les hypothèses classiques H1, H2, H3 et H4 sont
vérifiées. On a vu que H3 était déjà forcément vérifiée, puisqu’elle nous a permis de fournir
l’expression de l’estimateur.
4.1 L’espérance de l’estimateur des MCO
L’estimateur se définit comme :
βˆ = ( X ' X )−1 X 'y
(k ×1)
(k ×k )
(k ×1)
Montrons qu’il est sans biais. Pour cela, développons selon l’expression de y :
βˆ = (X ' X )−1 X ' ⋅ (X ⋅ β + u ) = (X ' X )−1 X ' ⋅ X ⋅ β + (X ' X )−1 X ' ⋅ u
1442443
Ik
= β + (X ' X )−1 X ' ⋅ u
Prenons l’espérance de cette expression : il est facile en utilisant les hypothèses 2 puis 1 de
voir que :
23
E (βˆ ) = E [β + (X ' X )−1 X ' ⋅ u ] = β + (X ' X )−1 X ' ⋅ E
(u ) = β
{
=0
Conclusion : sous H1, H2 et H3, l’estimateur des MCO est sans biais.
4.2 La variance de l’estimateur
4.2.1 Calcul de la variance
On s’intéresse à présent à la mesure de la précision de l’estimateur. Comme il s’agit d’un
vecteur, on sera en présence d’une matrice de variances-covariances carrée, symétrique, de
taille k.
On part donc de la définition de la variance :
{
V (βˆ ) = E [(βˆ − E (βˆ )) ⋅ (βˆ − E (βˆ ))' ] = E [(X ' X )−1 X ' ⋅ u ] ⋅ [(X ' X )−1 X ' ⋅ u ]'
−1
}
−1
= E [(X X ) X ⋅ u ⋅ u ⋅ X ⋅ (X X ) ]
'
'
'
'
= (X ' X )−1 X ' ⋅ E [u ⋅ u ' ] ⋅ X ⋅ (X ' X )−1
= (X ' X )−1 X ' ⋅ σ2 I T ⋅ X ⋅ (X ' X )−1
= σ2 (X ' X )−1 X ' X ⋅ (X ' X )−1
1442443
Ik
= σ2 (X ' X )−1
(k ×k )
sous les hypothèses H1, H2, H3 et H4. On pourra vérifier que cette matrice correspond à la
matrice :
1
x2
 + T
T
(xt − x )2

t =1
σ2 

−x
 T

(xt − x )2

 t =1
∑
∑


2
(x t − x ) 
t =1


1

T

(xt − x )2 
t =1

−x
T
∑
∑
dans le cas du modèle de régression linéaire simple.
4.2.2 Estimation de la variance
Comme le paramètre scalaire σ² est inconnu, il est nécessaire de l’estimer afin de disposer
d’une estimation de la matrice de variances-covariances de β̂ . L’estimateur retenu est le
suivant :
σ
ˆ2 =
SCR
uˆ 'uˆ
=
T −k T −k
ˆ 2 et
Remarque : le lecteur prendra bien garde de s’interroger sur la différence entre V (u ) , σ
V (uˆ ) .
24
4.3 Le théorème de Gauss-Markov
Théorème :
Soit un modèle de régression simple y = X ⋅ β + u avec les hypothèses associées 1 à 4.
L’estimateur β̂ des MCO est l’estimateur le plus précis dans l’ensemble des
estimateurs linéaires sans biais de β.
Dans ce cas, tout estimateur β̂* fournira une estimation moins précise que celui des MCO.
Pour traduire cela dans le cadre d’un vecteur et donc d’une matrice de variancescovariances, cela signifie que la différence entre la matrice de variances-covariances de tout
estimateur concurrent avec celle de l’estimateur des MCO donnera une matrice semi-définie
positive, c’est-à-dire une matrice dont les éléments diagonaux (correspondant à la différence
des variances) seront tous positifs ou nuls :

V (aˆ * )
Cov (aˆ * , bˆ1* )

 Cov (aˆ * , bˆ1* )
V (bˆ1* )
V (βˆ * ) − V (βˆ ) = 
...
...


* ˆ*
...
 Cov (aˆ , bk −1)
... Cov (aˆ * , bˆk* −1 ) 
V (aˆ )
Cov (aˆ, bˆ1)
 
  Cov (aˆ, bˆ1)
V (bˆ1)
...
...
−
...
...
...
...
 

...
V (bˆk* −1 )   Cov (aˆ, bˆk −1 )
...
... Cov (aˆ, bˆk −1 )

...
...


...
...

...
V (bˆk −1 ) 
ce qui implique :
V (aˆ * ) − V (aˆ ) > 0
V (bˆ1* ) − V (bˆ1 ) > 0
...
V (bˆk* −1 ) − V (bˆk −1 ) > 0
L’estimateur des MCO est donc le précis pour toutes les composantes de β̂ .
Preuve : comme précédemment, posons qu’il existe un estimateur β̂* linéaire en les
données et tel que :
βˆ * = H ⋅ y
(k ×1)
(k ×T ) (T ×1)
H est une matrice non aléatoire que l’on cherche à déterminer. Exprimons cet estimateur en
fonction de l’estimateur des MCO :
βˆ * = βˆ − βˆ + H ⋅ y = βˆ + (H − ( X 'X )−1 X ' ) ⋅ y
= βˆ + L ⋅ y
L est une matrice non aléatoire comme combinaison de matrices non aléatoires.
L’estimateur β̂* est défini comme étant sans biais : on a donc :
E (βˆ * ) = E (βˆ + L ⋅ y ) = E (βˆ ) + E (L ⋅ y ) = β + L ⋅ E (y ) = β + L ⋅ E ( X β + u )
= β + L ⋅ (X β + E
(u )) = β + L ⋅ X β
{
=0
De la propriété du sans biais, on déduit que LX β = 0 ⇔ L ⋅ X = 0 (toutes les autres
possibilités pour justifier la nullité de LXβ (L = 0 qui implique que l’estimateur recherché est
25
celui des MCO, Xβ ou β nuls, ce qui implique que le modèle n’a rien à chercher) n’étant pas
intéressantes). L’expression de β̂* se réécrit donc :
βˆ * = βˆ + L ⋅ ( X ⋅ β + u ) = βˆ + L ⋅ u = (X 'X )−1 X ' ⋅ y + L ⋅ u = (X 'X )−1 X ' ⋅ (X ⋅ β + u ) + L ⋅ u
= β + (X 'X )−1 X ' ⋅ u + L ⋅ u = β + [( X 'X )−1 X ' + L ] ⋅ u
De cela on peut déduire la variance de l’estimateur :
{
V (βˆ * ) = E [(βˆ * − β) ⋅ (βˆ * − β)' ] = E [(( X 'X )−1 X ' + L ) ⋅ u ] ⋅ [(( X 'X )−1 X ' + L ) ⋅ u ]'
}
Il est facile de développer cette expression :
{
}
V (βˆ * ) = E [(X 'X )−1 X ' + L ] ⋅ u ⋅ u ' ⋅ [ X (X 'X )−1 + L' ]
{
}
= [( X 'X )−1 X ' + L ] ⋅ E u ⋅ u ' ⋅ [ X (X 'X )−1 + L' ]
Or d’après H4,
V (βˆ * ) = [(X 'X )−1 X ' + L ] ⋅ σ2IT ⋅ [ X (X 'X )−1 + L' ]
'
= σ2[(X 'X )−1 X ' ⋅ X ( X 'X )−1 + ( X 'X )−1 X
L' + L
⋅ X ( X 'X )−1 + LL' ]
{
12⋅3
1442443
=0
=0
= Ik
= σ2[(X 'X )−1 + LL' ] = V (βˆ ) + σ2LL'
D’où :
V (βˆ * ) − V (βˆ ) = σ2LL'
avec σ2 positif et LL’ une matrice semi-définie positive. On a donc démontré le théorème.
Conclusion : l’estimateur β̂ des MCO est l’estimateur le plus précis dans l’ensemble
des estimateurs linéaires sans biais de β. Il fournit donc la meilleure information
possible sur ce vecteur de paramètres inconnus à distance finie.
5 Propriétés asymptotiques de l’estimateur des
MCO
Que deviennent l’estimateur des MCO et ses propriétés lorsque la taille de l’échantillon tend
vers l’infini ? Commençons par des petits rappels de cours.
5.1 Rappels sur les différents types de convergence
Considérons une suite de variables aléatoires non nécessairement indépendantes X1, …, Xn.
Vers quoi converge cette suite lorsque n tend vers l’infini ? Doit-on s’intéresser aux valeurs
vers lesquelles convergent les moments de cette suite lorsque n tend vers l’infini ? A sa loi
limite ? A la convergence de la suite des réalisations de cette série ?
5.1.1 La convergence en probabilité
Définition
Une suite de variables aléatoires X1,… Xn définies sur le même espace fondamental
converge en probabilité vers le nombre certain a si, étant donné ε et η deux nombres
26
positifs arbitrairement faibles et choisis à l’avance, il est possible de trouver un seuil
N lié à ε et η tel que :
∀n > N (ε , η )
Pr{ Xn − a > ε
}<η
Ainsi, lorsque n tend vers l’infini, la variable aléatoire Xn tend vers le nombre certain a avec
une probabilité égale à 1 :
 Pr(X n = a ) → 1

n →∞

≠
→ 0
Pr(
X
a
)
n

n →∞
En d’autres termes, à partir du seuil N, la probabilité que Xn prenne une valeur particulière
en dehors de l’intervalle a ± ε est très faible. Cela s’écrit encore :
p
Xn → a ou p lim X n = a
Cette notion de convergence en probabilité vérifie des propriétés très pratiques découlant du
théorème de Slutsky.
Théorème de Slutsky
Si deux suites de variables aléatoires X1, …, Xn et Y1, …, Yn convergent en probabilité
respectivement vers X et Y, f(Xn,Yn) converge en probabilité vers f(X,Y), avec f une
fonction définie et continue sur IR².
p lim(X n ) = X
⇒ p lim[ f (X n , Yn )] = f (X , Y )
p lim(Yn ) = Y
Une application utile est fournie par les exemples suivants : pour deux suites de variables
aléatoires X1, …, Xn et Y1, …, Yn convergeant en probabilité respectivement vers X et Y. On a
alors :
p
p
p
Xn + Yn → X + Y , λXn → λX , Xn ⋅ Yn → X ⋅ Y , …
Remarque : la convergence en probabilité n’implique pas la convergence des moments.
5.1.2 La convergence en loi
Définition
Etant donnée une variable aléatoire X de fonction de répartition F(x), on dit que la
suite de variables aléatoires X1, …, Xn converge en loi vers X lorsque n tend vers
l’infini si Fn(x) converge vers F(x) :
L
Fn (x ) → F (x ) ⇒ X n → X
n →∞
Un exemple typique d’application est le théorème central-limite. Ce théorème précise les
conditions pour qu’une variable aléatoire converge vers une loi normale.
Théorème central-limite
Soit une suite de variables aléatoires X1, …, Xn mutuellement indépendantes et
27
2
identiquement distribuées, d’espérance et de variance finies notées µ X et σX . La suite
X n définie comme la moyenne arithmétique de la suite X1, …, Xn
Xn =
1
n
n
∑ Xi
i =1
converge en loi vers la variable normale centrée réduite lorsque n → ∞ :
L
n (X n − µ X ) → N (0, σ2X )
5.1.3 La convergence en moyenne quadratique
Définition
Une suite de variables aléatoires X1, …, Xn converge en moyenne quadratique vers a si
l’espérance du carré de l’écart entre Xn et a converge vers 0 lorsque n augmente
indéfiniment :
m .q .
2
E [(X n − a ) ] → 0 ⇒ X n → a
n →∞
Propriété : pour deux suites de variables aléatoires X1, …, Xn et Y1, …, Yn convergeant en
moyenne quadratique respectivement vers X et Y, on a alors :
m.q .
m.q .
m.q .
Xn + Yn → X + Y , E (Xn ) → E (X ) , E (Xn2 ) → E (X 2 ) ,
On en déduit que :
m.q .
P
L
Xn → X ⇒ Xn → X ⇒ Xn → X
5.2 Une hypothèse supplémentaire : H5
Aux quatre premières hypothèses standards utilisées jusqu’à présent, on en ajoute une
nouvelle.
1 '
X X = VX ,
T →∞ T
(k ,k )
H5 : lim S X = lim
T →∞
avec VX une matrice finie définie positive et inversible.
Il suffit de poser la structure de la matrice
1 '
X X . Cette hypothèse signifie que lorsque T
T
tend vers l’infini :
1.
les moyennes, les variances et les covariances sont finies. En effet, en
présence d’une constante dans le modèle, cette matrice contient des éléments
T
égaux à
∑ x j ,t
à la (j + 1)ème de la première colonne (avec j ∈ 1, k − 1 ),
t =1
T
∑ x 2j ,t
à
t =1
l’intersection de la diagonale principale et de la (j + 1)ème ligne (avec j ∈ 1, k − 1 ), et
28
T
enfin
∑ xi ,t ⋅ x j ,t
sur les éléments non diagonaux de la matrice, à l’intersection
t =1
entre (i + 1)ème ligne et la (j + 1)ème colonne (avec i ∈ 1, k − 1 , j ∈ 1, k − 1 et i ≠ j ).
2.
les variables explicatives restent linéairement indépendantes. On a alors la
conservation de l’hypothèse H3 lorsque T tend vers l’infini.
L’idée est donc comme précédemment que les variables explicatives conservent
toujours une certaine variance lorsque T tend vers l’infini.
Partons du fait que les variables xit sont des variables aléatoires indépendamment et
identiquement distribuées de variances σ2xi . L’idée est ici que les variables xit conservent
toujours une certaine variance lorsque la taille de l’échantillon tend vers l’infini (
1 T
lim sx2i = lim ∑ (xit − x )2 = σ2xi ≠ 0 ). En effet, dans le cas contraire, cela voudrait dire que
T →∞
T →∞ T
t =1
les xit convergent vers leur moyenne à partir d’une certaine date. Dès lors, une observation
supplémentaire n’apporterait aucune information. Ainsi, disposer d’observations
supplémentaires apporte de l’information.
N’oublions pas que même s’il paraît paradoxal de parler des explicatives comme une
variable aléatoire au regard de l’hypothèse H2, cette hypothèse n’est là que pour simplifier
les calculs et permettre de modéliser yt conditionnellement aux xit observés dans
l’échantillon.
5.3 Convergence en probabilité de l’estimateur des MCO
L’estimateur se définit à présent comme βˆT :
βT
(k ×1)
ˆ
= ( X'
X )−1 X '
(k ×T ) (T ×k )
y
(k ×T ) (T ×1)
et dépend de la taille de l’échantillon T. On s’intéresse donc à la suite de variables aléatoires
βˆT , βˆT +1,... et sa convergence lorsque T tend vers l’infini.
Preuve : montrons que l’estimateur des MCO converge en probabilité vers la vraie valeur du
paramètre inconnu. On sait que la convergence en moyenne quadratique est une condition
suffisante de la convergence en probabilité. Autrement dit, la convergence en moyenne
quadratique implique la convergence en probabilité. Pour que βˆT converge en moyenne
quadratique vers β, il faut que :
E [(βˆT − β) ⋅ (βˆT − β)' ] 
→ 0
T →+∞
(k ×k )
Comme βˆT est un estimateur sans biais, cela revient à montrer que :
V (βˆT ) 
→ 0
T →+∞
(k ×k )
On a déjà calculé l’expression de la matrice de variances-covariances de βˆT :
σ2 X ' X −1
V (βˆT ) = σ2 ( X ' X )−1 =
(
) 
→ 0 ⋅ (V X )−1 = 0
T →+∞
(k ×k )
T
T
(k ×k )
d’après H5.
29
Conclusion : l’estimateur des MCO converge en moyenne quadratique donc en
probabilité vers la vraie valeur du paramètre inconnu.
Remarque : Cette hypothèse H5 peut être considérée comme restrictive dans la mesure où
elle ne permet pas d’inclure des variables telles que le temps dans le modèle de régression,
car la moyenne et la variance d’une telle variable augmentent avec le nombre
d’observations. A la formulation de cette hypothèse, on pourra préférer par exemple : H5bis :
lim ( X 'X )−1 = 0 .
T →∞
(k ,k )
5.4 La normalité asymptotique de l’estimateur des MCO
Pour pouvoir étudier la convergence en loi de l’estimateur des MCO, on va utiliser le
théorème central-limite. Pour cela, on va redéfinir H4 en introduisant l’hypothèse
d’indépendance des perturbations.
H4bis : Les perturbations ut sont indépendamment et identiquement distribuées (iid)
d’espérance 0 et de variance σ².
On en déduit donc le résultat suivant.
Sous les hypothèses H1, H2, H3, H4bis et H5, l’estimateur centré dilaté
asymptotiquement une loi normale :
T (βˆT − β) suit
T (βˆT − β) 
→ N (0, σ2 (VX )−1 )
L
Preuve : appliquons le théorème central limite. On a vu que l’estimateur des MCO est une
combinaison linéaire avec des poids non aléatoires de lois indépendantes :
βˆT = β + (X 'X )−1 X ' ⋅ u
On peut donc avoir recours au théorème central-limite. On a vu au point précédent qu’il est
nécessaire de dilater βˆT − β , puisque cet estimateur converge en probabilité vers 0 (dans le
cas contraire, sa distribution asymptotique serait dégénérée puisque égale à une constante).
L’expression de l’espérance et de la variance de cet estimateur étant connue :
E [ T (βˆT − β)] = T [E (βˆT ) − β] = 0
σ2 X ' X −1
X ' X −1
V [ T (βˆT − β)] = TV (βˆT ) = T
(
) = σ2 (
) 
→ σ2 ⋅ (V X )−1
T →+∞
T T
T
On en déduit donc le résultat énoncé précédemment.
Conclusion :
- A distance finie (T est fixé), les MCO fournissent des estimateurs sans biais et les plus
précis parmi l’ensemble des estimateurs linéaires sans biais.
- Au niveau asymptotique (T tend vers l’infini), les MCO fournissent des estimateurs
convergents en probabilité et les estimateurs centrés-dilatés suivent asymptotiquement
une loi normale.
6 L’hypothèse de normalité des perturbations et
ses conséquences
Envisageons à présent les conséquences d’une sixième hypothèse :
30
H6 : u ~ N (0, σ2IT ) .
Cette hypothèse implique en premier que les perturbations sont indépendantes sous
H4. Avec l’hypothèse H4, les perturbations sont à présent indépendantes, plus besoin d’H4bis.
Cette hypothèse assez exigeante permettra d’effectuer les tests sur le modèle. Sa pertinence
repose sur le fait que nombre de variables économiques observées suivent des lois lognormales et qu’on modélise souvent les variables dans le cadre d’une spécification loglinéaire. Dans ce cas, les perturbations, représentant le logarithme de variables
économiques, peuvent être normalement distribuées.
Cependant, grâce au théorème central-limite, il n’est pas nécessaire de supposer la
normalité des composantes de u pour justifier la normalité des perturbations. La
convergence en loi vers la normalité le permet également. En effet, ut peut comprendre une
infinité de facteurs indépendamment et identiquement distribués qui jouent additivement.
Deux conséquences majeures apparaissent :
-
La variable y est à présent normalement distribuée comme : y ~ N (X β, σ2IT ) . On va
donc pouvoir écrire la vraisemblance.
Les estimateurs du maximum de vraisemblance sont ceux des MCO.
6.1 Le critère du maximum de vraisemblance
L’idée est de retenir l’estimateur permettant de maximiser la vraisemblance d’un échantillon
donné. L’estimateur obtenu est convergent, asymptotiquement efficace et asymptotiquement
normal.
Comme on a vu que yt ~ N (X t ' ⋅ β, σ2I T ) , il est possible d’écrire la densité de probabilité de
l’observation en t :
1
' 2
− 2 (yt − X t β )
1
f (yt ) =
e 2σ
σ 2π
L’indépendance des perturbations fait que les yt sont aussi indépendantes. On écrit alors la
vraisemblance de l’échantillon comme le produit des densités de probabilités de toutes les
réalisations yt :
l (β, σ ; y1,..., yT ) =
2
T
∏ f (yt ) =
t =1
−
1
(σ
2π
)
T
e
1 T
'
2
∑ (yt − X t β )
2σ2 t =1
=
−
1
(σ
2π
)
T
e
1
2σ2
(y − X β )' (y − X β )
La vraisemblance est donc ici une fonction à plusieurs arguments à valeurs dans IR+. Les
estimateurs du maximum de vraisemblance, notés β% et σ% 2 , sont solutions du programme
suivant :
max l (β, σ2; y1,..., yT )
(β,σ2 )
Il est équivalent de maximiser cette fonction ou le logarithme népérien de cette fonction,
puisque la transformation est définie, continue et croissante. Le programme devient alors :
max ln l (β, σ2; y1,..., yT )
(β,σ2 )
avec :
31
ln l (β, σ2; y1,..., yT ) = −
T
1
ln(2π) − T ln σ −
(y − X β)(' y − X β)
2
2σ2
1
(y − X β)'(y − X β) par rapport à β revenant à minimiser (y − X β)(' y − X β) par
2σ2
rapport à β, les estimateurs du maximum de vraisemblance sont identiques à ceux des
MCO.
Maximiser −
Remarques :
- L’estimateur des MCO étend donc la portée des propriétés à distance finie mises en
évidence précédemment par le théorème de Gauss-Markov. En effet, l’estimateur des
MCO possède en plus la propriété d’efficacité asymptotique des estimateurs du
maximum de vraisemblance, et cela, quel que soit l’ensemble des estimateurs
auxquels on se réfère (linéaires ou pas). C’est donc l’estimateur le plus précis possible !
- Il convient de garder à l’esprit que l’estimateur des MCO ne correspond à celui du
maximum de vraisemblance que sous l’hypothèse H6.
Il reste à déterminer l’estimateur du maximum de vraisemblance de σ². Au maximum de
vraisemblance, on sait qu’on vérifie la condition du premier ordre :
∂ ln l (β, σ2; y1,..., yT )
∂σ
β=β%
σ2 =σ% 2
=0
Ainsi, et d’après l’équivalence entre les estimateurs des MCO et du maximum de
vraisemblance :
−
T
1
+
(y − X βˆ )(' y − X βˆ ) = 0
σ% σ% 3
d’où :
σ% 2 =
1
1
SCR
(y − X βˆ )(' y − X βˆ ) = uˆ 'uˆ =
T
T
T
6.2 La loi de l’estimateur des paramètres inconnus du
premier ordre
A distance finie, il est assez simple de voir que :
βˆ
N (β, σ2 (X ' X )−1 )
Preuve : c’est trivial quand on applique les propriétés de combinaison linéaire de lois
normales. On peut exprimer l’estimateur comme une combinaison linéaire non aléatoire de
y, qui dépend de u, un vecteur de lois normales. C’est donc un vecteur de lois normales. Dès
lors, comme on connaît ses moments (espérance et variance), ce vecteur aléatoire est
parfaitement défini.
32
7 Interprétation géométrique des MCO
Pour examiner les vecteurs de variables, plaçons-nous à présent dans l’espace des
observations, c’est-à-dire IRT. En effet, il est nécessaire d’avoir T observations pour définir le
vecteur de la variable à expliquée et les k vecteurs des variables explicatives.
La matrice X, si elle est de rang égal à k, définit un sous-espace vectoriel de l’espace des
observations IRT de dimension k. Ce sous-espace vectoriel noté L est donc engendré par les
k vecteurs qui le composent.
y
û
ŷ
L
Le principe consiste donc à trouver ŷ = X ⋅ βˆ , c’est-à-dire une combinaison linéaire
particulière des vecteurs du sous-espace vectoriel L tel que la distance entre y et ŷ soit
minimale. D’après les résultats énoncés au chapitre précédent, on sait que cela implique
que ŷ est la projection orthogonale sur L du vecteur y et s’exprime comme une
combinaison linéaire unique des vecteurs qui le composent. Cela est illustré dans le
graphique précédent.
On en déduit donc que le vecteur
uˆ = y − yˆ
(T ×1)
(T ×1) (T ×1)
est orthogonal au plan
L
et donc à toutes
les vecteurs qui le composent. On a donc le produit scalaire suivant :
X'
uˆ = 0
(k ×T )(T ×1)
(k ×1)
Ainsi :
X ' (y − yˆ ) = 0 ⇔ X ' ( y − X ⋅ βˆ ) = 0
(k ×T ) (T ×1)
⇔ X'
(k ×1)
y = X'
(k ×T ) (T ×1)
(k ×T ) (T ×1) (T ×k ) (k ×1)
(k ×1)
X ⋅ βˆ ⇔ βˆ = (X 'X )−1 X ' ⋅ y
(k ×T ) (T ×k ) (k ×1)
(k ×1)
(k ×k )
(k ×T ) (T ×1)
C’est donc l’équivalent du système d’équations normales établies auparavant.
Pour asseoir ces résultats, il est utile d’introduire une certaine catégorie de matrices qui se
révéleront très pratiques par la suite : les projecteurs.
33
Ce sont des matrices de projection orthogonale. Elles possèdent la propriété d’être égales à
leur transposée ( P ' = P ) et à toute puissance entière d’elle-même ( P n = P ). Elles sont donc
symétriques et idempotentes. De plus, leur rang est égal à la dimension de leur espace de
projection.
On va s’intéresser ici à deux projecteurs particuliers :
PX
(T ×T )
= X (X 'X )−1 X '
M X = I T − PX = I T − X (X 'X )−1 X '
(T ×T )
PX est la matrice de projection sur le plan
projection, à savoir k.
L. Son rang est égal à la dimension de l’espace de
MX est la matrice de projection sur le plan orthogonal à L. Son rang est égal à la dimension
de l’espace de projection, à savoir T-k.
Comme PX et MX projettent sur des espaces orthogonaux, on vérifiera que :
PX ⋅ M X
(T ×T ) (T ×T )
= 0
PX ⋅ X
(T ×T ) (T ×k )
= X
(T ×T )
ainsi que :
(T ×k )
puisque X appartient déjà à l’espace d’arrivée et
MX ⋅ X
(T ×T ) (T ×k )
= 0
(T ×k )
On peut dès lors fournir une interprétation de ŷ et de û . Ainsi :
yˆ = X ⋅ βˆ = X ( X 'X )−1 X ' ⋅ y = PX ⋅ y
uˆ = y − yˆ = (IT − PX ) ⋅ y = M X ⋅ y
De cette dernière équation, on peut également déduire :
uˆ = M X ⋅ y = M X ⋅ (X ⋅ β + u ) = M X ⋅ X ⋅ β + M X ⋅ u = M X ⋅ u
1
424
3
0
relation qui nous sera utile pour déduire les propriétés des estimateurs.
7.1 Application n°1 : l’estimateur de la variance des
perturbations est sans biais
Montrons qu’il est sans biais. On a vu qu’on pouvait écrire :
uˆ = M X ⋅ u
Dès lors, on peut poser :
uˆ 'uˆ = (M X ⋅ u )' ⋅ (M X ⋅ u ) = u ' ⋅ M X ⋅ u
(1×1)
34
d’après les propriétés de symétrie et d’idempotence des projecteurs orthogonaux. Prenons à
présent l’espérance de cette expression :
E (uˆ 'uˆ ) = E (u ' ⋅ M X ⋅ u ) = E (tr (u ' ⋅ M X ⋅ u ))
(1×1)
Toujours d’après les propriétés de l’opérateur de la trace, on peut écrire :
E (uˆ 'uˆ ) = E (tr (M X ⋅ u ⋅ u ' )) = tr (E (M X ⋅ u ⋅ u ' )) = tr (M X ⋅ E (u ⋅ u ' ))
1
424
3
(1×1)
(T ×T )
σ2 I T
= σ2tr (M X ) = σ2 (T − k )
(T ×T )
grâce aux hypothèses 3 et 4 et au fait que tr ( M X ) = T − k , ce qui est assez simple à
montrer. Dès lors, on peut en déduire un estimateur sans biais de σ² :
1
uˆ 'uˆ
σ2 ) = σ2
E (uˆ 'uˆ ) = σ2 ⇔ E (
) = E (ˆ
(1×1)
T −k
T −k
uˆ 'uˆ
pour estimer la variance des perturbations
T −2
dans le cadre du modèle de régression linéaire simple.
ˆ2 =
C’est la raison pour laquelle on utilise σ
On constate ici que l’estimateur du maximum de vraisemblance de la variance des
perturbations σ̂2 ≠ σ% 2 puisqu’on a précédemment défini un estimateur de la variance des
perturbations comme :
σ
ˆ2 =
SCR
T −k
L’estimateur σ% 2 du maximum de vraisemblance est donc biaisé négativement à distance
finie puisque σ̂2 est sans biais :
SCR
T − k SCR
T −k 2
E(
) = σ2 ⇔
E(
)=
σ
T −k
T
T −k
T
T − k SCR
T −k 2
SCR
k
⇔ E(
)=
σ ⇔ E(
) = (1 − ) σ2 < σ2
T T −k
T
T
T
La méthode du maximum de vraisemblance conduit donc à une sous-estimation
systématique de la vraie valeur σ2 mais fournit un estimateur cependant plus
précis. A contrario, le biais tend asymptotiquement vers 0 et l’estimateur est convergent. On
a donc un arbitrage à faire selon que l’on est à distance finie ou non entre un estimateur
biaisé mais plus précis et un estimateur non biaisé mais moins précis.
7.2 Application n°3 : loi suivie par l’estimateur de la
variance
7.2.1 Deux résultats sur la distribution des formes quadratiques
R3 : Soit le vecteur X N (0, Σ) , avec Σ sa matrice de variance-covariances, une matrice
symétrique définie positive de taille n. Alors :
X 'Σ−1X
35
χ2(n )
R4 : Soit X
à n. Alors :
N (0, σ2I n ) et A une matrice symétrique et idempotente de rang r inférieur ou égal
1
σ2
X' ⋅ A ⋅ X
χ2(r )
Preuves détaillées : en 4 coups à la fin de ce chapitre.
7.2.2 Loi de l’estimateur de la variance
On a :
(T − k )
σ
ˆ2
σ
2
=
SCR
σ
2
χ2(T − k )
Preuve : on sait que :
u
N (0, σ2I n )
et on a vu qu’on pouvait écrire :
uˆ = M X ⋅ u
avec MX le projecteur orthogonal sur le plan orthogonal à celui formé par les k variables
explicatives du modèle linéaire. Le rang de cette matrice symétrique et idempotente est égal
à (T − k). Dès lors :
(T − k )
σ
ˆ2
σ
2
=
SCR
σ
2
=
uˆ'uˆ
σ
2
=
1
σ
2
(M X ⋅ u )' ⋅ (M X ⋅ u ) =
1
σ
2
u' ⋅ M X ⋅ u
χ2(T − k )
en appliquant simplement R4 à l’expression.
7.3 Application n°3 : le théorème de Frish-Waugh
Soit le modèle de régression multiple suivant :
y = X
(T ×1)
β + Z
c + u
(T ×k ) (k ×1) (T × p ) ( p ×1) (T ×1)
Ce modèle comporte k + p variables explicatives scindées en deux sous-groupes notés X et Z.
On ne s’intéresse en fait qu’à l’influence de β.
Théorème de Frish Waugh : soient les modèles :
y = X
(T ×1)
β + Z
c + u
(T ×k ) (k ×1) (T × p ) ( p ×1) (T ×1)
et
MZ ⋅ y = MZ ⋅ X β + MZ ⋅ u
(T ×1)
(T ×k ) (k ×1)
36
(T ×1)
avec M Z = I T − PZ
le projecteur sur l’espace orthogonal des variables composant Z.
L’estimateur des MCO obtenu dans la première régression et noté β̂1 est identique à celui
obtenu dans la seconde régression et noté β̂2 .
Démonstration : en appliquant l’estimateur des MCO à la seconde régression, on a :
βˆ 2 = [(M Z ⋅ X )'(M Z ⋅ X )]−1(M Z ⋅ X )(' M Z ⋅ y )
= [ X ' ⋅ M Z ' ⋅ M Z ⋅ X ]−1 X ' ⋅ M Z ' ⋅ M Z ⋅ y
= [ X ' ⋅ M Z ⋅ M Z ⋅ X ]−1 X ' ⋅ M Z ⋅ M Z ⋅ y
= [ X ' ⋅ (M Z )2 ⋅ X ]−1(X ' ⋅ (M Z )2 ⋅ y )
= [ X ' ⋅ M Z ⋅ X ]−1 X ' ⋅ M Z ⋅ y
d’après les propriétés de symétrie et d’idempotence caractérisant un projecteur orthogonal.
Repartons à présent de la première régression écrite sous forme partitionnée :
 β 

  (k ×1) 
y = X
Z ⋅
 + (Tu×1)
(T ×k ) (T × p )
(T ×1) 14
4244
3  ( pc×1) 
W
123
(T ×(k + p ))
γ
((k + p )×1)
Le système d’équations normales de cette régression s’écrit donc :
(W ' ⋅ W ) ⋅ ˆγ = W ' ⋅ y
soit encore sous forme partitionnée :




 ' 
  βˆ   ' 
X
X
1
 (k ×T )  
   (k ×1)   (k ×T ) 

Z  ⋅ 
=
 X
⋅ y ⇔
(T ×k ) (T × p )    cˆ1   Z '  (T ×1)
 Z '  14
4
244
3


 ( p×T ) 
  ( p×1)   ( p ×T ) 
W
424
3
424
3
1
 123 1
(T ×(k + p ))
'
'
ˆγ
W
W
 ((k + p )×T )
 ((k + p )×1) ((k + p )×T )


 X' X
 (k ×T ) (T ×k )
 '
X
 Z
( p×T ) (T ×k )
'
Z   βˆ1   X y 
(k ×T ) (T ×1)
 (k ×1) 

=
 ⋅
Z ' Z   cˆ1   Z ' y 
( p×T ) (T × p )  ( p ×1)   ( p ×T ) (T ×1) 


X'
(k ×T ) (T × p ) 
soit encore en développant sous la forme de deux blocs d’équations normales :
X 'X βˆ1 + X 'Z cˆ1
(k ×k ) (k ×1) (k × p ) ( p ×1)
= X 'y
Z X β1 + Z Z cˆ1
( p×k ) (k ×1) ( p× p ) ( p×1)
= Z 'y
'
ˆ
'
(k ×1)
( p ×1)
Du second bloc d’équations, on déduit l’expression de l’estimateur de c :
cˆ1 = [ Z 'Z ]−1 Z 'y − [ Z 'Z ]−1 Z 'X βˆ1
( p ×1)
( p× p )
( p ×1)
( p× p )
que l’on réintroduit dans le premier bloc d’équations :
37
( p ×k ) (k ×1)


X 'X βˆ1 + X 'Z  [ Z 'Z ]−1 Z 'y − [ Z 'Z ]−1 Z 'X βˆ1  = X 'y
(k ×k ) (k ×1) (k × p )  ( p × p )
( p×k ) (k ×1)  (k ×1)
( p ×1) ( p × p )


En développant et en réorganisant l’expression :
X 'X ⋅ βˆ1 − X ' ⋅ Z ⋅ [ Z 'Z ]−1 ⋅ Z ' ⋅ X ⋅ βˆ1 = X 'y − X ' ⋅Z ⋅ [Z 'Z ]−1 ⋅ Z ' ⋅ y
1442443
1442443
PZ
PZ
En mettant β̂1 en facteur à droite :
(X 'X − X 'PZ X ) ⋅ βˆ1 = (X ' − X 'PZ ) ⋅ y
puis en mettant X’ en facteur à gauche et X à droite :
X ' ⋅ (I T − PZ ) ⋅ X ⋅ βˆ1 = X ' ⋅ (IT − PZ ) ⋅ y
1424
3
1
424
3
MZ
MZ
⇔ βˆ1 = (X ' ⋅ M Z ⋅ X )−1(X ' ⋅ M Z ⋅ y ) = βˆ 2
on retrouve l’expression de l’estimateur des MCO de la seconde régression.
Conclusion : même si on ne s’intéresse pas aux effets des variables de Z, on ne peut
cependant pas les éliminer de la régression si elles sont pertinentes pour expliquer y
sous peine de travailler avec des estimations fausses de β.
En effet, si on estime le modèle
y = Xβ + u
l’estimateur obtenu est donc : βˆ = (X ' X )−1 X 'y . Or, si le vrai modèle est
y = X β + Zc + u
il est nécessaire de tenir compte de l’influence des variables Z en estimant le modèle
suivant :
MZ ⋅y = MZ ⋅ X ⋅ β + MZ ⋅ u
où les variables sont toutes projetées sur l’espace orthogonal aux variables Z. Dès lors,
toutes les variables sont filtrées de l’influence des variables Z.
8 Questions diverses
8.1 Le poids des observations dans l’estimation par les
MCO
Plaçons-nous dans le cas du modèle de régression linéaire simple pour fixer les idées :
yt = a + b xt + ut
L’estimateur b̂ peut se réécrire :
38
T
bˆ =
(y − y )
T
∑ (yt − y ) ⋅ (xt − x ) ∑ (xt − x )2 (xtt − x )
t =1
=
T
∑ (xt − x )2
t =1
=
T
∑ (xt − x )2
t =1
T
(y − y )
∑ pt ⋅ (xtt − x )
t =1
t =1
yt − y
est la pente du segment joignant le point (xt, yt) au point moyen ( x, y ). On a :
xt − x
pt =
2
(x t − x )
T
∑
≥0
2
(x t − x )
t =1
T
∑ pt
=1
t =1
La pente estimée est donc la moyenne pondérée des pentes des segments joignant toutes les
2
observations au point moyen de l’échantillon. Le poids pt est fonction de (xt − x ) ,
autrement dit il donne d’autant plus de poids au point éloigné du point moyen. Dès
lors, la droite de régression est fortement influencée par les points extrêmes et dont la
pente est très différente de celle de la droite de régression. Une méthode pour corriger ce
défaut est d’éliminer les points dits aberrants, c’est-à-dire trop éloignés du point moyen. Ce
type de pratique repose sur le jugement de l’économètre, ainsi que sur différents indices.
8.2 L’équation d’analyse de la variance
La première équation normale implique :
eT ' ⋅ uˆ = 0 ⇔
T
∑ uˆt = 0 ⇔ uˆ = 0
t =1
Ce premier résultat provient toujours du fait qu’il y a une constante dans le modèle. La
moyenne empirique des résidus estimés est donc égale à 0. Ce résultat est la
contrepartie empirique de l’hypothèse H1.
De cela, on peut déduire comme précédemment que la moyenne de la variable à expliquer
est égale à la moyenne de la valeur ajustée. En effet, comme :
y = yˆ + uˆ ⇒
T
∑
t =1
yt =
T
∑
t =1
yˆt +
T
∑
uˆt ⇒
t{
=1
y = yˆ
0
On en déduit donc que l’hyperplan ajustant le nuage des observations passe par le
point moyen.
yˆ = y = aˆ + bˆ1 x1 + ... + bˆk −1 xk −1
L’analyse de la variance découle de ces deux résultats :
y
(T ×1)
= yˆ + uˆ
(T ×1)
(T ×1)
En retranchant y eT de chaque coté de l’égalité, il vient :
y − y eT = (yˆ − y eT ) + uˆ
39
Les deux termes du membre de droite sont orthogonaux car soustraire le scalaire y eT de ŷ
ne modifie pas sa propriété d’orthogonalité avec û . On peut donc appliquer le théorème de
Pythagore :
y − y eT
2
2
= yˆ − y eT
+ uˆ
2
soit encore :
T
∑
( yt − y )2 =
t =1
14243
SCT
T
∑
( yˆt − y )2 +
T
∑ uˆt2 ⇔ V ( y) = V ( yˆ ) + V (uˆ)
t =1
t =1
{
14243
SCR
SCE
La variance de y est égale à la variance expliquée par le modèle plus la variance
résiduelle.
Remarque : encore une fois on remarque que tout provient de la première équation normale
(qui implique que uˆ = 0 et y = yˆ ). Dans le cas où il n’y aurait pas de constante dans le
modèle, l’analyse de la variance serait impossible.
8.3 Le coefficient de détermination
8.3.1 Définition
Grâce à l’analyse de la décomposition de la variance, ce coefficient se définit très simplement
comme la part de la variance expliquée par le modèle rapportée à la variance totale :
T
V ( yˆ ) SCE
R2 =
=
=
V ( y ) SCT
∑ ( yˆt − y )2
t =1
T
∑ ( yt − y )2
t =1
Il est facile de voir dans l’équation de la variance que :
T
T
∑ (yˆt − y )2
t =1
T
∑
∑ uˆt2
+
2
(yt − y )
t =1
t =1
T
∑
=1
2
(yt − y )
t =1
d’où :
T
R2 = 1 −
SCR
=1−
SCT
∑ uˆt2
t =1
T
∑ ( yt − y )2
t =1
Le coefficient de détermination prend donc des valeurs comprises entre 0 et 1. Au pire, le
modèle n’explique rien, au mieux il explique toute la variance de la variable y.
40
8.3.2 Le R² comme coefficient de corrélation
Dans le modèle de régression linéaire simple, le coefficient de détermination est égal au
2
carré du coefficient de corrélation linéaire rx ,y entre les variables explicative et expliquée x
et y.
Preuve : repartons de la définition du coefficient de corrélation linéaire.
sx2, y
rx2, y =
sx2 sy2
Repartons de la définition de R² :
T
T
∑ (aˆ + bˆ xt − aˆ − bˆ x )2
R2 =
(xt − x )2
∑
2
t =1
= bˆ
T
∑ (yt − y )2
t =1
t =1
T
∑ (yt − y )2
2
s
= bˆ2 x2
sy
t =1
sx , y
Or, on sait que bˆ = 2 . Dès lors,
sx
R2 =
sx2, y sx2
sx2sx2 sy2
=
sx2, y
sx2sy2
= rx2, y
8.3.3 Interprétation géométrique du R²
On peut directement réécrire :
T
∑ (yˆt − y )2
R2 =
t =1
T
∑ (yt − y )2
=
yˆt − y eT
2
yt − y eT
2
= cos2 w
t =1
avec w l’angle formé par les deux vecteurs dans le triangle rectangle. D’où des
interprétations très intuitives. Plus le R² est élevé, plus les variables sont corrélées. Ou
encore, plus le pouvoir explicatif du modèle est élevé, plus y est proche de ŷ , plus l’angle
est faible et plus le cosinus et donc le R² est proche de 1.
8.3.4 Les limites du R² : premier exemple
Il ne faut cependant pas attacher trop d’importance à cette mesure pour juger de la qualité
de l’ajustement d’un modèle. En effet, elle est très dépendante de la forme des variables
dans le modèle.
Illustration : Soit le modèle suivant :
yt = a + b xt + ut
Réécrivons-le en posant : z t = yt − xt . On a alors :
yt − xt = a + (b − 1)xt + ut ⇔ z t = α + βxt + wt
41
1
Ces deux modèles sont équivalents mais si bˆ < , alors on obtiendra un R² supérieur avec
2
l’estimation du second modèle.
Preuve : dans les deux cas, les droites de régression passent par les points moyens. Ainsi,
on a :
y = aˆ + bˆ x
ˆ + βˆ x
z =α
Comme z t = yt − xt , on a alors z = y − x . On peut donc réécrire :
y = aˆ + bˆ x
ˆ + (βˆ + 1)x
y = α
On en déduit donc :
ˆ
aˆ = α
ˆ
b = 1 + βˆ
Les résidus estimés peuvent donc s’écrire :
ˆ t = zt − α
ˆ − βˆ xt = zt − aˆ − (bˆ − 1)xt = zt + xt − aˆ − bˆ xt = yt − aˆ − bˆ xt = uˆt
w
Posons les formules des R² dans les deux cas :
T
T
∑ uˆt2
1 − R(2i ) =
∑ wˆ t2
t =1
T
1 − R(2ii ) =
∑ (yt − y )
2
t =1
t =1
T
∑ (zt − z )2
t =1
Les deux expressions ne diffèrent que par leur dénominateur. Or ici,
R(2ii ) > R(2i ) ⇔
⇔
T
T
T
T
t =1
t =1
t =1
t =1
∑ (zt − z )2 > ∑ (yt − y )2 ⇔ ∑ [(yt − y ) − (xt − x )]2 > ∑ (yt − y )2
T
T
T
T
t =1
t =1
t =1
t =1
∑ (yt − y )2 + ∑ (xt − x )2 − 2∑ (yt − y )(xt − x ) > ∑ (yt − y )2
T
∑ (yt − y )(xt − x )
⇔
t =1
T
∑ ( xt − x )
2
<
1
1
⇔ bˆ <
2
2
t =1
8.3.5 Les limites du R² : second exemple
On a vu à la section précédente que le coefficient de détermination n’était pas un critère sur
lequel on pouvait fonder seul l’analyse d’un modèle économétrique. En effet, on a vu qu’on
pouvait, sous une certaine condition, faire augmenter ce coefficient en manipulant
les données. Ici, nous constatons qu’il peut également augmenter de façon
mécanique en ajoutant des variables explicatives dans le modèle.
42
Démonstration : Envisageons le modèle suivant
y = X
β + u1
(T ×k ) (k ×1) (T ×1)
(T ×1)
ainsi qu’un nouveau modèle avec seulement une variable explicative supplémentaire :
y = X
(T ×1)
β + z c + u2
(T ×k ) (k ×1) (T ×1) (1×1) (T ×1)
Ce modèle peut se réécrire en posant la matrice des explicatives W comme suit :
W
(T ×(k +1))


= X z 
(
T
×
k
)
(
1)
T
×


On définit ŷ1 et ŷ2 comme :
yˆ1 = PX ⋅ y
yˆ2 = PW ⋅ y
grâce aux projecteurs PX et PW projetant sur le plan respectivement formé par les variables
de X et de W. Les résidus estimés û1 et û2 sont orthogonaux à ces matrices. Si le coefficient
de détermination de la seconde équation est supérieur à celui de la première équation, on a
alors :
T
T
∑ uˆ2,2 t
R22 ≥ R12 ⇔ 1 −
∑ uˆ1,2t
t =1
≥1−
T
∑ (yt − y )
t =1
T
∑ (yt − y )2
2
t =1
t =1
ce qui implique que :
T
T
t =1
t =1
∑ uˆ1,2t ≥ ∑ uˆ2,2 t
Montrons que c’est le cas : en effet :
uˆ1 = y − yˆ1 ⇔ uˆ1 = y − yˆ2 + yˆ2 − yˆ1 = uˆ2 + yˆ2 − yˆ1
123
=uˆ2
Le vecteur û2 est orthogonal au plan formé par les variables de X puisque ce dernier est
inclus dans celui formé par les variables de W. Comme ŷ1
et
ŷ2
appartiennent
respectivement à ces deux plans, il est clair que û2 est orthogonal à ŷ2 - ŷ1 . Dès lors,
d’après le théorème de Pythagore, on peut écrire :
uˆ1
2
= uˆ2
2
+ yˆ2 − yˆ1
2
⇒ uˆ1
2
≥ uˆ2
2
⇒ R22 ≥ R12
Pour obtenir l’égalité, il faudrait que yˆ2 = yˆ1 , c’est-à-dire que cˆ = 0 .
43
Ainsi, il suffit d’introduire des variables supplémentaires dans la régression pour
faire augmenter le coefficient de détermination de façon mécanique et cela quelque
soit la pertinence du modèle considéré.
8.3.6 Le coefficient de détermination ajusté
Cet indicateur est noté R 2 . Il vise à fournir une indication concernant la part de la variance
totale expliquée par le modèle mais corrigée de l’effet mécanique induit par l’ajout de
variables supplémentaires. Il est défini comme :
T
∑ uˆt2
t =1
R =1−
T −k
2
T
∑ (yt − y )2
t =1
T −1
L’ajout d’une variable supplémentaire implique comme on l’a vu la diminution de la somme
des carrés des résidus, mais également celle de T − k (car k augmente). On n’a dès lors plus
une augmentation systématique de cet indicateur lors de l’ajout d’une variable explicative
supplémentaire.
Le coefficient de détermination ajusté est un rapport de deux estimateurs sans biais de la
variance des résidus et de la variance totale. Il est évident de voir que pour maximiser cet
indicateur, il est nécessaire de minimiser la valeur de variance des résidus.
Il présente également l’inconvénient d’être manipulable et de pouvoir prendre des valeurs
négatives. En effet, le coefficient ajusté peut se réécrire facilement comme :
1 − R2 =
T −1
(1 − R 2 )
T −k
et il peut devenir négatif dès lors que :
1 − R2 >
T −k
T −1
ce qui rend difficile son interprétation comme un rapport de variance.
Comme son prédécesseur, il ne faut donc pas fonder une analyse ou une validation de
modèle uniquement sur l’observation du coefficient de détermination ajusté.
8.4 Prédictions de la variable expliquée
Dans le cadre du modèle linéaire :
yt
(1,1)
= X t' ⋅ β + ut
(1,k ) (k ,1)
(1,1)
on cherche à prévoir la valeur y0 de la variable expliquée à partir des valeurs particulières
X0.
On suppose donc d’après notre modèle que :
y 0 = X 0' ⋅ β + u0
La prédiction proposée sera donc :
44
ŷ 0 = X 0' ⋅ βˆ
et on pourra avoir l’erreur de prévision suivante :
eˆ0 = yˆ0 − y0
calculable une fois y0 observée. ê 0 est une variable aléatoire dont la réalisation dépend de
la réalisation (non observée au moment de la prédiction) de y0. Caractérisons les propriétés
de cette erreur de prévision :
eˆ0 = yˆ0 − y 0 = X 0' ⋅ βˆ − ( X 0' ⋅ β + u0 ) = X 0' ⋅ (βˆ − β ) − u0
Sous les hypothèses H1 à H3, ê0 est d’espérance nulle, X0 est certaine et les estimateurs sont
sans biais. On a donc :
E (eˆ0 ) = E [ X 0' ⋅ (βˆ − β ) − u0 ] = X 0' ⋅ [E (βˆ ) − β] − E (u0 ) = 0
Autrement dit, le prédicteur ŷ0 de y0 est sans biais.
Pour ce qui est de la variance :
V (eˆ0 ) = E [(eˆ0 )2 ] = E [(X 0' ⋅ (βˆ − β) − u0 ) ⋅ (X 0' ⋅ (βˆ − β) − u0 )' ]
= E [ X 0' ⋅ (βˆ − β) ⋅ (βˆ − β)' ⋅ X 0 − X 0' ⋅ (βˆ − β) ⋅ u0 − u0 ⋅ (βˆ − β)' ⋅ X 0 + u02 ]
= E [ X 0' ⋅ (βˆ − β) ⋅ (βˆ − β)' ⋅ X 0 ] + E [u02 ]
= X 0' ⋅ E [(βˆ − β) ⋅ (βˆ − β)' ] ⋅ X 0 + E [u02 ]
144
42444
3
V (βˆ )
= X 0' ⋅ σ2 (X 'X )−1 ⋅ X 0 + σ2
= σ2(1 + X 0' ⋅ (X 'X )−1 ⋅ X 0 )
puisque β constant, X0 certain et donc non corrélée avec tous les autres termes et que sous
H4, u0 est non corrélée avec les ut et donc avec les estimateurs.
La variance de l’erreur de prévision est donc proportionnelle :
- A l’incertitude irréductible (la perturbation u0 étant imprévisible),
- A un terme intégrant la variance de l’estimateur des MCO. Ainsi, plus on est imprécis
sur la valeur de l’estimateur, plus la variance de l’erreur de prévision sera importante.
45
Annexes
R1 : Supposons que le vecteur X soit composé de n lois normales centrées réduites,
identiquement et indépendamment distribuées :
X
N (0, I n ) ⇔ xi
N (0,1)
i ∈ 1, n
On sait d’après le cours de probabilités que la forme quadratique suit une loi du Chi-deux :
X 'X =
n
n
i =1
i =1
∑ xi2 = ∑ "(N (0,1))2 "
χ2(n )
R2 : Supposons que le vecteur X soit à présent composé de n lois normales centrées et de
variance σ², identiquement et indépendamment distribuées :
X
N (0, σ2I n ) ⇔ x i
N (0, σ2 )
i ∈ 1, n
On sait d’après le cours de probabilités que la forme quadratique formée par la somme de
lois normales centrées réduites au carré suit une loi du Chi-deux :
1
σ2
X 'X =
2
n
 xi 
  =
σ
i =1 
∑
n
∑ " ( N (0,1))
2
"
χ2(n )
i =1
Cette expression peut encore se réécrire :
X '(σ2I )−1 X
χ2(n )
avec l’inverse de σ2I la matrice caractérisant la forme quadratique.
R3 : Soit le vecteur X N (0, Σ) , avec Σ sa matrice de variance-covariances, une matrice
symétrique définie positive de taille n. Alors :
X 'Σ−1X
χ2(n )
Ce résultat n’est pas direct car les lois normales ne sont pas linéairement indépendantes (Σ
est non diagonale). L’idée est de réécrire ces lois normales comme une somme de lois
normales indépendantes. On peut réécrire cette forme quadratique en diagonalisant la
matrice Σ. On obtient alors :
Σ = Q ⋅ D ⋅ Q −1 = Q ⋅ D ⋅ Q '
avec Q −1 = Q ' car Σ est une matrice symétrique. Comme Σ est une matrice de variancescovariances, ses valeurs propres portées sur la diagonale principale de la matrice D sont
toutes strictement positives (une valeur propre nulle impliquerait un déterminant nul pour
cette matrice ce qui n’est pas possible pour une matrice de variances-covariances). On peut
donc décomposer la matrice D comme :
46
1
Σ =Q
D32 ⋅ D
1
4⋅24
P
1
2
⋅ Q' = P ⋅ I ⋅ P ' = P ⋅ P '
On est alors dans la base euclidienne, et non plus dans une base des vecteurs propres. On
peut donc en déduire l’expression de la matrice Σ −1 :
Σ−1 = (P ⋅ P ' )−1 = (P ' )−1 ⋅ P −1 = (P −1)' ⋅ P −1
d’après les propriétés de l’inversion et de la transposition des matrices, ainsi que :
−1
Σ = P ⋅ P ' ⇔ P −1 ⋅ Σ ⋅ (P ' )−1 = P
⋅3
P ⋅ P ' ⋅ (P ' )−1 ⇔ P −1 ⋅ Σ ⋅ (P −1 )' = I
1
424
1424
3
I
I
Ceci étant fait, définissons à présent le vecteur Y = P −1X . Comme X est un vecteur de
variables aléatoires normales, Y l’est aussi comme combinaison linéaire de lois normales.
Calculons leurs moments :
E (Y ) = E (P −1X ) = P −1E ( X ) = 0
V (Y ) = V (P −1X ) = E [(P −1X )(P −1X )' ] = E [P −1XX '(P −1 )' ] = P −1E [ XX ' ](P −1)' = P −1Σ(P −1 )' = I
On est donc en présence de lois normales indépendantes centrées réduites. D’où d’après
R1 :
χ2(n )
Y 'Y
On peut en déduire que :
Y 'Y = (P −1X )'(P −1X ) = X ' (P −1 )' P −1 X = X 'Σ −1X
14243
Σ −1
χ2(n )
R4 : Supposons enfin que :
X
N (0, I n ) ⇔ xi
N (0,1)
i ∈ 1, n
et la forme quadratique suivante : X ' ⋅ A ⋅ X avec A une matrice symétrique et idempotente
de rang r inférieur ou égal à n.
On reconnaît ici la définition d’un projecteur. Diagonalisons cette matrice. On obtient Q la
matrice des vecteurs propres (attention : Q est orthogonale. On a donc Q −1 = Q ' car A est
symétrique) et Λ, la matrice diagonalisée, a donc la forme suivante :
1



1
0




O


'
Q AQ = Λ = 
1



0


0
O




0


47
avec r valeurs propres unitaires et n−r valeurs propres nulles. Posons :
Y = Q 'X et X = QY
Comme X est un vecteur de lois normales, Y l’est aussi comme combinaisons linéaires de
lois normales. Calculons leurs moments :
E (Y ) = E (Q 'X ) = Q 'E ( X ) = 0
V (Y ) = V (Q ' ⋅ X ) = E [(Q 'X ) ⋅ (Q 'X )' ] = E [Q ' ⋅ X ⋅ X ' ⋅ Q ] = Q ' ⋅ E [ XX ' ] ⋅ Q = Q 'Q = I
1
424
3
I
On est donc en présence de lois normales indépendantes centrées réduites. La forme
quadratique initiale s’exprime donc :
'
X' ⋅ A ⋅ X = Y ' ⋅Q
A ⋅3
Q ⋅Y
14⋅24
Λ
On est donc en présence d’une somme de r lois normales indépendantes centrées réduites
au carré puisque ne subsistent que les éléments de Λ différents de 0. D’où :
X' ⋅ A ⋅ X
χ2(r )
On en déduit donc le résultat général suivant : soit X
1
idempotente de rang r. Alors 2 X ' ⋅ A ⋅ X χ2(r ) .
σ
48
N (0, σ2I n ) et A une matrice
Chapitre 2
Inférence dans le modèle linéaire
Dans le chapitre précédent, nous avons envisagé l’estimation du modèle linéaire général.
Nous avons étudié un estimateur particulier, celui des moindres carrés ordinaires, et
montré que sous les hypothèses standards de la régression, il possédait les meilleures
propriétés possibles.
Nous avons donc à présent à notre disposition une estimation ponctuelle pour les
paramètres du modèle, ainsi qu’une mesure de la précision de cette estimation, au travers
des variances fournies par la matrice de variances-covariances des estimations.
Cependant, cette estimation est intimement liée à l’échantillon utilisé et serait certainement
différente numériquement pour un autre échantillon. En effet, l’estimateur donne en
espérance la vraie valeur du paramètre inconnu mais l’estimation obtenue est une
réalisation particulière de la variable aléatoire que constitue cet estimateur.
Plusieurs types de question se posent à présent.
•
D’abord, à la place d’une estimation ponctuelle, ne pourrait-on pas fournir plutôt un
intervalle pour le paramètre inconnu, qui tiendrait compte de l’incertitude liée au
modèle estimé, à l’échantillon utilisé, … ?
•
Ensuite, au regard de la valeur estimée du paramètre inconnu, ne pourrait-on pas
envisager l’hypothèse que la valeur de ce paramètre inconnu n’est pas
statistiquement différente d’une valeur prédite par la théorie ? (Exemple : dans
une équation de salaires, ne pourrait-on pas envisager que le taux de croissance des
salaires nominaux est parfaitement indexé sur le taux de croissance des prix ?) Ou
encore, si la variable explicative n’est pas pertinente, ne pourrait-on pas tester la
nullité du paramètre qui lui est associée et donc l’exclure du modèle ?
•
Enfin, ne pourrait-on pas généraliser cette dernière procédure à plusieurs
paramètres estimés simultanément, et ainsi réaliser un test joint ? (Exemple :
dans une équation de Cobb-Douglas estimée, la somme des coefficients estimés sur
le travail et le capital est-il significativement différent de 1 ?). Ou encore, si plusieurs
variables explicatives ne semblent pas pertinentes, ne pourrait-on pas tester leur
nullité simultanément ? Est-il alors différent de tester individuellement ou de façon
jointe ?
49
Nous allons donc envisager dans ce chapitre les résultats concernant l’estimation des
paramètres par intervalle de confiance, et la réalisation de tests simples et de tests joints
sur les paramètres, ainsi que l’estimation d’un modèle sous contraintes et ses implications.
1 Résultats préliminaires
1.1 Indépendance de deux formes quadratiques
Supposons que Z
N (0, σ2I n ) et qu’on est en présence de deux formes quadratiques de Z,
Z ' ⋅ A ⋅ Z et Z ' ⋅ B ⋅ Z avec A et B deux matrices symétriques et idempotentes.
Nous cherchons les conditions pour lesquelles ces deux formes quadratiques sont
indépendamment distribuées. Comme ces matrices sont symétriques et idempotentes, on
peut réécrire :
Z ' ⋅ A ⋅ Z = (AZ )'(AZ )
Z ' ⋅ B ⋅ Z = (BZ )(' BZ )
Si chacune des variables dans les vecteurs AZ et BZ ont une corrélation nulle, alors elles
sont indépendamment distribuées, et de même pour toute fonction de ces vecteurs telle que
Z’AZ et Z’BZ. Calculons la covariance entre ces deux vecteurs :
E [(A ⋅ Z )(B ⋅ Z )' ] = E [ A ⋅ Z ⋅ Z ' ⋅ B ' ] = A ⋅ E [Z ⋅ Z ' ] ⋅ B = σ2AB
1424
3
σ2I n
Dès lors, les covariances (et donc les corrélations) sont nulles si
AB = BA = 0
(puisqu’on est en présence de matrices symétriques), ce qui implique l’indépendance
des deux formes quadratiques ici (du fait de l’hypothèse de normalité).
1.2 Indépendance entre une forme quadratique et une
combinaison linéaire
Supposons que Z N (0, σ2In ) et qu’on est en présence d’une forme quadratique Z ' ⋅ A ⋅ Z et
d’une combinaison linéaire L ⋅ Z . A est une matrice symétrique et idempotente de taille n et
L est une matrice de taille (m × n) quelconque.
Nous cherchons les conditions pour lesquelles ces deux fonctions sont
indépendamment distribuées. On va pour cela calculer la corrélation entre les vecteurs AZ
et LZ :
E [(A ⋅ Z )(L ⋅ Z )' ] = E [ A ⋅ Z ⋅ Z ' ⋅ L' ] = A ⋅ E [ Z ⋅ Z ' ] ⋅ L' = σ2AL'
1424
3
σ2I n
Dès lors, les covariances (et donc les corrélations) sont nulles si
AL’ = 0 ou de façon équivalente LA = 0
(puisque A est une matrice symétrique par définition), ce qui implique l’indépendance
des deux formes quadratiques ici (du fait de l’hypothèse de normalité).
50
2 L’estimation par intervalles de confiance
La démarche à suivre est toujours la même, en deux temps.
•
trouver une fonction de l’estimateur et du paramètre inconnu dont on peut identifier
la loi, classique de préférence.
•
utiliser ce résultat et la table de la loi pour un niveau de confiance donné pour
construire l’intervalle de confiance.
2.1 Intervalles de confiance pour β
2.1.1 Loi suivie par une fonction de l’estimateur et du paramètre
inconnu
On a vu précédemment que sous les hypothèses classiques de la régression, la distribution
de l’estimateur β̂ du vecteur de paramètres inconnus β suivait (asymptotiquement ou
exactement) des lois normales :
βˆ
(k ×1)
N (β, σ2 ( X ' X )−1 )
(k ×k )
⇔
∀j ∈ 1, k
N (β j ,  σ2 ( X ' X )−1  )

 jj
βˆ j
où σ2 (X ' X )−1  désigne l’élément de la jème ligne et colonne de la matrice de variances
 jj
covariances des paramètres estimés, c'est-à-dire la variance de β̂ j le jème paramètre du
vecteur estimé β̂ . Notons-le σβ2ˆ pour alléger les notations.
j
Pour tout paramètre inconnu β j du vecteur β , on peut écrire, d’après les propriétés de la loi
normale :
∀j ∈ 1, k
βˆ j
N (β j , σ2ˆ ) ⇔
βj
βˆ j − β j
σ2ˆ
N (0,1)
βj
2.1.2 Construction de l’intervalle de confiance
Dès lors, il est possible de construire un intervalle de confiance pour les paramètres
inconnus à partir de ce résultat.
Définissons cet intervalle comme la probabilité que les réalisations de la loi normale
centrée réduite aient une probabilité égale à 1–α d’appartenir respectivement à
l’intervalle [–tα, tα] inconnus pour le moment :


βˆ j − β j


Pr −t α ≤
≤ tα  = 1 − α
σβˆ


j
L’intervalle pour la loi de β̂ est ici forcément symétrique, puisque la loi normale est une loi
symétrique autour de 0. La valeur de tα dépend donc de la valeur choisie pour 1–α.
Ainsi, si la probabilité recherchée est 1–α, on choisit dans la table de la loi normale la
valeur de tα associée à la surface à gauche de 1 – α/2.
Exemple : Si on désire qu’il y ait 95% de chances que les réalisations de la loi normale
appartiennent à l’intervalle de confiance, on choisit dans la table de la loi normale la valeur
de tα associée à la surface à gauche de 97,5%, soit 1,95. Pour 90% de chances, on choisira
1,64.
51
Dès lors, comme on connaît à présent la valeur de tα, il est possible de déduire un intervalle
de confiance pour les paramètres inconnus β :


βˆ j − β j
βˆ j − β j


Pr  −t α ≤
≤ t α  = 1 − α ⇔ −t α ≤
≤ tα
σβˆ
σβˆ


j
j
On peut donc en déduire la définition de l’intervalle de confiance de β j :
β j ∈ βˆ j − tα σβˆ , βˆ j + tα σβˆ 
j
j 

au niveau de confiance de 1–α.
Cet intervalle est donc symétrique autour de l’estimation ponctuelle. La largeur de
l’intervalle dépend :
•
du niveau de confiance exigé 1–α (plus 1–α est grand, plus tα sera important et donc
plus l’intervalle sera large)
•
de la précision de l’estimation ponctuelle du paramètre inconnu, mesurée par l’écarttype de l’estimateur σβˆ (plus l’imprécision de l’estimation ponctuelle est importante,
j
plus l’intervalle sera large).
Application : fournir un intervalle de confiance pour βˆ j = 6 et σβˆ = 2 .
j
2.2 Construction
d’un
opérationnel pour β
intervalle
de
confiance
Un problème se pose ici. La formule obtenue pour l’estimateur par intervalle de confiance de
βj n’est pas opérationnelle car on ne connaît pas la valeur de σ2 . L’approche précédente est
donc peu réaliste. On va cependant la mettre à profit pour en déduire un intervalle de
confiance opérationnel de β.
2.2.1 Loi suivie par une modification de la fonction initiale
Remplaçons σ2 par son estimation σ̂2 .
On obtient alors l’estimation pour la variance de β j égale à
pour simplifier
σ
ˆ 2 (X ' X )−1  que l’on notera

 jj
σ
ˆ β2ˆ . Notez bien la présence des deux chapeaux pour marquer
j
l’estimateur de la variance de l’estimateur.
Cependant, la variable aléatoire formée à présent par
βˆ j − β j
σ
ˆ βˆ
ne suit plus une loi normale
j
centrée réduite mais une loi de Student. En effet, on peut réécrire cette variable aléatoire
comme :
52
βˆ j − β j
βˆ j − β j
σ
ˆ βˆ
=
j
βˆ j − β j
σ
ˆ 2 ( X ' X )−1 

 jj
=
βˆ j − β j
 σ2 2 ' −1 
ˆ (X X ) 
 2σ
 σ
 jj
=
σ2 ( X ' X )−1 

 jj
(T − k )
σ
ˆ2
1
σ (T − k )
2
On voit bien qu’il s’agit du rapport entre une loi normale centrée réduite et la racine carrée
d’une loi du χ² rapporté à son nombre de degrés de liberté. On est donc en présence d’une
loi de Student si ces deux lois sont indépendantes. Pour démontrer l’indépendance, on a
recours au résultat préliminaire 2 de la section 1, sous les hypothèses standards.
Preuve : il suffit pour cela de les réécrire en fonction des perturbations réduites
u
σ
N (0, I n ) .
u
u
β̂ − β
comme ( X 'X )−1 X ' ⋅ , qui est donc une fonction linéaire de
. On
σ
σ
σ
u'
u
σ
ˆ2
⋅ M X ⋅ , qui est donc une forme quadratique de
peut également réécrire (T − k ) 2 comme
σ
σ
σ
u
.
σ
On peut réécrire
D’après le résultat préliminaire, montrer l’indépendance de ces deux variables aléatoires
revient donc à calculer :
'
M X ⋅ (X 'X )−1 X '  = M X ⋅ X (X 'X )−1 = 0

 1
424
3
0
ce qui achève la preuve.
2.2.2 Construction pratique de l’intervalle de confiance
Dès lors, cette nouvelle statistique suit par définition une loi de Student, d’un nombre de
degrés de liberté égal au nombre de degrés de liberté de la loi du χ² du dénominateur.
βˆ j − β j
σ
ˆ βˆ
TT −k
j
Comme précédemment, il est alors possible de construire un intervalle de confiance
opérationnel pour les paramètres inconnus du vecteur β à partir de cette nouvelle
distribution. Définissons cet intervalle comme la probabilité que les réalisations de la
loi de Student aient une probabilité égale à 1–α d’appartenir à l’intervalle [–tα, tα] :


βˆ j − β j


Pr −t α ≤
≤ tα  = 1 − α
σ
ˆ


βˆ j
L’intervalle pour la loi de β̂ est ici forcément symétrique, puisque la loi de Student est une
loi symétrique autour de 0. La valeur de tα dépend donc de la valeur choisie pour 1–α.
Ainsi, si la probabilité recherchée est 1–α, on choisit dans la table de la loi de
Student la valeur de t α associée à la surface p/2 égale à α/2 et pour un nombre de
degrés de liberté égal à T–k.
53
On peut donc en déduire la définition de l’intervalle de confiance de β j :
β j ∈ βˆ j − tα σ
ˆ βˆ , βˆ j + tα σ
ˆ βˆ 
j
j 

au niveau de confiance de 1–α.
Exemple : si on désire qu’il y ait 95% de chances que les réalisations d’une loi de Student à
25 degrés de liberté appartiennent à l’intervalle de confiance, on choisit dans la table de la
loi de Student la valeur de tα associée à la surface à gauche de 97,5% ou de 2,5% à droite,
soit une valeur de p de 0,05 et donc la valeur de tα 2,06.
Application : sachant que la taille de l’échantillon est égale à 28 et qu’on a estimé 3
paramètres, fournir un intervalle de confiance pour βˆ j = 6 et σ
ˆ βˆ = 2 . Comparer au résultat
j
obtenu à la question précédente.
2.3 Construction des intervalles de confiance pour σ2
2.3.1 Loi suivie par la statistique
On a vu précédemment que sous les hypothèses classiques de la régression, la distribution
de l’estimateur σ̂2 du paramètre inconnu σ2 suit une loi du χ² :
(T − k )
σ
ˆ2
σ
2
=
SCR
σ
2
χ2(T − k )
2.3.2 Construction de l’intervalle de confiance
Définissons cet intervalle comme la probabilité que les réalisations de la loi du χ²
2
] :
aient une probabilité égale à 1–α d’appartenir à l’intervalle [χ2inf , χsup


σ
ˆ2
2 
Pr χ2inf ≤ (T − k ) 2 ≤ χsup
 =1− α
σ


La loi du χ² n’étant pas symétrique, il n’y a aucune relation entre les valeurs formant
l’intervalle contenant les réalisations de la loi avec une probabilité égale à 1–α. La surface à
l’extérieur de l’intervalle est égale à α, répartie en deux surfaces de taille identique
égales à α/2. On doit donc lire la valeur de χ2inf dans la table du χ² à T–k degrés de
liberté, pour une surface à gauche égale à α/2 ou une surface à droite égale à 1– α/2.
2
De même, on lira la valeur de χsup
dans la table du χ² à T–k degrés de liberté, pour une
surface à gauche égale à 1–α/2 ou une surface à droite égale à α/2.
Exemple : Pour une loi du χ² à 30 degrés de liberté, l’intervalle de confiance à 90% est
[18.49 , 43.77].
L’intervalle de confiance concernant le paramètre inconnu σ2 :

σ
ˆ2
σ
ˆ2

2 
2
2
Pr χ2inf ≤ (T − k ) 2 ≤ χsup
 = 1 − α ⇔ χinf ≤ (T − k ) 2 ≤ χsup
σ
σ


54
2
] connu grâce à 1–α. On peut donc en déduire :
avec [χ2inf , χsup
 (T − k ) σ
ˆ 2 (T − k ) σ
ˆ2 

σ2 ∈ 
,
2
 χsup

χ2inf
au seuil de confiance de 1–α. Ici, l’intervalle n’a aucune raison d’être symétrique autour de
l’estimation ponctuelle du paramètre inconnu. Comme précédemment, la largeur de
l’intervalle dépend du niveau de confiance requis pour construire l’intervalle.
3 Test sur plusieurs paramètres
L’idée est d’ici de se demander si le ou les paramètres inconnus que l’on cherche à estimer
sont statistiquement égaux ou non à telle valeur supposée.
3.1 Rappels généraux sur la méthodologie des tests
L’utilisation des intervalles de confiance comme moyen de décision est possible. Cependant,
bien que conscient des erreurs qu’il peut commettre, l’économètre-statisticien ne peut
évaluer de façon directe le risque d’erreur.
La théorie des tests le permet, en se ramenant uniquement au choix entre deux hypothèses
antagonistes, notées H0 et H1. L’hypothèse H0, encore appelée hypothèse nulle, est
privilégiée par l’économètre-statisticien jusqu’au moment où elle est infirmée par
l’observation. Ainsi, le test a pour but de mesurer l’adéquation d’une hypothèse à la réalité
observée à travers l’information apportée par notre échantillon.
On retient plusieurs étapes dans la démarche des tests.
3.1.1 La formulation des hypothèses
Il est d’abord nécessaire de formuler les hypothèses à tester, et par voie de conséquence, les
erreurs de décision en termes de ces hypothèses.
Supposons que l’on fasse un test sur le paramètre inconnu b. On distinguera types de tests
sur un paramètre.
Dans le cas des tests unilatères, on teste l’égalité du paramètre inconnu à la valeur b0 sous
l’hypothèse nulle contre la stricte supériorité (respectivement infériorité) à cette même valeur
sous l’hypothèse alternative :
H 0 : b = b0
H1 : b > b0
ou
H 0 : b = b0
H1 : b < b0
Dans le cas des tests bilatères, on teste l’égalité du paramètre inconnu à la valeur b0 sous
l’hypothèse nulle contre la différence (c’est-à-dire la stricte supériorité ou infériorité) à cette
même valeur sous l’hypothèse alternative :
H 0 : b = b0
H1 : b ≠ b0
C’est généralement ces deux derniers types de tests qu’on formulera dans nos analyses.
3.1.2 La définition des risques et leurs probabilités
A partir de là, nous avons deux actions possibles, et donc deux possibilités de se tromper.
Ainsi, « se tromper » revient à « choisir une hypothèse alors que l’autre est vraie ». On
peut alors définir deux types de risques :
-
le risque de première espèce est le risque de refuser l’hypothèse nulle alors
55
qu’elle est vraie. On définit la probabilité de ce risque comme α = Pr {H 0 H 0 } .
-
Le risque de seconde espèce est le risque d’accepter l’hypothèse nulle alors
qu’elle est fausse. On définit la probabilité de ce risque comme β = Pr {H 0 H1} .
On notera que le conditionnement ne se fait pas par rapport à un événement mais par
rapport à un état de la nature que l’on n’observe pas. De plus, alors qu’on peut rencontrer
des notations laissant entendre qu’on choisit l’hypothèse alternative, il doit être bien clair
que l’on accepte ou que l’on rejette l’hypothèse nulle et rien d’autre ! L’hypothèse alternative
ne permet que de définir la zone de rejet.
3.1.3 La règle de décision
Il s’agit ensuite de trouver un outil, c’est-à-dire une statistique, nous permettant de mesurer
l’adéquation entre l’hypothèse formulée et la réalité observée, et ainsi d’apporter une
réponse à la question posée. Il s’agit d’une fonction discriminante (ou pivotale)
construite sous l’hypothèse nulle, dont on va comparer la valeur observée à la valeur
théorique calculée à partir de la loi de probabilités et définie à partir de la zone de
rejet de l’hypothèse nulle construite à partir de l’hypothèse alternative pour une
probabilité de risque de première espèce α donnée (méthodologie de Neymann-Pearson).
Une règle de décision est ensuite formulée, permettant de comparer la valeur particulière de
la fonction discriminante pour l’échantillon utilisé à la valeur théorique issue de la table
statistique.
3.1.4 Exemples
Dans le cas du test unilatère sur le paramètre inconnu b :
H 0 : b = b0
H1 : b > b0
on utilisera comme fonction discriminante la loi suivie par l’estimateur de ce paramètre
formulée sous l’hypothèse nulle. Ainsi, pour bˆ N (b, σb ) (on supposera ici σb connu), on
écrira sous H0 :
bˆ − b0
σbˆ
N (0,1)
L’hypothèse alternative permet de définir la zone critique, c’est à dire la zone de rejet de
l’hypothèse nulle connaissant la probabilité du risque de première espèce α. On raisonne de
la manière suivante : du fait de l’incertitude due au modèle, à l’échantillonnage, …, on ne
pourra probablement pas observer exactement l’égalité à la valeur b0 même si c’est bien le
cas. On va donc se laisser une certaine marge pour accepter l’hypothèse nulle. Posons que
56
cette marge d’acceptation va jusqu’à une valeur c, pour le moment inconnue mais
supérieure à b0 (du fait de l’hypothèse alternative). L’action d’accepter ou de rejeter
l’hypothèse nulle va donc se traduire dans la position du
marge :
•
b̂
constatée relativement à cette
à l’intérieur de cette marge, on peut statistiquement accepter l’hypothèse d’égalité du
paramètre inconnu b à la valeur b0 supposée dans l’hypothèse nulle.
• Au delà de cette marge, l’hypothèse n’est plus statistiquement acceptable.
C’est ainsi que l’on va confronter la pertinence de notre hypothèse à la réalité des données.
La probabilité du risque de première espèce, à savoir rejeter l’hypothèse nulle alors qu’elle
est vraie, se traduit par l’égalité suivante et par l’observation de
marge acceptable c :
{
}
{
α = Pr H 0 H 0 = Pr bˆ > c b = b0
}
b̂
qui est au delà de la




ˆ
c − b0
 b − b0

= Pr 
>
b = b0 
σ
σ
 123

bˆ
bˆ
123
= Z N (0,1)

t


où c est la valeur critique au delà de laquelle il n’est plus tenable de défendre l’hypothèse
nulle et où on doit donc la rejeter. Il ne reste alors plus qu’à trouver la valeur de t dans la
bˆ − b0
table de la loi normale centrée réduite pour cette probabilité α et à la comparer à
σbˆ
pour savoir si on se place dans la zone d’acceptation (
bˆ − b0
bˆ − b0
< t) ou de rejet (
> t) de
σbˆ
σbˆ
l’hypothèse nulle.
Dans le cas du test unilatère sur le paramètre inconnu b :
H 0 : b = b0
H1 : b < b0
Ici, la marge d’acceptation est toujours au voisinage de b0 jusqu’à une autre valeur c, pour le
moment inconnue, mais inférieure à b0 (du fait de l’hypothèse alternative).
L’action d’accepter ou de rejeter l’hypothèse nulle va donc se traduire dans la position du b̂
constatée relativement à cette marge :
- A l’intérieur de cette marge, on peut statistiquement accepter l’hypothèse d’égalité du
paramètre inconnu b à la valeur b0 supposée dans l’hypothèse nulle.
57
- Au delà de cette marge, l’hypothèse n’est plus statistiquement acceptable.
C’est ainsi que l’on va confronter la pertinence de notre hypothèse à la réalité des données.
Comme précédemment, la probabilité du risque de première espèce ne change pas. Ce qui
change, c’est la façon de rejeter l’hypothèse nulle :
{
}
{
α = Pr H 0 H 0 = Pr bˆ < c b = b0
}




ˆ
c − b0
 b − b0

= Pr 
<
b = b0 
σ
σ
 123

bˆ
bˆ
123
 =Z N (0,1)

t


Il ne reste alors plus qu’à trouver la valeur de t dans la table de la loi normale centrée
bˆ − b0
réduite pour la probabilité α et à le comparer à
pour savoir si on se place dans la
σbˆ
zone d’acceptation (
bˆ − b0
bˆ − b0
> t) ou de rejet (
< t) de l’hypothèse nulle.
σbˆ
σbˆ
Enfin, dans le cas du test bilatère sur le paramètre inconnu b :
H 0 : b = b0
H1 : b ≠ b0
Ici, la marge d’acceptation va se situer autour de b0, jusqu’à deux valeurs c1 et c2, pour le
moment inconnues situées de part et d’autre de b0 (toujours du fait de l’hypothèse
alternative).
L’action d’accepter ou de rejeter l’hypothèse nulle va donc se traduire dans la position du b̂
constatée relativement à cette marge d’acceptation :
- A l’intérieur de cette marge, on peut statistiquement accepter l’hypothèse d’égalité du
paramètre inconnu b à la valeur b0 supposée dans l’hypothèse nulle.
Au delà de cette marge (d’un coté ou d’un autre), l’hypothèse n’est plus
statistiquement acceptable.
En appliquant la définition de la probabilité du risque de première espèce, et en adaptant la
règle de rejet de l’hypothèse nulle :
-
58
{
}
{
α = Pr H 0 H 0 = Pr bˆ ∉ [c1, c 2 ] b = b0
⇔
}
⇔
{
1 − α = Pr bˆ ∈ [c1, c 2 ] b = b0
}




c 2 − b0
bˆ − b0
c1 − b0

1 − α = Pr 
<
<
b = b0 
σbˆ
σbˆ
σbˆ
1

424
3
123
1
424
3
 −t

=Z N (0,1)
t


Il ne reste alors plus qu’à trouver la valeur de t associée la probabilité α dans la table de la
bˆ − b0
loi normale centrée réduite et à les comparer à
pour savoir si on se place dans la
σbˆ
zone d’acceptation ( t <
bˆ − b0
< t ) ou de rejet de l’hypothèse nulle (dans le cas contraire).
σbˆ
Application : On a βˆ j = 6 et
σ2 ( X ' X )−1  = 2 . Tester si β j = 0 .

 jj
3.1.5 La performance du test
Enfin, et nous nous y intéresserons dans une moindre mesure pour ce qui est de ce cours, il
est nécessaire d’étudier la performance du test mis en œuvre. Ainsi, la puissance, c’est-àdire la probabilité de rejeter l’hypothèse nulle lorsqu’elle est fausse, devra être forte pour un
test performant.
3.2 Test sur la valeur d’un paramètre du modèle
3.2.1 Description générale
Pour les paramètres estimés dans le cadre d’un modèle économétrique, on a vu que la
distribution opérationnelle de βˆ j était une loi de Student à T–k degrés de liberté :
βˆ j − β j
σ
ˆ βˆ
TT −k
j
On veut tester l’égalité du paramètre inconnu à une valeur particulière β0 . Les hypothèses
s’écrivent donc :
H 0 : β j = β0
H1 : β j ≠ β0
La fonction discriminante sous H0 est donc :
βˆ j − β0
ˆ βˆ
σ
TT −k
j
pour une probabilité du risque de première espèce de α. La règle de décision s’écrit :




ˆ
c1 − β0 β j − β0 c 2 − β0

Pr 
<
<
β = β0  = 1 − α
ˆ βˆ
σ
ˆ βˆ
σ
ˆ βˆ
 σ

j
j
j
424
3 1
424
3 1
424
3
1

TT −k
t
 −t

59
Il est possible de lire la valeur de t dans la table de Student en fonction de la probabilité du
risque de première espèce et du nombre de degrés de liberté de la loi, et donc d’en déduire la
βˆ j − β0
zone d’acceptation. Si
∈ [ - t , t ] , alors l’hypothèse nulle est acceptable. Dans le cas
σ
ˆ βˆ
j
contraire, elle n’est pas soutenable.
3.2.2 Application particulière
Un test très répandu dit de significativité cherche à tester la pertinence de chaque
variable explicative dans la régression. On envisage pour cela la nullité du paramètre
inconnu qui lui est associé :
H0 : β j = 0
H1 : β j ≠ 0
Ainsi, si
βˆ j
σ
ˆ βˆ
∈ [−t, t ] , alors l’hypothèse nulle est acceptable et le paramètre inconnu n’est pas
j
significativement différent de 0 au seuil de α. Dans le cas contraire, l’hypothèse nulle est
rejetée et la variable explicative est statistiquement pertinente.
3.2.3 De l’utilisation des intervalles de confiance pour les tests
d’hypothèses bilatères
On peut utiliser les intervalles de confiance pour répondre aux questions posées par les
tests dans le cas particulier où :
•
le test est bilatéral
•
le niveau de confiance de l’intervalle est égal à 1 – α, la probabilité de risque de
première espèce avec lequel le test est réalisé.
Dans ces conditions en effet, on constate que l’intervalle de confiance correspond à la
zone d’acceptation du test.
Il est alors inutile de mener un test si ces conditions sont remplies. Il suffit de regarder si
la valeur supposée dans l’hypothèse nulle appartient ou non à l’intervalle de
confiance. Si c’est le cas, on est dans la zone d’acceptation et on accepte l’hypothèse nulle ;
dans le cas contraire, on la rejette.
3.3 Tests joints sur tous les paramètres du modèle
On va s’intéresser ici au test joint sur plusieurs paramètres et montrer qu’il peut apporter
une information différente de celle issue de plusieurs tests effectués séparément sur des
paramètres.
3.3.1 Méthodologie
Ainsi, pour le vecteur β, on va poser à titre d’exemple :
H 0 : β = β0
H1 : β ≠ β0
Intéressons-nous à la distribution de β afin de construire une fonction discriminante pour
ce test. Sous H0 on a :
βˆ
(k ×1)
N (β0 , σ 2 ( X ' X )−1 ) ⇔ βˆ − β0
(k ×k )
60
N (0, σ2 ( X ' X )−1 )
D’après le résultat R3 obtenu au chapitre précédent, il est facile de déterminer la
distribution de la forme quadratique suivante sous l’hypothèse nulle :
(X ' X ) ˆ
(βˆ − β0 )'[σ2 ( X ' X )−1 ]−1(βˆ − β0 ) = (βˆ − β0 )'
(β − β0 )
σ2
χ2 (k )
Cependant, comme à la section précédente, cette statistique n’est pas opérationnelle
puisqu’on ne connaît pas la vraie valeur de σ2 . On va donc remplacer σ2 par son
estimation σ̂2 .
(X ' X ) ˆ
(βˆ − β0 )'
(β − β0 )
σ
ˆ2
Ce choix modifie la loi suivie par la statistique. Il est donc nécessaire de se ramener à une
loi connue. Modifions la statistique en divisant l’expression précédente par k. On peut alors
écrire :
(βˆ − β0 )'(X ' X )(βˆ − β0 )
k ⋅σ
ˆ2
Cette fonction discriminante présente l’avantage d’être opérationnelle puisqu’on connaît
tous les éléments qui la composent. De plus, on peut montrer qu’elle suit une loi standard
connue sous H0. En effet, elle se réécrit :
(βˆ − β0 )' (X ' X )(βˆ − β0 )
k ⋅σ
ˆ2
=
(βˆ − β0 )' (X ' X )(βˆ − β0 )
k ⋅σ
ˆ2
σ2
σ2
(X ' X ) ˆ
1
(βˆ − β0 )'
(β − β0 )
2
k
σ
=
σ
ˆ2
1
(T − k ) 2
σ (T − k )
χ2 (k )
k
χ2 (T − k )
T −k
Dans le terme de gauche, tout est connu donc calculable ; dans le terme de droite, σ2
disparaît du rapport mais permet d’identifier un rapport de formes quadratiques suivant des
lois du χ² divisées par leur nombre de degrés de liberté. On est donc en présence d’une loi
de Fisher si ces deux lois sont indépendantes.
Pour démontrer l’indépendance, il suffit d’utiliser le résultat préliminaire n°1 de la section 1
concernant l’indépendance de deux formes quadratiques.
Preuve : Montrons que les deux lois sont indépendantes. Il suffit pour cela de les réécrire en
u
fonction des perturbations réduites
N (0, I n ) .
σ
On a vu qu’on pouvait réécrire
de
u
β̂ − β
comme ( X 'X )−1 X ' ⋅ , qui est donc une fonction linéaire
σ
σ
(X ' X ) ˆ
u
. Dès lors, (βˆ − β)'
(β − β) peut se réécrire comme :
σ
σ2
'
'
 ' −1 ' u 
 ' −1 ' u   u 
'
'
−1
'
'
−1 '  u 
(X X ) X ⋅ σ  ⋅ ( X X ) ⋅ (X X ) X ⋅ σ  =  σ  ⋅ X (X X ) (X X )(X X ) X ⋅  σ 



  
 
'
u 
u 
=   ⋅ [ X (X ' X )−1 X ' ] ⋅  
σ
σ
'
u 
u 
=   ⋅ PX ⋅  
σ
 
σ
61
u
dont on sait qu’elle suit une loi du χ² dont le
σ
nombre de degrés de libertés est égal au rang de PX, c’est-à-dire k.
qui est donc une forme quadratique de
On peut également réécrire (T − k )
'
u
u 
comme   ⋅ M X ⋅   , qui est donc une forme
σ
 
σ
σ
ˆ2
σ2
u
, dont on sait qu’elle suit une loi du χ² dont le nombre de degrés de
σ
libertés est égal au rang de MX, c’est-à-dire T–k.
quadratique de
D’après le résultat préliminaire, montrer l’indépendance de ces deux variables aléatoires
revient à calculer le produit des matrices symétriques qui les caractérisent, c’est-à-dire :
M X ⋅ PX = 0
par définition, ce qui achève la preuve.
La fonction discriminante pour le test est donc la statistique F qui suit une loi de
Fisher ici à k et T–k degrés de liberté. Elle peut donc être réécrite sous H0 :
(βˆ − β0 )'(X ' X )(βˆ − β0 )
F (k ,T − k )
k ⋅σ
ˆ2
3.3.2 Illustration : le modèle de régression linéaire simple
Soit le modèle linéaire simple :
yt = a + b xt + ut
On pose le test suivant :
H 0 : a = a 0 , b = b0
H1 : H 0 fausse
La statistique de Fisher peut se réécrire sous H0 :
F =
(βˆ − β0 )'(X ' X )(βˆ − β0 )
k ⋅σ
ˆ2
=
(aˆ − a0
 x11 x12   aˆ − a0 
bˆ − b0 

 
 x 21 x 22   bˆ − b0 
2ˆ
σ2
)
Comme la matrice X’X est symétrique, on a x12 = x21. La statistique de test est donc égale
dans ce cas à :
F =
(
)
(
1 
2
x11 (aˆ − a 0 ) + 2x12 (aˆ − a0 ) bˆ − b0 + x 22 bˆ − b0
2ˆ
σ2 
)
2

Cette statistique doit être comparée à une valeur critique f* issue de la loi de Fisher à 2 et T–
2 degrés de liberté et définie pour une probabilité de risque de première espèce posée et
égale à α :
Pr(F > f * ) = α
On peut donc définir la zone d’acceptation de l’hypothèse nulle comme :
62
Pr(F < f * ) = 1 − α
Ainsi, si on se place dans le plan (a ,b), l’équation F = f* décrit l’équation d’une ellipse
centrée en aˆ, bˆ .
( )
L’intérieur de cette ellipse décrit toutes les valeur a0 et b0 que l’on peut formuler dans
l’hypothèse nulle et qui conduiront à l’acceptation de l’hypothèse nulle pour la probabilité de
risque de première espèce α. A l’extérieur de cette ellipse, l’hypothèse nulle est rejetée.
Tester une hypothèse comparable de façon séparée conduit à une zone d’acception
rectangulaire, obtenue par l’intersection des zones d’acceptation de tests autour de chaque
estimation ponctuelle.
Tout cela est illustré par la représentation graphique suivante :
b
b̂
â
a
On peut dès lors constater qu’un test joint ne va pas forcément conduire aux mêmes
conclusions que des tests séparés (par exemple si on se place à l’intérieur de l’ellipse
mais à l’extérieur de la zone hachurée).
Cette différence provient de la prise en compte de la covariance entre les deux estimateurs,
alors que les tests réalisés de façon isolée n’utilisent que la variance de l’estimateur.
Il peut dès lors se révéler utile de réaliser des tests joints.
Cependant, un défaut de l’approche telle qu’elle est présentée ici est qu’elle porte sur tous
les paramètres inconnus de la régression simultanément.
Ainsi, par exemple, un test de significativité globale de la régression pourra être réalisé.
Cependant, on voit bien que s’il est naturel d’évaluer la nullité des paramètres associés aux
variables explicatives, il est beaucoup plus délicat de supposer en même temps la
nullité de la constante si la variable endogène n’est pas centrée. Dès lors, faire une
telle hypothèse pourrait nuire à la conclusion finale du test puisque dans une
hypothèse jointe, il suffit qu’une hypothèse ne soit pas vérifiée pour induire un rejet de
l’hypothèse nulle (n’oubliez pas qu’une hypothèse jointe se traduit par une intersection
d’événements et que l’hypothèse contraire se traduit par l’événement contraire, c’est-à-dire
signifie une union d’événements). Dès lors, un test plus naturel consisterait donc à
supposer la nullité des paramètres associés aux variables explicatives hors
constante.
De même et plus généralement, on n’a pas forcément d’a priori théoriques concernant tous
les paramètres inconnus d’une régression linéaire et on peut ressentir le besoin de
seulement réaliser le test sur un sous-ensemble de paramètres inconnus.
Il est donc nécessaire de développer une procédure intermédiaire.
63
3.4 Tests joints sur un sous-ensemble de paramètres
Supposons que l’on se place dans le modèle linéaire de régression multiple avec k variables
explicatives (y compris la constante) et formulé sous les hypothèses standards. On
s’intéresse à poser r hypothèses sur les paramètres inconnus. Ces hypothèses vont prendre
la forme de contraintes linéaires sur les paramètres inconnus du modèle.
3.4.1 Quelques exemples de tests joints
Exemple 1 : supposons la fonction de production suivante :
yt = a + α lt + βkt + ut
On va par exemple chercher à tester l’hypothèse de rendements constants. Pour cela, on va
poser :
H0 : α + β = 1
H1 : α + β ≠ 1
Exemple 2 : soit l’équation de salaire suivante :
wt = a + α0 pt + α1 pt −1 + α2 pt −2 + γZ t + ut
avec Z les autres variables explicatives du modèle. On va par exemple chercher à tester
l’hypothèse de parfaite indexation des salaires sur les prix. Pour cela, on va poser :
H 0 : α 0 + α1 + α2 = 1
H1 : α 0 + α1 + α 2 ≠ 1
Exemple 3 : soit le modèle de régression multiple suivant :
yt = a + b1 x1,t + b2 x 2,t + b3 x 3,t + b4 x 4,t + ut
On va par exemple chercher à tester l’hypothèse de l’égalité des paramètres b1 et b2 et le fait
que b3 = –b4. Pour cela, on va poser :
H 0 : b1 = b2 et b3 = −b4
H1 : H 0 fausse
Exemple 4 : soit le modèle de régression multiple suivant :
yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut
On va par exemple chercher à tester l’hypothèse de non pertinence de la régression. Pour
cela, on va poser :
H 0 : b1 = b2 = ... = bk −1 = 0
H1 : H 0 fausse
3.4.2 La méthodologie
On a besoin d’un cadre général où formuler ces différentes hypothèses. L’idée est donc
d’exprimer le test de la façon suivante :
64
y = X ⋅ β + u

H0 :  C ⋅ β = c
(r ×k ) (k ×1) (r ×1)
H1 : y = X ⋅ β + u
La matrice C résume les r relations supposées entre les paramètres inconnus du modèle. La
matrice C et le vecteur c permettent de réécrire les contraintes linéaires de la façon
suivante :
C ⋅ β = c
(r ×k ) (k ×1)
(r ×1)
où r est le nombre d’hypothèses formulées. Le rang de la matrice C est donc égal à r.
Ainsi, dans l’exemple 1, on a formulé r = 1 contrainte pour 3 paramètres inconnus. La
matrice C est de format (1×3) et c est un scalaire. On écrira alors l’hypothèse nulle comme :
a 
( 0 1 1) ⋅  α  = 1
β
 
Dans l’exemple 2, on a formulé r = 1 contrainte pour au moins 4 paramètres inconnus plus
un vecteur de paramètres inconnus. La matrice C est de format (1×5) et c est un scalaire. On
écrira alors l’hypothèse nulle comme :
a 
 
 α0 
( 0 1 1 1 0 ) ⋅  α1  = 1
 
 α2 
 γ 
 
Dans l’exemple 3, on a formulé r = 2 contraintes pour 5 paramètres inconnus. La matrice C
est de format (2×5) et c est un vecteur de taille 2. On écrira alors l’hypothèse nulle comme :
a 
 
b1
 0 1 −1 0 0     0 


⋅
b


2 = 
0 0 0 1 1   0
 b3 
b 
 4
Enfin, dans l’exemple 4, on a formulé r = k–1 contraintes pour k paramètres inconnus. La
matrice C est de format (k–1×k) et c est un vecteur de taille k–1. On écrira alors l’hypothèse
nulle comme :
 b1 
1 0 L 0 0 
 0

  b2   
0 1 L 0 0 ⋅  M  = 0
M M O M M 
 M

  bk −1   
0 0 L 1 0 
 0
 a 
Il est alors nécessaire de trouver une fonction discriminante pour mener à bien ce test.
65
3.4.3 Le test
Comme précédemment, on sait que :
βˆ
(k ×1)
N (β, σ2 ( X ' X )−1 )
(k ×k )
ce qui implique :


N (C ⋅ β − c ), σ2C (X ' X )−1C ' 
(r ×r )
 (r ×1)

(C ⋅ βˆ − c )
(r ×1)
d’après les propriétés de la loi normale et des opérateurs espérance et variance. Or sous H0,
on suppose que C ⋅ β = c . Dès lors, la distribution de C ⋅ βˆ − c sous H0 peut donc se réécrire :
C ⋅ βˆ − c
N (0, σ2C (X ' X )−1C ' )
dont on déduit :
'
C ⋅ βˆ − c  σ2C (X ' X )−1C ' 


−1
C ⋅ βˆ − c 
χ2 (r )
d’après le résultat R3 sur les formes quadratiques du chapitre précédent (section 6).
Comme à la section précédente, cette statistique n’est pas opérationnelle puisqu’on ne
connaît pas la vraie valeur de σ2.
On va donc remplacer σ2 par son estimation σ̂2 .
'
C ⋅ βˆ − c  σ
ˆ 2C ( X ' X )−1C ' 


−1
C ⋅ βˆ − c 
Ce choix modifie la loi suivie par la statistique. Il est donc nécessaire de se ramener à une
loi connue. Modifions la statistique en divisant l’expression précédente par r. On peut alors
écrire :
'
C ⋅ βˆ − c  C ( X ' X )−1C ' 

 

F =
r ⋅σ
ˆ2
−1
C ⋅ βˆ − c 


En faisant apparaître les termes adéquats (σ2 et T–k) au numérateur et au dénominateur de
l’expression, on obtient alors facilement :
−1
'
−1
C ⋅ βˆ − c  C (X ' X )−1C '  C ⋅ βˆ − c  C ⋅ βˆ − c  ' σ2C (X ' X )−1C '  C ⋅ βˆ − c 

 
 
 
 

 
2
r
⋅
σ
r
F =
=
σ
ˆ2
1
σ
ˆ2
1
(T − k ) 2
(T − k ) 2
σ (T − k )
σ (T − k )
χ2 (r )
r
χ2 (T − k )
k
On reconnaît un rapport de formes quadratiques suivant des lois du χ² divisées par leur
nombre de degrés de liberté. On est donc en présence d’une loi de Fisher si ces deux
lois sont indépendantes. Pour démontrer l’indépendance, il suffit d’utiliser le résultat
préliminaire n°1 de la section 1 concernant l’indépendance de deux formes quadratiques.
66
Preuve : Montrons que les deux lois sont indépendantes. Il suffit pour cela de les réécrire en
u
fonction des perturbations réduites
N (0, I n ) .
σ
On a vu qu’on pouvait réécrire
de
u
β̂ − β
comme ( X 'X )−1 X ' ⋅ , qui est donc une fonction linéaire
σ
σ
u
. Pré-multiplions par la matrice C. On obtient :
σ
08
6
474
βˆ − β (C ⋅ βˆ − c ) − (C ⋅ β − c )
u
C
=
= C ⋅ (X ' X )−1 X ' ⋅
σ
σ
σ
La forme quadratique peut alors se réécrire :
'
−1 
u

'
−1 ' u  
⋅
⋅
⋅ C (X ' X )−1C '  ⋅ C ⋅ (X ' X )−1 X ' ⋅  =
C
(
X
X
)
X




σ
σ



'
u 
'
−1 '
'
−1 ' −1
'
−1 '  u 
  ⋅ X (X X ) C ⋅ C ( X X ) C  C ⋅ ( X X ) X ⋅  
σ
σ
qui est donc une forme quadratique de
(T − k )
σ
ˆ2
σ
2
u
.
σ
'
u
peut se réécrire comme   ⋅ M X
σ
u
u 
.
⋅   , qui est donc une forme quadratique de
σ
σ
D’après le résultat préliminaire, montrer l’indépendance de ces deux variables aléatoires
revient à calculer le produit des matrices symétriques qui les caractérisent, c’est-à-dire :
M X ⋅ X ( X 'X )−1C ' ⋅ C (X 'X )−1C ' 


1
424
3
=0
−1
C ⋅ ( X 'X )−1 X ' = 0
par définition, ce qui achève la preuve.
La fonction discriminante pour les tests impliquant des combinaisons linéaires entre
les paramètres inconnus est donc la statistique
'
C ⋅ βˆ − c  C ( X ' X )−1C ' 

 

F =
r ⋅σ
ˆ2
−1
C ⋅ βˆ − c 


qui suit une loi de Fisher ici à r et T–k degrés de liberté.
67
Questions : que constate-t-on si on pose C comme l’identité de taille k et c = β0 ? Ce test
peut-il également s’appliquer pour le cas d’une contrainte sur un seul paramètre ?
4 L’estimation sous contraintes linéaires : les
moindres carrés contraints
On va dans cette section présenter l’estimateur βˆc des MC sous contraintes (MCC) et étudier
ses propriétés.
On va voir qu’il est équivalent
- d’estimer un modèle à k paramètres inconnus par les MCC sous r contraintes, ce
qui donnera l’estimateur βˆc
et d’intégrer ces r contraintes dans le modèle et d’estimer ce modèle contraint à
k – r paramètres par les MCO.
Intuitivement, on se dit que si la contrainte était parfaitement valable, l’estimateur des MCO
(non contraint) se positionnerait naturellement de façon à respecter la contrainte.
Cependant, il faut aussi envisager, pour les mêmes raisons que pour les tests réalisés
précédemment, que les caractéristiques de l’échantillon utilisé ne permettent pas de mettre
en exergue complètement ces contraintes. Dès lors, il est nécessaire de se demander si ces
contraintes sont statistiquement soutenables au regard des données ou pas.
-
SCrc
SCrnc
βˆ c
βˆ nc
On pourra envisager cette question au travers de la distance entre les quantités SCRnc et
SCRc, qui caractérise la distance entre le modèle sous contraintes et le modèle non
contraint, c'est-à-dire entre l’hypothèse nulle formulée et les données. Cette approche
permettra donc d’aborder le problème des tests d’hypothèses simples ou jointes vu à
la section précédente de façon plus simple.
68
4.1 Retour sur les exemples précédents
En examinant les exemples présentés précédemment, on constate que les hypothèses
peuvent le plus souvent être examinées dans le cadre d’un modèle contraint, c’est-à-dire en
estimant des modèles modifiés.
Ainsi, en ce qui concerne l’exemple 1, une solution possible consisterait à estimer le modèle
contraint (écrit sous l’hypothèse nulle) suivant :
yt − kt = a + α (lt − kt ) + εt
On n’a donc plus que 2 paramètres à estimer. Ce modèle possède T–2 degrés de liberté.
Pour l’exemple 2, l’hypothèse nulle consiste à estimer le modèle suivant :
wt − pt −2 = a + α0 ( pt − pt −2 ) + α1( pt −1 − pt −2 ) + γZ t + εt
On n’a donc plus que 4 paramètres à estimer. Ce modèle possède T–4 degrés de liberté.
Pour l’exemple 3, l’hypothèse nulle consiste à estimer le modèle suivant :
yt = a + b1 (x1,t + x 2,t ) + b3 ( x 3,t − x 4,t ) + εt
On n’a donc plus que 2 paramètres à estimer. Ce modèle possède T–2 degrés de liberté.
Enfin, pour l’exemple 4, l’hypothèse nulle consiste à estimer le modèle suivant :
yt = a + εt
On n’a donc plus qu’un paramètre à estimer. Ce modèle possède T–1 degrés de liberté.
Il reste à présent à comparer la « distance » entre le modèle contraint et le modèle non
contraint. Il va falloir bien évidemment pour cela construire un test.
4.2 L’estimateur des moindres carrés contraints
L’idée est d’estimer le modèle de régression linéaire multiple suivant
y = X ⋅ β + u
(T ×k ) (k ×1) (T ×1)
(T ×1)
sous les r contraintes linéaires suivantes :
C ⋅ β = c
(r ×k ) (k ×1)
(r ×1)
On va donc appliquer la méthode des moindres carrés ordinaires en prenant en compte les r
contraintes linéaires formulées. Le programme devient donc :
min S (β) = min(u'u ) = min(y − X β)' (y − X β) sous les contraintes C ⋅ β = c
β
β
β
La solution de ce programme est notée βˆc relativement à l’estimateur des MCO traditionnels
β̂ (noté parfois βˆnc pour non contraint). Cette solution s’exprime comme :
βˆ c = βˆnc − ( X 'X )−1C ' ⋅ [C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆ nc − c )
Preuve : Il suffit d’écrire le lagrangien du programme de minimisation sous contraintes :
69
L (β, λ ) = (y − X ⋅ β )'(y − X ⋅ β ) + (C ⋅ β − c )' ⋅ 2λ
avec λ le vecteur de taille (r × 1) des paramètres de Lagrange associés aux contraintes. La
multiplication par 2 permet de simplifier légèrement les calculs. Développons l’expression :
L (β, λ ) = y 'y − 2 ⋅ β ⋅ X ' ⋅ y + β' ⋅ ( X 'X ) ⋅ β + 2 ⋅ β' ⋅ C ' ⋅ λ − 2 ⋅ c ' ⋅ λ
et calculons les CPO :
∂L (β, λ )
= 0 ⇔ −2 ⋅ X 'y + 2 ⋅ ( X 'X ) ⋅ βˆc + 2 ⋅ C 'λˆ = 0
∂β β=βˆc
λ=λˆ
∂L (β, λ )
= 0 ⇔ C ⋅ βˆc − c = 0
∂λ β=βˆc
λ=λˆ
En simplifiant la première expression par 2 et en pré-multipliant par ( X 'X )−1 :
− (X 'X )−1 ⋅ X 'y + βˆc + ( X 'X )−1 ⋅ C 'λˆ = 0 ⇔ βˆc = βˆnc − (X 'X )−1 ⋅ C 'λˆ
144244
3
=βˆnc
Il ne reste donc plus qu’à trouver l’expression de λ̂ afin d’avoir l’expression de βˆc .
Remplaçons l’expression trouvée dans la seconde condition du premier ordre :
C ⋅ βˆc = c ⇔ C ⋅ βˆ nc − C ⋅ ( X 'X )−1 ⋅ C 'λˆ = c
C ⋅ ( X 'X )−1 ⋅ C ' est de format (r × r). C’est une matrice inversible car ( X 'X )−1 est régulière et C
est une matrice de rang r. Son rang est donc égal à r. On obtient alors :
λˆ = [C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c )
En remplaçant l’expression de λ̂ dans l’expression de βˆc , on a donc bien :
βˆ c = βˆnc − ( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆ nc − c )
ce qui achève la preuve (et le lecteur).
On constate que lorsque l’estimateur des MCO vérifie exactement les contraintes linéaires
supposées, alors l’estimateur des MCC est égal à l’estimateur des MCO.
4.3 Deux propriétés de l’estimateur des MCC
Deux cas de figure sont possibles : si l’hypothèse nulle est vraie ou non.
Si les contraintes sont valables, l’estimateur des MCC est sans biais est plus précis que
l’estimateur non contraint sous les hypothèses standards de la régression.
Preuve : Réécrivons l’expression de l’estimateur des MCC :
βˆc = βˆnc − W ⋅ (C ⋅ βˆnc − c )
70
avec W = ( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1 une matrice non aléatoire.
1. Montrons que l’estimateur est sans biais.
E (βˆc ) = E [βˆnc − W ⋅ (C ⋅ βˆnc − c )] = E [βˆnc ] − W ⋅ (C ⋅ E [βˆnc ] − c )
123
123
=β
=β
= β − W ⋅ (C ⋅ β − c )
d’après les propriétés de l’estimateur des MCO.
Ainsi, si l’hypothèse nulle est vérifiée, l’estimateur des MCC est sans biais :
E (βˆc ) = β − W ⋅ (C
⋅24
β −3
c) = β
1
4
=0
Dans le cas contraire, il est biaisé.
2. Montrons qu’il est plus précis. On peut réécrire :
βˆnc = (X ' X )−1 X ' ⋅ (X ⋅ β + u ) = β + (X ' X )−1 X ' ⋅ u
Remplaçons dans l’expression de l’estimateur des MCC :
βˆc = β + (X 'X )−1 X ' ⋅ u − W ⋅ [C ⋅ (β + (X 'X )−1 X ' ⋅ u ) − c ]
c’est-à-dire si l’hypothèse nulle est vérifiée :
βˆc = β + (X 'X )−1 X ' ⋅ u − W ⋅ [C
⋅24
β −3
c + C ⋅ (X 'X )−1 X ' ⋅ u ]
1
4
=0
soit encore :
βˆc − β = (I − WC ) ⋅ (X 'X )−1 X ' ⋅ u
La variance de l’estimateur s’écrit donc :
V (βˆc ) = E [βˆc − β][βˆc − β]' = E [(I − WC ) ⋅ (X 'X )−1 X ' ⋅ u ][(I − WC ) ⋅ (X 'X )−1 X ' ⋅ u ]'
Développons :
V (βˆc ) = (I − WC ) ⋅ (X 'X )−1 X ' ⋅ E [u ⋅ u ' ] ⋅ X ⋅ ( X 'X )−1 ⋅ (I − WC )'
1
424
3
σ2 I T
= σ2(I − WC ) ⋅ (X 'X )−1 ⋅ (X 'X ) ⋅ ( X 'X )−1 ⋅ (I − WC )'
1442443
Ik
−1
= σ (I − WC ) ⋅ (X X )
2
'
{
⋅ (I − WC )'
' '
= σ2 (X 'X )−1 + WC ⋅ (X 'X )−1 ⋅ CW
− WC ⋅ ( X 'X )−1 − ( X 'X )−1 ⋅ C 'W '
L’expression se simplifie :
71
}
{
⋅ C {[C ⋅ (X 'X )
}
'
' '
WC ⋅ (X 'X )−1 ⋅ CW
= W ⋅ C ⋅ (X 'X )−1 ⋅ C ' (X 'X )−1 ⋅ C '[C ⋅ (X 'X )−1 ⋅ C ' ]−1
= W ⋅ C ⋅ (X 'X )−1
−1
'
}
'
⋅ C ' ]−1 C ⋅ (X 'X )−1
{
}
= W ⋅ C ⋅ ( X 'X )−1 ⋅ C ' [C ⋅ ( X 'X )−1 ⋅ C ' ]'
−1
C ⋅ (X 'X )−1
= W ⋅ [C ⋅ ( X 'X )−1 ⋅ C ' ][C ⋅ (X 'X )−1 ⋅ C ' ]−1 C ⋅ ( X 'X )−1
1444444
424444444
3
I
= W ⋅ C ⋅ ( X 'X )−1
Remplaçons :
{
= σ2 {( X 'X )−1 − (X 'X )−1 ⋅ C 'W '}
' '
V (βˆc ) = σ2 ( X 'X )−1 + WC ⋅ ( X 'X )−1 − WC ⋅ ( X 'X )−1 − ( X 'X )−1 ⋅ CW
}
= V (βˆnc ) − σ2(X 'X )−1 ⋅ C 'W '
= V (βˆnc ) − σ2(X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1C ⋅ ( X 'X )−1
La différence entre la variance de l’estimateur des MCO et celle des MCC est donc une
matrice définie positive si on la réécrit comme une forme quadratique :
V (βˆnc ) − V (βˆc ) = σ2 ( X 'X )−1 ⋅ C ' [C ⋅ ( X 'X )−1 ⋅ C ' ]−1 C ⋅ ( X 'X )−1
14
4244
3 14442444
3 14243
A'
B
A
L’estimateur des MCC est donc plus précis que celui des MCO lorsque les contraintes
linéaires sont vérifiées ; mais il est important de se souvenir que ce résultat
théorique ne tient que si l’hypothèse nulle était vérifiée.
4.4 La distance entre les modèles contraint et non
contraint
4.4.1 Réinterprétation du test joint sur les paramètres inconnus
On a vu que la statistique de test joint sur une partie des paramètres inconnus pouvait
s’écrire :
'
C ⋅ βˆ − c  C ( X ' X )−1C ' 

 

F =
2
r ⋅σ
ˆ
−1
C ⋅ βˆ − c 


Cette expression peut se traduire comme la distance entre le modèle contraint et le modèle
non contraint. Ainsi :
'
C ⋅ βˆ − c  C ( X ' X )−1C ' 


−1
C ⋅ βˆ − c  = SCrc − SCrnc
Preuve : Soient û le vecteur des résidus estimés du modèle non contraint et ε̂ celui du
modèle contraint. Par définition :
εˆ = y − X ⋅ βˆc
72
On peut le réécrire en fonction de l’estimateur des MCO :
εˆ = y − X ⋅ βˆc + X ⋅ βˆnc − X ⋅ βˆnc
= y − X ⋅ (βˆc − βˆnc ) − X ⋅ βˆnc
= uˆ − X ⋅ (βˆc − βˆnc )
Calculons la somme des carrés des résidus estimés :
'
SCrc = εˆ'εˆ = uˆ − X ⋅ (βˆc − βˆnc ) ⋅ uˆ − X ⋅ (βˆc − βˆnc )
= uˆ 'uˆ + (βˆc − βˆnc )' ⋅ X ' ⋅ X ⋅ (βˆc − βˆnc )
= SCrnc + (βˆc − βˆnc )' ⋅ ( X 'X ) ⋅ (βˆc − βˆnc )
D’après la définition de l’estimateur des MCC, on sait que :
βˆ c − βˆ nc = −( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c )
On a donc :
SCrc − SCrnc = (βˆ c − βˆ nc )' ⋅ ( X 'X ) ⋅ (βˆc − βˆ nc )
'
= ( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c ) ⋅ ( X 'X ) ⋅ (X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c )




= (C ⋅ βˆnc − c )' [C ⋅ ( X 'X )−1 ⋅ C ' ]−1 ⋅ C ⋅ ( X 'X )−1 ⋅ ( X 'X ) ⋅ (X 'X )−1 ⋅ C ' [C ⋅ (X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c )
1442443
Ik
14444444444
424444444444
4
3
Ir
= (C ⋅ βˆnc − c )[' C ⋅ (X 'X )−1 ⋅ C ' ]−1 ⋅ (C ⋅ βˆnc − c )
ce qui achève la preuve.
Dès lors, comme :
σ
ˆ2 =
SCrnc
uˆ 'uˆ
=
T −k T −k
On peut réécrire :
'
C ⋅ βˆ − c  C (X ' X )−1C ' 


F =
2
ˆ
r ⋅σ
−1
C ⋅ βˆ − c 
SCrc − SCrnc
r
=
SCrnc
T −k
On a vu que le nombre de degrés de liberté associé à chaque somme des carrés des résidus
est égal à dlc = T – (k – r) dans le cas de la régression contrainte et à
dlnc = T – k dans celui de la régression non contrainte. On peut alors réécrire :
F =
'
'
−1 ' 
ˆ

C ⋅ β − c  C (X X ) C 
−1
ˆ
C ⋅ β − c 
r ⋅σ
ˆ2
SCrc − SCrnc
dlc − dlnc
=
SCrnc
dlnc
4.4.2 Réécriture et applications
On montre que cette expression peut se réécrire :
73
F (dlc − dlnc , dlnc )
SCrc − SCrnc
dlc − dlnc
F =
=
SCrnc
dlnc
SCrc SCrnc
−
SCT
SCT
dlc − dlnc
R2 − R2 T − k
= nc 2 c
SCrnc
r
1 − Rnc
1 −1 +
SCT
dlnc
1 −1 +
car SCT = SCEnc + SCRnc = SCEc + SCRc s’il y a des constantes dans les modèles.
Une application directe est le test de significativité globale, qui permet de tester la
pertinence globale d’une régression, c’est-à-dire la nullité des paramètres de toutes
les variables explicatives à l’exception de la constante.
On montre alors que la statistique de test se réécrit :
F =
2
2
Rnc
− Rc2 T − k
Rnc
T −k
=
2
2
r
1 − Rnc
1 − Rnc k − 1
F (k − 1, T − k )
puisqu’il est facile de voir que pour le modèle contraint, SCT = SCRc et donc SCEc = 0 d’après
l’équation de la variance. Cette écriture du test est très pratique et très souvent utilisée car
elle ne requiert finalement que le calcul du R² de la régression à tester.
Références bibliographiques
Dormont B., Introduction à l’Econométrie, Editions Montchrétien.
Greene W.H., Econometric Analysis, Mac Millan.
Maddala G., Econometric methods and applications,
74