Introduction à l`Econométrie Ecole Centrale de Paris Année

Transcription

Introduction à l`Econométrie Ecole Centrale de Paris Année
Introduction à l’Econométrie
Ecole Centrale de Paris
Année 2006-2007
Pauline Givord
3 novembre 2006
Table des matières
1 Le modèle linéaire : les MCO
1.1 Introduction : le modèle linéaire simple . . . . . . . . . . . . . . . . . . . . . .
1.2 l’estimateur des moindres carrés ordinaires . . . . . . . . . . . . . . . . . . . .
1.2.1 le modèle linéaire général : écriture matricielle . . . . . . . . . . . . .
1.2.2 définition de l’estimateur des moindres carrés ordinaires . . . . . . . .
1.2.3 les équations normales . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 interprétation : effet d’une variable . . . . . . . . . . . . . . . . . . . .
1.2.6 propriétés algébriques . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 propriétés statistiques de l’estimateur des moindres carrés ordinaires . . . . .
1.3.1 l’estimateur des MCO est sans biais . . . . . . . . . . . . . . . . . . .
1.3.2 la variance de l’estimateur des MCO . . . . . . . . . . . . . . . . . . .
1.3.3 L’estimateur des mco est le plus précis : le théorème de Gauss-Markov
1.3.4 Mise en oeuvre des MCO sous le logiciel SAS . . . . . . . . . . . . . .
1.4 conclusion et résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
6
7
7
7
8
8
9
10
12
12
12
14
15
15
2 Inférence : le modèle linéaire gaussien
2.1 tests et intervalles de confiance . . . . . . . . . . . . . . . . . . . .
2.1.1 Rappel sur les tests statistiques . . . . . . . . . . . . . . . .
2.2 L’estimateur des mco dans le modèle linéaire gaussien . . . . . . .
2.2.1 Loi du couple (β̂, σ̂ 2 ) . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Test sur la valeur d’un paramètre : la statistique de Student
2.2.3 Test unilatéral sur un coefficient . . . . . . . . . . . . . . .
2.2.4 Test bilatéral sur un coefficient . . . . . . . . . . . . . . . .
2.2.5 Intervalles de confiance . . . . . . . . . . . . . . . . . . . .
2.2.6 mise en oeuvre sous sas des tests de significativité . . . . .
2.3 Propriétés asymptotiques de l’estimateur des MCO . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
3 Le modèle linéaire sous contraintes
3.1 Exemple : fonction de production . . . . . . . . . . . . . . . . . . . .
3.2 formalisation du problème . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Les moindres carrés sous contraintes . . . . . . . . . . . . . . . . . .
3.3.1 Propriété de l’estimateur des moindres carrés contraint . . . .
3.3.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . .
3.4 Le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 La statistique de Fisher . . . . . . . . . . . . . . . . . . . . .
3.4.2 Mise en oeuvre pratique des tests de contraintes linéaires sous
3.4.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
17
17
18
19
19
20
20
20
. . .
. . .
. . .
. . .
. . .
. . .
. . .
SAS
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
22
23
24
24
24
24
25
26
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Le modèle linéaire généralisé
4.1 Définition du modèle linéaire généralisé . . . . . . . . . . . . . . . . . . .
4.1.1 Ecriture matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Propriétés des mco dans le cadre du modèle linéaire généralisé . .
4.2 Détection de l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Le test de Goldfeld et Quandt . . . . . . . . . . . . . . . . . . . . .
4.2.3 Le test de Breush et Pagan . . . . . . . . . . . . . . . . . . . . . .
4.3 Détection de l’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 test de l’hypothèse d’autocorrélation dans le cas du modèle AR(1)
4.4 Estimateur optimal dans le cadre du modèle généralisé . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
28
29
29
29
30
31
31
31
32
33
5 Problèmes de spécification du modèle
5.1 choix des variables explicatives . . . . . . . .
5.1.1 omission d’une variable explicative . .
5.1.2 introduction d’une variable "en trop"
5.1.3 Erreur de mesure sur les variables . .
5.1.4 simultanéité . . . . . . . . . . . . . . .
5.2 choix entre deux modèles . . . . . . . . . . .
5.3 adéquation de la forme linéaire . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
36
36
37
37
38
38
39
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Variables dépendantes dichotomiques
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Expression générale du modèle . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Interprétation en terme de variable latente . . . . . . . . . . . . . . .
6.2.2 Interprétation des résultats : effet marginal d’une variation d’une variable explicative x . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Estimation des modèles dichotomiques . . . . . . . . . . . . . . . . . . . . . .
6.4 Mise en oeuvre de tests simples dans le cas d’un modèle dichotomique . . . .
6.4.1 test de la nullité d’un coefficient . . . . . . . . . . . . . . . . . . . . .
6.4.2 test d’un ensemble de contraintes linéaires . . . . . . . . . . . . . . . .
6.5 Mise en oeuvre sous sas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6 Remarque : le modèle à probabilités linéaires . . . . . . . . . . . . . . . . . .
2
40
40
40
41
41
41
42
42
42
42
43
Introduction à l’économétrie
Définition
L’économétrie est un ensembre de techniques statistiques utilisées pour estimer des relations
économiques, évaluer ou implémenter des politiques publiques ou industrielles. L’application
la plus "visible" de l’économétrie est sans doute la prévision des grands indicateurs économiques comme le taux de croissance du PIB ou des taux d’intérêt. Elle dépasse largement ce
cadre macroéconomique : elle peut être utilisée par exemple pour prévoir la demande adressée
à un bien, ou évaluer les effets d’une réforme.
Les questions qu’on va se poser sont en général de la forme : "quelle est la relation entre une
variable y et une variable x1 ? Ou entre y et x2 ?" On formalise cela sous la forme :
y = f (x1 , . . . , xk )
Le choix du modèle est déterminé directement par la théorie économique, ou simplement issu
de l’"intuition" économique.
Dans pratiquement toute la suite de ce cours, les variations de la variable d’intérêt y sont
supposées dépendre de variables (x1 , x2 , . . .) selon une relation linéaire. Plus précisément, on
va écrire :
y = β0 + β1 x1 + β2 x2 + . . .
(1)
Les données disponibles
L’une des raisons du développement de techniques statistiques spécifiques tient à la nature
des données qui sont mobilisées. Celles-ci sont généralement non expérimentales : les questions posées rendent impossible (et peu souhaitable) un protocole expérimental. Les données
mobilisées par l’économètre sont de plusieurs types, chacunes soulevant des problèmes spécifiques :
1. des données en coupe : elles consistent en un échantillon de données sur des salariés,
des consommateurs, une entreprise, des pays... collectées à un moment donné du temps.
2. des séries temporelles : elles consistent en des données sur une ou plusieurs variables
collectées à intervalles réguliers : les plus fréquentes sont les variables macroéconomiques, ou des données financières.
3. des données de panel : elles consistent en un échantillon de données sur des salariés, des
consommateurs, une entreprise, des pays,... collectées à intervalles réguliers du temps.
Elles fournissent donc l’histoire d’un ensemble d’individus à plusieurs dates.
Ces données proviennent généralement d’échantillons supposés représentatifs issus de la population totale. Cela signifie en particulier que l’on ne pourra calculer qu’une estimation
des paramètres à partir de cet échantillon ; il n’est jamais certain qu’on "identifie" le vrai
paramètre. Nous allons discuter ces notions plus en détail.
3
paramètre estimé, vrai paramètre
comment estimer les paramètres ?
Tout d’abord, en terme pratique, il s’agit de calculer des estimateurs des paramètres du
modèle βj . Nous allons dans une première partie présenter une procédure d’estimation simple,
l’estimateur des moindres carrés ordinaires.
quelles sont ses propriétés statistiques ?
Au delà de la question "technique" du calcul des estimateurs, il faut s’interroger sur ses
propriétés statistiques. En fait, il s’agit de savoir si on estime "bien" les "vrais" paramètres βj .
Les notions auxquelles on se réfère ici sont celles de l’inférence statistique. Il faut se souvenir
que ce paramètre est estimé à partir d’un échantillon donné, c’est-à-dire un nombre fini N
d’observations pour lesquelles on dispose des mesures des variables qui nous intéressent.
Même s’il est tiré aléatoirement, cet échantillon est rarement parfait : il y a toujours un
risque qu’il ne soit pas exactement représentatif de la population qu’il est censé représenter.
Le paramètre estimé à partir d’un échantillon ne correspondra donc pas exactement au vrai
paramètre. Il est a priori dépendant de l’échantillon à partir duquel il a été calculé : si on
utilise deux échantillons différents pour estimer les mêmes paramètres, il y a de grandes
chances pour que les deux estimations soient différentes.
On va alors s’intéresser à la distribution de ce paramètre. Pour bien comprendre ce dont il
s’agit, il faut imaginer qu’on puisse disposer d’un très grand nombre d’échantillons tirés à
partir de la même population initiale, et qu’on calcule à partir de chacun de ses échantillons
un estimateur du même paramètre : la distribution de notre estimateur correspond à la
manière dont cet ensemble de valeurs se répartit.
La première propriété attendue d’un estimateur est qu’il soit sans biais, c’est-à-dire que son
espérance soit égale au "vrai" paramètre. Pour reprendre notre situation fictive ci-dessus, il
faut qu’en moyenne des estimations conduites sur des échantillons différents correspondent
bien à la vraie valeur.
Une autre propriété importante est qu’il soit convergent, c’est-à-dire que si la taille de
l’échantillon N augmente, le risque de se tromper diminue : à la limite, si on pouvait observer
tout le monde, on s’attend à trouver le vrai paramètre.
Dans la réalité, on ne dispose que d’un seul échantillon, de taille finie, et donc d’un seul
estimateur. Il est nécessaire de pouvoir établir un "diagnostic" à partir de cet estimateur : estce qu’on est très loin de la vraie valeur ? Pour cela, la moyenne, ou l’espérance du paramètre
ne suffit pas : il faut connaître toute la distribution du paramètre. Il sera alors possible de
calculer un intervalle de confiance, c’est-à-dire un intervalle de valeurs à laquel le vrai
paramètre appartient avec une probabilité donnée. Cet intervalle de confiance va dépendre
en particulier de l’écart-type de l’estimateur. Il faut se souvenir que ce terme représente la
racine carrée de la variance : il est donc directement lié à la précision de l’estimateur.
Dans les trois premiers chapitres, on va donc s’intéresser aux propriétés statistiques de l’estimateur des moindres carrés ordinaires, et proposer des stratégies pour effectuer des tests.
Comme on va le voir, cela nécessite de poser des hypothèses précises sur la distribution de l’erreur d’échantillonnage. Les propriétés établies ne seront valables que sous ces hypothèses. Les
deux chapitres suivant étudient ce que deviennent les propriétés de nos estimateurs lorsque
ces hypothèses ne sont plus valides, et des méthodes pour détecter les cas de violation de ces
hypothèses, quand cela est possible.
4
le modèle est-il valide ?
Dans toute la discussion précédente, on a supposé que la relation (1) correspondait à la
réalité. Il est cependant possible que cela ne soit pas le cas : dans ce cas, les résultats ne
seront pas interprétables. Deux notions sont importantes, qui doivent présider en particulier
le choix des variables explicatives du modèle :
– Effet causal : il est toujours possible de calculer une corrélation. Mais l’écriture même
du modèle (1) est dissymétrique : on cherche à expliquer une variable y d’après d’autres
variables x. Il faut être sûr que dans la réalité, le sens de la causalité va bien dans ce sens
– ceteris paribus on veut mesurer un effet d’une variable x1 sur y en soi, "toutes choses égales
par ailleurs" : il faut être sûr qu’il n’y pas d’effet en chaîne.
Enfin, on peut se demander si la forme linéaire est une représentation pertinente pour décrire
la relation entre nos variables d’intérêt. On discutera plus de ce problème dans le chapitre 5.
Lorsque les variables sont discrètes, ce qui est généralement le cas des variables "qualitatives",
cette formulation n’est pas adaptée. Le chapitre 6 présente donc des techniques appropriées
pour ces cas précis.
5
Chapitre 1
Le modèle linéaire : les MCO
On s’interroge sur la relation entre la variable y et ses déterminants potentiels x1 , x2 , . . .. La
question qu’on se pose est donc : de combien va varier y si x1 varie de tant ? On dispose
pour cela d’un échantillon aléatoire de N observations donnant des mesures de ces variables :
(yi , x1i , x2i , . . .)i=1...N . On va supposer qu’il existe une relation linéaire entre la variable y et
ses déterminants potentiels.
1.1
Introduction : le modèle linéaire simple
Le modèle linéaire le plus simple ne s’intéresse qu’à un seul déterminant x de y. Plus précisément, on écrit :
y = β0 + β1 x + u
(1.1)
Terminologie
– y est généralement appelée variable dépendante, variable d’intérêt, ou encore variable expliquée 1
– x est généralement appelée variable indépendante, ou plus souvent variable explicative, ou
encore variable de contrôle ou régresseur 2 .
– u est un terme d’erreur, encore appelé perturbation. Il représente les facteurs, autres que
x, qui ont une influence sur y.
présentation du problème
La pente de l’équation β1 , correspond à l’effet que l’on cherche à mesurer : à u constant, elle
permet de mesurer l’effet d’une variation de x sur y. A u fixé (i.e. en supposant que 4u = 0),
on a en effet 4y = β1 4x.
L’objectif est d’obtenir une estimation "correcte" de β0 et β1 . Pour cela, comme on va le voir
dans la prochaine partie, on va proposer une méthode d’estimation, fondée sur la distance
des points observés à la droite d’estimation.
Cependant, en termes d’interprétation, il n’est pas certain que le paramètre estimé β̂1 (le
chapeau sur le paramètre exprime qu’il s’agit d’une estimation du paramètre) soit une mesure
correcte. En particulier, on cherche à mesurer l’effet de x sur y "toutes choses égales par
ailleurs", c’est-à-dire l’effet sur y uniquement imputable à une variation de x. Pour cela, il
1 Elle est parfois appelée variable prédite ou endogène : ces termes sont plutôt à éviter car ils se réfèrent à
des notions différentes.
2 On trouve aussi parfois le terme de variable exogène (à éviter).
6
faut être sûr que le terme d’erreur u, qui représente les autres déterminants de y, ne réagit
pas également à une variation de x.
Cette hypothèse est peu vraisemblable dans le cas du modèle linéaire simple. Par exemple, si
l’on s’intéresse à l’effet du diplôme sur le salaire, il est probable que les autres déterminants
du salaire sont également liés au diplôme : l’expérience professionnelle est l’un d’entre eux.
Or elle est a priori également corrélé avec le diplôme : à âge donné, un individu plus diplômé
aura acquis moins d’expérience, car la poursuite d’études se traduit aussi par une entrée plus
tardive sur le marché du travail. Ignorer cette corrélation peut donc conduire à des résultats
biaisés.
Dans la suite, on va donc se placer dans un cadre plus réaliste, avec des régresseurs multiples.
1.2
1.2.1
l’estimateur des moindres carrés ordinaires
le modèle linéaire général : écriture matricielle
On se place dans le cadre plus général où on considère plusieurs variables explicatives, qu’on
suppose en nombre K. Le pendant de l’équation (1.1) dans le cadre général s’écrit alors :
yi = β0 + β1i x1i + . . . + βKi xKi + ui
(1.2)
Parce que cela allègera sensiblement les démonstrations par la suite, il est utile de recourir à une expression matricielle de cette expression, en "empilant" les N observations. Par
convention, on utilisera plutôt des majuscules pour désigner les variables écrites sous forme
vectorielle.
Y
(N,1)
= β0 + β1 X1 + · · · + βK XK + u =
(N,1)
(N,1)
(N,1)
X
β
(N,K+1)(K+1,1)
+ u
(1.3)
(N,1)


y1


où Y =  ...  et de même pour les K variables explicatives regroupées dans les K vecteurs
yN
X1 , . . . , Xk . X est la matrice des variables explicatives à laquelle on adjoint le vecteur constant
e = (1, . . . , 1)0 .
Notre objectif est d’estimer un vecteur de paramètre β = (β0 , β1 , . . . , βK ) "correct". On va
voir dans la suite quel sens donner à ce terme "correct".
On doit immédiatement imposer une première hypothèse sur les variables X pour que ces
paramètres soient "identifiables", c’est-à-dire qu’il soit possible de les estimer de manière
unique :
H1 : rg(X) = K + 1
Autrement dit, les variables (e, X1 , . . . , XK ) sont linéairement indépendantes.
Si cette hypothèse n’est pas vérifiée, c’est-à-dire si les variables explicatives sont liées par une
combinaison linéaire, le vecteur de paramètre β qui vérifie (1.2) n’est pas défini de manière
unique. Supposons qu’il existe par exemple λ tel que Xλ = 0, alors β + aλ vérifie également
l’équation (2.2), pour tout réel a.
1.2.2
définition de l’estimateur des moindres carrés ordinaires
On va alors s’intéresser à un estimateur particulier : l’estimateur des moindres carrés
ordinaires (MCO), qui minimise la distance moyenne entre les points observés, de coordonnées (yi , 1, x1i , ..., xKi ), et la droite "estimée", d’équation : yi = β0 + β1 xi1 + . . . + βK xiK .
7
Il s’agit donc du vecteur de coefficients β = (β0 , β1 , · · · , βK ) qui vérifie :
X
min
(yi − β0 − β1i x1i − ...βKi xKi )2
β
i
Sous forme matricielle, l’objectif à minimiser s’écrit : β = ArgminkY − Xβk2
β
1.2.3
les équations normales
Les équations normales correspondent aux conditions du premier ordre du programme :
min kY − Xβk2 . Elles sont obtenues en dérivant kY − Xβk2 par rapport au vecteur de
paramètre β. On a immédiatement3 :
−2X 0 (Y − Xβ) = 0
(1.4)
2
−Xβk
= 2X 0 X définie positive)
Sous l’hypothèse H1, les conditions du second ordre (i.e. ∂kY∂β∂β
sont vérifiées. L’estimateur des moindres carrés existe, est unique et a pour expression :
β̂mco = (X 0 X)−1 X 0 Y
prédiction et résidu
Par définition, le vecteur Ŷ = Xβ̂mco s’appelle la prédiction de Y. Ce vecteur est de coordonnées :
ŷi = β̂0 + β̂1 xi1 + . . . + β̂K xiK
On définit également le vecteur (ûi )i=1...N des résidus :
ûi = yi − ŷi = yi − β̂0 − β̂1 xi1 − . . . − β̂K xiK
1.2.4
Interprétation géométrique
Il est utile, en particulier parce que cela allègera nettement certaines démonstrations dans la
suite, de remarquer que l’estimateur des moindres carrés ordinaires a une interprétation en
termes géométriques. Le programme de résolution des moindres carrés ordinaires correspond
à chercher le vecteur Ỹ de l’espace vectoriel £(X) qui minimise kY − Ỹ k2 . On sait que le
minimum est atteint lorsque Ỹ est la projection orthogonale de Y sur £(X) i.e. Ỹ = PX Y =
X(X 0 X)−1 X 0 Y .
La prédiction de Y par l’équation, et son résidu, peuvent donc s’interpréter comme la projection orthogonales de Y sur £(X) et £(X)⊥ respectivement.
On a Ŷ = PX Y et Û = MX Y où PX est le projecteur orthogonal sur £(X), et MX celui sur
£(X)⊥ .
3 On
AX +
rappelle que si la matrice A est symétrique :
= 2AX.
A0 X
8
∂
(AX)
∂X
= A0 ,
∂
(X 0 A0 )
∂X
= A0 ,
∂
(X 0 AX)
∂X
=
1.2.5
interprétation : effet d’une variable
modèle linéaire simple
On rappelle que dans ce cas le modèle s’écrit simplement y = β0 + β1 x + u. "Toutes choses
égales par ailleurs" (i.e à u constant), un accroissement d’un point de x se traduit par une
augmentation de β1 points de y : ∆y = β1 x.
Dans ce cas, l’estimateur des moindres carrés ordinaires de β̂1 peut s’écrire comme :
P
(yi − y)(xi − x)
β̂1 = i=1...N
(xi − x)2
Démonstration. Les équations normales dans ce cas simple s’écrivent :
P
Pi (yi − β0 − β1 xi ) = 0
i xi (yi − β0 − β1 xi ) = 0
De la première on a que β0 = y − β1 x et on déduit de la seconde que :
X
xi (yi − y − β1 (xi − x)) = 0
i
En remarquant que
β̂1 .
P
i
x((yi − y) =
P
i
x((yi − y)(xi − x)) = 0, on retrouve l’expression de
Cette formulation appelle deux remarques :
– l’estimateur β̂1 est simplement le coefficient de corrélation empirique des variables x et y.
– pour qu’il puisse être estimé, il faut observer cette dernière dans des états différents. A la
limite, si cette dernière est constante (ce qui est a priori exclu par l’hypothèse H1) , il sera
impossible de calculer le paramètre. C’est par la comparaison de y et de x dans des états
différents qu’il est possible de déduire l’effet de x sur y.
interactions de plusieurs variables explicatives
Pour interpréter l’effet estimé par les moindres carrés ordinaires d’une variable explicative
particulière Xk sur la variable expliquée Y , il est utile de remarquer que le coefficient β̂k
estimé par les moindres carrés ordinaires (le k ième terme du vecteur β̂ = (X 0 X)−1 (X 0 Y ))
peut s’écrire (il s’agit d’une simple application du théorème de Frisch-Waugh, voir annexe
A) :
β̂k = (r̂k0 r̂k )−1 r̂k0 Y =
P y r̂
P r̂
i
i
i ik
2
ik
où r̂k est le résidu de la régression de Xk sur toutes les autres variables explicatives : il
représente donc la part de Xk qui n’est pas corrélée avec les autres variables explicatives. On
dit qu’on a "contrôlé" de l’effet des autres variables.
9
1.2.6
propriétés algébriques
On va alors dériver plusieurs propriétés algébriques de cette estimation. Pour cela, il est utile
de remarquer que les équations normales s’écrivent simplement :
 P
ûi = 0


 Pi
i xi1 ûi = 0
·
·
·

 P

i xiK ûi = 0
Remarque : Toutes les propriétés sont définies ici sous l’hypothèse que le modèle comporte
un terme constant. Sinon, la première équation normale n’a pas lieu d’être. Par convention,
les variables surlignées correspondent aux moyennes empiriques dans toute la suite.
les résidus sont de moyenne nulle
De la première équation normale ci-dessus, on déduit :
û =
N
1 X
ûi = 0
N i=1
(1.5)
La moyenne empirique des résidus de l’équation est nulle. Comme on va le voir, cela signifie
que la moyenne empirique de la variable prédite est égale à la moyenne empirique de la
variable dépendante.
Point moyen de l’échantillon
On a immédiatement :
y
=
N
N
N
1 X
1 X
1 X
yi =
ŷi +
ûi
N i=1
N i=1
N i=1
= ŷ d’après (1.5)
Cela signifie en particulier que le point moyen de l’échantillon, de coordonnées (x1 , . . . , xK , y)
appartient à l’"hyperplan de régression", c’est-à-dire l’espace vectoriel engendré par les variables X (parfois simplement appelé droite de régression).
Equation d’analyse de la variance
La somme des carrés des résidus (SCR) est définie comme :
X
SCR =
û2i
i
Ce terme est lié à une mesure de la qualité de régression.
– Tout
P d’abord,2 on rappelle que la variance empirique de la variable dépendante s’écrit :
1
i (yi − y)
N
P
– La variance empirique "prédite" s’écrit de même
(on a vu que ŷ = y) : N1 i (ŷi − y)2
P
– Enfin, on définit la variance "résiduelle" : N1 i ûi
10
Démonstration. On écrit simplement :
X
X
(yi − y)2 =
(yi − ŷi + ŷi + y)2
i=1...N
i=1...N
=
X
û2i +
i=1...N
X
X
(ŷi − y)2 + 2
i=1...N
ûi (ŷi − y)
(1.6)
i=1...N
Au facteur N près, le premier terme à droite de (1.6) correspond à la variance résiduelle, le
second à la variance prédite. Quant au dernier terme, on déduit simplement des équations
normales qu’il est nul.
L’équation d’analyse de la variance s’écrit :
Variance totale = Variance expliquée + Variance résiduelle
Qualité de l’ajustement : le coefficient de détermination
On définit alors le coefficient de détermination R2 par :
R2 =
Variance expliquée
Variance totale
Le R2 indique la part de la variance des yi expliquée par la régression et mesure ainsi le
pouvoir explicatif du modèle.
Le coefficient de détermination peut aussi s’exprimer en fonction de la somme des carrés des
résidus (SCR) :
SCR
R2 = 1 − P
2
i=1...N (yi − y)
Propriétés :
– Le R2 est compris entre 0 et 1. Il croît avec la qualité de l’ajustement.
– le R2 augmente mécaniquement lorsque l’on introduit des variables explicatives supplémentaires.
Cette dernière propriété n’est pas bienvenue : elle signifie qu’il suffit d’ajouter arbitrairement
les variables explicatives pour que le R2 augmente4 . Celui-ci ne permet pas de mesurer la
parcimonie du modèle, c’est-à-dire sa capacité à décrire la réalité avec un nombre restreint
de variables.
Pour corriger de cet effet, on peut utiliser un indicateur qui permet de tenir compte du
nombre de variables explicatives. On appelle nombre de degrés de liberté du modèle la
quantité dl = N-K-1. On définit alors le R2 ajusté :
2
Radj
=1−
N −1
SCR
P
2
dl
(y
i i − y)
Le modèle sans terme constant
On peut être amené à spécifier un modèle sans terme constant. Par exemple, si on estime
le modèle linéaire en "différence" (∆y = β∆x + ∆u), il est vraisemblable que le modèle
passe par l’origine. Dans ce cas, la première équation normale ne tient plus, et les propriétés
démontrées ci-dessus ne tiennent plus. Il n’y a aucune raison que les résidus soient centrés et
l’équation d’analyse de la variance n’est plus vérifiée. Cela signifie en particulier que le R2 ne
peut pas être utilisé comme indicateur de la qualité de la régression. En pratique,
ce type de modélisation est rare et doit reposer sur des hypothèses solides.
4 A la limite, on pourrait utiliser autant de variables explicatives que d’individus dans notre échantillon
N, ce qui permettrait de décrire complétement cet échantillon particulier. Le R2 serait alors de 1 : cela
ne signifierait pas pour autant que le modèle estimé permettrait de décrire une "vraie" relation entre des
variables.
11
1.3
propriétés statistiques de l’estimateur des moindres
carrés ordinaires
Il est toujours possible de calculer l’estimateur des moindres carrés ordinaires. En revanche,
pour l’interpréter, il est nécessaire de faire des hypothèses supplémentaires.
1.3.1
l’estimateur des MCO est sans biais
La première propriété attendue de cet estimateur statistique est qu’il nous donne une mesure
correcte du "vrai" paramètre β. Pour cela, il est nécessaire de faire une hypothèse sur la
forme des termes d’erreur.
On va d’abord supposer qu’en moyenne, on ne se "trompe" pas : cela peut s’écrire E(u) = 0.
En fait, cette hypothèse n’est pas très forte, dès lors que le modèle linéaire est spécifié avec
une constante.
Ensuite, comme expliqué dans le cadre du modèle linéaire simple, il faut supposer que les
perturbations ne varient pas avec les variables explicatives, soit E(u/X) = E(u).
Au final, la deuxième hypothèse centrale du modèle linéaire s’écrit :
H2 : E[u/X]=0
Sous cette hypothèse, l’estimateur des moindres carrés ordinaires est sans biais :
E(β̂/X) = E[(X 0 X)−1 X 0 Y /X] = (X 0 X)−1 X 0 E[Y /X] = β
1.3.2
la variance de l’estimateur des MCO
Le fait que la propriété d’absence de biais soit satisfaite est important mais on a besoin
d’informations plus précises. On souhaite savoir si la vraie valeur peut se trouver loin de
l’estimateur. Une telle information est donnée par la précision de l’estimateur et on l’étudie en considérant la variance. Pour la calculer, on va être amené à faire deux hypothèses
supplémentaires :
H3(Homoscédasticité) :
V(ui /X) = σ 2 , ∀i
H4(Absence d’autocorrélation des résidus) : E[ui uj /X] = 0 ∀i, j, i 6= j
Ces deux dernières hypothèses s’écrivent sous forme matricielle :
H3 − H4 : V(u/X)= σ 2 IN
Sous ces hypothèses, la variance de l’estimateur des mco conditionnellement aux variables
explicatives est donnée par
V (β̂mco /X) = σ 2 (X 0 X)−1
Démonstration. La variance conditionnelle est définie comme
V (β̂mco /X) = E([β̂mco − E(β̂mco /X)][β̂mco − E(β̂mco /X)]0 /X)
Comme E(β̂mco /X) = β et β̂mco − β = (X 0 X)−1 X 0 u
V (β̂mco /X) = (X 0 X)−1 X 0 E(uu0 /X)X(X 0 X)−1 = σ 2 (X 0 X)−1 sous H2
Il est utile d’interpréter la variance d’un paramètre particulier (i.e. un terme diagonal). Pour
cela, on rappelle que l’estimateur βk de l’effet de la variable Xk dans la régression de Y sur
toute les variables peut être obtenu comme la régression du résidu r̂k de la régression de Xk
sur toutes les autres variables sur la variable Y : βk = (r̂k0 r̂k )−1 r̂k0 Y .
12
On a alors :
V (βk /X)
=
=
=
=
V ((r̂k0 r̂k )−1 r̂k0 u/X)
(r̂k0 r̂k )−1 r̂k0 V (u/X)r̂k (r̂k0 r̂k )−1 car r̂k ne dépend que de X
σ 2 (r̂k0 r̂k )−1 r̂k0 r̂k (r̂k0 r̂k )−1 d’après H3 et H4
σ 2 (r̂k0 r̂k )−1
Un peu de manipulation permet d’exprimer cette équation en fonction de Rk2 , le coefficient de
détermination de la régression de la variable Xk sur toutes les autres variables explicatives,
et de la variance empirique de Xk dans l’échantillon :
P
(xki − xk )2
Vemp (Xk ) = i
N
Par définition, Rk2 = 1−
P
P (x r−x )
2
ik
i
i
ki
k
2
. On en déduit que r̂k0 r̂k =
Finalement :
V (β̂k /X) =
2
i r̂ik
P
=
2
2
i (xki −xk ) (1−Rk ).
P
σ2
N (1 − Rk2 )Vemp (Xk )
Cette décomposition permet de mieux comprendre les déterminants de la précision.
Les déterminants de la précision
la variabilité de la variable explicative Xk , Vemp (Xk ). Plus on observe de variabilité de la
variable Xk dans l’échantillon, et plus le paramètre pourra être estimé avec précision. Toutes
choses égales par ailleurs, il faut observer la variable Xk dans suffisamment d’états différents
pour pouvoir évaluer son effet sur la variable dépendante.
la relation linéaire des variables explicatives entre elles, Rk2 . Plus la variable Xk est liée
aux autres variables explicatives
(i.e. Rk2 est proche de 1), et moins le paramètre sera estimé
P
2
avec précision. A σ et i (xki − xk )2 donnés, la variance est minimale lorsque Rk2 = 0, c’està-dire lorsque Xk n’est pas du tout corrélée avec les autres variables explicatives du modèle.
Dit autrement, il faut que la variable Xk apporte de l’information supplémentaire par rapport
aux autres variables explicatives pour que le paramètre βk soit estimé avec précision.
le nombre d’observations N. Plus on dispose d’observations, et plus l’estimateur sera
précis. Il faut faire attention à cette propriété : sur des petits échantillon, il est parfois difficile
d’estimer correctement l’effet d’une variable. Nous rediscuterons de cet effet plus bas5 .
un estimateur de la variance
La variance de β conditionnellement à X dépend de σ 2 , la variance des résidus. L’estimateur
de σ 2 fait intervenir la somme des carré des résidus estimés, normalisée par le nombre de
degrés de liberté :
P 2
2
i ûi
σ̂ =
N −K −1
Cet estimateur est sans biais :
E(σ̂ 2 /X) = σ 2
5 il faut remarquer que N intervient également dans R et V
emp , donc la convergence n’est pas immédiate :
k
en fait, sous des hypothèses peu restrictives on montre que ces termes convergent vers des termes finis
13
Démonstration. La démonstration se fait simplement en utilisant que par définition, û correspond à la projection orthogonale sur l’espace £(X)⊥ : û = MX Y = MX u.
E(σ̂ 2 /X)
=
=
=
=
=
E[û0 û/X]
N −K −1
E[T r(u0 MX u)/X]
E[T r(MX u0 u)/X]
=
N −K −1
N −K −1
T r(E[MX u0 u/X])
T r(MX E[u0 u/X])
=
N −K −1
N −K −1
σ 2 T r(MX )
N −K −1
σ 2 car dim(£(X)⊥ ) = N − K − 1
On en déduit donc un estimateur sans biais de la variance de l’estimateur des MCO :
P 2
[
i ûi
V (β̂) =
X 0X
N −K −1
1.3.3
L’estimateur des mco est le plus précis : le théorème de GaussMarkov
On a jusque là introduit l’estimateur des moindres carrés ordinaires de manière ad hoc. On va
montrer ici qu’il est en réalité le meilleur estimateur sans biais, selon un critère d’optimalité
liée à la précision de l’estimateur.
Définition
Un estimateur β̂1 est optimal dans une classe d’estimateurs β̂ si toute estimation d’une
combinaison linéaire du paramètre est estimée plus précisément avec β̂1 qu’avec n’importe
quel estimateur de la classe considérée :
∀λ, V (λ0 β̂1 ) ≤ V (λ0 β̂)
Cette propriété signifie que la matrice de variance V (β̂1 ) de β̂1 vérifie λ0 V (β̂1 )λ ≤ λ0 V (β̂)λ
∀λ, c’est-à-dire que V (β̂1 ) − V (β̂) est semi-définie négative.
Théorème 1 (Gauss-Markov). Sous les hypothèses H1-H4 l’estimateur des moindres carrés
ordinaires du modèle
Y = Xβ + u
est optimal dans la classe des estimateurs sans biais conditionnellement aux variables X.
Démonstration. Soit β̃ un estimateur linéaire sans biais du paramètre β. Il existe donc une
matrice A tel que cet estimateur s’écrit β̃ = AY. L’hypothèse d’absence de biais signifie
E[β̃/X] = β. Or E[β̃/X] = E[AY /X] = E[A(Xβ + u)/X] = AXβ + AE[u/X] = AXβ.
L’absence de biais signifie donc AXβ = β. Ce résultat est vrai pour β quelconque donc :
AX = IK+1
On a en outre β̃ − E[β̃/X] = A(Y − E[Y /X]) = Au. La variance d’un estimateur linéaire
sans biais quelconque est donc de la forme V (β̃/X) = V (Au/X) = AV (u/X)A0 = σ 2 AA0 car
14
d’après les hypothèses H3 et H4 V (u/X) = σ 2 IN . Comme IN = PX + MX = X(X 0 X)−1 X 0 +
MX , on a :
V (β̃/X) = σ 2 AA0 = σ 2 A(X(X 0 X)−1 X 0 + MX )A0
= σ 2 (AX(X 0 X)−1 X 0 A0 + AMX A0 )
de AX = IK+1 et V (β̂/X) = σ 2 (X 0 X)−1 , on déduit
V (β̃/X) = V (β̂/X) + σ 2 AMX A0
La matrice AMX A0 est nécessairement semi-définie positive : l’estimateur optimal correspond
à A = 0, i.e. à l’estimateur des mco β̂.
1.3.4
Mise en oeuvre des MCO sous le logiciel SAS
La procédure REG permet de mettre en oeuvre simplement les MCO. La syntaxe est simplement :
proc reg data = nom_de_table;
model y = x1 x2 . . . xK ;
run ;
Outre les valeurs estimées des paramètres et de leur écart-type, elle fournit le R2 et le R2
ajusté, ainsi que d’autres statistiques qui seront étudiées plus loin.
1.4
conclusion et résumé
Dans ce chapitre, on a présenté le modèle linéaire général, et introduit quatre hypothèses
(appelées les conditions de Gauss-Markov).
Y=Xβ + u
H1 : rg(X)=K+1.
H2 : E[u/X]=0
H3 : V(ui ) = σ 2 , ∀i
H4 : E[ui uj ] = 0 ∀i, j, i 6= j.
On a alors défini un estimateur, l’estimateur des moindres carrés ordinaires, et donné son
expression : β̂ = (X 0 X)−1 X 0 Y . Sous les hypothèses H1 à H4, on a montré que :
1. l’estimateur est sans biais
P uˆ (X X)
2. il est le plus précis parmi les estimateurs linéaires sans biais
3. donné un estimateur sans biais de sa variance, qui s’écrit :
i
0
−1
N −K−1
4. proposé un indicateur de la qualité de l’estimation, le coefficient de détermination R2
Ces résultats sont néanmoins insuffisants pour donner des intervalles de confiance sur les
paramètres estimés et réaliser des tests d’hypothèse. C’est à cela que va s’attacher le chapitre
suivant.
15
Chapitre 2
Inférence : le modèle linéaire
gaussien
Dans le chapitre précédent, on a étudié un estimateur des paramètres du modèle linéaire
général, présenté ses propriétés et en particulier son espérance et sa variance. Pour aller
plus loin et faire des tests ou établir des intervalles de confiance, il faut disposer de toute la
distribution de l’estimateur.
Pour pouvoir l’étudier, il est possible de faire une hypothèse sur la distribution du terme
d’erreur u. La plus courante est de supposer qu’il suit une loi normale.
Avant d’étudier ce que deviennent les propriétés de l’estimateur des moindres carrés ordinaires
dans ce cadre, on rappelle les notions de base de l’inférence statistique.
2.1
tests et intervalles de confiance
Dans cette section, on va voir comment tester des hypothèses sur le paramètre βk . Pour bien
comprendre ce que signifie le fait de tester une hypothèse, il faut se souvenir que le "vrai"
paramètre βk est un paramètre inconnu, et que l’on ne peut jamais le connaître avec certitude.
Cependant, on peut faire des hypothèses sur sa valeur, et utiliser l’inférence statistique pour
les tester.
2.1.1
Rappel sur les tests statistiques
On va s’intéresser à une hypothèse, qu’on appelle par convention hypothèse nulle et qu’on
note H0 .
On va toujours tester la vraisemblance relative de cette hypothèse par rapport à une hypothèse alternative, que nous noterons ici Ha .
La question qu’on va se poser sera : peut-on, avec suffisamment de vraisemblance, rejeter
l’hypothèse nulle et accepter l’hypothèse alternative.
L’hypothèse alternative n’est pas définie de manière unique. Par exemple, comme on va le
voir, le test le plus classique porte sur l’effet réel d’une variable explicative sur la variable
dépendante (test de significativité). L’hypothèse nulle dans ce cas s’écrit :
H0 : βk = 0
On peut tester cette hypothèse de nullité de coefficient contre l’hypothèse alternative Ha :
βk 6= 0 (on parle alors de test bilatéral) ; mais également contre une hypothèse alternative
plus restrictive Ha : βk > 0 (test unilatéral).
16
Dans ce cadre de tests d’hypothèse, on peut faire deux types d’erreur :
– Risque de première espèce (ou de type I) : rejeter l’hypothèse nulle H0 alors qu’elle est
vraie en réalité.
– Risque de deuxième espèce (ou de type II) : accepter l’hypothèse nulle H0 alors qu’elle est
fausse en réalité.
Il n’est jamais possible de savoir si on a "fait le bon choix" en acceptant (ou en refusant)
l’hypothèse nulle. En revanche, il est possible de calculer la probabilité de faire une erreur
de première espèce ou de deuxième espèce. Les mécanismes de choix auxquels on s’intéresse ici permettent de contrôler du risque de première espèce. On définit un niveau de
significativité, ou un seuil α du test comme la probabilité de faire une erreur de type I :
α = P (RejeterH0 /H0 ). En pratique, on commence par définir le niveau du test, qui correspond au seuil de tolérance que l’on se fixe sur le risque de première espèce. Les valeurs
usuelles pour α sont 0.01, 0.05 et 0.101 .
Pour mettre en oeuvre un test, on va se munir d’une statistique de test T, qui sera une
fonction des observations. La propriété attendue de cette statistique est que sa distribution
statistique soit indépendante de l’échantillon d’observations dont on dispose. Au test de
l’hypothèse H0 va correspondre une région critique W, qui sera définie comme l’ensemble
des réalisations des observations qui conduisent à accepter l’hypothèse alternative Ha au seuil
α.
En pratique, on va :
1. fixer un niveau α du test
2. calculer la valeur de la statistique de test T "réalisée" dans notre échantillon, à partir
des valeurs observées des paramètres du modèle.
3. définir la région critique, qui dépend du niveau du test, et de la distribution de la
statistique du test.
4. si la statistique de test appartient à la région critique, on refuse l’hypothèse H0 . Sinon,
on l’accepte.
Il faut bien comprendre que la région critique de test dépend du niveau du test α et est
directement liée au risque de première espèce. Si la statistique de test appartient à la région
critique W(α), on a moins de α chance de se tromper en refusant l’hypothèse H0 alors qu’elle
est vraie. On dira qu’on refuse l’hypothèse H0 au seuil α. A l’inverse, si la statistique de test
n’appartient pas à la région critique, on dira qu’on ne peut pas refuser l’hypothèse H0 au
seuil α.
2.2
2.2.1
L’estimateur des mco dans le modèle linéaire gaussien
Loi du couple (β̂, σ̂ 2 )
On suppose donc que :
H5 : la loi de u conditionnellement aux variables explicatives X est une loi normale de
moyenne nulle et de matrice de variance σ 2 IN .
u |X ; N 0, σ 2 IN
La normalité des termes d’erreur se translate directement à l’estimateur.
Théorème 1. – L’estimateur du paramètre des mco β̂mco est distribué comme une loi nor2
0
−1
male de moyenne β la vraie
valeur du paramètre, et de matrice de variance σ (X X) :
2
0
−1
β̂mco ; N β, σ (X X)
1 Une fois fixé le niveau du test, la puissance π du test est définie par : π(θ) = 1 − P (T ypeII/θ) où θ est
la vraie valeur du paramètre. L’étude de cette notion dépasse le cadre de ce cours.
17
– L’estimateur σ̂ 2 , convenablement normalisé, est distribué suivant une loi du χ2 à dl =
N − K − 1 degrés de liberté
[N − K − 1]
σ̂ 2
∼ χ2 (N − K − 1)
σ2
– β̂mco et σ̂ 2 sont indépendants
Rappel
PL
– Si Z ; N (0, IL ) , alors par définition Z 2 = Z 0 Z = l=1 Zl2 ∼ χ2 (L)
– Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z 0 P Z ∼ χ2 (L1 )
Démonstration. L’estimateur des MCO peut s’écrire : β̂mco = β + (X 0 X)−1 X 0 u. Conditionnellement à X, il s’écrit donc comme une combinaison linéaire d’un vecteur normal, ce qui
suffit pour montrer qu’il suit également une loi normale. De même, les résidus de la régression û = MX u suivent une loi normale, indépendante de β̂mco (chacun s’obtient comme
kû2 k
projection d’une loi normale sur deux sous espaces orthogonaux). Donc σ̂ 2 = N −K−1 est
également indépendant de β̂mco . On déduit directement la loi de σ̂ 2 , de la propriété rappelée
plus haut.
De la même façon, on montre que β̂k (resp. σ̂k ), le paramètre estimé par les moindres carrés
correspondant à la k{ième variable (resp. l’estimateur de l’écart type β̂k , soit le k ième terme
diagonal de σ̂ 2 (X 0 X)−1 ) suit une loi normale N (βk , σ 2 ((X 0 X)−1 )kk ) (respectivement une loi
du χ2 à N-K-1 degrés de liberté). Ces deux variables aléatoires sont indépendantes 2 .
2.2.2
Test sur la valeur d’un paramètre : la statistique de Student
Pour tester des valeurs sur un paramètre βk à partir de l’estimateur β̂k , on cherche une
statistique de test.
On va alors construire la statistique suivante :
t=
β̂k − βk
σ̂k
Cette variable est très utilisée. Elle est appelée la statistique de Student, ou encore t de
Student, ou simplement le Student, du paramètre βk .
On montre alors le résultat essentiel suivant :
Theorème 1. Sous l’hypothèse de normalité des perturbations H5, pour une composante
donnée k du paramètre on a :
β̂k − βk
∼ Student (N − K − 1)
σ̂k
Démonstration. Ce résultat découle directement du théorème 1 et de la définition des lois
de Student : Si X1 suit une loi normale N (0, 1) et X2 suit une loi du χ2 (H) à H degrés de
liberté, et si X1 et X2 sont indépendants alors
X1
S=p
∼ Student (H)
X2 /H
2 il suffit de vérifier que ces variables sont des projections orthogonales des vecteurs β̂ et de l’estimateur
de sa matrice de variance covariance
18
On va voir dans les parties suivantes comment ce résultat nous permet de faire des tests sur
la valeur d’un coefficient. On distingue deux types de tests, suivant l’hypothèse alternative
retenue : les tests unilatéraux, et les tests bilatéraux.
2.2.3
Test unilatéral sur un coefficient
On souhaite tester si le paramètre βk est égal à une valeur βk0 fixée, contre l’hypothèse
alternative qu’il n’est pas strictement supérieur à cette valeur. L’hypothèse nulle s’écrit donc
H0 : βk = βk0 , contre l’hypothèse alternative Ha : βk > βk0 .
En utilise alors la statistique de test de Student. D’après le résultat précédent, la région
critique de ce test pour un niveau α s’écrit :
W={
β̂k − βk0
> t1−α
N −K−1 }
σ̂k
où t1−α
N −K−1 est le fractile d’ordre 1 − α de la loi de Student à N − K − 1 degrés de liberté,
c’est-à-dire la quantité telle que, pour une variable aléatoire St suivant une loi de Student à
N − K − 1 degrés de liberté : P (St > t1−α
N −K−1 ) = α.
En pratique, on va rejeter l’hypothèse nulle H0 au seuil α lorsque le t de Student est dans la
région critique, car on a alors moins de α risque de se tromper en rejettant H0 .
2.2.4
Test bilatéral sur un coefficient
Le test bilatéral de valeur d’un coefficient correspond à une hypothèse alternative moins
restrictive : l’hypothèse nulle s’écrit toujours H0 : βk = βk0 , mais l’hypothèse alternative est
maintenant Ha : βk 6= βk0 .
On va faire intervenir ici la valeur absolue de la statistique. Plus précisément, la région
critique de ce test pour un niveau α s’écrit :
W={
1−α/2
où tN −K−1 est le fractile d’ordre 1 −
|β̂k − βk0 |
1−α/2
> tN −K−1 }
σ̂k
α
2
de la loi de Student à N − K − 1 degrés de liberté.
La démonstration (non détaillée ici) est liée au fait que la distribution du Student est symé1−α/2
1−α/2
trique : P (St < tN −K−1 ) = 1 − α/2, et de façon similaire P (S > tN −K−1 ) = α/2
Si le t de Student est dans la région critique, on a moins de α chances de se tromper en
rejettant l’hypothèse H0 .
Application : Test de significativité d’un paramètre
L’application la plus fréquente de ce résultat est le test de la significativité d’un paramètre :
on va tester s’il est significativement (à un seuil fixé) différent de zéro.
Dans ce cas, le test H0 : βk = 0 contre Ha : βk 6= 0 au seuil de 5%, la région critique s’écrit :
W=
|β̂k |
> t0.975
N −K−1
σ̂k
Si N est grand, alors t0.975
N −K−1 est proche de 2. Il suffira alors de comparer
|β̂k |
σ̂k
à 2. Autrement
dit, si |β̂k | est supérieur au double de l’écart-type estimé, on rejettera l’hypothèse de nullité
du coefficient βk au seuil de 5% (règle des deux écart-types).
19
Significativité statistique versus significativité "économique"
La significativité statistique est importante : elle permet de dire si, à partir des données dont
nous disposons, on peut croire que la variable Xk a vraisemblablement un effet sur la variable
dépendante Y . Attention néanmoins de ne pas se focaliser uniquement sur cette significativité statistique : celle-ci exprime surtout qu’un paramètre est estimé avec suffisamment de
précision. Elle n’est pas liée à la valeur de ce paramètre, et donc à la "taille" de l’effet de
cette variable.
Une variable peut avoir un effet statistiquement significativement différent de zéro, mais
quantitativement très faible, et être donc "négligeable" en termes économiques.
2.2.5
Intervalles de confiance
On va également donner des intervalles de confiance pour le paramètre.
Définition : Un intervalle de confiance pour le paramètre βk au niveau α est un intervalle
[a, a] tq P (βk ∈ [a, a]) = 1 − α.
Sous les hypothèses H5, soit β̂k la k ième composante de l’estimateur des mco et σ̂k =
p
σ̂k2 l’estimateur de son écart-type, alors l’intervalle de confiance de longueur minimale du
paramètre βk au niveau α est :
1−α/2
1−α/2
[β̂k − σ̂k tN −K−1 , β̂k + σ̂k tN −K−1 ]
1−α/2
où tN −K−1 est le quantile d’ordre 1 − α/2 d’une loi de Student à N − K − 1 degrés de liberté.
Démonstration. Par application des résultats précédents, on a immédiatement que S =
β̂k −βk
; Student (N − K). Comme la loi de Student est symétrique, on en déduit que
σ̂k
l’intervalle de longueur minimale auquel S appartienne avec probabilité 1 − α est
1−α/2
1−α/2
P (S ∈ [−tN −K−1 , tN −K−1 ]) = 1 − α
dont on déduit immédiatement l’expression des bornes de l’intervalle de confiance.
2.2.6
mise en oeuvre sous sas des tests de significativité
Les sorties de la procédure reg comprennent le paramètre estimé par les moindres carrés
ordinaires, ainsi que son écart-type estimé. Elles comprennent également le T de Student
de l’hypothèse de nullité d’un paramètre (= β̂k /σ̂k ) et la P value, c’est-à-dire la probabilité
qu’une loi de Student (i.e la loi que suivrait la statistique si l’hypothèse H0 est vraie) prenne
une valeur égale ou supérieure à celle observée. Cette P value est directement liée au risque
de première espèce : on a P value risque de se tromper en rejetant H0 alors qu’elle est vraie.
2.3
Propriétés asymptotiques de l’estimateur des MCO
L’hypothèse de normalité est nécessaire pour effectuer des tests, dits "à distance finie" (c’està-dire lorsque le nombre d’observations est fini). Quand le nombre d’observations devient
grand, il est possible de s’affranchir de cette hypothèse supplémentaire. On peut montrer que
les propriétés asymptotiques de l’estimateur (i.e. quand le nombre d’observations tend vers
l’infini- en pratique quand il est suffisamment grand) sont les suivantes :
1. Sous l’hypothèse
X0X
→ Q,
N N →+∞
matrice définie positive, β̂ est un estimateur convergent
de β.
20
2. Sous l’hypothèse supplémentaire que les éléments du vecteur u sont indépendants et
identiquement distribués, alors l’estimateur des mco suit asymptotiquement une loi
normale :
√
X 0 X −1
) )
N (β̂ − β) →(0, σ 2 ( lim
N →∞ N
loi
et
proba
σ̂ 2 → σ 2
Ces propriétés asymptotiques permettent d’effectuer des tests asymptotiques sur les coefficients sans avoir à supposer la normalité des perturbations. Par exemple, si on veut tester
dans le modèle linéaire généralisé l’hypothèse H0 : βk = βk0 contre H1 : βk 6= βk0 , on retiendra
comme statistique de test :
β̂k − βk0
ξ=
σ̂Q
où Qk désigne le k ième terme diagonal de la matrice Q.
Sous l’hypothèse H0 , on sait que :
√
N (β̃k − βk0 ) Loi
→ N (0, 1)
σQk
et
proba
σ̃ 2 → σ 2
donc,
√
N (β̂k − βk0 ) Loi
→ N (0, 1)
σ̂ 2 Qk
Cette loi asymptotique permet de trouver la région critique optimale du problème de test au
seuil α :
√
N |b̂k − βk0 |
W = {(y1 , ..., yn )/
> u1−α/2 }
σ̂ 2 Qk
où u1−α/2 désigne le fractile d’ordre 1 − α/2 de la loi normale centrée réduite.
Il faut remarquer que ces résultats sont tout à fait en accord avec les propriétés étudiées plus
haut, lorsque N est fini : en effet, la loi de Student à N degrés de liberté tend vers une loi
normale centrée réduite quand le nombre de degrés de liberté tend vers l’infini. Lorsque le
nombre d’observations est élevé, les deux tests sont donc équivalents.
Rappel sur les convergences :
P
On dit que (Xn ) converge en probabilité vers X (Xn → X ou plimn→∞ Xn = X) si
∀ε > 0, Pr {|Xn − X| > ε} −→ 0.
n→∞
L
On dit que (Xn ) converge en loi vers X (Xn → X) si la suite des fonctions de répartition
associées (Fn ) converge, point par point, vers F la fonction de répartition de X en tout point
où F est continue :
∀x, Fn (x) → F (x).
21
Chapitre 3
Le modèle linéaire sous contraintes
Dans le chapitre précédent, on a vu comment, sous l’hypothèse de normalité des résidus de
l’équation linéaire, on pouvait faire des tests sur la valeur des paramètres. Il est souvent
nécessaire de tester des relations plus compliquées : par exemple pour tester une relation
prédite par la relation économique (comme dans l’exemple ci-dessus). Nous allons voir ici
comment tester un ensemble de contraintes linéaires.
3.1
Exemple : fonction de production
La fonction de production en fonction du capital et du travail est souvent modélisée dans la
théorie économique par une fonction de type Cobb-Douglas, sous la forme :
Qt = ANtβ Kt1−β
- Nt : le travail
- Kt : le capital
- Qt : la production
Où l’existence de rendements constants se traduit par le fait que le coefficient du travail et
du capital somme à un.
Supposons qu’on dispose d’un échantillon de N entreprises, on pourra alors pour estimer les
paramètres de cette équation introduire le modèle linéaire suivant :
LogQt = α + βLogNt + γLogKt + ut
On pourra alors tester si la contrainte de rendements constants est bien vérifiée. Elle s’écrit
à partir des coefficients de l’équation : γ + β = 1. Par ailleurs, pour rendre le modèle plus
réaliste, on peut introduire une tendance temporelle, captant une croissance tendancielle de
la demande :
t
+ ut
LogQt = α + βLogNt + γLogKt + δ
100
Et tester si la croissance de la production est égale à un certain niveau : simultanément à la
relation linéaire précédente, on peut par exemple tester δ = 3. Nous allons voir dans la suite
comment tester ces relations linéaires simples dans le cadre du modèle linéaire.
3.2
formalisation du problème
On reprend le formalisme du modèle linéaire précédent, mais on va introduire en plus ces
contraintes linéaires. Plus précisément, si le vecteur β des paramètres du modèle est supposé
22
vérifier un ensemble de p contraintes linéaires, on introduit la matrice R à p lignes et K
colonnes et un vecteur r à coefficients réels à p lignes correspondant à cet ensemble de
contraintes. Le problème s’écrit alors :
Y = Xβ + u
avec

rgX = K



 u=0
u = σ 2 IN



 R β = r, p < K, rgR = p
(p,K)
Dans l’exemple précédent de la fonction de production, nos deux contraintes sont ainsi résumées par :


α

1
0 1 1 0 
 β =
3
0 0 0 1  γ 
δ
Remarque : Le nombre de contraintes ne peut évidemment excéder le nombre de paramètres
du modèle (p < K), sinon on pourrait les calculer analytiquement.
3.3
Les moindres carrés sous contraintes
On va alors chercher un estimateur vérifiant cette relation. Comme précédemment, on s’intéresse à l’un estimateur minimisant la somme des carrés des résidus, mais en se restreignant
aux estimateurs vérifiant la contrainte. Le programme d’optimisation s’écrit donc :
min ky − Xβk2 sous la contrainte Rβ = r
β
proposition : Si β̂ est l’estimateur des mco et β̂cc est l’estimateur des moindres carrés
contraints, on a :
β̂cc = β̂mco + (X 0 X)−1 R0 (R(X 0 X)−1 R0 )−1 (r − Rβ̂mco )
(3.1)
L’estimateur des moindres carrés contraints apportent une correction à l’estimateur des
moindres carrés ordinaires d’autant plus grande que Rβ̂mco − r est grand. Si l’estimateur
des moindres carrés ordinaires vérifie la contrainte (Rβ̂mco = r), les deux estimateurs sont
identiques.
Démonstration. Le lagrangien s’écrit :
Λ = ky − Xβk2 − λ0 (Rβ − r), λ ∈ Rp
L’estimateur des moindres carrés contraints β̂cc vérifie :
(
∂Λ
0
0
∂β = −2X (Y − X β̂cc ) − R λ̂ = 0
∂Λ
∂λ = Rβ̂cc − r = 0
On a donc :
β̂cc = (X 0 X)−1 (X 0 Y − R0 λ̂/2) = β̂mco − (X 0 X)−1 R0 λ̂/2
R(X 0 X)−1 (X 0 Y − R0 λ̂/2) = Rβ̂mco − R(X 0 X)−1 R0 λ̂/2 = r
On en déduit que λ̂/2 = [R(X 0 X)−1 R0 ]−1 [Rβ̂mco − r] et on obtient l’expression de β̂cc en le
remplaçant dans la première équation.
23
3.3.1
Propriété de l’estimateur des moindres carrés contraint
Il faut noter que tant que l’hypothèse H2 est vérifiée, l’estimateur des MCO est toujours sans
biais. De l’expression précédente on déduit que :
E(β̂cc /X) = β − (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (Rβ − r)
Donc :
– si les contraintes sont valides, l’estimateur des moindres carrés contraints est sans biais.
– dans le cas contraire, il sera biaisé
Par ailleurs, on peut montrer que si les contraintes sont valides, alors l’estimateur des
moindres carrés contraints est optimal parmi les estimateurs linéaires sans biais de β vérifiant la contrainte.
3.3.2
Estimation de la variance
Cet estimateur est fondé sur la somme des carrés des résidus contraints. Pour qu’il soit sans
biais, on le définit de la façon suivante :
2
σ̂cc
=
û0cc ûcc
T − (K + 1) + p
avec ûcc = y − X β̂cc
3.4
Le test de Fisher
On a vu comment calculer un estimateur de β qui vérifie les contraintes. Notre objectif est
de tester si ces contraintes sont plausibles. Le test de Fisher repose sur la comparaison des
résultats des régressions par les moindres carrés avec ou sans contraintes. Comme on l’a vu
dans la section précédente, si les contraintes ne sont pas valides, l’estimateur des moindres
carrés contraints est biaisé : les résultats de la régression effectuée en imposant les contraintes
seront donc probablement de moins bonne qualité que la régression simple.
On va se placer dans le cadre du modèle linéaire gaussien, et supposer que les résidus suivent
une loi normale : u → N (0, σ 2 IN ). On va alors tester :
H0 : Rβ = r contre Ha : Rβ 6= r
3.4.1
La statistique de Fisher
Le test de Fisher est fondé sur la statistique de test :
F =
SCR0 − SCRa
dla
SCRa
dl0 − dla
où SCR0 est la somme des carrés des résidus du modèle sous l’hypothèse H0 (donc obtenue
avec l’estimateur β̂cc ), dl0 = N − (K − 1 − p), le nombre de degrés de liberté sous l’hypothèse
H0 , et SCRa est la somme des carrés des résidus du modèle sous l’hypothèse Ha (donc
obtenu avec l’estimateur β̂), dla = N − K − 1 le nombre de degrés de liberté sous l’hypothèse
alternative.
On montre que cette statistique de test suit une loi de Fisher, à (dl0 − dla , dla ) degrés de
liberté.
SCR0 − SCRa
dla
F =
→ F(dl0 − dla , dla )
SCRa
dl0 − dla
24
Rappel : la loi de Fischer correspond par définition à la loi du ratio de deux variables aléatoires
suivant des lois de chi2 indépendants, normalisés par leurs nombres de degrés de liberté. Si
1 /q1
Q1 ∼ χ2 (q1 ) et Q2 ∼ χ2 (q2 ) et Q1 ⊥ Q2 alors Z = Q
Q2 /q2 ∼ F (q1 , q2 ) loi de Fisher à q1 et q2
degrés de liberté.
Démonstration. Notons ŷmco = X β̂mco la valeur prédite par l’estimation des moindres
carrés ordinaires, ŷmcc = X β̂mcc la valeur prédite par l’estimation sous contraintes.
La statistique de Fisher correspond en fait à :
F =
k ŷmco − ŷmcc k2
pσ̂ 2
En effet, par définition : SCR0 =k y − ŷmcc k2 ; SCRa =k y − ŷmco k2 et ûmco = y − ŷmco ∈
£(X)⊥ , tandis que ŷmcc − ŷmc0 ∈ £(X).
Le terme au numérateur vient donc simplement d’une application du théorème de Pythagore. Quant au dénominateur, il s’agit de la définition de σ̂ 2 .
Avec un peu de manipulation et en utilisant l’expression de β̂mcc en 3.1, on a :
F =
(Rβ̂ − r)0 (R(X 0 X)−1 R0 )−1 (Rβ̂ − r) σ̂ 2
/ 2
σ2 p
σ
– on a déjà montré que dans le cadre gaussien :
(N − K − 1)
σ̂ 2
→ χ2 (N − K − 1)
σ2
– reste à montrer que le numérateur de F suit un χ2 à p degrés de liberté. Si le modèle est
gaussien, β̂mco → N (β, σ 2 (X 0 X)−1 ). Ce qui implique que :
Rβ̂ → (Rβ, σ 2 R(X 0 X)−1 R0 )
Donc,
(Rβ̂ − Rβ)0 (R(X 0 X)−1 R0 )−1 (Rβ̂ − Rβ)
→ χ2 (p)
σ2
– Sous l’hypothèse H0 : Rβ = r, et par définition de la loi de Fischer, on obtient le résultat.
3.4.2
Mise en oeuvre pratique des tests de contraintes linéaires sous
SAS
Pour faire des tests de contraintes linéaires, il suffit d’ajouter l’option test dans la procédure
utilisée.
Par exemple, si on s’intéresse au modèle linéaire y = β0 + β1 x1 + β2 x2 + β3 x3 , sous les
contraintes β2 + β3 = 3 et β1 = 5, la syntaxe sera :
proc model data=matable ;
model y=x1 x2 x3 ;
test x2 + x3 = 3, x1 = 5 ;
run ;
La procédure fournit la statistique du test de Fischer de l’hypothèse et la "Pvalue" (la
probabilité d’observer cette valeur de la statistique de test, si elle suit effectivement une loi
de Fischer, c’est-à-dire si H0 est vraie).
25
3.4.3
Applications
Test de significativité de l’ensemble des coefficients
Le test de Fisher permet de tester l’hypothèse H0 : β1 = β2 = ... = βK = 0, ce qui revient à
tester si le fait d’introduire des variables autres que la constante est pertinent.
Si les K contraintes sont vérifiées (H0 est vraie), le modèle s’écrit : yi = β0 + ui . L’estimateur
des moindres carrés contraints est simplement : β̂0 = ȳ. La somme du carré des résidus du
modèle sous contraintes SCR0 est donc : SCR0 = Σi (yi − ȳ)2 . Soit SCR la somme des carrés
des résidus de la régression par les moindres carrés ordinaires (donc sous l’hypothèse Ha ).
2
−SCR N −(K+1)
∼ F (K, N − (K + 1)). Cette
La statistique de Fischer s’écrit : = Σi (yi −ȳ)
SCR
K
statistique peut s’écrire de manière plus simple en fonction du R2 . En effet par définition du
R2 :
X
SCR = (1 − R2 )( (yi − ȳ)2 )
i
On déduit donc une écriture plus simple de F̂ :
F̂ =
R2 N − (K + 1)
∼ F (K, N − (K + 1))
1 − R2
K
Si F̂ est supérieure au fractile d’ordre (1 − α) de la loi de Fisher à (K, N − (K + 1)) ddl, on
refuse l’hypothèse H0 de nullité jointe des coefficients.
La procédure SAS fournit toujours par défaut le test de nullité jointe des coefficients.
Test de Chow (ou de changement de régime)
On souhaite savoir si un modèle de comportement a changé entre deux sous-périodes, ou est
différent entre deux sous-populations. On dispose d’observations sur deux sous-périodes de
t = 1 à T1 et de t = T1 + 1 à t = T1 + T2 (ou deux sous-populations). On modélise alors ces
données par y = X1 β1 + u1 sur la première sous-période et par y = X2 β2 + u2 sur la seconde,
et on veut tester : H0 : β1 = β2 contre Ha : β1 6= β2 .
Pour résoudre ce problème, on empile les observations de la manière suivante :
y1
X1 0
β1
u1
=
+
y2
0 X2
β2
u2
Soit
y
(T1 +T2 ,1)
=
β
X
(T1 +T2 ,2K) (2K,1)
+
u
(T1 +T2 ,1)
avec les hypothèses
u=0
u = σ 2 IT1 +T2
Le test de changement de régime H0 : β1 = β2 contre Ha : β1 6= β2 est en fait un cas
particulier du test de Fisher avec SCRa = SCR1 + SCR2 où SCR1 désigne la somme des
carrés des résidus sur la première sous-période et SCR2 la somme des carrés des résidus sur
la seconde. La statistique de test F est alors :
F =
SCR0 − (SCR1 + SCR2 ) T1 + T2 − 2(K + 1)
SCR1 + SCR2
K +1
La région critique du test de Chow est alors :
W = {F > f1−α (K + 1, T1 + T2 − 2(K + 1))}
avec f1−α (K, T1 +T2 −2K) fractile à l’ordre 1−α d’une loi de Fisher à (K +1, T1 +T2 −2(K +1)
degrés de liberté.
26
mise en oeuvre du test
1. On fait la régression sur l’ensemble de notre échantillon(N1 + N2 observations) et on
en déduit SCR0 .
2. On estime le modèle sur les deux sous-échantillons séparément, et on calcule SCRa en
additionnant les deux sommes des carrés des résidus obtenues.
3. On calcule alors la statistique de Fischer associée au test :
N1 +N2 −2(K+1)
(K+1)
SCR0 −(SCR1 +SCR2 )
(SCR1 +SCR2 )
×
et on la compare au seuil théorique f (K + 1, N1 + N2 − 2(K + 1))
4. si la statistique est plus grande que le fractile de niveau α, on a moins de α chance de se
tromper en rejetant H0 , et on en conclut qu’il y a bien une rupture de comportement.
27
Chapitre 4
Le modèle linéaire généralisé
Dans les chapitres précédents, on a supposé que les perturbations avaient toutes la même
variance (hypothèse d’homoscédasticité), et étaient non corrélées deux à deux. Dans de nombreux cas, ces deux hypothèses peuvent ne pas être vérifiées : par exemple, lorsque l’on s’intéresse à des sous-populations hétérogènes, il est vraisembable que la dispersion des termes
d’erreur soit différente entre ces deux sous-populations ; dans le cas des séries temporelles,
une "persistance" des chocs au cours du temps se traduira par une autocorrélation des résidus. Dans ces deux exemples, la matrice de variance covariance du terme d’erreur du modèle
ne s’écrit plus simplement : σ 2 I, mais a une forme plus complexe. On dit qu’on est dans le
cadre d’un modèle linéaire généralisé.
La première question qui se pose dans ce cadre est de savoir ce que deviennent alors les
propriétés de l’estimateur des moindres carrés ordinaires. Il est également indispensable de
savoir comment détecter l’hétéroscédasticité. Enfin, on évoquera des estimateurs permettant
de prendre en compte cet effet.
4.1
Définition du modèle linéaire généralisé
On se place donc dans le cas du modèle linéaire, mais on suppose maintenant que ∃i, jtqE(ui uj ) 6=
0, ou ∃i, jtqE(u2i ) 6= E(u2j ). Sous forme matricielle, cela signifie simplement que la matrice
de variance-covariance du terme d’erreur ne s’écrit plus simplement σ 2 IN , mais a une forme
plus compliquée.
4.1.1
Ecriture matricielle
Le modèle linéaire généralisé s’écrit donc :
Y = Xβ + u
avec,

 rgX = K
E(U/X) = 0

E(U U 0 /X) = Σ
où Σ est une matrice symétrique définie positive.
Par convention (et uniquement parce que cela allège les calculs par la suite), on définit σ 2 et
Ω tels que Σ = σ 2 Ω, avec Trace(Ω) = N.
28
4.1.2
Propriétés des mco dans le cadre du modèle linéaire généralisé
Il est toujours possible de calculer l’estimateur des moindres carrés ordinaires. En revanche,
il est important de s’interroger sur ce que deviennent ses propriétés dans le cadre du modèle
linéaire généralisé.
– L’estimateur des moindres carrés ordinaires est toujours sans biais
E[β̂M CO /X] = β
– en revanche, l’estimateur de sa variance est en général biaisé.
Démonstration. On a toujours en effet :
β̂M CO = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + U )
= β + (X 0 X)−1 X 0 U
et donc sous l’hypothèse H2, on vérifie que β̂M CO est sans biais.
En revanche, on a :
V (β̂/X) = σ 2 (X 0 X)−1 X 0 ΩX(X 0 X)−1
On rappelle que l’estimateur de la matrice de variance-covariance du paramètre s’écrit :
β̂k2
mco
= SCR
V̂ (β̂/X) = σ̂ 2 (X 0 X)−1 . Avec par définition : σ̂ 2 = ky−X
N −K
N −K est en général biaisé.
En effet :
ky − X β̂k2
SCRmco
=
N −K
N −K
(u0 M u)
avec MX = IN − X(X 0 X)−1 X 0
=
N −K
1
σ2
=
T r(M uu0 ) =
(T rΩ − T r((X 0 X)−1 X 0 ΩX))
N −K
N −K
σ2
=
(N − T r((X 0 X)−1 X 0 )) 6= σ 2
N −K
σ̂ 2 =
Les deux termes n’ont aucune raison de correspondre.
Si le fait que l’estimateur des MCO reste sans biais est appréciable, la deuxième propriété
signifie que les tests précédents ne seront pas fiables : il est donc impossible de se contenter
de l’estimateur des moindres carrés ordinaires, dès lors qu’on suspecte les hypothèses H3
et H4 de ne pas être vérifiées. La section suivante présente des tests classiques permettant
de détecter l’hétéroscédasticité d’une part, et l’autocorrélation des résidus de l’autre. Les
solutions qui peuvent alors être apportées sont ensuite évoquées.
4.2
4.2.1
Détection de l’hétéroscédasticité
Définition
Le modèle hétéroscédastique "classique" suppose que les dispersions des pertubations individuelles ne sont pas identiques. Cela peut être le cas par exemple lorsque l’on s’intéresse à
des groupes dont les caractéristiques sont très différentes (propension à consommer selon la
catégorie socio-professionnelle par exemple). En revanche, on suppose toujours que les perturbations ne sont pas corrélées entre elles (les préférences des individus ne dépendent pas
les unes des autres).
y = Xβ + u
29

 E(ui /X) = 0
E(ui uj /X) = 0 pour i 6= j

E(u2i /X) = σi2
La matrice de variance covariance est donc diagonale dans ce cas, et s’écrit
2
E(U U 0 /X) = Diag(σ12 , . . . , σN
) 6= σ 2 IN
Par définition, le modèle est homoscédastique si ∀i, jσi = σj . Si cette hypothèse n’est pas
vérifiée, alors le modèle sera dit hétéroscédastique. Les tests suivants tentent donc de tester
cette propriété à partir d’estimations des variances individuelles.
4.2.2
Le test de Goldfeld et Quandt
Ce test repose sur l’hypothèse que la variance des perturbations est une fonction monotone
d’une des variables explicatives Z. On peut alors ordonner les observations en fonction de Z,
et supposer que zi ≤ zi+1 .
Le test de Goldfeld et Quandt consiste alors à comparer les variances des perturbations
composées des N1 premières observations et des N2 dernières (on choisit N1 et N2 de manière
à séparer suffisamment les deux sous-échantillons : en pratique on pourra prendre le premier
et le dernier tiers). Si on note σ12 la variance des perturbations sur le premier sous-échantillon
et σ22 la variance des perturbations sur le second, l’hypothèse qui est testée est :
H0 : σ12 = σ22
Le test est alors fondé sur la statistique :
GQ =
σ̂22
σ̂12
avec,
σ̂12
PN
û2n
û2n
n= N
2
2 +1
=
et σ̂2 =
N1 − K − 1
N2 − K − 1
P N2
n=1
qui suit sous H0 une loi de Fisher (N1 − K − 1, N2 − K − 1).
Mise en oeuvre du test :
1. faire les mco séparément sur les deux sous échantillons.
2. Calculer σ̂12 et σ̂22 à partir des sommes des carrés des résidus des deux régressions.
3. On rejette l’hypothèse nulle d’homoscédasticité H0 au seuil α si
σ̂22
> FN1 −K−1,N −N2 −K−1 (1 − α)
σ̂12
où FN1 −K−1,N −N2 −K−1 (1 − α) est le quantile 1 − α de la loi de Fisher à N1 − K − 1
et N − N2 − K − 1 degrés de liberté1 .
1 on
met toujours le plus élevé au numérateur
30
Mise en oeuvre sous sas
Il faut d’abord trier les variables dans la table initiale avec une proc sort.
proc sort data=matable ;by z ;
Puis créer deux tables, avec les N 1 premières observations et les N 1 dernières.
data t1 ;set matable ; if _N _ <= N 1 ;
data t2 ;set matable ; if _N _ > N − N 1 ;
proc reg data=t1 ; model y = z x; proc reg data=t2 ; model y = z x; run; puis récupérer les
sommes des carrés des résidus (en haut à gauche des listings) pour calculer la statistique de
Fisher du test.
4.2.3
Le test de Breush et Pagan
Le test précédent est fondé sur l’idée selon laquelle la variance des perturbations est une
fonction croissante d’une variable Z ; or, ceci n’est évidemment pas toujours le cas (tout
dépend de la forme de l’hétéroscédasticité sous-jacente). Le test de Breusch et Pagan est plus
général. Il s’appuie sur l’hypothèse alternative Ha : ∀i, σi2 = σ02 + Xi γ où σ02 ∈ R et γ0 ∈ RK
sont deux paramètres.
L’hypothèse nulle d’homoscédaticité s’écrit :
H0 : γ = 0.
Le principe est de tester la nullité jointe des coefficients de la régression du carré des résidus
sur les variables susceptibles d’expliquer l’hétéroscasticité.
Mise en oeuvre du test sous sas :
1. On estime le modèle linéaire y = Xβ + u par les mco et on obtient ainsi des résidus
d’estimation
ûi = yi − Xi β̂mco qu’on enregistre dans une nouvelle table (option output).
proc reg data=matable ; model y = x1 . . . xK ;
output out=matable2 r=monres ; run ;
2. on calcule le carré de ces résidus dans une nouvelle table
data=matable2 ; set matable2 ; res2=monres*monres ; run ;
3. On régresse par MCO û2i sur les variables explicatives.
proc reg data=matable2 ; model res2 = x1 . . . xK ;
run ;
Le test de Fisher de nullité jointe des coefficients est fait par défaut (colonne de droite).
4.3
4.3.1
Détection de l’autocorrélation
Définition
L’autre exemple classique de modèle linéaire généralisé est la présence de corrélation entre
les termes de perturbations. Ce cas est fréquent avec des séries temporelles. Par exemple,
si l’on s’intéresse aux évolutions du salaire d’un même individu au cours de sa carrière, il
est difficile de croire que les termes d’erreur, qui est lié aux déterminants non observés du
salaire, ne sont pas corrélés entre eux au cours du temps. Un "choc" sera vraisemblablement
persistant : on parlera alors d’autocorrélation.
31
Exemple : processus AR(1)
On se place dans le cadre d’un modèle où les perturbations suivent un processus autorégressif d’ordre 1 noté AR(1).

 yt = xt β + ut , t = 1, . . . , T
ut = ρut−1 + t |ρ| > 1

E(εt /X) = 0, V (εt /X) = σε2 , cov(εt , εt0 /X) = 0, ∀ t 6= t0
Pour que le processus des perturbations soit stationnaire au second ordre (∀t, E(ut /X) =
m, V (ut /X) = σ 2 , cov(ut , ut−h ) = γ(h)), on pose la condition initiale :
0
avec 0 = 0, (0 ) = σ2 , ov(0 , t ) = 0, ∀t > 0
u0 = p
2
1−ρ
On montre alors que la matrice de variance - covariance des perturbations (u1 , ..., uT ) s’écrit :


1
ρ ρ2 ... ρT −1
 ρ
1
ρT −2 


2
.. 
..
σ 
2

.
ρ
. 
V (u/X) =

1 − ρ2 

 .
 ..
1
ρ 
ρT −1
ρ
1
L’idée est qu’un choc exogène à un moment donné, a un effet persistant mais décroissant
exponentiellement avec le temps.
4.3.2
test de l’hypothèse d’autocorrélation dans le cas du modèle
AR(1)
Pour ce modèle, tester l’absence d’autocorrélation revient à tester : H0 : ρ = 0 contre H1 :
ρ 6= 0
Le test le plus fréquemment utilisé est celui de Durbin-Watson, reposant sur la statistique :
ΣT (ût − ût−1 )2
dˆ = t=2 T 2
Σt=1 ût
Cette statistique est liée asymptotiquement au paramètre ρ par la relation suivante :
p lim dˆT ↑∞ = 2(1 − ρ)
Par conséquent :
– si ρ est nul (absence d’autocorrélation), dˆ est proche de 2,
– si ρ est proche de 1 (forte autocorrélation positive), dˆ est proche de 0
– si ρ est proche de -1 (forte autocorrélation négative), dˆ est proche de 4
La loi de probabilité de la statistique dˆ est difficile à établir car elle dépend des résidus
estimés et donc des valeurs prises par les variables explicatives du modèle. Durbin et Watson
ont néanmoins estimé deux lois, qui encadrent la loi de dˆ sous l’hypothèse nulle.
Sous l’hypothèse H0 : ρ = 0, il existe deux statistiques, de et du , qui encadrent toujours dˆ :
d` < dˆ < du ,
et dont la loi ne dépend que de T et K.
32
Test de H0 : ρ = 0 contre Ha :ρ > 0
Si dˆ est proche de 2 l’hypothèse H0 est acceptée. Si dˆ est en revanche trop faible l’hypothèse
ˆ on pourrait déterminer le fractile d∗ (α)
nulle est rejetée. Si on connaissait la loi d0 de d,
de cette loi permettant de conclure au rejet ou à l’acceptation de l’hypothèse H0 de nonautocorrélation pour un test au seuil α.
P (d0 < d? (α)) = α
Ne connaissant pas la loi asymptotique de dˆ on détermine les fractiles correspondants d∗` (α)
de dl et d∗u (α) de du
P (dl < d∗l (α)) = α
P (du < d∗u (α)) = α
Comme
d l < d0 < du
On a
d∗l (α) < d∗ (α) < d∗u (α)
• Si dˆ est inférieure à d∗` (α), alors dˆ < d∗ (α) : on refuse H0
• Si dˆ est supérieure à d∗u (α), alors dˆ > d∗ (α) : on accepte H0
• Si d∗` < dˆ < d∗u , on se trouve dans la zone dite inconclusive : le test ne permet pas de
conclure au rejet ou à l’acceptation de H0 .
La pratique courante consiste à inclure la zone inconclusive dans la zone de rejet de l’hypothèse H0 pour se garantir contre le risque d’accepter à tort l’absence d’autocorrélation.
L’amplitude de la zone inconclusive, d∗u − d∗` , est d’autant plus importante que le nombre T
d’observations est faible et que le nombre de variables explicatives est important.
Mise en oeuvre sous SAS
Il suffit d’ajouter l’option /DW pour obtenir la valeur du durbin Watson :
proc reg data = nom_de_table;
model y = x1 x2 . . . xK /DW ;
run ;
4.4
Estimateur optimal dans le cadre du modèle généralisé
Il est théoriquement possible d’obtenir un estimateur optimal dans le cadre du modèle linéaire
"généralisé". Il suffit de remarquer qu’en multipliant tous les vecteurs par l’inverse de la
matrice de variance-covariance des perturbations (on dit qu’on "sphéricise" le modèle), on
est ramené au modèle linéaire classique (voir annexe B pour les détails).
L’estimateur des moindres carrés appliqués à ce modèle "sphéricisé", qu’on appelle estimateur
des moindres carrés généralisés, est donc sans biais, et optimal parmi les sans biais.
Malheureusement, ce résultat soulève un nouveau problème : la matrice de variance-covariance
des perturbations est justement inconnue, et il n’est donc en pratique jamais possible d’estimer directement l’estimateur des moindres carrés généralisés. Il faut donc dans une première
étape utiliser un estimateur de cette matrice de variance-covariance. On peut alors "sphériciser" le modèle à partir de cette estimation : on parle de modèle "quasi-généralisé", et
33
l’estimateur de β associé est dit estimateur des moindres carrés quasi généralisés. Mais ce
nouvel estimateur n’est a priori pas optimal.
En pratique, pour les deux cas présentés ci dessus :
correction de l’hétéroscedasticité Si on a trouvé une autocorrélation du type : σi2 =
σ 2 f (X), on peut tranformer le modèle par :
p
1/ f (x) [Y = X + u]
(donc en utilisant les nouvelles variables ỹi = √ yi
f (xi )
et x̃i = √ xi
f (xi )
)
Le nouveau modèle :
V (ũi /X) = σ 2
est homoscédastique.
En pratique, en l’absence de variables "évidentes", on pourra par exemple obtenir cette
fonction en régressant le log du carré des résidus estimés par une première étape MCO sur
les variables explicatives.
log(û2i ) = γ0 + γ1 x1i + . . . + γK xKi + vi
Et on utilise l’exp de la valeur prédite par cette équation.
Remarque : l’hétéroscédasticité peut découler parfois d’un problème de spécification du
modèle. Passer en log peut parfois aider...
autocorrélation des résidus Pour tenir compte de l’autocorrélation des résidus dans le
cadre de modèle AR(1), on utilise des modèles "quasi-différenciés", qui reposent sur une
estimation de ρ. L’estimateur de Prais Watson est présenté ici. il s’agit d’un estimateur en
plusieurs étapes :
– estimation par MCO du modèle yt = xt β + ut , t = 1, ..., T
– calcul des résidus estimés : ût = yt − xt β̂mco
– estimation de ρ par application des mco au modèle :
ût = ρût−1 + εt , t = 2, ..., T
soit
ρ̂ =
ΣTt=2 ût ût−1
ΣTt=2 û2t−1
– calcul des
p données transformées (y compris le vecteur unité, transformé en x0) :
ỹ1 = p1 − ρ̂2 y1 et ỹt = yt − ρ̂yt−1 , t = 2, ..., T
X̃1 = p1 − ρ̂2 X1 et X̃t = xt − ρ̂Xt−1 , t = 2, ..., T
˜ 1 = 1 − ρ̂2 et x0
˜ t = 1 − ρ̂, t = 2, ..., T
x0
– estimation des MCO du modèle transformé sans constante
L’estimateur β̂ ainsi obtenu est convergent et asymptotiquement aussi efficace que l’estimateur des MCG2 .
Mise en oeuvre sous sas
– Dans une première régression, on peut récupérer les résidus avec l’option output :
proc reg data = nom_de_table;
model y = x1 x2 . . . xK ;
output out = matable2 r = monres;
run ;
– on crée une nouvelle table avec le résidu retardé (ût−1 ) :
data=matable2 ; set matable2 ; resret=lag(monres) ; run ;
2 Remarque : le modèle sphéricisé correspond "presque" au modèle dit quasi-différencié où les observations
sont remplacées par yt − ρyt−1 , t = 2...T . Le "presque" concerne la première observation, qui elle s’écrit :
1 − ρ2 y 1 .
Il est alors tentant de supprimer cette première observation, et de travailler uniquement sur le modèle
quasi -différencié, qui s’écrit de manière plus simple. Certains tests, comme la procédure de Cochran et
Orcutt (CORC) ou de Durbin par exemple, en sont des exemples.
p
34
– on obtient ρ̂ avec la régression
proc reg data = matable2 ;model monres = resret ;run ;
– On crée les variables transformées :
data = matable2 ; set matable2 ;
if t = 1 then x0 = sqrt(1 − ρ̂ ∗ ρ̂) ;else x0 = 1 − ρ̂ ;
if t = 1 then ytilde = sqrt(1 − ρ̂ ∗ ρ̂)y ;else ytilde = (1 − ρ̂) ∗ y ;
et idem pour toutes les variables explicatives...
run ;
– On fait finalement la régression (en remplaçant la constante - option /noint par la
variable transformée x0) :
proc reg data = nom_de_table;
model ytilde = x0 xtilde1 xtilde2 . . . xtildeK /noint;
output out = matable2 r = monres;
run ;
35
Chapitre 5
Problèmes de spécification du
modèle
Ce chapitre s’intéresse aux problèmes de spécifications du modèle. Ils sont de plusieurs
ordres. Le choix des variables explicatives est important. Il est légitime de s’interroger sur
les conséquences d’"oublier" certaines caractéristiques importantes, ou à l’inverse d’introduire des variables "inutiles" dans le modèle. Les variables observables ne sont pas toujours
bien mesurées : ces problèmes de mesure peuvent avoir des effets sur la qualité des estimations. Enfin, le fait de recourir à une spécification linéaire peut être questionné.
5.1
5.1.1
choix des variables explicatives
omission d’une variable explicative
Que deviennent les estimations lorsqu’une variable explicative importante est oubliée, ou
inobservée ? Comme on va le voir, cela pose des problèmes importants.
Pour fixer les idées, supposons que la variable dépendante dépend de deux caractéristiques,
x1 et x2 . Le "vrai" modèle est donc :
y = β0 + β1 x1 + β2 x2 + u
Supposons que seule x1 soit disponible dans nos données. On estime donc :
y = β0 + β1 x1 + v
Comme on va le voir, même lorsque l’on ne s’intéresse qu’à l’effet de la variable x1 sur y,
l’omission de cette variable peut avoir des conséquences importantes dès lors qu’elle est
également corrélée avec x1 . On montre en effet que :
E(β̂1 ) = β1 + β2 δx2 x1
où δx2 x1 est le coefficient de la régression de x2 sur x1 .
Le paramètre de la régression de x1 sur y est donc biaisé.
Démonstration. On rappelle que le coefficient estimé par les mco peut s’écrire dans ce cas
simple :
P
(x1i − x1 )yi
β̂1 = P
(x1i − x1 )2
36
Si on remplace y par sa "vraie" valeur, on trouve
P
P
(x1i − x1 )x2i
(x1i − x1 )ui
P
+ β2 P
β̂1 = β1 +
(x1i − x1 )2
(x1i − x1 )2
Donc même si E(u/X) = 0, le coefficient β̂1 sera biaisé.
5.1.2
introduction d’une variable "en trop"
Supposons à l’inverse du cas précédent qu’on a ajouté une variable "en trop" dans le modèle
(on "surspécifie" le modèle), c’est-à-dire une variable qui en réalité n’a pas de "vraie" relation
avec la variable dépendante. Pour fixer les idées, on suppose qu’on estime un modèle :
y = β0 + β1 x1 + β2 x2 + v
mais que x2 n’a en réalité pas d’effet sur la variable y, une fois contrôlés les effets de x1 :β2 = 0.
La bonne nouvelle est que les estimateurs des autres paramètres sont toujours non biaisés,
tant que la propriété de non corrélation avec les résidus est toujours vérifiée. Cela signifie qu’en
espérance, les estimateurs convergent vers le vrai paramètre (c’est à dire que l’estimation de
β̂1 estimé dans le modèle "surspécifié" convergera vers β1 , tandis que
hatbeta2 vers 0.
Démonstration. Dans l’estimation par les moindres carrés du modèle linéaire obtenu en utilisant x1 ET x2 , on a toujours : β̂ = (X 0 X)−1 X 0 Y avec X = (e, X1 , X2 ). Le "vrai" modèle
peut s’écrire :
y = β0 + β1 x1 + 0x2 + u
Donc :
E(β̂/X) = β + (X 0 X)−1 X 0 E(u/X) = β
 
β0
si E(u/X) = 0. Ici le vrai vecteur de paramètre β = β1 .
0
Attention néanmoins si la variable supplémentaire est très corrélée avec les "vraies" variables
explicatives. Dans ce cas, la variance des estimateurs risque d’augmenter. On rappelle que :
V (β̂1 /X) =
σ2
N (1 − R12 )Vemp (Xk )
Avec R12 coefficient de la détermination de x1 sur x2 . Si les deux variables sont très corrélées,
ce coefficient sera proche de 1 : on perdra donc en précision dans l’estimation de x1 .
5.1.3
Erreur de mesure sur les variables
Un problème se pose également lorsque les variables dont on dispose sont mesurées avec
erreur, ou qu’elles ne sont que des "proxy" de la variable qui nous intéresse vraiment.
Supposons par exemple qu’on s’intéresse à un modèle simple :
y = β0 + β1 x + u où E(u/x) = 0
Mais que la variable x est mesurée avec erreur. On observe en réalité x∗ = x + e. On suppose
que le terme d’erreur e n’est pas corrélé avec la "vraie" valeur x : E(e/x) = 0 ni avec la
37
perturbation du "vrai" modèle u. Même dans ce cas favorable, l’estimateur par les moindres
carrés de l’effet de x sera biaisé.
En effet, en pratique on régresse y sur x∗ , le coefficient β̂1 estimé est donc :
P ∗
(x − x∗ )yi
β̂1 = P i∗
(xi − x∗ )2
Or y = β0 + β1 x + u = β0 + β1 x∗ + u − β1 e donc :
β̂1 = β1 +
P
P
(xi − x + ei − e)ui
(xi − x + ei − e)ei
P ∗
P ∗
−
(xi − x∗ )2
(xi − x∗ )2
En utilisant les hypothèses sur les termes d’erreur, on a alors :
E(β̂1 /x) = β1 −
(σe2
σe2
+ σx2 )2
où σe et σx sont respectivement les écarts-types du terme d’erreur de mesure e et de la vraie
variable x. Il est important de noter que dans ce cas le biais est toujours négatif. Le problème
d’erreur de mesure se traduit toujours par une sous-estimation du paramètre. Par ailleurs,
de manière assez intuitive, il est d’autant plus élevé que la variance du terme d’erreur est
grande relativement à celle du paramètre.
5.1.4
simultanéité
Un autre problème peut se poser lorsque la causalité entre la variable expliquée et la variable
explicative n’est pas univoque : l’exemple "canonique" est le lien entre la demande d’un bien
y et son prix p. Une équation de demande va ainsi s’écrire
y = −αd p + xd bd + ud
Il est cependant difficile de s’arrêter là. En effet, il est vraisemblable qu’il existe également
une équation d’offre du bien y, également fonction du prix
y = αs p + xs bs + us
et le prix est la fonction qui équilibre ces deux fonctions.
p=
1
(xd bd − xs bs + ud − us )
αs + αd
Un choc de demande ud aura donc vraisemblablement un impact sur le prix p. Cela signifie
donc que E(ud ) 6= 0, et que le paramètre estimé par les moindres carrés ordinaires sera biaisé.
5.2
choix entre deux modèles
Plus généralement, on peut se demander, en cas de deux modèles "théoriques" concurrents,
lequel est le plus pertinent. Le problème peut souvent se ramener à tester si, entre deux modèles liés à deux ensembles de variables explicatives (x1 , x2 , . . .) pour le modèle 1 et (z1 , z2 , . . .)
pour le modèle 2, lequel est le plus vraisemblable.
Plusieurs cas peuvent se présenter :
– les modèles sont emboités, c’est-à-dire que toutes les variables d’un des modèles sont
comprises dans l’autre. Par exemple :(z1 , z2 , . . .) ∈ (x1 , x2 , . . .). Dans ce cas, il suffit de
faire un test de Fisher de nullité jointe des variables "surnuméraires". L’hypothèse nulle
dans ce cas correspond au modèle 2, tandis que l’hypothèse alternative correspond au
modèle 1.
38
– lorsque les deux ensembles sont disjoints, on peut se ramener à un surmodèle qui comprend toutes les variables explicatives des deux modèles, et se ramener au cas précédent.
Dans ce cas néanmoins, il est possible d’être confronté à une indétermination. En fait, deux
tests de Fisher sont possibles, dont l’hypothèse nulle est commune (le surmodèle est vrai),
mais qui dont l’hypothèse alternative est le modèle 1 dans un cas, le modèle 2 dans l’autre.
– dans certains cas, passer par un surmodèle n’est pas optimal : par exemple, si l’on veut
modéliser la consommation en fonction du revenu et qu’on hésite entre deux modélisations
fonctionnelles : y = a + bR + cR2 ou y = dlog(R). Il est probable que passer par un surmodèle (y = a + bR + cR2 + dlog(R)) ne donnera pas des résultats interprétables, car les
variables dépendantes sont trop liées. On regardera dans ce cas le pouvoir explicatif du
modèle avec le coefficient de détermination. Pour tenir compte du fait que les deux modèles
n’ont pas le même nombre de variables, on utilisera le R2 ajusté (voir chapitre 2).
– attention ceci n’est vrai que pour des modèles qui s’intéressent à exactement la même
variable dépendante (i.e il n’est pas possible de comparer un modèle où elle est exprimée en
niveau et un autre où elle est en logarithme). Dans l’exemple ci-dessus, il n’y a aucun sens
à utiliser le coefficient de détermination (qui donne la part de la variance de la variable
dépendante expliquée par le modèle) pour des variables dépendantes différentes (donc de
variance totale différente).
5.3
adéquation de la forme linéaire
La forme linéaire de la dépendance entre la variable y et ses déterminants X a été introduite
de manière ad hoc, et on peut s’interroger sur sa pertinence. En réalité, cette formulation
n’est pas très contraignante, dans la mesure où il est souvent possible de s’y ramener au
prix de quelques transformations des variables d’intérêt. Par exemple, lorsque l’on cherche
à calculer l’élasticité de la production à l’un de ses facteurs, on raisonne plutôt en taux de
croissance. La théorie peut guider dans le choix de la forme fonctionnelle.
De même, il est possible que l’effet d’une variable présente des convexités (par exemple, le
salaire progresse très vite avec l’ancienneté au début, mais le rythme de croissance se ralentit
ensuite), ou qu’il existe des effets croisés (l’effet du diplôme sur le salaire n’est pas le même
pour les hommes et les femmes par exemple). Là encore, il suffit d’introduire dans le modèle
linéaire des variables supplémentaires, obtenues par exemple en croisant deux dimensions.
En revanche, le problème est plus complexe quand la variable expliquée a a priori une distribution particulière, par exemple lorsqu’il s’agit d’une variable de durée, ou d’une variable de
comportement (par nature non continue). Le prochain chapitre s’intéresse plus à ce dernier
cas.
39
Chapitre 6
Variables dépendantes
dichotomiques
6.1
Introduction
Dans les chapitres précédents, les variables utilisées étaient implicitement supposées continues. Cependant, on s’intéresse souvent à des variables qualitatives, qui sont discrètes : diplôme obtenu, risque de défaillance d’une entreprise, comportement d’achat de tel ou tel
produit...
Utiliser des variables explicatives de ce type ne pose pas de problème particulier. En revanche, les choses sont un peu plus compliquées lorsque c’est la variable dépendante Y qui
est discrète. On va s’intéresser ici à la spécification et l’estimation de modèles où la variable
dépendante est une variable binaire, appelée encore variable dichotomique : y ∈ 0, 1.
6.2
Expression générale du modèle
Soit donc une variable dépendante Y qui prend les valeurs 1 ou 0. Dans ce modèle, la variable
d’intérêt sera la probabilité d’observer yi = 1, conditionnellement à des variables explicatives :
Xi . Plus précisément, on va supposer que cette probabilité s’écrit sous la forme :
P (yi = 1/Xi ) = G(β0 + β1 x1 + . . . + βK xK )
où G est une fonction continue, positive, comprise entre 0 et 1. En pratique les modèles de
choix discret sont spécifiés en utilisant deux fonctions de répartition :
– Φ, la fonction de répartition de la loi normale :
Z z
G(z) =
ϕ(t)dt = Φ(z)
−∞
où ϕ(t) =
√1
2π
exp(− 12 t2 ). On a donc dans ce cas
P (y = 1/X) = Φ(Xβ)
Un tel modèle est appelé Modèle Probit.
– F , la fonction logistique
F (z) =
1
1 + exp(−z)
40
Dans ce cas
P (y = 1/X) = F (Xβ) =
1
1 + exp(−xi b)
Un tel modèle est appelé Modèle Logit
6.2.1
Interprétation en terme de variable latente
Les modèles à variables dépendantes discrètes sont souvent introduits par le biais d’une
variable latente, c’est-à-dire une variable inobservée mais qui détermine complètement la
réalisation de la variable indicatrice étudiée. Par exemple, on peut supposer qu’une personne
adopte un comportement lorsque son utilité dépasse un seuil qui varie selon ses caractéristiques (observables ou non).
Formellement, on suppose qu’il existe une variable y ∗ , appelée variable latente associée
au modèle, telle que y = 1[y∗ >0] , et on postule la dépendance linéaire de cette variable
latente avec les explicatives sous la forme : y ∗ = Xβ + u.
On a alors :
y = 1 ⇔ y ∗ > 0 ⇔ Xβ + u > 0
y ∗ est la variable latente associée au modèle.
Si on suppose que le résidu u intervenant dans modélisation de la variable latente suit une
loi normale (resp. logistique) et qu’il est indépendant des variables explicatives, on obtient le
modèle Probit (resp. Logit).
6.2.2
Interprétation des résultats : effet marginal d’une variation
d’une variable explicative x
Il est plus difficile que dans le modèle linéaire d’interpréter, ou tout au moins de quantifier,
l’effet d’une variable explicative sur notre variable dépendante. Néanmoins, comme on va le
voir, il est simple d’en connaître le sens.
De P (y = 1/X) = G(Xβ), on déduit en effet :
∂p(y = 1/X)
= g(Xβ)βk
∂Xk
où g est la fonction de densité de la fonction de répartition G (i.e sa dérivée).
Le problème de cette formulation est que l’effet marginal de la variable xk est "local" : il
dépend de la valeur de l’ensemble des covariables. Cependant, comme G est une fonction
strictement croissante, g(z) > 0 pour tout z. Donc l’effet de la variable explicative Xk sur la
probabilité P (Y = 1/X) sera du signe de βk .
Par ailleurs l’effet relatif de deux variables continues xk et xl s’écrit simplement βk /βk et ne
dépend donc pas de X.
6.3
Estimation des modèles dichotomiques
Les modèles dichotomiques s’estiment par le maximum de vraisemblance. On fait l’hypothèse
que les observations sont indépendantes.
Si P (yi = 1/xi ) = G(xi β), la probabilité d’observer yi pour un individu peut s’écrire comme
P (yi /xi ) = P (yi = 1|xi )yi [1 − P (yi = 1/xi )]1−yi
= G(xi β)yi [1 − G(xi β)]1−yi
41
La log-vraisemblance d’observer (yi , Xi ) s’écrit donc en fonction du paramètre β :
λi (β) = yi log[G(Xi β)] + (1 − yi )log[1 − G(Xi β)])
P
La log-vraisemblance de l’échantillon total s’écrit alors : Λ = i λi . L’estimateur du maximum de vraisemblance β̃ est alors le vecteur de paramètre β qui maximise la log vraisemblance. On peut calculer également sa variance. La log vraisemblance étant non linéaire, il
n’est pas possible de donner une expression analytique simple de ces estimateurs, et leur calcul se fait généralement par la mise en oeuvre d’un algorithme d’optimisation. On trouvera en
annexe les équations du premier ordre permettant de déterminer l’estimateur, et l’expression
de sa variance.
6.4
Mise en oeuvre de tests simples dans le cas d’un modèle dichotomique
On évoque ici les équivalents des tests étudiés dans le cadre du modèle linéaire. On peut
montrer que l’estimateur par maximum de vraisemblance de β̂ (respectivement son écarttype) suit une loi normale (respectivement une loi du χ2 ).
6.4.1
test de la nullité d’un coefficient
On peut montrer que la statistique de Wald :
W = β̂j σ̂j2 → χ2 (1)
converge asymptotiquement vers une loi du χ2 à un degré de liberté sous l’hypothèse nulle
H0 : βj = 01 . Si on teste H0 : βj = 0 contre Ha :βj 6= 0, la région critique de rejet du test au
niveau α sera :
β̂ 2
1−α/2
W = { k2 > χN −K−1 }
σ̂k
6.4.2
test d’un ensemble de contraintes linéaires
Si on veut tester maintenant l’hypothèse nulle H0 :β = r contre Ha : β 6= r, on utilise de
même la statistique :
F = (Rβ̂ − r)0 (Rβ̂ − r)R(V̂ β̂R0
qui suit un χ2 sous l’hypothèse nulle.
6.5
Mise en oeuvre sous sas
Les modèles à variables dichotomiques peuvent être mis en application avec la proc Logistique de sas. La syntaxe en est :
Proc Logistic data= matable;
model y=x1 x2 . . . ;
run ;
Par défaut, la procédure estime un modèle Logit. On peut ajouter une option probit pour
estimer un tel modèle.
1 il serait également possible d’utiliser une statistique de Student. On préfère présenter la statistique de
Wald, d’usage plus courant en maximum de vraisemblance, et utilisée par SAS.
42
Comme pour la procédure REG, les tests d’hypothèses linéaires s’écrivent simplement en
fonction des variables correspondantes. Par exemple, la commande pour tester β1 + β3 = 1
s’écrira : test x1 + x3 = 1 ;
6.6
Remarque : le modèle à probabilités linéaires
On peut s’interroger sur les propriétés de l’estimation si la on estime directement un modèle
linéaire en xi :
E(yi /xi ) = P (yi = 1/xi ) = xi β
Le modèle peut alors être estimé par les MCO.
En dépit de sa simplicité attractive, ce choix de modélisation présente néanmoins des inconvénients importants.
– Problème de cohérence, puisqu’il ne peut contraindre P (yi = 1|xi ) = xi β à appartenir à
l’intervalle [0, 1].
– Problème d’estimation : le modèle dichotomique est toujours hétéroscédastique. De yi2 = yi ,
on déduit :
V (yi /xi ) = E(yi2 /xi ) − E(yi /xi )2 = E(yi /xi ) − E(yi /xi )2
= E(yi /xi )[1 − E(yi /xi )] = G(xi β)[1 − G(xi β)]
en conséquence, comme montré dans le chapitre 4, l’estimateur de la variance des moindres
carrés ordinaires est biaisé, et il n’est pas possible d’effectuer des tests directement.
43
Annexe A
le théorème de Frisch-Waugh
Le théorème de Frisch-Waugh est une propriété algébrique de l’estimateur des moindres carrés
qui explicite l’interdépendance des coefficients de différentes variables dans une régression.
Théorème
Dans la régression de Y sur un ensemble de variables explicatives X, si X se décompose en
deux sous-ensembles X1 et X2 : X = (X1 , X2 ), les coefficients des variables X1 peuvent être
obtenus indirectement en régressant la variable dépendante Y sur les résidus MX2 X1 des
régressions des variables X1 sur les variables explicatives X2 :
β̂1 = ((MX2 X1 )0 MX2 X1 )−1 (MX2 X1 )0 Y
on peut alors retrouver les coefficients des variables X2 en régressant la partie inexpliquée
Y − X1 β̂1 sur X2 :
β̂2 = (X20 X2 )−1 X20 (Y − X1 β̂1 )
avec MX2 = IN − X2 (X20 X2 )−1 X20
Démonstration. Les coefficients de la régression de Y sur X = (X1 , X2 ) satisfont
X10 (Y − X1 β̂1 − X2 β̂2 ) = 0
X20 (Y − X1 β̂1 − X2 β̂2 ) = 0
De la deuxième équation on tire directement la deuxième partie du théorème
β̂2 = (X20 X2 )−1 X20 (Y − X1 β̂1 )
Lorsque l’on réintroduit cette expression dans la première équation il vient
X10 (Y − X1 β̂1 − X2 (X20 X2 )−1 X20 (Y − X1 β̂1 )) = 0 soit X10 MX2 (Y − X1 β̂1 ) = 0
2
soit X10 MX2 (Y − MX2 X1 β̂1 ) = 0 car MX 2 est un projecteur et MX
2 = MX 2 d’où l’expression
de β̂1 .
44
Annexe B
Estimateur des moindres carrés généralisés
On se place dans le cadre du modèle généralisé du chapitre 5. On va voir qu’en appliquant
au modèle l’inverse de la matrice de variance-covariance, on peut se ramener aux modèles
linéaires classiques.
Sphéricisation
Comme Ω est définie positive, elle est diagonalisable dans le groupe orthogonal. Autrement
dit, il existe une matrice carrée H d’ordre n telle que Ω = HDH 0 avec D matrice diagonale
à coefficients diagonaux strictement positifs et H 0 = H −1 . On peut donc définir pour tout
α ∈, Ωα = HDα H 0 avec

 α
d1


..


. (0)

Dα = 


.


(0) . .
dα
n
Le modèle linéaire généralisé peut alors se mettre sous la forme du modèle linéaire de la façon
suivante :
1
1
1
Ω− 2 Y = Ω− 2 Xβ + Ω− 2 u

1
 Ỹ = Ω− 2 y
1
Si on pose
X̃ = Ω− 2 X , on obtient le modèle "sphéricisé" :

1
ũ = Ω− 2 u
Ỹ = X̃β + ũ
On a

0
 H1 : X̃ 0 X̃ = X 0 Ω−1/2 Ω−1/2 X = X 0 Ω−1 X inversible
H2 : E[Ũ X̃] = E[Ω−1/2 U/Ω−1/2 X] = Ω−1/2 E[U/X] = 0

H3 : E[Ũ Ũ 0 X̃] = E[Ω−1/2 U U 0 V /Ω−1/2 X] = Ω−1/2 E[U U 0 /X]Ω−1/2 = σ 2 IN
On retrouve donc le cadre du modèle linéaire vu au chapitre 2 : les propriétés de l’estimateur
des moindres carrés ordinaires se transposent à ce nouvel estimateur.
Estimateur des moindres carrés généralisés
Le meilleur estimateur linéaire sans biais de β est l’estimateur des moindres carrés ordinaires
sur le modèle sphéricisé
β̂M CG = (X̃ 0 X̃)−1 X̃ 0 Ỹ = (X 0 Ω−1 X)−1 X 0 Ω−1 y
β̂M CG est appelé estimateur des moindres carrés généralisés (MCG).
1. L’estimateur des MCG est sans biais : E[β̂M CG /X] = β
2. L’estimateur des MCG a pour matrice de variance V(β̂M CG |X) = σ 2 (X 0 Ω−1 X)−1
Par ailleurs, on peut définir l’estimateur des moindres carrés généralisés de σ 2 ... σ̃ 2 =
e e
ky −Xβk2
N −K−1
Si on se place sous l’hypothèse de normalité des résidus, u ∼ N (0, σ 2 Ω), on a les lois
("à distance finie") des deux estimateurs β̂M CG et σ̃ 2 : β̂M CG ∼ N (β, σ 2 (X 0 Ω−1 X)−1 )
2
et (N − K) σσ̃2 ∼ χ2 (N − K)
45
Annexe C
L’estimateur du maximum de vraisemblance dans le cas du modèle dichotomique
L’estimateur du maximum de vraisemblance
β̃ est le vecteur de paramètre β qui maxiP
mise la log vraisemblance Λ = i yi log[G(Xi β)] + (1 − yi )log[1 − G(Xi β)]).
Conditions de 1er ordre pour la maximisation :
L’estimateur du maximum de vraisemblance est défini par :
#
"
N
X
∂ log LN
−g(xi β̂)
g(xi β̂)
+ (1 − yi )
=
x0i = 0
yi
∂β
G(xi β̂)
1 − G(xi β̂)
i=1
soit
N
X
∂ log LN
g(xi β̂)
x0i = 0
=
[yi − G(xi β̂)]
∂β
G(x
β̂)[1
−
G(x
β̂)]
i
i
i=1
Ces équations sont en général non linéaires et nécessitent la mise en oeuvre d’un algorithme d’optimisation.
Pour le modèle Logit on a simplement
N
X
∂ log LN
=
[yi − F (xi β̂)]x0i = 0
∂ b Logit i=1
Pour le modèle Probit on a simplement
N
∂ log LN X
ϕ(xi β̂)
=
[yi − Φ(xi β̂)]
x0i = 0
∂ b i=1
Φ(xi β̂)[1 − Φ(xi β̂)]
Matrice de variance-covariance de β̂
La matrice de variance covariance asymptotique est égale à
−1 −1
2
∂ log L ∂ log L
∂ log L
= E
Vas (β̂) = −E
∂β∂β 0
∂β
∂β 0
Elle peut être estimée à partir des dérivées secondes évaluées en β̂ :
−1
∂ 2 log L yi , xi , β̂

V̂as (β̂) = −
∂β∂β 0

46
Bibliographie
[1] Behaghel L. (2006), Lire l’économétrie, collection Repères, La Découverte, Paris
[2] Gouriéroux C. et Monfort A. (1996), Statistique et Modèles Econométriques, Economica
[3] Greene, W. (2003) Econometric Analysis, New York : MacMillan
[4] Wooldridge J. (2003), Introductory Econometrics, A Modern Approach, South-Western
47