vérification des hypothèses d`application de la

Transcription

vérification des hypothèses d`application de la
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
Module 4 : vérification des hypothèses d’application de
la régression et robustesse du modèle
Dans les paragraphes précédents on a supposé que les hypothèses d’application de la régression
étaient vérifiées ce qui permet de montrer les propriétés remarquables (BLUE) des estimateurs, de
construire des tests des paramètres et du coefficient de détermination et enfin d’élaborer des
intervalles de confiance prévisionnels. L’importance de ces hypothèses étant manifeste, il est
indispensable de les vérifier pour contrôler la qualité statistique et donc opérationnelle du modèle de
régression.
L’hypothèse d’indépendance de la variable explicative est une hypothèse ad hoc. Il en est de même
dans ce cours de celle concernant le sens de causalité entre deux variables ainsi que l’absence de
tendances communes pouvant conduire à une « spurious régression » (régression factice, c'est-à-dire
une régression qui semble de bonne qualité à cause d’une tendance semblable entre les deux
variables (r² élevé) mais qui dans la réalité n’est qu’une covariation).
En définitive, ce sont les hypothèses sur l’aléa qui font l’objet de ce paragraphe. Rappelons que l’aléa
est une succession temporelle (pour le modèle choisi ici) de variables aléatoires centrées,
homoscédastiques, non autocorrélées et obéissant à une loi normale. Cet aléa est inconnu.
L’hypothèse fondamentale sur laquelle repose le modèle de régression c’est que le résidu du modèle
(connu) e t = Yt − Ŷt est un échantillon de cette famille de variables aléatoires. De ce fait, si le résidu
vérifie, à partir de ses caractéristiques, les propriétés de l’aléa, on dira qu’il est issu de la famille des
variables aléatoires. On utilise ainsi la moyenne, la variance, l’autocorrélation, et l’histogramme des
résidus pour vérifier les hypothèses d’application du modèle de régression (unités 1, 2, 3 et 4).
Il est enfin possible de vérifier si le modèle estimé est valide dans diverses circonstances : c’est la
robustesse (unité 5)
1 L’hypothèse de nullité de l’espérance mathématique de l’erreur E[ε t ] = 0
On veut tester E[ε t ] = 0 On utilise la moyenne des résidus e =
 σ
On sait que : e ≡ N m, e

e −m

n ≡ N(0,1)
 soit
n
σe
On construit alors le test de signification : H0 : m = 0
Si
e −0
σe
1
∑ e t pour vérifier cette hypothèse.
n t
contre H1 : m ≠ 0
n < 1,96 (le quantile à 95% de la loi normale centrée réduite) alors l’hypothèse H0 est
vérifiée.
Cette hypothèse ne joue pas un rôle important dans la régression puisqu’on sait que e t = y t − ŷ t et
donc par construction e = 0 . Il s’agit donc d’une hypothèse ad hoc et l’utilité de ce test ne se justifie
que dans d’autres applications (séries temporelles par exemple)
2 L’hypothèse de non autocorrélation des erreurs E[ε t ε t ' ] = 0
On va tester E[ε t ε t ' ] = 0
∀t, ∀t' , t ≠ t'
2.1 Détection de l’autocorrélation
L3MS2_M5.doc
1/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
L’autocorrélation concerne les résidus : e t = Yt − Ŷt . Il y a autocorrélation toutes les fois où on peut
trouver un coefficient de corrélation linéaire significativement différent de 0 entre la chronique des
résidus et cette même chronique décalée d’un ou de plusieurs pas de temps.
(
)
Si on note k le pas de temps du décalage temporel k ∈ N* et rk le coefficient de corrélation linéaire
simple correspondant, on peut construire la Fonction d’AutoCorrélation des résidus :
k ∈ N* → rk ∈ [− 1,+1]
FAC
dont la représentation graphique est le corrélogramme :
rk
+1
r3
r1
rk …
0
k
K
-1
r2
K est le décalage maximal pour lequel rk a un sens statistique (le nombre de points permettant le
calcul de rk ). En général
n
n
≤K ≤
6
3
Si les résidus sont une bonne représentation de l’aléa, ils doivent vérifier l’hypothèse de non
autocorrélation ; cela signifie que toutes les autocorrélations successives doivent être non
significativement différentes de 0.
2.2 Principales causes de l’autocorrélation
Plusieurs raisons peuvent être la cause d’une autocorrélation. On peut citer :
- Les variables de départ ne vérifient pas l’hypothèse de stationnarité, c’est-à-dire qu’elles peuvent
contenir des tendances déterministes (trend linéaire) ou stochastiques (promenade aléatoire)
communes, ce qui est générateur d’une régression factice pour laquelle le r 2 est proche de 1 avec
une autocorrélation importante du résidu.
- Les variables de départ étaient saisonnières et elles ont été mal désaisonnalisées.
- Les variables contiennent des phénomènes exceptionnels (grèves,…) qui sont mal expliqués par le
modèle.
- Les variables de départ possédaient des « non informations » qui ont été corrigées par extrapolation
linéaire…
2.3 Les effets de l’autocorrélation des erreurs
Considérons le modèle sous la forme :
y t = βx t + ε t
Et supposons que :
ε t obéisse à un processus autorégressif d’ordre 1, c’est-à-dire qu’il existe entre ε t et ε t −1 un modèle
de régression linéaire :
L3MS2_M5.doc
2/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
ε t = ρε t −1 + η t avec
E[η t ] = 0

ρ < 1 (qui assure la stabilité du modèle) et V [η t ] = σ n2

Cov η t η t ' = 0
[ ]
On sait que :
∑ xt yt
∑ x 2t
βˆ =
= ∑ wtyt
(
avec w t =
xt
∑ x 2t
)
βˆ = ∑ w t Yt − Y = ∑ w t Yt − Y ∑ w t
123
=0
D’où
βˆ = ∑ w t (α + β X t + ε t )
= α ∑ w t + β∑ w t X t + ∑ w t ε t
123
1
424
3
=1
0
= β + ∑ w tεt
D’où
[]
E βˆ = β + ∑ w t E[ε t ]
123
=0
L’estimateur reste sans biais quelque soit E[ε t ] .
On peut vérifier cependant que :
ε t = ρε t −1 + η t s’écrit :
ε t = ρ(ρε t −2 + η t −1 ) + η t
= ρ 2 ε t −2 + ρη t −1 + η t
L etc L
ε t = η t + ρη t −1 + ρ 2 η t −2 + L
=
+∞
∑ ρ θ η t −θ
θ =0
E[ε t ] =
+∞
[η t4
∑ ρ θ E1
−3
θ]
42
θ=0
=0
La variance de β̂ s’écrit :
[]
V βˆ = σ ε2 /
∑ x 2t
[
[ ]]2
= E βˆ − E βˆ
2
[ ]


2
Comme V [ε t ] = E ε t − E[ε t ] = E ε t
{


=0 

On a :
L3MS2_M5.doc
3/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
ε t = η t + ρη t −1 + ρ 2 η t −2 + L
ε 2t = η 2 + ρ 2 η 2 + L + 2ρη t η t −1 + L
t −1
t
D’où
[ ]
E ε 2t = E η 2  + ρ 2E η 2  + L + 2ρE[η t η t −1 ] + L
 t 
 t −1 
14243
=0
= σ η2 + ρ 2 σ η2 + K + 0
(
)
= σ η2 1 + ρ 2 + L
Or : ρ < 1 d’où :
[ ]
E ε 2t =
1
1− ρ
2
σ 2η = σ 2ε
De ce fait :
[]
V βˆ =
σ η2
1− ρ
1
2
∑ x 2t
t
En conclusion, lorsqu’il y a autocorrélation des erreurs (ici d’ordre 1)
- les estimateurs restent sans biais.
- les variances d’échantillon des coefficients de régression ne sont plus
(
)
minimales : plus l’autocorrélation est forte ρ → 1 plus la quantité
1
1− ρ2
est grande et donc plus forte est la sous-estimation de la variance de β̂ .
La méthode des MCO n’est donc pas, dans ce cas, la meilleure des méthodes pour estimer le
modèle. Elle sous-estime les variances vraies dans le cas d’une autocorrélation positive par exemple,
ce qui a pour conséquence une surestimation de la prévision de l’estimation. Dans le cas d’une
prévision, on n’aura plus des valeurs de la variable endogène les meilleures possibles.
L’autocorrélation remet en cause l’estimation du MLGS par les MCO ; on doit disposer de tests
permettant de la détecter.
2.4 Tests d’autocorrélation des résidus
Le plus utilisé est le test de Durbin-Watson. Ces auteurs proposent la statistique suivante :
n −1
∑ (e t + 1 − e t )2
DW = t =1
n
∑ e 2t
t =1
Pour n grand :
n−1
n−1
t =1
t =1
∑ e 2t +1 ≈ ∑ e 2t
L3MS2_M5.doc
≈
n
∑ e 2t
t =1
; on peut alors approximer DW par la quantité : DW = 2(1 − ρˆ )
4/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
avec
ρˆ =
∑e
M4
e
t +1 t
t
n
∑e
t =1
2
t
ρ̂ est l’estimation, par les MCO, du modèle e t +1 = ρe t + ε t
avec ρ < 1
- si ρˆ → 0 , absence de corrélation dans les résidus ⇒ DW → 2 ;
- si ρˆ → 1 , forte autocorrélation positive dans les résidus ⇒ DW → 0
- si ρˆ → −1 , forte autocorrélation négative dans les résidus ⇒ DW → 4
Durbin-Watson ont montré que la statistique DW dépendait de deux valeurs d1 et d 2 , indépendantes
de X t ; ce sont des variables aléatoires fonction de ε t . Ils en ont tabulé les valeurs pour n (nombre
d’observations), K (nombre de variables exogènes) données et deux seuils 5% et 10%. Le test se
déroule de la façon suivante :
- On calcule DWc (avec
e t et la formule non simplifiée) ;
- On place le résultat trouvé dans le tableau suivant :
0
d1
Autocorrélation
>0
d2
Doute
4 − d2
2
indépendance
4 − d1
Doute
4
Autocorrélation
<0
Ce test présente l’inconvénient de ne pouvoir déceler que les autocorrélations d’ordre 1. On peut
remédier à ce problème en utilisant les résultats de la FAC (Fonction d’autocorrélation). Chaque
autocorrélation peut être testée par un test classique de signification de Student :
H0 : ρk = 0
tc =
rk
1 − rk2
H1 : ρk ≠ 0
n − 2 < Tlu (n − 2) on est sous l’hypothèse H0.
[ ]
3 L’hypothèse d’homoscédasticité des erreurs E ε 2t = σ 2ε
[ ]
On va tester E ε 2t = σ 2
ε
∀t
3.1 Définition
L’homoscédasticité peut être considérée comme un cas particulier de la non autocorrélation
E[ε t ε t ' ] = 0 ; lorsque t = t’ alors :
[ ]
Cov[ε t , ε t ' ] = Cov [ε t , ε t ] = E[[ε t − E[ε t ]][ε t − E[ε t ]]] = E ε 2t = σ ε2
Il y a hétéroscédasticité lorsque la variance des variables aléatoires qui composent ε t sont différentes
au cours du temps. Les conséquences de l’hétéroscédasticité sont, par construction, identiques à
celles de l’autocorrélation :
- les estimateurs des paramètres restent sans biais.
L3MS2_M5.doc
5/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
- les estimateurs des paramètres ne sont plus de variance minimale.
Il faut donc, comme pour l’autocorrélation, détecter une présence possible d’hétéroscédasticité en
utilisant le résidu e t , seule information disponible concernant ε t .
3.2 Tests d’hétéroscédasticité
Test paramétrique de Goldfeld-Quandt
Il s’applique toutes les fois où l’écart type de l’erreur du modèle s’accroît proportionnellement avec la
variable explicative du modèle.
Ecriture de cette hypothèse :
[ ]
[ ]
E ε 2t = aX t ⇔ E ε 2t = a 2 X 2t
Principe du test :
On ordonne les observations des variables Yt et X t en fonction des valeurs croissantes de X t .
On néglige les observations centrales de l’échantillon. On appelle m le nombre de ces observations
négligées.
Comme m dépend de n, on prend pour n = 30, m = 8 et pour n = 60, m = 16, etc.
On obtient deux sous échantillons, l’un correspond aux faibles valeurs de X t (premier échantillon),
l’autre aux fortes valeurs ( deuxième échantillon). On applique les MCO sur les
faibles et sur les
n−m
observations
2
n−m
observations fortes. (Il faut que les deux échantillons soient suffisamment
2
importants).
On appelle SCR1 la somme des carrés des résidus du premier échantillon, SCR2 la somme des carrés
des résidus du second échantillon. On démontre alors que :
SCR 2
n−m− 4 n−m− 4
≡ F1− p 
;

SCR1
2
2


Les hypothèses du test sont :
H0 : homoscédasticité H1 : hétéroscédasticité (SCR2 > SCR1)
Règle de décision :

si


si

SCR 2
< F1− ρ ⇒ H0 acceptée au rique de 1ère espèce p → hom oscédasticité
SCR1
SCR 2
≥ F1− ρ ⇒ H0 rejetée au rique de 1ère espèce p → hétéroscédasticité
SCR1
Test de Glejser
Ce test propose de régresser la valeur absolue des résidus de la régression avec la variable
explicative X t . On considère des fonctions simples du type, (selon l’hypothèse précédente) :
e t = a 0 + a1X t + η t avec η t =aléa vérifiant les hypothèses de base
a
e t = a0 + 1 + ηt
Xt
e t = a 0 + a1 X t + η t
L3MS2_M5.doc
6/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
e t = a0 +
a1
Xt
M4
+ ηt
L’hypothèse d’homoscédasticité est vérifiée si le paramètre a1 n’est pas significativement différent de
zéro.
D’où le test :
H0 : a1 = 0 (hom oscédasticité )
H1 : a1 ≠ 0 (hétéroscéd asticité )
On applique alors la méthode des MCO aux différents modèles proposés par Glejser :
tc =
â1
≡ T(n − 2)
σ â1
Si t c < Tlu (n − 2 ) ⇒ H0 acceptée au risque de 1ère espèce p → hom oscédastic ité
Test Arch - LM
Il s’agit d’un test de conception différente utilisé principalement pour les séries temporelles. Les
modèles AutoRégressifs Conditionnellement Hétéroscédastique (ARCH) ont été introduits par Engle
en 1982 pour modéliser la volatilité des cours boursiers. Un représentant de ce modèle est associé au
test du Multiplicateur de Lagrange (test du χ 2 ) pour vérifier l’hypothèse d’homoscédasticité du résidu
e t (qui est une série chronologique).
Déroulement du test :
- On considère le modèle suivant, appelé modèle autorégressif de retard p, sur le carré des résidus :
e 2t = φ 0 + φ1e 2t −1 + L + φ p e 2t − p + η t
- On estime le modèle par la méthode des MCO (il s’agit d’un modèle à plusieurs variables qui sera
étudié ultérieurement).
ê 2t = φˆ 0 + φˆ 1e 2t −1 + L + φˆ p e 2t − p
- On calcule la statistique :
nR 2 avec
R 2 le coefficient de détermination du modèle
n le nombre d’observations
- On démontre que : nR 2 ≡ χ 2 (p)
Sous l’hypothèse H0 du test, les coefficients du modèle ne sont pas significativement différents de
zéro (ils sont donc significativement égal à zéro) : φ1 = L φp = 0
De ce fait : e 2t = φ 0 + ε t et V[e t ] = ∑ e 2t = ∑ (φ 0 + ε t ) = ε + φ 0 = φ 0 , il y a homoscédasticité
n
n
1
1
D’où le test :
H0 : φ1 = L φ p = 0 (homoscédasticité) H1 : un au moins des coefficients ≠ de 0 (hétéroscédasticité)
Si nR 2 < χ 2 (p ) on est sous l’hypothèse H0 donc homoscédasticité.
p le nombre de retard est choisi successivement dans N*.
Test de White
L3MS2_M5.doc
7/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
On effectue une régression entre le carré du résidu et une ou plusieurs variables explicatives en
niveau et au carré (ici, on considère une seule variable explicative puisque l’on se place dans le cas
du modèle linéaire général simple à 2 variables), c’est-à-dire :
e 2t = a 0 + a1X1t + b1X12t + η t
Si l’un de ces coefficients de régression ( a1 ou b1 ) est significativement différent de 0, on accepte
l’hypothèse d’hétéroscédasticité. Deux manières pour effectuer le test :
1) On effectue un test de Fisher : H0 : a1 = b1 = a 0 = 0
On construit le Fisher calculé suivant :
Fc =
R2
n−k
où k représente le nombre total de paramètres estimés (ici, k=3)
1− R k − 1
2
Fc ≡ F(k − 1, n − k )
Règle de décision :
Si Fc < F1− p (k − 1, n − k ) alors Ho acceptée au risque de 1
Si Fc ≥ F1− p (k − 1, n − k ) alors Ho rejetée au risque de 1
ère
ère
espèce p ⇒ homoscédasticité
espèce p ⇒ hétéroscédasticité
2) Soit on recourt à la statistique LM ≡ χ 2 (p = K )
K étant le nombre de variable explicatives, ici K=2
LM = nR 2 > χ 2 (p ) H0 rejetée au risque de 1ère espèce p ⇒ hétéroscédasticité
LM = nR 2 < χ 2 (p ) H0 acceptée au risque de 1ère espèce p ⇒ homoscédasticité
4. L’hypothèse de normalité des erreurs : ε t ≡ N(0, σ ε )
On veut tester ε t ≡ N(0, σ ε )
Cette hypothèse est indispensable pour calculer les estimateurs du maximum de vraisemblance mais
aussi et surtout pour réaliser nombre de tests concernant les caractéristiques du modèle de
régression (test de Student des paramètres, test de Fisher du r² etc …). On utilise dans la pratique le
test de Jarque et Béra fondé sur la notion de skewness (asymétrie) et du Kurtosis (aplatissement).
Néanmoins il est toujours possible de recourir aux tests standards d’ajustement d’une loi normale à
une distribution empirique (comme le test du χ 2 ).
Principales étapes du test de Jarque et Béra :
On construit l’histogramme du résidu e t en découpant l’étendu du résidu en classes d’amplitudes
égales. On calcule alors après avoir affecté à chacune des classes le nombre de fois que le résidu se
répète :
1
Le coefficient du skewness : β1 2 =
Le coefficient du Kurtosis β 2 =
µ4
σ4
µ3
σ3
où µ 3 est le moment centré d’ordre 3 de la distribution.
où µ 4 est le moment centré d’ordre 4 de la distribution.
On démontre que :
L3MS2_M5.doc
8/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
1


6 
24 
β1 2 ≡ N 0,
et β 2 ≡ N 3,


n 
n 


Remarque : il est donc possible de réaliser un test de symétrie et d’aplatissement en utilisant les lois
normales centrées réduites. :
1
ν1=
β1 2 − 0
6
n
β −3
≡ N(0,1)
≡ N(0,1) et ν 2 = 2
24
n
Les tests de symétrie et d’aplatissement normal se font ainsi :
• H0 : aplatissement normal
1
si
β1 2 − 0
6
n
< 1,96 (le quantile à 95% de la loi normale centrée réduite) alors H0 est acceptée au
risque de 5% donc aplatissement normal.
1
si
β1 2 − 0
6
n
≥ 1,96 alors H0 est rejetée au risque de 5%.
• H0 : symétrie normale
Si
β2 − 3
24
n
Si
β2 − 3
24
n
< 1,96 alors H0 est acceptée au risque de 5% donc symétrie normale.
≥ 1,96 alors H0 est rejetée au risque de 5%.
Pour vérifier l’hypothèse de normalité, il faut à la fois l’aplatissement normal et la symétrie normale.
De ce fait la statistique (due à Jarque Béra) notée JB s’écrit :
JB =
n
n
β1 +
(β 2 − 3)2 Elle obéït à un χ 2 (2) (somme de deux lois normales au carré). Le test se
6
24
déroule de la façon suivante :
-
Hypothèse : H0 : la distribution obéit à une loi normale H1 : la distribution n’obéit pas à une
loi normale
-
Calcul de JB
-
Si JB < χ 2 (2) (égal à 5,99 au seuil α = 0,05 ) on est sous l’hypothèse H0 de normalité.
L3MS2_M5.doc
9/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
5. La robustesse du modèle
Un modèle est dit robuste lorsqu’il est valide dans des circonstances différentes.
Exemple : l’estimation de la fonction de consommation pendant la première moitié du XXè siècle estelle restée identique à celle de la deuxième moitié ?
La relation prix – récolte de vin est-elle restée identique après l’introduction de la viticulture dans le
marché commun en 1970 ?
Dans ces exemples, appelés exemples de robustesses structurelles, l’étude porte sur des époques de
temps consécutives, mais elle peut concerner des périodes qui se chevauchent. Cette robustesse
peut aussi être liée à des problèmes d’homogénéité spatiale. La robustesse concerne aussi le sens de
la causalité de la relation économique.
Dans ce cours, on dira qu’un modèle est robuste, si quels que soient les sous-ensembles constitués à
partir d’observations consécutives sur la période [1,n], les estimateurs du même modèle sur chacun
de ces sous-ensembles sont :
-
valides (test des paramètres, R², résidus…)
-
stables : les paramètres estimés ne sont pas significativement différents entre eux, et
différents de α̂ et β̂ .
Cette définition amène sur le plan statistique à comparer les estimations des paramètres entre eux et
les qualités de la régression entre elles. Trois tests de stabilité sont présentés
5.1 Tests de comparaison de deux coefficients de corrélation
Ils permettent de s’assurer que les relations sont bien de type linéaire et qu’elles ne sont pas
globalement différentes.
Supposons que, sur la période [1,n], on construise 2 sous périodes de cardinal n1 et n 2 . Soient r1 et
r2 , les coefficients de corrélation linéaire des deux sous périodes échantillons.
On montre qu’un coefficient de corrélation ne suit pas une distribution d’expression simple autour de
son espérance mathématique : la distribution est fortement asymétrique pour les valeurs éloignées de
zéro. Ainsi pour comparer deux coefficients de corrélation on peut utiliser au préalable la
transformation non linéaire de FISHER :
z = Argth ρ =
1
1+ ρ
Log
avec Argth : fonction Argument tangente hyperbolique et Log le logarithme
2
1− ρ
népérien :
E(z ) = Argth ρ avec


1
2
V (z ) = s (z ) = n − 3

E[r ] = ρ
z1 = Argth ρ1
z 2 = Argth ρ 2
Si on note alors : 
La différence d = z1 − z 2 a pour caractéristique :
E(d) = E(z1 ) − E(z 2 ) = 0
V (d) = V (z1 ) + V (Z 2 )
=
1
1
+
n1 − 3 n 2 − 3
La valeur estimée de d est d̂ . Elle est égale à d̂ = z1' − z '2
L3MS2_M5.doc
10/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
M4
 '
 1 + r1 
1

z1 = Argth r1 = Log
2

 1 − r1 
Avec 
 1 + r2 
1



z 2 = Argth r2 = 2 Log 1 − r 
2



On teste alors l’hypothèse H0 : d = 0
Sous l’hypothèse H0 on a : t c =
H1 : d ≠ 0
d̂
()
s d̂
()
≡ N(0,1) avec s d̂ =
1
1
+
n1 − 3 n 2 − 3
La règle de décision est alors la suivante :
si t c ≥ 1,96 ⇒ H0 rejetée au rique de 5%

si t c < 1,96 ⇒ H0 acceptée au rique de 5%
Si H0 acceptée, la différence entre les deux coefficients r1 et r2 n’est pas significativement différente
de 0.
5.2 Tests de comparaison de deux coefficients de régression
Soient β̂1 et β̂ 2 , les deux coefficients de régression estimés sur les deux sous-ensembles de
cardinal n1 et n 2 .Considérons l’hypothèse H0 : les deux coefficients ne sont pas significativement
différents. Si cette hypothèse est vraie alors d̂ = βˆ 1 − βˆ 2 n’est pas significativement différente de
zéro. En effet, le caractère non biaisé de β̂1 et β̂ 2 permet d’écrire que :
E[βˆ 1 ] = E[βˆ 2 ] = β D’où : E[βˆ 1 ] − E[βˆ 2 ] = E[βˆ 1 − βˆ 2 ] = 0
De plus comme β̂1 et β̂ 2 sont deux variables aléatoires indépendantes on a :
s 2 [d̂] = s 2 [βˆ 1 ] + s 2 [βˆ 2 ] D’où :
tc =
[ ] ≡ T1− α (n1 + n2 − 4)
d̂
s d̂
D’où le test : H0 : d = β1 − β 2 = 0
H1 : d ≠ 0
Et la règle de décision :
Si t c =
d̂
[ ] < T1− α (n1 + n2 − 4) on est sous l’hypothèse H0 et donc les deux coefficients ne sont
s d̂
pas significativement différents.
5.3 Tests de stabilité du modèle : test de Chow
Ce test est une présentation différente du test de comparaison de deux coefficients de régression.
Soit SCR 0 : la somme des carrés des résidus du modèle sur toute la période et SCR1 et SCR 2 la
somme des carrés des résidus sur chacune des deux sous périodes.
On teste H0 : β1 = β 2
L3MS2_M5.doc
H1 : β1 ≠ β 2
11/12
L3 Mathématique et Statistique 2 Vérification des hypothèses d’application de la régression
Sous H0 : Fc =
(n − 4 )SCR 0 − (SCR1 + SCR 2 ) ≡ F
1− p
SCR1 + SCR 2
M4
(2, n − 4)
Règle de décision :
Si Fc ≥ F1− p (2, n − 4 ) H0 rejetée au risque de 1
ère
espèce p
Si Fc < F1− p (2, n − 4 ) H0 acceptée au risque de 1
significativement différents.
ère
espèce p donc les deux coefficients sont
5.4 Une étude simple de la robustesse : les régressions roulantes
La régression roulante consiste à régresser le modèle sur un nombre suffisant ( n1 ) d’observations en
début de période puis de réitérer l’estimation en rajoutant une observation à n1 jusqu’en fin de
période. (en accroissant le nombre d’observations sur l’axe du temps). Pour chacune des régressions
on mémorise une ou plusieurs caractéristiques (t de Student, r 2 , DWc…) que l’on représente
graphiquement. La stabilité au cours du temps de ces caractéristiques est une indication de la
robustesse du modèle.
Remarque : il est possible d’utiliser les régressions roulantes de l’instant 1 vers l’instant n (régression
Forward) ou au contraire de n vers 1 (régression backward)
Bibliographie :
ième
Régis BOURBONNAIS (2009) : Econométrie - Dunod - 7
édition
ième
J JOHNSTON, J DINARDO (1999) : Méthodes économétriques – Economica - 4
L3MS2_M5.doc
édition
12/12