2 La Methode de Engle et Granger

Transcription

2 La Methode de Engle et Granger
CHAPITRE 5
Inférence et Tests dans les Modèles Cointégrés
Michel LUBRANO
Octobre 2007
Contents
1
Introduction
2
2
La Methode de Engle et Granger
2.1 Estimation en deux étapes . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Les problèmes de petit échantillon . . . . . . . . . . . . . . . . . . . . . .
2.3 Corrections de petit échantillon . . . . . . . . . . . . . . . . . . . . . . . .
3
3
6
6
3
Tests univariés de cointegration
8
3.1 Tests de cointégration basés sur les résidus . . . . . . . . . . . . . . . . . . 8
3.2 La contrainte de facteur commun . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Application à la demande de monnaie en Belgique . . . . . . . . . . . . . . 11
4
Estimation par Maximum de Vraisemblance
4.1 L’estimation des VAR sans contrainte . . . . . . . . . . .
4.2 Inférence dans un CVAR simplifié . . . . . . . . . . . . .
4.3 L’ajout de retards supplémentaires . . . . . . . . . . . . .
4.4 Le rôle du terme constant . . . . . . . . . . . . . . . . . .
4.5 Tests du rang de cointégration . . . . . . . . . . . . . . .
4.6 Distribution asymptotique des tests de cointégration . . . .
4.7 Test de l’absence de trends . . . . . . . . . . . . . . . . .
4.8 Test de restrictions linéaires sur le vecteur de cointégration
4.9 Test d’exogénéité . . . . . . . . . . . . . . . . . . . . . .
4.10 Non causalité de Granger . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
15
16
17
18
20
20
21
22
1 INTRODUCTION
2
5
Stratégie de modélisation
23
5.1 Quelques étapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 Application empirique sur les données belges . . . . . . . . . . . . . . . . 25
6
Inférence et tests dans les modèles structurels
27
7
Conclusion
27
8
Lectures additionnelles
27
9
Exercices
9.1 Tabulation d’un test de cointégration . . . . . . . . . . . . . . . . . . . . .
9.2 Regression statique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3 Tests de Johansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
29
1 Introduction
Le chapitre précédant a permis de mettre en lumière le type de modélisation adapté à la
présence de racines unitaires dans un vecteur aléatoire quand celui-ci possédait la propriété
de cointégration (stationnarité d’une combinaison linéaire des composantes non stationnaires du vecteur aléatoire). La cointégration est une propriété qui permet donc de réduire
le nombre de trend stochastiques dans un vecteur aléatoire. Par rapport au cas univarié,
la représentation autorégressive de la série devient nettement plus complexe, même si une
écriture matricielle laisse entrevoir une certaine similitude. L’inférence et les tests dans
les modèles autorégressifs avec cointégration deviennent eux aussi plus complexes. Deux
branches de la littérature peuvent être distinguées.
- L’une procède en deux étapes par moindres carrés ordinaires en analysant de manière
séparée les équations statiques de cointégration puis ensuite les équations dynamiques
en supposant connue la solution statique de long terme. Elle est exposée à l’origine
dans Engle and Granger (1987). Un test permet de déterminer si une équation statique est cointégrante ou non. Mais aucun test ne permet d’examiner des restrictions
sur le vecteur de cointégration. Cette méthode a connu des développements avec entre autres Phillips (1991) qui visaient à introduire des corrections de petit échantillon
et à se ramener à un cadre usuel χ2 pour des tests de restriction sur le vecteur de
cointégration. Ce sont des méthodes que l’on peut qualifier d’univariées dans la
mesure où elles ne sont clairement définies que le cas où il n’y a qu’un seul vecteur
de cointégration.
- L’autre considère le modèle CVAR dans son ensemble et estime de manière conjointe tous les paramètres par maximum de vraisemblance. Un test de rapport de
vraisemblance ayant une distribution non-standard, mais reliée à la distribution des
tests ADF, permet de déterminer le rang r de cointégration. Conditionnellement à
r les tests de restriction sur les vecteurs de cointégration et de poids ont une distribution χ2 . C’est l’approche dite de Johansen (1988) qui a été développé par la suite
2 LA METHODE DE ENGLE ET GRANGER
3
dans Johansen (1991), Johansen and Juselius (1990) et Johansen (1995). On peut la
qualifier de multivariée.
Cette distinction va conditionner la présentation que nous allons en faire. Il est à noter
que la première approche, si elle est plus facile à comprendre à première vue faisant appel
aux simples moindres carrés, comporte des aspects qui sont in fine plus complexes à cause
de la théorie asymptotique mise en jeu. La seconde approche, basée sur le maximum de
vraisemblance, est finalement plus simple, une fois franchi le premier pas. A partir du
moment où le rang de cointégration est déterminé, cette approche repose sur une théorie
asymptotique standard. C’est elle qui est majoritairement utilisée dans les logiciels comme
Jmulti, Stata ou PcFiml par exemple.
2 La Methode de Engle et Granger
Pour saisir les problèmes qui vont se poser, un petit exemple tiré de Engle and Granger
(1987) et repris dans Davidson and MacKinnon (1993) sera bien utile. Considérons le
modèle bivarié suivant:





β1 yt − xt = u1t , (1 − ρ1 L) u1t = ǫ1t
(1)
yt − β2 xt = u2t , (1 − ρ2 L) u2t = ǫ2t
où les ǫt sont normaux de moyenne nulle et de variance Ω. Tant que ρ1 et ρ2 seront inférieurs
à un en valeur absolue, les deux variables yt et xt seront I(0). Si par contre ils sont tous les
deux égaux à un, yt et xt seront I(1), mais pas cointégrés. On obtiendra la cointégration
pour par exemple ρ2 < 1 et ρ1 = 1. Alors le vecteur de cointégration sera [1, −β2 ]. Les
erreurs de la première équation sont I(1) car ∆u1t = ǫ1t , ce qui implique yt et xt sont I(1).
Par contre les erreurs de la seconde équation sont stationnaires.
2.1 Estimation en deux étapes
La méthode d’estimation proposée par Engle and Granger (1987) procède en deux étapes.
On estime tout d’abord le vecteur de cointégration par moindres carrés, puis remplaçant ce
vecteur par son estimation dans le modèle général, on estime dans une seconde étape les
coefficients dynamiques du modèle.
La première étape consiste donc à régresser par simples moindres carrés une des composantes de la variable multivariée sur les autres pour obtenir une estimation du vecteur de
cointégration. Supposons que le modèle multivarié s’écrive:
A(L)(∆Xt − ∆T Dt ) = αβ ′(Xt−1 − T Dt−1 ) + ǫt
(2)
et que le rang de cointégration soit égal à un. β est alors un vecteur colonne. On va choisir
d’en normaliser le premier élément et de partitionner Xt de manière conforme en:
β′
= [1, β̃]
Xt′ = [yt , Yt′ ]
2 LA METHODE DE ENGLE ET GRANGER
4
Alors pour estimer β̃, il suffit d’utiliser les moindres carrés dans la régression:
yt = β̃ ′ Yt + T Dt + ǫ̃t
(3)
où β̃ correspond aux éléments non normalisés de β. Engle and Granger (1987) [voir
aussi Stock (1987)] montrent que cette procédure est valide asymptotiquement malgré
deux problèmes qui semblent se poser. Premièrement comme on cherche une relation
de cointégration, c’est que yt et Yt sont déterminés de manière conjointe. Donc il y a
corrélation entre les erreurs ǫ̃t et les variables explicatives Yt . On peut constater cela de
manière aisée sur le petit exemple du début. La vraie relation de cointégration est:
yt = β2 xt + ρ2 (yt−1 − β2 xt−1 ) + ǫ2t
(4)
Si l’on estime simplement la régression:
yt = β̃xt + ǫ̃t
(5)
ǫ̃t = ρ2 (yt−1 − β2 xt−1 ) + ǫ2t
(6)
le terme d’erreur implicite ǫ̃t devient:
ce qui montre alors la corrélation entre xt et ǫ̃t . Deuxièmement les régresseurs sont tous
I(1), ce qui de facto nous ramène à la question des régressions factices. Pourtant ces deux
problèmes ne sont pas rédhibitoires comme nous allons le voir maintenant. Le fait que les
variables soient I(1) permet d’obtenir un théorème de consistance qui est initialement du à
Stock (1987):
Théorème 1 Supposons que le vecteur aléatoire Xt admette une représentation de Wold
multivariée ∆Xt = C(L) ǫt et qu’il soit cointégré de rang 1 et de vecteur de cointégration
β. Soit β̂ l’estimateur OLS du vecteur de cointégration correctement normalisée. Alors
sous des conditions très générales on a:
p
T 1−δ (β̂ − β) → 0
∀δ > 0
Ce théorème montre que les paramètres estimés convergent très vite vers leurs vraies
valeurs. Au lieu de la vitesse habituelle de T 1/2 , ils convergent à la vitesse T . Le problème
de la corrélation entre xt et ǫ̃t ne joue pas asymptotiquement car xt ∼ I(1) alors que
ǫ̃t ∼ I(0) à cause des propriétés de cointégration. Aussi dans l’expression du biais, les
termes en xt domineront les termes en ǫ̃t . Quand au problème de régression factice, il ne
jouera pas à nouveau à cause des propriétés de cointégration. Dans une régression factice, un des problèmes vient de ce que les résidus sont I(1). Ici ils sont I(0) par propriété
de cointégration. Enfin le R2 de la régression tendra asymptotiquement vers l’unité. En
conséquence l’arbitraire de la normalisation ne joue plus asymptotiquement car toutes les
régressions deviennent équivalentes.
2 LA METHODE DE ENGLE ET GRANGER
5
La deuxième étape de la méthode d’estimation consiste à reporter dans le modèle
ECM-VAR l’estimation du vecteur de cointégration et d’estimer par moindres carrés les
paramètres du modèle:
A(L)(∆Xt − ∆T Dt ) = α β̂ ′ (Xt−1 − T Dt−1 ) + ǫt
(7)
ou une des équations du modèle ECM structurel correspondant.
Cette seconde étape ne pose aucun problème particulier car tous les régresseurs sont
maintenant I(0). Le fait d’utiliser l’estimation de β au lieu de sa vraie valeur n’apporte
aucune perturbation comme le montre le théorème suivant donné par Engle and Granger
(1987):
Théorème 2 L’estimation en deux étapes d’une équation d’un système à correction d’erreurs,
obtenue en considérant β̂ comme vraie valeur conduit à la même distribution asymptotique
que l’estimation par maximum de vraisemblance obtenue en prenant la vraie valeur de β.
Les écart-types des moindres carrés sont des estimateurs consistants des vrais écart-types.
Ce résultat montre que dans la deuxième étape, on peut utiliser une théorie standard pour
effectuer des tests sur les valeurs des paramètres qui caractérisent la dynamique de court
terme. Intuitivement ce résultat se comprend dans la mesure où maintenant on n’a plus que
des variables qui sont I(0) dans la régression, y compris le régresseur de première étape
zt−1 qui est I(0) par propriété de cointégration.
Exemple 1: Reprenons le petit exemple du début et appliquons la méthode. On a
tout d’abord:


 β1 yt − xt = u1t
∆u1t = ǫ1t


yt − β2 xt = u2t (1 − ρ2 L) u2t = ǫ2t
En multipliant la première équation par (1−L) et la seconde par (1−ρ2 L), on obtient
après substitution et réarangement des termes:





β1 ∆yt − ∆xt = ǫ1t
∆yt − β2 ∆xt − (ρ2 − 1)(yt−1 − β2 xt−1 ) = ǫ2t
On remplace maintenant dans le système le terme de long terme yt − β2 xt par son
estimation de première étape que l’on note ẑt et on résout cette forme structurelle en
forme réduite par substitution:
∆xt =
∆yt
ρ2 − 1
ẑt−1 +
1 − β2
ρ2 − 1
β1 ǫ2t − ǫ1t
β1 − β1 β2
ǫ2t − β2 ǫ1t
=
ẑt−1 +
1 − β1 β2
1 − β1 β2
La deuxième étape permet d’estimer ρ2 et β1 à partir du moment où l’on a déjà estimé
β2 . On remarque ensuite que si ρ2 tend vers un, on n’a plus de cointégration, car alors
le terme en ẑt−1 disparaı̂t.
2 LA METHODE DE ENGLE ET GRANGER
6
Il existe un autre résultat dans la littérature qui est du à Sims, Stock, and Watson (1990)
et qui complète dans une certaine mesure le théorème 2. Dans ce papier les auteurs abordent
l’estimation d’un modèle VAR ajusté sur des niveaux de variables I(1) en présence de
cointégration. La méthode d’estimation est en une seule étape et utilise les moindres carrés.
Ils montrent que la théorie asymptotique standard peut encore s’appliquer quand on teste
la valeur d’un paramètre attaché à une variable qui par reparamétrisation se trouve I(0), y
compris quand la caractère I(0) est obtenu par l’utilisation de la propriété de cointégration.
A l’intérieur d’une même estimation, on peut donc séparer les résultats d’inférence sur les
variables I(1) qui sont non-standard de ceux sur les régresseurs I(0) qui eux sont standards.
Ce résultat vient de la différence dans les vitesses de convergence. Mais il faudra utiliser
ces résultats avec prudence, car ils ne sont valables que sur des coefficients individuels. En
effet les différences de vitesse de convergence font que la matrice de variance-covariance
de l’estimateur OLS des coefficients de régression est singulière.
2.2 Les problèmes de petit échantillon
La méthode en deux étapes a le mérite de la simplicité. Mais de sérieux problèmes se
posent en petit échantillon. Tout d’abord le théorème 1, s’il montre que l’estimateur OLS
du vecteur cointégrant est consistant, il montre aussi qu’il a un biais de petit échantillon
d’ordre 1/T . Une des sources de biais est apparente dans la régression de cointégration
du petit exemple du dessus. Elle vient du facteur omis ρ2 (yt−1 − β2 xt−1 ) qui entraı̂ne un
problème de biais de simultanéité et un problème d’autocorrélation des erreurs. Ce facteur
est I(0) et donc devient négligeable asymptotiquement car les régresseurs sont I(1). Mais
en petit échantillon il peut être important si ρ2 est proche de un. En effet au plus ρ2 se
rapproche de l’unité au plus on s’éloigne de la situation de cointégration. Les expériences
de Monte Carlo de Stock (1987) ainsi que celles de Banerjee, Dolado, Hendry, and Smith
(1986) montrent que le biais de petit échantillon des OLS peut être très important dans une
régression statique.
Dans son papier Stock (1987) montre aussi que la distribution asymptotique de cet
estimateur suit encore une fonctionnelle de processus de Wiener. Mais elle dépend très
fort des vraies valeurs des paramètres de nuisance, si bien qu’aucune table ne peut être
construite pour un cas général. A titre d’exemple les valeurs rapportées par Stock pour un
cas particulier au seuil de 5% varient entre -59.96 et -2.63 pour une taille d’échantillon de
200. On ne pourra donc effectuer de test sur les éléments du vecteur de cointégration quand
celui-ci est estimé par moindres carrés dans une régression statique.
2.3 Corrections de petit échantillon
A REVOIR ET RACOURCIR
Il existe plusieurs manières d’obtenir un estimateur de θ qui ait de meilleures propriétés
de petit échantillon. Il faut d’une part pouvoir corriger l’autocorrélation des erreurs. Ceci
est toujours possible en employant une méthode non-paramétrique du type de celle employée par Phillips et Perron (1988) pour les tests de racine unitaire. Mais il faut d’autre
part corriger le biais d’endogénéité, et celui-ci est plus difficile à éliminer . Ce biais n’existe
2 LA METHODE DE ENGLE ET GRANGER
7
plus si les innovations de yt ne causent pas au sens de Granger les innovations de Yt dans la
régression statique de cointégration yt = β̃ ′ Yt +T Dt +ǫ̃t . On peut alors retrouver la théorie
asymptotique standard à base de χ2 comme le soulignent Campbell et Perron (1991). Mais
ces conditions sont très restrictives, surtout pour la non-causalité.
Plusieurs auteurs ont proposé des corrections de petit échantillon qui tiennent compte
des deux problèmes évoqués: autocorrélation des erreurs et biais de simultanéité. Ce
dernier vient en général de ce que les innovations de yt causent les innovations de Yt .
On sait d’après les tests de Sims (1972) sur la non-causalité que si yt cause la variable Yt ,
alors yt peut s’exprimer comme une combinaison linéaire des valeurs passées, présentes
et futures de Yt . L’idée c’est que si yt cause Yt , les valeurs futures de Yt seront utiles
pour prédire yt . L’idée qui est contenue dans l’approche de plusieurs auteurs dont Saikonnen (1991) consiste à corriger le biais de simultanéité par des régresseurs supplémentaires
constitués de retards et d’avances de ∆Yt pour conduire à la régression cointégrante:
′
yt = β̃ Yt + T Dt +
p
X
∆Yt−j ηj + ǫ̃t
(8)
j=−p
On peut ensuite corriger l’autocorrélation des résidus en employant par exemple des GLS.
C’est ce que proposent Stock and Watson (1993) qui montrent qu’alors on peut utiliser
les tests de Wald standards qui sont asymptotiquement distribués selon des χ2 . Phillips
and Loretan (1991) utilisent par contre une correction paramétrique pour l’autocorrélation
qui consiste à ajouter à la régression précédente des retards de la variable de cointégration
(yt − β ′ Yt ):
′
yt = β̃ Yt + T Dt +
p
X
j=−p
∆Yt−j ηj +
q
X
i=1
(yt−i − β ′Yt−i )ζi + ǫ̃t
(9)
Là encore on retrouve des résultats de théorie asymptotique basés sur la distribution du χ2 .
Hamilton (1994) dans son chapitre 19 traite de façon complète un exemple bivarié où
il montre comment la correction de petit échantillon permet de récupérer in fine des tests
standards portant sur des restrictions sur le vecteur de cointégration. Mais la méthode est
un peu lourde car elle requiert une régression auxiliaire.
La méthode alternative à la procédure en deux étapes de Engle and Granger (1987) la
plus simple consiste à considérer dans un cadre univarié, c’est à dire quand il n’y a qu’un
seul vecteur de cointégration un modèle à correction d’erreurs du type:
∆yt = µ + αyt−1 + δxt−1 + γ∆xt + ut
Davidson and MacKinnon (1993) montrent que par une série de reparamétrisations, tous
les coefficients de cette régression peuvent être attachés à un régresseur qui soit I(0). On
peut donc utiliser les résultats de Sims, Stock, and Watson (1990) cités plus haut pour estimer cette équation directement par moindres carrés, même si certains régresseurs sont
I(1). En l’absence d’autocorrélation des erreurs, le biais de simultanéité est corrigé. Banerjee, Dolado, Hendry, and Smith (1986) montrent que cette méthode donne en général de
meilleurs résultats que la méthode en deux étapes de Engle and Granger (1987).
3 TESTS UNIVARIÉS DE COINTEGRATION
8
3 Tests univariés de cointegration
Tout les les méthodes d’estimation supposent que l’on connaisse soit le rang r de cointégration
pour les méthodes multivariées par maximum de vraisemblance (que l’on n’a pas encore
exposées), soit la validité de l’hypothèse de cointégration quand on estime l’équation de
long terme dite de cointégration. Il faut donc disposer de procédures de tests. Dans le
cadre bivarié les tests de cointégration sont de simples extensions du tests de Dikey et
Fuller sur les résidus de la régression de cointégration. Dans le cadre multivarié, il faudra
faire des tests sur le rang de la matrice Π dans l’équation:
∆Xt = β0 + Π(Xt−1 − µ − δt) + A∗ (L)∆Xt−1 + ǫt
(10)
3.1 Tests de cointégration basés sur les résidus
L’idée qui est à la base de cette catégorie de tests est très simple. Si deux variables yt et
xt sont I(1) et cointégrées, alors il existe une combinaison linéaire zt de ces variables qui
est I(0). Pour la trouver, il suffit de régresser yt sur xt . On aura alors une estimation de zt
au moyen des résidus de cette régression. Il suffit de tester ensuite la présence d’une racine
unitaire dans ces résidus pour tester la cointégration. Ces types de tests sont principalement
dus à Engle and Granger (1987).
On retombe donc sur un problème connu. Si la valeur du vecteur cointégrant β était
connue, on n’aurait qu’à utiliser les tests usuels de racine unitaire et leur tables associées
qui ont été données dans le chapitre 3. Il est des cas où ce vecteur est connu, notamment
quand la théorie économique impose des élasticités de long terme égales à l’unité. On
peut par exemple tester la cointégration entre la consommation Ct et le revenu disponible
RDt en imposant que l’élasticité de long terme soit unitaire. Si la relation est en logarithme, il suffira alors de faire un test de racine unitaire avec terme constant sur la variable
log(Ct /RDt ). Maintenant le vecteur cointégrant β n’est en général pas connu et on doit
l’estimer. On a vu plusieurs procédures pour cela dans le paragraphe précédent. On doit
donc tenir compte de cette estimation dans le choix des valeurs critiques car la distribution asymptotique du test dépend du nombre de régresseurs contenus dans la régression
cointégrante.
Reprenons le cas d’une relation de cointégration entre yt et xt où xt est possiblement
un vecteur. On devra tout d’abord conduire la régression cointégrante qui pourra contenir
en général un terme constant et éventuellement un trend. On aura donc:
yt = µ + δt + β̃ ′ xt + ut
(11)
Appelons ût les résidus de cette régression. Le test de cointégration va se faire au moyen
d’un test du type de celui de Dickey et Fuller souvent appelé test de Engle et Granger (EG)
dans ce contexte:
∆ût = (ρ − 1)ût−1 + ǫt
(12)
Mais comme l’autocorrélation est souvent un problème, on emploiera un test AEG (Augmented Engle Granger) qui revient à rajouter à la régression de test des retards de ∆ût .
3 TESTS UNIVARIÉS DE COINTEGRATION
9
Table 1: Valeurs critiques asymptotiques
pour le test AEG de cointégration
5%
10%
n=2
sans trend -3.34
-3.04
avec trend -3.78
-3.50
n=3
sans trend -3.74
-3.45
avec trend -4.12
-3.84
n=4
sans trend -4.10
-3.81
avec trend -4.43
-4.15
n=5
sans trend -4.41
-4.13
avec trend -4.72
-4.44
n=6
sans trend -4.71
-4.42
avec trend -4.98
-4.70
Ces valeurs ont été calculées à partir de
MacKinnon (1991).
Plusieurs tables pour les valeurs critiques des tests de cointégration ont été publiées à
commencer dans l’article de Engle and Granger (1987). On peut citer aussi Engle and Yoo
(1987) qui complète les tables précédentes. Mais on préférera se fier à celle de MacKinnon
(1991) qui semble plus précise. Les valeurs critiques données par la Table 1 dépendent de la
taille n de la série multivariée dont on veut tester la cointégration. Rappelons que à cause
de la normalisation, si la régression cointégrante comprend un seul régresseur, il faudra
utiliser les valeurs pour n = 2, n = 1 correspondant à un test de racine unitaire classique.
Si l’on a introduit un terme constant dans la régression cointégrante ou un trend, les valeurs
critiques seront également différentes. Notons que constante et trends sont introduits dans
la régression cointégrante et non dans la régression de test. Plusieurs remarques sont à faire
sur cette procédure de test.
Remarques:
- Concernant la table, on retrouve la même caractéristique que dans le cas des racines
unitaires. A savoir que l’ajout de termes déterministes modifie la distribution asymptotique du test et fait baisser sa puissance. Il en va également avec le nombre n de
variables.
- Ensuite concernant l’obtention des résidus estimés; on a vu que la procédure OLS
d’estimation de la relation de long terme était valide asymptotiquement, mais posait
de sérieux problèmes en petit échantillon. Les biais de petit échantillon mentionnés
précédemment vont bien sûr se répercuter sur les résultats des tests. De même que
3 TESTS UNIVARIÉS DE COINTEGRATION
10
les changements de normalisation. Aussi, bien qu’il existe des tables pour des tailles
variables d’échantillon, on a préféré ne pas les donner à cause des incertitudes que
nous venons de mentionner.
Il existe d’autres tests de cointégration basés sur les résidus dont on n’a pas parlé. Il
en est un donné dans Engle and Granger (1987) qui est basé sur la statistique de Durbin
et Watson et appelé par Engle et Granger CRDW. C’est la contrepartie en cointégration
du test de Bhargava (1986) pour les racines unitaires. Engle et Granger n’en donnent les
tables que pour le cas n = 2 et 100 observations. A 5% on a une valeur critique de 0.386,
mais qui peut varier très fort en fonction de la taille de l’échantillon. Campbell and Perron
(1991) recommandent de ne pas employer ce test. On peut toutefois se rappeler la règle
heuristique donnée par Granger and Newbold (1974) concernant les régressions factices.
Au vu de la théorie moderne, une régression factice est une régression entre des variables
I(1) qui ne sont pas cointégrées. Les résidus sont donc encore I(1). Cette règle donne un
signal d’alarme chaque fois que dans une régression, la statistique DW est inférieure au R2 .
Elle est à retenir comme une première approche.
3.2 La contrainte de facteur commun
Il est aisé au vu des tables et des valeurs critiques très élevées que l’hypothèse nulle de
non-cointégration (ou racine unitaire dans les résidus) sera rarement rejetée. C’est ce que
remarquent Kremers, Ericsson, and Dolado (1992) sur la base d’expériences empiriques.
Leur expérience a consisté à tester la cointégration entre le logarithme du ratio consommation/revenu disponible et le taux d’inflation, ce sur treize pays entre 1952 et 1985. Sur
les treize cas, ils ne trouvent de la cointégration que dans quatre cas et encore à 10%. Par
contre dans une formulation ECM, le coefficient attaché au résidu retardé (en supposant
que celui-ci est stationnaire) est significatif dans 10 cas sur 13. Dans leur papier Kremers,
Ericsson, and Dolado (1992) montrent que ce rejet trop fréquent des tests AEG est du à une
restriction de facteur commun contenue de manière implicite dans ces tests. Nous allons
montrer ceci maintenant sur un petit exemple. Considérons:
∆yt = γ∆xt + α (yt−1 − βxt−1 ) + ǫt
(13)
∆xt = ut
où ut et ǫt sont deux bruits blancs indépendants et normaux de variance respective σǫ2 et σu2 .
Que se passe-t-il dans le test AEG basé sur les résidus de la régression statique? Retirons
β∆xt de chaque côté de la régression initiale:
∆(yt − β xt ) = (γ − β) ∆xt + α (yt−1 − β xt−1 ) + ǫt
(14)
et remplaçons yt −β xt par zt . On va ainsi retrouver une certaine expression de la régression
de test de Engle et Granger:
∆zt = α zt−1 + (ǫt + (γ − β) ∆xt ).
(15)
3 TESTS UNIVARIÉS DE COINTEGRATION
11
Le vrai modèle impose la présence de ∆xt alors que la régression de Engle et Granger ignore ce terme qu’elle confond avec les résidus. L’erreur commise n’est pas très importante
tant que γ est proche de β, c’est à dire que l’élasticité de court terme est à peu près la même
que l’élasticité de long terme. Mais imposer à tort la restriction que γ = β c’est à dire la
présence d’un facteur commun nuit gravement à la puissance du test ADF.
3.3 Application à la demande de monnaie en Belgique
On va maintenant traiter un petit exemple empirique qui concerne la demande de monnaie
M1 en Belgique. Les données sont annuelles et couvrent la période 1953 − 1982. La
théorie économique fournit une relation d’équilibre qui relie le logarithme de la quantité
réelle de monnaie LMP au logarithme du revenu réel LY P et au taux d’intérêt R. On a
pris les définitions suivantes pour les variables. M1 est la masse monétaire M1, Y P est
le revenu disponible réel des particuliers. R est le taux sur les certificats de trésorerie à
trois mois. Afin de conserver une relation en logarithme, on va prendre la transformation
LR = log(1 + rt /100). On doit d’abord commencer par vérifier que les séries sont toutes
les trois bien I(1). On a les régressions suivantes:
∆LMPt = 0.095 LMPt−1 − 0.005 − 0.004 t
[1.00]
[−0.10]
[−1.77]
DW = 1.98 R2 = 0.22
∆LRt = −0.57 Rt−1 + 0.0001 + 0.002 t
[−3.12]
[0.019]
[3.10]
DW = 1.89 R2 = 0.28
∆LYt = 0.039 LYt−1 − 0.17 − 0.0023 t
[0.34]
[−0.27]
[−0.51]
DW = 1.53 R2 = 0.082
ce qui fait que l’on ne rejette pas l’hypothèse de racine unitaire pour ces trois variables. La
valeur critique du test à 5% est de -3.41 avec un trend.
La méthode en deux étapes de Engle et Granger commence par estimer une régression
statique sur les niveaux de ces trois variables. Cette première régression ne donne pas des
résultats convaincants et illustre bien les problèmes de petit échantillon:
LMP = 0.78 LY − 2.49 LR − 3.87
[17.77]
[−5.84]
[−15.13]
DW = 0.87 R2 = 0.96
La valeur du coefficient de long terme de LY est biaisée vers le bas, alors qu’on s’attendrait
à une valeur proche de l’unité. Un test de racine unitaire sur les résidus de cette équation
fait office de test de cointégration. On obtient une valeur de -2.52 qui est très inférieur à
la valeur critique à 5% qui est -3.74. Donc on ne peut rejeter l’hypothèse nulle de noncointégration avec ce test. On remarque également que la règle heuristique de Granger et
Newbold s’applique ici car le R2 est plus grand que le DW.
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
12
Il est toutefois intéressant de poursuivre la méthode et d’estimer l’équation de court
terme dans laquelle on a ajouté le résidu estimé retardé de un de l’équation statique:
∆LMPt = −0.023 + 1.28 ∆LYt − 1.25 ∆LRt − 0.33 RESt−1
[−2.84]
[6.03]
[−4.60]
[−2.80]
DW = 2.13 R2 = 0.64 χ2 corr = 0.45
On constate que les élasticités de court terme dans cette équation sont très différentes
des élasticités de long terme trouvées avec l’équation statique. Le test AEG qui impose
l’égalité de ces élasticités subit donc une perte de puissance dans ce cas.
4 Estimation par Maximum de Vraisemblance
La procédure de maximum de vraisemblance initialement proposée par Johansen (1988)
permet d’obtenir une estimation à la fois simple et efficace des vecteurs de cointégration
ainsi d’ailleurs que des autres paramètres du modèle. Il n’est donc plus besoin de considérer
une modification de l’estimateur des moindres carrés pour avoir un estimateur efficace. Le
problème de maximisation est relativement simple. Il s’agit d’estimer un VAR de la forme:
∆Xt = m + Π Xt−1 + A∗ (L) ∆Xt + ǫt
ǫt ∼ N(0, Ω)
(16)
en imposant une perte de rang sur Π au moyen de la contrainte Π = α β ′. C’est un
problème classique en statistique multivariée qui se résout par un calcul de valeurs propres et de vecteurs propres. La matrice de cointégration β sera égale aux r vecteurs propres correspondant aux r plus grandes valeurs propres d’une certaine matrice. Le rang
de cointégration sera déterminé par un test sur la nullité des n − r plus petites valeurs
propres qui correspond à un test de rapport de vraisemblance. Ce test a une distribution
non-standard qui est une généralisation multivariée du carré de la distribution du test de
Dickey et Fuller. Par contre, une fois déterminé r , il est possible de construire des tests
de restriction sur α et β qui ont une distribution χ2 . On présentera tout d’abord le cas sans
terme constant où m = 0. Puis on introduira le rôle du terme constant m avec diverses
hypothèses de modélisation en détaillant les conséquences sur la distribution asymptotique
du test du rang de cointégration. Mais il est utile de commencer par le cas simple de
l’estimation d’un VAR contraint.
4.1 L’estimation des VAR sans contrainte
On part du modèle simple
∆Xt = m + Π Xt−1 + A1 ∆Xt−1 + · · · + Ap−1 ∆Xt−p+1 + ǫt
(17)
sans faire porter de contraintes sur la matrice Π. Si toutes les composantes de X sont I(0),
alors la matrice Π sera de rang plein. Si toutes les composantes de X sont I(1) et que
l’équation caractéristique associée au modèle initial tout en niveau a toutes ses racines sur
le cercle unité, alors la matrice Π sera nulle. Enfin, si seulement certaines des racines de
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
13
l’équation caractéristique sont sur le cercle unité, on aura cointégration. Dans tous les cas
on peut estimer ce modèle sans contrainte dans sa forme reparamétrisée. On va construire
les matrices suivantes d’observations
Y = [∆Xt ]
X = [1, Xt−1 , ∆Xt−1 , · · · , ∆Xt−p+1 ]
et pour les paramètres
B = [m, Π, A1 , · · · , Ap−1 ]
On va donc considérer la notation matricielle
Y = XB + E
Ce modèle de régression multivarié s’estime par moindres carrés et l’on a
B̂ = (X ′ X)−1 X ′ Y
Sous les hypothèse habituelles de régularité, cet estimateur est asymptotiquement normal
avec:
√
L
T vec(B̂ − B) → N(0, ΣA ).
Ce résultat est valide dans les trois cas répertoriés comme l’a montré entre autres Sims,
Stock, and Watson (1990). Par contre, dès que X comporte des variables I(1), la matrice
de variance covariance ΣA = (X ′ X)−1 ⊗ Ω sera singulière, ce qui rend les problèmes de
test un peu plus délicats.
Dès que l’on veut tenir compte du fait que Π puisse être singulière, et en fait estimer les
vecteurs de cointégration, il faut passer à un estimateur sous contrainte et mettre en oeuvre
les techniques du maximum de vraisemblance.
4.2 Inférence dans un CVAR simplifié
On va partir du modèle très simple:
∆Xt = Π Xt−1 + ǫt
Π = α β′
ǫt ∼ N(0, Ω)
(18)
Ce modèle est l’équivalent multivarié du plus simple des tests de Dickey et Fuller, c’est à
dire sans composante déterministe et sans retards de la variable en différence. Ce modèle
est irréaliste d’un point de vue empirique, mais permet d’introduire les calculs de manière
simple. Le log de la fonction de vraisemblance de ce modèle s’écrit:
T
T
1X
log L ∝ − log det Ω −
[∆Xt − α β ′ Xt−1 ]′ Ω−1 [∆Xt − α β ′Xt−1 ]
2
2 t=2
(19)
On va poser:
Yt = ∆Xt
et
Zt = Xt−1
(20)
On a donc :
Yt = α β ′ Zt + ǫt
(21)
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
14
Calculons les statistiques suivantes:
Syy
T
1X
=
Yt Yt′
T t=1
Szz
T
1X
=
Zt Zt′
T t=1
Szy
T
1X
=
Zt Yt′
T t=1
(22)
Comme il s’agit en fait d’un modèle multivarié sans restrictions inter-équations, on peut
concentrer la vraisemblance à β donné pour trouver l’estimateur des moindres carrés de α
et Ω:


 α̂(β) = Syz β [β ′ Szz β]−1
(23)

 Ω̂(β) = S − S β[β ′ S β]−1 β ′ S
yy
yz
zz
zy
Le logarithme de la vraisemblance concentrée est alors:
log Lc (β) ∝ −
T
log det Ω̂(β)
2
(24)
Trouver le maximum de cette fonction de vraisemblance est équivalent à chercher le minimum en β de l’expression det Ω̂(β) ce qui est en fait exactement équivalent à un problème
de LIML dans un modèle à équations simultanées qui se résout par un calcul de valeurs
propres et de vecteurs propres associés. D’où le théorème suivant adapté de Johansen
(1988):
Théorème 3 L’estimateur du maximum de vraisemblance des r vecteurs cointégrants contenus dans la matrice β est donné par les r vecteurs propres associés aux r plus grandes
valeurs propres λi dans le problème:
−1
det(λSzz − Szy Syy
Syz ) = 0
La valeur de la fonction de vraisemblance en son maximum est donnée par:
L−2/T
max = det(Syy )
r
Y
(1 − λ̂i )
i=1
en supposant que les valeurs propres λi sont rangées par ordre décroissant. Les estimateurs
de α et Ω sont trouvés en remplaçant β par son estimation dans α̂(β) et Ω̂(β).
Preuve: Considérons une matrice carrée symétrique A partitionnée en quatre. Les propriétés usuelles des déterminants des matrices partitionnées permettent d’écrire:
|A| = |A11 |.|A22.1 | = |A22 |.|A11.2 |
avec Aii.j = Aii − Aij A−1
jj Aji . Alors |A11.2 | = |A22.1 |.|A11 |/|A22 |. En construisant la
matrice A comme:
Syy
Syz β
A=
β ′ Szy β ′ Szz β
on a tout d’abord que
Ω̂(β) = A11.2
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
15
On peut alors décomposer ce déterminant de manière à transformer la fonction à maximiser
en:
−1
|β ′Szz β − β ′ Szy Syy
Syz β|
T
T
− log |Syy | − log
2
2
|β ′ Szz β|
en utilisant le fait que |A11.2 | = |A11 |.|A22.1 |/|A22 |. On peut négliger le terme en |Syy | qui
ne dépend pas du paramètre β. Jusqu’à présent le paramètre β n’était pas normalisé. On
peut choisir la normalisation commode β ′ Szz β = Ir . On se retrouve dans un problème
classique soit de LIML sur un groupe d’équations, ou d’analyse canonique étudiée par
example par Tso (1981). Le théorème suit des résultats de ce dernier papier.
2
Remarque:
La normalisation β ′ Szz β = Ir imposée dans l’estimation est aussi une condition
d’identification qui introduit r 2 restrictions indépendantes. Le vecteur β est donc bien
identifié selon les critères exposés dans le chapitre 4. Mais cette façon d’identifier le
modèle est arbitraire et n’a aucun sens économique. Elle est cependant commode car
elle n’exclue aucun coefficient. On peut donc renormaliser la matrice β comme on
l’entend par la suite.
4.3 L’ajout de retards supplémentaires
Considérons maintenant le cas plus général où l’on autorise la présence de retards de ∆Xt .
Le modèle se note en conformité avec les notations du chapitre précédent:
∆Xt = α β ′ Xt−1 + A∗ (L)∆Xt + ǫt
(25)
Si l’on appelle maintenant ∆X̃ la matrice qui contient tous les retards de ∆Xt , il est facile
de généraliser les calculs qui précèdent en modifiant simplement la valeur des matrices Syy
et Szz sur des arguments de régression partielle. Posons:
MX = It − ∆X̃(∆X̃ ′ ∆X̃)−1 ∆X̃ ′
(26)
En écrivant le modèle initial sous forme matricielle (en considérant toutes les observations),
on peut le transformer au moyen de la matrice de projection MX en :
MX Y = MX Z β α′ + MX ǫ
(27)
où Y , Z et ǫ désignent maintenant les T observations de l’échantillon. On appliquera les
mêmes calculs, mais en remplaçant Y et Z dans les formules précédentes par MX Y et
MX Z.
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
16
4.4 Le rôle du terme constant
On s’attend bien, par similitude avec le cas univarié des racines unitaires, à ce que la distribution asymptotique de deux statistiques de test du rang de cointégration dépende de la
présence d’un terme constant dans les relations de cointégration. On a d’autre part vu au
cours du chapitre 4 que le terme constant jouait un rôle très particulier dans les relations de
cointégration. Notons de la façon suivante un modèle CVAR où l’on a maintenant introduit
un terme constant m:
∆Xt = m − α β ′ Xt−1 + A∗ (L) ∆Xt + ǫt
(28)
On a vu dans le chapitre 4 que m était lié au trend dans le processus non- stationnaire qui
génère Xt . Il est toujours possible de décomposer le terme constant m de dimension n × 1
en:
m = α β0 + α⊥ γ
(29)
′
où α⊥ est une matrice n×(n−r) orthogonale aux colonnes de α et vérifiant donc α⊥
α = 0,
β0 un vecteur r × 1 et γ un vecteur (n − r) × 1. Reportons maintenant cette décomposition
dans la forme autorégressive du modèle:
∆Xt = α⊥ γ − α (β ′ Xt−1 − β0 ) + A∗ (L)∆Xt + ǫt
(30)
Si l’on impose la restriction:
m = αβ0
(31)
on annule les n − r dérives des composantes de Xt qui ne sont pas cointégrées car on a
imposé α⊥ γ = 0. Le paramètre β0 représente simplement l’ordonnée à l’origine dans la
relation de cointégration.
Il est maintenant facile de voir comment on va introduire la présence du terme constant
m pour l’estimation. Si l’on veut estimer le modèle en autorisant la présence de n − r
trends linéaires, il suffit d’ajouter 1 dans la matrice ∆X̃t pour avoir:
∆X̃t′ = [∆Xt−1 , . . . , ∆Xt−s , 1]
(32)
Si par contre on veut imposer la contrainte que ces n − r trends linéaires soient nuls, il
suffit de déplacer le 1 de la matrice ∆X̃t vers la matrice Zt que l’on note maintenant Zt∗ :
Zt∗ = [Xt−1 , 1]′
(33)
∗
∗
−1 ∗
det(λ Szz
− Szy
Syy
Syz ) = 0
(34)
Alors dans le problème:
on aura n + 1 valeurs propres λ∗i et la plus petite sera égale à zéro. Les exposants en
∗ indiquent que les matrices de moments d’échantillonnage et les valeurs propres sont
calculées avec Z = Z ∗ et ∆X̃t sans terme constant.
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
17
4.5 Tests du rang de cointégration
L’estimation des vecteurs cointégrants β et les tests du rang r de cointégration sont intimement liés. Comme la valeur de la vraisemblance en son maximum est essentiellement
donnée par le produit des r plus grandes valeurs propres, un test du rapport de vraisemblance pour déterminer r sera facile à calculer. On peut imaginer deux types de test.
- Dans le premier type, on va tester:





H0
: rang Π = r
H1T : rang Π = n
(35)
Il s’agit de tester la cointégration de rang r contre la stationnarité des séries. Ce test
est appelé test de la trace pour une raison qui sera apparente plus tard.
- Dans le deuxième type de test on s’intéresse à:





H0
: rang Π = r
H1M : rang Π = r + 1
(36)
On teste une hypothèse de cointégration de rang r contre une hypothèse de cointégration
de rang r + 1. Il s’agira ici du test de la valeur propre maximale.
Dans une procédure standard de test par rapport du maximum de vraisemblance, on compare le maximum de la fonction de vraisemblance sous H0 et le maximum de cette même
fonction de vraisemblance sous H1 au moyen de la statistique:
−2 log
L(H0 )
L(H1 )
(37)
qui est distribuée selon un loi du χ2 avec un nombre de degrés de libertés égal à la taille de
la contrainte imposée. L’hypothèse nulle ne sera pas rejetée si la valeur de la statistique de
test est inférieure à la valeur critique de la table.
Les deux hypothèses nulles et alternatives que l’on a décrites plus haut peuvent se tester
au moyen d’une statistique de rapport de vraisemblance. Mais sa distribution ne sera bien
sûr pas une χ2 . On peut énoncer le théorème suivant tiré de Johansen (1991):
Théorème 4 La statistique de test du rapport de vraisemblance de l’hypothèse nulle rang
Π = r contre l’hypothèse alternative rang Π = n est donnée par:
LR(r|n) = −T
n
X
i=r+1
log(1 − λ̂i )
On l’appellera statistique trace. La statistique de test de rapport de vraisemblance de la
même hypothèse nulle contre l’hypothèse alternative rang Π = r + 1 est donnée par:
LR(r|r + 1) = −T log(1 − λ̂r+1 )
La distribution de ces deux statistiques de test est non-standard.
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
18
Preuve: Le logarithme de la fonction de vraisemblance est donné par:
−
r
T
TX
log |Syy | −
log(1 − λ̂i )
2
2 i=1
d’où les deux résultats obtenus par simple calcul. La distribution de ces tests est nonstandard car il reste n − r variables qui sont I(1) dans le système quand le rang de
cointégration est r.
2
Remarque:
Les valeurs propres sont rangées par ordre décroissant: λ1 > λ2 > · · · > λr >
· · · > λn . Les deux statistiques de test s’intéressent pour l’une à la somme des n − r
plus petites valeurs propres (les n − r dernières) et pour l’autre à la valeur propre de
rang immédiatement inférieur à r. L’hypothèse nulle que le rang de π = r peut donc
se tester au moyen de l’hypothèse nulle que les n − r plus petites valeurs propres
restantes sont nulles ou que la plus grande des n − r valeurs propres restantes est
nulle.
4.6 Distribution asymptotique des tests de cointégration
Les tests de rang de cointégration sont des généralisations multivariées des tests de DickeyFuller. La distribution asymptotique de ces tests a la même structure que le carré de la distribution asymptotique des tests en τ de Dickey et Fuller. Il est donc commode d’adopter
une présentation de ces distributions similaire à celle adoptée pour les tests de racine unitaire. On donnera ces résultats sans preuve, renvoyant le lecteur à l’article de Johansen
(1991).
Considérons la fonction matricielle G(.) définie de la manière suivante:
G(W, U) =
Z
0
1
dW (r) U(r)′
Z
1
0
U(r) U(r)′ dr
−1 Z
0
1
U(r) dW (r)′.
(38)
Dans cette expression W (r) est un processus de Wiener vectoriel de dimension n−r. U(r)
est aussi un processus de Wiener vectoriel dont la dimension et la définition vont dépendre
de la forme du terme constant. On a le théorème suivant:
Théorème 5 Sous l’hypothèse nulle de cointégration de rang r les statistiques de test de
la trace et de la valeur propre maximum vont converger en distribution pour t → ∞ vers:
LR(r|n)
⇒ tr G(W, U)
LR(r|r + 1) ⇒ λmax G(W, U)
où W (r) est un processus de Wiener standardisé de dimension n − r et où la définition de
U(r) dépend du terme constant. On a les trois cas suivants:
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
19
pour m = 0 (pas de terme constant), U(r) = W (r)
pour m = α β0 (pas de trend), U(r) = (W (r)′, 1)′
pour m = α⊥ γ + α β0 (trend), U(r) = W (r) −
colonne est remplacée par r − 12 .
R1
0
W (r) dr, sauf que la dernière
Le cas m = 0 est peu intéressant en pratique. On trouvera une table dans Johansen
(1988) pour le test de la trace. Les deux autres cas sont ceux qui sont utilisés le plus
souvent en pratique. Le cas m = α β0 correspond à la table A3 dans Johansen and Juselius
(1990) et le cas m libre à la table A1 de ce même papier. On a reproduit les valeurs critiques
dans la Table 2. Johansen (1995) donne des tables pour les cinq cas, mais uniquement pour
le test de la trace. Ces tables sont un peu difficiles à lire, dans la mesure où pour chaque
Table 2: Valeurs critiques des tests du rang de cointégration de Johansen
n-r
1
2
3
4
5
m = αβ0
Max λi
Trace
90% 95% 90% 95%
7.56 9.09
7.56 9.09
13.78 15.75 17.96 20.17
19.80 21.89 32.09 35.07
25.61 28.17 49.93 53.35
31.59 34.40 71.47 75.33
m libre
Max λi
Trace
90% 95% 90% 95%
2.82 3.96
2.81 3.96
12.10 14.04 13.34 15.20
18.70 20.78 26.79 29.51
24.71 27.18 43.96 47.18
30.77 33.18 65.06 68.91
valeur de n on doit se livrer à une petite gymnastique. La plupart des logiciels d’estimation
opèrent ce calcul de présentation pour l’utilisateur.
Exemple 2: Supposons que l’on considère un vecteur aléatoire de dimension 4
et que l’on veuille tester le rang de cointégration dans un modèle CVAR à terme
constant libre. On a calculé les statistiques du test de la trace et on a trouvé λmax =
30.28 pour r = 0 et λmax = 12.04 pour r = 1. On commence par reconstruire
ci-dessous les valeurs critiques de la table pour ce cas particulier.
H0
r=0
r=1
r=2
r=3
H1
r=1
r=2
r=3
r=4
Max λi
90% 95%
24.71 27.18
18.70 20.78
12.10 14.04
2.82 3.96
On va commencer par tester l’hypothèse nulle que la dimension de l’espace de cointégration
est égale à zéro. On rejettera cette hypothèse contre l’alternative que r = 1 si la
valeur du test λmax = 30.28 calculée pour r = 0 est supérieure à la valeur lue dans
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
20
la table, c’est à dire 27.18 à 95%. On passera ensuite au test de r = 1 contre r = 2.
On ne rejettera pas cette hypothèse si la valeur du test λmax = 12.04 calculée pour
r = 1 est inférieure à la valeur lue dans la table, c’est à dire à 95% 20.78. Dans cet
exemple le rang de cointégration sera donc égal à 1.
4.7 Test de l’absence de trends
Le très grand intérêt de la procédure de maximum de vraisemblance sur les CVAR, c’est
qu’une fois le rang de cointégration déterminé, tous les tests de restriction linéaire sur
les paramètres ont une distribution asymptotique χ2 standard. Le premier test à traiter
est celui de la restriction sur le terme constant. Soit donc les deux hypothèses suivantes,
conditionnelles à une valeur testée pour r:
H0 : m = αβ0
(39)
H1 : m = αβ0 + α⊥ γ
Johansen (1991) donne le théorème suivant:
Théorème 6 L’absence de n − r trends linéaires dans le processus qui génère le vecteur
Xt cointégré de rang r se teste au moyen de la statistique:
n
X
1 − λ∗i
−T
log
1 − λi
i=r+1
qui est distribuée selon une loi du χ2 à n − r degrés de liberté.
Dans cette expression, λ∗i correspond aux valeurs propres du modèle où l’on a imposé
la contrainte sur le terme constant et λi aux valeurs propres associées au modèle noncontraint. Ce test s’effectue après que l’on ait déterminé la valeur de r, en supposant que
le terme constant n’est pas contraint.
4.8 Test de restrictions linéaires sur le vecteur de cointégration
On suppose dans un premier temps que les vacteurs de cointégration sont identifiés par
application de la règle automatique lors de la procédure d’estimation. On va ensuite tester
des restrictions de suridentification au moyen de restrictions linéaires sur la matrice β des
vecteurs de cointégration. On n’envisagera ici qu’un test de restrictions très simple de la
forme:
β =Hφ
(40)
où H est une matrice de restrictions de taille n × s avec r ≤ s ≤ n. Dans le cas où s = n
et H est une matrice identité, il n’y a pas de restriction. Dans le cas contraire, la matrice
de paramètres β qui est n × r est réduite à une matrice de paramètres φ qui est s × r.
Ce type d’écriture impose la même restriction sur les r colonnes de la matrice β. Dans la
mesure où β n’est pas identifié mais ne constitue qu’une base pour l’espace des vecteurs de
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
21
cointégration, les restrictions linéaires sur β portent sur les caractéristiques de cet espace. Il
peut donc sembler naturel d’imposer des restrictions de ce type. Quand r = 1, on retombe
sur un type usuel de restrictions. Le test se construit sur la base du principe de ratio de
vraisemblance comme précédemment en introduisant la contrainte dans le problème de
valeurs propres qui permettra de calculer la fonction de vraisemblance sous l’hypothèse
nulle. Johansen (1991) donne le théorème suivant:
Théorème 7 Sous l’hypothèse Π = α φ′ H ′ (ou β = H φ), l’estimateur du maximum
de vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes
valeurs propres λiH dans le problème:
−1
det(λ H ′Szz H − H ′ Szy Syy
Syz H) = 0
La valeur de la fonction de vraisemblance en son maximum est donnée par:
L−2/T
max = det(Syy )
r
Y
(1 − λ̂iH )
i=1
Le test de l’hypothèse nulle Π = α φ′ H contre l’hypothèse alternative Π = α β ′ est donné
par la statistique:
r
X
1 − λ̂iH
−T
log
1 − λ̂i
i=1
qui est distribuée selon une χ2 à r × (n − s) degrés de liberté.
Ce type de restriction n’est interprétable économiquement que si r = 1. Dans le
cas général, on préfère imposer des restrictions qui ne sont pas les mêmes sur toutes les
équations et donc poser
β = [H1 φ1 , ·, Hr φr ]
Dans ce cas l’estimation est un peu plus complexe à mettre en oeuvre car on doit opérer
une itération. Mais le test du rapport de vraisemblance conserve la même forme et la même
distribution. On peut également mettre en oeuvre un test de Wald. Voir Lütkepohl and
Krätzig (2004), pages 98-103, pour plus de détails.
4.9 Test d’exogénéité
Le dernier test qu’il est possible de facilement concevoir porte sur des restrictions linéaires
sur la matrice des poids α. On va formaliser les restrictions sur α au moyen d’une matrice
H
α=Hψ
Ceci permet de tester la présence dans une équation du CVAR de l’ensemble des termes
correcteurs d’erreurs. C’est donc un test d’exogénéité. Par exemple dans un modèle où
n = 3 et r = 2, on va vouloir tester que

α11
α=
 α21
0



α12
1 0 
 α11
α22 
 = 0 1
α21
0 0
0
α12
α22
=Hψ
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
22
Dans ce modèle, la dernière composante de X sera exogène pour l’inférence sur β. Johansen (1991) donne le théorème suivant:
Théorème 8 Sous l’hypothèse Π = Hψ β ′ (ou α = H ψ), l’estimateur du maximum de
vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes
valeurs propres λiH dans le problème:
−1
det(λ H ′Szz H − H ′ Szy Syy
Syz H) = 0
La valeur de la fonction de vraisemblance en son maximum est donnée par:
L−2/T
max
= det(Syy )
r
Y
(1 − λ̂iH )
i=1
Le test de l’hypothèse nulle Π = Hψ β ′ contre l’hypothèse alternative Π = α β ′ est donné
par la statistique:
r
X
1 − λ̂iH
−T
log
1 − λ̂i
i=1
qui est distribuée selon une χ2 à r × (n − s) degrés de liberté.
On peut toutefois tester l’exogénéité d’une variable de manière plus simple en estimant
le modèle CVAR équation par équation et en testant au moyen d’un Fisher la nullité des
coefficients α dans les équations appropriées.
4.10 Non causalité de Granger
Dans un modèle VAR bivarié, la non causalité au sens de Granger (1969) s’exprime comme
une restriction sur les paramètres des variables retardées. Plus précisément, considérons un
petit modèle bivarié en Xt′ = [yt , xt ]:
yt
xt
=
p X
α11,i
i=1
α21,i
α12,i
α22,i
yt−i
xt−i
+ ǫt
On dira que x ne cause pas y au sens de Granger, si x n’aide pas à la prévision de y, ce qui
est le cas si
α12,i = 0,
i = 1, · · · , p.
Si Xt est stationnaire, le test de la non causalité s’effectue sans problème au moyen d’un
test standard de Fisher ou du χ2 . Par contre si les composantes de Xt sont I(1) et possiblement cointégrées, alors la matrice de variance covariance de l’estimateur des moindres
carrés des paramètres α sera singulière et il sera difficile d’appliquer un test standard. Ce
problème a été étudié longuement dans la littérature. Lütkepohl and Krätzig (2004), page
148, en donnent un bon résumé.
Pour gagner en efficacité et en compréhension, il est toujours bon dans un problème
statistique d’expliciter les contraintes. Mosconi and Giannini (1992) critique les approches
5 STRATÉGIE DE MODÉLISATION
23
précédentes basées sur l’estimation d’un VAR non-contraint, les trouvant inefficasses. Ils
proposent de partir d’un modèle CVAR. Ecrivons donc le modèle VAR précédent en explicitant les contraintes de cointégration:
∆yt
∆xt
= αβ
′
yt−1
xt−1
+
p−1
X
i=1
γ11,i
γ21,i
γ12,i
γ22,i
∆yt−i
∆xt−i
+ ǫt
Dans un modèle bivarié, il ne peut y avoir au plus qu’un seul vecteur de cointégration.
Décomposons le produit αβ ′ :
αβ ′ =
α1
( β1
α2
β2 ) =
α1 β1
α2 β1
α1 β2
α2 β2
On voit donc que maintenant la non-causalité implique deux types de restrictions au lieu
d’un:
α1 β2 = 0
γ12,i = 0, i = 1, · · · , p − 1.
On suppose que le rang de cointégration est déjà déterminé au moyen du test non-standard
de la trace ou de la valeur propre maximum. Les composantes de ∆X sont I(0), ce qui fait
que la restriction sur les γ12,i peut se tester de la même manière que précédemment. Le
test de la restriction α1 β2 = 0 est facile à implémenter dans un cadre bivarié. Il faut tester
que soit α1 = 0, soit β2 = 0. Dans un cadre bivarié, on doit identifier β en normalisant
une de ses composantes. On ne peut donc avoir de restriction supplémentaire sur β sans
perdre la cointégration. On se ramène donc à un seul test sur α. Ce qui fait que cette
dernière restriction est équivalente à un test d’exogénéité que l’on peut facilement effectuer
en utilisant le test du rapport de vraisemblance qui a une distribution asymptotique χ2 .
Dans le cas où n > 2 et donc possiblement que r > 1, les choses deviennent plus
complexes. Le test nécessite une procédure spéciale d’implémentation mise au point par
Mosconi and Giannini (1992) et basée sur des itérations.
5 Stratégie de modélisation
Il s’agit maintenant de faire une synthèse de tout ce qui a été présenté et de donner des
indications sur la méthode à suivre pour mener une étude empirique. On va diviser la
méthode en un certain nombre d’étapes distinctes qui vont nous permettre de mieux lire
l’application empirique de la section suivante.
5.1 Quelques étapes
Il faut tout d’abord choisir et sélectionner un certain nombre de variables qui sont nécessaire
à l’étude du phémonème auquel on s’intéresse. L’époque des grands modèles de Cowles
Commission est révolue. On péfère maintenant étudier des petits modèles dont la dynamique est soigneusement spécifiée comme une fonction de consommation, une fonction
de demande de monnaie, des équations d’import-export, etc... On peut aussi envisager des
applications en finance concernant la structure des taux d’intéret, les mouvements des taux
de change, etc...
5 STRATÉGIE DE MODÉLISATION
24
Il est d’usage de vérifier que le degré d’intégration des variables sélectionnées au moyen
de tests de racine unitaires univariés. Mais il ne faut pas oublier aussi qu’un test de
cointégration multivarié peut être vu comme un test de stationnarité joint si par exemple on
ne parvient pas à rejeter l’hypthèse que r = 0. Ce test signifie qu’il n’y a aucune tendance
stochastique restant dans le système.
On va ensuite s’intérroger sur le degré du VAR à considérer, c’est à dire décider de la
valeur de p. Si l’on considère d’emblée le modèle sous sa forme à correction d’erreur avec
la matrice Π non contrainte, les régresseurs exprimées en différence seront toujours stationnaires. On pourra alors sélectionner le nombre de retards dans le VAR non contraint au
moyen d’un critère d’information usuel. Par exemple le critère d’information de Schwarz
qui, dans un cadre multivarié, s’écrira
SC(p) = log det Ω(p) +
log T 2
pn .
T
On choisira le nombre de retard p qui minimisera le critère d’information SC(p) en partant
d’un modèle avec un nombre de retards pmax La valeur de pmax dépend de la fréquence
d’observation. Par exemple, on choisira pmax = 2 avec des données annuelles, pmax = 5
avec des données trimestrielles. Les autres critères d’information sont
AIC(p) = log det Ω(p) +
et
2 2
pn ,
T
2 log log T 2
pn .
T
Il faut se méfier du fait qu’en général si la procédure indique qu’il faut retenir un grand
nombre de retards, c’est qu’il doit vraisemblablement manquer une variable dans le système
de départ. Les modèles VAR représentent une modélisation riche tenant compte de toutes
les interactions entre les variables où un petit nombre de retards devrait suffire.
Il faut maintenant choisir le rang de cointégration. On posera un terme constant non
contraint, c’est à dire un m libre et l’on va choisir rr par un test de la trace ou du lambdamax .
On va ensuite pourvoir effectuer un test de spécification portant sur le terme constant. On
va tester la présence d’un drift dans les n − r tendances stochastiques restantes.
Le ou les vecteurs de cointégration sont les principaux paramètres que l’on cherche à
estimer, car une normalisation adéquate permet de les interpréter. Il est évident que le cas
r = 1 est le plus facile à interpréter. Il s’agit alors de poser les restrictions d’identification
alternatives à la normalisation numérique β ′ Szz β = Ir . Ces restrictions d’identification se
poseront en fonction de l’interprétation que l’on veut donner aux vecteurs de cointégration.
On peut ensuite tester les diverses restrictions de suridentification que suggère la théorie
économique, comme l’égalité à 1 d’une élasticité de long terme. On peut ensuite choisir
de tester l’exogénéité d’une variable pour l’estimation de β. Ce test prépare une estimation
d’une équation structurelle.
L’estimation de la matrice de poids α et des matrices de coefficients dynamiques de
court terme Γi donne des valeurs qui sont peu interprétables sur le plan économique car il
s’agit de coefficients d’une forme réduite. Arrivé à ce point, on peut décider de s’arrêter
dans l’estimation et de faire une analyse impulsionnelle en orthogonalisant les résidus.
HQ(p) = log det Ω(p) +
5 STRATÉGIE DE MODÉLISATION
25
On peut aussi décider de continuer la modélisation au moyen d’une ou plusieurs équations
structurelles comprenant les variations contemporaines des autres variables. Cette modélisation
sera d’autant plus justifiée que ces autres variables auront été testées comme exogènes. On
procèdera alors par moindre carrés en incomporant le retard des vecteurs de cointégration
estimés lors de l’étape par maximum de vraisemblance. Si les tests d’exogénéité ont été
négatifs, on peut estimer un modèle VAR structurel en supposant connus lors de la première
étape les vecteurs de cointégration.
5.2 Application empirique sur les données belges
On a laissé l’estimation de la demande de monnaie pour la Belgique un peu en panne dans la
dernière section, en montrant que les méthodes univariées dans ce cas présent ne donnaient
pas de résultat convaincant. On va maintenant reprendre le vecteur de trois variables et
appliquer la méthodologie que nous venons de présenter. On a choisi de prendre p = 2,
c’est à dire que le polynôme A(L) est de degré 2. Ce qui fait qu’il reste 28 observations pour
l’estimation. Commençons par estimer le modèle sans contrainte sur le terme constant. On
testera plus tard la validité d’une contrainte. Les trois valeurs propres du problème sont:
λ1 = 0.408 λ2 = 0.228 λ3 = 0.175
Calculons maintenant les deux statistiques de test de la valeur propre maximale et de la
trace. On reconstruit alors un tableau qui donne la valeur de ces statistiques avec les valeurs
critiques correspondantes:
H0
H1
λmax
95%
90%
H0
H1
trace
95%
90%
r = 0 r = 1 14.90 20.97 18.60 r = 0 r ≥ 1 27.32 29.68 26.79
r=1 r=2
7.25
14.07 12.07 r ≤ 1 r ≥ 2 12.63 15.41 13.33
r=2 r=3
5.38
3.76
2.69
r≤2 r=3
5.38
3.76
2.69
Si l’on se fie au seuil de 5%, aucune des statistiques n’indiquent la présence de cointégration.
Si l’on passe au seuil de 10%, alors le test de la trace permet d’accepter r = 1. Le vecteur
de cointégration est:
LMP = 0.94 LY − 3.83 LR
Dans les équations en différence, le mécanisme correcteur d’erreur apparaı̂t avec les poids
suivants:
∆LMP −0.16
∆LY
−0.10
∆LR
0.19
On peut tester l’hypothèse d’élasticité unitaire entre la monnaie et le revenu. Le vecteur β
contraint a pour valeur:
LMP = LY − 4.51 LR
5 STRATÉGIE DE MODÉLISATION
26
Cette restriction est acceptée. La statistique de test, qui est distribuée selon une χ2 (1), a
une valeur de 0.23, ce qui correspond à une P value calculée de 0.63. On rappelle que les
valeurs critiques de la χ2 (1) sont de 3.84 à 5% et 2.71 à 10%.
Il reste à tester la possibilité d’une contrainte sur le terme constant. Réestimons le
modèle en faisant glisser le terme constant à l’intérieur de la matrice Z. Les valeurs propres
correspondantes sont dans ce cas:
λ1 = 0.506 λ2 = 0.376 λ3 = 0.225 λ4 = 0.000
On peut alors calculer la statistique de test au moyen de la formule du test donnée au
théorème 6:
1 − 0.376
1 − 0.225
−28(log
+ log
) = 7.71
1 − 0.228
1 − 0.175
Avec r = 1, la statistique de test a pour valeur 7.71 , ce qui est supérieur à la valeur critique
d’une χ2 (2) à 5% (5.99). En conséquence de quoi, la restriction de l’absence de trends
dans le processus de génération des données est rejetée.
L’approche par CVAR ne permet pas d’obtenir une équation structurelle. Une pratique courante consiste à sauver les valeurs de la solution de long terme telle que fournie
précédemment et l’utiliser ensuite dans une modélisation en deux étapes. Pour une équation
de demande de monnaie on obtient:
∆LMPt = − 1.21 + 1.16 ∆LYt − 1.34 ∆LRt − 0.25 RESt−1
[−2.41]
[5.23]
[−4.34]
R2 = 0.61 σ̂ = 0.025 ss = 0.0145
[−2.37]
χ2 (1)corr = 0.054 χ2 (2)norm = 0.62
ce qui fournit des résultats très proches pour le court terme de ceux que fourniraient une
approche ECM à la Hendry.
Le dernier type de test que l’on peut envisager consiste à estimer par moindres carrés les
autres équations de court terme du CVAR en se servant toujours de l’estimation du vecteur
cointégrant déjà obtenue par maximum de vraisemblance. Si les variables restantes, c’est
à dire ∆LR et ∆LY sont exogènes pour l’inférence, alors, le vecteur de cointégration ne
devrait pas apparaı̂tre significativement dans ces deux équations. On a:
∆LY = 0.38 ∆LY1 + 0.066 ∆LMP1 − 0.90 ∆LR1 + 0.099 RES1 + 0.50
[1.71]
[0.48]
[−3.16]
R2 = 0.50 σ̂ = 0.0179 ss = 0.00707
[1.19]
[1.24]
χ2 (1) corr = 1.50 χ2 (2) norm = 0.81
∆LR = 0.41 ∆LR1 − 0.33 ∆LY1 + 0.30 ∆LMP1 − 0.188 RES1 − 0.90
[1.62]
[−1.66]
R2 = 0.36 σ̂ = 0.0161 ss = 0.00572
[2.45]
[−2.51]
[−2.48]
χ2 (1) corr = 4.48 χ2 (2) norm = 0.71
Au vu de ces résultats, on constate donc qu’il y a exogénéité du revenu mais pas du taux
d’intérêt pour l’inférence sur les paramètres de la fonction de demande de monnaie en
Belgique. Il faudrait donc estimer par variables instrumentales l’équation de court terme.
6 INFÉRENCE ET TESTS DANS LES MODÈLES STRUCTURELS
27
6 Inférence et tests dans les modèles structurels
SVAR, tests de specification.
7 Conclusion
Que faut-il retenir des méthodologie de modélisation des variables I(1) que nous avons
présenté. Les méthodes univariées ne semblent pas donner de résultats convaincants quand
on dispose d’un faible nombre d’observations. La méthodologie multivariée de Johansen
semble plus convaincante, car elle produit des résultats qui ne sont pas biaisés en petit
échantillon. Par rapport à la méthodologie de “Hendry”, elle fournit un cadre naturel
pour tester l’exogénéité de certaines variables. Mais dès qu’il y a plus d’un vecteur de
cointégration, la méthode devient plus problématique. Il devient difficile d’interpréter la
signification des vecteurs de cointégration. Enfin dès que l’on veut analyser un groupe
important de variables, on bute sur le vieux problème qui oppose l’analyse d’une équation
séparée à celle du système complet: une erreur de spécification sur une équation se répercute
sur les résultats que l’on peut obtenir sur les autres. L’analyse en information complète est
peu robuste par rapport aux erreurs de spécification.
Il manque un certain nombre de points que l’on n’a pas traité et qu’il serait utile
d’envisager.
- tous les tests de mauvaise spécification. Il s’agit d’examiner la nature des résidus du
modèle et voir s’il reste de l’autocorrélation par exemple.
- Les impulse response function
- Les changements structurels de la même façon que l’on a examiné les tests de racine
unitaire avec rupture de tendance.
- Les modèles structurels qui sont la bonne façon d’utiliser les réponses impulsionnelles.
8 Lectures additionnelles
La littérature est abondante sur le sujet. On signalera tout d’abord les deux ouvrages compagnons de Johansen (1995) pour le cours et de Hansen and Johansen (1998) pour les
exercices. Mais ils ne concernent que l’approche par maximum de vraisemblance. Les
chapitres 3 et 4 de Lütkepohl and Krätzig (2004) couvrent plus de matière à un niveau
moins avancé. Il détaillent toutes les tests de mauvaise spécification et les tests de noncausalité. Le chapitre 7 de Banerjee, Dolado, Galbraith, and Hendry (1993) fournit une
bonne analyse des tests de cointégration basés sur une équation statique. Voir également le
chapitre 19 de Hamilton (1994).
9 EXERCICES
28
9 Exercices
9.1 Tabulation d’un test de cointégration
Considérez la régression de long terme:
yt = β xt + ut
On va supposer que ses résidus sont auto-corrélés à l’ordre un avec ut = ρ ut−1 + ǫt .
1) Combinez ces deux équations pour trouver une régression ayant une non-linéarité en
β ρ.
2) Approximez le terme non-linéaire βρ autour de deux estimateurs β̂ et ρ̂ à l’aide d’un
développement de Taylor réduit au premier ordre.
3) Imposez la contrainte ρ̂ = 1. Que devient l’équation après y avoir identifié les résidus
ût−1 . Indiquez une méthode pour les estimer.
4) Dites quelle est l’hypothèse nulle de non-cointégration dans cette régression de test.
5) La distribution de la statistique de Student est non-standard. Par quelle expérience
de Monte Carlo la tabuleriez vous?
• Idées de solutions Il faut trouver
yt = ρyt−1 + βxt − ρβxt−1 + ǫt
L’approximation de Taylor est
ρβ = ρ̂β̂ + (ρ − ρ̂)β̂ + (β − β̂)ρ̂
Posons ρ̂ = 1 et remplaçons dans l’équation initiale. Après rearrangement des termes, on a
∆yt = β∆xt + (ρ − 1)(yt−1 − β̂xt−1 ) + ǫt
où l’on reconnaı̂t l’expression des résidus de la régression statique. L’hypothèse nulle
de non-cointégration est ρ = 1. On va tester la nullité du coefficient de régression de
ut−1 . Pour une expérience de Monte Carlo, on va générer une séries d’échantillons
sous l’hypothèse nulle ρ = 1, c’est à dire ∆yt = β∆xt + ǫt . On en tirera les résidus
estimés ût = yt − β̂xt . On estimera la régression de test
∆yt = β∆xt + (ρ − 1)ût−1 + ǫt
et on tabulera la distribution de la statistique de Student pour le régresseur ût−1 .
9 EXERCICES
29
9.2 Regression statique
Soit la régression statique de long terme suivante où yt et xt sont deux variables I(1):
yt = cste + βxt + ut
1) Écrivez la régression auxiliaire pour tester la cointégration entre yt et xt .
2) Dans un exemple empirique, la statistique du test de Engle et Granger vaut -3.00. On
a la table suivante où n est le nombre total de variables I(1) (donc sans compter le
terme constant)
n
5%
1
2
3
4
-2.86 -3.34 -3.74 -4.10
Que concluez vous? Si maintenant xt était un vecteur à deux composantes I(1) et que
la valeur de la statistique de test était -4.00, quelle serait votre nouvelle conclusion?
3) A quel cas correspond la valeur n = 1?
• Idées de solutions La régression auxiliaire porte sur les résidus estimés
ˆ t = ρût−1 +
∆u
p
X
γ̂j ∆ut−j + ǫt
j=1
Dans le premier cas n = 2 et la valeur critique est inférieure à la valeur de la table. On
ne peut rejeter l’hypothèse de non-cointégration. Dans le deuxième cas, n = 3 et la valeur
critique est supérieure à la valeur de la table. On a donc cointégration. Le cas n = 1
correspond au test de racine unitaire simple.
9.3 Tests de Johansen
Commentez le listing informatique suivant.
Johansen Maximum Likelihood Procedure
(Trended case, with trend in DGP)
Cointegration LR Test Based on
Maximal Eigenvalue of the Stochastic Matrix
*****************************************************************
124 observations from 1961Q1 to 1991Q4. Maximum lag in VAR = 2.
List of variables included in the cointegrating vector:
D4LW
D4LPC
LUR
List of eigenvalues in descending order:
.31224
.049788
.014062
*****************************************************************
REFERENCES
30
Null Alternative Statistic 95% Crit. Value
90% Crit. Value
r = 0
r = 1
46.4144
20.9670
18.5980
r<= 1
r = 2
6.3327
14.0690
12.0710
r<= 2
r = 3
1.7561
3.7620
2.6870
*****************************************************************
1) Quel est le test de cointégration qui y est présenté. Quel autre test existe dans ce
contexte?
2) Combien y a t il de vecteurs de cointégration?
• Idées de solutions Le test présenté est celui de la valeur propre maximale. L’autre
test qui existe est celui de la trace. Le test rejette l’hypothèse nulle qu’il y ait
zéro vecteurs de cointégration, mais ne rejette pas l’hypothèse nulle d’un vecteur
de cointégration.
References
BANERJEE , A., J. D OLADO , J. W. G ALBRAITH , AND D. F. H ENDRY (1993): CoIntegration, Error-Correction, and the Econometric Analysis of Non-Stationary Data,
Advanced Texts in Econometrics. Oxford University Press, Oxford.
BANERJEE , A., J. D OLADO , D. H ENDRY, AND G. S MITH (1986): “Exploring Equilibrium
Relationships in Econometrics through Static Models: Some Monte Carlo Evidence,”
Oxford Bulletin of Economics and Statistics, 48, 253–277.
B HARGAVA , A. (1986): “On the Theory of Testing for Unit Roots in Observed Time Series,” Review of Economic Studies, 53, 369–384.
C AMPBELL , J., AND P. P ERRON (1991): “Pitfalls and Opportunities: What Macroeconomists Should Know about Unit Roots,” in NBER macroeconomics annual 1991, ed.
by O. J. Blanchard, and S. Fischer, pp. 141–201. MIT Press, Cambridge and London.
DAVIDSON , R., AND J. G. M AC K INNON (1993): Estimation and Inference in Econometrics. Oxford University Press, Oxford.
E NGLE , R. F., AND C. W. G RANGER (1987): “Cointegration and Error Correction: Representation, Estimation and Testing,” Econometrica, 55, 251–276.
E NGLE , R. F., AND S. YOO (1987): “Forecasting and Testing in Cointegrated Systems,”
Journal of Econometrics, 35, 143–159.
G RANGER , C. W. (1969): “Investigating Causal Relations by Econometric Models and
Cross Spectral Methods,” Econometrica, 37, 424–438.
G RANGER , C. W., AND P. N EWBOLD (1974): “Spurious Regression in Econometrics,”
Journal of Econometrics, 26, 1045–1066.
REFERENCES
31
H AMILTON , J. D. (1994): Time Series Analysis. Princeton University Press, Princeton.
H ANSEN , P., AND S. J OHANSEN (1998): Workbook on Cointegration, Advanced Texts in
Econometrics. Oxford University Press, Oxford.
J OHANSEN , S. (1988): “Statistical Analysis of Cointegration Vectors,” Journal of Economic Dynamics and Control, 12, 231–254.
(1991): “Estimation and Hypothesis Testing of Cointegration Vectors in Gaussian
Vector Autoregressive Models,” Econometrica, 59, 1551–1580.
J OHANSEN , S. (1995): Likelihood -based Inference in Cointegrated Vector Autoregressive
Models. Oxford University Press, Oxford.
J OHANSEN , S., AND K. J USELIUS (1990): “Maximum Likelihood Estimation and Inference on Cointegration with Applications to the Demand for Money,” Oxford Bulletin of
Economic and Statistics, 52, 169–210.
K REMERS , J., N. E RICSSON , AND J. D OLADO (1992): “The Power of Cointegration
Tests,” Oxford Bulletin of Economics and Statistics, 54, 325–348.
L ÜTKEPOHL , H., AND M. K R ÄTZIG (eds.) (2004): Applied Time Series Econometrics,
Themes in Modern Econometrics. Cambridge University Press, Cambridge.
M AC K INNON , J. (1991): “Critical Values for Cointegration Tests,” in Long-Run Economic
Relationships, ed. by R. F. Engle, and C. W. Granger, pp. 266–276. Oxford University
Press, Oxford.
M OSCONI , R., AND C. G IANNINI (1992): “Non-Causality in Cointegrated Systems: Representation, Estimation and Testing,” Oxford Bulletin of Economics and Statistics, 54,
399–417.
P HILLIPS , P., AND M. L ORETAN (1991): “Estimating Long Run Economic Equilibria,”
Review of Economic Studies, 58, 407–436.
P HILLIPS , P. C. (1991): “To criticize the critics: an objective Bayesian analysis of stochastic trends,” Journal of Applied Econometrics.
S AIKONNEN , P. (1991): “Asymptotically Efficient Estimation of Cointegration Regressions,” Econometric Theory, 7(1), 1–21.
S IMS , C. (1972): “Money, income and causality,” American Economic Review, 62(4),
540–552.
S IMS , C. A., J. H. S TOCK , AND M. W. WATSON (1990): “Inference in Linear Time Series
with Some Unit Roots,” Econometrica, 58, 113–144.
S TOCK , J. (1987): “Asymptotic Properties of Least Squares Estimators of Cointegrating
Vectors,” Econometrica, 55, 1035–1056.
REFERENCES
32
S TOCK , J., AND M. WATSON (1993): “A Simple Estimator of Cointegrating Vectors in
Higher Order Integrated Systems,” Econometrica, 61(4), 783–820.
T SO , M. (1981): “Reduced-Rank Regression and Canonical Analysis,” Journal of the
Royal Statistical Society, B43, 183–189.

Documents pareils