2 La Methode de Engle et Granger

Transcription

CHAPITRE 5
Inférence et Tests dans les Modèles Cointégrés
Michel LUBRANO
Octobre 2007
Contents
1
Introduction
2
2
La Methode de Engle et Granger
2.1 Estimation en deux étapes . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Les problèmes de petit échantillon . . . . . . . . . . . . . . . . . . . . . .
2.3 Corrections de petit échantillon . . . . . . . . . . . . . . . . . . . . . . . .
3
3
6
6
3
Tests univariés de cointegration
8
3.1 Tests de cointégration basés sur les résidus . . . . . . . . . . . . . . . . . . 8
3.2 La contrainte de facteur commun . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Application à la demande de monnaie en Belgique . . . . . . . . . . . . . . 11
4
Estimation par Maximum de Vraisemblance
4.1 L’estimation des VAR sans contrainte . . . . . . . . . . .
4.2 Inférence dans un CVAR simplifié . . . . . . . . . . . . .
4.3 L’ajout de retards supplémentaires . . . . . . . . . . . . .
4.4 Le rôle du terme constant . . . . . . . . . . . . . . . . . .
4.5 Tests du rang de cointégration . . . . . . . . . . . . . . .
4.6 Distribution asymptotique des tests de cointégration . . . .
4.7 Test de l’absence de trends . . . . . . . . . . . . . . . . .
4.8 Test de restrictions linéaires sur le vecteur de cointégration
4.9 Test d’exogénéité . . . . . . . . . . . . . . . . . . . . . .
4.10 Non causalité de Granger . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
15
16
17
18
20
20
21
22
1 INTRODUCTION
2
5
Stratégie de modélisation
23
5.1 Quelques étapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 Application empirique sur les données belges . . . . . . . . . . . . . . . . 25
6
Inférence et tests dans les modèles structurels
27
7
Conclusion
27
8
Lectures additionnelles
27
9
Exercices
9.1 Tabulation d’un test de cointégration . . . . . . . . . . . . . . . . . . . . .
9.2 Regression statique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.3 Tests de Johansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
29
1 Introduction
Le chapitre précédant a permis de mettre en lumière le type de modélisation adapté à la
présence de racines unitaires dans un vecteur aléatoire quand celui-ci possédait la propriété
de cointégration (stationnarité d’une combinaison linéaire des composantes non stationnaires du vecteur aléatoire). La cointégration est une propriété qui permet donc de réduire
le nombre de trend stochastiques dans un vecteur aléatoire. Par rapport au cas univarié,
la représentation autorégressive de la série devient nettement plus complexe, même si une
écriture matricielle laisse entrevoir une certaine similitude. L’inférence et les tests dans
les modèles autorégressifs avec cointégration deviennent eux aussi plus complexes. Deux
branches de la littérature peuvent être distinguées.
- L’une procède en deux étapes par moindres carrés ordinaires en analysant de manière
séparée les équations statiques de cointégration puis ensuite les équations dynamiques
en supposant connue la solution statique de long terme. Elle est exposée à l’origine
dans Engle and Granger (1987). Un test permet de déterminer si une équation statique est cointégrante ou non. Mais aucun test ne permet d’examiner des restrictions
sur le vecteur de cointégration. Cette méthode a connu des développements avec entre autres Phillips (1991) qui visaient à introduire des corrections de petit échantillon
et à se ramener à un cadre usuel χ2 pour des tests de restriction sur le vecteur de
cointégration. Ce sont des méthodes que l’on peut qualifier d’univariées dans la
mesure où elles ne sont clairement définies que le cas où il n’y a qu’un seul vecteur
de cointégration.
- L’autre considère le modèle CVAR dans son ensemble et estime de manière conjointe tous les paramètres par maximum de vraisemblance. Un test de rapport de
vraisemblance ayant une distribution non-standard, mais reliée à la distribution des
tests ADF, permet de déterminer le rang r de cointégration. Conditionnellement à
r les tests de restriction sur les vecteurs de cointégration et de poids ont une distribution χ2 . C’est l’approche dite de Johansen (1988) qui a été développé par la suite
2 LA METHODE DE ENGLE ET GRANGER
3
dans Johansen (1991), Johansen and Juselius (1990) et Johansen (1995). On peut la
qualifier de multivariée.
Cette distinction va conditionner la présentation que nous allons en faire. Il est à noter
que la première approche, si elle est plus facile à comprendre à première vue faisant appel
aux simples moindres carrés, comporte des aspects qui sont in fine plus complexes à cause
de la théorie asymptotique mise en jeu. La seconde approche, basée sur le maximum de
vraisemblance, est finalement plus simple, une fois franchi le premier pas. A partir du
moment où le rang de cointégration est déterminé, cette approche repose sur une théorie
asymptotique standard. C’est elle qui est majoritairement utilisée dans les logiciels comme
Jmulti, Stata ou PcFiml par exemple.
2 La Methode de Engle et Granger
Pour saisir les problèmes qui vont se poser, un petit exemple tiré de Engle and Granger
(1987) et repris dans Davidson and MacKinnon (1993) sera bien utile. Considérons le
modèle bivarié suivant:





β1 yt − xt = u1t , (1 − ρ1 L) u1t = ǫ1t
(1)
yt − β2 xt = u2t , (1 − ρ2 L) u2t = ǫ2t
où les ǫt sont normaux de moyenne nulle et de variance Ω. Tant que ρ1 et ρ2 seront inférieurs
à un en valeur absolue, les deux variables yt et xt seront I(0). Si par contre ils sont tous les
deux égaux à un, yt et xt seront I(1), mais pas cointégrés. On obtiendra la cointégration
pour par exemple ρ2 < 1 et ρ1 = 1. Alors le vecteur de cointégration sera [1, −β2 ]. Les
erreurs de la première équation sont I(1) car ∆u1t = ǫ1t , ce qui implique yt et xt sont I(1).
Par contre les erreurs de la seconde équation sont stationnaires.
2.1 Estimation en deux étapes
La méthode d’estimation proposée par Engle and Granger (1987) procède en deux étapes.
On estime tout d’abord le vecteur de cointégration par moindres carrés, puis remplaçant ce
vecteur par son estimation dans le modèle général, on estime dans une seconde étape les
coefficients dynamiques du modèle.
La première étape consiste donc à régresser par simples moindres carrés une des composantes de la variable multivariée sur les autres pour obtenir une estimation du vecteur de
cointégration. Supposons que le modèle multivarié s’écrive:
A(L)(∆Xt − ∆T Dt ) = αβ ′(Xt−1 − T Dt−1 ) + ǫt
(2)
et que le rang de cointégration soit égal à un. β est alors un vecteur colonne. On va choisir
d’en normaliser le premier élément et de partitionner Xt de manière conforme en:
β′
= [1, β̃]
Xt′ = [yt , Yt′ ]
4
Alors pour estimer β̃, il suffit d’utiliser les moindres carrés dans la régression:
yt = β̃ ′ Yt + T Dt + ǫ̃t
(3)
où β̃ correspond aux éléments non normalisés de β. Engle and Granger (1987) [voir
aussi Stock (1987)] montrent que cette procédure est valide asymptotiquement malgré
deux problèmes qui semblent se poser. Premièrement comme on cherche une relation
de cointégration, c’est que yt et Yt sont déterminés de manière conjointe. Donc il y a
corrélation entre les erreurs ǫ̃t et les variables explicatives Yt . On peut constater cela de
manière aisée sur le petit exemple du début. La vraie relation de cointégration est:
yt = β2 xt + ρ2 (yt−1 − β2 xt−1 ) + ǫ2t
(4)
Si l’on estime simplement la régression:
yt = β̃xt + ǫ̃t
(5)
ǫ̃t = ρ2 (yt−1 − β2 xt−1 ) + ǫ2t
(6)
le terme d’erreur implicite ǫ̃t devient:
ce qui montre alors la corrélation entre xt et ǫ̃t . Deuxièmement les régresseurs sont tous
I(1), ce qui de facto nous ramène à la question des régressions factices. Pourtant ces deux
problèmes ne sont pas rédhibitoires comme nous allons le voir maintenant. Le fait que les
variables soient I(1) permet d’obtenir un théorème de consistance qui est initialement du à
Stock (1987):
Théorème 1 Supposons que le vecteur aléatoire Xt admette une représentation de Wold
multivariée ∆Xt = C(L) ǫt et qu’il soit cointégré de rang 1 et de vecteur de cointégration
β. Soit β̂ l’estimateur OLS du vecteur de cointégration correctement normalisée. Alors
sous des conditions très générales on a:
p
T 1−δ (β̂ − β) → 0
∀δ > 0
Ce théorème montre que les paramètres estimés convergent très vite vers leurs vraies
valeurs. Au lieu de la vitesse habituelle de T 1/2 , ils convergent à la vitesse T . Le problème
de la corrélation entre xt et ǫ̃t ne joue pas asymptotiquement car xt ∼ I(1) alors que
ǫ̃t ∼ I(0) à cause des propriétés de cointégration. Aussi dans l’expression du biais, les
termes en xt domineront les termes en ǫ̃t . Quand au problème de régression factice, il ne
jouera pas à nouveau à cause des propriétés de cointégration. Dans une régression factice, un des problèmes vient de ce que les résidus sont I(1). Ici ils sont I(0) par propriété
de cointégration. Enfin le R2 de la régression tendra asymptotiquement vers l’unité. En
conséquence l’arbitraire de la normalisation ne joue plus asymptotiquement car toutes les
régressions deviennent équivalentes.
5
La deuxième étape de la méthode d’estimation consiste à reporter dans le modèle
ECM-VAR l’estimation du vecteur de cointégration et d’estimer par moindres carrés les
paramètres du modèle:
A(L)(∆Xt − ∆T Dt ) = α β̂ ′ (Xt−1 − T Dt−1 ) + ǫt
(7)
ou une des équations du modèle ECM structurel correspondant.
Cette seconde étape ne pose aucun problème particulier car tous les régresseurs sont
maintenant I(0). Le fait d’utiliser l’estimation de β au lieu de sa vraie valeur n’apporte
aucune perturbation comme le montre le théorème suivant donné par Engle and Granger
(1987):
Théorème 2 L’estimation en deux étapes d’une équation d’un système à correction d’erreurs,
obtenue en considérant β̂ comme vraie valeur conduit à la même distribution asymptotique
que l’estimation par maximum de vraisemblance obtenue en prenant la vraie valeur de β.
Les écart-types des moindres carrés sont des estimateurs consistants des vrais écart-types.
Ce résultat montre que dans la deuxième étape, on peut utiliser une théorie standard pour
effectuer des tests sur les valeurs des paramètres qui caractérisent la dynamique de court
terme. Intuitivement ce résultat se comprend dans la mesure où maintenant on n’a plus que
des variables qui sont I(0) dans la régression, y compris le régresseur de première étape
zt−1 qui est I(0) par propriété de cointégration.
Exemple 1: Reprenons le petit exemple du début et appliquons la méthode. On a
tout d’abord:


 β1 yt − xt = u1t
∆u1t = ǫ1t


yt − β2 xt = u2t (1 − ρ2 L) u2t = ǫ2t
En multipliant la première équation par (1−L) et la seconde par (1−ρ2 L), on obtient
après substitution et réarangement des termes:





β1 ∆yt − ∆xt = ǫ1t
∆yt − β2 ∆xt − (ρ2 − 1)(yt−1 − β2 xt−1 ) = ǫ2t
On remplace maintenant dans le système le terme de long terme yt − β2 xt par son
estimation de première étape que l’on note ẑt et on résout cette forme structurelle en
forme réduite par substitution:
∆xt =
∆yt
ρ2 − 1
ẑt−1 +
1 − β2
ρ2 − 1
β1 ǫ2t − ǫ1t
β1 − β1 β2
ǫ2t − β2 ǫ1t
=
ẑt−1 +
1 − β1 β2
1 − β1 β2
La deuxième étape permet d’estimer ρ2 et β1 à partir du moment où l’on a déjà estimé
β2 . On remarque ensuite que si ρ2 tend vers un, on n’a plus de cointégration, car alors
le terme en ẑt−1 disparaı̂t.
6
Il existe un autre résultat dans la littérature qui est du à Sims, Stock, and Watson (1990)
et qui complète dans une certaine mesure le théorème 2. Dans ce papier les auteurs abordent
l’estimation d’un modèle VAR ajusté sur des niveaux de variables I(1) en présence de
cointégration. La méthode d’estimation est en une seule étape et utilise les moindres carrés.
Ils montrent que la théorie asymptotique standard peut encore s’appliquer quand on teste
la valeur d’un paramètre attaché à une variable qui par reparamétrisation se trouve I(0), y
compris quand la caractère I(0) est obtenu par l’utilisation de la propriété de cointégration.
A l’intérieur d’une même estimation, on peut donc séparer les résultats d’inférence sur les
variables I(1) qui sont non-standard de ceux sur les régresseurs I(0) qui eux sont standards.
Ce résultat vient de la différence dans les vitesses de convergence. Mais il faudra utiliser
ces résultats avec prudence, car ils ne sont valables que sur des coefficients individuels. En
effet les différences de vitesse de convergence font que la matrice de variance-covariance
de l’estimateur OLS des coefficients de régression est singulière.
2.2 Les problèmes de petit échantillon
La méthode en deux étapes a le mérite de la simplicité. Mais de sérieux problèmes se
posent en petit échantillon. Tout d’abord le théorème 1, s’il montre que l’estimateur OLS
du vecteur cointégrant est consistant, il montre aussi qu’il a un biais de petit échantillon
d’ordre 1/T . Une des sources de biais est apparente dans la régression de cointégration
du petit exemple du dessus. Elle vient du facteur omis ρ2 (yt−1 − β2 xt−1 ) qui entraı̂ne un
problème de biais de simultanéité et un problème d’autocorrélation des erreurs. Ce facteur
est I(0) et donc devient négligeable asymptotiquement car les régresseurs sont I(1). Mais
en petit échantillon il peut être important si ρ2 est proche de un. En effet au plus ρ2 se
rapproche de l’unité au plus on s’éloigne de la situation de cointégration. Les expériences
de Monte Carlo de Stock (1987) ainsi que celles de Banerjee, Dolado, Hendry, and Smith
(1986) montrent que le biais de petit échantillon des OLS peut être très important dans une
régression statique.
Dans son papier Stock (1987) montre aussi que la distribution asymptotique de cet
estimateur suit encore une fonctionnelle de processus de Wiener. Mais elle dépend très
fort des vraies valeurs des paramètres de nuisance, si bien qu’aucune table ne peut être
construite pour un cas général. A titre d’exemple les valeurs rapportées par Stock pour un
cas particulier au seuil de 5% varient entre -59.96 et -2.63 pour une taille d’échantillon de
200. On ne pourra donc effectuer de test sur les éléments du vecteur de cointégration quand
celui-ci est estimé par moindres carrés dans une régression statique.
2.3 Corrections de petit échantillon
A REVOIR ET RACOURCIR
Il existe plusieurs manières d’obtenir un estimateur de θ qui ait de meilleures propriétés
de petit échantillon. Il faut d’une part pouvoir corriger l’autocorrélation des erreurs. Ceci
est toujours possible en employant une méthode non-paramétrique du type de celle employée par Phillips et Perron (1988) pour les tests de racine unitaire. Mais il faut d’autre
part corriger le biais d’endogénéité, et celui-ci est plus difficile à éliminer . Ce biais n’existe
7
plus si les innovations de yt ne causent pas au sens de Granger les innovations de Yt dans la
régression statique de cointégration yt = β̃ ′ Yt +T Dt +ǫ̃t . On peut alors retrouver la théorie
asymptotique standard à base de χ2 comme le soulignent Campbell et Perron (1991). Mais
ces conditions sont très restrictives, surtout pour la non-causalité.
Plusieurs auteurs ont proposé des corrections de petit échantillon qui tiennent compte
des deux problèmes évoqués: autocorrélation des erreurs et biais de simultanéité. Ce
dernier vient en général de ce que les innovations de yt causent les innovations de Yt .
On sait d’après les tests de Sims (1972) sur la non-causalité que si yt cause la variable Yt ,
alors yt peut s’exprimer comme une combinaison linéaire des valeurs passées, présentes
et futures de Yt . L’idée c’est que si yt cause Yt , les valeurs futures de Yt seront utiles
pour prédire yt . L’idée qui est contenue dans l’approche de plusieurs auteurs dont Saikonnen (1991) consiste à corriger le biais de simultanéité par des régresseurs supplémentaires
constitués de retards et d’avances de ∆Yt pour conduire à la régression cointégrante:
′
yt = β̃ Yt + T Dt +
p
X
∆Yt−j ηj + ǫ̃t
(8)
j=−p
On peut ensuite corriger l’autocorrélation des résidus en employant par exemple des GLS.
C’est ce que proposent Stock and Watson (1993) qui montrent qu’alors on peut utiliser
les tests de Wald standards qui sont asymptotiquement distribués selon des χ2 . Phillips
and Loretan (1991) utilisent par contre une correction paramétrique pour l’autocorrélation
qui consiste à ajouter à la régression précédente des retards de la variable de cointégration
(yt − β ′ Yt ):
′
yt = β̃ Yt + T Dt +
p
X
j=−p
∆Yt−j ηj +
q
X
i=1
(yt−i − β ′Yt−i )ζi + ǫ̃t
(9)
Là encore on retrouve des résultats de théorie asymptotique basés sur la distribution du χ2 .
Hamilton (1994) dans son chapitre 19 traite de façon complète un exemple bivarié où
il montre comment la correction de petit échantillon permet de récupérer in fine des tests
standards portant sur des restrictions sur le vecteur de cointégration. Mais la méthode est
un peu lourde car elle requiert une régression auxiliaire.
La méthode alternative à la procédure en deux étapes de Engle and Granger (1987) la
plus simple consiste à considérer dans un cadre univarié, c’est à dire quand il n’y a qu’un
seul vecteur de cointégration un modèle à correction d’erreurs du type:
∆yt = µ + αyt−1 + δxt−1 + γ∆xt + ut
Davidson and MacKinnon (1993) montrent que par une série de reparamétrisations, tous
les coefficients de cette régression peuvent être attachés à un régresseur qui soit I(0). On
peut donc utiliser les résultats de Sims, Stock, and Watson (1990) cités plus haut pour estimer cette équation directement par moindres carrés, même si certains régresseurs sont
I(1). En l’absence d’autocorrélation des erreurs, le biais de simultanéité est corrigé. Banerjee, Dolado, Hendry, and Smith (1986) montrent que cette méthode donne en général de
meilleurs résultats que la méthode en deux étapes de Engle and Granger (1987).
3 TESTS UNIVARIÉS DE COINTEGRATION
8
3 Tests univariés de cointegration
Tout les les méthodes d’estimation supposent que l’on connaisse soit le rang r de cointégration
pour les méthodes multivariées par maximum de vraisemblance (que l’on n’a pas encore
exposées), soit la validité de l’hypothèse de cointégration quand on estime l’équation de
long terme dite de cointégration. Il faut donc disposer de procédures de tests. Dans le
cadre bivarié les tests de cointégration sont de simples extensions du tests de Dikey et
Fuller sur les résidus de la régression de cointégration. Dans le cadre multivarié, il faudra
faire des tests sur le rang de la matrice Π dans l’équation:
∆Xt = β0 + Π(Xt−1 − µ − δt) + A∗ (L)∆Xt−1 + ǫt
(10)
3.1 Tests de cointégration basés sur les résidus
L’idée qui est à la base de cette catégorie de tests est très simple. Si deux variables yt et
xt sont I(1) et cointégrées, alors il existe une combinaison linéaire zt de ces variables qui
est I(0). Pour la trouver, il suffit de régresser yt sur xt . On aura alors une estimation de zt
au moyen des résidus de cette régression. Il suffit de tester ensuite la présence d’une racine
unitaire dans ces résidus pour tester la cointégration. Ces types de tests sont principalement
dus à Engle and Granger (1987).
On retombe donc sur un problème connu. Si la valeur du vecteur cointégrant β était
connue, on n’aurait qu’à utiliser les tests usuels de racine unitaire et leur tables associées
qui ont été données dans le chapitre 3. Il est des cas où ce vecteur est connu, notamment
quand la théorie économique impose des élasticités de long terme égales à l’unité. On
peut par exemple tester la cointégration entre la consommation Ct et le revenu disponible
RDt en imposant que l’élasticité de long terme soit unitaire. Si la relation est en logarithme, il suffira alors de faire un test de racine unitaire avec terme constant sur la variable
log(Ct /RDt ). Maintenant le vecteur cointégrant β n’est en général pas connu et on doit
l’estimer. On a vu plusieurs procédures pour cela dans le paragraphe précédent. On doit
donc tenir compte de cette estimation dans le choix des valeurs critiques car la distribution asymptotique du test dépend du nombre de régresseurs contenus dans la régression
cointégrante.
Reprenons le cas d’une relation de cointégration entre yt et xt où xt est possiblement
un vecteur. On devra tout d’abord conduire la régression cointégrante qui pourra contenir
en général un terme constant et éventuellement un trend. On aura donc:
yt = µ + δt + β̃ ′ xt + ut
(11)
Appelons ût les résidus de cette régression. Le test de cointégration va se faire au moyen
d’un test du type de celui de Dickey et Fuller souvent appelé test de Engle et Granger (EG)
dans ce contexte:
∆ût = (ρ − 1)ût−1 + ǫt
(12)
Mais comme l’autocorrélation est souvent un problème, on emploiera un test AEG (Augmented Engle Granger) qui revient à rajouter à la régression de test des retards de ∆ût .
9
Table 1: Valeurs critiques asymptotiques
pour le test AEG de cointégration
5%
10%
n=2
sans trend -3.34
-3.04
avec trend -3.78
-3.50
n=3
sans trend -3.74
-3.45
avec trend -4.12
-3.84
n=4
sans trend -4.10
-3.81
avec trend -4.43
-4.15
n=5
sans trend -4.41
-4.13
avec trend -4.72
-4.44
n=6
sans trend -4.71
-4.42
avec trend -4.98
-4.70
Ces valeurs ont été calculées à partir de
MacKinnon (1991).
Plusieurs tables pour les valeurs critiques des tests de cointégration ont été publiées à
commencer dans l’article de Engle and Granger (1987). On peut citer aussi Engle and Yoo
(1987) qui complète les tables précédentes. Mais on préférera se fier à celle de MacKinnon
(1991) qui semble plus précise. Les valeurs critiques données par la Table 1 dépendent de la
taille n de la série multivariée dont on veut tester la cointégration. Rappelons que à cause
de la normalisation, si la régression cointégrante comprend un seul régresseur, il faudra
utiliser les valeurs pour n = 2, n = 1 correspondant à un test de racine unitaire classique.
Si l’on a introduit un terme constant dans la régression cointégrante ou un trend, les valeurs
critiques seront également différentes. Notons que constante et trends sont introduits dans
la régression cointégrante et non dans la régression de test. Plusieurs remarques sont à faire
sur cette procédure de test.
Remarques:
- Concernant la table, on retrouve la même caractéristique que dans le cas des racines
unitaires. A savoir que l’ajout de termes déterministes modifie la distribution asymptotique du test et fait baisser sa puissance. Il en va également avec le nombre n de
variables.
- Ensuite concernant l’obtention des résidus estimés; on a vu que la procédure OLS
d’estimation de la relation de long terme était valide asymptotiquement, mais posait
de sérieux problèmes en petit échantillon. Les biais de petit échantillon mentionnés
précédemment vont bien sûr se répercuter sur les résultats des tests. De même que
10
les changements de normalisation. Aussi, bien qu’il existe des tables pour des tailles
variables d’échantillon, on a préféré ne pas les donner à cause des incertitudes que
nous venons de mentionner.
Il existe d’autres tests de cointégration basés sur les résidus dont on n’a pas parlé. Il
en est un donné dans Engle and Granger (1987) qui est basé sur la statistique de Durbin
et Watson et appelé par Engle et Granger CRDW. C’est la contrepartie en cointégration
du test de Bhargava (1986) pour les racines unitaires. Engle et Granger n’en donnent les
tables que pour le cas n = 2 et 100 observations. A 5% on a une valeur critique de 0.386,
mais qui peut varier très fort en fonction de la taille de l’échantillon. Campbell and Perron
(1991) recommandent de ne pas employer ce test. On peut toutefois se rappeler la règle
heuristique donnée par Granger and Newbold (1974) concernant les régressions factices.
Au vu de la théorie moderne, une régression factice est une régression entre des variables
I(1) qui ne sont pas cointégrées. Les résidus sont donc encore I(1). Cette règle donne un
signal d’alarme chaque fois que dans une régression, la statistique DW est inférieure au R2 .
Elle est à retenir comme une première approche.
3.2 La contrainte de facteur commun
Il est aisé au vu des tables et des valeurs critiques très élevées que l’hypothèse nulle de
non-cointégration (ou racine unitaire dans les résidus) sera rarement rejetée. C’est ce que
remarquent Kremers, Ericsson, and Dolado (1992) sur la base d’expériences empiriques.
Leur expérience a consisté à tester la cointégration entre le logarithme du ratio consommation/revenu disponible et le taux d’inflation, ce sur treize pays entre 1952 et 1985. Sur
les treize cas, ils ne trouvent de la cointégration que dans quatre cas et encore à 10%. Par
contre dans une formulation ECM, le coefficient attaché au résidu retardé (en supposant
que celui-ci est stationnaire) est significatif dans 10 cas sur 13. Dans leur papier Kremers,
Ericsson, and Dolado (1992) montrent que ce rejet trop fréquent des tests AEG est du à une
restriction de facteur commun contenue de manière implicite dans ces tests. Nous allons
montrer ceci maintenant sur un petit exemple. Considérons:
∆yt = γ∆xt + α (yt−1 − βxt−1 ) + ǫt
(13)
∆xt = ut
où ut et ǫt sont deux bruits blancs indépendants et normaux de variance respective σǫ2 et σu2 .
Que se passe-t-il dans le test AEG basé sur les résidus de la régression statique? Retirons
β∆xt de chaque côté de la régression initiale:
∆(yt − β xt ) = (γ − β) ∆xt + α (yt−1 − β xt−1 ) + ǫt
(14)
et remplaçons yt −β xt par zt . On va ainsi retrouver une certaine expression de la régression
de test de Engle et Granger:
∆zt = α zt−1 + (ǫt + (γ − β) ∆xt ).
(15)
11
Le vrai modèle impose la présence de ∆xt alors que la régression de Engle et Granger ignore ce terme qu’elle confond avec les résidus. L’erreur commise n’est pas très importante
tant que γ est proche de β, c’est à dire que l’élasticité de court terme est à peu près la même
que l’élasticité de long terme. Mais imposer à tort la restriction que γ = β c’est à dire la
présence d’un facteur commun nuit gravement à la puissance du test ADF.
3.3 Application à la demande de monnaie en Belgique
On va maintenant traiter un petit exemple empirique qui concerne la demande de monnaie
M1 en Belgique. Les données sont annuelles et couvrent la période 1953 − 1982. La
théorie économique fournit une relation d’équilibre qui relie le logarithme de la quantité
réelle de monnaie LMP au logarithme du revenu réel LY P et au taux d’intérêt R. On a
pris les définitions suivantes pour les variables. M1 est la masse monétaire M1, Y P est
le revenu disponible réel des particuliers. R est le taux sur les certificats de trésorerie à
trois mois. Afin de conserver une relation en logarithme, on va prendre la transformation
LR = log(1 + rt /100). On doit d’abord commencer par vérifier que les séries sont toutes
les trois bien I(1). On a les régressions suivantes:
∆LMPt = 0.095 LMPt−1 − 0.005 − 0.004 t
[1.00]
[−0.10]
[−1.77]
DW = 1.98 R2 = 0.22
∆LRt = −0.57 Rt−1 + 0.0001 + 0.002 t
[−3.12]
[0.019]
[3.10]
DW = 1.89 R2 = 0.28
∆LYt = 0.039 LYt−1 − 0.17 − 0.0023 t
[0.34]
[−0.27]
[−0.51]
DW = 1.53 R2 = 0.082
ce qui fait que l’on ne rejette pas l’hypothèse de racine unitaire pour ces trois variables. La
valeur critique du test à 5% est de -3.41 avec un trend.
La méthode en deux étapes de Engle et Granger commence par estimer une régression
statique sur les niveaux de ces trois variables. Cette première régression ne donne pas des
résultats convaincants et illustre bien les problèmes de petit échantillon:
LMP = 0.78 LY − 2.49 LR − 3.87
[17.77]
[−5.84]
[−15.13]
DW = 0.87 R2 = 0.96
La valeur du coefficient de long terme de LY est biaisée vers le bas, alors qu’on s’attendrait
à une valeur proche de l’unité. Un test de racine unitaire sur les résidus de cette équation
fait office de test de cointégration. On obtient une valeur de -2.52 qui est très inférieur à
la valeur critique à 5% qui est -3.74. Donc on ne peut rejeter l’hypothèse nulle de noncointégration avec ce test. On remarque également que la règle heuristique de Granger et
Newbold s’applique ici car le R2 est plus grand que le DW.
4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE
12
Il est toutefois intéressant de poursuivre la méthode et d’estimer l’équation de court
terme dans laquelle on a ajouté le résidu estimé retardé de un de l’équation statique:
∆LMPt = −0.023 + 1.28 ∆LYt − 1.25 ∆LRt − 0.33 RESt−1
[−2.84]
[6.03]
[−4.60]
[−2.80]
DW = 2.13 R2 = 0.64 χ2 corr = 0.45
On constate que les élasticités de court terme dans cette équation sont très différentes
des élasticités de long terme trouvées avec l’équation statique. Le test AEG qui impose
l’égalité de ces élasticités subit donc une perte de puissance dans ce cas.
4 Estimation par Maximum de Vraisemblance
La procédure de maximum de vraisemblance initialement proposée par Johansen (1988)
permet d’obtenir une estimation à la fois simple et efficace des vecteurs de cointégration
ainsi d’ailleurs que des autres paramètres du modèle. Il n’est donc plus besoin de considérer
une modification de l’estimateur des moindres carrés pour avoir un estimateur efficace. Le
problème de maximisation est relativement simple. Il s’agit d’estimer un VAR de la forme:
∆Xt = m + Π Xt−1 + A∗ (L) ∆Xt + ǫt
ǫt ∼ N(0, Ω)
(16)
en imposant une perte de rang sur Π au moyen de la contrainte Π = α β ′. C’est un
problème classique en statistique multivariée qui se résout par un calcul de valeurs propres et de vecteurs propres. La matrice de cointégration β sera égale aux r vecteurs propres correspondant aux r plus grandes valeurs propres d’une certaine matrice. Le rang
de cointégration sera déterminé par un test sur la nullité des n − r plus petites valeurs
propres qui correspond à un test de rapport de vraisemblance. Ce test a une distribution
non-standard qui est une généralisation multivariée du carré de la distribution du test de
Dickey et Fuller. Par contre, une fois déterminé r , il est possible de construire des tests
de restriction sur α et β qui ont une distribution χ2 . On présentera tout d’abord le cas sans
terme constant où m = 0. Puis on introduira le rôle du terme constant m avec diverses
hypothèses de modélisation en détaillant les conséquences sur la distribution asymptotique
du test du rang de cointégration. Mais il est utile de commencer par le cas simple de
l’estimation d’un VAR contraint.
4.1 L’estimation des VAR sans contrainte
On part du modèle simple
∆Xt = m + Π Xt−1 + A1 ∆Xt−1 + · · · + Ap−1 ∆Xt−p+1 + ǫt
(17)
sans faire porter de contraintes sur la matrice Π. Si toutes les composantes de X sont I(0),
alors la matrice Π sera de rang plein. Si toutes les composantes de X sont I(1) et que
l’équation caractéristique associée au modèle initial tout en niveau a toutes ses racines sur
le cercle unité, alors la matrice Π sera nulle. Enfin, si seulement certaines des racines de
13
l’équation caractéristique sont sur le cercle unité, on aura cointégration. Dans tous les cas
on peut estimer ce modèle sans contrainte dans sa forme reparamétrisée. On va construire
les matrices suivantes d’observations
Y = [∆Xt ]
X = [1, Xt−1 , ∆Xt−1 , · · · , ∆Xt−p+1 ]
et pour les paramètres
B = [m, Π, A1 , · · · , Ap−1 ]
On va donc considérer la notation matricielle
Y = XB + E
Ce modèle de régression multivarié s’estime par moindres carrés et l’on a
B̂ = (X ′ X)−1 X ′ Y
Sous les hypothèse habituelles de régularité, cet estimateur est asymptotiquement normal
avec:
√
L
T vec(B̂ − B) → N(0, ΣA ).
Ce résultat est valide dans les trois cas répertoriés comme l’a montré entre autres Sims,
Stock, and Watson (1990). Par contre, dès que X comporte des variables I(1), la matrice
de variance covariance ΣA = (X ′ X)−1 ⊗ Ω sera singulière, ce qui rend les problèmes de
test un peu plus délicats.
Dès que l’on veut tenir compte du fait que Π puisse être singulière, et en fait estimer les
vecteurs de cointégration, il faut passer à un estimateur sous contrainte et mettre en oeuvre
les techniques du maximum de vraisemblance.
4.2 Inférence dans un CVAR simplifié
On va partir du modèle très simple:
∆Xt = Π Xt−1 + ǫt
Π = α β′
ǫt ∼ N(0, Ω)
(18)
Ce modèle est l’équivalent multivarié du plus simple des tests de Dickey et Fuller, c’est à
dire sans composante déterministe et sans retards de la variable en différence. Ce modèle
est irréaliste d’un point de vue empirique, mais permet d’introduire les calculs de manière
simple. Le log de la fonction de vraisemblance de ce modèle s’écrit:
T
T
1X
log L ∝ − log det Ω −
[∆Xt − α β ′ Xt−1 ]′ Ω−1 [∆Xt − α β ′Xt−1 ]
2
2 t=2
(19)
On va poser:
Yt = ∆Xt
et
Zt = Xt−1
(20)
On a donc :
Yt = α β ′ Zt + ǫt
(21)
14
Calculons les statistiques suivantes:
Syy
T
1X
=
Yt Yt′
T t=1
Szz
T
1X
=
Zt Zt′
T t=1
Szy
T
1X
=
Zt Yt′
T t=1
(22)
Comme il s’agit en fait d’un modèle multivarié sans restrictions inter-équations, on peut
concentrer la vraisemblance à β donné pour trouver l’estimateur des moindres carrés de α
et Ω:


 α̂(β) = Syz β [β ′ Szz β]−1
(23)

 Ω̂(β) = S − S β[β ′ S β]−1 β ′ S
yy
yz
zz
zy
Le logarithme de la vraisemblance concentrée est alors:
log Lc (β) ∝ −
T
log det Ω̂(β)
2
(24)
Trouver le maximum de cette fonction de vraisemblance est équivalent à chercher le minimum en β de l’expression det Ω̂(β) ce qui est en fait exactement équivalent à un problème
de LIML dans un modèle à équations simultanées qui se résout par un calcul de valeurs
propres et de vecteurs propres associés. D’où le théorème suivant adapté de Johansen
(1988):
Théorème 3 L’estimateur du maximum de vraisemblance des r vecteurs cointégrants contenus dans la matrice β est donné par les r vecteurs propres associés aux r plus grandes
valeurs propres λi dans le problème:
−1
det(λSzz − Szy Syy
Syz ) = 0
La valeur de la fonction de vraisemblance en son maximum est donnée par:
L−2/T
max = det(Syy )
r
Y
(1 − λ̂i )
i=1
en supposant que les valeurs propres λi sont rangées par ordre décroissant. Les estimateurs
de α et Ω sont trouvés en remplaçant β par son estimation dans α̂(β) et Ω̂(β).
Preuve: Considérons une matrice carrée symétrique A partitionnée en quatre. Les propriétés usuelles des déterminants des matrices partitionnées permettent d’écrire:
|A| = |A11 |.|A22.1 | = |A22 |.|A11.2 |
avec Aii.j = Aii − Aij A−1
jj Aji . Alors |A11.2 | = |A22.1 |.|A11 |/|A22 |. En construisant la
matrice A comme:
Syy
Syz β
A=
β ′ Szy β ′ Szz β
on a tout d’abord que
Ω̂(β) = A11.2
15
On peut alors décomposer ce déterminant de manière à transformer la fonction à maximiser
en:
−1
|β ′Szz β − β ′ Szy Syy
Syz β|
T
T
− log |Syy | − log
2
2
|β ′ Szz β|
en utilisant le fait que |A11.2 | = |A11 |.|A22.1 |/|A22 |. On peut négliger le terme en |Syy | qui
ne dépend pas du paramètre β. Jusqu’à présent le paramètre β n’était pas normalisé. On
peut choisir la normalisation commode β ′ Szz β = Ir . On se retrouve dans un problème
classique soit de LIML sur un groupe d’équations, ou d’analyse canonique étudiée par
example par Tso (1981). Le théorème suit des résultats de ce dernier papier.
2
Remarque:
La normalisation β ′ Szz β = Ir imposée dans l’estimation est aussi une condition
d’identification qui introduit r 2 restrictions indépendantes. Le vecteur β est donc bien
identifié selon les critères exposés dans le chapitre 4. Mais cette façon d’identifier le
modèle est arbitraire et n’a aucun sens économique. Elle est cependant commode car
elle n’exclue aucun coefficient. On peut donc renormaliser la matrice β comme on
l’entend par la suite.
4.3 L’ajout de retards supplémentaires
Considérons maintenant le cas plus général où l’on autorise la présence de retards de ∆Xt .
Le modèle se note en conformité avec les notations du chapitre précédent:
∆Xt = α β ′ Xt−1 + A∗ (L)∆Xt + ǫt
(25)
Si l’on appelle maintenant ∆X̃ la matrice qui contient tous les retards de ∆Xt , il est facile
de généraliser les calculs qui précèdent en modifiant simplement la valeur des matrices Syy
et Szz sur des arguments de régression partielle. Posons:
MX = It − ∆X̃(∆X̃ ′ ∆X̃)−1 ∆X̃ ′
(26)
En écrivant le modèle initial sous forme matricielle (en considérant toutes les observations),
on peut le transformer au moyen de la matrice de projection MX en :
MX Y = MX Z β α′ + MX ǫ
(27)
où Y , Z et ǫ désignent maintenant les T observations de l’échantillon. On appliquera les
mêmes calculs, mais en remplaçant Y et Z dans les formules précédentes par MX Y et
MX Z.
16
4.4 Le rôle du terme constant
On s’attend bien, par similitude avec le cas univarié des racines unitaires, à ce que la distribution asymptotique de deux statistiques de test du rang de cointégration dépende de la
présence d’un terme constant dans les relations de cointégration. On a d’autre part vu au
cours du chapitre 4 que le terme constant jouait un rôle très particulier dans les relations de
cointégration. Notons de la façon suivante un modèle CVAR où l’on a maintenant introduit
un terme constant m:
∆Xt = m − α β ′ Xt−1 + A∗ (L) ∆Xt + ǫt
(28)
On a vu dans le chapitre 4 que m était lié au trend dans le processus non- stationnaire qui
génère Xt . Il est toujours possible de décomposer le terme constant m de dimension n × 1
en:
m = α β0 + α⊥ γ
(29)
′
où α⊥ est une matrice n×(n−r) orthogonale aux colonnes de α et vérifiant donc α⊥
α = 0,
β0 un vecteur r × 1 et γ un vecteur (n − r) × 1. Reportons maintenant cette décomposition
dans la forme autorégressive du modèle:
∆Xt = α⊥ γ − α (β ′ Xt−1 − β0 ) + A∗ (L)∆Xt + ǫt
(30)
Si l’on impose la restriction:
m = αβ0
(31)
on annule les n − r dérives des composantes de Xt qui ne sont pas cointégrées car on a
imposé α⊥ γ = 0. Le paramètre β0 représente simplement l’ordonnée à l’origine dans la
relation de cointégration.
Il est maintenant facile de voir comment on va introduire la présence du terme constant
m pour l’estimation. Si l’on veut estimer le modèle en autorisant la présence de n − r
trends linéaires, il suffit d’ajouter 1 dans la matrice ∆X̃t pour avoir:
∆X̃t′ = [∆Xt−1 , . . . , ∆Xt−s , 1]
(32)
Si par contre on veut imposer la contrainte que ces n − r trends linéaires soient nuls, il
suffit de déplacer le 1 de la matrice ∆X̃t vers la matrice Zt que l’on note maintenant Zt∗ :
Zt∗ = [Xt−1 , 1]′
(33)
∗
∗
−1 ∗
det(λ Szz
− Szy
Syy
Syz ) = 0
(34)
Alors dans le problème:
on aura n + 1 valeurs propres λ∗i et la plus petite sera égale à zéro. Les exposants en
∗ indiquent que les matrices de moments d’échantillonnage et les valeurs propres sont
calculées avec Z = Z ∗ et ∆X̃t sans terme constant.
17
4.5 Tests du rang de cointégration
L’estimation des vecteurs cointégrants β et les tests du rang r de cointégration sont intimement liés. Comme la valeur de la vraisemblance en son maximum est essentiellement
donnée par le produit des r plus grandes valeurs propres, un test du rapport de vraisemblance pour déterminer r sera facile à calculer. On peut imaginer deux types de test.
- Dans le premier type, on va tester:





H0
: rang Π = r
H1T : rang Π = n
(35)
Il s’agit de tester la cointégration de rang r contre la stationnarité des séries. Ce test
est appelé test de la trace pour une raison qui sera apparente plus tard.
- Dans le deuxième type de test on s’intéresse à:





H0
: rang Π = r
H1M : rang Π = r + 1
(36)
On teste une hypothèse de cointégration de rang r contre une hypothèse de cointégration
de rang r + 1. Il s’agira ici du test de la valeur propre maximale.
Dans une procédure standard de test par rapport du maximum de vraisemblance, on compare le maximum de la fonction de vraisemblance sous H0 et le maximum de cette même
fonction de vraisemblance sous H1 au moyen de la statistique:
−2 log
L(H0 )
L(H1 )
(37)
qui est distribuée selon un loi du χ2 avec un nombre de degrés de libertés égal à la taille de
la contrainte imposée. L’hypothèse nulle ne sera pas rejetée si la valeur de la statistique de
test est inférieure à la valeur critique de la table.
Les deux hypothèses nulles et alternatives que l’on a décrites plus haut peuvent se tester
au moyen d’une statistique de rapport de vraisemblance. Mais sa distribution ne sera bien
sûr pas une χ2 . On peut énoncer le théorème suivant tiré de Johansen (1991):
Théorème 4 La statistique de test du rapport de vraisemblance de l’hypothèse nulle rang
Π = r contre l’hypothèse alternative rang Π = n est donnée par:
LR(r|n) = −T
n
X
i=r+1
log(1 − λ̂i )
On l’appellera statistique trace. La statistique de test de rapport de vraisemblance de la
même hypothèse nulle contre l’hypothèse alternative rang Π = r + 1 est donnée par:
LR(r|r + 1) = −T log(1 − λ̂r+1 )
La distribution de ces deux statistiques de test est non-standard.
18
Preuve: Le logarithme de la fonction de vraisemblance est donné par:
−
r
T
TX
log |Syy | −
log(1 − λ̂i )
2
2 i=1
d’où les deux résultats obtenus par simple calcul. La distribution de ces tests est nonstandard car il reste n − r variables qui sont I(1) dans le système quand le rang de
cointégration est r.
2
Remarque:
Les valeurs propres sont rangées par ordre décroissant: λ1 > λ2 > · · · > λr >
· · · > λn . Les deux statistiques de test s’intéressent pour l’une à la somme des n − r
plus petites valeurs propres (les n − r dernières) et pour l’autre à la valeur propre de
rang immédiatement inférieur à r. L’hypothèse nulle que le rang de π = r peut donc
se tester au moyen de l’hypothèse nulle que les n − r plus petites valeurs propres
restantes sont nulles ou que la plus grande des n − r valeurs propres restantes est
nulle.
4.6 Distribution asymptotique des tests de cointégration
Les tests de rang de cointégration sont des généralisations multivariées des tests de DickeyFuller. La distribution asymptotique de ces tests a la même structure que le carré de la distribution asymptotique des tests en τ de Dickey et Fuller. Il est donc commode d’adopter
une présentation de ces distributions similaire à celle adoptée pour les tests de racine unitaire. On donnera ces résultats sans preuve, renvoyant le lecteur à l’article de Johansen
(1991).
Considérons la fonction matricielle G(.) définie de la manière suivante:
G(W, U) =
Z
0
1
dW (r) U(r)′
Z
1
0
U(r) U(r)′ dr
−1 Z
0
1
U(r) dW (r)′.
(38)
Dans cette expression W (r) est un processus de Wiener vectoriel de dimension n−r. U(r)
est aussi un processus de Wiener vectoriel dont la dimension et la définition vont dépendre
de la forme du terme constant. On a le théorème suivant:
Théorème 5 Sous l’hypothèse nulle de cointégration de rang r les statistiques de test de
la trace et de la valeur propre maximum vont converger en distribution pour t → ∞ vers:
LR(r|n)
⇒ tr G(W, U)
LR(r|r + 1) ⇒ λmax G(W, U)
où W (r) est un processus de Wiener standardisé de dimension n − r et où la définition de
U(r) dépend du terme constant. On a les trois cas suivants:
19
pour m = 0 (pas de terme constant), U(r) = W (r)
pour m = α β0 (pas de trend), U(r) = (W (r)′, 1)′
pour m = α⊥ γ + α β0 (trend), U(r) = W (r) −
colonne est remplacée par r − 12 .
R1
0
W (r) dr, sauf que la dernière
Le cas m = 0 est peu intéressant en pratique. On trouvera une table dans Johansen
(1988) pour le test de la trace. Les deux autres cas sont ceux qui sont utilisés le plus
souvent en pratique. Le cas m = α β0 correspond à la table A3 dans Johansen and Juselius
(1990) et le cas m libre à la table A1 de ce même papier. On a reproduit les valeurs critiques
dans la Table 2. Johansen (1995) donne des tables pour les cinq cas, mais uniquement pour
le test de la trace. Ces tables sont un peu difficiles à lire, dans la mesure où pour chaque
Table 2: Valeurs critiques des tests du rang de cointégration de Johansen
n-r
1
2
3
4
5
m = αβ0
Max λi
Trace
90% 95% 90% 95%
7.56 9.09
7.56 9.09
13.78 15.75 17.96 20.17
19.80 21.89 32.09 35.07
25.61 28.17 49.93 53.35
31.59 34.40 71.47 75.33
m libre
Max λi
Trace
90% 95% 90% 95%
2.82 3.96
2.81 3.96
12.10 14.04 13.34 15.20
18.70 20.78 26.79 29.51
24.71 27.18 43.96 47.18
30.77 33.18 65.06 68.91
valeur de n on doit se livrer à une petite gymnastique. La plupart des logiciels d’estimation
opèrent ce calcul de présentation pour l’utilisateur.
Exemple 2: Supposons que l’on considère un vecteur aléatoire de dimension 4
et que l’on veuille tester le rang de cointégration dans un modèle CVAR à terme
constant libre. On a calculé les statistiques du test de la trace et on a trouvé λmax =
30.28 pour r = 0 et λmax = 12.04 pour r = 1. On commence par reconstruire
ci-dessous les valeurs critiques de la table pour ce cas particulier.
H0
r=0
r=1
r=2
r=3
H1
r=1
r=2
r=3
r=4
Max λi
90% 95%
24.71 27.18
18.70 20.78
12.10 14.04
2.82 3.96
On va commencer par tester l’hypothèse nulle que la dimension de l’espace de cointégration
est égale à zéro. On rejettera cette hypothèse contre l’alternative que r = 1 si la
valeur du test λmax = 30.28 calculée pour r = 0 est supérieure à la valeur lue dans
20
la table, c’est à dire 27.18 à 95%. On passera ensuite au test de r = 1 contre r = 2.
On ne rejettera pas cette hypothèse si la valeur du test λmax = 12.04 calculée pour
r = 1 est inférieure à la valeur lue dans la table, c’est à dire à 95% 20.78. Dans cet
exemple le rang de cointégration sera donc égal à 1.
4.7 Test de l’absence de trends
Le très grand intérêt de la procédure de maximum de vraisemblance sur les CVAR, c’est
qu’une fois le rang de cointégration déterminé, tous les tests de restriction linéaire sur
les paramètres ont une distribution asymptotique χ2 standard. Le premier test à traiter
est celui de la restriction sur le terme constant. Soit donc les deux hypothèses suivantes,
conditionnelles à une valeur testée pour r:
H0 : m = αβ0
(39)
H1 : m = αβ0 + α⊥ γ
Johansen (1991) donne le théorème suivant:
Théorème 6 L’absence de n − r trends linéaires dans le processus qui génère le vecteur
Xt cointégré de rang r se teste au moyen de la statistique:
n
X
1 − λ∗i
−T
log
1 − λi
i=r+1
qui est distribuée selon une loi du χ2 à n − r degrés de liberté.
Dans cette expression, λ∗i correspond aux valeurs propres du modèle où l’on a imposé
la contrainte sur le terme constant et λi aux valeurs propres associées au modèle noncontraint. Ce test s’effectue après que l’on ait déterminé la valeur de r, en supposant que
le terme constant n’est pas contraint.
4.8 Test de restrictions linéaires sur le vecteur de cointégration
On suppose dans un premier temps que les vacteurs de cointégration sont identifiés par
application de la règle automatique lors de la procédure d’estimation. On va ensuite tester
des restrictions de suridentification au moyen de restrictions linéaires sur la matrice β des
vecteurs de cointégration. On n’envisagera ici qu’un test de restrictions très simple de la
forme:
β =Hφ
(40)
où H est une matrice de restrictions de taille n × s avec r ≤ s ≤ n. Dans le cas où s = n
et H est une matrice identité, il n’y a pas de restriction. Dans le cas contraire, la matrice
de paramètres β qui est n × r est réduite à une matrice de paramètres φ qui est s × r.
Ce type d’écriture impose la même restriction sur les r colonnes de la matrice β. Dans la
mesure où β n’est pas identifié mais ne constitue qu’une base pour l’espace des vecteurs de
21
cointégration, les restrictions linéaires sur β portent sur les caractéristiques de cet espace. Il
peut donc sembler naturel d’imposer des restrictions de ce type. Quand r = 1, on retombe
sur un type usuel de restrictions. Le test se construit sur la base du principe de ratio de
vraisemblance comme précédemment en introduisant la contrainte dans le problème de
valeurs propres qui permettra de calculer la fonction de vraisemblance sous l’hypothèse
nulle. Johansen (1991) donne le théorème suivant:
Théorème 7 Sous l’hypothèse Π = α φ′ H ′ (ou β = H φ), l’estimateur du maximum
de vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes
valeurs propres λiH dans le problème:
−1
det(λ H ′Szz H − H ′ Szy Syy
Syz H) = 0
L−2/T
max = det(Syy )
r
Y
(1 − λ̂iH )
i=1
Le test de l’hypothèse nulle Π = α φ′ H contre l’hypothèse alternative Π = α β ′ est donné
par la statistique:
r
X
1 − λ̂iH
−T
log
1 − λ̂i
i=1
qui est distribuée selon une χ2 à r × (n − s) degrés de liberté.
Ce type de restriction n’est interprétable économiquement que si r = 1. Dans le
cas général, on préfère imposer des restrictions qui ne sont pas les mêmes sur toutes les
équations et donc poser
β = [H1 φ1 , ·, Hr φr ]
Dans ce cas l’estimation est un peu plus complexe à mettre en oeuvre car on doit opérer
une itération. Mais le test du rapport de vraisemblance conserve la même forme et la même
distribution. On peut également mettre en oeuvre un test de Wald. Voir Lütkepohl and
Krätzig (2004), pages 98-103, pour plus de détails.
4.9 Test d’exogénéité
Le dernier test qu’il est possible de facilement concevoir porte sur des restrictions linéaires
sur la matrice des poids α. On va formaliser les restrictions sur α au moyen d’une matrice
H
α=Hψ
Ceci permet de tester la présence dans une équation du CVAR de l’ensemble des termes
correcteurs d’erreurs. C’est donc un test d’exogénéité. Par exemple dans un modèle où
n = 3 et r = 2, on va vouloir tester que

α11
α=
 α21
0



α12
1 0 
 α11
α22 
 = 0 1
α21
0 0
0
α12
α22
=Hψ
22
Dans ce modèle, la dernière composante de X sera exogène pour l’inférence sur β. Johansen (1991) donne le théorème suivant:
Théorème 8 Sous l’hypothèse Π = Hψ β ′ (ou α = H ψ), l’estimateur du maximum de
vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes
valeurs propres λiH dans le problème:
−1
det(λ H ′Szz H − H ′ Szy Syy
Syz H) = 0
L−2/T
max
= det(Syy )
r
Y
(1 − λ̂iH )
i=1
Le test de l’hypothèse nulle Π = Hψ β ′ contre l’hypothèse alternative Π = α β ′ est donné
par la statistique:
r
X
1 − λ̂iH
−T
log
1 − λ̂i
i=1
qui est distribuée selon une χ2 à r × (n − s) degrés de liberté.
On peut toutefois tester l’exogénéité d’une variable de manière plus simple en estimant
le modèle CVAR équation par équation et en testant au moyen d’un Fisher la nullité des
coefficients α dans les équations appropriées.
4.10 Non causalité de Granger
Dans un modèle VAR bivarié, la non causalité au sens de Granger (1969) s’exprime comme
une restriction sur les paramètres des variables retardées. Plus précisément, considérons un
petit modèle bivarié en Xt′ = [yt , xt ]:
yt
xt
=
p X
α11,i
i=1
α21,i
α12,i
α22,i
yt−i
xt−i
+ ǫt
On dira que x ne cause pas y au sens de Granger, si x n’aide pas à la prévision de y, ce qui
est le cas si
α12,i = 0,
i = 1, · · · , p.
Si Xt est stationnaire, le test de la non causalité s’effectue sans problème au moyen d’un
test standard de Fisher ou du χ2 . Par contre si les composantes de Xt sont I(1) et possiblement cointégrées, alors la matrice de variance covariance de l’estimateur des moindres
carrés des paramètres α sera singulière et il sera difficile d’appliquer un test standard. Ce
problème a été étudié longuement dans la littérature. Lütkepohl and Krätzig (2004), page
148, en donnent un bon résumé.
Pour gagner en efficacité et en compréhension, il est toujours bon dans un problème
statistique d’expliciter les contraintes. Mosconi and Giannini (1992) critique les approches
5 STRATÉGIE DE MODÉLISATION
23
précédentes basées sur l’estimation d’un VAR non-contraint, les trouvant inefficasses. Ils
proposent de partir d’un modèle CVAR. Ecrivons donc le modèle VAR précédent en explicitant les contraintes de cointégration:
∆yt
∆xt
= αβ
′
yt−1
xt−1
+
p−1
X
i=1
γ11,i
γ21,i
γ12,i
γ22,i
∆yt−i
∆xt−i
+ ǫt
Dans un modèle bivarié, il ne peut y avoir au plus qu’un seul vecteur de cointégration.
Décomposons le produit αβ ′ :
αβ ′ =
α1
( β1
α2
β2 ) =
α1 β1
α2 β1
α1 β2
α2 β2
On voit donc que maintenant la non-causalité implique deux types de restrictions au lieu
d’un:
α1 β2 = 0
γ12,i = 0, i = 1, · · · , p − 1.
On suppose que le rang de cointégration est déjà déterminé au moyen du test non-standard
de la trace ou de la valeur propre maximum. Les composantes de ∆X sont I(0), ce qui fait
que la restriction sur les γ12,i peut se tester de la même manière que précédemment. Le
test de la restriction α1 β2 = 0 est facile à implémenter dans un cadre bivarié. Il faut tester
que soit α1 = 0, soit β2 = 0. Dans un cadre bivarié, on doit identifier β en normalisant
une de ses composantes. On ne peut donc avoir de restriction supplémentaire sur β sans
perdre la cointégration. On se ramène donc à un seul test sur α. Ce qui fait que cette
dernière restriction est équivalente à un test d’exogénéité que l’on peut facilement effectuer
en utilisant le test du rapport de vraisemblance qui a une distribution asymptotique χ2 .
Dans le cas où n > 2 et donc possiblement que r > 1, les choses deviennent plus
complexes. Le test nécessite une procédure spéciale d’implémentation mise au point par
Mosconi and Giannini (1992) et basée sur des itérations.
5 Stratégie de modélisation
Il s’agit maintenant de faire une synthèse de tout ce qui a été présenté et de donner des
indications sur la méthode à suivre pour mener une étude empirique. On va diviser la
méthode en un certain nombre d’étapes distinctes qui vont nous permettre de mieux lire
l’application empirique de la section suivante.
5.1 Quelques étapes
Il faut tout d’abord choisir et sélectionner un certain nombre de variables qui sont nécessaire
à l’étude du phémonème auquel on s’intéresse. L’époque des grands modèles de Cowles
Commission est révolue. On péfère maintenant étudier des petits modèles dont la dynamique est soigneusement spécifiée comme une fonction de consommation, une fonction
de demande de monnaie, des équations d’import-export, etc... On peut aussi envisager des
applications en finance concernant la structure des taux d’intéret, les mouvements des taux
de change, etc...
24
Il est d’usage de vérifier que le degré d’intégration des variables sélectionnées au moyen
de tests de racine unitaires univariés. Mais il ne faut pas oublier aussi qu’un test de
cointégration multivarié peut être vu comme un test de stationnarité joint si par exemple on
ne parvient pas à rejeter l’hypthèse que r = 0. Ce test signifie qu’il n’y a aucune tendance
stochastique restant dans le système.
On va ensuite s’intérroger sur le degré du VAR à considérer, c’est à dire décider de la
valeur de p. Si l’on considère d’emblée le modèle sous sa forme à correction d’erreur avec
la matrice Π non contrainte, les régresseurs exprimées en différence seront toujours stationnaires. On pourra alors sélectionner le nombre de retards dans le VAR non contraint au
moyen d’un critère d’information usuel. Par exemple le critère d’information de Schwarz
qui, dans un cadre multivarié, s’écrira
SC(p) = log det Ω(p) +
log T 2
pn .
T
On choisira le nombre de retard p qui minimisera le critère d’information SC(p) en partant
d’un modèle avec un nombre de retards pmax La valeur de pmax dépend de la fréquence
d’observation. Par exemple, on choisira pmax = 2 avec des données annuelles, pmax = 5
avec des données trimestrielles. Les autres critères d’information sont
AIC(p) = log det Ω(p) +
et
2 2
pn ,
T
2 log log T 2
pn .
T
Il faut se méfier du fait qu’en général si la procédure indique qu’il faut retenir un grand
nombre de retards, c’est qu’il doit vraisemblablement manquer une variable dans le système
de départ. Les modèles VAR représentent une modélisation riche tenant compte de toutes
les interactions entre les variables où un petit nombre de retards devrait suffire.
Il faut maintenant choisir le rang de cointégration. On posera un terme constant non
contraint, c’est à dire un m libre et l’on va choisir rr par un test de la trace ou du lambdamax .
On va ensuite pourvoir effectuer un test de spécification portant sur le terme constant. On
va tester la présence d’un drift dans les n − r tendances stochastiques restantes.
Le ou les vecteurs de cointégration sont les principaux paramètres que l’on cherche à
estimer, car une normalisation adéquate permet de les interpréter. Il est évident que le cas
r = 1 est le plus facile à interpréter. Il s’agit alors de poser les restrictions d’identification
alternatives à la normalisation numérique β ′ Szz β = Ir . Ces restrictions d’identification se
poseront en fonction de l’interprétation que l’on veut donner aux vecteurs de cointégration.
On peut ensuite tester les diverses restrictions de suridentification que suggère la théorie
économique, comme l’égalité à 1 d’une élasticité de long terme. On peut ensuite choisir
de tester l’exogénéité d’une variable pour l’estimation de β. Ce test prépare une estimation
d’une équation structurelle.
L’estimation de la matrice de poids α et des matrices de coefficients dynamiques de
court terme Γi donne des valeurs qui sont peu interprétables sur le plan économique car il
s’agit de coefficients d’une forme réduite. Arrivé à ce point, on peut décider de s’arrêter
dans l’estimation et de faire une analyse impulsionnelle en orthogonalisant les résidus.
HQ(p) = log det Ω(p) +
25
On peut aussi décider de continuer la modélisation au moyen d’une ou plusieurs équations
structurelles comprenant les variations contemporaines des autres variables. Cette modélisation
sera d’autant plus justifiée que ces autres variables auront été testées comme exogènes. On
procèdera alors par moindre carrés en incomporant le retard des vecteurs de cointégration
estimés lors de l’étape par maximum de vraisemblance. Si les tests d’exogénéité ont été
négatifs, on peut estimer un modèle VAR structurel en supposant connus lors de la première
étape les vecteurs de cointégration.
5.2 Application empirique sur les données belges
On a laissé l’estimation de la demande de monnaie pour la Belgique un peu en panne dans la
dernière section, en montrant que les méthodes univariées dans ce cas présent ne donnaient
pas de résultat convaincant. On va maintenant reprendre le vecteur de trois variables et
appliquer la méthodologie que nous venons de présenter. On a choisi de prendre p = 2,
c’est à dire que le polynôme A(L) est de degré 2. Ce qui fait qu’il reste 28 observations pour
l’estimation. Commençons par estimer le modèle sans contrainte sur le terme constant. On
testera plus tard la validité d’une contrainte. Les trois valeurs propres du problème sont:
λ1 = 0.408 λ2 = 0.228 λ3 = 0.175
Calculons maintenant les deux statistiques de test de la valeur propre maximale et de la
trace. On reconstruit alors un tableau qui donne la valeur de ces statistiques avec les valeurs
critiques correspondantes:
H0
H1
λmax
95%
90%
H0
H1
trace
95%
90%
r = 0 r = 1 14.90 20.97 18.60 r = 0 r ≥ 1 27.32 29.68 26.79
r=1 r=2
7.25
14.07 12.07 r ≤ 1 r ≥ 2 12.63 15.41 13.33
r=2 r=3
5.38
3.76
2.69
r≤2 r=3
5.38
3.76
2.69
Si l’on se fie au seuil de 5%, aucune des statistiques n’indiquent la présence de cointégration.
Si l’on passe au seuil de 10%, alors le test de la trace permet d’accepter r = 1. Le vecteur
de cointégration est:
LMP = 0.94 LY − 3.83 LR
Dans les équations en différence, le mécanisme correcteur d’erreur apparaı̂t avec les poids
suivants:
∆LMP −0.16
∆LY
−0.10
∆LR
0.19
On peut tester l’hypothèse d’élasticité unitaire entre la monnaie et le revenu. Le vecteur β
contraint a pour valeur:
LMP = LY − 4.51 LR
26
Cette restriction est acceptée. La statistique de test, qui est distribuée selon une χ2 (1), a
une valeur de 0.23, ce qui correspond à une P value calculée de 0.63. On rappelle que les
valeurs critiques de la χ2 (1) sont de 3.84 à 5% et 2.71 à 10%.
Il reste à tester la possibilité d’une contrainte sur le terme constant. Réestimons le
modèle en faisant glisser le terme constant à l’intérieur de la matrice Z. Les valeurs propres
correspondantes sont dans ce cas:
λ1 = 0.506 λ2 = 0.376 λ3 = 0.225 λ4 = 0.000
On peut alors calculer la statistique de test au moyen de la formule du test donnée au
théorème 6:
1 − 0.376
1 − 0.225
−28(log
+ log
) = 7.71
1 − 0.228
1 − 0.175
Avec r = 1, la statistique de test a pour valeur 7.71 , ce qui est supérieur à la valeur critique
d’une χ2 (2) à 5% (5.99). En conséquence de quoi, la restriction de l’absence de trends
dans le processus de génération des données est rejetée.
L’approche par CVAR ne permet pas d’obtenir une équation structurelle. Une pratique courante consiste à sauver les valeurs de la solution de long terme telle que fournie
précédemment et l’utiliser ensuite dans une modélisation en deux étapes. Pour une équation
de demande de monnaie on obtient:
∆LMPt = − 1.21 + 1.16 ∆LYt − 1.34 ∆LRt − 0.25 RESt−1
[−2.41]
[5.23]
[−4.34]
R2 = 0.61 σ̂ = 0.025 ss = 0.0145
[−2.37]
χ2 (1)corr = 0.054 χ2 (2)norm = 0.62
ce qui fournit des résultats très proches pour le court terme de ceux que fourniraient une
approche ECM à la Hendry.
Le dernier type de test que l’on peut envisager consiste à estimer par moindres carrés les
autres équations de court terme du CVAR en se servant toujours de l’estimation du vecteur
cointégrant déjà obtenue par maximum de vraisemblance. Si les variables restantes, c’est
à dire ∆LR et ∆LY sont exogènes pour l’inférence, alors, le vecteur de cointégration ne
devrait pas apparaı̂tre significativement dans ces deux équations. On a:
∆LY = 0.38 ∆LY1 + 0.066 ∆LMP1 − 0.90 ∆LR1 + 0.099 RES1 + 0.50
[1.71]
[0.48]
[−3.16]
R2 = 0.50 σ̂ = 0.0179 ss = 0.00707
[1.19]
[1.24]
χ2 (1) corr = 1.50 χ2 (2) norm = 0.81
∆LR = 0.41 ∆LR1 − 0.33 ∆LY1 + 0.30 ∆LMP1 − 0.188 RES1 − 0.90
[1.62]
[−1.66]
R2 = 0.36 σ̂ = 0.0161 ss = 0.00572
[2.45]
[−2.51]
[−2.48]
χ2 (1) corr = 4.48 χ2 (2) norm = 0.71
Au vu de ces résultats, on constate donc qu’il y a exogénéité du revenu mais pas du taux
d’intérêt pour l’inférence sur les paramètres de la fonction de demande de monnaie en
Belgique. Il faudrait donc estimer par variables instrumentales l’équation de court terme.
6 INFÉRENCE ET TESTS DANS LES MODÈLES STRUCTURELS
27
6 Inférence et tests dans les modèles structurels
SVAR, tests de specification.
7 Conclusion
Que faut-il retenir des méthodologie de modélisation des variables I(1) que nous avons
présenté. Les méthodes univariées ne semblent pas donner de résultats convaincants quand
on dispose d’un faible nombre d’observations. La méthodologie multivariée de Johansen
semble plus convaincante, car elle produit des résultats qui ne sont pas biaisés en petit
échantillon. Par rapport à la méthodologie de “Hendry”, elle fournit un cadre naturel
pour tester l’exogénéité de certaines variables. Mais dès qu’il y a plus d’un vecteur de
cointégration, la méthode devient plus problématique. Il devient difficile d’interpréter la
signification des vecteurs de cointégration. Enfin dès que l’on veut analyser un groupe
important de variables, on bute sur le vieux problème qui oppose l’analyse d’une équation
séparée à celle du système complet: une erreur de spécification sur une équation se répercute
sur les résultats que l’on peut obtenir sur les autres. L’analyse en information complète est
peu robuste par rapport aux erreurs de spécification.
Il manque un certain nombre de points que l’on n’a pas traité et qu’il serait utile
d’envisager.
- tous les tests de mauvaise spécification. Il s’agit d’examiner la nature des résidus du
modèle et voir s’il reste de l’autocorrélation par exemple.
- Les impulse response function
- Les changements structurels de la même façon que l’on a examiné les tests de racine
unitaire avec rupture de tendance.
- Les modèles structurels qui sont la bonne façon d’utiliser les réponses impulsionnelles.
8 Lectures additionnelles
La littérature est abondante sur le sujet. On signalera tout d’abord les deux ouvrages compagnons de Johansen (1995) pour le cours et de Hansen and Johansen (1998) pour les
exercices. Mais ils ne concernent que l’approche par maximum de vraisemblance. Les
chapitres 3 et 4 de Lütkepohl and Krätzig (2004) couvrent plus de matière à un niveau
moins avancé. Il détaillent toutes les tests de mauvaise spécification et les tests de noncausalité. Le chapitre 7 de Banerjee, Dolado, Galbraith, and Hendry (1993) fournit une
bonne analyse des tests de cointégration basés sur une équation statique. Voir également le
chapitre 19 de Hamilton (1994).
9 EXERCICES
28
9 Exercices
9.1 Tabulation d’un test de cointégration
Considérez la régression de long terme:
yt = β xt + ut
On va supposer que ses résidus sont auto-corrélés à l’ordre un avec ut = ρ ut−1 + ǫt .
1) Combinez ces deux équations pour trouver une régression ayant une non-linéarité en
β ρ.
2) Approximez le terme non-linéaire βρ autour de deux estimateurs β̂ et ρ̂ à l’aide d’un
développement de Taylor réduit au premier ordre.
3) Imposez la contrainte ρ̂ = 1. Que devient l’équation après y avoir identifié les résidus
ût−1 . Indiquez une méthode pour les estimer.
4) Dites quelle est l’hypothèse nulle de non-cointégration dans cette régression de test.
5) La distribution de la statistique de Student est non-standard. Par quelle expérience
de Monte Carlo la tabuleriez vous?
• Idées de solutions Il faut trouver
yt = ρyt−1 + βxt − ρβxt−1 + ǫt
L’approximation de Taylor est
ρβ = ρ̂β̂ + (ρ − ρ̂)β̂ + (β − β̂)ρ̂
Posons ρ̂ = 1 et remplaçons dans l’équation initiale. Après rearrangement des termes, on a
∆yt = β∆xt + (ρ − 1)(yt−1 − β̂xt−1 ) + ǫt
où l’on reconnaı̂t l’expression des résidus de la régression statique. L’hypothèse nulle
de non-cointégration est ρ = 1. On va tester la nullité du coefficient de régression de
ut−1 . Pour une expérience de Monte Carlo, on va générer une séries d’échantillons
sous l’hypothèse nulle ρ = 1, c’est à dire ∆yt = β∆xt + ǫt . On en tirera les résidus
estimés ût = yt − β̂xt . On estimera la régression de test
∆yt = β∆xt + (ρ − 1)ût−1 + ǫt
et on tabulera la distribution de la statistique de Student pour le régresseur ût−1 .
9 EXERCICES
29
9.2 Regression statique
Soit la régression statique de long terme suivante où yt et xt sont deux variables I(1):
yt = cste + βxt + ut
1) Écrivez la régression auxiliaire pour tester la cointégration entre yt et xt .
2) Dans un exemple empirique, la statistique du test de Engle et Granger vaut -3.00. On
a la table suivante où n est le nombre total de variables I(1) (donc sans compter le
terme constant)
n
5%
1
2
3
4
-2.86 -3.34 -3.74 -4.10
Que concluez vous? Si maintenant xt était un vecteur à deux composantes I(1) et que
la valeur de la statistique de test était -4.00, quelle serait votre nouvelle conclusion?
3) A quel cas correspond la valeur n = 1?
• Idées de solutions La régression auxiliaire porte sur les résidus estimés
ˆ t = ρût−1 +
∆u
p
X
γ̂j ∆ut−j + ǫt
j=1
Dans le premier cas n = 2 et la valeur critique est inférieure à la valeur de la table. On
ne peut rejeter l’hypothèse de non-cointégration. Dans le deuxième cas, n = 3 et la valeur
critique est supérieure à la valeur de la table. On a donc cointégration. Le cas n = 1
correspond au test de racine unitaire simple.
9.3 Tests de Johansen
Commentez le listing informatique suivant.
Johansen Maximum Likelihood Procedure
(Trended case, with trend in DGP)
Cointegration LR Test Based on
Maximal Eigenvalue of the Stochastic Matrix
*****************************************************************
124 observations from 1961Q1 to 1991Q4. Maximum lag in VAR = 2.
List of variables included in the cointegrating vector:
D4LW
D4LPC
LUR
List of eigenvalues in descending order:
.31224
.049788
.014062
*****************************************************************
REFERENCES
30
Null Alternative Statistic 95% Crit. Value
90% Crit. Value
r = 0
r = 1
46.4144
20.9670
18.5980
r<= 1
r = 2
6.3327
14.0690
12.0710
r<= 2
r = 3
1.7561
3.7620
2.6870
*****************************************************************
1) Quel est le test de cointégration qui y est présenté. Quel autre test existe dans ce
contexte?
2) Combien y a t il de vecteurs de cointégration?
• Idées de solutions Le test présenté est celui de la valeur propre maximale. L’autre
test qui existe est celui de la trace. Le test rejette l’hypothèse nulle qu’il y ait
zéro vecteurs de cointégration, mais ne rejette pas l’hypothèse nulle d’un vecteur
de cointégration.
References
BANERJEE , A., J. D OLADO , J. W. G ALBRAITH , AND D. F. H ENDRY (1993): CoIntegration, Error-Correction, and the Econometric Analysis of Non-Stationary Data,
Advanced Texts in Econometrics. Oxford University Press, Oxford.
BANERJEE , A., J. D OLADO , D. H ENDRY, AND G. S MITH (1986): “Exploring Equilibrium
Relationships in Econometrics through Static Models: Some Monte Carlo Evidence,”
Oxford Bulletin of Economics and Statistics, 48, 253–277.
B HARGAVA , A. (1986): “On the Theory of Testing for Unit Roots in Observed Time Series,” Review of Economic Studies, 53, 369–384.
C AMPBELL , J., AND P. P ERRON (1991): “Pitfalls and Opportunities: What Macroeconomists Should Know about Unit Roots,” in NBER macroeconomics annual 1991, ed.
by O. J. Blanchard, and S. Fischer, pp. 141–201. MIT Press, Cambridge and London.
DAVIDSON , R., AND J. G. M AC K INNON (1993): Estimation and Inference in Econometrics. Oxford University Press, Oxford.
E NGLE , R. F., AND C. W. G RANGER (1987): “Cointegration and Error Correction: Representation, Estimation and Testing,” Econometrica, 55, 251–276.
E NGLE , R. F., AND S. YOO (1987): “Forecasting and Testing in Cointegrated Systems,”
Journal of Econometrics, 35, 143–159.
G RANGER , C. W. (1969): “Investigating Causal Relations by Econometric Models and
Cross Spectral Methods,” Econometrica, 37, 424–438.
G RANGER , C. W., AND P. N EWBOLD (1974): “Spurious Regression in Econometrics,”
Journal of Econometrics, 26, 1045–1066.
REFERENCES
31
H AMILTON , J. D. (1994): Time Series Analysis. Princeton University Press, Princeton.
H ANSEN , P., AND S. J OHANSEN (1998): Workbook on Cointegration, Advanced Texts in
Econometrics. Oxford University Press, Oxford.
J OHANSEN , S. (1988): “Statistical Analysis of Cointegration Vectors,” Journal of Economic Dynamics and Control, 12, 231–254.
(1991): “Estimation and Hypothesis Testing of Cointegration Vectors in Gaussian
Vector Autoregressive Models,” Econometrica, 59, 1551–1580.
J OHANSEN , S. (1995): Likelihood -based Inference in Cointegrated Vector Autoregressive
Models. Oxford University Press, Oxford.
J OHANSEN , S., AND K. J USELIUS (1990): “Maximum Likelihood Estimation and Inference on Cointegration with Applications to the Demand for Money,” Oxford Bulletin of
Economic and Statistics, 52, 169–210.
K REMERS , J., N. E RICSSON , AND J. D OLADO (1992): “The Power of Cointegration
Tests,” Oxford Bulletin of Economics and Statistics, 54, 325–348.
L ÜTKEPOHL , H., AND M. K R ÄTZIG (eds.) (2004): Applied Time Series Econometrics,
Themes in Modern Econometrics. Cambridge University Press, Cambridge.
M AC K INNON , J. (1991): “Critical Values for Cointegration Tests,” in Long-Run Economic
Relationships, ed. by R. F. Engle, and C. W. Granger, pp. 266–276. Oxford University
Press, Oxford.
M OSCONI , R., AND C. G IANNINI (1992): “Non-Causality in Cointegrated Systems: Representation, Estimation and Testing,” Oxford Bulletin of Economics and Statistics, 54,
399–417.
P HILLIPS , P., AND M. L ORETAN (1991): “Estimating Long Run Economic Equilibria,”
Review of Economic Studies, 58, 407–436.
P HILLIPS , P. C. (1991): “To criticize the critics: an objective Bayesian analysis of stochastic trends,” Journal of Applied Econometrics.
S AIKONNEN , P. (1991): “Asymptotically Efficient Estimation of Cointegration Regressions,” Econometric Theory, 7(1), 1–21.
S IMS , C. (1972): “Money, income and causality,” American Economic Review, 62(4),
540–552.
S IMS , C. A., J. H. S TOCK , AND M. W. WATSON (1990): “Inference in Linear Time Series
with Some Unit Roots,” Econometrica, 58, 113–144.
S TOCK , J. (1987): “Asymptotic Properties of Least Squares Estimators of Cointegrating
Vectors,” Econometrica, 55, 1035–1056.
REFERENCES
32
S TOCK , J., AND M. WATSON (1993): “A Simple Estimator of Cointegrating Vectors in
Higher Order Integrated Systems,” Econometrica, 61(4), 783–820.
T SO , M. (1981): “Reduced-Rank Regression and Canonical Analysis,” Journal of the
Royal Statistical Society, B43, 183–189.

2 La Methode de Engle et Granger

Transcription

Documents pareils

Cointe forever - RDC Cointe Liège

Nos scolaires régionaux champions

DM2

Guillemins - Laveu - St-Nicolas

Chapitre 5 Intégration numérique

Texte 5ème

TD: Désintégration radioactive

The Outsider : Comblain-la-Tour

Ingénieur Java/J2EE