2 La Methode de Engle et Granger
Transcription
2 La Methode de Engle et Granger
CHAPITRE 5 Inférence et Tests dans les Modèles Cointégrés Michel LUBRANO Octobre 2007 Contents 1 Introduction 2 2 La Methode de Engle et Granger 2.1 Estimation en deux étapes . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Les problèmes de petit échantillon . . . . . . . . . . . . . . . . . . . . . . 2.3 Corrections de petit échantillon . . . . . . . . . . . . . . . . . . . . . . . . 3 3 6 6 3 Tests univariés de cointegration 8 3.1 Tests de cointégration basés sur les résidus . . . . . . . . . . . . . . . . . . 8 3.2 La contrainte de facteur commun . . . . . . . . . . . . . . . . . . . . . . . 10 3.3 Application à la demande de monnaie en Belgique . . . . . . . . . . . . . . 11 4 Estimation par Maximum de Vraisemblance 4.1 L’estimation des VAR sans contrainte . . . . . . . . . . . 4.2 Inférence dans un CVAR simplifié . . . . . . . . . . . . . 4.3 L’ajout de retards supplémentaires . . . . . . . . . . . . . 4.4 Le rôle du terme constant . . . . . . . . . . . . . . . . . . 4.5 Tests du rang de cointégration . . . . . . . . . . . . . . . 4.6 Distribution asymptotique des tests de cointégration . . . . 4.7 Test de l’absence de trends . . . . . . . . . . . . . . . . . 4.8 Test de restrictions linéaires sur le vecteur de cointégration 4.9 Test d’exogénéité . . . . . . . . . . . . . . . . . . . . . . 4.10 Non causalité de Granger . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 13 15 16 17 18 20 20 21 22 1 INTRODUCTION 2 5 Stratégie de modélisation 23 5.1 Quelques étapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2 Application empirique sur les données belges . . . . . . . . . . . . . . . . 25 6 Inférence et tests dans les modèles structurels 27 7 Conclusion 27 8 Lectures additionnelles 27 9 Exercices 9.1 Tabulation d’un test de cointégration . . . . . . . . . . . . . . . . . . . . . 9.2 Regression statique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Tests de Johansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 29 29 1 Introduction Le chapitre précédant a permis de mettre en lumière le type de modélisation adapté à la présence de racines unitaires dans un vecteur aléatoire quand celui-ci possédait la propriété de cointégration (stationnarité d’une combinaison linéaire des composantes non stationnaires du vecteur aléatoire). La cointégration est une propriété qui permet donc de réduire le nombre de trend stochastiques dans un vecteur aléatoire. Par rapport au cas univarié, la représentation autorégressive de la série devient nettement plus complexe, même si une écriture matricielle laisse entrevoir une certaine similitude. L’inférence et les tests dans les modèles autorégressifs avec cointégration deviennent eux aussi plus complexes. Deux branches de la littérature peuvent être distinguées. - L’une procède en deux étapes par moindres carrés ordinaires en analysant de manière séparée les équations statiques de cointégration puis ensuite les équations dynamiques en supposant connue la solution statique de long terme. Elle est exposée à l’origine dans Engle and Granger (1987). Un test permet de déterminer si une équation statique est cointégrante ou non. Mais aucun test ne permet d’examiner des restrictions sur le vecteur de cointégration. Cette méthode a connu des développements avec entre autres Phillips (1991) qui visaient à introduire des corrections de petit échantillon et à se ramener à un cadre usuel χ2 pour des tests de restriction sur le vecteur de cointégration. Ce sont des méthodes que l’on peut qualifier d’univariées dans la mesure où elles ne sont clairement définies que le cas où il n’y a qu’un seul vecteur de cointégration. - L’autre considère le modèle CVAR dans son ensemble et estime de manière conjointe tous les paramètres par maximum de vraisemblance. Un test de rapport de vraisemblance ayant une distribution non-standard, mais reliée à la distribution des tests ADF, permet de déterminer le rang r de cointégration. Conditionnellement à r les tests de restriction sur les vecteurs de cointégration et de poids ont une distribution χ2 . C’est l’approche dite de Johansen (1988) qui a été développé par la suite 2 LA METHODE DE ENGLE ET GRANGER 3 dans Johansen (1991), Johansen and Juselius (1990) et Johansen (1995). On peut la qualifier de multivariée. Cette distinction va conditionner la présentation que nous allons en faire. Il est à noter que la première approche, si elle est plus facile à comprendre à première vue faisant appel aux simples moindres carrés, comporte des aspects qui sont in fine plus complexes à cause de la théorie asymptotique mise en jeu. La seconde approche, basée sur le maximum de vraisemblance, est finalement plus simple, une fois franchi le premier pas. A partir du moment où le rang de cointégration est déterminé, cette approche repose sur une théorie asymptotique standard. C’est elle qui est majoritairement utilisée dans les logiciels comme Jmulti, Stata ou PcFiml par exemple. 2 La Methode de Engle et Granger Pour saisir les problèmes qui vont se poser, un petit exemple tiré de Engle and Granger (1987) et repris dans Davidson and MacKinnon (1993) sera bien utile. Considérons le modèle bivarié suivant: β1 yt − xt = u1t , (1 − ρ1 L) u1t = ǫ1t (1) yt − β2 xt = u2t , (1 − ρ2 L) u2t = ǫ2t où les ǫt sont normaux de moyenne nulle et de variance Ω. Tant que ρ1 et ρ2 seront inférieurs à un en valeur absolue, les deux variables yt et xt seront I(0). Si par contre ils sont tous les deux égaux à un, yt et xt seront I(1), mais pas cointégrés. On obtiendra la cointégration pour par exemple ρ2 < 1 et ρ1 = 1. Alors le vecteur de cointégration sera [1, −β2 ]. Les erreurs de la première équation sont I(1) car ∆u1t = ǫ1t , ce qui implique yt et xt sont I(1). Par contre les erreurs de la seconde équation sont stationnaires. 2.1 Estimation en deux étapes La méthode d’estimation proposée par Engle and Granger (1987) procède en deux étapes. On estime tout d’abord le vecteur de cointégration par moindres carrés, puis remplaçant ce vecteur par son estimation dans le modèle général, on estime dans une seconde étape les coefficients dynamiques du modèle. La première étape consiste donc à régresser par simples moindres carrés une des composantes de la variable multivariée sur les autres pour obtenir une estimation du vecteur de cointégration. Supposons que le modèle multivarié s’écrive: A(L)(∆Xt − ∆T Dt ) = αβ ′(Xt−1 − T Dt−1 ) + ǫt (2) et que le rang de cointégration soit égal à un. β est alors un vecteur colonne. On va choisir d’en normaliser le premier élément et de partitionner Xt de manière conforme en: β′ = [1, β̃] Xt′ = [yt , Yt′ ] 2 LA METHODE DE ENGLE ET GRANGER 4 Alors pour estimer β̃, il suffit d’utiliser les moindres carrés dans la régression: yt = β̃ ′ Yt + T Dt + ǫ̃t (3) où β̃ correspond aux éléments non normalisés de β. Engle and Granger (1987) [voir aussi Stock (1987)] montrent que cette procédure est valide asymptotiquement malgré deux problèmes qui semblent se poser. Premièrement comme on cherche une relation de cointégration, c’est que yt et Yt sont déterminés de manière conjointe. Donc il y a corrélation entre les erreurs ǫ̃t et les variables explicatives Yt . On peut constater cela de manière aisée sur le petit exemple du début. La vraie relation de cointégration est: yt = β2 xt + ρ2 (yt−1 − β2 xt−1 ) + ǫ2t (4) Si l’on estime simplement la régression: yt = β̃xt + ǫ̃t (5) ǫ̃t = ρ2 (yt−1 − β2 xt−1 ) + ǫ2t (6) le terme d’erreur implicite ǫ̃t devient: ce qui montre alors la corrélation entre xt et ǫ̃t . Deuxièmement les régresseurs sont tous I(1), ce qui de facto nous ramène à la question des régressions factices. Pourtant ces deux problèmes ne sont pas rédhibitoires comme nous allons le voir maintenant. Le fait que les variables soient I(1) permet d’obtenir un théorème de consistance qui est initialement du à Stock (1987): Théorème 1 Supposons que le vecteur aléatoire Xt admette une représentation de Wold multivariée ∆Xt = C(L) ǫt et qu’il soit cointégré de rang 1 et de vecteur de cointégration β. Soit β̂ l’estimateur OLS du vecteur de cointégration correctement normalisée. Alors sous des conditions très générales on a: p T 1−δ (β̂ − β) → 0 ∀δ > 0 Ce théorème montre que les paramètres estimés convergent très vite vers leurs vraies valeurs. Au lieu de la vitesse habituelle de T 1/2 , ils convergent à la vitesse T . Le problème de la corrélation entre xt et ǫ̃t ne joue pas asymptotiquement car xt ∼ I(1) alors que ǫ̃t ∼ I(0) à cause des propriétés de cointégration. Aussi dans l’expression du biais, les termes en xt domineront les termes en ǫ̃t . Quand au problème de régression factice, il ne jouera pas à nouveau à cause des propriétés de cointégration. Dans une régression factice, un des problèmes vient de ce que les résidus sont I(1). Ici ils sont I(0) par propriété de cointégration. Enfin le R2 de la régression tendra asymptotiquement vers l’unité. En conséquence l’arbitraire de la normalisation ne joue plus asymptotiquement car toutes les régressions deviennent équivalentes. 2 LA METHODE DE ENGLE ET GRANGER 5 La deuxième étape de la méthode d’estimation consiste à reporter dans le modèle ECM-VAR l’estimation du vecteur de cointégration et d’estimer par moindres carrés les paramètres du modèle: A(L)(∆Xt − ∆T Dt ) = α β̂ ′ (Xt−1 − T Dt−1 ) + ǫt (7) ou une des équations du modèle ECM structurel correspondant. Cette seconde étape ne pose aucun problème particulier car tous les régresseurs sont maintenant I(0). Le fait d’utiliser l’estimation de β au lieu de sa vraie valeur n’apporte aucune perturbation comme le montre le théorème suivant donné par Engle and Granger (1987): Théorème 2 L’estimation en deux étapes d’une équation d’un système à correction d’erreurs, obtenue en considérant β̂ comme vraie valeur conduit à la même distribution asymptotique que l’estimation par maximum de vraisemblance obtenue en prenant la vraie valeur de β. Les écart-types des moindres carrés sont des estimateurs consistants des vrais écart-types. Ce résultat montre que dans la deuxième étape, on peut utiliser une théorie standard pour effectuer des tests sur les valeurs des paramètres qui caractérisent la dynamique de court terme. Intuitivement ce résultat se comprend dans la mesure où maintenant on n’a plus que des variables qui sont I(0) dans la régression, y compris le régresseur de première étape zt−1 qui est I(0) par propriété de cointégration. Exemple 1: Reprenons le petit exemple du début et appliquons la méthode. On a tout d’abord: β1 yt − xt = u1t ∆u1t = ǫ1t yt − β2 xt = u2t (1 − ρ2 L) u2t = ǫ2t En multipliant la première équation par (1−L) et la seconde par (1−ρ2 L), on obtient après substitution et réarangement des termes: β1 ∆yt − ∆xt = ǫ1t ∆yt − β2 ∆xt − (ρ2 − 1)(yt−1 − β2 xt−1 ) = ǫ2t On remplace maintenant dans le système le terme de long terme yt − β2 xt par son estimation de première étape que l’on note ẑt et on résout cette forme structurelle en forme réduite par substitution: ∆xt = ∆yt ρ2 − 1 ẑt−1 + 1 − β2 ρ2 − 1 β1 ǫ2t − ǫ1t β1 − β1 β2 ǫ2t − β2 ǫ1t = ẑt−1 + 1 − β1 β2 1 − β1 β2 La deuxième étape permet d’estimer ρ2 et β1 à partir du moment où l’on a déjà estimé β2 . On remarque ensuite que si ρ2 tend vers un, on n’a plus de cointégration, car alors le terme en ẑt−1 disparaı̂t. 2 LA METHODE DE ENGLE ET GRANGER 6 Il existe un autre résultat dans la littérature qui est du à Sims, Stock, and Watson (1990) et qui complète dans une certaine mesure le théorème 2. Dans ce papier les auteurs abordent l’estimation d’un modèle VAR ajusté sur des niveaux de variables I(1) en présence de cointégration. La méthode d’estimation est en une seule étape et utilise les moindres carrés. Ils montrent que la théorie asymptotique standard peut encore s’appliquer quand on teste la valeur d’un paramètre attaché à une variable qui par reparamétrisation se trouve I(0), y compris quand la caractère I(0) est obtenu par l’utilisation de la propriété de cointégration. A l’intérieur d’une même estimation, on peut donc séparer les résultats d’inférence sur les variables I(1) qui sont non-standard de ceux sur les régresseurs I(0) qui eux sont standards. Ce résultat vient de la différence dans les vitesses de convergence. Mais il faudra utiliser ces résultats avec prudence, car ils ne sont valables que sur des coefficients individuels. En effet les différences de vitesse de convergence font que la matrice de variance-covariance de l’estimateur OLS des coefficients de régression est singulière. 2.2 Les problèmes de petit échantillon La méthode en deux étapes a le mérite de la simplicité. Mais de sérieux problèmes se posent en petit échantillon. Tout d’abord le théorème 1, s’il montre que l’estimateur OLS du vecteur cointégrant est consistant, il montre aussi qu’il a un biais de petit échantillon d’ordre 1/T . Une des sources de biais est apparente dans la régression de cointégration du petit exemple du dessus. Elle vient du facteur omis ρ2 (yt−1 − β2 xt−1 ) qui entraı̂ne un problème de biais de simultanéité et un problème d’autocorrélation des erreurs. Ce facteur est I(0) et donc devient négligeable asymptotiquement car les régresseurs sont I(1). Mais en petit échantillon il peut être important si ρ2 est proche de un. En effet au plus ρ2 se rapproche de l’unité au plus on s’éloigne de la situation de cointégration. Les expériences de Monte Carlo de Stock (1987) ainsi que celles de Banerjee, Dolado, Hendry, and Smith (1986) montrent que le biais de petit échantillon des OLS peut être très important dans une régression statique. Dans son papier Stock (1987) montre aussi que la distribution asymptotique de cet estimateur suit encore une fonctionnelle de processus de Wiener. Mais elle dépend très fort des vraies valeurs des paramètres de nuisance, si bien qu’aucune table ne peut être construite pour un cas général. A titre d’exemple les valeurs rapportées par Stock pour un cas particulier au seuil de 5% varient entre -59.96 et -2.63 pour une taille d’échantillon de 200. On ne pourra donc effectuer de test sur les éléments du vecteur de cointégration quand celui-ci est estimé par moindres carrés dans une régression statique. 2.3 Corrections de petit échantillon A REVOIR ET RACOURCIR Il existe plusieurs manières d’obtenir un estimateur de θ qui ait de meilleures propriétés de petit échantillon. Il faut d’une part pouvoir corriger l’autocorrélation des erreurs. Ceci est toujours possible en employant une méthode non-paramétrique du type de celle employée par Phillips et Perron (1988) pour les tests de racine unitaire. Mais il faut d’autre part corriger le biais d’endogénéité, et celui-ci est plus difficile à éliminer . Ce biais n’existe 2 LA METHODE DE ENGLE ET GRANGER 7 plus si les innovations de yt ne causent pas au sens de Granger les innovations de Yt dans la régression statique de cointégration yt = β̃ ′ Yt +T Dt +ǫ̃t . On peut alors retrouver la théorie asymptotique standard à base de χ2 comme le soulignent Campbell et Perron (1991). Mais ces conditions sont très restrictives, surtout pour la non-causalité. Plusieurs auteurs ont proposé des corrections de petit échantillon qui tiennent compte des deux problèmes évoqués: autocorrélation des erreurs et biais de simultanéité. Ce dernier vient en général de ce que les innovations de yt causent les innovations de Yt . On sait d’après les tests de Sims (1972) sur la non-causalité que si yt cause la variable Yt , alors yt peut s’exprimer comme une combinaison linéaire des valeurs passées, présentes et futures de Yt . L’idée c’est que si yt cause Yt , les valeurs futures de Yt seront utiles pour prédire yt . L’idée qui est contenue dans l’approche de plusieurs auteurs dont Saikonnen (1991) consiste à corriger le biais de simultanéité par des régresseurs supplémentaires constitués de retards et d’avances de ∆Yt pour conduire à la régression cointégrante: ′ yt = β̃ Yt + T Dt + p X ∆Yt−j ηj + ǫ̃t (8) j=−p On peut ensuite corriger l’autocorrélation des résidus en employant par exemple des GLS. C’est ce que proposent Stock and Watson (1993) qui montrent qu’alors on peut utiliser les tests de Wald standards qui sont asymptotiquement distribués selon des χ2 . Phillips and Loretan (1991) utilisent par contre une correction paramétrique pour l’autocorrélation qui consiste à ajouter à la régression précédente des retards de la variable de cointégration (yt − β ′ Yt ): ′ yt = β̃ Yt + T Dt + p X j=−p ∆Yt−j ηj + q X i=1 (yt−i − β ′Yt−i )ζi + ǫ̃t (9) Là encore on retrouve des résultats de théorie asymptotique basés sur la distribution du χ2 . Hamilton (1994) dans son chapitre 19 traite de façon complète un exemple bivarié où il montre comment la correction de petit échantillon permet de récupérer in fine des tests standards portant sur des restrictions sur le vecteur de cointégration. Mais la méthode est un peu lourde car elle requiert une régression auxiliaire. La méthode alternative à la procédure en deux étapes de Engle and Granger (1987) la plus simple consiste à considérer dans un cadre univarié, c’est à dire quand il n’y a qu’un seul vecteur de cointégration un modèle à correction d’erreurs du type: ∆yt = µ + αyt−1 + δxt−1 + γ∆xt + ut Davidson and MacKinnon (1993) montrent que par une série de reparamétrisations, tous les coefficients de cette régression peuvent être attachés à un régresseur qui soit I(0). On peut donc utiliser les résultats de Sims, Stock, and Watson (1990) cités plus haut pour estimer cette équation directement par moindres carrés, même si certains régresseurs sont I(1). En l’absence d’autocorrélation des erreurs, le biais de simultanéité est corrigé. Banerjee, Dolado, Hendry, and Smith (1986) montrent que cette méthode donne en général de meilleurs résultats que la méthode en deux étapes de Engle and Granger (1987). 3 TESTS UNIVARIÉS DE COINTEGRATION 8 3 Tests univariés de cointegration Tout les les méthodes d’estimation supposent que l’on connaisse soit le rang r de cointégration pour les méthodes multivariées par maximum de vraisemblance (que l’on n’a pas encore exposées), soit la validité de l’hypothèse de cointégration quand on estime l’équation de long terme dite de cointégration. Il faut donc disposer de procédures de tests. Dans le cadre bivarié les tests de cointégration sont de simples extensions du tests de Dikey et Fuller sur les résidus de la régression de cointégration. Dans le cadre multivarié, il faudra faire des tests sur le rang de la matrice Π dans l’équation: ∆Xt = β0 + Π(Xt−1 − µ − δt) + A∗ (L)∆Xt−1 + ǫt (10) 3.1 Tests de cointégration basés sur les résidus L’idée qui est à la base de cette catégorie de tests est très simple. Si deux variables yt et xt sont I(1) et cointégrées, alors il existe une combinaison linéaire zt de ces variables qui est I(0). Pour la trouver, il suffit de régresser yt sur xt . On aura alors une estimation de zt au moyen des résidus de cette régression. Il suffit de tester ensuite la présence d’une racine unitaire dans ces résidus pour tester la cointégration. Ces types de tests sont principalement dus à Engle and Granger (1987). On retombe donc sur un problème connu. Si la valeur du vecteur cointégrant β était connue, on n’aurait qu’à utiliser les tests usuels de racine unitaire et leur tables associées qui ont été données dans le chapitre 3. Il est des cas où ce vecteur est connu, notamment quand la théorie économique impose des élasticités de long terme égales à l’unité. On peut par exemple tester la cointégration entre la consommation Ct et le revenu disponible RDt en imposant que l’élasticité de long terme soit unitaire. Si la relation est en logarithme, il suffira alors de faire un test de racine unitaire avec terme constant sur la variable log(Ct /RDt ). Maintenant le vecteur cointégrant β n’est en général pas connu et on doit l’estimer. On a vu plusieurs procédures pour cela dans le paragraphe précédent. On doit donc tenir compte de cette estimation dans le choix des valeurs critiques car la distribution asymptotique du test dépend du nombre de régresseurs contenus dans la régression cointégrante. Reprenons le cas d’une relation de cointégration entre yt et xt où xt est possiblement un vecteur. On devra tout d’abord conduire la régression cointégrante qui pourra contenir en général un terme constant et éventuellement un trend. On aura donc: yt = µ + δt + β̃ ′ xt + ut (11) Appelons ût les résidus de cette régression. Le test de cointégration va se faire au moyen d’un test du type de celui de Dickey et Fuller souvent appelé test de Engle et Granger (EG) dans ce contexte: ∆ût = (ρ − 1)ût−1 + ǫt (12) Mais comme l’autocorrélation est souvent un problème, on emploiera un test AEG (Augmented Engle Granger) qui revient à rajouter à la régression de test des retards de ∆ût . 3 TESTS UNIVARIÉS DE COINTEGRATION 9 Table 1: Valeurs critiques asymptotiques pour le test AEG de cointégration 5% 10% n=2 sans trend -3.34 -3.04 avec trend -3.78 -3.50 n=3 sans trend -3.74 -3.45 avec trend -4.12 -3.84 n=4 sans trend -4.10 -3.81 avec trend -4.43 -4.15 n=5 sans trend -4.41 -4.13 avec trend -4.72 -4.44 n=6 sans trend -4.71 -4.42 avec trend -4.98 -4.70 Ces valeurs ont été calculées à partir de MacKinnon (1991). Plusieurs tables pour les valeurs critiques des tests de cointégration ont été publiées à commencer dans l’article de Engle and Granger (1987). On peut citer aussi Engle and Yoo (1987) qui complète les tables précédentes. Mais on préférera se fier à celle de MacKinnon (1991) qui semble plus précise. Les valeurs critiques données par la Table 1 dépendent de la taille n de la série multivariée dont on veut tester la cointégration. Rappelons que à cause de la normalisation, si la régression cointégrante comprend un seul régresseur, il faudra utiliser les valeurs pour n = 2, n = 1 correspondant à un test de racine unitaire classique. Si l’on a introduit un terme constant dans la régression cointégrante ou un trend, les valeurs critiques seront également différentes. Notons que constante et trends sont introduits dans la régression cointégrante et non dans la régression de test. Plusieurs remarques sont à faire sur cette procédure de test. Remarques: - Concernant la table, on retrouve la même caractéristique que dans le cas des racines unitaires. A savoir que l’ajout de termes déterministes modifie la distribution asymptotique du test et fait baisser sa puissance. Il en va également avec le nombre n de variables. - Ensuite concernant l’obtention des résidus estimés; on a vu que la procédure OLS d’estimation de la relation de long terme était valide asymptotiquement, mais posait de sérieux problèmes en petit échantillon. Les biais de petit échantillon mentionnés précédemment vont bien sûr se répercuter sur les résultats des tests. De même que 3 TESTS UNIVARIÉS DE COINTEGRATION 10 les changements de normalisation. Aussi, bien qu’il existe des tables pour des tailles variables d’échantillon, on a préféré ne pas les donner à cause des incertitudes que nous venons de mentionner. Il existe d’autres tests de cointégration basés sur les résidus dont on n’a pas parlé. Il en est un donné dans Engle and Granger (1987) qui est basé sur la statistique de Durbin et Watson et appelé par Engle et Granger CRDW. C’est la contrepartie en cointégration du test de Bhargava (1986) pour les racines unitaires. Engle et Granger n’en donnent les tables que pour le cas n = 2 et 100 observations. A 5% on a une valeur critique de 0.386, mais qui peut varier très fort en fonction de la taille de l’échantillon. Campbell and Perron (1991) recommandent de ne pas employer ce test. On peut toutefois se rappeler la règle heuristique donnée par Granger and Newbold (1974) concernant les régressions factices. Au vu de la théorie moderne, une régression factice est une régression entre des variables I(1) qui ne sont pas cointégrées. Les résidus sont donc encore I(1). Cette règle donne un signal d’alarme chaque fois que dans une régression, la statistique DW est inférieure au R2 . Elle est à retenir comme une première approche. 3.2 La contrainte de facteur commun Il est aisé au vu des tables et des valeurs critiques très élevées que l’hypothèse nulle de non-cointégration (ou racine unitaire dans les résidus) sera rarement rejetée. C’est ce que remarquent Kremers, Ericsson, and Dolado (1992) sur la base d’expériences empiriques. Leur expérience a consisté à tester la cointégration entre le logarithme du ratio consommation/revenu disponible et le taux d’inflation, ce sur treize pays entre 1952 et 1985. Sur les treize cas, ils ne trouvent de la cointégration que dans quatre cas et encore à 10%. Par contre dans une formulation ECM, le coefficient attaché au résidu retardé (en supposant que celui-ci est stationnaire) est significatif dans 10 cas sur 13. Dans leur papier Kremers, Ericsson, and Dolado (1992) montrent que ce rejet trop fréquent des tests AEG est du à une restriction de facteur commun contenue de manière implicite dans ces tests. Nous allons montrer ceci maintenant sur un petit exemple. Considérons: ∆yt = γ∆xt + α (yt−1 − βxt−1 ) + ǫt (13) ∆xt = ut où ut et ǫt sont deux bruits blancs indépendants et normaux de variance respective σǫ2 et σu2 . Que se passe-t-il dans le test AEG basé sur les résidus de la régression statique? Retirons β∆xt de chaque côté de la régression initiale: ∆(yt − β xt ) = (γ − β) ∆xt + α (yt−1 − β xt−1 ) + ǫt (14) et remplaçons yt −β xt par zt . On va ainsi retrouver une certaine expression de la régression de test de Engle et Granger: ∆zt = α zt−1 + (ǫt + (γ − β) ∆xt ). (15) 3 TESTS UNIVARIÉS DE COINTEGRATION 11 Le vrai modèle impose la présence de ∆xt alors que la régression de Engle et Granger ignore ce terme qu’elle confond avec les résidus. L’erreur commise n’est pas très importante tant que γ est proche de β, c’est à dire que l’élasticité de court terme est à peu près la même que l’élasticité de long terme. Mais imposer à tort la restriction que γ = β c’est à dire la présence d’un facteur commun nuit gravement à la puissance du test ADF. 3.3 Application à la demande de monnaie en Belgique On va maintenant traiter un petit exemple empirique qui concerne la demande de monnaie M1 en Belgique. Les données sont annuelles et couvrent la période 1953 − 1982. La théorie économique fournit une relation d’équilibre qui relie le logarithme de la quantité réelle de monnaie LMP au logarithme du revenu réel LY P et au taux d’intérêt R. On a pris les définitions suivantes pour les variables. M1 est la masse monétaire M1, Y P est le revenu disponible réel des particuliers. R est le taux sur les certificats de trésorerie à trois mois. Afin de conserver une relation en logarithme, on va prendre la transformation LR = log(1 + rt /100). On doit d’abord commencer par vérifier que les séries sont toutes les trois bien I(1). On a les régressions suivantes: ∆LMPt = 0.095 LMPt−1 − 0.005 − 0.004 t [1.00] [−0.10] [−1.77] DW = 1.98 R2 = 0.22 ∆LRt = −0.57 Rt−1 + 0.0001 + 0.002 t [−3.12] [0.019] [3.10] DW = 1.89 R2 = 0.28 ∆LYt = 0.039 LYt−1 − 0.17 − 0.0023 t [0.34] [−0.27] [−0.51] DW = 1.53 R2 = 0.082 ce qui fait que l’on ne rejette pas l’hypothèse de racine unitaire pour ces trois variables. La valeur critique du test à 5% est de -3.41 avec un trend. La méthode en deux étapes de Engle et Granger commence par estimer une régression statique sur les niveaux de ces trois variables. Cette première régression ne donne pas des résultats convaincants et illustre bien les problèmes de petit échantillon: LMP = 0.78 LY − 2.49 LR − 3.87 [17.77] [−5.84] [−15.13] DW = 0.87 R2 = 0.96 La valeur du coefficient de long terme de LY est biaisée vers le bas, alors qu’on s’attendrait à une valeur proche de l’unité. Un test de racine unitaire sur les résidus de cette équation fait office de test de cointégration. On obtient une valeur de -2.52 qui est très inférieur à la valeur critique à 5% qui est -3.74. Donc on ne peut rejeter l’hypothèse nulle de noncointégration avec ce test. On remarque également que la règle heuristique de Granger et Newbold s’applique ici car le R2 est plus grand que le DW. 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 12 Il est toutefois intéressant de poursuivre la méthode et d’estimer l’équation de court terme dans laquelle on a ajouté le résidu estimé retardé de un de l’équation statique: ∆LMPt = −0.023 + 1.28 ∆LYt − 1.25 ∆LRt − 0.33 RESt−1 [−2.84] [6.03] [−4.60] [−2.80] DW = 2.13 R2 = 0.64 χ2 corr = 0.45 On constate que les élasticités de court terme dans cette équation sont très différentes des élasticités de long terme trouvées avec l’équation statique. Le test AEG qui impose l’égalité de ces élasticités subit donc une perte de puissance dans ce cas. 4 Estimation par Maximum de Vraisemblance La procédure de maximum de vraisemblance initialement proposée par Johansen (1988) permet d’obtenir une estimation à la fois simple et efficace des vecteurs de cointégration ainsi d’ailleurs que des autres paramètres du modèle. Il n’est donc plus besoin de considérer une modification de l’estimateur des moindres carrés pour avoir un estimateur efficace. Le problème de maximisation est relativement simple. Il s’agit d’estimer un VAR de la forme: ∆Xt = m + Π Xt−1 + A∗ (L) ∆Xt + ǫt ǫt ∼ N(0, Ω) (16) en imposant une perte de rang sur Π au moyen de la contrainte Π = α β ′. C’est un problème classique en statistique multivariée qui se résout par un calcul de valeurs propres et de vecteurs propres. La matrice de cointégration β sera égale aux r vecteurs propres correspondant aux r plus grandes valeurs propres d’une certaine matrice. Le rang de cointégration sera déterminé par un test sur la nullité des n − r plus petites valeurs propres qui correspond à un test de rapport de vraisemblance. Ce test a une distribution non-standard qui est une généralisation multivariée du carré de la distribution du test de Dickey et Fuller. Par contre, une fois déterminé r , il est possible de construire des tests de restriction sur α et β qui ont une distribution χ2 . On présentera tout d’abord le cas sans terme constant où m = 0. Puis on introduira le rôle du terme constant m avec diverses hypothèses de modélisation en détaillant les conséquences sur la distribution asymptotique du test du rang de cointégration. Mais il est utile de commencer par le cas simple de l’estimation d’un VAR contraint. 4.1 L’estimation des VAR sans contrainte On part du modèle simple ∆Xt = m + Π Xt−1 + A1 ∆Xt−1 + · · · + Ap−1 ∆Xt−p+1 + ǫt (17) sans faire porter de contraintes sur la matrice Π. Si toutes les composantes de X sont I(0), alors la matrice Π sera de rang plein. Si toutes les composantes de X sont I(1) et que l’équation caractéristique associée au modèle initial tout en niveau a toutes ses racines sur le cercle unité, alors la matrice Π sera nulle. Enfin, si seulement certaines des racines de 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 13 l’équation caractéristique sont sur le cercle unité, on aura cointégration. Dans tous les cas on peut estimer ce modèle sans contrainte dans sa forme reparamétrisée. On va construire les matrices suivantes d’observations Y = [∆Xt ] X = [1, Xt−1 , ∆Xt−1 , · · · , ∆Xt−p+1 ] et pour les paramètres B = [m, Π, A1 , · · · , Ap−1 ] On va donc considérer la notation matricielle Y = XB + E Ce modèle de régression multivarié s’estime par moindres carrés et l’on a B̂ = (X ′ X)−1 X ′ Y Sous les hypothèse habituelles de régularité, cet estimateur est asymptotiquement normal avec: √ L T vec(B̂ − B) → N(0, ΣA ). Ce résultat est valide dans les trois cas répertoriés comme l’a montré entre autres Sims, Stock, and Watson (1990). Par contre, dès que X comporte des variables I(1), la matrice de variance covariance ΣA = (X ′ X)−1 ⊗ Ω sera singulière, ce qui rend les problèmes de test un peu plus délicats. Dès que l’on veut tenir compte du fait que Π puisse être singulière, et en fait estimer les vecteurs de cointégration, il faut passer à un estimateur sous contrainte et mettre en oeuvre les techniques du maximum de vraisemblance. 4.2 Inférence dans un CVAR simplifié On va partir du modèle très simple: ∆Xt = Π Xt−1 + ǫt Π = α β′ ǫt ∼ N(0, Ω) (18) Ce modèle est l’équivalent multivarié du plus simple des tests de Dickey et Fuller, c’est à dire sans composante déterministe et sans retards de la variable en différence. Ce modèle est irréaliste d’un point de vue empirique, mais permet d’introduire les calculs de manière simple. Le log de la fonction de vraisemblance de ce modèle s’écrit: T T 1X log L ∝ − log det Ω − [∆Xt − α β ′ Xt−1 ]′ Ω−1 [∆Xt − α β ′Xt−1 ] 2 2 t=2 (19) On va poser: Yt = ∆Xt et Zt = Xt−1 (20) On a donc : Yt = α β ′ Zt + ǫt (21) 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 14 Calculons les statistiques suivantes: Syy T 1X = Yt Yt′ T t=1 Szz T 1X = Zt Zt′ T t=1 Szy T 1X = Zt Yt′ T t=1 (22) Comme il s’agit en fait d’un modèle multivarié sans restrictions inter-équations, on peut concentrer la vraisemblance à β donné pour trouver l’estimateur des moindres carrés de α et Ω: α̂(β) = Syz β [β ′ Szz β]−1 (23) Ω̂(β) = S − S β[β ′ S β]−1 β ′ S yy yz zz zy Le logarithme de la vraisemblance concentrée est alors: log Lc (β) ∝ − T log det Ω̂(β) 2 (24) Trouver le maximum de cette fonction de vraisemblance est équivalent à chercher le minimum en β de l’expression det Ω̂(β) ce qui est en fait exactement équivalent à un problème de LIML dans un modèle à équations simultanées qui se résout par un calcul de valeurs propres et de vecteurs propres associés. D’où le théorème suivant adapté de Johansen (1988): Théorème 3 L’estimateur du maximum de vraisemblance des r vecteurs cointégrants contenus dans la matrice β est donné par les r vecteurs propres associés aux r plus grandes valeurs propres λi dans le problème: −1 det(λSzz − Szy Syy Syz ) = 0 La valeur de la fonction de vraisemblance en son maximum est donnée par: L−2/T max = det(Syy ) r Y (1 − λ̂i ) i=1 en supposant que les valeurs propres λi sont rangées par ordre décroissant. Les estimateurs de α et Ω sont trouvés en remplaçant β par son estimation dans α̂(β) et Ω̂(β). Preuve: Considérons une matrice carrée symétrique A partitionnée en quatre. Les propriétés usuelles des déterminants des matrices partitionnées permettent d’écrire: |A| = |A11 |.|A22.1 | = |A22 |.|A11.2 | avec Aii.j = Aii − Aij A−1 jj Aji . Alors |A11.2 | = |A22.1 |.|A11 |/|A22 |. En construisant la matrice A comme: Syy Syz β A= β ′ Szy β ′ Szz β on a tout d’abord que Ω̂(β) = A11.2 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 15 On peut alors décomposer ce déterminant de manière à transformer la fonction à maximiser en: −1 |β ′Szz β − β ′ Szy Syy Syz β| T T − log |Syy | − log 2 2 |β ′ Szz β| en utilisant le fait que |A11.2 | = |A11 |.|A22.1 |/|A22 |. On peut négliger le terme en |Syy | qui ne dépend pas du paramètre β. Jusqu’à présent le paramètre β n’était pas normalisé. On peut choisir la normalisation commode β ′ Szz β = Ir . On se retrouve dans un problème classique soit de LIML sur un groupe d’équations, ou d’analyse canonique étudiée par example par Tso (1981). Le théorème suit des résultats de ce dernier papier. 2 Remarque: La normalisation β ′ Szz β = Ir imposée dans l’estimation est aussi une condition d’identification qui introduit r 2 restrictions indépendantes. Le vecteur β est donc bien identifié selon les critères exposés dans le chapitre 4. Mais cette façon d’identifier le modèle est arbitraire et n’a aucun sens économique. Elle est cependant commode car elle n’exclue aucun coefficient. On peut donc renormaliser la matrice β comme on l’entend par la suite. 4.3 L’ajout de retards supplémentaires Considérons maintenant le cas plus général où l’on autorise la présence de retards de ∆Xt . Le modèle se note en conformité avec les notations du chapitre précédent: ∆Xt = α β ′ Xt−1 + A∗ (L)∆Xt + ǫt (25) Si l’on appelle maintenant ∆X̃ la matrice qui contient tous les retards de ∆Xt , il est facile de généraliser les calculs qui précèdent en modifiant simplement la valeur des matrices Syy et Szz sur des arguments de régression partielle. Posons: MX = It − ∆X̃(∆X̃ ′ ∆X̃)−1 ∆X̃ ′ (26) En écrivant le modèle initial sous forme matricielle (en considérant toutes les observations), on peut le transformer au moyen de la matrice de projection MX en : MX Y = MX Z β α′ + MX ǫ (27) où Y , Z et ǫ désignent maintenant les T observations de l’échantillon. On appliquera les mêmes calculs, mais en remplaçant Y et Z dans les formules précédentes par MX Y et MX Z. 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 16 4.4 Le rôle du terme constant On s’attend bien, par similitude avec le cas univarié des racines unitaires, à ce que la distribution asymptotique de deux statistiques de test du rang de cointégration dépende de la présence d’un terme constant dans les relations de cointégration. On a d’autre part vu au cours du chapitre 4 que le terme constant jouait un rôle très particulier dans les relations de cointégration. Notons de la façon suivante un modèle CVAR où l’on a maintenant introduit un terme constant m: ∆Xt = m − α β ′ Xt−1 + A∗ (L) ∆Xt + ǫt (28) On a vu dans le chapitre 4 que m était lié au trend dans le processus non- stationnaire qui génère Xt . Il est toujours possible de décomposer le terme constant m de dimension n × 1 en: m = α β0 + α⊥ γ (29) ′ où α⊥ est une matrice n×(n−r) orthogonale aux colonnes de α et vérifiant donc α⊥ α = 0, β0 un vecteur r × 1 et γ un vecteur (n − r) × 1. Reportons maintenant cette décomposition dans la forme autorégressive du modèle: ∆Xt = α⊥ γ − α (β ′ Xt−1 − β0 ) + A∗ (L)∆Xt + ǫt (30) Si l’on impose la restriction: m = αβ0 (31) on annule les n − r dérives des composantes de Xt qui ne sont pas cointégrées car on a imposé α⊥ γ = 0. Le paramètre β0 représente simplement l’ordonnée à l’origine dans la relation de cointégration. Il est maintenant facile de voir comment on va introduire la présence du terme constant m pour l’estimation. Si l’on veut estimer le modèle en autorisant la présence de n − r trends linéaires, il suffit d’ajouter 1 dans la matrice ∆X̃t pour avoir: ∆X̃t′ = [∆Xt−1 , . . . , ∆Xt−s , 1] (32) Si par contre on veut imposer la contrainte que ces n − r trends linéaires soient nuls, il suffit de déplacer le 1 de la matrice ∆X̃t vers la matrice Zt que l’on note maintenant Zt∗ : Zt∗ = [Xt−1 , 1]′ (33) ∗ ∗ −1 ∗ det(λ Szz − Szy Syy Syz ) = 0 (34) Alors dans le problème: on aura n + 1 valeurs propres λ∗i et la plus petite sera égale à zéro. Les exposants en ∗ indiquent que les matrices de moments d’échantillonnage et les valeurs propres sont calculées avec Z = Z ∗ et ∆X̃t sans terme constant. 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 17 4.5 Tests du rang de cointégration L’estimation des vecteurs cointégrants β et les tests du rang r de cointégration sont intimement liés. Comme la valeur de la vraisemblance en son maximum est essentiellement donnée par le produit des r plus grandes valeurs propres, un test du rapport de vraisemblance pour déterminer r sera facile à calculer. On peut imaginer deux types de test. - Dans le premier type, on va tester: H0 : rang Π = r H1T : rang Π = n (35) Il s’agit de tester la cointégration de rang r contre la stationnarité des séries. Ce test est appelé test de la trace pour une raison qui sera apparente plus tard. - Dans le deuxième type de test on s’intéresse à: H0 : rang Π = r H1M : rang Π = r + 1 (36) On teste une hypothèse de cointégration de rang r contre une hypothèse de cointégration de rang r + 1. Il s’agira ici du test de la valeur propre maximale. Dans une procédure standard de test par rapport du maximum de vraisemblance, on compare le maximum de la fonction de vraisemblance sous H0 et le maximum de cette même fonction de vraisemblance sous H1 au moyen de la statistique: −2 log L(H0 ) L(H1 ) (37) qui est distribuée selon un loi du χ2 avec un nombre de degrés de libertés égal à la taille de la contrainte imposée. L’hypothèse nulle ne sera pas rejetée si la valeur de la statistique de test est inférieure à la valeur critique de la table. Les deux hypothèses nulles et alternatives que l’on a décrites plus haut peuvent se tester au moyen d’une statistique de rapport de vraisemblance. Mais sa distribution ne sera bien sûr pas une χ2 . On peut énoncer le théorème suivant tiré de Johansen (1991): Théorème 4 La statistique de test du rapport de vraisemblance de l’hypothèse nulle rang Π = r contre l’hypothèse alternative rang Π = n est donnée par: LR(r|n) = −T n X i=r+1 log(1 − λ̂i ) On l’appellera statistique trace. La statistique de test de rapport de vraisemblance de la même hypothèse nulle contre l’hypothèse alternative rang Π = r + 1 est donnée par: LR(r|r + 1) = −T log(1 − λ̂r+1 ) La distribution de ces deux statistiques de test est non-standard. 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 18 Preuve: Le logarithme de la fonction de vraisemblance est donné par: − r T TX log |Syy | − log(1 − λ̂i ) 2 2 i=1 d’où les deux résultats obtenus par simple calcul. La distribution de ces tests est nonstandard car il reste n − r variables qui sont I(1) dans le système quand le rang de cointégration est r. 2 Remarque: Les valeurs propres sont rangées par ordre décroissant: λ1 > λ2 > · · · > λr > · · · > λn . Les deux statistiques de test s’intéressent pour l’une à la somme des n − r plus petites valeurs propres (les n − r dernières) et pour l’autre à la valeur propre de rang immédiatement inférieur à r. L’hypothèse nulle que le rang de π = r peut donc se tester au moyen de l’hypothèse nulle que les n − r plus petites valeurs propres restantes sont nulles ou que la plus grande des n − r valeurs propres restantes est nulle. 4.6 Distribution asymptotique des tests de cointégration Les tests de rang de cointégration sont des généralisations multivariées des tests de DickeyFuller. La distribution asymptotique de ces tests a la même structure que le carré de la distribution asymptotique des tests en τ de Dickey et Fuller. Il est donc commode d’adopter une présentation de ces distributions similaire à celle adoptée pour les tests de racine unitaire. On donnera ces résultats sans preuve, renvoyant le lecteur à l’article de Johansen (1991). Considérons la fonction matricielle G(.) définie de la manière suivante: G(W, U) = Z 0 1 dW (r) U(r)′ Z 1 0 U(r) U(r)′ dr −1 Z 0 1 U(r) dW (r)′. (38) Dans cette expression W (r) est un processus de Wiener vectoriel de dimension n−r. U(r) est aussi un processus de Wiener vectoriel dont la dimension et la définition vont dépendre de la forme du terme constant. On a le théorème suivant: Théorème 5 Sous l’hypothèse nulle de cointégration de rang r les statistiques de test de la trace et de la valeur propre maximum vont converger en distribution pour t → ∞ vers: LR(r|n) ⇒ tr G(W, U) LR(r|r + 1) ⇒ λmax G(W, U) où W (r) est un processus de Wiener standardisé de dimension n − r et où la définition de U(r) dépend du terme constant. On a les trois cas suivants: 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 19 pour m = 0 (pas de terme constant), U(r) = W (r) pour m = α β0 (pas de trend), U(r) = (W (r)′, 1)′ pour m = α⊥ γ + α β0 (trend), U(r) = W (r) − colonne est remplacée par r − 12 . R1 0 W (r) dr, sauf que la dernière Le cas m = 0 est peu intéressant en pratique. On trouvera une table dans Johansen (1988) pour le test de la trace. Les deux autres cas sont ceux qui sont utilisés le plus souvent en pratique. Le cas m = α β0 correspond à la table A3 dans Johansen and Juselius (1990) et le cas m libre à la table A1 de ce même papier. On a reproduit les valeurs critiques dans la Table 2. Johansen (1995) donne des tables pour les cinq cas, mais uniquement pour le test de la trace. Ces tables sont un peu difficiles à lire, dans la mesure où pour chaque Table 2: Valeurs critiques des tests du rang de cointégration de Johansen n-r 1 2 3 4 5 m = αβ0 Max λi Trace 90% 95% 90% 95% 7.56 9.09 7.56 9.09 13.78 15.75 17.96 20.17 19.80 21.89 32.09 35.07 25.61 28.17 49.93 53.35 31.59 34.40 71.47 75.33 m libre Max λi Trace 90% 95% 90% 95% 2.82 3.96 2.81 3.96 12.10 14.04 13.34 15.20 18.70 20.78 26.79 29.51 24.71 27.18 43.96 47.18 30.77 33.18 65.06 68.91 valeur de n on doit se livrer à une petite gymnastique. La plupart des logiciels d’estimation opèrent ce calcul de présentation pour l’utilisateur. Exemple 2: Supposons que l’on considère un vecteur aléatoire de dimension 4 et que l’on veuille tester le rang de cointégration dans un modèle CVAR à terme constant libre. On a calculé les statistiques du test de la trace et on a trouvé λmax = 30.28 pour r = 0 et λmax = 12.04 pour r = 1. On commence par reconstruire ci-dessous les valeurs critiques de la table pour ce cas particulier. H0 r=0 r=1 r=2 r=3 H1 r=1 r=2 r=3 r=4 Max λi 90% 95% 24.71 27.18 18.70 20.78 12.10 14.04 2.82 3.96 On va commencer par tester l’hypothèse nulle que la dimension de l’espace de cointégration est égale à zéro. On rejettera cette hypothèse contre l’alternative que r = 1 si la valeur du test λmax = 30.28 calculée pour r = 0 est supérieure à la valeur lue dans 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 20 la table, c’est à dire 27.18 à 95%. On passera ensuite au test de r = 1 contre r = 2. On ne rejettera pas cette hypothèse si la valeur du test λmax = 12.04 calculée pour r = 1 est inférieure à la valeur lue dans la table, c’est à dire à 95% 20.78. Dans cet exemple le rang de cointégration sera donc égal à 1. 4.7 Test de l’absence de trends Le très grand intérêt de la procédure de maximum de vraisemblance sur les CVAR, c’est qu’une fois le rang de cointégration déterminé, tous les tests de restriction linéaire sur les paramètres ont une distribution asymptotique χ2 standard. Le premier test à traiter est celui de la restriction sur le terme constant. Soit donc les deux hypothèses suivantes, conditionnelles à une valeur testée pour r: H0 : m = αβ0 (39) H1 : m = αβ0 + α⊥ γ Johansen (1991) donne le théorème suivant: Théorème 6 L’absence de n − r trends linéaires dans le processus qui génère le vecteur Xt cointégré de rang r se teste au moyen de la statistique: n X 1 − λ∗i −T log 1 − λi i=r+1 qui est distribuée selon une loi du χ2 à n − r degrés de liberté. Dans cette expression, λ∗i correspond aux valeurs propres du modèle où l’on a imposé la contrainte sur le terme constant et λi aux valeurs propres associées au modèle noncontraint. Ce test s’effectue après que l’on ait déterminé la valeur de r, en supposant que le terme constant n’est pas contraint. 4.8 Test de restrictions linéaires sur le vecteur de cointégration On suppose dans un premier temps que les vacteurs de cointégration sont identifiés par application de la règle automatique lors de la procédure d’estimation. On va ensuite tester des restrictions de suridentification au moyen de restrictions linéaires sur la matrice β des vecteurs de cointégration. On n’envisagera ici qu’un test de restrictions très simple de la forme: β =Hφ (40) où H est une matrice de restrictions de taille n × s avec r ≤ s ≤ n. Dans le cas où s = n et H est une matrice identité, il n’y a pas de restriction. Dans le cas contraire, la matrice de paramètres β qui est n × r est réduite à une matrice de paramètres φ qui est s × r. Ce type d’écriture impose la même restriction sur les r colonnes de la matrice β. Dans la mesure où β n’est pas identifié mais ne constitue qu’une base pour l’espace des vecteurs de 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 21 cointégration, les restrictions linéaires sur β portent sur les caractéristiques de cet espace. Il peut donc sembler naturel d’imposer des restrictions de ce type. Quand r = 1, on retombe sur un type usuel de restrictions. Le test se construit sur la base du principe de ratio de vraisemblance comme précédemment en introduisant la contrainte dans le problème de valeurs propres qui permettra de calculer la fonction de vraisemblance sous l’hypothèse nulle. Johansen (1991) donne le théorème suivant: Théorème 7 Sous l’hypothèse Π = α φ′ H ′ (ou β = H φ), l’estimateur du maximum de vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes valeurs propres λiH dans le problème: −1 det(λ H ′Szz H − H ′ Szy Syy Syz H) = 0 La valeur de la fonction de vraisemblance en son maximum est donnée par: L−2/T max = det(Syy ) r Y (1 − λ̂iH ) i=1 Le test de l’hypothèse nulle Π = α φ′ H contre l’hypothèse alternative Π = α β ′ est donné par la statistique: r X 1 − λ̂iH −T log 1 − λ̂i i=1 qui est distribuée selon une χ2 à r × (n − s) degrés de liberté. Ce type de restriction n’est interprétable économiquement que si r = 1. Dans le cas général, on préfère imposer des restrictions qui ne sont pas les mêmes sur toutes les équations et donc poser β = [H1 φ1 , ·, Hr φr ] Dans ce cas l’estimation est un peu plus complexe à mettre en oeuvre car on doit opérer une itération. Mais le test du rapport de vraisemblance conserve la même forme et la même distribution. On peut également mettre en oeuvre un test de Wald. Voir Lütkepohl and Krätzig (2004), pages 98-103, pour plus de détails. 4.9 Test d’exogénéité Le dernier test qu’il est possible de facilement concevoir porte sur des restrictions linéaires sur la matrice des poids α. On va formaliser les restrictions sur α au moyen d’une matrice H α=Hψ Ceci permet de tester la présence dans une équation du CVAR de l’ensemble des termes correcteurs d’erreurs. C’est donc un test d’exogénéité. Par exemple dans un modèle où n = 3 et r = 2, on va vouloir tester que α11 α= α21 0 α12 1 0 α11 α22 = 0 1 α21 0 0 0 α12 α22 =Hψ 4 ESTIMATION PAR MAXIMUM DE VRAISEMBLANCE 22 Dans ce modèle, la dernière composante de X sera exogène pour l’inférence sur β. Johansen (1991) donne le théorème suivant: Théorème 8 Sous l’hypothèse Π = Hψ β ′ (ou α = H ψ), l’estimateur du maximum de vraisemblance de β est donné par les r vecteurs propres associés aux r plus grandes valeurs propres λiH dans le problème: −1 det(λ H ′Szz H − H ′ Szy Syy Syz H) = 0 La valeur de la fonction de vraisemblance en son maximum est donnée par: L−2/T max = det(Syy ) r Y (1 − λ̂iH ) i=1 Le test de l’hypothèse nulle Π = Hψ β ′ contre l’hypothèse alternative Π = α β ′ est donné par la statistique: r X 1 − λ̂iH −T log 1 − λ̂i i=1 qui est distribuée selon une χ2 à r × (n − s) degrés de liberté. On peut toutefois tester l’exogénéité d’une variable de manière plus simple en estimant le modèle CVAR équation par équation et en testant au moyen d’un Fisher la nullité des coefficients α dans les équations appropriées. 4.10 Non causalité de Granger Dans un modèle VAR bivarié, la non causalité au sens de Granger (1969) s’exprime comme une restriction sur les paramètres des variables retardées. Plus précisément, considérons un petit modèle bivarié en Xt′ = [yt , xt ]: yt xt = p X α11,i i=1 α21,i α12,i α22,i yt−i xt−i + ǫt On dira que x ne cause pas y au sens de Granger, si x n’aide pas à la prévision de y, ce qui est le cas si α12,i = 0, i = 1, · · · , p. Si Xt est stationnaire, le test de la non causalité s’effectue sans problème au moyen d’un test standard de Fisher ou du χ2 . Par contre si les composantes de Xt sont I(1) et possiblement cointégrées, alors la matrice de variance covariance de l’estimateur des moindres carrés des paramètres α sera singulière et il sera difficile d’appliquer un test standard. Ce problème a été étudié longuement dans la littérature. Lütkepohl and Krätzig (2004), page 148, en donnent un bon résumé. Pour gagner en efficacité et en compréhension, il est toujours bon dans un problème statistique d’expliciter les contraintes. Mosconi and Giannini (1992) critique les approches 5 STRATÉGIE DE MODÉLISATION 23 précédentes basées sur l’estimation d’un VAR non-contraint, les trouvant inefficasses. Ils proposent de partir d’un modèle CVAR. Ecrivons donc le modèle VAR précédent en explicitant les contraintes de cointégration: ∆yt ∆xt = αβ ′ yt−1 xt−1 + p−1 X i=1 γ11,i γ21,i γ12,i γ22,i ∆yt−i ∆xt−i + ǫt Dans un modèle bivarié, il ne peut y avoir au plus qu’un seul vecteur de cointégration. Décomposons le produit αβ ′ : αβ ′ = α1 ( β1 α2 β2 ) = α1 β1 α2 β1 α1 β2 α2 β2 On voit donc que maintenant la non-causalité implique deux types de restrictions au lieu d’un: α1 β2 = 0 γ12,i = 0, i = 1, · · · , p − 1. On suppose que le rang de cointégration est déjà déterminé au moyen du test non-standard de la trace ou de la valeur propre maximum. Les composantes de ∆X sont I(0), ce qui fait que la restriction sur les γ12,i peut se tester de la même manière que précédemment. Le test de la restriction α1 β2 = 0 est facile à implémenter dans un cadre bivarié. Il faut tester que soit α1 = 0, soit β2 = 0. Dans un cadre bivarié, on doit identifier β en normalisant une de ses composantes. On ne peut donc avoir de restriction supplémentaire sur β sans perdre la cointégration. On se ramène donc à un seul test sur α. Ce qui fait que cette dernière restriction est équivalente à un test d’exogénéité que l’on peut facilement effectuer en utilisant le test du rapport de vraisemblance qui a une distribution asymptotique χ2 . Dans le cas où n > 2 et donc possiblement que r > 1, les choses deviennent plus complexes. Le test nécessite une procédure spéciale d’implémentation mise au point par Mosconi and Giannini (1992) et basée sur des itérations. 5 Stratégie de modélisation Il s’agit maintenant de faire une synthèse de tout ce qui a été présenté et de donner des indications sur la méthode à suivre pour mener une étude empirique. On va diviser la méthode en un certain nombre d’étapes distinctes qui vont nous permettre de mieux lire l’application empirique de la section suivante. 5.1 Quelques étapes Il faut tout d’abord choisir et sélectionner un certain nombre de variables qui sont nécessaire à l’étude du phémonème auquel on s’intéresse. L’époque des grands modèles de Cowles Commission est révolue. On péfère maintenant étudier des petits modèles dont la dynamique est soigneusement spécifiée comme une fonction de consommation, une fonction de demande de monnaie, des équations d’import-export, etc... On peut aussi envisager des applications en finance concernant la structure des taux d’intéret, les mouvements des taux de change, etc... 5 STRATÉGIE DE MODÉLISATION 24 Il est d’usage de vérifier que le degré d’intégration des variables sélectionnées au moyen de tests de racine unitaires univariés. Mais il ne faut pas oublier aussi qu’un test de cointégration multivarié peut être vu comme un test de stationnarité joint si par exemple on ne parvient pas à rejeter l’hypthèse que r = 0. Ce test signifie qu’il n’y a aucune tendance stochastique restant dans le système. On va ensuite s’intérroger sur le degré du VAR à considérer, c’est à dire décider de la valeur de p. Si l’on considère d’emblée le modèle sous sa forme à correction d’erreur avec la matrice Π non contrainte, les régresseurs exprimées en différence seront toujours stationnaires. On pourra alors sélectionner le nombre de retards dans le VAR non contraint au moyen d’un critère d’information usuel. Par exemple le critère d’information de Schwarz qui, dans un cadre multivarié, s’écrira SC(p) = log det Ω(p) + log T 2 pn . T On choisira le nombre de retard p qui minimisera le critère d’information SC(p) en partant d’un modèle avec un nombre de retards pmax La valeur de pmax dépend de la fréquence d’observation. Par exemple, on choisira pmax = 2 avec des données annuelles, pmax = 5 avec des données trimestrielles. Les autres critères d’information sont AIC(p) = log det Ω(p) + et 2 2 pn , T 2 log log T 2 pn . T Il faut se méfier du fait qu’en général si la procédure indique qu’il faut retenir un grand nombre de retards, c’est qu’il doit vraisemblablement manquer une variable dans le système de départ. Les modèles VAR représentent une modélisation riche tenant compte de toutes les interactions entre les variables où un petit nombre de retards devrait suffire. Il faut maintenant choisir le rang de cointégration. On posera un terme constant non contraint, c’est à dire un m libre et l’on va choisir rr par un test de la trace ou du lambdamax . On va ensuite pourvoir effectuer un test de spécification portant sur le terme constant. On va tester la présence d’un drift dans les n − r tendances stochastiques restantes. Le ou les vecteurs de cointégration sont les principaux paramètres que l’on cherche à estimer, car une normalisation adéquate permet de les interpréter. Il est évident que le cas r = 1 est le plus facile à interpréter. Il s’agit alors de poser les restrictions d’identification alternatives à la normalisation numérique β ′ Szz β = Ir . Ces restrictions d’identification se poseront en fonction de l’interprétation que l’on veut donner aux vecteurs de cointégration. On peut ensuite tester les diverses restrictions de suridentification que suggère la théorie économique, comme l’égalité à 1 d’une élasticité de long terme. On peut ensuite choisir de tester l’exogénéité d’une variable pour l’estimation de β. Ce test prépare une estimation d’une équation structurelle. L’estimation de la matrice de poids α et des matrices de coefficients dynamiques de court terme Γi donne des valeurs qui sont peu interprétables sur le plan économique car il s’agit de coefficients d’une forme réduite. Arrivé à ce point, on peut décider de s’arrêter dans l’estimation et de faire une analyse impulsionnelle en orthogonalisant les résidus. HQ(p) = log det Ω(p) + 5 STRATÉGIE DE MODÉLISATION 25 On peut aussi décider de continuer la modélisation au moyen d’une ou plusieurs équations structurelles comprenant les variations contemporaines des autres variables. Cette modélisation sera d’autant plus justifiée que ces autres variables auront été testées comme exogènes. On procèdera alors par moindre carrés en incomporant le retard des vecteurs de cointégration estimés lors de l’étape par maximum de vraisemblance. Si les tests d’exogénéité ont été négatifs, on peut estimer un modèle VAR structurel en supposant connus lors de la première étape les vecteurs de cointégration. 5.2 Application empirique sur les données belges On a laissé l’estimation de la demande de monnaie pour la Belgique un peu en panne dans la dernière section, en montrant que les méthodes univariées dans ce cas présent ne donnaient pas de résultat convaincant. On va maintenant reprendre le vecteur de trois variables et appliquer la méthodologie que nous venons de présenter. On a choisi de prendre p = 2, c’est à dire que le polynôme A(L) est de degré 2. Ce qui fait qu’il reste 28 observations pour l’estimation. Commençons par estimer le modèle sans contrainte sur le terme constant. On testera plus tard la validité d’une contrainte. Les trois valeurs propres du problème sont: λ1 = 0.408 λ2 = 0.228 λ3 = 0.175 Calculons maintenant les deux statistiques de test de la valeur propre maximale et de la trace. On reconstruit alors un tableau qui donne la valeur de ces statistiques avec les valeurs critiques correspondantes: H0 H1 λmax 95% 90% H0 H1 trace 95% 90% r = 0 r = 1 14.90 20.97 18.60 r = 0 r ≥ 1 27.32 29.68 26.79 r=1 r=2 7.25 14.07 12.07 r ≤ 1 r ≥ 2 12.63 15.41 13.33 r=2 r=3 5.38 3.76 2.69 r≤2 r=3 5.38 3.76 2.69 Si l’on se fie au seuil de 5%, aucune des statistiques n’indiquent la présence de cointégration. Si l’on passe au seuil de 10%, alors le test de la trace permet d’accepter r = 1. Le vecteur de cointégration est: LMP = 0.94 LY − 3.83 LR Dans les équations en différence, le mécanisme correcteur d’erreur apparaı̂t avec les poids suivants: ∆LMP −0.16 ∆LY −0.10 ∆LR 0.19 On peut tester l’hypothèse d’élasticité unitaire entre la monnaie et le revenu. Le vecteur β contraint a pour valeur: LMP = LY − 4.51 LR 5 STRATÉGIE DE MODÉLISATION 26 Cette restriction est acceptée. La statistique de test, qui est distribuée selon une χ2 (1), a une valeur de 0.23, ce qui correspond à une P value calculée de 0.63. On rappelle que les valeurs critiques de la χ2 (1) sont de 3.84 à 5% et 2.71 à 10%. Il reste à tester la possibilité d’une contrainte sur le terme constant. Réestimons le modèle en faisant glisser le terme constant à l’intérieur de la matrice Z. Les valeurs propres correspondantes sont dans ce cas: λ1 = 0.506 λ2 = 0.376 λ3 = 0.225 λ4 = 0.000 On peut alors calculer la statistique de test au moyen de la formule du test donnée au théorème 6: 1 − 0.376 1 − 0.225 −28(log + log ) = 7.71 1 − 0.228 1 − 0.175 Avec r = 1, la statistique de test a pour valeur 7.71 , ce qui est supérieur à la valeur critique d’une χ2 (2) à 5% (5.99). En conséquence de quoi, la restriction de l’absence de trends dans le processus de génération des données est rejetée. L’approche par CVAR ne permet pas d’obtenir une équation structurelle. Une pratique courante consiste à sauver les valeurs de la solution de long terme telle que fournie précédemment et l’utiliser ensuite dans une modélisation en deux étapes. Pour une équation de demande de monnaie on obtient: ∆LMPt = − 1.21 + 1.16 ∆LYt − 1.34 ∆LRt − 0.25 RESt−1 [−2.41] [5.23] [−4.34] R2 = 0.61 σ̂ = 0.025 ss = 0.0145 [−2.37] χ2 (1)corr = 0.054 χ2 (2)norm = 0.62 ce qui fournit des résultats très proches pour le court terme de ceux que fourniraient une approche ECM à la Hendry. Le dernier type de test que l’on peut envisager consiste à estimer par moindres carrés les autres équations de court terme du CVAR en se servant toujours de l’estimation du vecteur cointégrant déjà obtenue par maximum de vraisemblance. Si les variables restantes, c’est à dire ∆LR et ∆LY sont exogènes pour l’inférence, alors, le vecteur de cointégration ne devrait pas apparaı̂tre significativement dans ces deux équations. On a: ∆LY = 0.38 ∆LY1 + 0.066 ∆LMP1 − 0.90 ∆LR1 + 0.099 RES1 + 0.50 [1.71] [0.48] [−3.16] R2 = 0.50 σ̂ = 0.0179 ss = 0.00707 [1.19] [1.24] χ2 (1) corr = 1.50 χ2 (2) norm = 0.81 ∆LR = 0.41 ∆LR1 − 0.33 ∆LY1 + 0.30 ∆LMP1 − 0.188 RES1 − 0.90 [1.62] [−1.66] R2 = 0.36 σ̂ = 0.0161 ss = 0.00572 [2.45] [−2.51] [−2.48] χ2 (1) corr = 4.48 χ2 (2) norm = 0.71 Au vu de ces résultats, on constate donc qu’il y a exogénéité du revenu mais pas du taux d’intérêt pour l’inférence sur les paramètres de la fonction de demande de monnaie en Belgique. Il faudrait donc estimer par variables instrumentales l’équation de court terme. 6 INFÉRENCE ET TESTS DANS LES MODÈLES STRUCTURELS 27 6 Inférence et tests dans les modèles structurels SVAR, tests de specification. 7 Conclusion Que faut-il retenir des méthodologie de modélisation des variables I(1) que nous avons présenté. Les méthodes univariées ne semblent pas donner de résultats convaincants quand on dispose d’un faible nombre d’observations. La méthodologie multivariée de Johansen semble plus convaincante, car elle produit des résultats qui ne sont pas biaisés en petit échantillon. Par rapport à la méthodologie de “Hendry”, elle fournit un cadre naturel pour tester l’exogénéité de certaines variables. Mais dès qu’il y a plus d’un vecteur de cointégration, la méthode devient plus problématique. Il devient difficile d’interpréter la signification des vecteurs de cointégration. Enfin dès que l’on veut analyser un groupe important de variables, on bute sur le vieux problème qui oppose l’analyse d’une équation séparée à celle du système complet: une erreur de spécification sur une équation se répercute sur les résultats que l’on peut obtenir sur les autres. L’analyse en information complète est peu robuste par rapport aux erreurs de spécification. Il manque un certain nombre de points que l’on n’a pas traité et qu’il serait utile d’envisager. - tous les tests de mauvaise spécification. Il s’agit d’examiner la nature des résidus du modèle et voir s’il reste de l’autocorrélation par exemple. - Les impulse response function - Les changements structurels de la même façon que l’on a examiné les tests de racine unitaire avec rupture de tendance. - Les modèles structurels qui sont la bonne façon d’utiliser les réponses impulsionnelles. 8 Lectures additionnelles La littérature est abondante sur le sujet. On signalera tout d’abord les deux ouvrages compagnons de Johansen (1995) pour le cours et de Hansen and Johansen (1998) pour les exercices. Mais ils ne concernent que l’approche par maximum de vraisemblance. Les chapitres 3 et 4 de Lütkepohl and Krätzig (2004) couvrent plus de matière à un niveau moins avancé. Il détaillent toutes les tests de mauvaise spécification et les tests de noncausalité. Le chapitre 7 de Banerjee, Dolado, Galbraith, and Hendry (1993) fournit une bonne analyse des tests de cointégration basés sur une équation statique. Voir également le chapitre 19 de Hamilton (1994). 9 EXERCICES 28 9 Exercices 9.1 Tabulation d’un test de cointégration Considérez la régression de long terme: yt = β xt + ut On va supposer que ses résidus sont auto-corrélés à l’ordre un avec ut = ρ ut−1 + ǫt . 1) Combinez ces deux équations pour trouver une régression ayant une non-linéarité en β ρ. 2) Approximez le terme non-linéaire βρ autour de deux estimateurs β̂ et ρ̂ à l’aide d’un développement de Taylor réduit au premier ordre. 3) Imposez la contrainte ρ̂ = 1. Que devient l’équation après y avoir identifié les résidus ût−1 . Indiquez une méthode pour les estimer. 4) Dites quelle est l’hypothèse nulle de non-cointégration dans cette régression de test. 5) La distribution de la statistique de Student est non-standard. Par quelle expérience de Monte Carlo la tabuleriez vous? • Idées de solutions Il faut trouver yt = ρyt−1 + βxt − ρβxt−1 + ǫt L’approximation de Taylor est ρβ = ρ̂β̂ + (ρ − ρ̂)β̂ + (β − β̂)ρ̂ Posons ρ̂ = 1 et remplaçons dans l’équation initiale. Après rearrangement des termes, on a ∆yt = β∆xt + (ρ − 1)(yt−1 − β̂xt−1 ) + ǫt où l’on reconnaı̂t l’expression des résidus de la régression statique. L’hypothèse nulle de non-cointégration est ρ = 1. On va tester la nullité du coefficient de régression de ut−1 . Pour une expérience de Monte Carlo, on va générer une séries d’échantillons sous l’hypothèse nulle ρ = 1, c’est à dire ∆yt = β∆xt + ǫt . On en tirera les résidus estimés ût = yt − β̂xt . On estimera la régression de test ∆yt = β∆xt + (ρ − 1)ût−1 + ǫt et on tabulera la distribution de la statistique de Student pour le régresseur ût−1 . 9 EXERCICES 29 9.2 Regression statique Soit la régression statique de long terme suivante où yt et xt sont deux variables I(1): yt = cste + βxt + ut 1) Écrivez la régression auxiliaire pour tester la cointégration entre yt et xt . 2) Dans un exemple empirique, la statistique du test de Engle et Granger vaut -3.00. On a la table suivante où n est le nombre total de variables I(1) (donc sans compter le terme constant) n 5% 1 2 3 4 -2.86 -3.34 -3.74 -4.10 Que concluez vous? Si maintenant xt était un vecteur à deux composantes I(1) et que la valeur de la statistique de test était -4.00, quelle serait votre nouvelle conclusion? 3) A quel cas correspond la valeur n = 1? • Idées de solutions La régression auxiliaire porte sur les résidus estimés ˆ t = ρût−1 + ∆u p X γ̂j ∆ut−j + ǫt j=1 Dans le premier cas n = 2 et la valeur critique est inférieure à la valeur de la table. On ne peut rejeter l’hypothèse de non-cointégration. Dans le deuxième cas, n = 3 et la valeur critique est supérieure à la valeur de la table. On a donc cointégration. Le cas n = 1 correspond au test de racine unitaire simple. 9.3 Tests de Johansen Commentez le listing informatique suivant. Johansen Maximum Likelihood Procedure (Trended case, with trend in DGP) Cointegration LR Test Based on Maximal Eigenvalue of the Stochastic Matrix ***************************************************************** 124 observations from 1961Q1 to 1991Q4. Maximum lag in VAR = 2. List of variables included in the cointegrating vector: D4LW D4LPC LUR List of eigenvalues in descending order: .31224 .049788 .014062 ***************************************************************** REFERENCES 30 Null Alternative Statistic 95% Crit. Value 90% Crit. Value r = 0 r = 1 46.4144 20.9670 18.5980 r<= 1 r = 2 6.3327 14.0690 12.0710 r<= 2 r = 3 1.7561 3.7620 2.6870 ***************************************************************** 1) Quel est le test de cointégration qui y est présenté. Quel autre test existe dans ce contexte? 2) Combien y a t il de vecteurs de cointégration? • Idées de solutions Le test présenté est celui de la valeur propre maximale. L’autre test qui existe est celui de la trace. Le test rejette l’hypothèse nulle qu’il y ait zéro vecteurs de cointégration, mais ne rejette pas l’hypothèse nulle d’un vecteur de cointégration. References BANERJEE , A., J. D OLADO , J. W. G ALBRAITH , AND D. F. H ENDRY (1993): CoIntegration, Error-Correction, and the Econometric Analysis of Non-Stationary Data, Advanced Texts in Econometrics. Oxford University Press, Oxford. BANERJEE , A., J. D OLADO , D. H ENDRY, AND G. S MITH (1986): “Exploring Equilibrium Relationships in Econometrics through Static Models: Some Monte Carlo Evidence,” Oxford Bulletin of Economics and Statistics, 48, 253–277. B HARGAVA , A. (1986): “On the Theory of Testing for Unit Roots in Observed Time Series,” Review of Economic Studies, 53, 369–384. C AMPBELL , J., AND P. P ERRON (1991): “Pitfalls and Opportunities: What Macroeconomists Should Know about Unit Roots,” in NBER macroeconomics annual 1991, ed. by O. J. Blanchard, and S. Fischer, pp. 141–201. MIT Press, Cambridge and London. DAVIDSON , R., AND J. G. M AC K INNON (1993): Estimation and Inference in Econometrics. Oxford University Press, Oxford. E NGLE , R. F., AND C. W. G RANGER (1987): “Cointegration and Error Correction: Representation, Estimation and Testing,” Econometrica, 55, 251–276. E NGLE , R. F., AND S. YOO (1987): “Forecasting and Testing in Cointegrated Systems,” Journal of Econometrics, 35, 143–159. G RANGER , C. W. (1969): “Investigating Causal Relations by Econometric Models and Cross Spectral Methods,” Econometrica, 37, 424–438. G RANGER , C. W., AND P. N EWBOLD (1974): “Spurious Regression in Econometrics,” Journal of Econometrics, 26, 1045–1066. REFERENCES 31 H AMILTON , J. D. (1994): Time Series Analysis. Princeton University Press, Princeton. H ANSEN , P., AND S. J OHANSEN (1998): Workbook on Cointegration, Advanced Texts in Econometrics. Oxford University Press, Oxford. J OHANSEN , S. (1988): “Statistical Analysis of Cointegration Vectors,” Journal of Economic Dynamics and Control, 12, 231–254. (1991): “Estimation and Hypothesis Testing of Cointegration Vectors in Gaussian Vector Autoregressive Models,” Econometrica, 59, 1551–1580. J OHANSEN , S. (1995): Likelihood -based Inference in Cointegrated Vector Autoregressive Models. Oxford University Press, Oxford. J OHANSEN , S., AND K. J USELIUS (1990): “Maximum Likelihood Estimation and Inference on Cointegration with Applications to the Demand for Money,” Oxford Bulletin of Economic and Statistics, 52, 169–210. K REMERS , J., N. E RICSSON , AND J. D OLADO (1992): “The Power of Cointegration Tests,” Oxford Bulletin of Economics and Statistics, 54, 325–348. L ÜTKEPOHL , H., AND M. K R ÄTZIG (eds.) (2004): Applied Time Series Econometrics, Themes in Modern Econometrics. Cambridge University Press, Cambridge. M AC K INNON , J. (1991): “Critical Values for Cointegration Tests,” in Long-Run Economic Relationships, ed. by R. F. Engle, and C. W. Granger, pp. 266–276. Oxford University Press, Oxford. M OSCONI , R., AND C. G IANNINI (1992): “Non-Causality in Cointegrated Systems: Representation, Estimation and Testing,” Oxford Bulletin of Economics and Statistics, 54, 399–417. P HILLIPS , P., AND M. L ORETAN (1991): “Estimating Long Run Economic Equilibria,” Review of Economic Studies, 58, 407–436. P HILLIPS , P. C. (1991): “To criticize the critics: an objective Bayesian analysis of stochastic trends,” Journal of Applied Econometrics. S AIKONNEN , P. (1991): “Asymptotically Efficient Estimation of Cointegration Regressions,” Econometric Theory, 7(1), 1–21. S IMS , C. (1972): “Money, income and causality,” American Economic Review, 62(4), 540–552. S IMS , C. A., J. H. S TOCK , AND M. W. WATSON (1990): “Inference in Linear Time Series with Some Unit Roots,” Econometrica, 58, 113–144. S TOCK , J. (1987): “Asymptotic Properties of Least Squares Estimators of Cointegrating Vectors,” Econometrica, 55, 1035–1056. REFERENCES 32 S TOCK , J., AND M. WATSON (1993): “A Simple Estimator of Cointegrating Vectors in Higher Order Integrated Systems,” Econometrica, 61(4), 783–820. T SO , M. (1981): “Reduced-Rank Regression and Canonical Analysis,” Journal of the Royal Statistical Society, B43, 183–189.