Untitled - HEC Montréal
Transcription
Untitled - HEC Montréal
HEC MONTRÉAL Modèles non linéaires avec régimes sur taux de change canadien et américain par Nicholas Bigras-Casséus dirigé par Simon van Norden Sciences de la gestion Ingénierie financière Mémoire présenté en vue de l’obtention du grade de maîtrise ès sciences (M. Sc.) Janvier 2012 c Bigras-Casséus, Nicholas, 2012 i Résumé Les taux de change sont des variables capitales pour les banques centrales ainsi que pour les entreprises lorsqu’il s’agit de prendre la meilleure décision. Par conséquent, un bon nombre de recherches ont été menées pour tenter de comprendre le comportement des taux de change, les facteurs qui l’influencent. Plusieurs études ont démontré que sur une longue période de temps, un modèle linéaire ne parvient pas à capturer l’essence du taux de change. Ce mémoire va donc explorer cette affirmation pour des données journalières du taux CAD/USD. La non linéarité sera exprimée sous forme d’un modèle avec régimes, tel que suggéré par Kilian et Taylor (2003) à la différence que les chocs seront également gouvernés par les régimes. Les résultats obtenus montrent une amélioration de la précision au niveau de la moyenne pour la majorité des horizons étudiés. Ils montrent également un gain significatif au niveau de la prévision de la direction. Finalement, les résultats montrent que le modèle proposé est inapte à prévoir la volatilité du taux de change canadien et américain. Mots-clés : Taux de change, STAR, STR, prévision, marche aléatoire, modèle linéaire, canadien, américain, processus stochastiques, modèles avec changement de régimes Table des matières Résumé Table des figures ii i iv Liste des tableaux v 1 Introduction 1 2 Revue de littérature 2 2.1 Prévision des taux de change . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 La devise canadienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Modèle à régime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3 Les données utilisées 3.1 Interpolation et exterpolation . . . . . . . . . . . . . . . . . . . . . . . . . 4 Méthodologie 10 11 12 4.1 Modèle à régimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.2 Rappels mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.3 Le comportement du taux de change . . . . . . . . . . . . . . . . . . . . . 16 4.4 L’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.5 Prévisions à l’intérieur de l’échantillon . . . . . . . . . . . . . . . . . . . . 23 4.6 Les tests hors échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.7 Les tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5 Résultats 5.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 5.2 Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.3 Les mesures à l’intérieur de l’échantillon . . . . . . . . . . . . . . . . . . . 44 5.4 Les tests à l’extérieur de l’échantillon . . . . . . . . . . . . . . . . . . . . . 49 5.5 Test de la direction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.6 Test des quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6 Conclusion 56 iii 58 7 Annexe 7.1 Les dérivées de la fonction de vraisemblance . . . . . . . . . . . . . . . . . 58 7.2 Les dérivées deuxièmes de la fonction de vraisemblance . . . . . . . . . . . 59 7.3 Le retrait des variables explicatives . . . . . . . . . . . . . . . . . . . . . . 60 7.4 La précision des prévisions . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 7.5 Les relations linéaires implicites des modèles . . . . . . . . . . . . . . . . . 63 7.6 L’EQMP hors de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.7 Les résultats du test des quantiles . . . . . . . . . . . . . . . . . . . . . . 66 7.8 Stratégie d’investissement basée sur le test de la direction . . . . . . . . . 68 Table des figures iv 1 Le comportement des résidus de la marche aléatoire . . . . . . . . . . . . 37 2 Le comportement des résidus du modèle linéaire . . . . . . . . . . . . . . 38 3 Le comportement des résidus du MLTL . . . . . . . . . . . . . . . . . . . 40 4 L’évolution des régimes dans le temps . . . . . . . . . . . . . . . . . . . . 41 5 La densité de la statistique de Wald . . . . . . . . . . . . . . . . . . . . . 45 6 La densité de la statistique du ratio de vraisemblance . . . . . . . . . . . 45 7 Le prix de la devise canadienne en dollars américains . . . . . . . . . . . . 50 8 Les prévisions hors échantillon pour h = 1 . . . . . . . . . . . . . . . . . . 50 9 10 Les prévisions hors échantillon pour h = 90 . . . . . . . . . . . . . . . . . Le modèle de la marche aléatoire . . . . . . . . . . . . . . . . . . . . . . . 51 61 11 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 12 Le modèle linéaire à transition lisse . . . . . . . . . . . . . . . . . . . . . . 62 13 Le coefficient de µ en fonction du temps . . . . . . . . . . . . . . . . . . . 63 14 Le coefficient de AR(1) en fonction du temps . . . . . . . . . . . . . . . . 63 15 Le coefficient de P P A en fonction du temps . . . . . . . . . . . . . . . . . 64 16 Le coefficient de ∆r en fonction du temps . . . . . . . . . . . . . . . . . . 64 17 Le coefficient de l’or en fonction du temps . . . . . . . . . . . . . . . . . . 64 18 Le coefficient du TSX en fonction du temps . . . . . . . . . . . . . . . . . 65 19 La volatilité du MLTL dans le temps . . . . . . . . . . . . . . . . . . . . . 65 v Liste des tableaux 1 Les fonctions d’autocorrélation et d’autocorrélation partielle . . . . . . . . 36 2 La marche aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4 Le modèle LTL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5 Test d’hypothèse sur l’autocorrélation . . . . . . . . . . . . . . . . . . . . 42 6 Test d’hypothèse entre MA et ML . . . . . . . . . . . . . . . . . . . . . . 43 7 Test d’hypothèse entre ML et MLTL . . . . . . . . . . . . . . . . . . . . . 44 8 Le ratio des écarts quadratiques moyens pour les prévisions des ML et 9 MLTL sur MA à l’intérieur de l’échantillon . . . . . . . . . . . . . . . . . La statistique de direction . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Le pourcentage des données hors des intervalles de confiance de 50% théo- 46 47 riques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 11 Le pourcentage des données contenues dans les ailes théoriques . . . . . . 49 12 Le test des prévisions emboîtées . . . . . . . . . . . . . . . . . . . . . . . . 52 13 Le test de la précision des prévisions . . . . . . . . . . . . . . . . . . . . . 53 14 Le test de la direction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 15 Le ratio des écarts quadratiques moyens pour les prévisions des ML et MLTL sur MA à l’extérieur de l’échantillon . . . . . . . . . . . . . . . . . 16 Proportion des données hors de l’intervalle de confiance de niveau α pour la MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 19 66 Proportion des données hors de l’intervalle de confiance de niveau α pour le ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 66 67 Proportion des données hors de l’intervalle de confiance de niveau α pour le MLTL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Résultat d’une stratégie d’investissement . . . . . . . . . . . . . . . . . . . 68 Remerciements vi Alors que ce mémoire est signé de mon nom, il est l’oeuvre d’un groupe d’individus. Je tiens à les remercier. Tout d’abord, j’aimerais remercier mon directeur de mémoire, Simon van Norden, pour son aide constante, pour ses nombreux commentaires détaillés et pour les multiples pistes qu’il m’a données. J’aimerais également remercier ma mère et ma copine qui m’ont fourni une aide incroyable lors de la correction du mémoire. Avant leur lecture, mon mémoire était un festival de fautes d’orthographe. J’aimerais également souligner l’implication de l’amie de ma mère, Sophie, pour avoir elle aussi lu attentivement le mémoire. Finalement, je souhaite remercier ma famille ainsi que mes amis d’avoir compris que malgré le temps des fêtes, il est possible que j’aie à travailler le mémoire. 1 Introduction 1 Depuis longtemps, le taux de change est considéré comme une variable économique des plus importantes, mais également comme une des plus difficiles à comprendre. En effet, sa complexité, qui découle des nombreux paramètres macroéconomiques qui influencent son comportement, le rend assez hasardeux. Alors que différentes approches de nature très économique, de nature purement mathématique ou encore tout simplement de nature plus algorithmique existent, le modèle de la simple marche aléatoire est difficile à détrôner de façon significative pour les prévisions du taux de change. La problématique est donc évidente. Pourquoi le contexte économique semble-t-il si peu influent dans la modélisation du taux de change ? Cela revient à se demander comment l’information observable par les investisseurs sur les marchés peut influencer les valeurs futures du taux de change. Cette étude va se baser sur ce qui a déjà été fait et va tenter de proposer une alternative. Le but ici sera d’utiliser l’information, principalement de nature macroéconomique, pour faire des prévisions. Ces dernières seront tirées d’un modèle proposant deux régimes. Les régimes résumeront chacun un état de l’économie différent et consisteront tout simplement d’un modèle linéaire avec une composante autorégressive d’ordre un. Les variables macroéconomiques auront également pour mandat de déterminer dans quel régime l’économie évolue actuellement. Tout d’abord, comme il a été dit précédemment, une bonne couverture de ce qui a déjà été écrit sur le sujet sera nécessaire. Il y aura également une section dédiée aux données recueillies dans le cadre de ce mémoire. Il sera entre autres expliqué comment elles ont été traitées avant d’être utilisées. Par la suite, la méthodologie documentera l’approche utilisée pour répondre à la problématique étudiée. Celle-ci commencera avec de brefs rappels théoriques nécessaires pour bien comprendre la suite et elle suivra avec les différentes étapes à la résolution du problème. Finalement, le mémoire se terminera avec les résultats et la conclusion. Dans la conclusion, il y aura la réponse à la question qui a été posée ci-dessus et qui sera le fil conducteur de cette étude. Elle portait sur le rôle des agents économiques dans la prévision future du taux de change. Il faut noter que les différents tableaux de résultats ainsi que les nombreux graphiques seront mis en annexe pour faciliter la lecture du document. 2 Revue de littérature 2 La modélisation a toujours été un sujet important que ce soit pour l’ingénierie financière, l’économie ou simplement la finance. La littérature sur le sujet est donc vaste. Cela dit, cette revue de littérature comportera plusieurs segments. Le premier segment portera sur les différentes méthodes de prévision de taux de change, un domaine qui découle davantage de l’économétrie. Par la suite, quelques articles sur la devise canadienne seront brièvement présentés. Il sera finalement question des modèles à régimes, à savoir leurs particularités ainsi que leur rôle 2.1 Prévision des taux de change Les modèles de taux de change remontent à de nombreuses années. Au fil du temps, une panoplie de modèles différents ont été proposés. Il est possible de classer ces modèles en deux catégories bien définies : les modèles qui utilisent des variables macroéconomiques et ceux qui ne s’occupent que d’offrir assez de flexibilité pour bien répliquer le comportement du taux sans toutefois trop se soucier de ce qui influence ce dernier. Cette revue de littérature va décrire cette évolution et va présenter brièvement les différents articles en cernant les points forts et points faibles de chaque modèle proposé. Les innovations de chaque modèle seront mises de l’avant étant donné que le but du mémoire sera de proposer un modèle utilisant les différents points forts que la littérature aura introduits au fil des ans. En 2005, Cheung, Chinn et Pascual [10] décident de conduire plusieurs tests de prévision opposant cinq classes de modèles populaires, tous linéaires. Ceux-ci sont respectivement un modèle se basant sur la PPA, le sticky-price monetary model introduit par Dornbush (1976) [17] et Frankel (1979) [25], un modèle se basant sur la parité entre les taux d’intérêt et le taux de change, un modèle qui s’appuie sur la différence de productivité entre les deux pays et un dernier modèle incorporant tous ces facteurs. Ils les estiment donc de plusieurs façons et conduisent alors différents tests de prévision pour comparer la performance de ces modèles. Alors que les auteurs sont conscients des limites de leur étude en excluant une grande classe de modèle (les modèles non linéaires), ils concluent qu’en terme de prévision, certains modèles performent bien pour certaines périodes et mal pour d’autres. Ils citent d’ailleurs Clements et Hendry (2001) [14] pour rappeler qu’un mauvais modèle peut très bien surpasser un bon, dépendamment de la période et de l’horizon. 3 Dans une autre optique, Engel et Hamilton proposèrent en 1990 un modèle bien simple pour les taux de change [20]. Alors qu’un grand nombre de chercheurs utilisaient des variables macroéconomiques pour mieux expliquer les comportements des devises, Engel et Hamilton ont emprunté un chemin davantage mathématique : celui de proposer un modèle qui réplique bien les résultats sans nécessairement se demander qu’est-ce qui provoque une hausse ou une baisse. Ils ont remarqué que la difficulté de la modélisation des taux de change vient du fait que, pour une période relativement longue, ils vont être soit croissants, soit décroissants et qu’ensuite, la tendance s’inversera. Alors que ceci peut sembler cyclique, les périodes entre chaque inversion de tendance peuvent être d’une durée très différente. Une fois inversée, la tendance se poursuivra possiblement pendant plusieurs années. La marche aléatoire simple et les séries chronologiques ne permettent pas d’expliquer ce phénomène de tendance changeante. Leur idée fut donc de proposer un modèle comportant deux régimes, un croissant et un décroissant, desquels il est difficile de sortir. Les deux régimes étant gaussiens, le résultat est une mixture gaussienne avec une chaîne de Markov st . Sous l’hypothèse que le marché connaisse avec certitude, au temps t, l’état de l’économie au temps t − 1, ils viennent à la conclusion que les différences de taux d’intérêt ont un pouvoir explicatif relativement bas. La faiblesse de ce modèle peut aussi être vue comme une force, les différents paramètres qui influencent le taux de change ont été remplacés par un régime autonome. Cela permet cependant de facilement simuler des trajectoires (le modèle est markovien et en une dimension). Il est donc probable qu’il soit facile d’effectuer de la tarification de produits dérivés. En effet, plusieurs auteurs ont traité du sujet dans un tel modèle (se référer à l’article de Bollen (1998) traitant de ce sujet précis [7]). Finalement, les changements de régime surviennent rarement, mais, comme le souligne Kaminsky (1993) [33], lorsqu’ils arrivent, les prévisions sont fortement erronées. En 1993, Kaminsky [33] s’intéresse également à un modèle à régime pour les taux de change. Il se donne comme mandat de vérifier le travail de Engel et Hamilton [20]. Il propose tout d’abord une certaine relation entre la valeur de la devise d’un pays et les variables explicatives qui peuvent l’influencer. Contrairement aux hypothèses d’Engel et d’Hamilton, les investisseurs n’ont pas accès à toute l’information, en particulier, ils ne peuvent savoir avec exactitude dans quel régime l’économie évoluait précédemment. L’auteur arrive finalement à la conclusion que malgré le fait que les prévisions dif- 4 fèrent de manière évidente avec les anticipations des investisseurs (ces dernières étant capturées par le marché des contrats de gré à gré ,contrats forward en anglais), il est possible que les investisseurs soient rationnels. Il conclut aussi que le modèle suivi par le taux de change évolue en réaction aux changements de régime des variables explicatives. En 2003, Kilian et Taylor [34], se sont intéressés à la prévision du taux de change réel en mettant de l’avant un modèle auparavant négligé. Ils ont proposé un modèle à régime avec une transition dite lisse (smooth en anglais). Le passage d’un régime à l’autre se fait donc de façon graduelle. Ils motivent le choix vers une transition lisse en expliquant qu’il y a deux types d’investisseurs : les spéculateurs et les investisseurs plus réfléchis. Lorsque la valeur du taux de change est proche de sa valeur d’équilibre (la parité du pouvoir d’achat (PPA), qui évolue au fil du temps), tous les investisseurs spéculent. Lorsqu’elle est loin, les investisseurs vont supposer un retour vers la valeur théorique et donc le clan des spéculateurs perd de ses effectifs. Le passage se fait de manière graduelle et par conséquent, le régime va également changer de manière graduelle. Cette approche leur permettait donc de pallier les différents problèmes liés à la prédiction des taux de change (la non linéarité dans l’ajustement du taux de change à sa valeur fondamentale, la difficulté de surpasser la marche aléatoire pour l’aspect prévision). La transition d’un régime à l’autre se fait donc par l’entremise d’une pondération qui varie de manière continue entre 0 et 1. Celle-ci dépend de la distance entre les taux de change précédent et sa valeur d’équilibre µ. Toujours dans le même article, la fonction de transition en est une exponentielle ce qui donne donc un modèle ESTAR (Exponential Smooth Transition Autoregressive), soit un cas spécial des modèles STAR qui seront décrits au cours des sous-sections suivantes. À l’aide du modèle, les auteurs expliquent pourquoi il est si difficile de dominer la marche aléatoire en terme de prévision. L’article répond donc à certaines questions qui ont longtemps hanté les chercheurs, à savoir s’il est possible de prédire les taux de change. Kilian et Taylor réussissent à déclasser la marche aléatoire de manière significative pour de longs horizons (exemple : plusieurs années) mais pas de façon automatique. Étant donné leur modèle bivarié (le taux de change et la PPA), ils ont dû développer une méthode simple et efficace pour conduire des tests d’hypothèses. La méthode développée en est une de bootstrap (le terme bootstrap sera utilisé au cours du mémoire. C’est le terme anglophone qui signifie de créer des échantillons afin d’estimer la distribution 5 d’une statistique). Tout d’abord, ils proposent un modèle qui tente d’approximer la distribution des deux variables, celui-ci incorpore la non linéarité de leur modèle de base et va servir à mener un test opposant l’ESTAR à la marche aléatoire. Ils procèdent donc à simuler un grand nombre de trajectoires de taux de change nominal sous l’hypothèse nulle (marche aléatoire). Ils obtiennent la PPA à l’aide de la relation imposée par leur modèle et trouvent leurs valeurs critiques. Les auteurs concluent finalement que malgré la présence de non linéarité des taux de change et les bonnes performances de l’ESTAR pour la prévision à l’intérieur de l’échantillon, il est difficile de rejeter le modèle de la marche aléatoire pour la prévision en temps réel, principalement pour des horizons de prévisions courts. La valeur d’équilibre étant la PPA qui est relativement stable, son pouvoir explicatif doit être limité dans le court terme. En effet, comme le précisent les auteurs en discutant des tests de précision de la prévision, les distributions asymptotiques des statistiques d’intérêt peuvent se comporter étrangement selon la méthodologie employée. Les auteurs mentionnent entre autres la statistique de Diebold et Mariano pour laquelle la distribution est généralement inconnue pour les prévision à long terme. Ils obtiennent un test performant et puissant, principalement pour de longs horizons. Dans la même optique, en 2004, la question des tests d’hypothèses sur la présence de multiples régimes dans un jeu de donnée a été explorée par Cheung et Erlandsson (2005) [11]. Ils ont démontré que les tests que la littérature privilégiait auparavant, qui consistait principalement en un test de Wald, étaient généralement inexacts. Ils mentionnent que cette approche fut empruntée par Engle et Hamilton dans leur article de 1990 et qu’elle ne possédait pas les bonnes valeurs critiques. Le problème était celui des paramètres contenus sous H1 non identifiable sous H0 . Leur but était donc d’offrir une alternative juste, calculable et performante. Ils proposèrent une approche Monte-Carlo pour tester la présence de deux régimes markoviens cachés contre un modèle se composant d’une simple marche aléatoire. En simulant des données sous H0 et H1 , ils obtiennent les valeurs p désirées. La nécessité d’utiliser la méthode bootstrap est donc réaffirmée par ces auteurs, Cheung et Erlandsson. Un autre aspect important de la recherche sera celui de vérifier la performance d’un modèle. Il faut donc se pencher sur la littérature présentant les différents tests possibles. Certains auteurs se sont intéressés à la question de la performance en étudiant le comportement des résidus. Parmi ces auteurs se trouve Diebold et Mariano (mentionnés plus tôt) 6 qui, en 1995, ont proposé une méthode flexible et performante de tester une différence de variance entre deux séries d’erreurs de prévision. Une fonction de perte quelconque peut être utilisée (et non seulement l’erreur quadratique moyenne (EQM)) [16]. Cette étude a été échelonnée sur plusieurs années et en plusieurs volets. Elle avait pour but de permettre le choix du meilleur modèle. Leur approche peut être généralisée de manière à tester la corrélation entre la prévision d’un modèle A et les erreurs du modèle B. Ce type de test est très utile, car il permet de vérifier si les prévisions du modèle étudié peuvent être améliorées en utilisant un autre modèle. Les auteurs Harvey, Leybourne et Newbold ont conduit ce genre d’étude en 1998 [29] en comparant diverses méthodes pour arriver à ces fins. Les résultats montrent qu’une modification du test de Diebold et Mariano offre une bonne puissance pour ce type de test. Cependant, certains auteurs, dont Clark et McCracken (2001) [12] ont démontré que la distribution de la statistique de Diebold et Mariano est asymptotiquement non normale et possiblement dégénérée dans le cas où l’espace des paramètres sous H0 (disons Θ0 ) est inclus dans Θ1 , soit l’espace sous H1 . Alors qu’ils conduisent leur étude sur les prévisions à un pas de temps, les auteurs expliquent que la procédure du bootstrap est valide pour un nombre de pas de temps quelconque. Ceci conclut la partie sur la prévision des taux de change en général, le reste de la revue étudiera la devise canadienne et les modèles non linéaires. 2.2 La devise canadienne Il est également intéressant de s’attarder aux particularités des devises des pays étudiés. Tout d’abord, au début des années 90, des auteurs comme Lastrapes [37], Evans et Lothian [23] ont montré que les mouvements des taux de change s’expliquaient souvent par des chocs réels. Par conséquent, on peut supposer que les devises canadiennes et américaines sont susceptibles de réagir à certains chocs particuliers. De nombreuses études ont démontré un lien réel entre le prix de la devise américaine (en dollars canadiens) et le prix du baril de pétrole. Une de celles-ci a été conduite en 1998 par Amano et van Norden [4]. Dans leur étude, les auteurs parviennent à montrer que le prix du baril d’huile ainsi que celui de taux de change réel américain sont reliés. Ils remarquent aussi que le choc se déplace du prix du baril vers le taux de change et non l’inverse. Les implications (et les applications) de ces résultats sont intéressantes pour le présent projet. De l’information pourra être tirée du prix du baril d’huile pour la modéli- 7 sation du taux de change CAD/USD. La direction des chocs (de l’huile vers la devise) est particulièrement intéressante. Cette relation unidirectionnelle fut réaffirmée récemment dans l’article de Coudert, Mignon, Penot et autres (2008). Ceux-ci concluent que de 1974 à 2004 cette relation tient. Un autre ouvrage sur le sujet est l’article intitulé The turning black tide, un article publié en 2008 par Issa, Lafrance et Murray [31]. Ceux-ci analysent l’étude d’Amano et de van Norden mené en 1995 [5]. Ils modélisent le taux de change de manière linéaire en fonction de différentes variables explicatives : le différentiel des taux de 90 jours sur les papiers commerciaux, l’énergie (le pétrole, le gaz, etc.) ainsi que d’autres commodités. Comme le nom de l’article le suggère, les auteurs s’intéressent particulièrement au changement de tendance entre le baril de pétrole et le taux de change canadien et américain. Ils vérifient si le modèle montre un gain en performance lorsqu’une coupure est faite en 1993, l’année où la corrélation entre les deux biens a changé de signe. Ce qu’il faut donc en tirer pour le mémoire, c’est de faire attention au changement de tendance entre les variables explicatives et le taux de change. Ceci motive également l’utilisation de modèle à régimes qui donnera la flexibilité nécessaire pour permettre ce genre de changement. Cependant, plusieurs auteurs doutent que la dynamique d’aujourd’hui entre le taux de changes et le prix du baril de pétrole. En effet, la relation unidirectionnelle expliquée par Amano et van Norden (1998) [4] ne serait peut-être plus exacte. Akram (2009) [2], affirme à l’aide d’un modèle autorégressif, que le taux de change réel prédit bien le prix de l’énergie. Ses résultats montrent même que l’inverse est faux. Ce changement de tendance s’ajoute donc au changement de corrélation mentionné dans le paragraphe précédent. Un autre article de 2005 de Benassy-Quere et Mignon [6] souligne le changement récent dans la dynamique du dollar américian et du pétrole. Ces derniers fournissent deux explications probables. La première serait le simple fait que L’OPEP (Organisation des pays exportateurs de pétrole) dépense davantage les profits générés par ses activités d’exportation. Comme l’explique les auteurs, ils investissement moins d’argent (principalement dans le marché financier américain) et importe davantage (principalement des pays d’Europe). Le résultat est que le dollar américain perd de la valeur (au lieu d’en gagner). Ils proposent une deuxième explication centrée sur la Chine. Cette dernière étant devenue un grand joueur dans le marché des devises et dans le marché de l’énergie, il est normal que les anciennes relations ne tiennent plus. Étant donnée l’ambiguité des résultats, le prix du baril de pétrole sera tout de même inclus dans l’étude. Cependant, il sera conservé seulement dans la mesure où la relation du baril de pétrole au taux de change sera significative. 8 D’autres facteurs qui semblent importants sont le niveau des taux d’intérêt des deux pays, en particulier le différentiel de ces derniers. Plusieurs auteurs ont noté cette relation, dont Amano et van Norden dans leur article Terms of Trade and Real Exchange Rates : The Canadian Evidence, publié en 1995 [5]. En générale, le taux choisi en est un assez court (3 mois par exemple). Cela dit, c’est un bon candidat pour une variable explicative. 2.3 Modèle à régime Il existe plusieurs types de modèle utilisant les notions de régimes. Le modèle TAR (Tresholds Autoregressive) a été proposé par Tong dans une discussion sur le travail de A.J. Lawrence (1977) [38]. La motivation était de modéliser des séries présentant une non linéarité évidente. Le modèle adressait ce problème en permettant d’utiliser une variable exogène comme seuil pour déterminer quel régime serait le plus approprié. Ces types de modèle ont eu un certain succès et ont trouvé des applications dans plusieurs domaines. Ils ont été introduits dans la finance des taux de change par Obstfeld et Taylor (1997) [44]. L’estimation de ces modèles ne se fait pas de façon directe. La raison est que l’échantillon se divise (et donc, se modifie) en fonction du paramètre de seuil. Pour ces raisons, Obstfeld et Taylor, ainsi que d’autres auteurs (voir Johansson (2001) par exemple [32]) proposent de fixer le seuil et par la suite de maximiser la fonction de vraisemblance. Finalement, les auteurs choisissent le seuil qui offre le meilleur résultat. Pour tester la validité de ce modèle, les auteurs mentionnés précédemment proposent d’utiliser le test décrit par Tsay dans son article de 1989 [48]. Ce dernier propose une mesure simple à calculer qui consiste à régresser les résidus d’un modèle sur la variable dépendante et ensuite observer le comportement des résidus résultant. Cependant, notons que Tsay précise que ce type de modèle est difficile à utiliser, car il manque de diagnostic explicite pour justifier sa validité. Un autre modèle, très semblable aux modèles TAR est le modèle STAR (Smooth Transition Autoreggressive). Ceux-ci proposent également des régimes pour décrire le comportement d’une variable et ces régimes sont aussi déterminés par une variable exogène quelconque. La différence tient du fait que le changement entre deux régimes se fait de manière progressive (et non de manière abrupte comme pour les modèles TAR). Une des premières mentions de ce type de modèle fut dans l’article de Chan et Tong (1986) [9] à qui certains créditent ce modèle. Depuis ce temps, ce dernier est utilisé dans plusieurs contextes, dont la finance et l’économie. 9 Les auteurs Franses, Teräsvirta et van Dijk font un survol complet, dans leur article Smooth Transition Autoregressive Models - A Survey of Recent Developments publié en 2002 [49], de ce que ce type de modèle propose et comment bien s’en servir. Alors qu’ils présentent des extensions possibles pour les modèles STAR (des composantes variant dans le temps, tout simplement permettre un nombre n>2 de régimes, etc.), ils présentent un grand nombre de tests développés au cours des années ayant pour but de s’assurer que les modèles STAR sont appropriés dans un cas donné. Ils mentionnent entre autres que l’hypothèse de non linéarité est importante et que le comportement des résidus doit être adéquat. Finalement, les auteurs proposent une technique de grille pour déterminer les paramètres de la fonction de transition. Notons que cette approche est fonctionnelle dans le cas où ce même nombre de paramètres est petit. Teräsvirta discute également des modèle STR (Smooth Transition Regression) dans le livre Handbook of Applied Economic Statistics [47]. Il introduit le cas plus général proposé initialement par Goldfeld et Quandt [39] en 1973 où la transition se fait à travers la fonction de répartition de la loi normale. Un peu comme l’ont fait Kilian et Taylor (2003), il motive l’utilisation de ce modèle (au lieu d’un modèle TAR) par le fait que les agents économiques peuvent ne pas agir tous au même moment et par la flexibilité supplémentaire. Finalement, par souci de complétude, il faut mentionner les modèles à régimes markoviens cachés. Leur concept, dans un contexte de modèle autorégressif, ressemble davantage aux modèles TAR au sens où le changement se fait de façon immédiate. Ce type de modèle est celui qu’Engle et Hamilton ont utilisé dans son article sur le taux de change de 1990. Alors que la flexibilité du modèle permet d’utiliser un grand nombre de régimes sans trop de difficulté supplémentaire, son estimation est plus difficile. Plusieurs études comparent ces derniers aux modèles TAR et STAR (Ahdi Noomen Ajm et Lanouar Charfeddine [43] par exemple) et peu sont en mesure de déclarer un gagnant. La revue de littérature maintenant complétée, la section sur les données va suivre. 3 Les données utilisées 10 Les données utilisées lors de cette étude sont nombreuses et proviennent de différentes sources. Tout d’abord, les valeurs historiques journalières du taux de change ont été recueillis à partir de la base de données du logiciel Bloomberg. Elle représente le prix de dollar canadien en devise américaine à fin de la journée (heure de l’est). Elles n’ont pas été modifiées d’aucune façon et elles couvrent les années 2002 à juillet 2011. Les taux d’intérêt, qui serviront d’indicateur de l’état actuel du marché, sont journaliers et couvrent les mêmes années que le taux de change. Les taux canadiens utilisés sont ceux du bon du Trésor d’échéance d’un mois, de trois mois, de 6 mois, de 10 ans et finalement de 20 ans, tous disponible librement sur le site internet de la Banque du Canada. Le taux qui va offrir la meilleure performance pour la prévision du taux de change sera conservé. Aucune modification n’a été faite [18]. Quant au taux américain, il correspond au prix du marché des plus récents bons du Trésor pour les mêmes maturités. Les prix ont été recueillis vers 15h30 par la Federal Reserve Bank de New York. Les données sont également disponibles librement sur le site du département du Trésor américain [19]. Cette étude utilise également le prix du marché du baril d’huile et le prix courant (spot) de l’or (en once). La référence utilisée est celle du Brent, étant donné sa popularité au niveau mondial. Les données sont librement disponibles sur le site internet du département d’énergie américain [15]. Quant à la série chronologique du prix de l’or (par once), elle est gratuitement disponible sur le site internet Kitco ([30]). Notons que les prix sont exprimés en devise américaine. Les indices financiers du S&P500 et du TSX S&P sont, quant à eux, disponibles librement sur la portion Finance du site Yahoo. Les prix affichés sont les prix de fermeture. Notons que ces derniers sont ajustés après les émissions de dividendes et les divisions. Finalement, le dernier indicateur macroéconomique utilisé est celui de la parité du pouvoir d’achat (PPA). Pour obtenir cette mesure pour les années étudiées, il a été nécessaire de la calculer à l’aide des indices des prix à la consommation du Canada et des États-Unis. Ces derniers ont tous deux été recueillis librement sur un site internet s’intéressant aux taux de croissance de différents pays [1]. Les données sont mensuelles et recueillies à la fin de chaque mois. 3.1 Interpolation et exterpolation 11 Une fois toutes les données recueillies, certaines séries présentaient des séquences où il n’y avait aucune valeur. Il peut y avoir de nombreuses raisons, par exemple, les congés entre les deux pays peuvent différer. De plus, la série sur la PPA était mensuelle et non journalière. Cela dit, une interpolation a été nécessaire. De manière à être cohérent avec la disponibilité de l’information, les valeurs interpolées correspondent tout simplement à la dernière valeur observée sur le marché. Une interpolation linéaire ou basée sur les splines aurait nécessité d’utiliser des données non observables (qui ne sont pas Ft -mesurables) et cela ne nous semblait pas souhaitable. Cela dit, l’utilisation d’une série mensuelle à des fins de prévisions journalières peut sembler étrange. Cependant, elle contient de l’information qui ne semble pas négligeable (la valeur d’équilibre) et par conséquent, il est fort probable qu’elle sera significativement importante pour la modélisation de la tendance du taux de change. Finalement, aucune exterpolation n’a été utilisée. 4 Méthodologie 12 Le but du mémoire va être d’estimer un modèle à régimes pour le taux de change CAD/US. Le régime devra dépendre de données observables de nature financière (taux d’intérêt, matières premières,etc.) ou macroéconomique (la PPA). 4.1 Modèle à régimes L’idée générale derrière ces modèles est de faire l’hypothèse que l’économie, au temps t, évolue dans un régime, disons st , et que celui-ci caractérise le comportement de l’actif financier étudié. Les régimes ne sont normalement pas observables et par conséquent, un investisseur, au temps t, ne peut savoir avec certitude le régime actuel st . Les régimes possèdent généralement leur propre distribution qui peut dépendre de variables observables. Finalement, le passage peut se faire de manière progressive ou instantanée. En d’autres mots, pour 2 régimes différents, st peut avoir comme domaine {1, 2} ou encore [w1 , w2 ] · [1, 2]t sous la contrainte que w1 + w2 = 1. Dans la dernière approche, il y a une pondération entre les deux régimes. C’est cette approche qui sera employée pour la flexibilité qu’elle offre. Elle a été introduite dans la littérature sous le nom de modèle STAR (Smooth Transition Autoregressive). Soit yt = log Yt pour Yt la valeur du taux de change au temps t, le modèle général comportera deux régimes, un nombre que la littérature semble trouver cohérent (Engel (1990) [20] ou celui de Kilian et Taylor (2003) [34]) et il sera alors le suivant : ∆yt ∼ N (µt , σt ) La variable Υ servira de pondération entre les deux régimes. Elle sera comprise entre 0 et 1 et une valeur de 1 signifiera une pondération de 100% pour le premier régime. Elle dépendra de variables observables qui tenteront de capter et de traduire les différentes informations disponibles sur le marché pour finalement obtenir le régime actuel. Cela dit, les paramètres µ, σ et α seront définie comme suit : – αt = Υt α1 + (1 − Υt )α2 – µt = αt yt−1 + Υt Xt β1 + (1 − Υt )Xt β2 – σt = Υt σ1 + (1 − Υt )σ2 X représente ici une matrice contenant des variables explicatives spécifiques au taux de 13 change canadien et américain. Le paramètre autorégressif est inclus dans le paramètre µ et par conséquent, X contiendra également les valeurs de yt−p pour p les retards appropriés. Ce modèle en est un très général. Il est sensiblement celui que Goldfeld et Quandt (1973) proposèrent [39]. Malgré son âge, son aspect général (et donc flexible) ajouté à la puissance des ordinateurs d’aujourd’hui motive ce choix. Il faut noter qu’à la différence de Kilian et Taylor et la majorité des modèles STAR, ce dernier permet une volatilité changeante dans le temps. Ceci est cohérent au but du mémoire qui est de modéliser autant la moyenne que la dispersion des données. Notons que pour la suite, ce type de modèle sera abrévié par MLTL, soit modèle linéaire à transition lisse. L’abréviation LTL sera également utilisé pour désigner "linéaire à transition lisse". Finalement, les abréviations MA et ML seront utilisés pour désigner respectivement "marche aléatoire" et "modèle linéaire". Pour entrer dans les détails du modèle, il est important de parcourir certaines notions mathématiques qui, par la suite, seront importantes. 4.2 Rappels mathématiques Dans cette section, quelques brèves définitions seront énoncées. Elles traiteront principalement des concepts mathématiques derrière la paramétrisation d’un modèle. 4.2.1 L’estimation des paramètres de processus stochastiques Les processus stochastiques seront utilisés pour modéliser le taux de change CAD/US. Contrairement aux processus déterministes, l’incertitude est un élément focal de processus stochastiques. Elle sera représentée par une distribution de probabilité qui sera estimée de manière empirique. Les distributions utilisées comporteront un vecteur de paramètre θ, compris dans l’ensemble admissible Θ. L’approche fréquentiste sera utilisée et le vecteur θ sera trouvé en maximisant la fonction de vraisemblance. Définissons tout d’abord ce concept qui sera très important. Pour une lecture plus approfondie, l’ouvrage Mathematical statistics de Jun Shao (2003) [45] (2003) contient toutes les définitions suivantes. Définition 1. Soit Y un échantillon de n observations indépendantes, θ̂ un vecteur de paramètres admissible et fi (·) la fonction de densité de l’observation i, on définit alors la fonction de vraisemblance, dénotée L(θ̂|Y ), comme étant la probabilité (relative) d’avoir le vecteur θ̂ comme paramètre si l’on a observé l’échantillon Y . En terme mathématique, 14 nous avons : L(θ|Y ) = Qn i=1 fi (yi |θ̂, Fti −1 ) En général, l’échantillon est disponible, cependant le vecteur θ ne l’est que rarement. Il est donc possible d’utiliser cette fonction pour trouver un vecteur de paramètres optimal. Il suffit tout simplement de trouver le vecteur θ̂ qui résout le problème d’optimisation max L(θ|Y ). Les contraintes dépendent naturellement de la nature du problème. Le vecteur de paramètre résultant de cette optimisation est couramment appelé l’estimateur du maximum de vraisemblance (EMV) et il possède de nombreuses propriétés intéressantes. Notamment, il atteint la borne inférieure de Cramer-Rao si n → ∞ ce qui sera utile pour la suite. Alors que trouver l’estimateur constitue une étape importante dans la modélisation, il est également intéressant de se demander à quel point il est précis. En effet, un estimateur peut être vu comme une variable aléatoire qui tente d’approximer une valeur non observable, θ dans le cas échéant. Pour un biais asymptotique de 0, la variance de l’estimateur θ̂ nous indique donc sa précision. Si la borne de Cramer-Rao est atteinte, il est possible d’estimer cette variance à l’aide de ce qu’on appelle l’information de Fisher échantillonnale, dénotée In . Elle est définie comme suit : Définition 2. Soit L(θ|Y ) la fonction de vraisemblance et supposons qu’elle est dérivable ∂ t 2 ∂ log L(θ|Y ) ∂θ log L(θ|Y ) . deux fois par rapport à θ, alors In = − ∂θ∂t ∂θ log L(θ|Y ) = ∂θ La deuxième égalité implique qu’il est possible de calculer cette valeur en multipliant la ∂ matrice des vecteurs scores définis par ∂θ log L(θ|Y ) par sa version transposée. Maintenant, lorsque la taille de l’échantillon tend vers infini, il est possible de définir la variance de l’estimateur du maximum de vraisemblance de la façon suivante. Définition 3. Soit θ̂∗ l’EMV, θ la véritable (et inconnue) valeur de ce dernier et In l’information de Fisher échantillonnale, alors, asymptotiquement et dans le cas où θ̂∗ est sans biais, le résultat suivant est vrai : θ − θ̂∗ ∼ N (0, In−1 ) Sous la normalité asymptotique de θ̂∗ , une autre propriété intéressante des EMV, il est facile d’établir un intervalle de confiance pour n’importe quel niveau α. 15 4.2.2 L’hétéroscédasticité L’hétéroscédasticité, qui signifie une variance changeante pour les innovations t peut se traduire sous plusieurs formes. Dans le cas échéant, comme le but recherché est d’incorporer plusieurs régimes à l’intérieur du même modèle, une simple variance différente pour chaque état signifierait que le modèle est hétéroscédastique. En d’autres mots, soit st ∈ {1, 2} le régime au temps t, alors σt2 égal σ12 si st = 1 et σt2 = σ22 dans le cas contraire. Alors que cette approche donne généralement de bons résultats, des alternatives populaires existent. Ceux-ci sont entre autres les modèles ARCH (Autoregressive conditional heteroskedasticity) et GARCH (Generalized Autoregressive conditional heteroskedasticity) introduit dans le domaine de la finance respectivement par Engel en 1982 [21] et Bollerslev en 1986 [8]. Ces modèles ont plusieurs propriétés intéressantes, dont celle de bien capturer l’évolution de la volatilité des actifs financiers. Dans le cadre du mémoire, une généralisation de ce qui a été proposé en premier sera utilisée. Un modèle partageant les mêmes régimes que le MLTL gouvernera la variance. Celle-ci ne proposera pas de mesure autorégressive. Les motivations de cette approche s’expliquent tout simplement par le fait que la volatilité observée dans les marchés est souvent liée avec l’état de celui-ci. Il est donc possible de supposer que dans une économie en récession, la volatilité soit différente de celle en expansion. Notons que Engel, dans son article où il propose un modèle à régime sur les taux de change [20], trouve que la volatilité est significativement plus grande en marché baissier qu’en marché haussier. 4.2.3 Estimation de densité par la méthode du noyau Finalement, dans le cadre du mémoire, il sera nécessaire d’estimer les fonctions de densité, et ce, pour plusieurs séries de données. Alors qu’il existe plusieurs méthodes pour estimer la fonction de répartition empirique (l’estimateur de Kaplan-Meier ou de Nelson-Aalen), il est un peu plus compliqué d’approximer une fonction de densité. Une méthode souvent utilisée est celle des noyaux. La définition suivante est inspirée des notes du professeur Ricardo Gutierrez-Osun, originalement conçues pour le cour Introduction to Pattern Analysis [28]. Définition 4. Soit Y = {y1 , y2 , ..., yn } un échantillon de variable i.i.d. et b ∈ R+ , alors l’estimation de la densité par noyaux s’effectue comme suit : Pn fˆ(x) = 1 K x−yi bn b La fonction K(·) doit respecter plusieurs conditions : – ∀ > 0, ∃δ > 0 tel que R – R K(t)dt = 1 R − 16 K(t)dt > δ – Dans certains cas, K doit nécessairement être positif Il y a de nombreux candidats possibles pour la fonction K(·). Un candidat souvent choisi est la densité normale centrée réduite. Dans le cadre de ce mémoire, c’est cette fonction qui sera prise. La variable b est un paramètre de lissage. Plus il est grand, plus la fonction fˆ(x) sera lisse. Ce paramètre doit donc être choisi judicieusement. Comme le note Gutierrez-Osun, il est démontrable que dans le cas où l’échantillon Y suit une loi normale, le b optimal est tout simplement 1.06σn−.2 . Comme cette technique sera principalement utilisée pour estimer la densité des résidus et que ces derniers sont, par hypothèses, de loi normale, c’est cette valeur qui sera attribuée à b. Le rappel mathématique maintenant terminé, le coeur du mémoire va donc suivre. 4.3 Le comportement du taux de change Les fondements mathématiques maintenant établis, il faut se pencher sur la modélisation du taux de change. Ceci se fera en deux étapes. Tout d’abord, il sera question de trouver les variables explicatives qui possèdent des liens avec le taux de change. La majorité de celles-ci seront directement tirées de la littérature. Par la suite, la modélisation du paramètre de régime Υ sera l’objectif. 4.3.1 Les variables explicatives Un grand nombre de candidats existe pour capturer le comportement du taux de change comme il a été vu dans la revue de littérature. Le premier facteur inclus sera les taux d’intérêt, en particulier le logarithme du rendement du prix d’un bon du Trésor américain investi en bon de Trésor canadien, et ce, pour différentes échéances. Il est avancé que cette approche capture bien les anticipations du marché face aux taux de change (Dornbusch (1976) [17]). Ultimement, la théorie stipule que sans couverture contre le risque du taux de change, la différence des logarithmes des taux d’intérêt témoigne des anticipations face aux logarithmes du taux de change : E P (∆ys |Ft ) = rcad − rusd 17 Le deuxième facteur sera les taux d’inflation des deux pays, en particulier leurs différences. Plusieurs auteurs s’intéressent à la loi du prix unique d’un bien. Il est possible de capturer cette information en utilisant les taux d’inflation. Principalement, une démarche algébrique relativement simple permet d’établir la relation suivante : 1+i(cad) s log Yt+s = log Yt (usd) 1+is où i sont les taux d’inflation. En utilisant l’indice des prix de consommation (IPC) comme estimateur de l’inflation, la variable explicative se retrouve donc à être le pouvoir de parité d’achat (PPA). Notons que cette relation théorique est loin d’être exacte en pratique. L’IPC n’est que rarement connu dans le présent. Elle peut cependant servir de variable de régression étant donné le lien qu’elle a avec la variable expliquée. Certains avantages et certains inconvénients sont traités dans l’article de Taylor et Taylor de 2006 [46]. Certaines commodités seront également incluses. Comme mentionnés dans la revue de littérature, de nombreux auteurs ont établi des liens entre le prix de l’énergie et le taux de change canadien et américain (un exemple serait l’article d’Amano et van Norden (1998) [4], cependant ces auteurs traitaient des taux réels). Cette dernière sera donc insérée dans le modèle. Les variables explicatives comprendront également l’or. En période de crise, l’or se comporte comme un refuge pour les investisseurs. Le modèle va donc tenter d’exploiter cette relation, étant donné la période de crise survenue dans les années couvertes par l’échantillon. Finalement, les indices boursiers du S&P/TSX et du S&P500 seront inclus. La raison est simple, ils constituent de bons indicateurs des états de l’économie des deux pays. De plus, le côté spéculatif des investisseurs provoque des effets sur le taux de change. Cet aspect peut être difficile à capter. Il est espéré qu’il soit en partie contenu dans les fluctuations de ces index. Notons que ce choix n’est pas directement tiré de la littérature, il ne sera donc pas étonnant que le lien entre ceux-ci et le taux de change ne soit pas significatif. 4.3.2 Le comportement des régimes Comme mentionné au début de cette section, les régimes seront contrôlés (ou pondérés) par Υ. Ce terme évoluera dans le temps et tentera de capturer l’information disponible sur le marché de façon à identifier le régime approprié pour une période donnée. Cette 18 information doit par conséquent faire partie de la filtration dans lequel le modèle est estimé : F = {Fs : 0 < s < t}. Il a fallu se demander quelles données financières feront partie de cette filtration, en d’autres mots, quelles variables explicatives tenteront d’identifier le comportement du taux de change. La réponse à cette question se trouve dans la sous-section précédente. En ce qui concerne le facteur Υt , l’idée de base sera empruntée de l’article de Kilian et Taylor de 2003 [34]. Ceux-ci proposent un régime qui dépend de la distance par rapport à une moyenne. Ils établissent cette moyenne comme étant la mesure du PPA. Une différente approche sera utilisée dans ce mémoire. Alors que la PPA peut servir de valeur "théorique" du taux de change, un modèle linéaire tout simple se chargera d’accomplir ce rôle. Il utilisera les variables explicatives précisées dans la sous-section précédente. Finalement, à la façon de Kilian et Taylor, l’écart entre la valeur observée et la valeur théorique sera utilisé ; cet écart correspond aux résidus. Pour bien capter les différentes informations, trois résidus (de trois modèles différents) seront utilisés. – Ceux de la marche aléatoire : ∆yt − µ – Ceux du processus linéaire complet : t = ∆yt − Xβ̂lin – Ceux du processus linéaire sans composante autorégressive 0t = yt − X0 β̂ 0 lin Sachant que la relation est non linéaire entre les variables explicatives et la variable réponse (voir, encore une fois, Kilian et Taylor (2003) [34]), la non linéarité sera exprimée par ces écarts qui serviront ultimement à déterminer le régime dans lequel l’économie évolue. Il est donc supposé que ces résidus sont des indicateurs de l’état actuel de l’économie et qu’ainsi, ils ont un certain pouvoir explicatif. Notons que les résidus du modèle linéaire sans composante autorégressive présenteront une forte tendance. Ceci permettra d’avoir des régimes relativement stables dans le temps. La pondération exacte sera la suivante : Υt = f φ0 + φ1 ∆yt−1 + φ2 t−1 + φ3 0t−1 pour une fonction f : R → [0, 1] et φi des nombres réels La fonction f choisie sera la fonction de distribution de la loi normale centrée réduite. Cela dit, il est intéressant de constater que Υt ∈ Ft−1 . En d’autres mots, la pondération des régimes au temps t est connue de manière exacte au temps t − 1. Ceci sera utile pour 19 l’estimation. 4.4 L’estimation L’estimation sera une étape importante pour parvenir aux résultats. Par conséquent, il est nécessaire de trouver une bonne approche qui soit appropriée. Alors qu’il existe plusieurs moyens pour estimer un vecteur de paramètre θ, la littérature tend à favoriser la maximisation de la fonction de vraisemblance : L(θ̂|Y ) = Qn i=1 f (yi |θ̂, Fti ) Comme vu précédemment, la filtration va contenir toute l’information déjà observée, à savoir, F = σ(Xs<t ). Cette définition du maximum de vraisemblance nous permet de maximiser le modèle de manière conditionnelle au passé. En pratique, il est coutume d’optimiser la fonction de la log-vraisemblance qui est simplement définie comme suit : l(θ̂|Y ) = log L(θ̂|Y ). Cette transformation nous évite de travailler avec des nombres trop proches de zéro et de plus la fonction logarithme est croissante sur l’intervalle (0, ∞). 4.4.1 L’estimation des différents modèles Le mémoire propose un modèle à régimes, mais il confronte ce dernier à deux autres classes de modèles : les marches aléatoires ainsi que les modèles linéaires. Il est donc nécessaire de savoir comment estimer efficacement les paramètres de ces trois modèles. 4.4.2 La marche aléatoire (avec dérive) Soit σt l’écart type des chocs et µt la dérive de ces derniers, l’expression mathématique de la marche aléatoire est la suivante : yt = yt−1 + t pour t ∼ N (µt , σt ) Pour des bruits blancs forts de distribution normale, et donc un modèle où la moyenne et l’écart-type sont constants par hypothèse, il vaut mieux travailler avec x = ∆y. Les 20 estimateurs habituels seront utilisés pour la moyenne et la variance (la version biaisée dans le cas de la variance). 4.4.3 Le modèle linéaire Dans le cas où la variable Y est linéairement dépendante de différentes variables explicatives contenues dans X, une solution analytique est disponible pour le vecteur θ qui maximise la vraisemblance. t En effet, pour p variables explicatives, soit θ = [β1 β2 ...βp σ]t = [βlin σ]t . βlin est ici un vecteur colonne à p composantes. Son estimation se fera selon la méthode des carrés ordinaires. Finalement, il est nécessaire de préciser que ce type de modèle (ainsi que la marche aléatoire qui n’est qu’un cas particulier du modèle linéaire) fait l’hypothèse que les erreurs sont indépendantes. En pratique, c’est rarement ainsi. Cependant, les estimateurs sont tout de même sans biais, mais ils sont inefficaces. Dans le cas où la corrélation est positive, l’incertitude de ces derniers sera sous-estimée. Des détails supplémentaires sont disponibles dans les notes de cours du professeur Richard Williams [50]. 4.4.4 Le modèle à régimes Ce type de modèle est plus compliqué à estimer, car tout doit se faire itérativement. Cela dit, il faut choisir un algorithme et une solution initiale, souvent notée θ0 . Il s’agit alors de faire appel à une fonction déterministe A(x). Cette fonction aura besoin de plusieurs intrants : la fonction de log-vraisemblance à maximiser, l(θ) et le vecteur θ0 . Elle retournera par la suite θ∗ , le vecteur de paramètre optimal compris dans la région admissible. Ainsi dit, A(x) est l’algorithme d’optimisation. Le problème ne se réduit donc qu’au choix de ce dernier. Tout d’abord, il nous faut définir la fonction de log-vraisemblance : l(Θ|Y ) = log n Y ! f (∆yi |θ, Fti−1 ) i=1 = n X i=1 log f (∆yi |Θ, Fti−1 ) 21 Comme il a été vu, le changement d’un régime à l’autre se fait de façon progressive, par conséquent, ∆yt sera distribué selon un processus linéaire avec une composante autorégressive d’ordre 1 (AR(1)). Les différents paramètres seront tout simplement une pondération de chaque régime selon le facteur Υt . Soit θi = [βi σi ]t et φ = [φ0 φ1 φ2 φ3 ] quatres nombres réels, alors θ = [φ θ1 θ2 ]t et l’expression finale de f (∆yi |θ, Fti−1 ) se retrouve à être l(θ|Y ) = n X log i=1 2 ! 1 p exp − 2 (yt − Xt−1 βt ) 2σt 2πσt2 1 σt2 = Υt σ12 + (1 − Υt )σ22 βt = Υt β1 + (1 − Υt )β2 Υt = P (U < Zt φ) Z = [~1 r ∆y r0 ] U ∼ N (0, 1) r0 = résidus du modèle linéaire (sans coefficient autorégressif) r = résidus du modèle linéaire Comme cette fonction dépend d’un grand nombre de paramètres, les maximums locaux sont le principal danger. Même s’il est difficile de savoir si la solution trouvée en est une qui est locale ou globale, certaines conditions sont nécessaires pour que la solution θ∗ trouvée soit un candidat potentiel. Alors que les conditions KKT (pour Karush-KuhnTucker) nous indiquent si le candidat présente une solution admissible dans le cas d’une optimisation sous contraintes (voir l’ouvrage de Kuhn et Tucker en 1951 [35]), il est nécessaire d’avoir un gradient nul dans le cas d’une optimisation sans contrainte. Différents algorithmes proposent chacun leur propre façon d’atteindre ce θ̂∗ tel que 5l(θ̂∗ ) = ~0. Dans le but d’arriver aux meilleurs résultats possibles, l’algorithme utilisé en sera un préparé spécialement pour le problème en question : 1. θ = θ0 2. début de la boucle (a) δ = − 5 (θ)H(θ)−1 (méthode de Newton) (b) Si f (θ) > f (θ + δ) une modification de l’algorithme du simplex est utilisé (c) Sinon θ = θ + δ (d) Si ||δ|| < et f (θ(k) ) − f (θ(k−1) ) < , fin de la boucle 22 3. θ∗ = θ L’optimisation se fait de manière itérative. L’algorithme utilisé pour chaque partie est un mélange entre du Newton et d’une sorte de simplex. Le simplex, qui est traditionnellement utilisé pour les problèmes linéaires, a été généralisé pour les problèmes non linéaires. Des détails supplémentaires sont donnés dans l’article de Lagarias, Reeds, Wright et Wright (1999) [36]. Une propriété intéressante de ce dernier est qu’il n’utilise aucune dérivée, analytique ou numérique, lors de son fonctionnement. Ceci permet donc de bien compléter le tradionnel algorithme de Newton. Cela dit, le simplex utilisé sert principalement à réguler l’algorithme de Newton qui est reconnu pour s’égarer par moments. À ces fins, il sera utilisé avec un paramètre d’arrêt (pour le vecteur de paramètres et la fonction objective) assez grossier, soit de 0.01. Le Newton, quant à lui, se servira des gradients analytiques ainsi que de la matrice hessienne analytique. Ces derniers sont calculés en annexe. Toutefois, étant donné que l’espace des paramètres est relativement grand (θ ∈ Θ ⊂ R18 ), il est difficile de s’assurer d’une optimisation globale. Ceci est d’ailleur une des limites de cette approche, il n’y a aucune façon facile de contourner le problème des optimums locaux. Pour utiliser l’algorithme, il lui faut un point de départ θ0 . Le point de départ peut avoir un grand impact, pas nécessairement sur le résultat final, mais sur le nombre d’itérations requis à la convergence. Pour déterminer le point de départ des paramètres, un choix judicieux des différents éléments du vecteur est nécessaire. Ils seront donc βlin ± . La différenciation des régimes ne sera pas initialement atteinte, ou du moins, pas complètement. Il faut également s’assurer que ce vecteur est précis et qu’il possède une solution admissible. Alors que la précision de chaque paramètre peut se faire à l’aide de la matrice de l’information de Fisher échantillonnale, In , un test simple et préliminaire serait de s’assurer que Υ couvre bien son domaine [0, 1]. Cela dit, une solution qui présentera une pondération oscillant entre 0.95 et 1 sera donc rejetée. Finalement, une fois le θ∗ trouvé, un intervalle de confiance de 95% sera construit autour de celui-ci. Ceci permettra de savoir quels sont les paramètres significatifs. 4.5 23 Prévisions à l’intérieur de l’échantillon Une fois le modèle estimé, il est intéressant de voir s’il performe bien. Cela permet principalement de vérifier si l’étape précédente a été concluante. Ces statistiques seront calculées entre les trois modèles testés, à savoir la marche aléatoire, un simple modèle linéaire et le modèle à régimes. Une panoplie de diagnostics ont été proposés par la littérature. Une brève introduction de chacun, avant de procéder, est donc de mise. 4.5.1 L’erreur moyenne quadratique de l’erreur de prévision Probablement le plus utilisé, il s’agit tout simplement de vérifier pour un horizon fixe h quelle est l’erreur moyenne entre la valeur prédite au temps t et la valeur obtenue au temps t + h, tout ceci au carré. Des expressions analytiques sont généralement disponibles dans le cas où la prévision est effectuée à partir d’un modèle simple. Dans le cas contraire, il est possible de simuler. Le concept est le suivant : Définition 5. L’erreur de prévision quadratique moyenne (EPQM) (à l’intérieur de l’échantillon)au temps t, pour un horizon h, est EPQM= E (ŷt (h) − yt+h )2 |G pour ŷt (h) la prévision d’horizon h au temps t, yt la série chronologique et G une certaine quantité d’information du marché sans toutefois contenir la valeur à prévoir. Notons que la seule valeur à calculer est ŷt (h). La valeur prédite se définit comme étant la moyenne du processus dans les temps futurs, à savoir ŷt (h) = yt + E(∆t→h |Ft ). Cette moyenne est calculée de manière théorique selon les paramètres maximisant la densité jointe de l’échantillon complet. Dans le cas de la marche aléatoire, nous avons vu que yt+h = yt + µ + i ∼ N (0, σ). Il est donc aisé d’obtenir : ŷt (h) = Yt + E(∆t→h |Ft ) h X = yt + hµ + E( i ) i=1 = yt + hµ + h X i=1 = yt + hµ E(i ) Ph i=1 i et 24 Pour le cas linéaire, le raisonnement est semblable. Soit X la matrice des variables explicatives et soit G = Ft , alors E(∆yt |G) = Xt β = µt . Sous l’hypothèse simpliste que µ est constant sur l’horizon de prévision, il ne reste qu’à prévoir ∆yt+h comme un processus AR(p) avec une dérive constante µ. En d’autres termes : ŷt (1) = (1 + α)yt + Xt β = (1 + α)yt + µt ŷt (2) = (1 + α)ŷt (1) + µt ... ŷt (h) = (1 + α)ŷt (h − 1) + µt Un autre résultat intéressant survient lorsque G = F∞ \ (ys )t<s<t+h , et donc sans la série du taux de change. Le résultat devient alors plus précis ( les valeurs des variables explicatives sont disponibles à chaque pas de temps). La manière de procéder est la même sauf que µ est maintenant fonction du temps µ(t) et se recalcule à chaque pas de temps : µ(t) = Xt β. Le nom de simulation dynamique est communément attribué à cette approche. Finalement, le même exercice doit se faire pour le MLTL. Il y aura deux mesures selon la tribu sur laquelle l’espérance est conditionnée, exactement comme pour le modèle linéaire. En premier lieu, il y aura ŷt (h) = yt + E(∆t→h |Ft ) ŷt (1) = yt + (Υt+1 ∗ Xt β1 + (1 − Υt+1 )Xt β2 ) = (1 + α)yt + µ ŷt (2) = (1 + α)ŷt (1) + µ ... ŷt (h) = (1 + α)ŷt (h − 1) + µ 25 Par la suite, ce qui a été dit se généralisera de la façon suivante : ŷt (h) = yt + E(∆t→h |F∞ ) ŷt (1) = yt + (Υt+1 ∗ Xt β1 + (1 − Υt+1 )Xt β2 ) = (1 + αt )yt + µt ŷt (2) = (1 + αt+2 )ŷt (1) + µt+2 ... ŷt (h) = (1 + αt+h−1 )ŷt (h − 1) + µt+h L’idée ici est de vérifier à quel point les différents modèles sont sensibles aux variables explicatives dans les prévisions. Des variables moins sensibles signifient un modèle davantage robuste. 4.5.2 La statistique de direction Un test simple utilisé dans plusieurs articles ( un exemple serait Cheung, Chinn et Pascual en 2005 [10]) est le test de la direction. Il consiste simplement, comme son nom l’indique, à noter le signe de la fluctuation observée et de la comparer au signe de la fluctuation prédite. Ceci est vérifié si et seulement si ∆yt ∆ŷt ≥ 0. Par la suite, il est simple de calculer la proportion des prévisions où l’inégalité précédente tient sur le nombre total de prévisions. En termes mathématiques, nous définirons la statistique de direction D(h), pour h un horizon quelconque en jours, comme suit Définition 6. La statistique de direction D(h) ∈ [0, 1] indique la proportion des fluctuation dont le signe a bien été prédit sur le nombre total de prévisions et elle se définit de PT . la façon suivante : D(h) = T1 t=1 1(yt+h −yt −∆y)(ŷ ¯ ¯ t (h)−yt −∆y)≥0 La moyenne des incréments est soustraite. La raison est simple, cela permettra au test de se concentrer sur l’aspect stochastique du taux de change et non sur l’aspect ¯ est un déterministe. Sous l’hypothèse que la marche aléatoire est adéquate, ∆y − ∆y bruit blanc fort. 4.5.3 Le comportement des ailes Parmi les critiques majeures de l’utilisation de la distribution normale pour des séries financières se trouve la légèreté des ailes. En utilisant une approche permettant l’hétéroscédasticité, ce problème est en partie adressé. Cela dit, il serait intéressant de voir si la 26 solution proposée fonctionne bien. Ceci est donc le but de cette sous-section. Définition 7. Soit a = {a1 , a2 , ..., al } ∈ (0, 1)l une série de niveaux de confiance qui sont inférieurs à 12 , alors la statistique d’intérêt sera Pn P (h, k) = n1 t (1yt+h <Y0.5ak + 1yt+h >Y1−0.5ak ) pour h un horizon donné et Y0.5ak le percentile théorique de la distribution au temps t. Le percentile théorique sera celui d’une distribution normale. Celle-ci aura les paramètres suivants pour le MLTL : Théorème 1. Soit le modèle LTL actuel et supposons que toute l’information dans la filtration est disponible (le conditionnement est fait par rapport à F∞ ), alors le quantile Y0.5ak fait au temps t pour un horizon h est celui d’une normale avec les paramètres suivants : Qt+h−1 Pt+h−1 Qt+h – µ = yt j=t (1 + αj ) + i=t µi j=i+1 (1 + αj ) Pt+h−1 2 Qt+h – σ 2 = i=t σi j=i+1 (1 + αj )2 La preuve découle de la relation de récurrence que le paramètre autorégressif apporte, à savoir que dans le contexte précisé ci-haut, la relation suivante tient : – E(Xt+i |F∞ ) = (1 + αt+i−1 )E(Xt+i−1 |F∞ ) + µt+i−1 2 – V ar(Xt+i |F∞ ) = (1 + αt+i−1 )2 V ar(Xt+i−1 |F∞ ) + σt+i−1 Dans le cadre de ce mémoire, la série a utilisée sera a = {0.01, 0.05, 0.5}. La motivation de ce choix est que cette mesure se veut davantage une mesure de la précision des ailes qu’une mesure de la précision des percentiles. Cette dernière sera davantage étudiée graphiquement dans la section des résultats. Le même raisonnement peut être fait pour les modèles linéaires simples. En posant αt = α, σt2 = σ 2 , le résultat est immédiatement obtenu. 4.5.4 Les horizons utilisés Comme Kilian et Taylor l’ont précisé dans leur étude, la marche aléatoire performe généralement très bien pour de petits horizons. L’hypothèse de la marche aléatoire aurait plus de chance d’être rejetée pour de longs horizons. Sachant cela, il est nécessaire de 27 considérer les performances des trois modèles pour ces deux types d’horizons. Les temps de prévision choisis seront donc une (1), deux (2), trois (3), sept (7), trente (30) et quatrevingt-dix (90) journées ouvrables. 4.6 Les tests hors échantillon Le modèle est estimé de façon à maximiser L(θ|Y ), la fonction de vraisemblance sur l’échantillon X. Le modèle devrait donc afficher ses meilleures performances sur cet échantillon. Il est cependant plus commun, dans la pratique, de devoir utiliser un modèle pour prévoir ce qui n’a toujours pas été observé. C’est l’objet de cette prochaine sous-section : comment performe le modèle LTL pour des données hors de l’échantillon. Plusieurs tests ont été proposés pour répondre à ce genre de questions (se référer, par exemple, à l’article de Harvey, Leybourne et Newbold publié en 1998 [29]). Dans ce dernier, diverses approches sont proposées. La difficulté principale de la mise en place de ce genre de test réside au fait que pour les modèles emboîtés, lorsque H0 est vraie, la variance asymptotique tend vers 0 ce qui donne une statistique dégénérée. Le résultat est que les valeurs critiques de rejet de H0 sont invalides. McCracken (1999) [41] traite du sujet en détail et développe des statistiques valides pour plusieurs cas. L’approche utilisée sera celle de Giacomini et White (2006) [26] qui est valide si certaines hypothèses sont respectées. Le contexte est volontairement vague et se clarifiera dans quelques lignes. Tout d’abord, Giacomini et White ont développé leur test pour des prévisions conduites en utilisant une fenêtre roulante. En examinant une portion de taille fixe de l’échantillon et en inférant sur ce dernier plutôt que la population, nous adoptons une approche qui s’assure l’existence d’une variance (même sous H0 car le comportement des erreurs dans l’échantillon va être imparfait si la grandeur de la fenêtre est plus petite que la population). La grandeur de la fenêtre sera de 1586 jours, soit les deux tiers de l’échantillon. Ce nombre paraît arbitraire et il l’est, il permet cependant aux régimes d’être estimés d’une manière relativement précise. En effet, un horizon de moins d’un an entraîne des erreurs d’estimation de l’ordre de 103 . Le test est conduit par rapport à l’échantillon et non par rapport à la population. Quatre tests seront mis en place, celui des prévisions emboîtées (traduction libre de forecast encompassing), le test de la direction, le test de la précision des erreurs et le test des quantiles. Pour chacun d’entre eux, il faut tout d’abord énoncer une statistique d’intérêt et l’inférence sera ensuite conduite sur celle-ci. 28 Définition 8. Soit le modèle dont le vecteur de paramètres θt = supθ∈Θ L(θ|σ((Xs )t−m<s<t )), alors l’erreur de prévisions du temps t d’horizon h sera dénoté et (h) et égalera à yt+h − E(yt+h |θt , Ft ). Finalement, pour chaque observation hors échantillon, le modèle sera réestimé, les erreurs seront notées, et ce, pour chaque horizon. 4.6.1 Le test de prévisions emboîtées (forecast encompassing) Ce test bien simple a pour but de voir si le modèle A peut améliorer le modèle B et vice versa. Si les deux modèles capturent chacun une différente dynamique du taux de change, alors il est possible qu’il soit utile de les utiliser conjointement. Ce test se fera donc en deux parties. La première testera l’autonomie du modèle linéaire et le deuxième l’autonomie du MLTL. Le même exercice sera fait entre la marche aléatoire et le MLTL. Définition 9. Soit et,A (h) les erreurs du modèle A et et,B (h) celles du modèle B, finalement, alors statistique d’intérêt, Ri (y, θ̂) = et,i (h)yt,j (h) pour i, j ∈ {A, B}, j 6= i. Le test peut alors se définir comme suit : – H0 : E(et,i (h)yt,j (h)) = 0 – H1 : E(et,i (h)yt,j (h)) 6= 0 Intuitivement, sous l’hypothèse nulle, les prévisions du modèle i ne peuvent être améliorées par les prévisions du modèle j : leur covariance est nulle (et par conséquent, leur corrélation au sens de Pearson aussi). Dans le cas échéant, il est souhaitable de ne pas rejeter H0 si l’autonomie du MLTL est testée (car il est supposé, dans ce mémoire, que la dynamique entre le taux de change et les variables explicatives ne soit pas linéaire) et vice versa si l’autonomie du modèle linéaire est testée. Les deux tests seront conduits. Le comportement de la statistique sera précisé plus loin. 4.6.2 Test d’égalité d’erreurs de prévision Le deuxième test tentera de déterminer quel modèle donne les plus petites erreurs de prévision en moyenne. Une simple modification du test précédent permet de construire celui-ci : Définition 10. Soit les mêmes notations que précédemment, alors la statistique d’intérêt est S(y, θ̂) = et,i (h)2 − et,j (h)2 pour i, j ∈ {A, B}, j 6= i. Le test devient donc le suivant : 29 – H0 : Ŝ(y, θ̂) = 0 – H1 : Ŝ(y, θ̂) > 0 Cette statistique se conduit de façon simultanée pour les deux modèles. Leur comportement est bien défini, car le tout se fait au niveau de l’échantillon et non de la population. Le test doit idéalement être formulé de façon à avoir comme alternative une meilleure performance du modèle plus complet. Il serait possible d’ajouter une troisième hypothèse pour traiter du cas opposé et d’utiliser la théorie de la décision pour approcher le problème. Si les résultats de ce premier test sont non-concluants, il sera refait de cette manière. 4.6.3 Test de la direction Le test de la direction a déjà été fait de manière informelle dans la sous-section précédente. Il sera refait pour les tests hors échantillons. Sous l’hypothèse nulle, le pouvoir de prévision du signe de la fluctuation est inexistant. Cela revient à dire que la probabilité de deviner la direction est de 0.5, soit une chance sur deux. Le test sera fait unilatéralement. La raison est simple. Alors que d’un point de vue spéculatif, un modèle qui ne prévoit jamais le signe de la fluctuation est attrayant (il suffit de prendre une position contraire à celle qui est suggérée), c’est principalement la relation entre l’information du marché et le taux de change que le mémoire tente d’expliquer. En termes mathématiques, la statistique sera la suivante : Définition 11. Pour ŷt,i (h) la prévision du modèle i d’horizon h, la statistique d’intérêt est D = 1(yt+h −yt −∆y)(ŷ . Elle est identique à celle définie précédemment. ¯ ¯ y (h)−yt −∆y)≥0 Elle servira à conduire le test qui suit : – H0 : D = 0.5 – H1 : D 6= 0.5 4.6.4 Le test des quantiles Le dernier test concernera un mixte de la prévision de la moyenne et de la prévision de la volatilité. Il ressemblera au test de la direction à la différence que la proportion sera celle des données contenues hors d’un intervalle prédéfini et non la proportion des directions de fluctuations prédites avec succès. La motivation est la même que précédemment, toutefois, le tout est fait de façon plus formelle (test d’hypothèse). La statistique est celle-ci : 30 Définition 12. Soit a ∈ (0, 1) le niveau de quantile d’intérêt, alors la statistique d’intérêt sera P = 1yt+h <y0.5ak + 1yt+h >y1−0.5ak pour h un horizon donné et y0.5ak le quantile théorique Ft -mesurable de la prévision au temps t. Les distributions des statistiques précédentes sont décrites dans la sous-section suivante. 4.6.5 La distribution de la statistique Comme le mentionne Clark et McCracken (2010) [13], lorsque l’estimation de θ∗ se fait sur une fenêtre roulante avec une taille m < ∞, il est possible d’inférer sur la statistique échantillonnale à l’aide des statistiques définies ci-dessus. La vraie valeur de la statistique (sa valeur au niveau de la population) n’est pas l’objet d’intérêt ici. Théorème 2. Soit T (h) une statistique quelconque sur un échantillon de taille n, soit T̂ (h) la valeur de cette statistique obtenue lorsque le vecteur de paramètres θ∗ est estimé sur une fenêtre roulante de taille m < n où m est fixé et soit h l’horizon de prévision, alors q Pn−max(h) 1 – (T̂θ∗ |(Ft )t∈[i−m,i−1] (h) − T (h)) ∼ N (0, V ) i=m n−m−max(h)−1 i hq Pn−max(h) 1 ∗ ( T̂ (h) − T (h)) lorsque n → – V → V ar θ |(Ft )t∈[i−m,i−1] i=m n−m−max(h)−1 ∞ et m reste fixe Cette statistique permet de confronter l’hypothèse suivante à une alternative bidirectionnelle ou unidirectionnelle : H0 : T̂ (h) = T (h) La variance doit être estimée de manière cohérente : elle doit prinpalement tenir compte de la corrélation entre chaque valeur. Dans leur célèbre article intitué A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix publié en 1986 [42], Newey et West ont proposé une solution robuste à l’obtention de la variance asymptotique des erreurs lorsqu’elles sont possiblement corrélées. Leur approche est dite robuste au sens où la matrice obtenue (pour différents vecteurs d’erreurs) sera toujours définie semi-positive. Dans le cas à une dimension, elle se définit comme suit : Définition 13. Soit e = {e1 , e2 , ..., en } une série de valeurs réelles observées, alors l’es- 31 timateur de la variance asymptotique de cette série est la suivante : u = e − ē σ̂e2 = ut u + 2 k X i=1 wi n−i X uj uj+i j=1 pour wi des poids se définissant de la façon suivante wi = 1 − i k+1 La variable k indique le nombre de retards considérés et elle est choisie arbitrairement. La littérature suggère de prendre une valeur de k supérieure ou égale à l’horizon de la prévision (h). En posant k = 2h+1 pour h l’horizon de prévision, une valeur q conservatrice, les valeurs 1 T̂θ∗ |(Ft )t∈[i−m,i−1] (h) p seront calculées. Il suffit donc d’appliquer ce résultat sur la série n−m−h−1 √ pour i = m, m + 1, ..., n − max(h) et de multiplier par n − m − h − 1 afin d’avoir une statistique dont la distribution est celle de la loi normale centrée réduite. 4.7 Les tests d’hypothèses Supposons deux hypothèses différentes concernant le modèle sous-jacent à un jeu de données, ces tests servent à les confronter pour déterminer laquelle est la plus probable. Traditionnellement, ces hypothèses, appelées hypothèse nulle et hypothèse alternative, sont respectivement celles qu’on tente de rejeter et celles qu’on souhaite accepter. Notons finalement que H0 est accepté sans preuve du contraire. Une définition plus formelle serait de considérer un ensemble (de p dimensions pour p paramètres, disons Θ, contenant tous les paramètres admissibles du modèle considéré. Posons également Θ0 et Θ1 des sous-ensembles de Θ tels que Θ = Θ0 ∪ Θ1 et finalement, posons θ le vrai vecteur de paramètres recherché. Le but des tests d’hypothèses est alors de se demander en se basant sur le vecteur de données y s’il est possible d’affirmer que θ∈ / Θ0 où Θ0 est l’ensemble des paramètres admissibles sous H0 ) avec probabilité d’au moins 1 − α où α est le seuil de confiance choisi (10% par exemple). Dans le cadre de cet ouvrage, nous souhaiterons tout d’abord tester le modèle de marche aléatoire contre un simple modèle linéaire. Par la suite, un deuxième test sera conduit entre le gagnant du premier test et le modèle LTL. Il est donc important de 32 choisir un test qui soit approprié pour ces deux applications. Dans les tests traitant des modèles linéaires, la littérature tend à privilégier le test de Wald, qui semble avoir été conçu pour ce contexte particulier. Les tests qui seront utilisés dans le mémoire seront maintenant présentés. 4.7.1 Le test de Wald Greene, dans la cinquième édition de son ouvrage intitulé Econometric Analysis [27], définit la statistique de Wald comme suit : W = (Rβ̂ − b)t V ˆar(β̂)−1 (Rβ̂ − b) où H0 (le modèle restreint) implique la contrainte Rβ̂ = b. Ce test a la propriété d’être localement le test le plus puissant lorsque la taille de l’échantillon tend vers l’infini (voir Engle (1984) [22]). Ceci se démontre en utilisant une série de Taylor de degré 2 sur le ratio de la vraisemblance. Comme mentionné, le premier test opposera la marche aléatoire et le modèle linéaire simple. On peut écrire le test comme suit : H0 : Yt = Xt−1 βma + t H1 : Yt = Xt−1 βlin + t pour ~ oil, ~ gold] ~ ~ ,PP ~ P , ∆r, X = [~1, Y ¯ , 1, 0, 0, 0, 0] βma = [∆Y βlin = M CO Le modèle de l’hypothèse alternative est inclu dans celui de l’hypothèse nulle, le test se fait donc aisément en posant les contraintes suivantes au modèle non restreint βi = 0 pour i = 3, 4, 5, 6 et β2 = 1 pour β = βlin et βi désignant la ie composante du vecteur. Sous certaines hypothèses, la distribution asymptotique de la statistique de Wald est connue de manière exacte. Pour p contraintes de modèle (ce qui revient à dire que la 33 matrice R possède p lignes), alors W ∼ χ2p . Cependant, les hypothèses sont parfois trop fortes et la normalité de chaque innovation n’est pas toujours vérifiée. Comme mentionnés dans la revue de la littérature, Cheung et Erlandsson ont démontré que la statistique de Wald est fragile, particulièrement lorsque il y a un aspect non linéaire dans les données sous-jacentes. Comme ceci peut sembler problématique dans le cas ci-présent, la distribution de W sera rééchantillonée (bootstrap). Le deuxième test opposera le modèle linéaire au MLTL. Les hypothèses sont les suivantes : H0 : Yt = Xt−1 βlin + t H1 : Yt = Υt Xt−1 β1 + (1 − Υt )Xt−1 β2 + σt t σt = Υσ1 + (1 − Υ)σ2 Pour obtenir la statistique de Wald, il suffit de remarquer que les contraintes à imposer au modèle sous H1 pour qu’il soit le même que sous H0 sont les suivantes : β1 = β2 σ1 = σ2 φ0 , φ1 , φ2 , φ3 sont libres Le fait qu’il y ait des paramètres libres (les φ dans Υ), il est nécessaire d’utiliser le bootstrap pour obtenir les valeurs critiques. Il n’y a plus de distribution connue pour la statistique d’intérêt. Une brève introduction de la méthodologie utilisée pour conduire le bootstrap sera présentée. 4.7.2 Le test du ratio de vraisemblance Asymptotiquement équivalent au test de Wald (voir l’article de Engle (1984) [22]), ce test est généralement le préféré des statisticiens classiques étant donné ses propriétés intéressantes. Comme le précise Engle, le test de Wald et du ratio de vraisemblance sont asymptotiquement équivalent, mais chaque test possède ses propres forces et faiblesses. Ces raisons sont donc les motivations d’utiliser ce test conjointement à celui de Wald. La 34 charge de calcul supplémentaire sera négligeable étant donné que les modèles à estimer sous H0 ont une solution analytique. La statistique sera définie comme suit : L = P (θ ∈ Θ0 |Y )/P (θ ∈ Θ1 |Y ) Sous certaines hypothèses de régularité, −2 log L ∼ χ2p . Cependant, comme c’était le cas pour le test de Wald, la distribution χ2p n’est pas valide dans le cas où H1 introduit des paramètres libres lors du passage sous H0 . Il sera donc nécessaire d’utiliser ici aussi la procédure bootstrap. 4.7.3 Le bootstrap Sous l’hypothèse nulle que le modèle suit une marche aléatoire, le bootstrap procédera de la façon suivante : 1. s = {∆y1 , ∆y2 , ..., ∆yn−1 } pour ∆yj = yj+1 − yj 2. I = {i1 , i2 , i3 , ..., in−1 } pour ij distribué uniformément sur {1, 2, ..., n − 1} Pj−1 3. Yb = {yb,1 , yb,2 , ..., yb,n } pour yb,j = y1 + k ∆yik pour j ≥ 2 L’échantillon "bootstrappé" Yb sera donc de taille n et son comportement sera celui d’une marche aléatoire. Sous l’hypothèse nulle que le modèle est linéaire en fonction d’une matrice de variables explicatives X, le bootstrap procédera de la façon suivante : 1. s = {r1 , r2 , ..., rn−1 } les n − 1 résidus du modèle linéaire 2. I = {i1 , i2 , i3 , ..., in−1 } pour ij distribué uniformément sur {1, 2, ..., n − 1} 3. Pour k allant de 2 à n (a) uk−1 = sik−1 0 (b) yb,k = (1 + α)yb,k−1 + Xk−1 β 0 + uk−1 La matrice X0 est identique à la matrice X à l’exception que la colonne de la variable du taux de change avec un retard a été retirée. D’une manière similaire, le vecteur β 0 correspond au vecteur β sans la composante autorégressive. Cette dernière est représentée par la variable α. L’échantillon "bootstrappé" Yb sera conditionnel aux variables explicatives X. 5 Résultats 35 Dans cette section seront discutés les résultats obtenus lors de l’étude. Les difficultés face à leur obtention seront décrites et énumérées. Cette section sera divisée de la manière suivante : 1. L’estimation des modèles 2. Les tests d’hypothèses 3. Les expériences à l’intérieur de l’échantillon 4. Les expériences hors échantillon 5.1 Modélisation Au cours de ce mémoire, trois classes de modèles distinctes ont dû êtres estimées : celles des modèles de marche aléatoires, des modèles linéaires et des modèles à transition lisse. Dans les trois cas, il a été nécessaire de faire appel à la valeur du taux de change aux pas de temps précédents. Alors que dans le cas de la marche aléatoire, ceci s’est fait de façon bien précise (il a simplement fallu utiliser la valeur au temps t − 1 et de ne pas la multiplier par un coefficient k pour k 6= 1), un ordre supérieur à 1 est possible dans les deux modèles plus complexes. Dans le but de découvrir l’ordre p du processus autorégressif utilisé, les fonctions d’autocorrélations (ρ(k)) et d’autocorrélations partielles (ρp (k)) seront calculées pour des ordres (k) allant de 0 à 100. Deux conclusions peuvent être tirées des résultats présentés dans le tableau 1. La fonction d’autocorrélation indique que le processus n’a pas de composante de moyenne mobile. En effet, la fonction d’autocorrélation d’un M A(q) va s’estomper pour les ordres q +1, q +2, .... Finalement, la composante autorégressive semble être d’ordre 1 : en effet, la fonction d’autocorrélation partielle s’aplatit après le premier ordre. Un processus AR(1) serait donc un bon candidat. Ceci est cohérent avec ce que la littérature suggère. 5.1.1 La marche aléatoire Ce modèle très simple présente de très bons résultats. Les paramètres résultant de l’estimation sont affichés dans le tableau 2. Il est intéressant de noter que la dérive étant dans l’intervalle [−0.0001, 0.0005], n’est pas significative. Ceci rappelle le comportement "martingale " que la littérature semble Ordre (k) 0 1 2 3 4 5 6 7 8 9 10 25 50 100 ρ(k) 1 0.9977 0.9955 0.9933 0.9911 0.9887 0.9865 0.9844 0.9822 0.9801 0.978 0.948 0.8963 0.7897 ρp (k) 1 0.9985 0.0176 0.0091 -0.0362 -0.0347 0.0414 0.0522 -0.0331 0.0122 0.0461 0.015 0.0086 -0.0033 36 Table 1 – Les fonctions d’autocorrélation et d’autocorrélation partielle θ̂∗ µ̂ σ̂ Valeur 0.0002 0.0065 Erreur 0.0001 0.0001 Borne inférieure (95%) -0.0001 0.0064 Borne supérieure (95%) 0.0005 0.0066 Table 2 – La marche aléatoire attribuer aux taux de change. La valeur de la fonction du logarithme de la vraisemblance lorsqu’elle est évaluée en θ̂ est de 8601.91. Les erreurs, par hypothèse, sont indépendantes et distribuées selon une loi normale. Il serait donc intéressant de regarder, pour les différents modèles, si cette hypothèse est transgressée. La figure 1, qui contient deux graphiques, illustre le comportement des résidus. Ces graphiques indiquent notamment, et de façon très informelle, la distance entre la distribution théorique et empirique. Le constat que les erreurs ne soient pas normalement distribuées est sans surprise. L’hétéroscédasticité ainsi qu’une moyenne variante (résultant donc en une densité mélangée) pourraient expliquer en partie ce graphique. Cela dit, idéalement, en augmentant la complexité du modèle, il serait souhaitable d’améliorer cet aspect. 37 Figure 1 – Le comportement des résidus de la marche aléatoire 5.1.2 Le modèle linéaire La matrice X correspond aux variables explicatives (auquel un vecteur de 1 ainsi que la série yt avec un retard sont ajoutés). Comme expliqué dans la méthodologie, le modèle est réestimé jusqu’à ce que chaque coefficient βi soit significatif à 5%. Les variables restantes sont le vecteur de constantes, le coefficient autorégressif, la PPA, la différence des logarithmes des taux d’intérêt sur 10 ans, le prix de l’or et l’indice du S&P T SX. L’exclusion du prix du baril de pétrole ne fut pas si surprenante. La littérature sur le lien entre le taux de change CAD/USD et le prix de l’huile est vaste et précise : la relation n’est plus la même. Un article de Ferraro, Rogoff, Rossi [24], pas encore publié, semble pointer vers cette même conclusion : la relation, pour les données journalières, existe mais elle est très fragile. De plus, étant donnée la forte corrélation entre le prix du baril de pétrole, il se peut également que la série modélisée avec un retard capture sensiblement la même information. En effet, les corrélations entre ces deux séries sont de 94% Maintenant, les paramètres estimés sont affichés dans le tableau 3. La log-vraisemblance obtenue en θ̂∗ est de 8617.69, soit 15 de plus que le modèle de la marche aléatoire. Quant aux résidus, leur comportement est illustré dans la figure 2. Ces derniers présentent peu de différences visibles par rapport aux résidus issus de la marche aléatoire. θ̂∗ µ AR(1) PPA ∆r10ans Or TSX σ 38 Valeur -0.1426 -0.0192 -0.0438 0.1822 0.0029 0.0112 0.0065 Erreur 0.0273 0.0037 0.0194 0.0718 0.0009 0.0023 0.0001 Borne inférieure (95%) -0.1962 -0.0264 -0.0819 0.0414 0.0012 0.0068 0.0063 Borne supérieure (95%) -0.0891 -0.012 -0.0056 0.323 0.0047 0.0156 0.0067 Table 3 – Le modèle linéaire Figure 2 – Le comportement des résidus du modèle linéaire 5.1.3 Le modèle linéaire à transition lisse Sous l’hypothèse restrictive que les variables explicatives sont les mêmes que dans le modèle linéaire (restrictive, car les variables conservées ne sont que celles dont la tendance est significative d’un point de vue linéaire, voir Issa, Lafrance et Muray (2008) [31]), les coefficients estimés pour le modèle linéaire à transition lisse sont affichés dans le tableau 4. Évaluée en ce vecteur, la valeur de la fonction de log-vraisemblance est de 8761.88. Plusieurs conclusions peuvent être tirées à partir des deux régimes. Premièrement, le premier régime possède un coefficient autorégressif relativement important et le σ1 laisse supposer qu’il est très volatile. De plus, le coefficient de la P P A semble indiquer qu’il 39 θ̂∗ Valeur φ0 φ1 φ2 φ3 -0.331 -0.1307 -5.0125 -5.08 µ AR(1) PPA ∆r10ans Or TSX σ -2.2827 -0.3277 -0.7951 2.1427 0.0494 0.1768 0.0103 µ AR(1) PPA ∆r10ans Or TSX σ -0.9832 -0.1305 -0.218 1.5965 0.0189 0.0799 0.0021 Erreur Borne inférieure (95%) Borne supérieure (95%) Paramètres de détermination du régime 0.3502 -1.0174 0.3554 0.4116 -0.9375 0.6761 1.6028 -8.1539 -1.8711 1.6231 -8.2614 -1.8987 Premier régime 0.7253 -3.7043 -0.8612 0.1031 -0.5299 -0.1255 0.3152 -1.4129 -0.1774 0.6608 0.8475 3.4379 0.0167 0.0167 0.0821 0.0551 0.0689 0.2848 0.0019 0.0066 0.014 Deuxième régime 0.1601 -1.297 -0.6693 0.0214 -0.1725 -0.0885 0.0686 -0.3524 -0.0836 0.2876 1.0328 2.1603 0.0039 0.0114 0.0265 0.0128 0.0548 0.1051 0.0015 -0.0008 0.005 Table 4 – Le modèle LTL y a une forte tendance de retour à l’équilibre dans le premier régime. En observant le deuxième régime, cette tendance est beaucoup moins présente. Le retour à la moyenne se fait donc beaucoup plus lentement. Un parallèle peut être fait entre ces résultats et ceux de Kilian et Taylor. Ils ont supposé deux régimes, un qui agit comme marche aléatoire et l’autre qui s’assure du retour vers la valeur d’équilibre. Dans le cas présent, le deuxième régime est beaucoup moins volatile : chacun des coefficients linéaires de ce régime est inférieur à son homologue du premier régime et sa volatilité est relativement petite. Ce régime peut être vu comme un régime "tranquille" qui modélise davantage les périodes d’équilibre. Cependant, Kilian et Taylor ont indiqué que durant ces périodes d’équilibre, le taux de change se comporte comme une marche aléatoire et ses mouvements sont de nature spéculative. Il y a donc une différence. En effet, il suffit de voir que la variance n’est même pas significative dans le deuxième régime ce qui permet d’affirmer que ce régime reste très dépendant des variables explicatives. Finalement, étant donné un σ2 possiblement nul, il est naturel de se demander si l’hétéroscédasticité est bien capturée par ce modèle. 40 De plus, il y a deux autres paramètres qui ne sont pas significatifs (le premier étant le σ2 ). Cela dit, les régimes sont-ils bien modélisés malgré le fait que deux des paramètres dont le but est strictement de déterminer le régime actuel ne sont pas significatifs ? Les résultats donneront les verdicts. Cependant, à titre indicatif, il est toujours bien de regarder le comportement des résidus ressortant de ce modèle. Ces derniers sont illustrés dans la figure 3. Alors qu’il est difficile de tirer des conclusions certaines, il est possible de voir, notamment en observant l’axe de l’origine du deuxième graphique, que la différence entre les deux densités semble avoir diminué. Figure 3 – Le comportement des résidus du MLTL Le comportement des régimes (figure 4) témoigne bien des tendances changeantes dans l’évolution du taux de change. Le facteur Υt répond bien aux attentes précisées lors de l’estimation : – Il est bien dispersé entre 0 et 1 (Ῡ = 0.3449). Les deux régimes sont clairement indentifés. – Il s’interprète donc comme la situation économique : les régimes sont persistants. Un autre constat intéressant est que dans chacun des cas, le paramètre du MLTL est plus éloigné de l’axe des x que le paramètre du ML. Alors que l’incertitude des paramètres 41 Figure 4 – L’évolution des régimes dans le temps du MLTL est plus grande que pour le modèle opposant, il est naturel de se demander si une variable pour laquelle le coefficient linéaire n’était pas significatif pourrait l’être pour le cas du MLTL. Ayant particulièrement à l’esprit le prix du baril d’huile, il faut se rappeler que Issa Lafrance, Murray (2008) [31] proposent qu’il y ait des changements de tendance entre le taux de change américain et le prix du baril. Si cela s’était produit pour les 10 années étudiées, il va sans dire que le coefficient linéaire serait possiblement non significatif, et ce, car le lien est non linéaire de façon importante. Cependant, ce ne serait peut-être pas le cas pour le MLTL. Finalement, dans le graphique 19, toujours en annexe, la volatilité du taux de change est illustrée à travers le temps. À des fins de comparaisons, la volatilité résultante d’un modèle GARCH (1, 1) est également présentée, car ces derniers ont connu quelques succès pour les séries chronologiques de taux de change (voir Alexander (2006) [3] par exemple). La volatilité obtenue est relativement semblable. Une différence majeure est le fait que les poids des régimes du MLTL étant compris entre 0 et 1, la volatilité va être bornée entre σ1 et σ2 . Ceci peut sembler une faiblesse, particulièrement lorsqu’il y a une certaine 42 détresse dans les marchés financiers, ce qui entraine des prix très instables. Ceci s’observe directement vers la fin de l’année 2008 et durant l’année 2009. Rappelons que ces dates coïncident aux récentes crises financières observées sur les marchés. Les États-Unis étant plus touchés que le Canada, il est normal que le taux de change ait subi des bouleversements durant cette période. Cela dit, le modèle est visiblement contraignant en ce qui touche la volatilité. 5.1.4 Les résidus des différents modèles Des graphiques ont été examinés de façon informelle pour évaluer le comportement des résidus. Cependant, les autocorrélations résiduelles n’ont pas été abordées. Le prochain tableau indique les résultats (sous forme de valeur P) des autocorrélations des erreurs jusqu’à un ordre de 20. Le test employé est celui de Ljung-Box décrit dans l’article de Ljung (1978) [40]. L’hypothèse nulle implique une absence de corrélation pour un ordre de 1, 2, ..., 20. Par conséquent, son rejet implique qu’il y a au moins une corrélation non nulle pour un ordre entre 1 et 20. Les résultats sont les suivants : Le modèle Marche aléatoire Modèle linéaire MLTL Valeur P 0.0233 0.0335 0.0398 Table 5 – Test d’hypothèse sur l’autocorrélation Les trois modèles échouent le test. Il faut croire qu’il y a un aspect de la dynamique qui est mal capturé par chacun d’entre eux. L’erreur des différents paramètres de chacun des modèles sera donc imprécise. 5.2 Test d’hypothèses Une méthode populaire de tester la validité d’un modèle face à une alternative est d’utiliser les tests d’hypothèses. Deux tests sont proposés. Le premier oppose la marche aléatoire au modèle linéaire. Par la suite, le MLTL s’oppose au modèle linéaire. 43 5.2.1 Marche aléatoire contre modèle linéaire Soit le test suivant : H0 : yt ∼ M A H1 : yt ∼ M L Le tableau 6 contient les résultats : Le test Ratio de vraisemblance (−2 log L) Wald (W ) Statistique 31.563363 31.760237 Valeur P 0.001 0.001 Table 6 – Test d’hypothèse entre MA et ML Marche aléatoire contre modèle linéaire. Les valeurs critiques ont été obtenues en suivant la procédure bootstrap (n = 10000) de la méthodologie et elles sont davantage conservatrices que les valeurs critiques asymptotiques. C’est sans surprise que le modèle linéaire surclasse la marche aléatoire de manière significative. En effet, le test est concluant, et ce, même pour un niveau de confiance de 1%. Les critiques principales des modèles linéaires sont principalement pour les résultats hors échantillons où la marche aléatoire tend à mieux performer. 5.2.2 Modèle linéaire contre modèle linéaire à transition lisse Le même exercice a été fait pour le modèle à régimes : H0 : yt ∼ M L H1 : yt ∼ M LT L De par les différentes limites du modèle linéaire, il ne serait pas surprenant de voir ce dernier rejeter en faveur du modèle plus complexe. Les résultats se retrouvent dans le tableau 7. Les densités empiriques des statistiques sont illustrées dans les figures 5 et 6. La surprise majeure vient du test de Wald qui n’est pas concluant. Cependant, un résultat qui devrait être asymptotiquement très semblable, le ratio de vraisemblance, est quant à lui Le test Ratio de vraisemblance (−2 log L) Wald (W ) Statistique 288.3762 9.7150 Valeur P 0 0.6270 44 Table 7 – Test d’hypothèse entre ML et MLTL Les résultats résultent d’une procédure bootstrap significatif. La raison qui explique ces résultats est l’instabilité de la statistique étudiée. La matrice hessienne (analytique dans le cas présent) doit être inversée pour calculer la statistique de Wald. Cependant, il a été noté que pour un bon nombre d’échantillons bootstrap, la matrice de l’information de Fisher présentait un déterminant proche de 0. Ces cas ont été ignorés. Ceci laisse cependant croire que cette dernière est très instable. Des déterminants de très grands ordres (1015 ) ont également été observés. La raison principale qui a provoqué ce manque de stabilité vient des quatre paramètres de régimes, pour lesquelles les erreurs, parfois, explosaient. Il suffit de regarder le graphique de la densité pour se convaincre de son invalidité. Finalement, il faut se rappeler que les résidus étaient corrélés. Les erreurs sont donc imprécises. Le test du ratio de vraisemblance est concluant. Celui-ci nécessitant que les valeurs de vraisemblance maximales sous les deux hypothèses, les problèmes d’instabilité rencontrés avec le test de Wald ne se sont pas manifestés. Il est donc probable que ce dernier soit plus représentatif de la réalité. Notons également que les corrélations de Pearson et de Spearman observées entre les deux statistiques à travers les échantillons du bootstrap sont respectivement de 0.26 et de 0.42. Les graphiques aussi semblent indiquer que la distribution de Wald soit problématique. Ceci appuie donc davantage que le test de Wald est invalide. 5.3 Les mesures à l’intérieur de l’échantillon Les statistiques de prévision suivantes ont été évaluées pour différents horizons de façon à bien discerner les forces et les faiblesses du modèle. Elles sont calculées à l’intérieur de l’échantillon et elles permettent de rapidement évaluer les performances prévisionnelles de chacun des modèles. Les prévisions sont conduites sur les journées (ouvrables). 45 Figure 5 – La densité de la statistique de Wald Figure 6 – La densité de la statistique du ratio de vraisemblance 5.3.1 Écart quadratique moyen pour les prévisions La première statistique a pour effet de quantifier la précision du modèle de la moyenne. Principalement, il a pour but de mesurer à quel point l’information disponible peut mo- 46 difier la précision d’une prévision faite. En ce sens, les résultats sont impressionnants et concluants. Ils sont affichés dans le tableau 8. Les résultats sont en fait les ratios d’EQMP du modèle étudié par rapport à celui de la marche aléatoire. De plus, le symbole entre parenthèses indique l’information de laquelle le modèle se base pour construire sa prévision. Horizons ML (F∞ ) ML (Ft−1 ) MLTL (F∞ ) MLTL (Z) MLTL (X) MLTL (Ft−1 ) 1 0.986 0.986 0.925 0.925 0.925 0.925 2 0.974 0.985 0.754 0.857 0.831 0.942 3 0.962 0.975 0.625 0.753 0.727 0.841 7 0.908 0.926 0.334 0.442 0.440 0.518 30 0.713 0.731 0.095 0.149 0.177 0.177 90 0.416 0.426 0.030 0.067 0.085 0.090 Table 8 – Le ratio des écarts quadratiques moyens pour les prévisions des ML et MLTL sur MA à l’intérieur de l’échantillon MA = Marche aléatoire, ML = Modèle linéaire, MLTL = Modèle linéaire à transition lisse. Un ratio < 1 signifie que la prévision est plus précise que la marche aléatoire Le passage du modèle de la marche aléatoire au modèle linéaire est concluant. Des améliorations allant de 1% (pour de petits horizons) jusqu’à 60% pour de plus grands horizons. Alors que la marche aléatoire représente une absence complète d’information, le modèle linéaire, lorsque la prévision se fait selon l’information disponible au temps t − 1 (donc en conditionnant sur Ft ), offre une performance très semblable. Ce modèle est donc qualifié de modèle insensible face à l’information. En effet, pour un horizon de 90 jours, il y a une différence au niveau de la performance de 2.45%. L’utilisation du MLTL, indépendamment de l’information disponible pour les prévisions, offre des gains de précision allant jusqu’à 97%. La non linéarité est donc indirectement vérifiée pour le taux de change. Du moins, si la relation est linéaire, elle n’est pas constante dans le temps, comme le suggéraient Issa, Lafrance et Murray [31]. Des figures illustrant la précision sont présentées en annexe (voir la figure 10, 11 et 12). Cette interprétation est grandement appuyée par le fait que la prévision sachant les régimes et ignorant les variables explicatives est proche de la prévision conditionnée sur la filtration entière. Il faut noter que la pondération des régimes est très volatile. 47 5.3.2 La statistique de la direction La deuxième statistique s’intéresse au nombre de fois où les prévisions ont su bien prédire le signe de la fluctuation. Les résultats se trouvent dans le tableau 9. Horizons MA ML (F∞ ) ML (Ft−1 ) MLTL (F∞ ) MLTL (Z) MLTL (X) MLTL (Ft−1 ) 1 50.61% 53.93% 53.93% 57.90% 57.90% 57.90% 56.24% 2 52.93% 54.37% 53.36% 67.29% 59.56% 65.55% 56.20% 3 51.66% 55.76% 55.02% 74.15% 64.50% 71.53% 63.76% 7 52.75% 57.29% 56.59% 82.36% 75.59% 79.43% 77.16% 30 47.99% 65.94% 65.41% 89.08% 85.07% 86.42% 88.86% 90 50.09% 73.89% 73.49% 94.37% 91.92% 91.18% 93.89% Table 9 – La statistique de direction MA = Marche aléatoire, L = Linéaire, MLTL = Modèle linéaire à transition lisse La statistique a été calculée sur le logarithme du taux de change duquel la moyenne a été soustraite. Les résultats pour la marche aléatoire avoisinent donc les 50%, soit la valeur théorique. Un modèle linéaire propose un bon gain de performance, soit de 25% pour un horizon de 90 jours. Le gain le plus impressionnant vient sans doute du modèle LTL qui permet de prévoir la direction de la fluctuation de 56% du temps jusqu’à 90%. Finalement, les résultats indiquent que cette mesure est relativement insensible à la disponibilité de l’information. En effet, les différences absolues entre les statistiques sont en dessous de 5%. 5.3.3 Les quantiles Une seule statistique est calculée pour examiner les mesures de dispersion et les effets de l’information sur ces dernières. Elle consiste à quantifier les différences entre des intervalles de confiances théoriques et empiriques. Les pourcentages affichés indiquent la proportion des réalisations hors de l’intervalle théorique centré. La série a = {0.5, 0.05, 0.01} représente les niveaux de confiance des intervalles. Pour un niveau de 50%, la dispersion centrale est examinée. Étant donné que les trois modèles font ultimement des prévisions dont l’erreur est normalement distribuée, l’intervalle trouvé est le suivant : [f¯−z0.75 σ, f¯+z0.75 σ]. Les résultats sont affichés dans le tableau 10. Notons que la valeur théorique est de 50%. Ignorons en premier lieu les trois dernières 48 colonnes. Les résultats, tous modèles confondus, tendent à sous-estimer cette valeur ce qui laisse supposer que trop peu de masse est assignée au centre de la distribution dans le modèle théorique. Les ailes théoriques surpassent donc les ailes empiriques. Le modèle LTL (sachant l’information normalement non disponible) est le plus précis. Ceci tend à appuyer l’hypothèse de l’héthéroskédaticité ou du moins, de la non-normalité. Cependant, lorsque les régimes sont inconnus ou lorsque les variables explicatives ne sont pas connues au-delà du moment où la prévision est faite, la performance du MLTL est catastrophique. Les raisons sont toutefois difficiles à trouver. La variance tente à être sous-estimée (car les intervalles sont beaucoup trop étroits). L’explication la plus probable est la suivante : le coefficient autorégressif est trop bas. En examinant la figure 14 qui se trouve dans l’annexe, le premier constat est qu’il se tient presque toujours en dessous de la valeur −0.3. La variance d’une prévision est la variance des erreurs additionnée auxquelles un ajustement est ajouté. Cet ajustement consiste en la multiplication des carrés des coefficients autorégressifs auxquels le nombre 1 est additionné. Comme ce nombre tend rapidement vers 0 pour des grands horizons (l’exposant se rapproche de 2h), la variance va être sous-estimée. Une autre source d’erreur serait la corrélation des résidus. Une des hypothèses du modèle est l’absence de corrélation entre les résidus. Horizons MA L (F∞ ) L (Ft−1 ) MLTL (F∞ ) MLTL (Υ) MLTL (X) MLTL (Ft−1 ) 1 40.92% 41.31% 41.31% 42.18% 42.18% 42.18% 42.18% 2 42.1% 42.31% 42.49% 43.54% 46.03% 44.76% 47.86% 3 42.4% 42.36% 42.62% 43.8% 50.52% 48.17% 52.45% 7 43.14% 42.14% 43.54% 45.37% 61.09% 60.92% 64.24% 30 38.73% 35.85% 40.79% 45.07% 80.44% 83.67% 80.44% 90 39.87% 26.59% 41.09% 45.59% 86.24% 91.53% 88.6% Table 10 – Le pourcentage des données hors des intervalles de confiance de 50% théoriques MA = Marche aléatoire, L = Linéaire, MLTL = Modèle linéaire à transition lisse En ce qui concerne les valeurs extrêmes, les résultats (tableau 5.3.3 démontrent clairement, encore une fois, que la variance du modèle LTL est sensible, et ce, de manière exagérée. Pour de grands horizons (30 jours et plus), les pourcentages de données dans les ailes sont bien trop élevés ce qui se traduit par une variance grandement sous-estimée lors de la prévision. En ignorant les trois dernières colonnes, il est difficile de décerner un Horizons a MA L (F∞ ) L (Ft−1 ) MLTL (F∞ ) MLTL (Υ) MLTL (X) MLTL (Ft−1 ) a MA L (F∞ ) L (Ft−1 ) MLTL (F∞ ) MLTL (Υ) MLTL (X) MLTL (Ft−1 ) 1 2 3 6.07% 5.98% 5.98% 5.81% 5.81% 5.81% 5.81% 5.28% 5.11% 5.15% 5.55% 6.77% 5.76% 7.42% 5.15% 4.89% 4.89% 5.11% 7.95% 7.16% 9.3% 2.53% 2.4% 2.4% 2.14% 2.14% 2.14% 2.14% 2.1% 2.05% 2.05% 1.75% 1.97% 2.1% 2.75% 2.01% 1.75% 1.79% 1.27% 2.53% 2.62% 3.71% 7 5% 4.72% 4.32% 4.67% 4.45% 15.02% 14.19% 19.78% 1% 2.14% 1.57% 1.83% 1.09% 6.59% 7.07% 10% 30 90 3.45% 1.44% 3.89% 4.45% 48.25% 51.57% 46.24% 4.15% 0.26% 4.98% 4.5% 64.02% 72.93% 68.17% 1.62% 0.44% 1.31% 1.22% 35.46% 37.9% 33.14% 2.75% 0.09% 1.92% 1.22% 55.15% 64.24% 58.82% 49 Table 11 – Le pourcentage des données contenues dans les ailes théoriques grand gagnant. 5.4 Les tests à l’extérieur de l’échantillon Les résultats des différents tests effectués hors des échantillons seront présentés ici. Pour chacun d’entre eux, les horizons utilisés seront de 1, 2, 3, 7, 30 et 90 jours. La série a été tranchée aux deux tiers (soit la grandeur de la fenêtre roulante). L’étude hors échantillon se portera donc sur la période qui couvre la récente crise financière. Le graphique 7 illustre cette période. Les performances des différents modèles pour un horizon de 1 et 90 jours respectivement sont illustrées dans les figures 8 et 9. Les périodes couvertes par les graphiques sont relativement courtes, mais cela permet de distinguer les courbes. Comme il est possible de le voir, les écarts de performance en terme de prévision se sont énormément atténués. Les résultats qui suivent confirmeront cette remarque. 5.4.1 Le test des prévisions emboîtées Pour chaque horizon, deux tests seront effectués. La mesure de performance utilisée sera la valeur p sous l’hypothèse de normalité des statistiques. 50 Figure 7 – Le prix de la devise canadienne en dollars américains Figure 8 – Les prévisions hors échantillon pour h = 1 En ce qui concerne la marche aléatoire, il n’y a aucune évidence que le MLTL explique les erreurs de la marche aléatoire. Ceci est la surprise majeure pour ce test, car si ces résultats sont comparés aux autres, (ML contre MLTL ou erreurs du MLTL contre prévisions 51 Figure 9 – Les prévisions hors échantillon pour h = 90 de la MA), ils sont de loin les meilleurs. Cela dit, plusieurs raisons peuvent expliquer le fait qu’un modèle simpliste ne produit pas des erreurs explicables par un modèle plus complexe. L’hypothèse de l’efficience des marchés, celle que le lien entre l’information et le taux de change est volatil (une grande partie des estimations se font en période de crise économique) en sont deux. Cependant, de par la nature du test, l’échantillon a été réduit de façon importante. Il est fort possible que la précision des estimateurs soit diminuée. En ce qui a trait au modèle linéaire, il produit des erreurs de prévision expliquées par le MLTL pour tous les horizons étudiés inférieurs ou égaux à trente jours. Pour l’horizon de 90 jours (4 mois et demi), le résultat est tout de même concluant pour un niveau de 10%. Le modèle linéaire en ressort donc perdant. Étant donné que les deux modèles utilisent l’information du marché, il est probable que le MLTL propose tout simplement une meilleure dynamique et que par conséquent, il soit en mesure de "corriger" celle du ML, qui est plus restrictive. Les erreurs du MLTL semblent cependant montrer une dépendance avec les prévisions des autres modèles. Les évidences montrent toutefois que ceci est vrai seulement pour un horizon de 7 jours, et ce, pour les deux modèles opposants. Une légère défaillance semble se faire sentir pour cet horizon particulier. Horizons H0 H1 Statistique normalisée Valeur P H0 H1 Statistique normalisée Valeur P H0 H1 Statistique normalisée Valeur P H0 H1 Statistique normalisée Valeur P 1 2 3 7 : E(et,M A Yt,M LT L (h)) = 0 : E(et,M A Yt,M LT L (h)) 6= 0 0.447 0.463 0.481 0.645 0.655 0.6435 0.630 0.519 : E(et,M LT L Yt,M A (h)) = 0 : E(et,M LT L Yt,M A (h)) 6= 0 1.154 1.502 1.558 1.921 0.129 0.133 0.119 0.055 : E(et,M L Yt,M LT L (h)) = 0 : E(et,M L Yt,M LT L (h)) 6= 0 2.318 2.363 2.453 2.845 0.021 0.018 0.014 0.004 : E(et,M LT L Yt,M L (h)) = 0 : E(et,M LT L Yt,M L (h)) 6= 0 1.508 1.494 1.547 1.846 0.132 0.135 0.122 0.065 30 90 0.433 0.665 0.870 0.384 1.370 0.171 1.588 0.112 2.101 0.036 1.664 0.096 1.322 0.186 1.366 0.172 52 Table 12 – Le test des prévisions emboîtées 5.4.2 Test sur la précision des prévisions Pour presque tous les horizons étudiés, l’erreur quadratique moyenne des prévisions a été réduite pour le MLTL (voir le tableau 15 en annexe) mais les résultats ne sont pas tous significatifs. Comme il est possible d’observer dans le tableau 5.4.2, autant contre la marche aléatoire que contre le modèle linéaire, la différence est significative pour l’horizon d’un jour. Le MLTL réussit donc à offrir des gains pour de très courts horizons. En effet, pour deux jours, les gains ne sont plus significatifs. Pour les autres horizons étudiés, la marche aléatoire n’est pas surclassée. Toutefois, les valeurs P pour des grands horizons semblent diminuer progressivement laissant croire qu’il est possible que le MLTL surpasse la marche aléatoire lorsque h est grand. Un test conduit pour un horizon de 120 jours (soit environ 6 mois) aboutit en une valeur p de 0.213. Le gain significatif se limite donc au très court terme. Comme Kilian et Taylor le mentionnaient, il est très difficile de battre la marche aléatoire et ces résultats appuient leur propos. Finalement, cet écart redevient significatif lorsque le MLTL est opposé au modèle linéaire. Ces résultats sont peu surprenants. La nature du modèle linéaire en est fort pos- Horizons Statistique normalisée Valeur P Statistique normalisée Valeur P 1 2 3 H0 : σ̂M A = σ̂M LT L H1 : σ̂M A > σ̂M LT L 1.865 0.3187 -0.212 0.031 0.375 0.584 H0 : σ̂M L = σ̂M LT L H1 : σ̂M L > σ̂M LT L 1.663 0.165 -0.263 0.048 0.435 0.604 7 30 90 0.102 0.460 0.946 0.172 0.760 0.224 0.223 0.412 1.901 0.029 1.740 0.041 53 Table 13 – Le test de la précision des prévisions siblement la cause. Les relations linéaires sont probablement transgressées pour des longs horizons. Plus la prévision est conduite sur un long horizon, plus cette dernière devrait être fautive (il en est de même pour les hypothèses du MLTL, cependant, elles sont moins contraignantes). Un autre test a également été conduit pour h = 120 et la valeur P était de 0.0158. Alors que plusieurs études précisent ce comportement comme étant non linéaire, d’un point de vu local (h = 1, 2 ou 3), il est peu probable que la dynamique entre y et X change radicalement. Cela expliquerait donc pourquoi la performance est bonne pour de petits horizons. Cependant, la dynamique change davantage pour de grands horizons d’où les piètres performances du ML pour celle-ci. Un autre résultat très intéressant est entre le modèle linéaire et la marche aléatoire (annexe, tableau 15). Ce qui a été observé entre le ML et le MLTL s’observe à nouveau contre la marche aléatoire. La performance du ML est supérieure (de manière non significative) pour des horizons plus courts et par la suite, le tout s’inverse. 5.5 Test de la direction En observant le tableau 14, les résultats indiquent que la marche aléatoire se situe au dessous de 50%. Elle se trompe davantage dans la direction des fluctuations qu’elle a raison. Ceci s’explique directement par la nature des données, à savoir la période instable et différente de celle comprise dans la fenêtre roulante sur laquelle le modèle a été estimé. Aussitôt que les prévisions utilisent l’information disponible sur le marché (principalement le MLTL), les rapports obtenus semblent s’améliorer. Toutefois, dans le cas du ML, les valeurs p indiquent qu’il n’y a pas d’évidence que les résultats sont différents de 50%. Il est donc impossible de conclure quoi que ce soit pour ce dernier. Horizons Proportion Statistique normalisée Valeur P Proportion Statistique normalisée Valeur P Proportion Statistique normalisée Valeur P 1 2 3 H0 : DM A = 0.5 H1 : DM A 6= 0.5 0.5014 0.4773 0.4759 0.074 -1.288 -1.215 0.4695 0.899 0.888 H0 : DM L = 0.5 H1 : DM L 6= 0.5 0.5213 0.5270 0.5298 1.071 1.087 1.043 0.142 0.139 0.148 H0 : DM LT L = 0.5 H1 : DM LT L 6= 0.5 0.5724 0.5696 0.5611 3.821 3.129 2.605 < 0.001 0.001 0.005 7 30 90 0.4574 -1.979 0.976 0.4574 -2.236 0.987 0.4830 -0.901 0.816 0.5000 0 0.5 0.5199 0.414 0.340 0.4787 -0.186 0.574 0.5241 1.004 0.158 0.5554 1.814 0.035 0.5043 0.039 0.485 54 Table 14 – Le test de la direction Les résultats du MLTL sont toutefois particulièrement intéressants. Pour quatre différents horizons (soit 1,2,3 et 30 jours), ils sont significativement supérieurs à 0.5. Cela signifie que pour ces horizons, il est possible de deviner correctement la fluctuation du taux de change canadien en utilisant l’information disponible sur le marché, et ce, avec une probabilité de succès supérieure à 50%. Alors qu’il se peut que ce résultat soit propre à l’échantillon choisi, il serait intéressant de mettre en place des stratégies d’investissement exploitant ces résultats. 5.6 Test des quantiles Les résultats présentés en annexe dans les tableaux 16, 17 et 18, ne sont pas encourageants pour les modèles linéaires et linéaires à transition lisse. En effet, dans le cas du MLTL, les intervalles empiriques diffèrent de manières significatives dans tous les cas sauf un. Le cas de la marche aléatoire n’est guère plus concluant. Cependant, il offre une meilleure performance pour les horizons plus longs. Plusieurs conclusions peuvent être tirées. La principale est que le MLTL n’est tout simplement pas un modèle apte à saisir le comportement de la non-normalité de façon significative. La littérature propose généralement des variances avec un effet autorégres- 55 sif (GARCH) et fonction de l’innovation précédente au carré (ARCH). Comme pour la tendance, il aurait été probablement utile d’ajouter un retard dans le processus de la variance. Cet exercice serait une extension intéressante au modèle. Une autre solution, comme mentionnée plus tôt, serait d’imposer la composante autorégressive dans un voisinage proche de 0. Finalement, le modèle linéaire affiche également des résultats décevants. Si ces derniers sont comparés aux résultats des tests à l’intérieur des échantillons, la qualité de l’information fournie au modèle est visiblement cruciale. 6 Conclusion 56 Est-ce qu’il est possible de prévoir la tendance et la volatilité future du taux de change ? Cette question qui se veut naïve ne l’est pas. Les données économiques semblent très influentes mais étant donné leur comportement non linéaire, il est difficile de bien les utiliser. En effet, comme il a été vu dans les tests de précisions de prévisions, un modèle linéaire va fonctionner de manière adéquate pour un horizon plus court. Cependant, pour un horizon plus long (90 périodes dans le cas échéant), l’aspect dynamique de la relation entre le taux de change et ses variables explicatives va se manifester et va rendre les prévisions imprécises. Pour pallier les limites, le modèle linéaire à transition lisse (MLTL) a été proposé. En offrant la possibilité à la relation entre les variables explicatives et la devise canadienne de changer selon les indicateurs économiques, le modèle a tenté de mettre en place une dynamique assez flexible et utilisable à des fins de prévisions, autant sur la tendance que sur la volatilité. De plus, des tests ont été conduits pour estimer les gains en performance de ce modèle. Ensuite, une fois les modèles estimés, les premières différences ont resurgi. Les premiers résultats, portant sur tout l’échantillon, ont été très concluants. Les tests d’hypothèses ainsi que les gains sur les mesures de performance au niveau de la tendance étaient unanimes, le MLTL apportait une contribution non négligeable. Le modèle linéaire, quant à lui, surclassait également la marche aléatoire, laissant croire que cette dernière n’était pas appropriée pour les statistiques à l’intérieur de l’échantillon. Malgré les différences importantes entre les approches et la nature des données, Kilian et Taylor arrivaient sensiblement à la même conclusion : les taux de change deviennent plus faciles à prévoir pour de longs horizons, par conséquent, le rejet du modèle de la marche aléatoire se fait avec plus de certitude lorsque l’horizon allonge. Ils attribuaient ces résultats à la non linéarité des taux de change par rapport aux variables économiques sur lesquelles les prévisions se basent. Le MLTL a tenté d’exploiter cet aspect et les résultats pour l’intérieur de l’échantillon semblent indiquer qu’il a réussi. Kilian et Taylor ont conduit la même expérience, mais sur des données hors de l’échantillon et ils ont noté une baisse radicale de la performance. En effet, ils ont conclu que malgré l’aspect non linéaire, surclasser la marche aléatoire pour la prévision en temps réel allait rester hors de portée dans un futur proche, et ce, malgré qu’ils obtiennent des 57 résultats plus encourageants pour de longs horizons. Alors que ceux-ci traitaient principalement de l’erreur quadratique moyenne des prévisions, les résultats présentés dans ce mémoire à ce chapitre leur donnent raison. En effet, la seule valeur p significative fut pour un horizon d’une journée ce qui semble indiquer que le MLTL n’apporte tout simplement pas de gains en terme de prévision des taux de change (excepté pour h = 1). Kilian et Taylor ont attribué ce résultat (pour les longs horizons) au fait qu’ils possédaient trop peu de données. Dans le cas échéant, la nature des données (journalières) est probablement, du moins en partie, la cause. De plus, la trop petite période couverte a fort possiblement été problématique. Cependant, les résultats des tests de direction ont été concluants et cela laisse croire qu’il pourrait exister une stratégie d’investissement exploitant cet aspect. Cela pourrait être l’objet d’une prochaine recherche. Notons cependant que les résultats obtenus sont encourageants. En effet, l’exercice a été fait de manière très informelle en fin d’annexe. Il y a plusieurs limites à cette étude. Outre celles déjà mentionnées, la normalité des erreurs et l’absence de dépendance entre celles-ci sont deux hypothèses clairement violées. Une amélioration possible serait d’incorporer la distribution normale généralisée ou tout simplement la distribution t. Quant’à la corrélation des erreurs, les modèles, dans le cadre de ce mémoire, ont été estimés en première différence ce qui peut avoir un impact majeur dans la corrélation des erreurs. Ajoutons également le nombre de régimes, ce dernier a été fixé à deux dans le cadre de ce mémoire. Un troisième régime pourrait avoir un impact positif. Cependant, le prix se ferait sentir lors de l’estimation où la précision des paramètres serait probablement diminuée de façon importante. Finalement, pour répondre à la fameuse question, l’information du marché peut jouer un rôle phénoménal dans la prévision du taux de change américain et il ne faut pas la négliger (comme dans le cas de la marche aléatoire). Cependant, il est dangereux de s’en servir sans être certain de la dynamique entre celle-ci et la variable modélisée. Ceci découle cependant de l’art et de nombreux progrès restent à venir. 7 7.1 58 Annexe Les dérivées de la fonction de vraisemblance l(Θ|Y ) = n X 1 p exp − 2 (yt − Xβt ) 2 2σt 2πσt log i=1 ∝ −0.5 = −0.5 1 n X i=1 n X log σi2 − 0.5 2 ! n X (yi − µi )2 i=1 σi2 n X log Υi σi2 + (1 − Υi )σ22 − 0.5 (yi − µi )2 + (1 − Υi )σ22 Υi σi2 i=1 i=1 ∂l(Θ|Y ) ∂l(Θ|Y ) 2σ1 = ∂σ1 ∂σ12 n n X X ∂l(Θ|Y ) Υi Υi (yi − µi )2 = −0.5 + 0.5 ∂σ12 Υi σi2 + (1 − Υi )σ22 (Υi σi2 + (1 − Υi )σ22 )2 i=1 i=1 = −0.5 ∂l(Θ|Y ) = ∂σ1 − n X Υi i=1 n X Υi (yi − µi )2 (σi2 )2 ! n Υi X Υi (yi − µi )2 + σ1 σi2 i=1 (σi2 )2 i=1 n X σi2 + 0.5 i=1 par symétrie... ∂l(Θ|Y ) = ∂σ2 − n X 1 − Υi i=1 σi2 + n X (1 − Υi )(yi − µi )2 i=1 (σi2 )2 ! σ2 n ∂l(Θ|Y ) X yi − µi = ∂µ σ2 i=1 mais par définition, ∂l(Θ|Y ) ∂l(Θ|Y ) ∂µ ∂µ1 = ∂β1,j ∂µ ∂µ1 ∂β1,j ∂µ = Υi ∂µ1 ∂µ1 = Xi,j pour la sommation en i ∂β1,j n ∂l(Θ|Y ) X Υi Xi,j (yi − µi ) = ∂β1,j σ2 i=1 et par symétrie n ∂l(Θ|Y ) X (1 − Υi )Xi,j (yi − µi ) = ∂β2,j σ2 i=1 ! finalement, pour les αk dans Υi = Φ X k en réécrivant l(Θ|Y )... αk Zi,k 59 X (yi − Υi (µ1 − µ2 ) − µ2 )2 log Υi (σ12 − σ22 ) + σ22 − .5 Υi (σ12 − σ22 ) + σ22 i i ∂l(Θ|Y ) X ∂l(Θ|Y ) ∂Υi mais = αk ∂Υi ∂αk i l(Θ|Y ) ∝ −.5 ∂l(Θ|Y ) = 0.5 αk 7.2 X X 2(µ1 − µ2 )(yi − µi ) − (σ 2 − σ 2 ) 1 i 2 σi2 + (σ12 − σ22 )(yi σi4 2 − µi ) X Φ0 αj Zi,j Zi,k j Les dérivées deuxièmes de la fonction de vraisemblance ∂ 2 l(Θ|Y ) = ∂(σ1 )2 ∂ 2 l(Θ|Y ) = ∂(σ2 )2 ∂ 2 l(Θ|Y ) = ∂σ1 σ2 X Υ2 X Υ2 (yi − µi )2 i i 2 −4 2 (σ ) (σi )3 i i i ! ∂l(Θ|Y ) ∂(σ12 ) ! X (1 − Υi )2 X (1 − Υi )2 (yi − µi )2 ∂l(Θ|Y ) 2 −4 σ22 + 2 2 )2 3 (σ (σ ) ∂(σ22 ) i i i i ! X Υi (1 − Υi ) X Υi (1 − Υi )(yi − µi )2 σ1 σ2 2 −4 (σi )2 (σi )3 i i σ12 + 2 X Υ2 Xi,j (yi − µi ) ∂ 2 l(Θ|Y ) i = −2σ1 ∂σ1 β1,j (σi2 )2 i ∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y ) , , se trouve en modifiant Υ2i et σ1 par un facteur approprié ∂σ22 β1,j ∂σ12 β2,j ∂σ22 β2,j X Υ2 Xi,j Xi,k ∂ 2 l(Θ|Y ) i =− ∂β1,j β1,k σi2 i ∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y ) , , se trouve en modifiant Υ2i par un facteur approprié ∂β1,j β2,k ∂β2,j β1,k ∂β2,j β2,k X ∂ 2 l(Θ|Y ) X Xi,j (yi − µi − Υi (µ1 − µ2 )) Υi (σ12 − σ22 )Xi,j (yi − µi ) 0 = − Φ αj Zi,j Zi,k ∂β1,j αk σi2 (σi2 )2 i j 2 2 2 X X ∂ l(Θ|Y ) Xi,j (µi − yi − Υi (µ1 − µ2 )) Υi (σ1 − σ2 )Xi,j (yi − µi ) = − Φ0 αj Zi,j Zi,k 2 2 )2 ∂β2,j αk σ (σ i i i j ∂ 2 l(Θ|Y ) X 0.5Υi (σ12 − σ22 ) 0.5 Υ(µ1 − µ2 )(yi − µi ) Υ(σ12 − σ 2 )(yi − µi )2 = ( − 2 − − ∂σ1 αk (σi2 )2 σi (σi2 )2 (σi2 )3 i 60 X 0.5(y − µi )2 )2σ1 Φ0 αj Zi,j Zi,k + (σi2 )2 j ∂ 2 l(Θ|Y ) X 0.5Υi (σ12 − σ22 ) 0.5 Υ(µ1 − µ2 )(yi − µi ) Υ(σ12 − σ 2 )(yi − µi )2 + 2 − − = ( ∂σ2 αk (σi2 )2 σi (σi2 )2 (σi2 )3 i X 0.5(y − µi )2 )2σ2 Φ0 − αj Zi,j Zi,k 2 2 (σi ) j X ∂ 2 l(Θ|Y ) ∂Υi ∂Υi ∂ 2 l(Θ|Y ) X ∂l(Θ|Y ) ∂ 2 Υi = + ∂αj αk ∂Υi ∂αk αj ∂Υ2i ∂αj ∂αk i i X ∂ 2 l(Θ|Y ) ∂Υi ∂Υi X 0.5(σ 2 − σ 2 )2 (µ1 − µ2 )2 2(σ12 − σ22 )(µ1 − µ2 )(y − µi ) 1 2 = ( − − ∂Υ2i ∂αj ∂αk (σi2 )2 σi2 (σi2 )2 i i !2 (σ12 − σ22 )2 (y − µi )2 0 X )Φ αl Zi,l Zi,j Zi,k − (σi2 )3 l X ∂l(Θ|Y ) ∂ 2 Υi X 2(µ1 − µ2 )(yi − µi ) − (σ 2 − σ 2 ) (σ 2 − σ 2 )(yi − µi )2 1 2 2 = 0.5 + 1 2 ∂Υ ∂α α σ σi4 i k j i i i X Φ00 αj Zi,j Zi,j Zi,k j 7.3 Le retrait des variables explicatives – Étape 1 : retrait de la variable S&P500 (Valeur p de 48.90%) – Étape 2 : retrait de la différence des taux d’intérêt sur 6 mois (Valeur p de 39.75%) – Étape 3 : retrait du prix du baril d’huile (Valeur p de 24.63%) – Étape 4 : retrait de la différence des taux d’intérêt sur 1 mois (Valeur p de 21.50%) – Étape 5 : retrait de la différence des taux d’intérêt sur 3 mois (Valeur p de 25.76%) – Étape 6 : retrait de la différence des taux d’intérêt sur 20 ans (Valeur p de 5.75%) 7.4 La précision des prévisions Les prévisions obtenues à partir des trois modèles sont illustrées ici pour une période de 50 jours. Lorsque la prévision du temps t est d’un horizon de h jours, elle a été conduite au temps t − h en conditionnant sur Ft−1−h . Notons que seulement 50 jours sont couverts dans les graphiques suivants. La raison est que pour une grande période, il était difficile 61 de distinguer les différentes séries. Figure 10 – Le modèle de la marche aléatoire Il est donc possible de remarquer, dans le cas du MLTL, que les prévisions de longs horizons sont très proches de la série du taux de change nominal. Dans tous les cas, les prévisions semblent être en retard sur la série originale. 62 Figure 11 – Le modèle linéaire Figure 12 – Le modèle linéaire à transition lisse 7.5 Les relations linéaires implicites des modèles 63 Les figures suivantes représentent les relations changeantes entre le taux de change et les variables explicatives. Figure 13 – Le coefficient de µ en fonction du temps Figure 14 – Le coefficient de AR(1) en fonction du temps 64 Figure 15 – Le coefficient de P P A en fonction du temps Figure 16 – Le coefficient de ∆r en fonction du temps Figure 17 – Le coefficient de l’or en fonction du temps 65 Figure 18 – Le coefficient du TSX en fonction du temps Figure 19 – La volatilité du MLTL dans le temps 7.6 66 L’EQMP hors de l’échantillon Horizons ML (Ft−1 ) MLTL (Ft−1 ) 1 0.987 0.956 2 0.994 0.990 3 1.001 1.009 7 1.000 0.992 30 1.145 0.917 90 1.211 0.903 Table 15 – Le ratio des écarts quadratiques moyens pour les prévisions des ML et MLTL sur MA à l’extérieur de l’échantillon MA = Marche aléatoire, L = Linéaire, MLTL = Modèle linéaire à transition lisse 7.7 Les résultats du test des quantiles Les hypothèses formelles sont : – H0 : P̄ = α – H1 : P̄ 6= α 7.7.1 Marche aléatoire Horizons 1 Proportion Statistique normalisée Valeur P 7.81% 5.373 < 0.001 Proportion Statistique normalisée Valeur P 21.88% 6.448 < 0.001 Proportion Statistique normalisée Valeur P 56.82% 3.521 < 0.001 2 3 α = 0.01 6.53% 6.39% 4.308 3.544 < 0.001 < 0.001 α = 0.1 19.74% 20.88% 5.064 5.13 < 0.001 < 0.001 α = 0.5 59.09% 61.36% 4.320 5.016 < 0.001 < 0.001 7 30 90 7.24% 2.394 0.017 5.4% 1.105 0.269 12.07% 1.235 0.216 23.58% 3.953 < 0.001 14.91% 0.856 0.392 21.59% 1.009 0.313 60.65% 3.480 < 0.001 48.15% -0.286 0.775 49.86% -0.001 0.992 Table 16 – Proportion des données hors de l’intervalle de confiance de niveau α pour la MA 67 7.7.2 Modèle linéaire Horizons 1 Proportion Statistique normalisée Valeur P 7.95% 5.325 < 0.001 Proportion Statistique normalisée Valeur P 22.02% 6.726 < 0.001 Proportion Statistique normalisée Valeur P 55.68% 2.960 < 0.001 2 3 α = 0.01 6.68% 7.24% 4.334 4.188 < 0.001 < 0.001 α = 0.1 21.73% 22.59% 5.687 5.465 < 0.001 < 0.001 α = 0.5 58.95% 65.2% 4.445 6.748 < 0.001 < 0.001 7 30 90 10.37% 3.502 < 0.001 16.62% 2.574 0.010 39.06% 2.480 0.013 27.56% 4.793 < 0.001 31.68% 2.930 0.003 57.24% 3.233 0.001 64.91% 5.149 < 0.001 64.77% 2.317 0.021 76.99% 2.820 0.005 Table 17 – Proportion des données hors de l’intervalle de confiance de niveau α pour le ML 7.7.3 Modèle linéaire à transition lisse Horizons 1 Proportion Statistique normalisée Valeur P 5.54% 4.673 < 0.001 Proportion Statistique normalisée Valeur P 18.18% 5.175 < 0.001 Proportion Statistique normalisée Valeur P 53.69% 1.920 0.0549 2 3 α = 0.01 7.1% 10.51% 4.932 6.321 < 0.001 < 0.001 α = 0.1 24.01% 29.4% 7.374 7.932 < 0.001 < 0.001 α = 0.5 60.94% 64.91% 5.083 7.284 < 0.001 < 0.001 7 30 90 20.45% 6.636 < 0.001 37.36% 6.346 < 0.001 64.35% 7.534 < 0.001 44.46% 10.990 < 0.001 55.68% 8.490 < 0.001 75.57% 10.222 < 0.001 76.14% 11.911 < 0.001 82.1% 11.578 < 0.001 90.34% 15.320 < 0.001 Table 18 – Proportion des données hors de l’intervalle de confiance de niveau α pour le MLTL 7.8 Stratégie d’investissement basée sur le test de la direction 68 Note : Cette sous-section ne se veut pas rigoureuse ou formelle. Une stratégie simple va être développée et exécutée sur les données hors de l’échantillon. Elle est la suivante : – Si le modèle prédit une hausse de la valeur du dollar canadien – Vendre le dollar américain si le capital actuel est en dollar américain – Conserver le dollar canadien dans le cas inverse – Si le modèle prédit une baisse de la valeur du dollar canadien, procéder de la façon contraire – Une fois la transaction complétée, investir son argent au taux sans risque de la devise correspondante. Les hypothèses : – La stratégie n’est pas autofinancée – Le capital initial (et final) est en dollars canadiens – Aucune friction (aucun écart acheteur-vendeur, aucuns frais) – Les transactions se font aux prix observés en fin de journée – Le taux court utilisé est celui des obligations gouvernementales de 1 mois Les résultats (en log-rendement annualisés) : Horizons Marche aléatoire Modèle linéaire MLTL 1 0.0115 0.0676 0.0821 2 -0.0576 0.0354 0.0709 3 0.0620 0.0131 0.0831 7 0.1026 -0.0125 0.0204 30 0.0414 0.0205 0.0360 Table 19 – Résultat d’une stratégie d’investissement Quelques références : – Dollar canadien et taux d’intérêt : 0.0098 – Dollar américain et taux d’intérêt : 0.0237 – S&P500 : -0.1143 – S&P/TSX : -0.0541 90 -0.0117 -0.0481 -0.0481 Références 69 [1] Rate inflation. http ://www.rateinflation.com. [2] Q.F. Akram. Commodity prices, interest rates and the dollar. Energy Economics, 31(6) :838–851, 2009. [3] C. Alexander and E. Lazar. Normal mixture garch (1, 1) : Applications to exchange rate modelling. Journal of Applied Econometrics, 21(3) :307–336, 2006. [4] R. A. Amano and S. van Norden. Oil prices and the rise and fall of the us real exchange rate. Journal of International Money and Finance, 17(2) :299–316, April 1998. [5] R.A. Amano and S. Van Norden. Terms of trade and real exchange rates : the canadian evidence. Journal of International Money and Finance, 14(1) :83–104, 1995. [6] A. Benassy-Quere and V. Mignon. Oil and the dollar : a two-way game. La Lettre du CEPII, (250), 2005. [7] N.P.B. Bollen. Valuing options in regime-switching models. The Journal of Derivatives, 6(1) :38–49, 1998. [8] T. Bollerslev. Generalized autoregressive conditional heteroskedasticity. Journal of econometrics, 31(3) :307–327, 1986. [9] KS Chan and H. Tong. On estimating thresholds in autoregressive models. Journal of time series analysis, 7(3) :179–190, 1986. [10] Y.W. Cheung, M.D. Chinn, and A.G. Pascual. Empirical exchange rate models of the nineties : Are any fit to survive ? Journal of International Money and Finance, 24(7) :1150–1175, 2005. [11] Y.W. Cheung and U.G. Erlandsson. Exchange rates and markov switching dynamics. Journal of Business and Economic Statistics, 23(3) :314–320, 2005. [12] T.E. Clark and M.W. McCracken. Tests of equal forecast accuracy and encompassing for nested models. Journal of Econometrics, 105(1) :85–110, 2001. [13] T.E. Clark and M.W. McCracken. Testing for unconditional predictive ability. Documents de travail, 2010. [14] M.P. Clements, D. Hendry, et al. Forecasting with difference-stationary and trendstationary models. The Econometrics Journal, 4(1) :1–19, 2001. [15] Département de l’énergie Américain. U.s. department of energy. http ://energy.gov. 70 [16] F.X. Diebold and R.S. Mariano. Comparing predictive accuracy. Journal of business and economic statistics, 20(1) :134–144, 2002. [17] R. Dornbusch. Expectations and exchange rate dynamics. The Journal of Political Economy, 84(6) :1161–1176, 1976. [18] Banque du Canada. Banque du canada. http ://www.bankofcanada.ca. [19] Département du Trésor Américain. U.s. department of the treasury. http ://www.treasury.gov. [20] C. Engel and J.D. Hamilton. Long swings in the dollar : Are they in the data and do markets know it ? The American Economic Review, 80(4) :689–713, 1990. [21] R.F. Engle. Autoregressive conditional heteroscedasticity with estimates of the variance of united kingdom inflation. Econometrica : Journal of the Econometric Society, pages 987–1007, 1982. [22] R.F. Engle. Wald, likelihood ratio, and lagrange multiplier tests in econometrics. Handbook of Econometrics, 2 :775–826, 1984. [23] M.D.D. Evans and J.R. Lothian. The response of exchange rates to permanent and transitory shocks under floating exchange rates. Journal of International Money and Finance, 12(6) :563–586, 1993. [24] D. Ferraro, K. Rogoff, and B. Rossi. Can oil prices forecast exchange rates ? Document de travail, 2011. [25] J.A. Frankel. On the mark : A theory of floating exchange rates based on real interest differentials. The American Economic Review, 69(4) :610–622, 1979. [26] R. Giacomini and H. White. Tests of conditional predictive ability. Econometrica, 74(6) :1545–1578, 2006. [27] W.H. Greene and C. Zhang. Econometric analysis, volume 5. Prentice hall New Jersey, 2003. [28] Ricardo Gutierrez-Osun. Introduction to pattern analysis. http ://re- search.cs.tamu.edu/prism/rgo.htm. [29] D.I. Harvey, S.J. Leybourne, and P. Newbold. Tests for forecast encompassing. Journal of Business & Economic Statistics, pages 254–259, 1998. [30] Kitco Metals Inc. Kitco. http ://www.kitco.com/. [31] R. Issa, R. Lafrance, and J. Murray. The turning black tide : energy prices and the canadian dollar. Canadian Journal of Economics/Revue canadienne d’économique, 41(3) :737–759, 2008. 71 [32] M. Johansson. Tar models and real exchange rates. Documents de travail, 2001. [33] G. Kaminsky. Is there a peso problem ? evidence from the dollar/pound exchange rate, 1976-1987. The American Economic Review, 83(3) :450–472, 1993. [34] L. Kilian and M.P. Taylor. Why is it so difficult to beat the random walk forecast of exchange rates ? Journal of International Economics, 60(1) :85–107, 2003. [35] H.W. Kuhn and A.W. Tucker. Nonlinear programming. In Second Berkeley symposium on mathematical statistics and probability, volume 1, pages 481–492, 1951. [36] J.C. Lagarias, J.A. Reeds, M.H. Wright, and P.E. Wright. Convergence properties of the nelder-mead simplex method in low dimensions. [37] W.D. Lastrapes. Sources of fluctuations in real and nominal exchange rates. The review of economics and statistics, pages 530–539, 1992. [38] AJ Lawrance and NT Kottegoda. Stochastic modelling of riverflow time series. Journal of the Royal Statistical Society. Series A (General), pages 1–47, 1977. [39] T. C. Lee. Nonlinear methods in econometrics : S.m. goldfeld and r.e. quandt, (north-holland publ. co., amsterdam and london, 1972). Journal of Econometrics, 1(4) :399–401, December 1973. [40] G.M. Ljung and G.E.P. Box. On a measure of lack of fit in time series models. Biometrika, 65(2) :297–303, 1978. [41] M.W. McCracken. Asymptotics for out-of-sample tests of causality. Document de travail, 1999. [42] W.K. Newey and K.D. West. A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix. Econometrica : Journal of the Econometric Society, pages 703–708, 1987. [43] Ahdi Noomen Ajm and Lanouar Charfeddine. The tunisian stock market : A regime switching approach. Documents de travail, 2011. [44] M. Obstfeld and A.M. Taylor. Nonlinear aspects of goods-market arbitrage and adjustment : Heckscher’s commodity points revisited, 1997. [45] J. Shao. Mathematical statistics. Springer texts in statistics. Springer, 2003. [46] M.P. Taylor. Real exchange rates and purchasing power parity : mean-reversion in economic thought. Applied Financial Economics, 16(1-2) :1–17, 2006. [47] T. Teräsvirta. Modelling economic relationships with smooth transition regressions. Handbook of Applied Economic Statistics, 1998. 72 [48] R.S. Tsay. Testing and modeling threshold autoregressive processes. Journal of the American Statistical Association, pages 231–240, 1989. [49] D. van Dijk, T. Teraesvirta, and P.H. Franses. Smooth transition autoregressive models ?a survey of recent developments. 2002. [50] Richard Williams. Serial correlation. http ://www.nd.edu/ rwilliam/stats2/.