Untitled - HEC Montréal

Transcription

Untitled - HEC Montréal
HEC MONTRÉAL
Modèles non linéaires avec régimes sur taux de change canadien et américain
par
Nicholas Bigras-Casséus
dirigé par
Simon van Norden
Sciences de la gestion
Ingénierie financière
Mémoire présenté en vue de l’obtention du grade de maîtrise ès sciences (M. Sc.)
Janvier 2012
c
Bigras-Casséus,
Nicholas, 2012
i
Résumé
Les taux de change sont des variables capitales pour les banques centrales ainsi
que pour les entreprises lorsqu’il s’agit de prendre la meilleure décision. Par conséquent, un bon nombre de recherches ont été menées pour tenter de comprendre le
comportement des taux de change, les facteurs qui l’influencent. Plusieurs études ont
démontré que sur une longue période de temps, un modèle linéaire ne parvient pas à
capturer l’essence du taux de change. Ce mémoire va donc explorer cette affirmation
pour des données journalières du taux CAD/USD. La non linéarité sera exprimée
sous forme d’un modèle avec régimes, tel que suggéré par Kilian et Taylor (2003) à
la différence que les chocs seront également gouvernés par les régimes. Les résultats
obtenus montrent une amélioration de la précision au niveau de la moyenne pour la
majorité des horizons étudiés. Ils montrent également un gain significatif au niveau
de la prévision de la direction. Finalement, les résultats montrent que le modèle
proposé est inapte à prévoir la volatilité du taux de change canadien et américain.
Mots-clés : Taux de change, STAR, STR, prévision, marche aléatoire, modèle
linéaire, canadien, américain, processus stochastiques, modèles avec changement de
régimes
Table des matières
Résumé
Table des figures
ii
i
iv
Liste des tableaux
v
1 Introduction
1
2 Revue de littérature
2
2.1
Prévision des taux de change . . . . . . . . . . . . . . . . . . . . . . . . .
2
2.2
La devise canadienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3
Modèle à régime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
3 Les données utilisées
3.1
Interpolation et exterpolation . . . . . . . . . . . . . . . . . . . . . . . . .
4 Méthodologie
10
11
12
4.1
Modèle à régimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
4.2
Rappels mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.3
Le comportement du taux de change . . . . . . . . . . . . . . . . . . . . .
16
4.4
L’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
4.5
Prévisions à l’intérieur de l’échantillon . . . . . . . . . . . . . . . . . . . .
23
4.6
Les tests hors échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.7
Les tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
5 Résultats
5.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
35
5.2
Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
5.3
Les mesures à l’intérieur de l’échantillon . . . . . . . . . . . . . . . . . . .
44
5.4
Les tests à l’extérieur de l’échantillon . . . . . . . . . . . . . . . . . . . . .
49
5.5
Test de la direction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5.6
Test des quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
6 Conclusion
56
iii
58
7 Annexe
7.1
Les dérivées de la fonction de vraisemblance . . . . . . . . . . . . . . . . .
58
7.2
Les dérivées deuxièmes de la fonction de vraisemblance . . . . . . . . . . .
59
7.3
Le retrait des variables explicatives . . . . . . . . . . . . . . . . . . . . . .
60
7.4
La précision des prévisions . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
7.5
Les relations linéaires implicites des modèles . . . . . . . . . . . . . . . . .
63
7.6
L’EQMP hors de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . .
66
7.7
Les résultats du test des quantiles
. . . . . . . . . . . . . . . . . . . . . .
66
7.8
Stratégie d’investissement basée sur le test de la direction . . . . . . . . .
68
Table des figures
iv
1
Le comportement des résidus de la marche aléatoire . . . . . . . . . . . .
37
2
Le comportement des résidus du modèle linéaire . . . . . . . . . . . . . .
38
3
Le comportement des résidus du MLTL . . . . . . . . . . . . . . . . . . .
40
4
L’évolution des régimes dans le temps . . . . . . . . . . . . . . . . . . . .
41
5
La densité de la statistique de Wald . . . . . . . . . . . . . . . . . . . . .
45
6
La densité de la statistique du ratio de vraisemblance . . . . . . . . . . .
45
7
Le prix de la devise canadienne en dollars américains . . . . . . . . . . . .
50
8
Les prévisions hors échantillon pour h = 1 . . . . . . . . . . . . . . . . . .
50
9
10
Les prévisions hors échantillon pour h = 90 . . . . . . . . . . . . . . . . .
Le modèle de la marche aléatoire . . . . . . . . . . . . . . . . . . . . . . .
51
61
11
Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
12
Le modèle linéaire à transition lisse . . . . . . . . . . . . . . . . . . . . . .
62
13
Le coefficient de µ en fonction du temps . . . . . . . . . . . . . . . . . . .
63
14
Le coefficient de AR(1) en fonction du temps . . . . . . . . . . . . . . . .
63
15
Le coefficient de P P A en fonction du temps . . . . . . . . . . . . . . . . .
64
16
Le coefficient de ∆r en fonction du temps . . . . . . . . . . . . . . . . . .
64
17
Le coefficient de l’or en fonction du temps . . . . . . . . . . . . . . . . . .
64
18
Le coefficient du TSX en fonction du temps . . . . . . . . . . . . . . . . .
65
19
La volatilité du MLTL dans le temps . . . . . . . . . . . . . . . . . . . . .
65
v
Liste des tableaux
1
Les fonctions d’autocorrélation et d’autocorrélation partielle . . . . . . . .
36
2
La marche aléatoire
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
3
Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4
Le modèle LTL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5
Test d’hypothèse sur l’autocorrélation . . . . . . . . . . . . . . . . . . . .
42
6
Test d’hypothèse entre MA et ML . . . . . . . . . . . . . . . . . . . . . .
43
7
Test d’hypothèse entre ML et MLTL . . . . . . . . . . . . . . . . . . . . .
44
8
Le ratio des écarts quadratiques moyens pour les prévisions des ML et
9
MLTL sur MA à l’intérieur de l’échantillon . . . . . . . . . . . . . . . . .
La statistique de direction . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Le pourcentage des données hors des intervalles de confiance de 50% théo-
46
47
riques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
11
Le pourcentage des données contenues dans les ailes théoriques . . . . . .
49
12
Le test des prévisions emboîtées . . . . . . . . . . . . . . . . . . . . . . . .
52
13
Le test de la précision des prévisions . . . . . . . . . . . . . . . . . . . . .
53
14
Le test de la direction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
15
Le ratio des écarts quadratiques moyens pour les prévisions des ML et
MLTL sur MA à l’extérieur de l’échantillon . . . . . . . . . . . . . . . . .
16
Proportion des données hors de l’intervalle de confiance de niveau α pour
la MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
19
66
Proportion des données hors de l’intervalle de confiance de niveau α pour
le ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
66
67
Proportion des données hors de l’intervalle de confiance de niveau α pour
le MLTL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
Résultat d’une stratégie d’investissement . . . . . . . . . . . . . . . . . . .
68
Remerciements
vi
Alors que ce mémoire est signé de mon nom, il est l’oeuvre d’un groupe d’individus.
Je tiens à les remercier. Tout d’abord, j’aimerais remercier mon directeur de mémoire,
Simon van Norden, pour son aide constante, pour ses nombreux commentaires détaillés
et pour les multiples pistes qu’il m’a données. J’aimerais également remercier ma mère
et ma copine qui m’ont fourni une aide incroyable lors de la correction du mémoire.
Avant leur lecture, mon mémoire était un festival de fautes d’orthographe. J’aimerais
également souligner l’implication de l’amie de ma mère, Sophie, pour avoir elle aussi lu
attentivement le mémoire. Finalement, je souhaite remercier ma famille ainsi que mes
amis d’avoir compris que malgré le temps des fêtes, il est possible que j’aie à travailler le
mémoire.
1
Introduction
1
Depuis longtemps, le taux de change est considéré comme une variable économique des
plus importantes, mais également comme une des plus difficiles à comprendre. En effet, sa
complexité, qui découle des nombreux paramètres macroéconomiques qui influencent son
comportement, le rend assez hasardeux. Alors que différentes approches de nature très
économique, de nature purement mathématique ou encore tout simplement de nature plus
algorithmique existent, le modèle de la simple marche aléatoire est difficile à détrôner de
façon significative pour les prévisions du taux de change.
La problématique est donc évidente. Pourquoi le contexte économique semble-t-il si
peu influent dans la modélisation du taux de change ? Cela revient à se demander comment l’information observable par les investisseurs sur les marchés peut influencer les
valeurs futures du taux de change. Cette étude va se baser sur ce qui a déjà été fait et va
tenter de proposer une alternative. Le but ici sera d’utiliser l’information, principalement
de nature macroéconomique, pour faire des prévisions. Ces dernières seront tirées d’un
modèle proposant deux régimes. Les régimes résumeront chacun un état de l’économie
différent et consisteront tout simplement d’un modèle linéaire avec une composante autorégressive d’ordre un. Les variables macroéconomiques auront également pour mandat
de déterminer dans quel régime l’économie évolue actuellement.
Tout d’abord, comme il a été dit précédemment, une bonne couverture de ce qui a déjà
été écrit sur le sujet sera nécessaire. Il y aura également une section dédiée aux données
recueillies dans le cadre de ce mémoire. Il sera entre autres expliqué comment elles ont
été traitées avant d’être utilisées. Par la suite, la méthodologie documentera l’approche
utilisée pour répondre à la problématique étudiée. Celle-ci commencera avec de brefs rappels théoriques nécessaires pour bien comprendre la suite et elle suivra avec les différentes
étapes à la résolution du problème.
Finalement, le mémoire se terminera avec les résultats et la conclusion. Dans la conclusion, il y aura la réponse à la question qui a été posée ci-dessus et qui sera le fil conducteur
de cette étude. Elle portait sur le rôle des agents économiques dans la prévision future
du taux de change. Il faut noter que les différents tableaux de résultats ainsi que les
nombreux graphiques seront mis en annexe pour faciliter la lecture du document.
2
Revue de littérature
2
La modélisation a toujours été un sujet important que ce soit pour l’ingénierie financière, l’économie ou simplement la finance. La littérature sur le sujet est donc vaste. Cela
dit, cette revue de littérature comportera plusieurs segments. Le premier segment portera sur les différentes méthodes de prévision de taux de change, un domaine qui découle
davantage de l’économétrie. Par la suite, quelques articles sur la devise canadienne seront
brièvement présentés. Il sera finalement question des modèles à régimes, à savoir leurs
particularités ainsi que leur rôle
2.1
Prévision des taux de change
Les modèles de taux de change remontent à de nombreuses années. Au fil du temps,
une panoplie de modèles différents ont été proposés. Il est possible de classer ces modèles
en deux catégories bien définies : les modèles qui utilisent des variables macroéconomiques
et ceux qui ne s’occupent que d’offrir assez de flexibilité pour bien répliquer le comportement du taux sans toutefois trop se soucier de ce qui influence ce dernier.
Cette revue de littérature va décrire cette évolution et va présenter brièvement les
différents articles en cernant les points forts et points faibles de chaque modèle proposé.
Les innovations de chaque modèle seront mises de l’avant étant donné que le but du mémoire sera de proposer un modèle utilisant les différents points forts que la littérature
aura introduits au fil des ans.
En 2005, Cheung, Chinn et Pascual [10] décident de conduire plusieurs tests de prévision opposant cinq classes de modèles populaires, tous linéaires. Ceux-ci sont respectivement un modèle se basant sur la PPA, le sticky-price monetary model introduit par
Dornbush (1976) [17] et Frankel (1979) [25], un modèle se basant sur la parité entre les
taux d’intérêt et le taux de change, un modèle qui s’appuie sur la différence de productivité entre les deux pays et un dernier modèle incorporant tous ces facteurs. Ils les estiment
donc de plusieurs façons et conduisent alors différents tests de prévision pour comparer la
performance de ces modèles. Alors que les auteurs sont conscients des limites de leur étude
en excluant une grande classe de modèle (les modèles non linéaires), ils concluent qu’en
terme de prévision, certains modèles performent bien pour certaines périodes et mal pour
d’autres. Ils citent d’ailleurs Clements et Hendry (2001) [14] pour rappeler qu’un mauvais
modèle peut très bien surpasser un bon, dépendamment de la période et de l’horizon.
3
Dans une autre optique, Engel et Hamilton proposèrent en 1990 un modèle bien simple
pour les taux de change [20]. Alors qu’un grand nombre de chercheurs utilisaient des variables macroéconomiques pour mieux expliquer les comportements des devises, Engel et
Hamilton ont emprunté un chemin davantage mathématique : celui de proposer un modèle
qui réplique bien les résultats sans nécessairement se demander qu’est-ce qui provoque
une hausse ou une baisse.
Ils ont remarqué que la difficulté de la modélisation des taux de change vient du fait
que, pour une période relativement longue, ils vont être soit croissants, soit décroissants
et qu’ensuite, la tendance s’inversera. Alors que ceci peut sembler cyclique, les périodes
entre chaque inversion de tendance peuvent être d’une durée très différente. Une fois
inversée, la tendance se poursuivra possiblement pendant plusieurs années. La marche
aléatoire simple et les séries chronologiques ne permettent pas d’expliquer ce phénomène
de tendance changeante. Leur idée fut donc de proposer un modèle comportant deux régimes, un croissant et un décroissant, desquels il est difficile de sortir. Les deux régimes
étant gaussiens, le résultat est une mixture gaussienne avec une chaîne de Markov st .
Sous l’hypothèse que le marché connaisse avec certitude, au temps t, l’état de l’économie au temps t − 1, ils viennent à la conclusion que les différences de taux d’intérêt ont un
pouvoir explicatif relativement bas. La faiblesse de ce modèle peut aussi être vue comme
une force, les différents paramètres qui influencent le taux de change ont été remplacés
par un régime autonome. Cela permet cependant de facilement simuler des trajectoires (le
modèle est markovien et en une dimension). Il est donc probable qu’il soit facile d’effectuer de la tarification de produits dérivés. En effet, plusieurs auteurs ont traité du sujet
dans un tel modèle (se référer à l’article de Bollen (1998) traitant de ce sujet précis [7]).
Finalement, les changements de régime surviennent rarement, mais, comme le souligne
Kaminsky (1993) [33], lorsqu’ils arrivent, les prévisions sont fortement erronées.
En 1993, Kaminsky [33] s’intéresse également à un modèle à régime pour les taux de
change. Il se donne comme mandat de vérifier le travail de Engel et Hamilton [20]. Il
propose tout d’abord une certaine relation entre la valeur de la devise d’un pays et les
variables explicatives qui peuvent l’influencer. Contrairement aux hypothèses d’Engel et
d’Hamilton, les investisseurs n’ont pas accès à toute l’information, en particulier, ils ne
peuvent savoir avec exactitude dans quel régime l’économie évoluait précédemment.
L’auteur arrive finalement à la conclusion que malgré le fait que les prévisions dif-
4
fèrent de manière évidente avec les anticipations des investisseurs (ces dernières étant
capturées par le marché des contrats de gré à gré ,contrats forward en anglais), il est
possible que les investisseurs soient rationnels. Il conclut aussi que le modèle suivi par
le taux de change évolue en réaction aux changements de régime des variables explicatives.
En 2003, Kilian et Taylor [34], se sont intéressés à la prévision du taux de change réel
en mettant de l’avant un modèle auparavant négligé. Ils ont proposé un modèle à régime
avec une transition dite lisse (smooth en anglais). Le passage d’un régime à l’autre se fait
donc de façon graduelle. Ils motivent le choix vers une transition lisse en expliquant qu’il y
a deux types d’investisseurs : les spéculateurs et les investisseurs plus réfléchis. Lorsque la
valeur du taux de change est proche de sa valeur d’équilibre (la parité du pouvoir d’achat
(PPA), qui évolue au fil du temps), tous les investisseurs spéculent. Lorsqu’elle est loin,
les investisseurs vont supposer un retour vers la valeur théorique et donc le clan des spéculateurs perd de ses effectifs. Le passage se fait de manière graduelle et par conséquent, le
régime va également changer de manière graduelle. Cette approche leur permettait donc
de pallier les différents problèmes liés à la prédiction des taux de change (la non linéarité
dans l’ajustement du taux de change à sa valeur fondamentale, la difficulté de surpasser
la marche aléatoire pour l’aspect prévision).
La transition d’un régime à l’autre se fait donc par l’entremise d’une pondération qui
varie de manière continue entre 0 et 1. Celle-ci dépend de la distance entre les taux de
change précédent et sa valeur d’équilibre µ. Toujours dans le même article, la fonction de
transition en est une exponentielle ce qui donne donc un modèle ESTAR (Exponential
Smooth Transition Autoregressive), soit un cas spécial des modèles STAR qui seront décrits au cours des sous-sections suivantes.
À l’aide du modèle, les auteurs expliquent pourquoi il est si difficile de dominer la
marche aléatoire en terme de prévision. L’article répond donc à certaines questions qui
ont longtemps hanté les chercheurs, à savoir s’il est possible de prédire les taux de change.
Kilian et Taylor réussissent à déclasser la marche aléatoire de manière significative pour
de longs horizons (exemple : plusieurs années) mais pas de façon automatique.
Étant donné leur modèle bivarié (le taux de change et la PPA), ils ont dû développer
une méthode simple et efficace pour conduire des tests d’hypothèses. La méthode développée en est une de bootstrap (le terme bootstrap sera utilisé au cours du mémoire. C’est
le terme anglophone qui signifie de créer des échantillons afin d’estimer la distribution
5
d’une statistique). Tout d’abord, ils proposent un modèle qui tente d’approximer la distribution des deux variables, celui-ci incorpore la non linéarité de leur modèle de base et
va servir à mener un test opposant l’ESTAR à la marche aléatoire. Ils procèdent donc
à simuler un grand nombre de trajectoires de taux de change nominal sous l’hypothèse
nulle (marche aléatoire). Ils obtiennent la PPA à l’aide de la relation imposée par leur
modèle et trouvent leurs valeurs critiques. Les auteurs concluent finalement que malgré la
présence de non linéarité des taux de change et les bonnes performances de l’ESTAR pour
la prévision à l’intérieur de l’échantillon, il est difficile de rejeter le modèle de la marche
aléatoire pour la prévision en temps réel, principalement pour des horizons de prévisions
courts. La valeur d’équilibre étant la PPA qui est relativement stable, son pouvoir explicatif doit être limité dans le court terme.
En effet, comme le précisent les auteurs en discutant des tests de précision de la prévision, les distributions asymptotiques des statistiques d’intérêt peuvent se comporter
étrangement selon la méthodologie employée. Les auteurs mentionnent entre autres la
statistique de Diebold et Mariano pour laquelle la distribution est généralement inconnue
pour les prévision à long terme. Ils obtiennent un test performant et puissant, principalement pour de longs horizons.
Dans la même optique, en 2004, la question des tests d’hypothèses sur la présence de
multiples régimes dans un jeu de donnée a été explorée par Cheung et Erlandsson (2005)
[11]. Ils ont démontré que les tests que la littérature privilégiait auparavant, qui consistait
principalement en un test de Wald, étaient généralement inexacts. Ils mentionnent que
cette approche fut empruntée par Engle et Hamilton dans leur article de 1990 et qu’elle
ne possédait pas les bonnes valeurs critiques. Le problème était celui des paramètres
contenus sous H1 non identifiable sous H0 . Leur but était donc d’offrir une alternative
juste, calculable et performante. Ils proposèrent une approche Monte-Carlo pour tester la
présence de deux régimes markoviens cachés contre un modèle se composant d’une simple
marche aléatoire. En simulant des données sous H0 et H1 , ils obtiennent les valeurs p
désirées. La nécessité d’utiliser la méthode bootstrap est donc réaffirmée par ces auteurs,
Cheung et Erlandsson.
Un autre aspect important de la recherche sera celui de vérifier la performance d’un
modèle. Il faut donc se pencher sur la littérature présentant les différents tests possibles.
Certains auteurs se sont intéressés à la question de la performance en étudiant le comportement des résidus. Parmi ces auteurs se trouve Diebold et Mariano (mentionnés plus tôt)
6
qui, en 1995, ont proposé une méthode flexible et performante de tester une différence
de variance entre deux séries d’erreurs de prévision. Une fonction de perte quelconque
peut être utilisée (et non seulement l’erreur quadratique moyenne (EQM)) [16]. Cette
étude a été échelonnée sur plusieurs années et en plusieurs volets. Elle avait pour but de
permettre le choix du meilleur modèle. Leur approche peut être généralisée de manière à
tester la corrélation entre la prévision d’un modèle A et les erreurs du modèle B. Ce type
de test est très utile, car il permet de vérifier si les prévisions du modèle étudié peuvent
être améliorées en utilisant un autre modèle. Les auteurs Harvey, Leybourne et Newbold
ont conduit ce genre d’étude en 1998 [29] en comparant diverses méthodes pour arriver à
ces fins. Les résultats montrent qu’une modification du test de Diebold et Mariano offre
une bonne puissance pour ce type de test.
Cependant, certains auteurs, dont Clark et McCracken (2001) [12] ont démontré que
la distribution de la statistique de Diebold et Mariano est asymptotiquement non normale
et possiblement dégénérée dans le cas où l’espace des paramètres sous H0 (disons Θ0 ) est
inclus dans Θ1 , soit l’espace sous H1 . Alors qu’ils conduisent leur étude sur les prévisions
à un pas de temps, les auteurs expliquent que la procédure du bootstrap est valide pour
un nombre de pas de temps quelconque. Ceci conclut la partie sur la prévision des taux
de change en général, le reste de la revue étudiera la devise canadienne et les modèles non
linéaires.
2.2
La devise canadienne
Il est également intéressant de s’attarder aux particularités des devises des pays étudiés. Tout d’abord, au début des années 90, des auteurs comme Lastrapes [37], Evans et
Lothian [23] ont montré que les mouvements des taux de change s’expliquaient souvent
par des chocs réels. Par conséquent, on peut supposer que les devises canadiennes et américaines sont susceptibles de réagir à certains chocs particuliers.
De nombreuses études ont démontré un lien réel entre le prix de la devise américaine
(en dollars canadiens) et le prix du baril de pétrole. Une de celles-ci a été conduite en
1998 par Amano et van Norden [4]. Dans leur étude, les auteurs parviennent à montrer
que le prix du baril d’huile ainsi que celui de taux de change réel américain sont reliés.
Ils remarquent aussi que le choc se déplace du prix du baril vers le taux de change et non
l’inverse. Les implications (et les applications) de ces résultats sont intéressantes pour le
présent projet. De l’information pourra être tirée du prix du baril d’huile pour la modéli-
7
sation du taux de change CAD/USD. La direction des chocs (de l’huile vers la devise) est
particulièrement intéressante. Cette relation unidirectionnelle fut réaffirmée récemment
dans l’article de Coudert, Mignon, Penot et autres (2008). Ceux-ci concluent que de 1974
à 2004 cette relation tient.
Un autre ouvrage sur le sujet est l’article intitulé The turning black tide, un article
publié en 2008 par Issa, Lafrance et Murray [31]. Ceux-ci analysent l’étude d’Amano et
de van Norden mené en 1995 [5]. Ils modélisent le taux de change de manière linéaire
en fonction de différentes variables explicatives : le différentiel des taux de 90 jours sur
les papiers commerciaux, l’énergie (le pétrole, le gaz, etc.) ainsi que d’autres commodités. Comme le nom de l’article le suggère, les auteurs s’intéressent particulièrement au
changement de tendance entre le baril de pétrole et le taux de change canadien et américain. Ils vérifient si le modèle montre un gain en performance lorsqu’une coupure est faite
en 1993, l’année où la corrélation entre les deux biens a changé de signe. Ce qu’il faut
donc en tirer pour le mémoire, c’est de faire attention au changement de tendance entre
les variables explicatives et le taux de change. Ceci motive également l’utilisation de modèle à régimes qui donnera la flexibilité nécessaire pour permettre ce genre de changement.
Cependant, plusieurs auteurs doutent que la dynamique d’aujourd’hui entre le taux
de changes et le prix du baril de pétrole. En effet, la relation unidirectionnelle expliquée
par Amano et van Norden (1998) [4] ne serait peut-être plus exacte. Akram (2009) [2],
affirme à l’aide d’un modèle autorégressif, que le taux de change réel prédit bien le prix de
l’énergie. Ses résultats montrent même que l’inverse est faux. Ce changement de tendance
s’ajoute donc au changement de corrélation mentionné dans le paragraphe précédent. Un
autre article de 2005 de Benassy-Quere et Mignon [6] souligne le changement récent dans
la dynamique du dollar américian et du pétrole. Ces derniers fournissent deux explications
probables. La première serait le simple fait que L’OPEP (Organisation des pays exportateurs de pétrole) dépense davantage les profits générés par ses activités d’exportation.
Comme l’explique les auteurs, ils investissement moins d’argent (principalement dans le
marché financier américain) et importe davantage (principalement des pays d’Europe). Le
résultat est que le dollar américain perd de la valeur (au lieu d’en gagner). Ils proposent
une deuxième explication centrée sur la Chine. Cette dernière étant devenue un grand
joueur dans le marché des devises et dans le marché de l’énergie, il est normal que les
anciennes relations ne tiennent plus. Étant donnée l’ambiguité des résultats, le prix du
baril de pétrole sera tout de même inclus dans l’étude. Cependant, il sera conservé seulement dans la mesure où la relation du baril de pétrole au taux de change sera significative.
8
D’autres facteurs qui semblent importants sont le niveau des taux d’intérêt des deux
pays, en particulier le différentiel de ces derniers. Plusieurs auteurs ont noté cette relation,
dont Amano et van Norden dans leur article Terms of Trade and Real Exchange Rates :
The Canadian Evidence, publié en 1995 [5]. En générale, le taux choisi en est un assez
court (3 mois par exemple). Cela dit, c’est un bon candidat pour une variable explicative.
2.3
Modèle à régime
Il existe plusieurs types de modèle utilisant les notions de régimes. Le modèle TAR
(Tresholds Autoregressive) a été proposé par Tong dans une discussion sur le travail de
A.J. Lawrence (1977) [38]. La motivation était de modéliser des séries présentant une non
linéarité évidente. Le modèle adressait ce problème en permettant d’utiliser une variable
exogène comme seuil pour déterminer quel régime serait le plus approprié. Ces types de
modèle ont eu un certain succès et ont trouvé des applications dans plusieurs domaines.
Ils ont été introduits dans la finance des taux de change par Obstfeld et Taylor (1997) [44].
L’estimation de ces modèles ne se fait pas de façon directe. La raison est que l’échantillon se divise (et donc, se modifie) en fonction du paramètre de seuil. Pour ces raisons,
Obstfeld et Taylor, ainsi que d’autres auteurs (voir Johansson (2001) par exemple [32])
proposent de fixer le seuil et par la suite de maximiser la fonction de vraisemblance. Finalement, les auteurs choisissent le seuil qui offre le meilleur résultat. Pour tester la validité
de ce modèle, les auteurs mentionnés précédemment proposent d’utiliser le test décrit par
Tsay dans son article de 1989 [48]. Ce dernier propose une mesure simple à calculer qui
consiste à régresser les résidus d’un modèle sur la variable dépendante et ensuite observer
le comportement des résidus résultant. Cependant, notons que Tsay précise que ce type de
modèle est difficile à utiliser, car il manque de diagnostic explicite pour justifier sa validité.
Un autre modèle, très semblable aux modèles TAR est le modèle STAR (Smooth
Transition Autoreggressive). Ceux-ci proposent également des régimes pour décrire le
comportement d’une variable et ces régimes sont aussi déterminés par une variable exogène quelconque. La différence tient du fait que le changement entre deux régimes se fait
de manière progressive (et non de manière abrupte comme pour les modèles TAR). Une
des premières mentions de ce type de modèle fut dans l’article de Chan et Tong (1986) [9]
à qui certains créditent ce modèle. Depuis ce temps, ce dernier est utilisé dans plusieurs
contextes, dont la finance et l’économie.
9
Les auteurs Franses, Teräsvirta et van Dijk font un survol complet, dans leur article
Smooth Transition Autoregressive Models - A Survey of Recent Developments publié en
2002 [49], de ce que ce type de modèle propose et comment bien s’en servir. Alors qu’ils
présentent des extensions possibles pour les modèles STAR (des composantes variant dans
le temps, tout simplement permettre un nombre n>2 de régimes, etc.), ils présentent un
grand nombre de tests développés au cours des années ayant pour but de s’assurer que
les modèles STAR sont appropriés dans un cas donné. Ils mentionnent entre autres que
l’hypothèse de non linéarité est importante et que le comportement des résidus doit être
adéquat. Finalement, les auteurs proposent une technique de grille pour déterminer les
paramètres de la fonction de transition. Notons que cette approche est fonctionnelle dans
le cas où ce même nombre de paramètres est petit.
Teräsvirta discute également des modèle STR (Smooth Transition Regression) dans
le livre Handbook of Applied Economic Statistics [47]. Il introduit le cas plus général proposé initialement par Goldfeld et Quandt [39] en 1973 où la transition se fait à travers
la fonction de répartition de la loi normale. Un peu comme l’ont fait Kilian et Taylor
(2003), il motive l’utilisation de ce modèle (au lieu d’un modèle TAR) par le fait que
les agents économiques peuvent ne pas agir tous au même moment et par la flexibilité
supplémentaire.
Finalement, par souci de complétude, il faut mentionner les modèles à régimes markoviens cachés. Leur concept, dans un contexte de modèle autorégressif, ressemble davantage
aux modèles TAR au sens où le changement se fait de façon immédiate. Ce type de modèle
est celui qu’Engle et Hamilton ont utilisé dans son article sur le taux de change de 1990.
Alors que la flexibilité du modèle permet d’utiliser un grand nombre de régimes sans trop
de difficulté supplémentaire, son estimation est plus difficile. Plusieurs études comparent
ces derniers aux modèles TAR et STAR (Ahdi Noomen Ajm et Lanouar Charfeddine [43]
par exemple) et peu sont en mesure de déclarer un gagnant.
La revue de littérature maintenant complétée, la section sur les données va suivre.
3
Les données utilisées
10
Les données utilisées lors de cette étude sont nombreuses et proviennent de différentes
sources. Tout d’abord, les valeurs historiques journalières du taux de change ont été recueillis à partir de la base de données du logiciel Bloomberg. Elle représente le prix de
dollar canadien en devise américaine à fin de la journée (heure de l’est). Elles n’ont pas
été modifiées d’aucune façon et elles couvrent les années 2002 à juillet 2011.
Les taux d’intérêt, qui serviront d’indicateur de l’état actuel du marché, sont journaliers et couvrent les mêmes années que le taux de change. Les taux canadiens utilisés sont
ceux du bon du Trésor d’échéance d’un mois, de trois mois, de 6 mois, de 10 ans et finalement de 20 ans, tous disponible librement sur le site internet de la Banque du Canada.
Le taux qui va offrir la meilleure performance pour la prévision du taux de change sera
conservé. Aucune modification n’a été faite [18]. Quant au taux américain, il correspond
au prix du marché des plus récents bons du Trésor pour les mêmes maturités. Les prix
ont été recueillis vers 15h30 par la Federal Reserve Bank de New York. Les données sont
également disponibles librement sur le site du département du Trésor américain [19].
Cette étude utilise également le prix du marché du baril d’huile et le prix courant
(spot) de l’or (en once). La référence utilisée est celle du Brent, étant donné sa popularité
au niveau mondial. Les données sont librement disponibles sur le site internet du département d’énergie américain [15]. Quant à la série chronologique du prix de l’or (par once),
elle est gratuitement disponible sur le site internet Kitco ([30]). Notons que les prix sont
exprimés en devise américaine.
Les indices financiers du S&P500 et du TSX S&P sont, quant à eux, disponibles librement sur la portion Finance du site Yahoo. Les prix affichés sont les prix de fermeture.
Notons que ces derniers sont ajustés après les émissions de dividendes et les divisions.
Finalement, le dernier indicateur macroéconomique utilisé est celui de la parité du
pouvoir d’achat (PPA). Pour obtenir cette mesure pour les années étudiées, il a été nécessaire de la calculer à l’aide des indices des prix à la consommation du Canada et des
États-Unis. Ces derniers ont tous deux été recueillis librement sur un site internet s’intéressant aux taux de croissance de différents pays [1]. Les données sont mensuelles et
recueillies à la fin de chaque mois.
3.1
Interpolation et exterpolation
11
Une fois toutes les données recueillies, certaines séries présentaient des séquences où
il n’y avait aucune valeur. Il peut y avoir de nombreuses raisons, par exemple, les congés
entre les deux pays peuvent différer. De plus, la série sur la PPA était mensuelle et non
journalière. Cela dit, une interpolation a été nécessaire. De manière à être cohérent avec la
disponibilité de l’information, les valeurs interpolées correspondent tout simplement à la
dernière valeur observée sur le marché. Une interpolation linéaire ou basée sur les splines
aurait nécessité d’utiliser des données non observables (qui ne sont pas Ft -mesurables) et
cela ne nous semblait pas souhaitable. Cela dit, l’utilisation d’une série mensuelle à des
fins de prévisions journalières peut sembler étrange. Cependant, elle contient de l’information qui ne semble pas négligeable (la valeur d’équilibre) et par conséquent, il est fort
probable qu’elle sera significativement importante pour la modélisation de la tendance du
taux de change.
Finalement, aucune exterpolation n’a été utilisée.
4
Méthodologie
12
Le but du mémoire va être d’estimer un modèle à régimes pour le taux de change
CAD/US. Le régime devra dépendre de données observables de nature financière (taux
d’intérêt, matières premières,etc.) ou macroéconomique (la PPA).
4.1
Modèle à régimes
L’idée générale derrière ces modèles est de faire l’hypothèse que l’économie, au temps
t, évolue dans un régime, disons st , et que celui-ci caractérise le comportement de l’actif
financier étudié. Les régimes ne sont normalement pas observables et par conséquent, un
investisseur, au temps t, ne peut savoir avec certitude le régime actuel st . Les régimes
possèdent généralement leur propre distribution qui peut dépendre de variables observables. Finalement, le passage peut se faire de manière progressive ou instantanée. En
d’autres mots, pour 2 régimes différents, st peut avoir comme domaine {1, 2} ou encore
[w1 , w2 ] · [1, 2]t sous la contrainte que w1 + w2 = 1. Dans la dernière approche, il y a
une pondération entre les deux régimes. C’est cette approche qui sera employée pour la
flexibilité qu’elle offre. Elle a été introduite dans la littérature sous le nom de modèle
STAR (Smooth Transition Autoregressive).
Soit yt = log Yt pour Yt la valeur du taux de change au temps t, le modèle général
comportera deux régimes, un nombre que la littérature semble trouver cohérent (Engel
(1990) [20] ou celui de Kilian et Taylor (2003) [34]) et il sera alors le suivant :
∆yt ∼ N (µt , σt )
La variable Υ servira de pondération entre les deux régimes. Elle sera comprise entre
0 et 1 et une valeur de 1 signifiera une pondération de 100% pour le premier régime. Elle
dépendra de variables observables qui tenteront de capter et de traduire les différentes
informations disponibles sur le marché pour finalement obtenir le régime actuel. Cela dit,
les paramètres µ, σ et α seront définie comme suit :
– αt = Υt α1 + (1 − Υt )α2
– µt = αt yt−1 + Υt Xt β1 + (1 − Υt )Xt β2
– σt = Υt σ1 + (1 − Υt )σ2
X représente ici une matrice contenant des variables explicatives spécifiques au taux de
13
change canadien et américain. Le paramètre autorégressif est inclus dans le paramètre µ
et par conséquent, X contiendra également les valeurs de yt−p pour p les retards appropriés.
Ce modèle en est un très général. Il est sensiblement celui que Goldfeld et Quandt
(1973) proposèrent [39]. Malgré son âge, son aspect général (et donc flexible) ajouté à la
puissance des ordinateurs d’aujourd’hui motive ce choix. Il faut noter qu’à la différence
de Kilian et Taylor et la majorité des modèles STAR, ce dernier permet une volatilité
changeante dans le temps. Ceci est cohérent au but du mémoire qui est de modéliser autant
la moyenne que la dispersion des données. Notons que pour la suite, ce type de modèle
sera abrévié par MLTL, soit modèle linéaire à transition lisse. L’abréviation LTL sera
également utilisé pour désigner "linéaire à transition lisse". Finalement, les abréviations
MA et ML seront utilisés pour désigner respectivement "marche aléatoire" et "modèle
linéaire". Pour entrer dans les détails du modèle, il est important de parcourir certaines
notions mathématiques qui, par la suite, seront importantes.
4.2
Rappels mathématiques
Dans cette section, quelques brèves définitions seront énoncées. Elles traiteront principalement des concepts mathématiques derrière la paramétrisation d’un modèle.
4.2.1
L’estimation des paramètres de processus stochastiques
Les processus stochastiques seront utilisés pour modéliser le taux de change CAD/US.
Contrairement aux processus déterministes, l’incertitude est un élément focal de processus
stochastiques. Elle sera représentée par une distribution de probabilité qui sera estimée de
manière empirique. Les distributions utilisées comporteront un vecteur de paramètre θ,
compris dans l’ensemble admissible Θ. L’approche fréquentiste sera utilisée et le vecteur
θ sera trouvé en maximisant la fonction de vraisemblance. Définissons tout d’abord ce
concept qui sera très important. Pour une lecture plus approfondie, l’ouvrage Mathematical statistics de Jun Shao (2003) [45] (2003) contient toutes les définitions suivantes.
Définition 1. Soit Y un échantillon de n observations indépendantes, θ̂ un vecteur de
paramètres admissible et fi (·) la fonction de densité de l’observation i, on définit alors la
fonction de vraisemblance, dénotée L(θ̂|Y ), comme étant la probabilité (relative) d’avoir
le vecteur θ̂ comme paramètre si l’on a observé l’échantillon Y . En terme mathématique,
14
nous avons :
L(θ|Y ) =
Qn
i=1
fi (yi |θ̂, Fti −1 )
En général, l’échantillon est disponible, cependant le vecteur θ ne l’est que rarement. Il
est donc possible d’utiliser cette fonction pour trouver un vecteur de paramètres optimal.
Il suffit tout simplement de trouver le vecteur θ̂ qui résout le problème d’optimisation
max L(θ|Y ). Les contraintes dépendent naturellement de la nature du problème. Le vecteur de paramètre résultant de cette optimisation est couramment appelé l’estimateur du
maximum de vraisemblance (EMV) et il possède de nombreuses propriétés intéressantes.
Notamment, il atteint la borne inférieure de Cramer-Rao si n → ∞ ce qui sera utile pour
la suite.
Alors que trouver l’estimateur constitue une étape importante dans la modélisation,
il est également intéressant de se demander à quel point il est précis. En effet, un estimateur peut être vu comme une variable aléatoire qui tente d’approximer une valeur
non observable, θ dans le cas échéant. Pour un biais asymptotique de 0, la variance de
l’estimateur θ̂ nous indique donc sa précision. Si la borne de Cramer-Rao est atteinte, il
est possible d’estimer cette variance à l’aide de ce qu’on appelle l’information de Fisher
échantillonnale, dénotée In . Elle est définie comme suit :
Définition 2. Soit L(θ|Y ) la fonction de vraisemblance et supposons qu’elle est dérivable
∂
t
2
∂
log L(θ|Y ) ∂θ
log L(θ|Y ) .
deux fois par rapport à θ, alors In = − ∂θ∂t ∂θ log L(θ|Y ) = ∂θ
La deuxième égalité implique qu’il est possible de calculer cette valeur en multipliant la
∂
matrice des vecteurs scores définis par ∂θ
log L(θ|Y ) par sa version transposée.
Maintenant, lorsque la taille de l’échantillon tend vers infini, il est possible de définir
la variance de l’estimateur du maximum de vraisemblance de la façon suivante.
Définition 3. Soit θ̂∗ l’EMV, θ la véritable (et inconnue) valeur de ce dernier et In
l’information de Fisher échantillonnale, alors, asymptotiquement et dans le cas où θ̂∗ est
sans biais, le résultat suivant est vrai :
θ − θ̂∗ ∼ N (0, In−1 )
Sous la normalité asymptotique de θ̂∗ , une autre propriété intéressante des EMV, il
est facile d’établir un intervalle de confiance pour n’importe quel niveau α.
15
4.2.2
L’hétéroscédasticité
L’hétéroscédasticité, qui signifie une variance changeante pour les innovations t peut
se traduire sous plusieurs formes. Dans le cas échéant, comme le but recherché est d’incorporer plusieurs régimes à l’intérieur du même modèle, une simple variance différente
pour chaque état signifierait que le modèle est hétéroscédastique. En d’autres mots, soit
st ∈ {1, 2} le régime au temps t, alors σt2 égal σ12 si st = 1 et σt2 = σ22 dans le cas contraire.
Alors que cette approche donne généralement de bons résultats, des alternatives populaires existent. Ceux-ci sont entre autres les modèles ARCH (Autoregressive conditional
heteroskedasticity) et GARCH (Generalized Autoregressive conditional heteroskedasticity)
introduit dans le domaine de la finance respectivement par Engel en 1982 [21] et Bollerslev
en 1986 [8]. Ces modèles ont plusieurs propriétés intéressantes, dont celle de bien capturer
l’évolution de la volatilité des actifs financiers.
Dans le cadre du mémoire, une généralisation de ce qui a été proposé en premier sera
utilisée. Un modèle partageant les mêmes régimes que le MLTL gouvernera la variance.
Celle-ci ne proposera pas de mesure autorégressive. Les motivations de cette approche
s’expliquent tout simplement par le fait que la volatilité observée dans les marchés est
souvent liée avec l’état de celui-ci. Il est donc possible de supposer que dans une économie
en récession, la volatilité soit différente de celle en expansion. Notons que Engel, dans
son article où il propose un modèle à régime sur les taux de change [20], trouve que la
volatilité est significativement plus grande en marché baissier qu’en marché haussier.
4.2.3
Estimation de densité par la méthode du noyau
Finalement, dans le cadre du mémoire, il sera nécessaire d’estimer les fonctions de
densité, et ce, pour plusieurs séries de données. Alors qu’il existe plusieurs méthodes
pour estimer la fonction de répartition empirique (l’estimateur de Kaplan-Meier ou de
Nelson-Aalen), il est un peu plus compliqué d’approximer une fonction de densité. Une
méthode souvent utilisée est celle des noyaux. La définition suivante est inspirée des notes
du professeur Ricardo Gutierrez-Osun, originalement conçues pour le cour Introduction
to Pattern Analysis [28].
Définition 4. Soit Y = {y1 , y2 , ..., yn } un échantillon de variable i.i.d. et b ∈ R+ , alors
l’estimation de la densité par noyaux s’effectue comme suit :
Pn
fˆ(x) = 1
K x−yi
bn
b
La fonction K(·) doit respecter plusieurs conditions :
– ∀ > 0, ∃δ > 0 tel que
R
– R K(t)dt = 1
R
−
16
K(t)dt > δ
– Dans certains cas, K doit nécessairement être positif
Il y a de nombreux candidats possibles pour la fonction K(·). Un candidat souvent
choisi est la densité normale centrée réduite. Dans le cadre de ce mémoire, c’est cette
fonction qui sera prise.
La variable b est un paramètre de lissage. Plus il est grand, plus la fonction fˆ(x) sera
lisse. Ce paramètre doit donc être choisi judicieusement. Comme le note Gutierrez-Osun,
il est démontrable que dans le cas où l’échantillon Y suit une loi normale, le b optimal
est tout simplement 1.06σn−.2 . Comme cette technique sera principalement utilisée pour
estimer la densité des résidus et que ces derniers sont, par hypothèses, de loi normale,
c’est cette valeur qui sera attribuée à b. Le rappel mathématique maintenant terminé, le
coeur du mémoire va donc suivre.
4.3
Le comportement du taux de change
Les fondements mathématiques maintenant établis, il faut se pencher sur la modélisation du taux de change. Ceci se fera en deux étapes. Tout d’abord, il sera question de
trouver les variables explicatives qui possèdent des liens avec le taux de change. La majorité de celles-ci seront directement tirées de la littérature. Par la suite, la modélisation
du paramètre de régime Υ sera l’objectif.
4.3.1
Les variables explicatives
Un grand nombre de candidats existe pour capturer le comportement du taux de
change comme il a été vu dans la revue de littérature. Le premier facteur inclus sera les
taux d’intérêt, en particulier le logarithme du rendement du prix d’un bon du Trésor américain investi en bon de Trésor canadien, et ce, pour différentes échéances. Il est avancé
que cette approche capture bien les anticipations du marché face aux taux de change
(Dornbusch (1976) [17]). Ultimement, la théorie stipule que sans couverture contre le
risque du taux de change, la différence des logarithmes des taux d’intérêt témoigne des
anticipations face aux logarithmes du taux de change :
E P (∆ys |Ft ) = rcad − rusd
17
Le deuxième facteur sera les taux d’inflation des deux pays, en particulier leurs différences. Plusieurs auteurs s’intéressent à la loi du prix unique d’un bien. Il est possible de
capturer cette information en utilisant les taux d’inflation. Principalement, une démarche
algébrique relativement
simple
permet d’établir la relation suivante :
1+i(cad)
s
log Yt+s = log Yt (usd)
1+is
où i sont les taux d’inflation.
En utilisant l’indice des prix de consommation (IPC) comme estimateur de l’inflation,
la variable explicative se retrouve donc à être le pouvoir de parité d’achat (PPA). Notons
que cette relation théorique est loin d’être exacte en pratique. L’IPC n’est que rarement
connu dans le présent. Elle peut cependant servir de variable de régression étant donné
le lien qu’elle a avec la variable expliquée. Certains avantages et certains inconvénients
sont traités dans l’article de Taylor et Taylor de 2006 [46].
Certaines commodités seront également incluses. Comme mentionnés dans la revue de
littérature, de nombreux auteurs ont établi des liens entre le prix de l’énergie et le taux de
change canadien et américain (un exemple serait l’article d’Amano et van Norden (1998)
[4], cependant ces auteurs traitaient des taux réels). Cette dernière sera donc insérée dans
le modèle. Les variables explicatives comprendront également l’or. En période de crise,
l’or se comporte comme un refuge pour les investisseurs. Le modèle va donc tenter d’exploiter cette relation, étant donné la période de crise survenue dans les années couvertes
par l’échantillon.
Finalement, les indices boursiers du S&P/TSX et du S&P500 seront inclus. La raison
est simple, ils constituent de bons indicateurs des états de l’économie des deux pays.
De plus, le côté spéculatif des investisseurs provoque des effets sur le taux de change.
Cet aspect peut être difficile à capter. Il est espéré qu’il soit en partie contenu dans les
fluctuations de ces index. Notons que ce choix n’est pas directement tiré de la littérature,
il ne sera donc pas étonnant que le lien entre ceux-ci et le taux de change ne soit pas
significatif.
4.3.2
Le comportement des régimes
Comme mentionné au début de cette section, les régimes seront contrôlés (ou pondérés)
par Υ. Ce terme évoluera dans le temps et tentera de capturer l’information disponible
sur le marché de façon à identifier le régime approprié pour une période donnée. Cette
18
information doit par conséquent faire partie de la filtration dans lequel le modèle est estimé :
F = {Fs : 0 < s < t}. Il a fallu se demander quelles données financières feront
partie de cette filtration, en d’autres mots, quelles variables explicatives tenteront d’identifier le comportement du taux de change. La réponse à cette question se trouve dans la
sous-section précédente.
En ce qui concerne le facteur Υt , l’idée de base sera empruntée de l’article de Kilian
et Taylor de 2003 [34]. Ceux-ci proposent un régime qui dépend de la distance par rapport à une moyenne. Ils établissent cette moyenne comme étant la mesure du PPA. Une
différente approche sera utilisée dans ce mémoire. Alors que la PPA peut servir de valeur
"théorique" du taux de change, un modèle linéaire tout simple se chargera d’accomplir ce
rôle. Il utilisera les variables explicatives précisées dans la sous-section précédente. Finalement, à la façon de Kilian et Taylor, l’écart entre la valeur observée et la valeur théorique
sera utilisé ; cet écart correspond aux résidus.
Pour bien capter les différentes informations, trois résidus (de trois modèles différents)
seront utilisés.
– Ceux de la marche aléatoire : ∆yt − µ
– Ceux du processus linéaire complet : t = ∆yt − Xβ̂lin
– Ceux du processus linéaire sans composante autorégressive 0t = yt − X0 β̂ 0 lin
Sachant que la relation est non linéaire entre les variables explicatives et la variable réponse (voir, encore une fois, Kilian et Taylor (2003) [34]), la non linéarité sera exprimée
par ces écarts qui serviront ultimement à déterminer le régime dans lequel l’économie évolue. Il est donc supposé que ces résidus sont des indicateurs de l’état actuel de l’économie
et qu’ainsi, ils ont un certain pouvoir explicatif. Notons que les résidus du modèle linéaire
sans composante autorégressive présenteront une forte tendance. Ceci permettra d’avoir
des régimes relativement stables dans le temps.
La pondération exacte sera la suivante :
Υt = f φ0 + φ1 ∆yt−1 + φ2 t−1 + φ3 0t−1
pour une fonction f : R → [0, 1] et φi des nombres réels
La fonction f choisie sera la fonction de distribution de la loi normale centrée réduite.
Cela dit, il est intéressant de constater que Υt ∈ Ft−1 . En d’autres mots, la pondération
des régimes au temps t est connue de manière exacte au temps t − 1. Ceci sera utile pour
19
l’estimation.
4.4
L’estimation
L’estimation sera une étape importante pour parvenir aux résultats. Par conséquent,
il est nécessaire de trouver une bonne approche qui soit appropriée. Alors qu’il existe
plusieurs moyens pour estimer un vecteur de paramètre θ, la littérature tend à favoriser
la maximisation de la fonction de vraisemblance :
L(θ̂|Y ) =
Qn
i=1
f (yi |θ̂, Fti )
Comme vu précédemment, la filtration va contenir toute l’information déjà observée,
à savoir, F = σ(Xs<t ). Cette définition du maximum de vraisemblance nous permet de
maximiser le modèle de manière conditionnelle au passé.
En pratique, il est coutume d’optimiser la fonction de la log-vraisemblance qui est
simplement définie comme suit : l(θ̂|Y ) = log L(θ̂|Y ). Cette transformation nous évite
de travailler avec des nombres trop proches de zéro et de plus la fonction logarithme est
croissante sur l’intervalle (0, ∞).
4.4.1
L’estimation des différents modèles
Le mémoire propose un modèle à régimes, mais il confronte ce dernier à deux autres
classes de modèles : les marches aléatoires ainsi que les modèles linéaires. Il est donc nécessaire de savoir comment estimer efficacement les paramètres de ces trois modèles.
4.4.2
La marche aléatoire (avec dérive)
Soit σt l’écart type des chocs et µt la dérive de ces derniers, l’expression mathématique
de la marche aléatoire est la suivante :
yt = yt−1 + t pour t ∼ N (µt , σt )
Pour des bruits blancs forts de distribution normale, et donc un modèle où la moyenne
et l’écart-type sont constants par hypothèse, il vaut mieux travailler avec x = ∆y. Les
20
estimateurs habituels seront utilisés pour la moyenne et la variance (la version biaisée
dans le cas de la variance).
4.4.3
Le modèle linéaire
Dans le cas où la variable Y est linéairement dépendante de différentes variables explicatives contenues dans X, une solution analytique est disponible pour le vecteur θ qui
maximise la vraisemblance.
t
En effet, pour p variables explicatives, soit θ = [β1 β2 ...βp σ]t = [βlin
σ]t . βlin est ici
un vecteur colonne à p composantes. Son estimation se fera selon la méthode des carrés
ordinaires.
Finalement, il est nécessaire de préciser que ce type de modèle (ainsi que la marche
aléatoire qui n’est qu’un cas particulier du modèle linéaire) fait l’hypothèse que les erreurs sont indépendantes. En pratique, c’est rarement ainsi. Cependant, les estimateurs
sont tout de même sans biais, mais ils sont inefficaces. Dans le cas où la corrélation est
positive, l’incertitude de ces derniers sera sous-estimée. Des détails supplémentaires sont
disponibles dans les notes de cours du professeur Richard Williams [50].
4.4.4
Le modèle à régimes
Ce type de modèle est plus compliqué à estimer, car tout doit se faire itérativement.
Cela dit, il faut choisir un algorithme et une solution initiale, souvent notée θ0 . Il s’agit
alors de faire appel à une fonction déterministe A(x). Cette fonction aura besoin de plusieurs intrants : la fonction de log-vraisemblance à maximiser, l(θ) et le vecteur θ0 . Elle
retournera par la suite θ∗ , le vecteur de paramètre optimal compris dans la région admissible. Ainsi dit, A(x) est l’algorithme d’optimisation. Le problème ne se réduit donc
qu’au choix de ce dernier.
Tout d’abord, il nous faut définir la fonction de log-vraisemblance :
l(Θ|Y ) = log
n
Y
!
f (∆yi |θ, Fti−1 )
i=1
=
n
X
i=1
log f (∆yi |Θ, Fti−1 )
21
Comme il a été vu, le changement d’un régime à l’autre se fait de façon progressive, par conséquent, ∆yt sera distribué selon un processus linéaire avec une composante
autorégressive d’ordre 1 (AR(1)). Les différents paramètres seront tout simplement une
pondération de chaque régime selon le facteur Υt .
Soit θi = [βi σi ]t et φ = [φ0 φ1 φ2 φ3 ] quatres nombres réels, alors θ = [φ θ1 θ2 ]t et
l’expression finale de f (∆yi |θ, Fti−1 ) se retrouve à être
l(θ|Y ) =
n
X
log
i=1
2 !
1
p
exp − 2 (yt − Xt−1 βt )
2σt
2πσt2
1
σt2 = Υt σ12 + (1 − Υt )σ22
βt = Υt β1 + (1 − Υt )β2
Υt = P (U < Zt φ)
Z = [~1 r ∆y r0 ]
U ∼ N (0, 1)
r0 = résidus du modèle linéaire (sans coefficient autorégressif)
r = résidus du modèle linéaire
Comme cette fonction dépend d’un grand nombre de paramètres, les maximums locaux sont le principal danger. Même s’il est difficile de savoir si la solution trouvée en est
une qui est locale ou globale, certaines conditions sont nécessaires pour que la solution
θ∗ trouvée soit un candidat potentiel. Alors que les conditions KKT (pour Karush-KuhnTucker) nous indiquent si le candidat présente une solution admissible dans le cas d’une
optimisation sous contraintes (voir l’ouvrage de Kuhn et Tucker en 1951 [35]), il est nécessaire d’avoir un gradient nul dans le cas d’une optimisation sans contrainte. Différents
algorithmes proposent chacun leur propre façon d’atteindre ce θ̂∗ tel que 5l(θ̂∗ ) = ~0. Dans
le but d’arriver aux meilleurs résultats possibles, l’algorithme utilisé en sera un préparé
spécialement pour le problème en question :
1. θ = θ0
2. début de la boucle
(a) δ = − 5 (θ)H(θ)−1 (méthode de Newton)
(b) Si f (θ) > f (θ + δ) une modification de l’algorithme du simplex est utilisé
(c) Sinon θ = θ + δ
(d) Si ||δ|| < et f (θ(k) ) − f (θ(k−1) ) < , fin de la boucle
22
3. θ∗ = θ
L’optimisation se fait de manière itérative. L’algorithme utilisé pour chaque partie
est un mélange entre du Newton et d’une sorte de simplex. Le simplex, qui est traditionnellement utilisé pour les problèmes linéaires, a été généralisé pour les problèmes
non linéaires. Des détails supplémentaires sont donnés dans l’article de Lagarias, Reeds,
Wright et Wright (1999) [36]. Une propriété intéressante de ce dernier est qu’il n’utilise
aucune dérivée, analytique ou numérique, lors de son fonctionnement. Ceci permet donc
de bien compléter le tradionnel algorithme de Newton. Cela dit, le simplex utilisé sert
principalement à réguler l’algorithme de Newton qui est reconnu pour s’égarer par moments. À ces fins, il sera utilisé avec un paramètre d’arrêt (pour le vecteur de paramètres
et la fonction objective) assez grossier, soit de 0.01.
Le Newton, quant à lui, se servira des gradients analytiques ainsi que de la matrice
hessienne analytique. Ces derniers sont calculés en annexe. Toutefois, étant donné que
l’espace des paramètres est relativement grand (θ ∈ Θ ⊂ R18 ), il est difficile de s’assurer
d’une optimisation globale. Ceci est d’ailleur une des limites de cette approche, il n’y a
aucune façon facile de contourner le problème des optimums locaux.
Pour utiliser l’algorithme, il lui faut un point de départ θ0 . Le point de départ peut
avoir un grand impact, pas nécessairement sur le résultat final, mais sur le nombre d’itérations requis à la convergence. Pour déterminer le point de départ des paramètres, un
choix judicieux des différents éléments du vecteur est nécessaire. Ils seront donc βlin ± .
La différenciation des régimes ne sera pas initialement atteinte, ou du moins, pas complètement.
Il faut également s’assurer que ce vecteur est précis et qu’il possède une solution
admissible. Alors que la précision de chaque paramètre peut se faire à l’aide de la matrice
de l’information de Fisher échantillonnale, In , un test simple et préliminaire serait de
s’assurer que Υ couvre bien son domaine [0, 1]. Cela dit, une solution qui présentera une
pondération oscillant entre 0.95 et 1 sera donc rejetée. Finalement, une fois le θ∗ trouvé,
un intervalle de confiance de 95% sera construit autour de celui-ci. Ceci permettra de
savoir quels sont les paramètres significatifs.
4.5
23
Prévisions à l’intérieur de l’échantillon
Une fois le modèle estimé, il est intéressant de voir s’il performe bien. Cela permet
principalement de vérifier si l’étape précédente a été concluante. Ces statistiques seront
calculées entre les trois modèles testés, à savoir la marche aléatoire, un simple modèle
linéaire et le modèle à régimes.
Une panoplie de diagnostics ont été proposés par la littérature. Une brève introduction
de chacun, avant de procéder, est donc de mise.
4.5.1
L’erreur moyenne quadratique de l’erreur de prévision
Probablement le plus utilisé, il s’agit tout simplement de vérifier pour un horizon fixe
h quelle est l’erreur moyenne entre la valeur prédite au temps t et la valeur obtenue au
temps t + h, tout ceci au carré. Des expressions analytiques sont généralement disponibles
dans le cas où la prévision est effectuée à partir d’un modèle simple. Dans le cas contraire,
il est possible de simuler. Le concept est le suivant :
Définition 5. L’erreur de prévision quadratique moyenne (EPQM) (à l’intérieur de
l’échantillon)au temps t, pour un horizon h, est
EPQM= E (ŷt (h) − yt+h )2 |G pour ŷt (h) la prévision d’horizon h au temps t, yt la série
chronologique et G une certaine quantité d’information du marché sans toutefois contenir
la valeur à prévoir.
Notons que la seule valeur à calculer est ŷt (h). La valeur prédite se définit comme
étant la moyenne du processus dans les temps futurs, à savoir ŷt (h) = yt + E(∆t→h |Ft ).
Cette moyenne est calculée de manière théorique selon les paramètres maximisant la densité jointe de l’échantillon complet.
Dans le cas de la marche aléatoire, nous avons vu que yt+h = yt + µ +
i ∼ N (0, σ). Il est donc aisé d’obtenir :
ŷt (h) = Yt + E(∆t→h |Ft )
h
X
= yt + hµ + E(
i )
i=1
= yt + hµ +
h
X
i=1
= yt + hµ
E(i )
Ph
i=1 i
et
24
Pour le cas linéaire, le raisonnement est semblable. Soit X la matrice des variables
explicatives et soit G = Ft , alors E(∆yt |G) = Xt β = µt . Sous l’hypothèse simpliste que µ
est constant sur l’horizon de prévision, il ne reste qu’à prévoir ∆yt+h comme un processus
AR(p) avec une dérive constante µ. En d’autres termes :
ŷt (1) = (1 + α)yt + Xt β
= (1 + α)yt + µt
ŷt (2) = (1 + α)ŷt (1) + µt
...
ŷt (h) = (1 + α)ŷt (h − 1) + µt
Un autre résultat intéressant survient lorsque G = F∞ \ (ys )t<s<t+h , et donc sans la
série du taux de change. Le résultat devient alors plus précis ( les valeurs des variables
explicatives sont disponibles à chaque pas de temps). La manière de procéder est la
même sauf que µ est maintenant fonction du temps µ(t) et se recalcule à chaque pas de
temps : µ(t) = Xt β. Le nom de simulation dynamique est communément attribué à cette
approche.
Finalement, le même exercice doit se faire pour le MLTL. Il y aura deux mesures
selon la tribu sur laquelle l’espérance est conditionnée, exactement comme pour le modèle
linéaire. En premier lieu, il y aura
ŷt (h) = yt + E(∆t→h |Ft )
ŷt (1) = yt + (Υt+1 ∗ Xt β1 + (1 − Υt+1 )Xt β2 )
= (1 + α)yt + µ
ŷt (2) = (1 + α)ŷt (1) + µ
...
ŷt (h) = (1 + α)ŷt (h − 1) + µ
25
Par la suite, ce qui a été dit se généralisera de la façon suivante :
ŷt (h) = yt + E(∆t→h |F∞ )
ŷt (1) = yt + (Υt+1 ∗ Xt β1 + (1 − Υt+1 )Xt β2 )
= (1 + αt )yt + µt
ŷt (2) = (1 + αt+2 )ŷt (1) + µt+2
...
ŷt (h) = (1 + αt+h−1 )ŷt (h − 1) + µt+h
L’idée ici est de vérifier à quel point les différents modèles sont sensibles aux variables explicatives dans les prévisions. Des variables moins sensibles signifient un modèle davantage
robuste.
4.5.2
La statistique de direction
Un test simple utilisé dans plusieurs articles ( un exemple serait Cheung, Chinn et
Pascual en 2005 [10]) est le test de la direction. Il consiste simplement, comme son nom
l’indique, à noter le signe de la fluctuation observée et de la comparer au signe de la
fluctuation prédite. Ceci est vérifié si et seulement si ∆yt ∆ŷt ≥ 0. Par la suite, il est simple
de calculer la proportion des prévisions où l’inégalité précédente tient sur le nombre total
de prévisions. En termes mathématiques, nous définirons la statistique de direction D(h),
pour h un horizon quelconque en jours, comme suit
Définition 6. La statistique de direction D(h) ∈ [0, 1] indique la proportion des fluctuation dont le signe a bien été prédit sur le nombre total de prévisions et elle se définit de
PT
.
la façon suivante : D(h) = T1 t=1 1(yt+h −yt −∆y)(ŷ
¯
¯
t (h)−yt −∆y)≥0
La moyenne des incréments est soustraite. La raison est simple, cela permettra au
test de se concentrer sur l’aspect stochastique du taux de change et non sur l’aspect
¯ est un
déterministe. Sous l’hypothèse que la marche aléatoire est adéquate, ∆y − ∆y
bruit blanc fort.
4.5.3
Le comportement des ailes
Parmi les critiques majeures de l’utilisation de la distribution normale pour des séries
financières se trouve la légèreté des ailes. En utilisant une approche permettant l’hétéroscédasticité, ce problème est en partie adressé. Cela dit, il serait intéressant de voir si la
26
solution proposée fonctionne bien. Ceci est donc le but de cette sous-section.
Définition 7. Soit a = {a1 , a2 , ..., al } ∈ (0, 1)l une série de niveaux de confiance qui sont
inférieurs à 12 , alors la statistique d’intérêt sera
Pn
P (h, k) = n1 t (1yt+h <Y0.5ak + 1yt+h >Y1−0.5ak ) pour h un horizon donné et Y0.5ak le percentile théorique de la distribution au temps t.
Le percentile théorique sera celui d’une distribution normale. Celle-ci aura les paramètres suivants pour le MLTL :
Théorème 1. Soit le modèle LTL actuel et supposons que toute l’information dans la
filtration est disponible (le conditionnement est fait par rapport à F∞ ), alors le quantile
Y0.5ak fait au temps t pour un horizon h est celui d’une normale avec les paramètres
suivants :
Qt+h−1
Pt+h−1 Qt+h
– µ = yt j=t (1 + αj ) + i=t
µi j=i+1 (1 + αj )
Pt+h−1 2 Qt+h
– σ 2 = i=t
σi j=i+1 (1 + αj )2
La preuve découle de la relation de récurrence que le paramètre autorégressif apporte,
à savoir que dans le contexte précisé ci-haut, la relation suivante tient :
– E(Xt+i |F∞ ) = (1 + αt+i−1 )E(Xt+i−1 |F∞ ) + µt+i−1
2
– V ar(Xt+i |F∞ ) = (1 + αt+i−1 )2 V ar(Xt+i−1 |F∞ ) + σt+i−1
Dans le cadre de ce mémoire, la série a utilisée sera a = {0.01, 0.05, 0.5}. La motivation de ce choix est que cette mesure se veut davantage une mesure de la précision des
ailes qu’une mesure de la précision des percentiles. Cette dernière sera davantage étudiée
graphiquement dans la section des résultats.
Le même raisonnement peut être fait pour les modèles linéaires simples. En posant
αt = α, σt2 = σ 2 , le résultat est immédiatement obtenu.
4.5.4
Les horizons utilisés
Comme Kilian et Taylor l’ont précisé dans leur étude, la marche aléatoire performe
généralement très bien pour de petits horizons. L’hypothèse de la marche aléatoire aurait
plus de chance d’être rejetée pour de longs horizons. Sachant cela, il est nécessaire de
27
considérer les performances des trois modèles pour ces deux types d’horizons. Les temps
de prévision choisis seront donc une (1), deux (2), trois (3), sept (7), trente (30) et quatrevingt-dix (90) journées ouvrables.
4.6
Les tests hors échantillon
Le modèle est estimé de façon à maximiser L(θ|Y ), la fonction de vraisemblance sur
l’échantillon X. Le modèle devrait donc afficher ses meilleures performances sur cet échantillon. Il est cependant plus commun, dans la pratique, de devoir utiliser un modèle pour
prévoir ce qui n’a toujours pas été observé. C’est l’objet de cette prochaine sous-section :
comment performe le modèle LTL pour des données hors de l’échantillon.
Plusieurs tests ont été proposés pour répondre à ce genre de questions (se référer,
par exemple, à l’article de Harvey, Leybourne et Newbold publié en 1998 [29]). Dans ce
dernier, diverses approches sont proposées. La difficulté principale de la mise en place de
ce genre de test réside au fait que pour les modèles emboîtés, lorsque H0 est vraie, la
variance asymptotique tend vers 0 ce qui donne une statistique dégénérée. Le résultat est
que les valeurs critiques de rejet de H0 sont invalides. McCracken (1999) [41] traite du
sujet en détail et développe des statistiques valides pour plusieurs cas. L’approche utilisée
sera celle de Giacomini et White (2006) [26] qui est valide si certaines hypothèses sont
respectées.
Le contexte est volontairement vague et se clarifiera dans quelques lignes. Tout d’abord,
Giacomini et White ont développé leur test pour des prévisions conduites en utilisant une
fenêtre roulante. En examinant une portion de taille fixe de l’échantillon et en inférant sur
ce dernier plutôt que la population, nous adoptons une approche qui s’assure l’existence
d’une variance (même sous H0 car le comportement des erreurs dans l’échantillon va être
imparfait si la grandeur de la fenêtre est plus petite que la population). La grandeur de la
fenêtre sera de 1586 jours, soit les deux tiers de l’échantillon. Ce nombre paraît arbitraire
et il l’est, il permet cependant aux régimes d’être estimés d’une manière relativement
précise. En effet, un horizon de moins d’un an entraîne des erreurs d’estimation de l’ordre
de 103 . Le test est conduit par rapport à l’échantillon et non par rapport à la population.
Quatre tests seront mis en place, celui des prévisions emboîtées (traduction libre de forecast encompassing), le test de la direction, le test de la précision des erreurs et le test des
quantiles. Pour chacun d’entre eux, il faut tout d’abord énoncer une statistique d’intérêt
et l’inférence sera ensuite conduite sur celle-ci.
28
Définition 8. Soit le modèle dont le vecteur de paramètres θt = supθ∈Θ L(θ|σ((Xs )t−m<s<t )),
alors l’erreur de prévisions du temps t d’horizon h sera dénoté et (h) et égalera à yt+h −
E(yt+h |θt , Ft ).
Finalement, pour chaque observation hors échantillon, le modèle sera réestimé, les
erreurs seront notées, et ce, pour chaque horizon.
4.6.1
Le test de prévisions emboîtées (forecast encompassing)
Ce test bien simple a pour but de voir si le modèle A peut améliorer le modèle B et
vice versa. Si les deux modèles capturent chacun une différente dynamique du taux de
change, alors il est possible qu’il soit utile de les utiliser conjointement. Ce test se fera
donc en deux parties. La première testera l’autonomie du modèle linéaire et le deuxième
l’autonomie du MLTL. Le même exercice sera fait entre la marche aléatoire et le MLTL.
Définition 9. Soit et,A (h) les erreurs du modèle A et et,B (h) celles du modèle B, finalement, alors statistique d’intérêt, Ri (y, θ̂) = et,i (h)yt,j (h) pour i, j ∈ {A, B}, j 6= i.
Le test peut alors se définir comme suit :
– H0 : E(et,i (h)yt,j (h)) = 0
– H1 : E(et,i (h)yt,j (h)) 6= 0
Intuitivement, sous l’hypothèse nulle, les prévisions du modèle i ne peuvent être améliorées par les prévisions du modèle j : leur covariance est nulle (et par conséquent, leur
corrélation au sens de Pearson aussi). Dans le cas échéant, il est souhaitable de ne pas
rejeter H0 si l’autonomie du MLTL est testée (car il est supposé, dans ce mémoire, que
la dynamique entre le taux de change et les variables explicatives ne soit pas linéaire) et
vice versa si l’autonomie du modèle linéaire est testée. Les deux tests seront conduits. Le
comportement de la statistique sera précisé plus loin.
4.6.2
Test d’égalité d’erreurs de prévision
Le deuxième test tentera de déterminer quel modèle donne les plus petites erreurs de
prévision en moyenne. Une simple modification du test précédent permet de construire
celui-ci :
Définition 10. Soit les mêmes notations que précédemment, alors la statistique d’intérêt
est S(y, θ̂) = et,i (h)2 − et,j (h)2 pour i, j ∈ {A, B}, j 6= i.
Le test devient donc le suivant :
29
– H0 : Ŝ(y, θ̂) = 0
– H1 : Ŝ(y, θ̂) > 0
Cette statistique se conduit de façon simultanée pour les deux modèles. Leur comportement est bien défini, car le tout se fait au niveau de l’échantillon et non de la population.
Le test doit idéalement être formulé de façon à avoir comme alternative une meilleure
performance du modèle plus complet. Il serait possible d’ajouter une troisième hypothèse pour traiter du cas opposé et d’utiliser la théorie de la décision pour approcher le
problème. Si les résultats de ce premier test sont non-concluants, il sera refait de cette
manière.
4.6.3
Test de la direction
Le test de la direction a déjà été fait de manière informelle dans la sous-section précédente. Il sera refait pour les tests hors échantillons. Sous l’hypothèse nulle, le pouvoir de
prévision du signe de la fluctuation est inexistant. Cela revient à dire que la probabilité
de deviner la direction est de 0.5, soit une chance sur deux. Le test sera fait unilatéralement. La raison est simple. Alors que d’un point de vue spéculatif, un modèle qui ne
prévoit jamais le signe de la fluctuation est attrayant (il suffit de prendre une position
contraire à celle qui est suggérée), c’est principalement la relation entre l’information du
marché et le taux de change que le mémoire tente d’expliquer. En termes mathématiques,
la statistique sera la suivante :
Définition 11. Pour ŷt,i (h) la prévision du modèle i d’horizon h, la statistique d’intérêt
est D = 1(yt+h −yt −∆y)(ŷ
. Elle est identique à celle définie précédemment.
¯
¯
y (h)−yt −∆y)≥0
Elle servira à conduire le test qui suit :
– H0 : D = 0.5
– H1 : D 6= 0.5
4.6.4
Le test des quantiles
Le dernier test concernera un mixte de la prévision de la moyenne et de la prévision de
la volatilité. Il ressemblera au test de la direction à la différence que la proportion sera celle
des données contenues hors d’un intervalle prédéfini et non la proportion des directions de
fluctuations prédites avec succès. La motivation est la même que précédemment, toutefois,
le tout est fait de façon plus formelle (test d’hypothèse). La statistique est celle-ci :
30
Définition 12. Soit a ∈ (0, 1) le niveau de quantile d’intérêt, alors la statistique d’intérêt
sera
P = 1yt+h <y0.5ak + 1yt+h >y1−0.5ak pour h un horizon donné et y0.5ak le quantile théorique
Ft -mesurable de la prévision au temps t.
Les distributions des statistiques précédentes sont décrites dans la sous-section suivante.
4.6.5
La distribution de la statistique
Comme le mentionne Clark et McCracken (2010) [13], lorsque l’estimation de θ∗ se
fait sur une fenêtre roulante avec une taille m < ∞, il est possible d’inférer sur la statistique échantillonnale à l’aide des statistiques définies ci-dessus. La vraie valeur de la
statistique (sa valeur au niveau de la population) n’est pas l’objet d’intérêt ici.
Théorème 2. Soit T (h) une statistique quelconque sur un échantillon de taille n, soit
T̂ (h) la valeur de cette statistique obtenue lorsque le vecteur de paramètres θ∗ est estimé
sur une fenêtre roulante de taille m < n où m est fixé et soit h l’horizon de prévision,
alors q
Pn−max(h)
1
–
(T̂θ∗ |(Ft )t∈[i−m,i−1] (h) − T (h)) ∼ N (0, V )
i=m
n−m−max(h)−1
i
hq
Pn−max(h)
1
∗
(
T̂
(h)
−
T
(h))
lorsque n →
– V → V ar
θ |(Ft )t∈[i−m,i−1]
i=m
n−m−max(h)−1
∞ et m reste fixe
Cette statistique permet de confronter l’hypothèse suivante à une alternative bidirectionnelle ou unidirectionnelle : H0 : T̂ (h) = T (h)
La variance doit être estimée de manière cohérente : elle doit prinpalement tenir
compte de la corrélation entre chaque valeur. Dans leur célèbre article intitué A simple,
positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix
publié en 1986 [42], Newey et West ont proposé une solution robuste à l’obtention de la
variance asymptotique des erreurs lorsqu’elles sont possiblement corrélées. Leur approche
est dite robuste au sens où la matrice obtenue (pour différents vecteurs d’erreurs) sera
toujours définie semi-positive. Dans le cas à une dimension, elle se définit comme suit :
Définition 13. Soit e = {e1 , e2 , ..., en } une série de valeurs réelles observées, alors l’es-
31
timateur de la variance asymptotique de cette série est la suivante :
u = e − ē
σ̂e2 = ut u + 2
k
X
i=1
wi
n−i
X
uj uj+i
j=1
pour wi des poids se définissant de la façon suivante
wi = 1 −
i
k+1
La variable k indique le nombre de retards considérés et elle est choisie arbitrairement.
La littérature suggère de prendre une valeur de k supérieure ou égale à l’horizon de la
prévision (h).
En posant k = 2h+1 pour h l’horizon de prévision, une valeur q
conservatrice, les valeurs
1
T̂θ∗ |(Ft )t∈[i−m,i−1] (h)
p seront calculées. Il suffit donc d’appliquer ce résultat sur la série n−m−h−1
√
pour i = m, m + 1, ..., n − max(h) et de multiplier par n − m − h − 1 afin d’avoir une
statistique dont la distribution est celle de la loi normale centrée réduite.
4.7
Les tests d’hypothèses
Supposons deux hypothèses différentes concernant le modèle sous-jacent à un jeu de
données, ces tests servent à les confronter pour déterminer laquelle est la plus probable.
Traditionnellement, ces hypothèses, appelées hypothèse nulle et hypothèse alternative,
sont respectivement celles qu’on tente de rejeter et celles qu’on souhaite accepter. Notons
finalement que H0 est accepté sans preuve du contraire.
Une définition plus formelle serait de considérer un ensemble (de p dimensions pour
p paramètres, disons Θ, contenant tous les paramètres admissibles du modèle considéré.
Posons également Θ0 et Θ1 des sous-ensembles de Θ tels que Θ = Θ0 ∪ Θ1 et finalement,
posons θ le vrai vecteur de paramètres recherché. Le but des tests d’hypothèses est alors
de se demander en se basant sur le vecteur de données y s’il est possible d’affirmer que
θ∈
/ Θ0 où Θ0 est l’ensemble des paramètres admissibles sous H0 ) avec probabilité d’au
moins 1 − α où α est le seuil de confiance choisi (10% par exemple).
Dans le cadre de cet ouvrage, nous souhaiterons tout d’abord tester le modèle de
marche aléatoire contre un simple modèle linéaire. Par la suite, un deuxième test sera
conduit entre le gagnant du premier test et le modèle LTL. Il est donc important de
32
choisir un test qui soit approprié pour ces deux applications. Dans les tests traitant des
modèles linéaires, la littérature tend à privilégier le test de Wald, qui semble avoir été
conçu pour ce contexte particulier.
Les tests qui seront utilisés dans le mémoire seront maintenant présentés.
4.7.1
Le test de Wald
Greene, dans la cinquième édition de son ouvrage intitulé Econometric Analysis [27],
définit la statistique de Wald comme suit :
W = (Rβ̂ − b)t V ˆar(β̂)−1 (Rβ̂ − b)
où H0 (le modèle restreint) implique la contrainte Rβ̂ = b.
Ce test a la propriété d’être localement le test le plus puissant lorsque la taille de
l’échantillon tend vers l’infini (voir Engle (1984) [22]). Ceci se démontre en utilisant une
série de Taylor de degré 2 sur le ratio de la vraisemblance.
Comme mentionné, le premier test opposera la marche aléatoire et le modèle linéaire
simple. On peut écrire le test comme suit :
H0 : Yt = Xt−1 βma + t
H1 : Yt = Xt−1 βlin + t
pour
~ oil,
~ gold]
~
~ ,PP
~ P , ∆r,
X = [~1, Y
¯ , 1, 0, 0, 0, 0]
βma = [∆Y
βlin = M CO
Le modèle de l’hypothèse alternative est inclu dans celui de l’hypothèse nulle, le test
se fait donc aisément en posant les contraintes suivantes au modèle non restreint βi = 0
pour i = 3, 4, 5, 6 et β2 = 1 pour β = βlin et βi désignant la ie composante du vecteur.
Sous certaines hypothèses, la distribution asymptotique de la statistique de Wald est
connue de manière exacte. Pour p contraintes de modèle (ce qui revient à dire que la
33
matrice R possède p lignes), alors W ∼ χ2p .
Cependant, les hypothèses sont parfois trop fortes et la normalité de chaque innovation
n’est pas toujours vérifiée. Comme mentionnés dans la revue de la littérature, Cheung et
Erlandsson ont démontré que la statistique de Wald est fragile, particulièrement lorsque
il y a un aspect non linéaire dans les données sous-jacentes. Comme ceci peut sembler
problématique dans le cas ci-présent, la distribution de W sera rééchantillonée (bootstrap).
Le deuxième test opposera le modèle linéaire au MLTL. Les hypothèses sont les suivantes :
H0 : Yt = Xt−1 βlin + t
H1 : Yt = Υt Xt−1 β1 + (1 − Υt )Xt−1 β2 + σt t
σt = Υσ1 + (1 − Υ)σ2
Pour obtenir la statistique de Wald, il suffit de remarquer que les contraintes à imposer
au modèle sous H1 pour qu’il soit le même que sous H0 sont les suivantes :
β1 = β2
σ1 = σ2
φ0 , φ1 , φ2 , φ3 sont libres
Le fait qu’il y ait des paramètres libres (les φ dans Υ), il est nécessaire d’utiliser le
bootstrap pour obtenir les valeurs critiques. Il n’y a plus de distribution connue pour la
statistique d’intérêt.
Une brève introduction de la méthodologie utilisée pour conduire le bootstrap sera
présentée.
4.7.2
Le test du ratio de vraisemblance
Asymptotiquement équivalent au test de Wald (voir l’article de Engle (1984) [22]),
ce test est généralement le préféré des statisticiens classiques étant donné ses propriétés
intéressantes. Comme le précise Engle, le test de Wald et du ratio de vraisemblance sont
asymptotiquement équivalent, mais chaque test possède ses propres forces et faiblesses.
Ces raisons sont donc les motivations d’utiliser ce test conjointement à celui de Wald. La
34
charge de calcul supplémentaire sera négligeable étant donné que les modèles à estimer
sous H0 ont une solution analytique.
La statistique sera définie comme suit :
L = P (θ ∈ Θ0 |Y )/P (θ ∈ Θ1 |Y )
Sous certaines hypothèses de régularité, −2 log L ∼ χ2p . Cependant, comme c’était le
cas pour le test de Wald, la distribution χ2p n’est pas valide dans le cas où H1 introduit
des paramètres libres lors du passage sous H0 . Il sera donc nécessaire d’utiliser ici aussi
la procédure bootstrap.
4.7.3
Le bootstrap
Sous l’hypothèse nulle que le modèle suit une marche aléatoire, le bootstrap procédera
de la façon suivante :
1. s = {∆y1 , ∆y2 , ..., ∆yn−1 } pour ∆yj = yj+1 − yj
2. I = {i1 , i2 , i3 , ..., in−1 } pour ij distribué uniformément sur {1, 2, ..., n − 1}
Pj−1
3. Yb = {yb,1 , yb,2 , ..., yb,n } pour yb,j = y1 + k ∆yik pour j ≥ 2
L’échantillon "bootstrappé" Yb sera donc de taille n et son comportement sera celui
d’une marche aléatoire.
Sous l’hypothèse nulle que le modèle est linéaire en fonction d’une matrice de variables
explicatives X, le bootstrap procédera de la façon suivante :
1. s = {r1 , r2 , ..., rn−1 } les n − 1 résidus du modèle linéaire
2. I = {i1 , i2 , i3 , ..., in−1 } pour ij distribué uniformément sur {1, 2, ..., n − 1}
3. Pour k allant de 2 à n
(a) uk−1 = sik−1
0
(b) yb,k = (1 + α)yb,k−1 + Xk−1
β 0 + uk−1
La matrice X0 est identique à la matrice X à l’exception que la colonne de la variable du
taux de change avec un retard a été retirée. D’une manière similaire, le vecteur β 0 correspond au vecteur β sans la composante autorégressive. Cette dernière est représentée par
la variable α. L’échantillon "bootstrappé" Yb sera conditionnel aux variables explicatives
X.
5
Résultats
35
Dans cette section seront discutés les résultats obtenus lors de l’étude. Les difficultés
face à leur obtention seront décrites et énumérées. Cette section sera divisée de la manière
suivante :
1. L’estimation des modèles
2. Les tests d’hypothèses
3. Les expériences à l’intérieur de l’échantillon
4. Les expériences hors échantillon
5.1
Modélisation
Au cours de ce mémoire, trois classes de modèles distinctes ont dû êtres estimées :
celles des modèles de marche aléatoires, des modèles linéaires et des modèles à transition
lisse. Dans les trois cas, il a été nécessaire de faire appel à la valeur du taux de change
aux pas de temps précédents. Alors que dans le cas de la marche aléatoire, ceci s’est fait
de façon bien précise (il a simplement fallu utiliser la valeur au temps t − 1 et de ne pas
la multiplier par un coefficient k pour k 6= 1), un ordre supérieur à 1 est possible dans les
deux modèles plus complexes.
Dans le but de découvrir l’ordre p du processus autorégressif utilisé, les fonctions
d’autocorrélations (ρ(k)) et d’autocorrélations partielles (ρp (k)) seront calculées pour des
ordres (k) allant de 0 à 100.
Deux conclusions peuvent être tirées des résultats présentés dans le tableau 1. La
fonction d’autocorrélation indique que le processus n’a pas de composante de moyenne
mobile. En effet, la fonction d’autocorrélation d’un M A(q) va s’estomper pour les ordres
q +1, q +2, .... Finalement, la composante autorégressive semble être d’ordre 1 : en effet, la
fonction d’autocorrélation partielle s’aplatit après le premier ordre. Un processus AR(1)
serait donc un bon candidat. Ceci est cohérent avec ce que la littérature suggère.
5.1.1
La marche aléatoire
Ce modèle très simple présente de très bons résultats. Les paramètres résultant de
l’estimation sont affichés dans le tableau 2.
Il est intéressant de noter que la dérive étant dans l’intervalle [−0.0001, 0.0005], n’est
pas significative. Ceci rappelle le comportement "martingale " que la littérature semble
Ordre (k)
0
1
2
3
4
5
6
7
8
9
10
25
50
100
ρ(k)
1
0.9977
0.9955
0.9933
0.9911
0.9887
0.9865
0.9844
0.9822
0.9801
0.978
0.948
0.8963
0.7897
ρp (k)
1
0.9985
0.0176
0.0091
-0.0362
-0.0347
0.0414
0.0522
-0.0331
0.0122
0.0461
0.015
0.0086
-0.0033
36
Table 1 – Les fonctions d’autocorrélation et d’autocorrélation partielle
θ̂∗
µ̂
σ̂
Valeur
0.0002
0.0065
Erreur
0.0001
0.0001
Borne inférieure (95%)
-0.0001
0.0064
Borne supérieure (95%)
0.0005
0.0066
Table 2 – La marche aléatoire
attribuer aux taux de change. La valeur de la fonction du logarithme de la vraisemblance
lorsqu’elle est évaluée en θ̂ est de 8601.91. Les erreurs, par hypothèse, sont indépendantes
et distribuées selon une loi normale. Il serait donc intéressant de regarder, pour les différents modèles, si cette hypothèse est transgressée.
La figure 1, qui contient deux graphiques, illustre le comportement des résidus. Ces
graphiques indiquent notamment, et de façon très informelle, la distance entre la distribution théorique et empirique. Le constat que les erreurs ne soient pas normalement
distribuées est sans surprise. L’hétéroscédasticité ainsi qu’une moyenne variante (résultant donc en une densité mélangée) pourraient expliquer en partie ce graphique. Cela dit,
idéalement, en augmentant la complexité du modèle, il serait souhaitable d’améliorer cet
aspect.
37
Figure 1 – Le comportement des résidus de la marche aléatoire
5.1.2
Le modèle linéaire
La matrice X correspond aux variables explicatives (auquel un vecteur de 1 ainsi que
la série yt avec un retard sont ajoutés). Comme expliqué dans la méthodologie, le modèle
est réestimé jusqu’à ce que chaque coefficient βi soit significatif à 5%. Les variables restantes sont le vecteur de constantes, le coefficient autorégressif, la PPA, la différence des
logarithmes des taux d’intérêt sur 10 ans, le prix de l’or et l’indice du S&P T SX.
L’exclusion du prix du baril de pétrole ne fut pas si surprenante. La littérature sur
le lien entre le taux de change CAD/USD et le prix de l’huile est vaste et précise : la
relation n’est plus la même. Un article de Ferraro, Rogoff, Rossi [24], pas encore publié,
semble pointer vers cette même conclusion : la relation, pour les données journalières,
existe mais elle est très fragile. De plus, étant donnée la forte corrélation entre le prix du
baril de pétrole, il se peut également que la série modélisée avec un retard capture sensiblement la même information. En effet, les corrélations entre ces deux séries sont de 94%
Maintenant, les paramètres estimés sont affichés dans le tableau 3. La log-vraisemblance
obtenue en θ̂∗ est de 8617.69, soit 15 de plus que le modèle de la marche aléatoire. Quant
aux résidus, leur comportement est illustré dans la figure 2. Ces derniers présentent peu
de différences visibles par rapport aux résidus issus de la marche aléatoire.
θ̂∗
µ
AR(1)
PPA
∆r10ans
Or
TSX
σ
38
Valeur
-0.1426
-0.0192
-0.0438
0.1822
0.0029
0.0112
0.0065
Erreur
0.0273
0.0037
0.0194
0.0718
0.0009
0.0023
0.0001
Borne inférieure (95%)
-0.1962
-0.0264
-0.0819
0.0414
0.0012
0.0068
0.0063
Borne supérieure (95%)
-0.0891
-0.012
-0.0056
0.323
0.0047
0.0156
0.0067
Table 3 – Le modèle linéaire
Figure 2 – Le comportement des résidus du modèle linéaire
5.1.3
Le modèle linéaire à transition lisse
Sous l’hypothèse restrictive que les variables explicatives sont les mêmes que dans le
modèle linéaire (restrictive, car les variables conservées ne sont que celles dont la tendance
est significative d’un point de vue linéaire, voir Issa, Lafrance et Muray (2008) [31]), les
coefficients estimés pour le modèle linéaire à transition lisse sont affichés dans le tableau
4. Évaluée en ce vecteur, la valeur de la fonction de log-vraisemblance est de 8761.88.
Plusieurs conclusions peuvent être tirées à partir des deux régimes. Premièrement, le
premier régime possède un coefficient autorégressif relativement important et le σ1 laisse
supposer qu’il est très volatile. De plus, le coefficient de la P P A semble indiquer qu’il
39
θ̂∗
Valeur
φ0
φ1
φ2
φ3
-0.331
-0.1307
-5.0125
-5.08
µ
AR(1)
PPA
∆r10ans
Or
TSX
σ
-2.2827
-0.3277
-0.7951
2.1427
0.0494
0.1768
0.0103
µ
AR(1)
PPA
∆r10ans
Or
TSX
σ
-0.9832
-0.1305
-0.218
1.5965
0.0189
0.0799
0.0021
Erreur Borne inférieure (95%) Borne supérieure (95%)
Paramètres de détermination du régime
0.3502
-1.0174
0.3554
0.4116
-0.9375
0.6761
1.6028
-8.1539
-1.8711
1.6231
-8.2614
-1.8987
Premier régime
0.7253
-3.7043
-0.8612
0.1031
-0.5299
-0.1255
0.3152
-1.4129
-0.1774
0.6608
0.8475
3.4379
0.0167
0.0167
0.0821
0.0551
0.0689
0.2848
0.0019
0.0066
0.014
Deuxième régime
0.1601
-1.297
-0.6693
0.0214
-0.1725
-0.0885
0.0686
-0.3524
-0.0836
0.2876
1.0328
2.1603
0.0039
0.0114
0.0265
0.0128
0.0548
0.1051
0.0015
-0.0008
0.005
Table 4 – Le modèle LTL
y a une forte tendance de retour à l’équilibre dans le premier régime. En observant le
deuxième régime, cette tendance est beaucoup moins présente. Le retour à la moyenne se
fait donc beaucoup plus lentement. Un parallèle peut être fait entre ces résultats et ceux
de Kilian et Taylor. Ils ont supposé deux régimes, un qui agit comme marche aléatoire et
l’autre qui s’assure du retour vers la valeur d’équilibre. Dans le cas présent, le deuxième
régime est beaucoup moins volatile : chacun des coefficients linéaires de ce régime est
inférieur à son homologue du premier régime et sa volatilité est relativement petite. Ce
régime peut être vu comme un régime "tranquille" qui modélise davantage les périodes
d’équilibre. Cependant, Kilian et Taylor ont indiqué que durant ces périodes d’équilibre,
le taux de change se comporte comme une marche aléatoire et ses mouvements sont de
nature spéculative. Il y a donc une différence. En effet, il suffit de voir que la variance
n’est même pas significative dans le deuxième régime ce qui permet d’affirmer que ce
régime reste très dépendant des variables explicatives. Finalement, étant donné un σ2
possiblement nul, il est naturel de se demander si l’hétéroscédasticité est bien capturée
par ce modèle.
40
De plus, il y a deux autres paramètres qui ne sont pas significatifs (le premier étant le
σ2 ). Cela dit, les régimes sont-ils bien modélisés malgré le fait que deux des paramètres
dont le but est strictement de déterminer le régime actuel ne sont pas significatifs ? Les
résultats donneront les verdicts. Cependant, à titre indicatif, il est toujours bien de regarder le comportement des résidus ressortant de ce modèle. Ces derniers sont illustrés
dans la figure 3. Alors qu’il est difficile de tirer des conclusions certaines, il est possible de
voir, notamment en observant l’axe de l’origine du deuxième graphique, que la différence
entre les deux densités semble avoir diminué.
Figure 3 – Le comportement des résidus du MLTL
Le comportement des régimes (figure 4) témoigne bien des tendances changeantes dans
l’évolution du taux de change. Le facteur Υt répond bien aux attentes précisées lors de
l’estimation :
– Il est bien dispersé entre 0 et 1 (Ῡ = 0.3449). Les deux régimes sont clairement
indentifés.
– Il s’interprète donc comme la situation économique : les régimes sont persistants.
Un autre constat intéressant est que dans chacun des cas, le paramètre du MLTL est plus
éloigné de l’axe des x que le paramètre du ML. Alors que l’incertitude des paramètres
41
Figure 4 – L’évolution des régimes dans le temps
du MLTL est plus grande que pour le modèle opposant, il est naturel de se demander
si une variable pour laquelle le coefficient linéaire n’était pas significatif pourrait l’être
pour le cas du MLTL. Ayant particulièrement à l’esprit le prix du baril d’huile, il faut
se rappeler que Issa Lafrance, Murray (2008) [31] proposent qu’il y ait des changements
de tendance entre le taux de change américain et le prix du baril. Si cela s’était produit
pour les 10 années étudiées, il va sans dire que le coefficient linéaire serait possiblement
non significatif, et ce, car le lien est non linéaire de façon importante. Cependant, ce ne
serait peut-être pas le cas pour le MLTL.
Finalement, dans le graphique 19, toujours en annexe, la volatilité du taux de change
est illustrée à travers le temps. À des fins de comparaisons, la volatilité résultante d’un
modèle GARCH (1, 1) est également présentée, car ces derniers ont connu quelques succès
pour les séries chronologiques de taux de change (voir Alexander (2006) [3] par exemple).
La volatilité obtenue est relativement semblable. Une différence majeure est le fait que
les poids des régimes du MLTL étant compris entre 0 et 1, la volatilité va être bornée
entre σ1 et σ2 . Ceci peut sembler une faiblesse, particulièrement lorsqu’il y a une certaine
42
détresse dans les marchés financiers, ce qui entraine des prix très instables. Ceci s’observe
directement vers la fin de l’année 2008 et durant l’année 2009. Rappelons que ces dates
coïncident aux récentes crises financières observées sur les marchés. Les États-Unis étant
plus touchés que le Canada, il est normal que le taux de change ait subi des bouleversements durant cette période. Cela dit, le modèle est visiblement contraignant en ce qui
touche la volatilité.
5.1.4
Les résidus des différents modèles
Des graphiques ont été examinés de façon informelle pour évaluer le comportement des
résidus. Cependant, les autocorrélations résiduelles n’ont pas été abordées. Le prochain
tableau indique les résultats (sous forme de valeur P) des autocorrélations des erreurs
jusqu’à un ordre de 20. Le test employé est celui de Ljung-Box décrit dans l’article de
Ljung (1978) [40].
L’hypothèse nulle implique une absence de corrélation pour un ordre de 1, 2, ..., 20.
Par conséquent, son rejet implique qu’il y a au moins une corrélation non nulle pour un
ordre entre 1 et 20. Les résultats sont les suivants :
Le modèle
Marche aléatoire
Modèle linéaire
MLTL
Valeur P
0.0233
0.0335
0.0398
Table 5 – Test d’hypothèse sur l’autocorrélation
Les trois modèles échouent le test. Il faut croire qu’il y a un aspect de la dynamique
qui est mal capturé par chacun d’entre eux. L’erreur des différents paramètres de chacun
des modèles sera donc imprécise.
5.2
Test d’hypothèses
Une méthode populaire de tester la validité d’un modèle face à une alternative est
d’utiliser les tests d’hypothèses. Deux tests sont proposés. Le premier oppose la marche
aléatoire au modèle linéaire. Par la suite, le MLTL s’oppose au modèle linéaire.
43
5.2.1
Marche aléatoire contre modèle linéaire
Soit le test suivant :
H0 : yt ∼ M A
H1 : yt ∼ M L
Le tableau 6 contient les résultats :
Le test
Ratio de vraisemblance (−2 log L)
Wald (W )
Statistique
31.563363
31.760237
Valeur P
0.001
0.001
Table 6 – Test d’hypothèse entre MA et ML
Marche aléatoire contre modèle linéaire. Les valeurs critiques ont été obtenues en suivant la procédure
bootstrap (n = 10000) de la méthodologie et elles sont davantage conservatrices que les valeurs critiques
asymptotiques.
C’est sans surprise que le modèle linéaire surclasse la marche aléatoire de manière
significative. En effet, le test est concluant, et ce, même pour un niveau de confiance de
1%. Les critiques principales des modèles linéaires sont principalement pour les résultats
hors échantillons où la marche aléatoire tend à mieux performer.
5.2.2
Modèle linéaire contre modèle linéaire à transition lisse
Le même exercice a été fait pour le modèle à régimes :
H0 : yt ∼ M L
H1 : yt ∼ M LT L
De par les différentes limites du modèle linéaire, il ne serait pas surprenant de voir ce
dernier rejeter en faveur du modèle plus complexe. Les résultats se retrouvent dans le
tableau 7.
Les densités empiriques des statistiques sont illustrées dans les figures 5 et 6. La surprise majeure vient du test de Wald qui n’est pas concluant. Cependant, un résultat qui
devrait être asymptotiquement très semblable, le ratio de vraisemblance, est quant à lui
Le test
Ratio de vraisemblance (−2 log L)
Wald (W )
Statistique
288.3762
9.7150
Valeur P
0
0.6270
44
Table 7 – Test d’hypothèse entre ML et MLTL
Les résultats résultent d’une procédure bootstrap
significatif.
La raison qui explique ces résultats est l’instabilité de la statistique étudiée. La matrice
hessienne (analytique dans le cas présent) doit être inversée pour calculer la statistique
de Wald. Cependant, il a été noté que pour un bon nombre d’échantillons bootstrap, la
matrice de l’information de Fisher présentait un déterminant proche de 0. Ces cas ont
été ignorés. Ceci laisse cependant croire que cette dernière est très instable. Des déterminants de très grands ordres (1015 ) ont également été observés. La raison principale qui a
provoqué ce manque de stabilité vient des quatre paramètres de régimes, pour lesquelles
les erreurs, parfois, explosaient. Il suffit de regarder le graphique de la densité pour se
convaincre de son invalidité. Finalement, il faut se rappeler que les résidus étaient corrélés.
Les erreurs sont donc imprécises.
Le test du ratio de vraisemblance est concluant. Celui-ci nécessitant que les valeurs de
vraisemblance maximales sous les deux hypothèses, les problèmes d’instabilité rencontrés
avec le test de Wald ne se sont pas manifestés. Il est donc probable que ce dernier soit
plus représentatif de la réalité. Notons également que les corrélations de Pearson et de
Spearman observées entre les deux statistiques à travers les échantillons du bootstrap
sont respectivement de 0.26 et de 0.42. Les graphiques aussi semblent indiquer que la
distribution de Wald soit problématique. Ceci appuie donc davantage que le test de Wald
est invalide.
5.3
Les mesures à l’intérieur de l’échantillon
Les statistiques de prévision suivantes ont été évaluées pour différents horizons de façon
à bien discerner les forces et les faiblesses du modèle. Elles sont calculées à l’intérieur de
l’échantillon et elles permettent de rapidement évaluer les performances prévisionnelles
de chacun des modèles. Les prévisions sont conduites sur les journées (ouvrables).
45
Figure 5 – La densité de la statistique de Wald
Figure 6 – La densité de la statistique du ratio de vraisemblance
5.3.1
Écart quadratique moyen pour les prévisions
La première statistique a pour effet de quantifier la précision du modèle de la moyenne.
Principalement, il a pour but de mesurer à quel point l’information disponible peut mo-
46
difier la précision d’une prévision faite. En ce sens, les résultats sont impressionnants et
concluants. Ils sont affichés dans le tableau 8. Les résultats sont en fait les ratios d’EQMP
du modèle étudié par rapport à celui de la marche aléatoire. De plus, le symbole entre
parenthèses indique l’information de laquelle le modèle se base pour construire sa prévision.
Horizons
ML (F∞ )
ML (Ft−1 )
MLTL (F∞ )
MLTL (Z)
MLTL (X)
MLTL (Ft−1 )
1
0.986
0.986
0.925
0.925
0.925
0.925
2
0.974
0.985
0.754
0.857
0.831
0.942
3
0.962
0.975
0.625
0.753
0.727
0.841
7
0.908
0.926
0.334
0.442
0.440
0.518
30
0.713
0.731
0.095
0.149
0.177
0.177
90
0.416
0.426
0.030
0.067
0.085
0.090
Table 8 – Le ratio des écarts quadratiques moyens pour les prévisions des ML et MLTL
sur MA à l’intérieur de l’échantillon
MA = Marche aléatoire, ML = Modèle linéaire, MLTL = Modèle linéaire à transition lisse. Un ratio <
1 signifie que la prévision est plus précise que la marche aléatoire
Le passage du modèle de la marche aléatoire au modèle linéaire est concluant. Des
améliorations allant de 1% (pour de petits horizons) jusqu’à 60% pour de plus grands
horizons. Alors que la marche aléatoire représente une absence complète d’information, le
modèle linéaire, lorsque la prévision se fait selon l’information disponible au temps t − 1
(donc en conditionnant sur Ft ), offre une performance très semblable. Ce modèle est donc
qualifié de modèle insensible face à l’information. En effet, pour un horizon de 90 jours,
il y a une différence au niveau de la performance de 2.45%.
L’utilisation du MLTL, indépendamment de l’information disponible pour les prévisions, offre des gains de précision allant jusqu’à 97%. La non linéarité est donc indirectement vérifiée pour le taux de change. Du moins, si la relation est linéaire, elle n’est
pas constante dans le temps, comme le suggéraient Issa, Lafrance et Murray [31]. Des
figures illustrant la précision sont présentées en annexe (voir la figure 10, 11 et 12). Cette
interprétation est grandement appuyée par le fait que la prévision sachant les régimes et
ignorant les variables explicatives est proche de la prévision conditionnée sur la filtration
entière. Il faut noter que la pondération des régimes est très volatile.
47
5.3.2
La statistique de la direction
La deuxième statistique s’intéresse au nombre de fois où les prévisions ont su bien
prédire le signe de la fluctuation. Les résultats se trouvent dans le tableau 9.
Horizons
MA
ML (F∞ )
ML (Ft−1 )
MLTL (F∞ )
MLTL (Z)
MLTL (X)
MLTL (Ft−1 )
1
50.61%
53.93%
53.93%
57.90%
57.90%
57.90%
56.24%
2
52.93%
54.37%
53.36%
67.29%
59.56%
65.55%
56.20%
3
51.66%
55.76%
55.02%
74.15%
64.50%
71.53%
63.76%
7
52.75%
57.29%
56.59%
82.36%
75.59%
79.43%
77.16%
30
47.99%
65.94%
65.41%
89.08%
85.07%
86.42%
88.86%
90
50.09%
73.89%
73.49%
94.37%
91.92%
91.18%
93.89%
Table 9 – La statistique de direction
MA = Marche aléatoire, L = Linéaire, MLTL = Modèle linéaire à transition lisse
La statistique a été calculée sur le logarithme du taux de change duquel la moyenne
a été soustraite. Les résultats pour la marche aléatoire avoisinent donc les 50%, soit la
valeur théorique. Un modèle linéaire propose un bon gain de performance, soit de 25%
pour un horizon de 90 jours. Le gain le plus impressionnant vient sans doute du modèle
LTL qui permet de prévoir la direction de la fluctuation de 56% du temps jusqu’à 90%.
Finalement, les résultats indiquent que cette mesure est relativement insensible à la
disponibilité de l’information. En effet, les différences absolues entre les statistiques sont
en dessous de 5%.
5.3.3
Les quantiles
Une seule statistique est calculée pour examiner les mesures de dispersion et les effets
de l’information sur ces dernières. Elle consiste à quantifier les différences entre des intervalles de confiances théoriques et empiriques. Les pourcentages affichés indiquent la proportion des réalisations hors de l’intervalle théorique centré. La série a = {0.5, 0.05, 0.01}
représente les niveaux de confiance des intervalles.
Pour un niveau de 50%, la dispersion centrale est examinée. Étant donné que les trois
modèles font ultimement des prévisions dont l’erreur est normalement distribuée, l’intervalle trouvé est le suivant : [f¯−z0.75 σ, f¯+z0.75 σ]. Les résultats sont affichés dans le tableau
10. Notons que la valeur théorique est de 50%. Ignorons en premier lieu les trois dernières
48
colonnes. Les résultats, tous modèles confondus, tendent à sous-estimer cette valeur ce
qui laisse supposer que trop peu de masse est assignée au centre de la distribution dans
le modèle théorique. Les ailes théoriques surpassent donc les ailes empiriques. Le modèle
LTL (sachant l’information normalement non disponible) est le plus précis. Ceci tend à
appuyer l’hypothèse de l’héthéroskédaticité ou du moins, de la non-normalité.
Cependant, lorsque les régimes sont inconnus ou lorsque les variables explicatives ne
sont pas connues au-delà du moment où la prévision est faite, la performance du MLTL
est catastrophique. Les raisons sont toutefois difficiles à trouver. La variance tente à être
sous-estimée (car les intervalles sont beaucoup trop étroits). L’explication la plus probable
est la suivante : le coefficient autorégressif est trop bas. En examinant la figure 14 qui se
trouve dans l’annexe, le premier constat est qu’il se tient presque toujours en dessous de
la valeur −0.3. La variance d’une prévision est la variance des erreurs additionnée auxquelles un ajustement est ajouté. Cet ajustement consiste en la multiplication des carrés
des coefficients autorégressifs auxquels le nombre 1 est additionné. Comme ce nombre
tend rapidement vers 0 pour des grands horizons (l’exposant se rapproche de 2h), la variance va être sous-estimée. Une autre source d’erreur serait la corrélation des résidus.
Une des hypothèses du modèle est l’absence de corrélation entre les résidus.
Horizons
MA
L (F∞ )
L (Ft−1 )
MLTL (F∞ )
MLTL (Υ)
MLTL (X)
MLTL (Ft−1 )
1
40.92%
41.31%
41.31%
42.18%
42.18%
42.18%
42.18%
2
42.1%
42.31%
42.49%
43.54%
46.03%
44.76%
47.86%
3
42.4%
42.36%
42.62%
43.8%
50.52%
48.17%
52.45%
7
43.14%
42.14%
43.54%
45.37%
61.09%
60.92%
64.24%
30
38.73%
35.85%
40.79%
45.07%
80.44%
83.67%
80.44%
90
39.87%
26.59%
41.09%
45.59%
86.24%
91.53%
88.6%
Table 10 – Le pourcentage des données hors des intervalles de confiance de 50% théoriques
MA = Marche aléatoire, L = Linéaire, MLTL = Modèle linéaire à transition lisse
En ce qui concerne les valeurs extrêmes, les résultats (tableau 5.3.3 démontrent clairement, encore une fois, que la variance du modèle LTL est sensible, et ce, de manière
exagérée. Pour de grands horizons (30 jours et plus), les pourcentages de données dans
les ailes sont bien trop élevés ce qui se traduit par une variance grandement sous-estimée
lors de la prévision. En ignorant les trois dernières colonnes, il est difficile de décerner un
Horizons
a
MA
L (F∞ )
L (Ft−1 )
MLTL (F∞ )
MLTL (Υ)
MLTL (X)
MLTL (Ft−1 )
a
MA
L (F∞ )
L (Ft−1 )
MLTL (F∞ )
MLTL (Υ)
MLTL (X)
MLTL (Ft−1 )
1
2
3
6.07%
5.98%
5.98%
5.81%
5.81%
5.81%
5.81%
5.28%
5.11%
5.15%
5.55%
6.77%
5.76%
7.42%
5.15%
4.89%
4.89%
5.11%
7.95%
7.16%
9.3%
2.53%
2.4%
2.4%
2.14%
2.14%
2.14%
2.14%
2.1%
2.05%
2.05%
1.75%
1.97%
2.1%
2.75%
2.01%
1.75%
1.79%
1.27%
2.53%
2.62%
3.71%
7
5%
4.72%
4.32%
4.67%
4.45%
15.02%
14.19%
19.78%
1%
2.14%
1.57%
1.83%
1.09%
6.59%
7.07%
10%
30
90
3.45%
1.44%
3.89%
4.45%
48.25%
51.57%
46.24%
4.15%
0.26%
4.98%
4.5%
64.02%
72.93%
68.17%
1.62%
0.44%
1.31%
1.22%
35.46%
37.9%
33.14%
2.75%
0.09%
1.92%
1.22%
55.15%
64.24%
58.82%
49
Table 11 – Le pourcentage des données contenues dans les ailes théoriques
grand gagnant.
5.4
Les tests à l’extérieur de l’échantillon
Les résultats des différents tests effectués hors des échantillons seront présentés ici.
Pour chacun d’entre eux, les horizons utilisés seront de 1, 2, 3, 7, 30 et 90 jours. La série a
été tranchée aux deux tiers (soit la grandeur de la fenêtre roulante). L’étude hors échantillon se portera donc sur la période qui couvre la récente crise financière. Le graphique
7 illustre cette période.
Les performances des différents modèles pour un horizon de 1 et 90 jours respectivement sont illustrées dans les figures 8 et 9. Les périodes couvertes par les graphiques sont
relativement courtes, mais cela permet de distinguer les courbes. Comme il est possible
de le voir, les écarts de performance en terme de prévision se sont énormément atténués.
Les résultats qui suivent confirmeront cette remarque.
5.4.1
Le test des prévisions emboîtées
Pour chaque horizon, deux tests seront effectués. La mesure de performance utilisée
sera la valeur p sous l’hypothèse de normalité des statistiques.
50
Figure 7 – Le prix de la devise canadienne en dollars américains
Figure 8 – Les prévisions hors échantillon pour h = 1
En ce qui concerne la marche aléatoire, il n’y a aucune évidence que le MLTL explique
les erreurs de la marche aléatoire. Ceci est la surprise majeure pour ce test, car si ces résultats sont comparés aux autres, (ML contre MLTL ou erreurs du MLTL contre prévisions
51
Figure 9 – Les prévisions hors échantillon pour h = 90
de la MA), ils sont de loin les meilleurs. Cela dit, plusieurs raisons peuvent expliquer le
fait qu’un modèle simpliste ne produit pas des erreurs explicables par un modèle plus
complexe. L’hypothèse de l’efficience des marchés, celle que le lien entre l’information et
le taux de change est volatil (une grande partie des estimations se font en période de crise
économique) en sont deux. Cependant, de par la nature du test, l’échantillon a été réduit de façon importante. Il est fort possible que la précision des estimateurs soit diminuée.
En ce qui a trait au modèle linéaire, il produit des erreurs de prévision expliquées par
le MLTL pour tous les horizons étudiés inférieurs ou égaux à trente jours. Pour l’horizon
de 90 jours (4 mois et demi), le résultat est tout de même concluant pour un niveau
de 10%. Le modèle linéaire en ressort donc perdant. Étant donné que les deux modèles
utilisent l’information du marché, il est probable que le MLTL propose tout simplement
une meilleure dynamique et que par conséquent, il soit en mesure de "corriger" celle du
ML, qui est plus restrictive.
Les erreurs du MLTL semblent cependant montrer une dépendance avec les prévisions
des autres modèles. Les évidences montrent toutefois que ceci est vrai seulement pour un
horizon de 7 jours, et ce, pour les deux modèles opposants. Une légère défaillance semble
se faire sentir pour cet horizon particulier.
Horizons
H0
H1
Statistique normalisée
Valeur P
H0
H1
Statistique normalisée
Valeur P
H0
H1
Statistique normalisée
Valeur P
H0
H1
Statistique normalisée
Valeur P
1
2
3
7
: E(et,M A Yt,M LT L (h)) = 0
: E(et,M A Yt,M LT L (h)) 6= 0
0.447 0.463 0.481 0.645
0.655 0.6435 0.630 0.519
: E(et,M LT L Yt,M A (h)) = 0
: E(et,M LT L Yt,M A (h)) 6= 0
1.154 1.502 1.558 1.921
0.129 0.133 0.119 0.055
: E(et,M L Yt,M LT L (h)) = 0
: E(et,M L Yt,M LT L (h)) 6= 0
2.318 2.363 2.453 2.845
0.021 0.018 0.014 0.004
: E(et,M LT L Yt,M L (h)) = 0
: E(et,M LT L Yt,M L (h)) 6= 0
1.508 1.494 1.547 1.846
0.132 0.135 0.122 0.065
30
90
0.433
0.665
0.870
0.384
1.370
0.171
1.588
0.112
2.101
0.036
1.664
0.096
1.322
0.186
1.366
0.172
52
Table 12 – Le test des prévisions emboîtées
5.4.2
Test sur la précision des prévisions
Pour presque tous les horizons étudiés, l’erreur quadratique moyenne des prévisions
a été réduite pour le MLTL (voir le tableau 15 en annexe) mais les résultats ne sont pas
tous significatifs. Comme il est possible d’observer dans le tableau 5.4.2, autant contre la
marche aléatoire que contre le modèle linéaire, la différence est significative pour l’horizon
d’un jour. Le MLTL réussit donc à offrir des gains pour de très courts horizons. En effet,
pour deux jours, les gains ne sont plus significatifs.
Pour les autres horizons étudiés, la marche aléatoire n’est pas surclassée. Toutefois,
les valeurs P pour des grands horizons semblent diminuer progressivement laissant croire
qu’il est possible que le MLTL surpasse la marche aléatoire lorsque h est grand. Un test
conduit pour un horizon de 120 jours (soit environ 6 mois) aboutit en une valeur p de
0.213. Le gain significatif se limite donc au très court terme. Comme Kilian et Taylor le
mentionnaient, il est très difficile de battre la marche aléatoire et ces résultats appuient
leur propos.
Finalement, cet écart redevient significatif lorsque le MLTL est opposé au modèle
linéaire. Ces résultats sont peu surprenants. La nature du modèle linéaire en est fort pos-
Horizons
Statistique normalisée
Valeur P
Statistique normalisée
Valeur P
1
2
3
H0 : σ̂M A = σ̂M LT L
H1 : σ̂M A > σ̂M LT L
1.865 0.3187 -0.212
0.031 0.375
0.584
H0 : σ̂M L = σ̂M LT L
H1 : σ̂M L > σ̂M LT L
1.663 0.165 -0.263
0.048 0.435
0.604
7
30
90
0.102
0.460
0.946
0.172
0.760
0.224
0.223
0.412
1.901
0.029
1.740
0.041
53
Table 13 – Le test de la précision des prévisions
siblement la cause. Les relations linéaires sont probablement transgressées pour des longs
horizons. Plus la prévision est conduite sur un long horizon, plus cette dernière devrait
être fautive (il en est de même pour les hypothèses du MLTL, cependant, elles sont moins
contraignantes). Un autre test a également été conduit pour h = 120 et la valeur P était de
0.0158. Alors que plusieurs études précisent ce comportement comme étant non linéaire,
d’un point de vu local (h = 1, 2 ou 3), il est peu probable que la dynamique entre y et
X change radicalement. Cela expliquerait donc pourquoi la performance est bonne pour
de petits horizons. Cependant, la dynamique change davantage pour de grands horizons
d’où les piètres performances du ML pour celle-ci.
Un autre résultat très intéressant est entre le modèle linéaire et la marche aléatoire
(annexe, tableau 15). Ce qui a été observé entre le ML et le MLTL s’observe à nouveau contre la marche aléatoire. La performance du ML est supérieure (de manière non
significative) pour des horizons plus courts et par la suite, le tout s’inverse.
5.5
Test de la direction
En observant le tableau 14, les résultats indiquent que la marche aléatoire se situe
au dessous de 50%. Elle se trompe davantage dans la direction des fluctuations qu’elle a
raison. Ceci s’explique directement par la nature des données, à savoir la période instable
et différente de celle comprise dans la fenêtre roulante sur laquelle le modèle a été estimé.
Aussitôt que les prévisions utilisent l’information disponible sur le marché (principalement le MLTL), les rapports obtenus semblent s’améliorer. Toutefois, dans le cas du ML,
les valeurs p indiquent qu’il n’y a pas d’évidence que les résultats sont différents de 50%.
Il est donc impossible de conclure quoi que ce soit pour ce dernier.
Horizons
Proportion
Statistique normalisée
Valeur P
Proportion
Statistique normalisée
Valeur P
Proportion
Statistique normalisée
Valeur P
1
2
3
H0 : DM A = 0.5
H1 : DM A 6= 0.5
0.5014
0.4773 0.4759
0.074
-1.288 -1.215
0.4695
0.899
0.888
H0 : DM L = 0.5
H1 : DM L 6= 0.5
0.5213
0.5270 0.5298
1.071
1.087
1.043
0.142
0.139
0.148
H0 : DM LT L = 0.5
H1 : DM LT L 6= 0.5
0.5724
0.5696 0.5611
3.821
3.129
2.605
< 0.001 0.001
0.005
7
30
90
0.4574
-1.979
0.976
0.4574
-2.236
0.987
0.4830
-0.901
0.816
0.5000
0
0.5
0.5199
0.414
0.340
0.4787
-0.186
0.574
0.5241
1.004
0.158
0.5554
1.814
0.035
0.5043
0.039
0.485
54
Table 14 – Le test de la direction
Les résultats du MLTL sont toutefois particulièrement intéressants. Pour quatre différents horizons (soit 1,2,3 et 30 jours), ils sont significativement supérieurs à 0.5. Cela
signifie que pour ces horizons, il est possible de deviner correctement la fluctuation du
taux de change canadien en utilisant l’information disponible sur le marché, et ce, avec
une probabilité de succès supérieure à 50%. Alors qu’il se peut que ce résultat soit propre
à l’échantillon choisi, il serait intéressant de mettre en place des stratégies d’investissement exploitant ces résultats.
5.6
Test des quantiles
Les résultats présentés en annexe dans les tableaux 16, 17 et 18, ne sont pas encourageants pour les modèles linéaires et linéaires à transition lisse. En effet, dans le cas
du MLTL, les intervalles empiriques diffèrent de manières significatives dans tous les cas
sauf un. Le cas de la marche aléatoire n’est guère plus concluant. Cependant, il offre une
meilleure performance pour les horizons plus longs.
Plusieurs conclusions peuvent être tirées. La principale est que le MLTL n’est tout
simplement pas un modèle apte à saisir le comportement de la non-normalité de façon
significative. La littérature propose généralement des variances avec un effet autorégres-
55
sif (GARCH) et fonction de l’innovation précédente au carré (ARCH). Comme pour la
tendance, il aurait été probablement utile d’ajouter un retard dans le processus de la
variance. Cet exercice serait une extension intéressante au modèle. Une autre solution,
comme mentionnée plus tôt, serait d’imposer la composante autorégressive dans un voisinage proche de 0.
Finalement, le modèle linéaire affiche également des résultats décevants. Si ces derniers sont comparés aux résultats des tests à l’intérieur des échantillons, la qualité de
l’information fournie au modèle est visiblement cruciale.
6
Conclusion
56
Est-ce qu’il est possible de prévoir la tendance et la volatilité future du taux de change ?
Cette question qui se veut naïve ne l’est pas. Les données économiques semblent très influentes mais étant donné leur comportement non linéaire, il est difficile de bien les utiliser.
En effet, comme il a été vu dans les tests de précisions de prévisions, un modèle linéaire
va fonctionner de manière adéquate pour un horizon plus court. Cependant, pour un horizon plus long (90 périodes dans le cas échéant), l’aspect dynamique de la relation entre
le taux de change et ses variables explicatives va se manifester et va rendre les prévisions
imprécises.
Pour pallier les limites, le modèle linéaire à transition lisse (MLTL) a été proposé. En
offrant la possibilité à la relation entre les variables explicatives et la devise canadienne
de changer selon les indicateurs économiques, le modèle a tenté de mettre en place une
dynamique assez flexible et utilisable à des fins de prévisions, autant sur la tendance que
sur la volatilité. De plus, des tests ont été conduits pour estimer les gains en performance
de ce modèle.
Ensuite, une fois les modèles estimés, les premières différences ont resurgi. Les premiers
résultats, portant sur tout l’échantillon, ont été très concluants. Les tests d’hypothèses
ainsi que les gains sur les mesures de performance au niveau de la tendance étaient unanimes, le MLTL apportait une contribution non négligeable. Le modèle linéaire, quant
à lui, surclassait également la marche aléatoire, laissant croire que cette dernière n’était
pas appropriée pour les statistiques à l’intérieur de l’échantillon. Malgré les différences
importantes entre les approches et la nature des données, Kilian et Taylor arrivaient sensiblement à la même conclusion : les taux de change deviennent plus faciles à prévoir pour
de longs horizons, par conséquent, le rejet du modèle de la marche aléatoire se fait avec
plus de certitude lorsque l’horizon allonge. Ils attribuaient ces résultats à la non linéarité
des taux de change par rapport aux variables économiques sur lesquelles les prévisions se
basent. Le MLTL a tenté d’exploiter cet aspect et les résultats pour l’intérieur de l’échantillon semblent indiquer qu’il a réussi.
Kilian et Taylor ont conduit la même expérience, mais sur des données hors de l’échantillon et ils ont noté une baisse radicale de la performance. En effet, ils ont conclu que
malgré l’aspect non linéaire, surclasser la marche aléatoire pour la prévision en temps
réel allait rester hors de portée dans un futur proche, et ce, malgré qu’ils obtiennent des
57
résultats plus encourageants pour de longs horizons. Alors que ceux-ci traitaient principalement de l’erreur quadratique moyenne des prévisions, les résultats présentés dans ce
mémoire à ce chapitre leur donnent raison. En effet, la seule valeur p significative fut pour
un horizon d’une journée ce qui semble indiquer que le MLTL n’apporte tout simplement
pas de gains en terme de prévision des taux de change (excepté pour h = 1). Kilian et
Taylor ont attribué ce résultat (pour les longs horizons) au fait qu’ils possédaient trop peu
de données. Dans le cas échéant, la nature des données (journalières) est probablement,
du moins en partie, la cause. De plus, la trop petite période couverte a fort possiblement
été problématique.
Cependant, les résultats des tests de direction ont été concluants et cela laisse croire
qu’il pourrait exister une stratégie d’investissement exploitant cet aspect. Cela pourrait
être l’objet d’une prochaine recherche. Notons cependant que les résultats obtenus sont
encourageants. En effet, l’exercice a été fait de manière très informelle en fin d’annexe.
Il y a plusieurs limites à cette étude. Outre celles déjà mentionnées, la normalité des
erreurs et l’absence de dépendance entre celles-ci sont deux hypothèses clairement violées.
Une amélioration possible serait d’incorporer la distribution normale généralisée ou tout
simplement la distribution t. Quant’à la corrélation des erreurs, les modèles, dans le cadre
de ce mémoire, ont été estimés en première différence ce qui peut avoir un impact majeur
dans la corrélation des erreurs. Ajoutons également le nombre de régimes, ce dernier a été
fixé à deux dans le cadre de ce mémoire. Un troisième régime pourrait avoir un impact
positif. Cependant, le prix se ferait sentir lors de l’estimation où la précision des paramètres serait probablement diminuée de façon importante.
Finalement, pour répondre à la fameuse question, l’information du marché peut jouer
un rôle phénoménal dans la prévision du taux de change américain et il ne faut pas la
négliger (comme dans le cas de la marche aléatoire). Cependant, il est dangereux de s’en
servir sans être certain de la dynamique entre celle-ci et la variable modélisée. Ceci découle
cependant de l’art et de nombreux progrès restent à venir.
7
7.1
58
Annexe
Les dérivées de la fonction de vraisemblance
l(Θ|Y ) =
n
X
1
p
exp − 2 (yt − Xβt )
2
2σt
2πσt
log
i=1
∝ −0.5
= −0.5
1
n
X
i=1
n
X
log σi2 − 0.5
2 !
n
X
(yi − µi )2
i=1
σi2
n
X
log Υi σi2 + (1 − Υi )σ22 − 0.5
(yi − µi )2
+ (1 − Υi )σ22
Υi σi2
i=1
i=1
∂l(Θ|Y )
∂l(Θ|Y )
2σ1
=
∂σ1
∂σ12
n
n
X
X
∂l(Θ|Y )
Υi
Υi (yi − µi )2
=
−0.5
+
0.5
∂σ12
Υi σi2 + (1 − Υi )σ22
(Υi σi2 + (1 − Υi )σ22 )2
i=1
i=1
= −0.5
∂l(Θ|Y )
=
∂σ1
−
n
X
Υi
i=1
n
X
Υi (yi − µi )2
(σi2 )2
!
n
Υi X Υi (yi − µi )2
+
σ1
σi2 i=1
(σi2 )2
i=1
n
X
σi2
+ 0.5
i=1
par symétrie...
∂l(Θ|Y )
=
∂σ2
−
n
X
1 − Υi
i=1
σi2
+
n
X
(1 − Υi )(yi − µi )2
i=1
(σi2 )2
!
σ2
n
∂l(Θ|Y ) X yi − µi
=
∂µ
σ2
i=1
mais par définition,
∂l(Θ|Y )
∂l(Θ|Y ) ∂µ ∂µ1
=
∂β1,j
∂µ ∂µ1 ∂β1,j
∂µ
= Υi
∂µ1
∂µ1
= Xi,j pour la sommation en i
∂β1,j
n
∂l(Θ|Y ) X Υi Xi,j (yi − µi )
=
∂β1,j
σ2
i=1
et par symétrie
n
∂l(Θ|Y ) X (1 − Υi )Xi,j (yi − µi )
=
∂β2,j
σ2
i=1
!
finalement, pour les αk dans Υi = Φ
X
k
en réécrivant l(Θ|Y )...
αk Zi,k
59
X (yi − Υi (µ1 − µ2 ) − µ2 )2
log Υi (σ12 − σ22 ) + σ22 − .5
Υi (σ12 − σ22 ) + σ22
i
i
∂l(Θ|Y ) X ∂l(Θ|Y ) ∂Υi
mais
=
αk
∂Υi ∂αk
i
l(Θ|Y ) ∝ −.5
∂l(Θ|Y )
= 0.5
αk
7.2
X
X 2(µ1 − µ2 )(yi − µi ) − (σ 2 − σ 2 )
1
i
2
σi2
+
(σ12
−
σ22 )(yi
σi4
2
− µi )


X
Φ0 
αj Zi,j  Zi,k
j
Les dérivées deuxièmes de la fonction de vraisemblance
∂ 2 l(Θ|Y )
=
∂(σ1 )2
∂ 2 l(Θ|Y )
=
∂(σ2 )2
∂ 2 l(Θ|Y )
=
∂σ1 σ2
X Υ2
X Υ2 (yi − µi )2
i
i
2
−4
2
(σ
)
(σi )3
i
i
i
!
∂l(Θ|Y )
∂(σ12 )
!
X (1 − Υi )2
X (1 − Υi )2 (yi − µi )2
∂l(Θ|Y )
2
−4
σ22 + 2
2 )2
3
(σ
(σ
)
∂(σ22 )
i
i
i
i
!
X Υi (1 − Υi )
X Υi (1 − Υi )(yi − µi )2
σ1 σ2
2
−4
(σi )2
(σi )3
i
i
σ12 + 2
X Υ2 Xi,j (yi − µi )
∂ 2 l(Θ|Y )
i
= −2σ1
∂σ1 β1,j
(σi2 )2
i
∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y )
,
,
se trouve en modifiant Υ2i et σ1 par un facteur approprié
∂σ22 β1,j ∂σ12 β2,j ∂σ22 β2,j
X Υ2 Xi,j Xi,k
∂ 2 l(Θ|Y )
i
=−
∂β1,j β1,k
σi2
i
∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y ) ∂ 2 l(Θ|Y )
,
,
se trouve en modifiant Υ2i par un facteur approprié
∂β1,j β2,k ∂β2,j β1,k ∂β2,j β2,k


X
∂ 2 l(Θ|Y ) X Xi,j (yi − µi − Υi (µ1 − µ2 )) Υi (σ12 − σ22 )Xi,j (yi − µi )
0
=
−
Φ
αj Zi,j  Zi,k
∂β1,j αk
σi2
(σi2 )2
i
j


2
2
2
X
X
∂ l(Θ|Y )
Xi,j (µi − yi − Υi (µ1 − µ2 )) Υi (σ1 − σ2 )Xi,j (yi − µi )
=
−
Φ0 
αj Zi,j  Zi,k
2
2 )2
∂β2,j αk
σ
(σ
i
i
i
j
∂ 2 l(Θ|Y ) X 0.5Υi (σ12 − σ22 ) 0.5 Υ(µ1 − µ2 )(yi − µi ) Υ(σ12 − σ 2 )(yi − µi )2
=
(
− 2 −
−
∂σ1 αk
(σi2 )2
σi
(σi2 )2
(σi2 )3
i
60


X
0.5(y − µi )2
)2σ1 Φ0 
αj Zi,j  Zi,k
+
(σi2 )2
j
∂ 2 l(Θ|Y ) X 0.5Υi (σ12 − σ22 ) 0.5 Υ(µ1 − µ2 )(yi − µi ) Υ(σ12 − σ 2 )(yi − µi )2
+ 2 −
−
=
(
∂σ2 αk
(σi2 )2
σi
(σi2 )2
(σi2 )3
i


X
0.5(y − µi )2
)2σ2 Φ0 
−
αj Zi,j  Zi,k
2
2
(σi )
j
X ∂ 2 l(Θ|Y ) ∂Υi ∂Υi
∂ 2 l(Θ|Y ) X ∂l(Θ|Y ) ∂ 2 Υi
=
+
∂αj αk
∂Υi ∂αk αj
∂Υ2i
∂αj ∂αk
i
i
X ∂ 2 l(Θ|Y ) ∂Υi ∂Υi
X 0.5(σ 2 − σ 2 )2
(µ1 − µ2 )2
2(σ12 − σ22 )(µ1 − µ2 )(y − µi )
1
2
=
(
−
−
∂Υ2i
∂αj ∂αk
(σi2 )2
σi2
(σi2 )2
i
i
!2
(σ12 − σ22 )2 (y − µi )2 0 X
)Φ
αl Zi,l Zi,j Zi,k
−
(σi2 )3
l
X ∂l(Θ|Y ) ∂ 2 Υi
X 2(µ1 − µ2 )(yi − µi ) − (σ 2 − σ 2 ) (σ 2 − σ 2 )(yi − µi )2 1
2
2
= 0.5
+ 1
2
∂Υ
∂α
α
σ
σi4
i
k
j
i
i
i


X
Φ00 
αj Zi,j  Zi,j Zi,k
j
7.3
Le retrait des variables explicatives
– Étape 1 : retrait de la variable S&P500 (Valeur p de 48.90%)
– Étape 2 : retrait de la différence des taux d’intérêt sur 6 mois (Valeur p de 39.75%)
– Étape 3 : retrait du prix du baril d’huile (Valeur p de 24.63%)
– Étape 4 : retrait de la différence des taux d’intérêt sur 1 mois (Valeur p de 21.50%)
– Étape 5 : retrait de la différence des taux d’intérêt sur 3 mois (Valeur p de 25.76%)
– Étape 6 : retrait de la différence des taux d’intérêt sur 20 ans (Valeur p de 5.75%)
7.4
La précision des prévisions
Les prévisions obtenues à partir des trois modèles sont illustrées ici pour une période
de 50 jours. Lorsque la prévision du temps t est d’un horizon de h jours, elle a été conduite
au temps t − h en conditionnant sur Ft−1−h . Notons que seulement 50 jours sont couverts
dans les graphiques suivants. La raison est que pour une grande période, il était difficile
61
de distinguer les différentes séries.
Figure 10 – Le modèle de la marche aléatoire
Il est donc possible de remarquer, dans le cas du MLTL, que les prévisions de longs
horizons sont très proches de la série du taux de change nominal. Dans tous les cas, les
prévisions semblent être en retard sur la série originale.
62
Figure 11 – Le modèle linéaire
Figure 12 – Le modèle linéaire à transition lisse
7.5
Les relations linéaires implicites des modèles
63
Les figures suivantes représentent les relations changeantes entre le taux de change et
les variables explicatives.
Figure 13 – Le coefficient de µ en fonction du temps
Figure 14 – Le coefficient de AR(1) en fonction du temps
64
Figure 15 – Le coefficient de P P A en fonction du temps
Figure 16 – Le coefficient de ∆r en fonction du temps
Figure 17 – Le coefficient de l’or en fonction du temps
65
Figure 18 – Le coefficient du TSX en fonction du temps
Figure 19 – La volatilité du MLTL dans le temps
7.6
66
L’EQMP hors de l’échantillon
Horizons
ML (Ft−1 )
MLTL (Ft−1 )
1
0.987
0.956
2
0.994
0.990
3
1.001
1.009
7
1.000
0.992
30
1.145
0.917
90
1.211
0.903
Table 15 – Le ratio des écarts quadratiques moyens pour les prévisions des ML et MLTL
sur MA à l’extérieur de l’échantillon
MA = Marche aléatoire, L = Linéaire, MLTL = Modèle linéaire à transition lisse
7.7
Les résultats du test des quantiles
Les hypothèses formelles sont :
– H0 : P̄ = α
– H1 : P̄ 6= α
7.7.1
Marche aléatoire
Horizons
1
Proportion
Statistique normalisée
Valeur P
7.81%
5.373
< 0.001
Proportion
Statistique normalisée
Valeur P
21.88%
6.448
< 0.001
Proportion
Statistique normalisée
Valeur P
56.82%
3.521
< 0.001
2
3
α = 0.01
6.53%
6.39%
4.308
3.544
< 0.001 < 0.001
α = 0.1
19.74%
20.88%
5.064
5.13
< 0.001 < 0.001
α = 0.5
59.09%
61.36%
4.320
5.016
< 0.001 < 0.001
7
30
90
7.24%
2.394
0.017
5.4%
1.105
0.269
12.07%
1.235
0.216
23.58%
3.953
< 0.001
14.91%
0.856
0.392
21.59%
1.009
0.313
60.65%
3.480
< 0.001
48.15%
-0.286
0.775
49.86%
-0.001
0.992
Table 16 – Proportion des données hors de l’intervalle de confiance de niveau α pour la
MA
67
7.7.2
Modèle linéaire
Horizons
1
Proportion
Statistique normalisée
Valeur P
7.95%
5.325
< 0.001
Proportion
Statistique normalisée
Valeur P
22.02%
6.726
< 0.001
Proportion
Statistique normalisée
Valeur P
55.68%
2.960
< 0.001
2
3
α = 0.01
6.68%
7.24%
4.334
4.188
< 0.001 < 0.001
α = 0.1
21.73%
22.59%
5.687
5.465
< 0.001 < 0.001
α = 0.5
58.95%
65.2%
4.445
6.748
< 0.001 < 0.001
7
30
90
10.37%
3.502
< 0.001
16.62%
2.574
0.010
39.06%
2.480
0.013
27.56%
4.793
< 0.001
31.68%
2.930
0.003
57.24%
3.233
0.001
64.91%
5.149
< 0.001
64.77%
2.317
0.021
76.99%
2.820
0.005
Table 17 – Proportion des données hors de l’intervalle de confiance de niveau α pour le
ML
7.7.3
Modèle linéaire à transition lisse
Horizons
1
Proportion
Statistique normalisée
Valeur P
5.54%
4.673
< 0.001
Proportion
Statistique normalisée
Valeur P
18.18%
5.175
< 0.001
Proportion
Statistique normalisée
Valeur P
53.69%
1.920
0.0549
2
3
α = 0.01
7.1%
10.51%
4.932
6.321
< 0.001 < 0.001
α = 0.1
24.01%
29.4%
7.374
7.932
< 0.001 < 0.001
α = 0.5
60.94%
64.91%
5.083
7.284
< 0.001 < 0.001
7
30
90
20.45%
6.636
< 0.001
37.36%
6.346
< 0.001
64.35%
7.534
< 0.001
44.46%
10.990
< 0.001
55.68%
8.490
< 0.001
75.57%
10.222
< 0.001
76.14%
11.911
< 0.001
82.1%
11.578
< 0.001
90.34%
15.320
< 0.001
Table 18 – Proportion des données hors de l’intervalle de confiance de niveau α pour le
MLTL
7.8
Stratégie d’investissement basée sur le test de la direction
68
Note : Cette sous-section ne se veut pas rigoureuse ou formelle. Une stratégie simple
va être développée et exécutée sur les données hors de l’échantillon. Elle est la suivante :
– Si le modèle prédit une hausse de la valeur du dollar canadien
– Vendre le dollar américain si le capital actuel est en dollar américain
– Conserver le dollar canadien dans le cas inverse
– Si le modèle prédit une baisse de la valeur du dollar canadien, procéder de la façon
contraire
– Une fois la transaction complétée, investir son argent au taux sans risque de la
devise correspondante.
Les hypothèses :
– La stratégie n’est pas autofinancée
– Le capital initial (et final) est en dollars canadiens
– Aucune friction (aucun écart acheteur-vendeur, aucuns frais)
– Les transactions se font aux prix observés en fin de journée
– Le taux court utilisé est celui des obligations gouvernementales de 1 mois
Les résultats (en log-rendement annualisés) :
Horizons
Marche aléatoire
Modèle linéaire
MLTL
1
0.0115
0.0676
0.0821
2
-0.0576
0.0354
0.0709
3
0.0620
0.0131
0.0831
7
0.1026
-0.0125
0.0204
30
0.0414
0.0205
0.0360
Table 19 – Résultat d’une stratégie d’investissement
Quelques références :
– Dollar canadien et taux d’intérêt : 0.0098
– Dollar américain et taux d’intérêt : 0.0237
– S&P500 : -0.1143
– S&P/TSX : -0.0541
90
-0.0117
-0.0481
-0.0481
Références
69
[1] Rate inflation. http ://www.rateinflation.com.
[2] Q.F. Akram. Commodity prices, interest rates and the dollar. Energy Economics,
31(6) :838–851, 2009.
[3] C. Alexander and E. Lazar. Normal mixture garch (1, 1) : Applications to exchange
rate modelling. Journal of Applied Econometrics, 21(3) :307–336, 2006.
[4] R. A. Amano and S. van Norden. Oil prices and the rise and fall of the us real
exchange rate. Journal of International Money and Finance, 17(2) :299–316, April
1998.
[5] R.A. Amano and S. Van Norden. Terms of trade and real exchange rates : the
canadian evidence. Journal of International Money and Finance, 14(1) :83–104,
1995.
[6] A. Benassy-Quere and V. Mignon. Oil and the dollar : a two-way game. La Lettre
du CEPII, (250), 2005.
[7] N.P.B. Bollen. Valuing options in regime-switching models. The Journal of Derivatives, 6(1) :38–49, 1998.
[8] T. Bollerslev. Generalized autoregressive conditional heteroskedasticity. Journal of
econometrics, 31(3) :307–327, 1986.
[9] KS Chan and H. Tong. On estimating thresholds in autoregressive models. Journal
of time series analysis, 7(3) :179–190, 1986.
[10] Y.W. Cheung, M.D. Chinn, and A.G. Pascual. Empirical exchange rate models of
the nineties : Are any fit to survive ? Journal of International Money and Finance,
24(7) :1150–1175, 2005.
[11] Y.W. Cheung and U.G. Erlandsson. Exchange rates and markov switching dynamics.
Journal of Business and Economic Statistics, 23(3) :314–320, 2005.
[12] T.E. Clark and M.W. McCracken. Tests of equal forecast accuracy and encompassing
for nested models. Journal of Econometrics, 105(1) :85–110, 2001.
[13] T.E. Clark and M.W. McCracken. Testing for unconditional predictive ability. Documents de travail, 2010.
[14] M.P. Clements, D. Hendry, et al. Forecasting with difference-stationary and trendstationary models. The Econometrics Journal, 4(1) :1–19, 2001.
[15] Département de l’énergie Américain. U.s. department of energy. http ://energy.gov.
70
[16] F.X. Diebold and R.S. Mariano. Comparing predictive accuracy. Journal of business
and economic statistics, 20(1) :134–144, 2002.
[17] R. Dornbusch. Expectations and exchange rate dynamics. The Journal of Political
Economy, 84(6) :1161–1176, 1976.
[18] Banque du Canada. Banque du canada. http ://www.bankofcanada.ca.
[19] Département
du
Trésor
Américain.
U.s.
department
of
the
treasury.
http ://www.treasury.gov.
[20] C. Engel and J.D. Hamilton. Long swings in the dollar : Are they in the data and
do markets know it ? The American Economic Review, 80(4) :689–713, 1990.
[21] R.F. Engle. Autoregressive conditional heteroscedasticity with estimates of the variance of united kingdom inflation. Econometrica : Journal of the Econometric Society, pages 987–1007, 1982.
[22] R.F. Engle. Wald, likelihood ratio, and lagrange multiplier tests in econometrics.
Handbook of Econometrics, 2 :775–826, 1984.
[23] M.D.D. Evans and J.R. Lothian. The response of exchange rates to permanent and
transitory shocks under floating exchange rates. Journal of International Money and
Finance, 12(6) :563–586, 1993.
[24] D. Ferraro, K. Rogoff, and B. Rossi. Can oil prices forecast exchange rates ? Document
de travail, 2011.
[25] J.A. Frankel. On the mark : A theory of floating exchange rates based on real interest
differentials. The American Economic Review, 69(4) :610–622, 1979.
[26] R. Giacomini and H. White. Tests of conditional predictive ability. Econometrica,
74(6) :1545–1578, 2006.
[27] W.H. Greene and C. Zhang. Econometric analysis, volume 5. Prentice hall New
Jersey, 2003.
[28] Ricardo Gutierrez-Osun.
Introduction to pattern analysis.
http ://re-
search.cs.tamu.edu/prism/rgo.htm.
[29] D.I. Harvey, S.J. Leybourne, and P. Newbold. Tests for forecast encompassing.
Journal of Business & Economic Statistics, pages 254–259, 1998.
[30] Kitco Metals Inc. Kitco. http ://www.kitco.com/.
[31] R. Issa, R. Lafrance, and J. Murray. The turning black tide : energy prices and the
canadian dollar. Canadian Journal of Economics/Revue canadienne d’économique,
41(3) :737–759, 2008.
71
[32] M. Johansson. Tar models and real exchange rates. Documents de travail, 2001.
[33] G. Kaminsky. Is there a peso problem ? evidence from the dollar/pound exchange
rate, 1976-1987. The American Economic Review, 83(3) :450–472, 1993.
[34] L. Kilian and M.P. Taylor. Why is it so difficult to beat the random walk forecast
of exchange rates ? Journal of International Economics, 60(1) :85–107, 2003.
[35] H.W. Kuhn and A.W. Tucker. Nonlinear programming. In Second Berkeley symposium on mathematical statistics and probability, volume 1, pages 481–492, 1951.
[36] J.C. Lagarias, J.A. Reeds, M.H. Wright, and P.E. Wright. Convergence properties
of the nelder-mead simplex method in low dimensions.
[37] W.D. Lastrapes. Sources of fluctuations in real and nominal exchange rates. The
review of economics and statistics, pages 530–539, 1992.
[38] AJ Lawrance and NT Kottegoda. Stochastic modelling of riverflow time series.
Journal of the Royal Statistical Society. Series A (General), pages 1–47, 1977.
[39] T. C. Lee. Nonlinear methods in econometrics : S.m. goldfeld and r.e. quandt,
(north-holland publ. co., amsterdam and london, 1972). Journal of Econometrics,
1(4) :399–401, December 1973.
[40] G.M. Ljung and G.E.P. Box. On a measure of lack of fit in time series models.
Biometrika, 65(2) :297–303, 1978.
[41] M.W. McCracken. Asymptotics for out-of-sample tests of causality. Document de
travail, 1999.
[42] W.K. Newey and K.D. West. A simple, positive semi-definite, heteroskedasticity
and autocorrelation consistent covariance matrix. Econometrica : Journal of the
Econometric Society, pages 703–708, 1987.
[43] Ahdi Noomen Ajm and Lanouar Charfeddine. The tunisian stock market : A regime
switching approach. Documents de travail, 2011.
[44] M. Obstfeld and A.M. Taylor. Nonlinear aspects of goods-market arbitrage and
adjustment : Heckscher’s commodity points revisited, 1997.
[45] J. Shao. Mathematical statistics. Springer texts in statistics. Springer, 2003.
[46] M.P. Taylor. Real exchange rates and purchasing power parity : mean-reversion in
economic thought. Applied Financial Economics, 16(1-2) :1–17, 2006.
[47] T. Teräsvirta. Modelling economic relationships with smooth transition regressions.
Handbook of Applied Economic Statistics, 1998.
72
[48] R.S. Tsay. Testing and modeling threshold autoregressive processes. Journal of the
American Statistical Association, pages 231–240, 1989.
[49] D. van Dijk, T. Teraesvirta, and P.H. Franses. Smooth transition autoregressive
models ?a survey of recent developments. 2002.
[50] Richard Williams. Serial correlation. http ://www.nd.edu/ rwilliam/stats2/.

Documents pareils