Modèles GARCH et à volatilité stochastique
Transcription
Modèles GARCH et à volatilité stochastique
Modèles GARCH et à volatilité stochastique1 Christian FRANCQ Jean-Michel ZAKOÏAN 14 décembre 2009 1 Correction des exercices sur http://perso.univ-lille3.fr/~cfrancq Chapitre 1 Introduction Les modèles linéaires occupent une place centrale dans la théorie et le traitement des séries temporelles. Ils s’appuient sur des concepts tels que la stationnarité, l’autocovariance, l’innovation dont nous rappelons, dans ce chapitre, les principales propriétés et utilisations. Nous noterons (Ω, F , P ) un espace probabilisé, sur lequel nous considérerons une suite de variables aléatoires réelles (Xt )t∈Z . Une telle suite est appelée série temporelle et constitue un exemple de processus stochastique à temps discret. 1.1 Processus stationnaires La stationnarité joue un rôle majeur en séries temporelles car elle remplace de manière naturelle l’hypothèse d’observations iid (indépendantes et identiquement distribuées) en statistique standard. Garantissant que l’accroissement de la taille de l’échantillon s’accompagne d’une augmentation du même ordre de l’information, la stationnarité est à la base d’une théorie asymptotique générale. On considère généralement deux notions de stationnarité. Définition 1.1 (Stationnarité stricte) Le processus (Xt ) est dit strictement stationnaire si les vecteurs (X1 , . . . , Xk )′ et (X1+h , . . . , Xk+h )′ ont même loi jointe, pour tout entier k et tout entier relatif h. La notion suivante peut sembler moins exigeante car elle n’impose de contraintes qu’aux deux premiers moments des variables Xt , mais contrairement à la stationnarité stricte, elle requiert l’existence de ceux-ci. 3 1.1 Processus stationnaires Définition 1.2 (Stationnarité au second-ordre) Le processus (Xt ) est dit stationnaire au second-ordre si (i) EXt2 < ∞ ∀t ∈ Z, (ii) EXt = m ∀t ∈ Z, (iii) Cov(Xt , Xt+h ) = γ(h) ∀t, h ∈ Z. La fonction γ(·) (resps. ρ(·) := γ(·)/γ(0)) est appelée fonction d’autocovariance (resp. d’autocorrélation) de (Xt ). L’exemple le plus simple de processus stationnaire au second-ordre est celui du bruit blanc. Ce processus est particulièrement important car il permet de construire des processus stationnaires plus complexes. Définition 1.3 (Bruit blanc faible) Le processus (ǫt ) est appelé bruit blanc faible s’il vérifie, pour une constante positive σ 2 : (i) Eǫt = 0 ∀t ∈ Z, (ii) Eǫ2t = σ 2 ∀t ∈ Z, (iii) Cov(ǫt , ǫt+h ) = 0 ∀t, h ∈ Z, h 6= 0. Remarque. Il importe de noter qu’aucune hypothèse d’indépendance n’est faite dans la définition du bruit blanc faible. Les variables aux différentes dates sont seulement non corrélées et la distinction est cruciale en particulier pour les modèles de séries financières. Il est parfois nécessaire de remplacer l’hypothèse (iii) par l’hypothèse plus forte (iii’) les variables ǫt et ǫt+h sont indépendantes. On parle alors de bruit blanc fort. Estimation des autocovariances La théorie classique des séries temporelles est centrée sur la structure du secondordre des processus. Les processus stationnaires gaussiens sont complètement caractérisés par leur moyenne et leur fonction d’autocovariance. Pour les processus non gaussiens, il est fréquent, à partir d’une réalisation de longueur n de la série, soit X1 , . . . , Xn , de chercher à estimer la fonction d’autocovariance du processus sous-jacent afin d’avoir une première idée de sa structure de dépendance temporelle. Cette étape est préliminaire à toute construction d’un modèle approprié. On 4 Introduction utilise généralement pour estimer γ(h), l’autocovariance empirique définie, pour 0 ≤ h < n par n−h γ̂(h) = 1X (Xj − X)(Xj+h − X) := γ̂(−h), n j=1 P où X = 1/n nj=1 Xj désigne la moyenne empirique. On définit de manière analogue la fonction d’autocorrélation empirique par ρ̂(h) = γ̂(h)/γ̂(0) pour |h| < n. Les estimateurs précédents sont biaisés mais asymptotiquement sans biais. Il existe d’autres estimateurs similaires de la fonction d’autocovariance pos-sédant les mêmes propriétés asymptotiques (par exemple en remplaçant 1/n par 1/(n − h)). Cet estimateur peut cependant être préféré à d’autres car la matrice (γ̂(i − j)) est semi-définie positive (cf Brockwell et Davis (1991), p.221). Bien que définie pour |h| < n, la fonction d’autocovariance empirique fournit évidemment un estimateur très pauvre de γ(h) pour des valeurs de h proches de n. Box et Jenkins (1994), p.32, recommandent à titre indicatif de n’utiliser ces quantités que si n > 50 et pour h ≤ n/4. Il est souvent important (par exemple pour la sélection de modèles) de déterminer si les autocovariances empiriques sont significativement différentes de zéro au-delà d’un certain rang. Pour cela il est nécessaire d’estimer la structure de covariance de ces autocovariances empiriques. On a le résultat suivant (voir par exemple Brockwell et Davis (1991), p. 226) Théorème 1.1 Si (Xt ) est un processus linéaire, c’est à dire s’il satisfait Xt = ∞ X φj ǫt−j j=−∞ où (ǫt ) est une suite de variables iid, telles que E(ǫt ) = 0, et où P∞ j=−∞ E(ǫ2t ) = σ 2 , E(ǫ4t ) = ησ 4 < ∞ |φj | < ∞, on a les formules de Bartlett : lim nCov{γ̂(h), γ̂(k)} = (η − 3)γ(h)γ(k) n→∞ + ∞ X i=−∞ γ(i)γ(i + k − h) + γ(i + k)γ(i − h). (1.1) 5 1.2 Modèles ARMA et ARIMA Les hypothèses du théorème sont contraignantes car elles requièrent que le bruit (ǫt ) soit fort. Des extensions (permettant de relâcher l’hypothèse de linéarité) ont été proposées mais en supposant nuls tous les cumulants d’ordre 4 (le terme (η −3)γ(h)γ(k) disparaît alors). Pour de nombreux processus non linéaires (en particulier les processus ARCH étudiés dans la suite du cours), la covariance asymptotique des autocovariances peut être très différente de (1.1) et l’utilisation des formules de Bartlett (1.1) peut conduire à des erreurs de spécification (voir chapitre 3). 1.2 Modèles ARMA et ARIMA L’analyse classique des séries temporelles repose sur la construction de modèles du processus stochastique sous-jacent. Celui-ci est ensuite utilisé d’un point de vue statistique, que ce soit pour analyser la structure “causale” du processus ou pour produire des prévisions “optimales”. Une classe très importante de modèles utilisés pour la prévision des processus stationnaires est celle des AutoRégressifs-Moyenne Mobile (ARMA). Ceux-ci découlent naturellement d’un résultat fondamental dû à Wold (1938) qui peut s’énoncer comme suit : tout processus “purement non déterministe” 1 , stationnaire au second ordre et tel que E(Xt ) = 0, admet une écriture moyenne mobile infinie Xt = ǫt + ∞ X ci ǫt−i , (1.2) i=1 où (ǫt ) est le processus des innovations linéaires de (Xt ), c’est à dire ǫt = Xt − E(Xt |HX (t − 1)), (1.3) où HX (t − 1) désigne l’espace de Hilbert engendré par les aléatoires P variables 2 2 Xt−1 , Xt−2 , . . . . La suite de coefficients (ci ) est telle que i ci < ∞. Si maintenant on tronque la série précédente, on obtient le processus suivant Xt (q) = ǫt + q X ci ǫt−i . i=1 1 T∞ Un processus stationnaire (Xt ) est dit purement non déterministe si et seulement si n=−∞ HX (n) = {0}, où HX (n) désigne, dans l’espace de Hilbert des variables réelles centrées et de carré intégrable, le sous-espace engendré par les limites des combinaisons linéaires des variables Xn−i , i ≥ 0. Voir Brockwell et Davis (1991), p.187-189, pour plus de détails. 2 Dans cette écriture, on identifie la classe d’équivalence E(Xt |HX (t − 1)) avec une variable aléatoire. 6 Introduction appelé moyenne-mobile (moving average) d’ordre q, ou MA(q). On a kXt (q) − P 2 2 2 Xt k2 = Eǫt i>q ci → 0, quand q → ∞. Par suite, l’ensemble des moyennes mobiles finies est dense dans l’ensemble des processus stationnaires au second ordre purement non déterministes. Pour des raisons de parcimonie, on préfère aux pures moyennes mobiles la classe plus générale des autorégressifs- moyenne mobile (ARMA) qui permettent le plus souvent d’obtenir la même précision en utilisant moins de paramètres. Définition 1.4 (Processus ARMA(p, q)) Un processus stationnaire (Xt ) est appelé processus ARMA(p, q) où p et q sont des entiers, si il existe des réels a1 , . . . , ap , b1 , . . . , bq tels que ∀t ∈ Z, Xt + p X i=1 ai Xt−i = ǫt + q X bj ǫt−j , (1.4) j=1 où (ǫt ) est le processus des innovations linéaires de (Xt ). On suppose généralement P que les polynômes autorégressif et moyenne mobile, resP pectivement a(z) = 1 + pi=0 ai z i et b(z) = 1 + qi=0 bi z i n’ont pas de racine commune et que leurs racines sont de module supérieur à 1. L’intérêt principal de cette modélisation et des représentations obtenues en inversant successivement les polynômes a(·) et b(·), est de permettre de calculer les prévisions linéaires optimales du processus de manière beaucoup plus simple que sous la seule hypothèse de stationnarité au second-ordre. Pour des raisons de commodité statistique, les modèles ARMA sont généralement utilisés sous des hypothèses plus fortes sur le bruit que celles de bruit blanc faible. On parle ainsi de modèle ARMA fort lorsque, dans la définition précédente, on fait sur ǫt une hypothèse de bruit blanc fort (indépendant). Cette hypothèse supplémentaire permet en particulier de développer les méthodes d’inférence fondées sur la vraisemblance, mais elle restreint dramatiquement la généralité de la classe des processus ARMA. En effet, l’hypothèse d’ARMA fort revient à supposer que (i) les prévisions optimales du processus sont linéaires ((ǫt ) étant l’innovation forte de (Xt )) et (ii) les intervalles de confiance des prévisions ont une amplitude fonction de l’horizon mais non des observations elles-mêmes. Nous verrons dans la partie suivante que cette conséquence peut être désastreuse, en particulier concernant les séries financières. Terminons cette partie par la propriété caractéristique suivante, donnée ici sans démonstration (voir Brockwell et Davis (1991), p.89-90), que nous utiliserons par la suite. 7 1.3 Séries financières Théorème 1.2 Si (Xt ) est un processus stationnaire au second-ordre, centré, tel que p X γ(h) + ai γ(h − i) = 0, si |h| > q, i=1 alors (Xt ) est un processus ARMA(p, q) vérifiant (1.4). 1.3 Séries financières La modélisation des séries financières est un problème complexe. Cette complexité n’est pas seulement due à la grande variété des séries utilisées (prix d’action, taux d’intérêt, taux de change etc.), à l’importance de la fréquence d’observation (seconde, minute, heure, jour, etc) ou à la disponibilité d’échantillons de très grande taille. Elle tient surtout à l’existence de régularités statistiques (‘faits stylisés’) communes à un très grand nombre de séries financières et difficiles à reproduire artificiellement à partir de modèles stochastiques. Dans un article paru en 1963, Mandelbrot mettait en évidence un ensemble de telles propriétés. Ces régularités empiriques, vérifiées et complétées depuis par de nombreux auteurs, apparaissent plus ou moins nettement en fonction de la fréquence d’observation de la série et de sa nature. Les propriétés que nous présentons ci-dessous valent surtout pour des séries quotidiennes de prix d’action. Soit pt le cours d’un actif à la date t et ǫt = log(pt /pt−1 ) le logarithme du rendement (également appelé rendement). La série (ǫt ) est souvent proche de celle décrivant t−1 les variations relatives des prix : rt = ptp−p , soit ǫt = log(1 + rt ). Ces deux t−1 séries présentent sur celle des prix l’avantage d’être sans unité, ce qui facilite les comparaisons entre plusieurs titres. Les propriétés suivantes ont été abondamment commentées dans la littérature financière. (i) Non stationnarité de pt . Les trajectoires de prix sont généralement proches de celle d’une marche aléatoire sans terme constant (voir par exemple la série de l’indice CAC représentée figure 1.1). En revanche les séries de rendements ont des trajectoires apparemment compatibles avec la stationnarité au second ordre. On constate par exemple sur les figures 1.2 à 1.3 que la série ǫt = log(pt /pt−1 ), où pt désigne le cours de l’indice CAC, est constituée d’oscillations autour de zéro, d’amplitudes très différentes d’une date à l’autre mais de module moyen constant sur des sous-périodes suffisamment longues. (ii) Autocorrélations des carrés des variations de prix. On constate que la série (ǫt ) présente de très faibles autocorrélations, la rendant proche d’un bruit blanc. En revanche les séries des carrés (ǫ2t ) ou des valeurs absolues (|ǫt |) sont souvent fortement 8 4000 2000 3000 prix 5000 6000 7000 Introduction 19/Aug/91 11/Sep/01 21/Jan/08 0 −5 −10 Rendements 5 10 Fig. 1.1 – Indice CAC 40 sur la période 01/03/1990-15/10/2008 (4702 observations). 19/Aug/91 11/Sep/01 21/Jan/08 Fig. 1.2 – Rendements de l’indice CAC 40 (02/03/1990-15/10/2008). 9 1.3 Séries financières autocorrélées (voir la figure 1.4). Ces deux propriétés ne sont pas incompatibles mais montrent que le bruit blanc n’est pas indépendant. (iii) Regroupement des extrêmes (volatility clustering). Les grandes valeurs de |ǫt |, ou fortes variations de prix, tendent à être suivies de grandes valeurs, et les petites de petites. Cette propriété se voit souvent à l’oeil nu sur les trajectoires (voir figure 1.3). On remarque des sous-périodes de forte agitation des prix (on dit que le marché est plus volatil), suivies de sous-périodes beaucoup plus calmes (on parle de faible volatilité). Comme ces sous-périodes sont récurrentes mais se succèdent de façon non périodiques, ceci ne signifie pas que la suite des rendements est incompatible avec un processus stationnaire, et donc en particulier homoscédastique (c’est-à-dire de variance marginale constante). En revanche, puisqu’une forte valeur de ǫ2t−1 semble augmenter la probabilité d’observer une forte valeur pour ǫ2t (avec un signe aussi bien positif que négatif pour ǫt ), la variance de ǫt conditionnellement à ses valeurs passées (parfois appelée volatilité) ne semble pas constante. C’est un phénomène connu sous le nom d’hétéroscédasticité conditionnelle (variance conditionnelle non constante). Il est important de savoir que l’hétéroscédasticité conditionnelle n’est pas incompatible avec l’homoscédasticité marginale, ni même avec la stationnarité. 0 −5 −10 Rendements 5 10 (iv) Queues de distribution épaisses. Lorsque l’on considère les distributions de 21/Jan/08 06/Oct/08 Fig. 1.3 – Rendements de l’indice CAC 40 (02/01/2008-15/10/2008). 10 Introduction probabilité empiriques de séries de rendements, ou de variations de prix, ou encore du logarithme de ces variations de prix, on s’aperçoit généralement que celles-ci ne correspondent pas à une distribution gaussienne. Les tests classiques de normalité tendent à rejeter nettement l’hypothèse d’une distribution normale. Plus précisément, les densités de probabilité de ces séries présentent des queues épaisses (à décroissance plus lente que exp(−x2 /2)) et des pics en zéro (voir la figure 1.5) : elles sont dites leptokurtiques. Une mesure de cet effet est obtenue à partir du coefficient de kurtosis, rapport du moment empirique centré d’ordre 4 et du carré de la variance empirique, qui est asymptotiquement égal à 3 dans le cas gaussien 0.2 0.0 −0.2 ACRE 0.4 Autocorrélations empiriques (ACRE) des rendements 0 5 10 15 20 25 30 35 30 35 Retard 0.2 0.0 −0.2 ACRE 0.4 ACRE des carrés des rendements 0 5 10 15 20 25 Retard Fig. 1.4 – Autocorrélations empiriques (ACRE) des rendements et des carrés des rendements de l’indice CAC 40 (02/01/2008-15/10/2008). 11 1.3 Séries financières et est nettement supérieur pour ces séries. 0.2 0.0 0.1 Densité 0.3 (v) Effets de levier. On nomme ainsi une propriété, remarquée par Brock (1976), d’asymétrie de l’impact des valeurs passées positives et négatives sur la volatilité de la date courante. Ainsi, les valeurs négatives (baisses du cours) tendent à provoquer un accroissement de volatilité supérieur à celui induit par des valeurs positives (hausses des cours) de même amplitude. Empiriquement, on observe souvent une corrélation positive entre ǫ+ t = max(ǫt , 0) et |ǫt+h | (une hausse des rendements laisse présager une hausse des volatilités futures), mais, comme le montre par exemple le tableau 1.1, cette corrélation est généralement moins forte que celle que l’on observe entre −ǫ− t = max(−ǫt , 0) et |ǫt+h | (car une baisse des rendements induit souvent plus de volatilité qu’une hausse). −10 −5 0 5 10 Fig. 1.5 – Estimateur de la densité des rendements du CAC 40 (trait plein) et densité normale ayant pour paramètres la moyenne empirique et la variance empirique des rendements (trait en pointillé). 12 Introduction Tab. 1.1 – Autocorrélations empiriques des rendements ǫt du CAC 40, autocorrélations des valeurs absolues |ǫt |, corrélations empiriques entre ǫ+ t−h et |ǫt |, et − corrélations empiriques entre −ǫt−h et |ǫt | h 1 2 3 4 5 6 7 ρ̂ǫ (h) -0.012 -0.014 -0.047 0.025 -0.043 -0.023 -0.014 ρ̂|ǫ| (h) 0.175 0.229 0.235 0.200 0.218 0.212 0.203 ρ̂(ǫ+ , |ǫ |) 0.038 0.059 0.051 0.055 0.059 0.109 0.061 t t−h − ρ̂(−ǫt−h , |ǫt |) 0.160 0.200 0.215 0.173 0.190 0.136 0.173 − On utilise les notations ǫ+ t = max(ǫt , 0) et ǫt = min(ǫt , 0). (vi) Saisonnalités. Lorsque les marchés ne fonctionnent pas (week-ends, fêtes) la volatilité tend à augmenter, reflètant ainsi l’information accumulée pendant cet arrêt. Pourtant, on constate souvent que cette hausse est moins forte que si l’information s’accumulait à vitesse constante. Notons enfin que l’effet saisonnier est également très présent pour les séries “intra-day”. 1.4 Modèles à variance (conditionnelle) aléatoire Les propriétés précédentes illustrent la difficulté de modéliser les séries financières. Les formulations classiques (de type ARMA) sont inappropriées car centrées sur la structure d’autocovariance des processus. Or, de ce point de vue, la plupart des séries de rendements ne diffèrent guère des bruits blancs. Le fait que les grandes valeurs des carrés des rendements soient généralement précédées de grandes valeurs (indépendamment du signe des rendements) est difficilement compatible avec une variance conditionnelle constante. Ce phénomène est connu sous le nom d’hétéroscédasticité conditionnelle : Var(ǫt | ǫt−1 , ǫt−2 , . . . ) 6≡ cste. De même que de nombreux processus stationnaires au second-ordre ont une espérance conditionnelle non constante, l’hétéroscédasticité conditionnelle est parfaitement compatible avec la stationnarité (au sens strict ou au second ordre). Les processus GARCH étudiés dans ce livre illustreront abondamment ce point. Les modèles introduits dans la littérature économétrique afin de prendre en compte les propriétés particulières des séries financières (variations de prix ou du logarithme des prix, taux d’intérêt etc.) se présentent généralement sous la forme multiplicative ǫt = σt ηt (1.5) 13 1.4 Modèles à variance (conditionnelle) aléatoire où (ηt ) est un processus iid centré de variance unité et (σt ) est une suite de variables telles que : i) σt est mesurable par rapport à une tribu, notée Ft−1 engendrée par le passé de ǫt et, éventuellement, par le présent et le passé d’un processus latent (i.e. inobservable) noté (vt ) ; ii) ηt est indépendant de Ft−1 ; iii) σt > 0. La variable aléatoire σt est appelée volatilité de ǫt . Ainsi, le signe de la variation de prix (signe de ǫt ) est celui de ηt , indépendamment des variations de prix passées. Remarquons dès maintenant que (sous réserve d’existence) E(ǫt ) = E(σt )E(ηt ) = 0 et Cov(ǫt , ǫt−h ) = E(ηt )E(σt ǫt−h ) = 0, ∀h > 0 ce qui fait de (ǫt ) un bruit blanc. La série des carrés présente en revanche des autocovariances non nulles, en général : (ǫt ) n’est donc pas un bruit blanc fort. Les différentes classes de modèles diffèrent par la spécification adoptée pour σt . On distingue - les processus conditionnellement hétéroscédastiques (ou de type GARCH, voir chapitre 2) pour lesquels Ft−1 = σ(ǫs ; s < t) est la tribu engendrée par le passé de ǫt . La volatilité est ici fonction déterministe du passé de ǫt . Les processus de cette classe diffèrent par le choix d’une spécification de cette fonction. Les modèles GARCH standard sont caractérisés par une volatilité fonction affine des valeurs passées de ǫ2t . Ils seront étudiés en détail dans le chapitre 2. - les processus dits à volatilité stochastique pour lesquels Ft−1 est la tribu engendrée par {vt , vt−1 , . . .}, où (vt ) est un bruit blanc fort indépendant de (ηt ). Dans ces modèles, la volatilité est elle-même un processus latent. Le modèle le plus étudié dans cette classe repose sur l’hypothèse que le processus log σt suit un AR(1) de la forme : log σt = ω + φ log σt−1 + vt . où le bruit (vt ) est supposé indépendant de (ηt ). Ils feront l’objet du chapitre 3. - les processus dits à changement de régime stochastique pour lesquels σt = σ(∆t , Ft−1 ), où (∆t ) est un processus latent (inobservable) indépendant de (ηt ). L’état de la variable ∆t est ici assimilable à un régime et, conditionnellement à cet état, la volatilité du processus ǫt est spécifiée comme celle d’un processus GARCH. Le processus (∆t ) est généralement modélisé par une chaîne de Markov à espace d’états fini. On parle alors de modèles à changement de régime markovien. L’étude de cette classe sera effectuée au chapitre 4. 14 1.5 Introduction Exercices 1.1 (Stationnarité, modèles ARMA, bruits blancs) Soit (ηt ) une suite de variables iid centrées et de variance 1 (et si nécessaire de moment d’ordre 4 fini). 1. Les modèles suivants admettent-ils une solution stationnaire ? Si oui déterminer l’espérance et la fonction d’autocorrélation de cette solution. (a) Xt = 1 + 0.5Xt−1 + ηt ; (b) Xt = 1 + 2Xt−1 + ηt ; (c) Xt = 1 + 0.5Xt−1 + ηt − 0.4ηt−1 . 2. Identifier les modèles ARMA compatibles avec les relations de récurrence suivantes, où ρ(·) désigne la fonction d’autocorrélation : (a) ρ(h) = 0.4ρ(h − 1), ∀h > 2 ; (c) ρ(h) = 0.2ρ(h − 2), ∀h > 1. (b) ρ(h) = 0, ∀h > 3 ; 3. Vérifier que les processus suivants sont des bruits blancs et préciser s’il s’agit de bruits faibles ou forts. (a) ǫt = ηt2 − 1 ; (b) ǫt = ηt ηt−1 ; 1.2 (Une propriété de la somme des autocorrélations empiriques) Soit n−h 1X γ̂(h) = γ̂(−h) = (Xt − X n )(Xt+h − X n ), n t=1 h = 0, . . . , n − 1 les autocovariances d’observations réelles quelconques X1 , . . . , Xn . Posons ρ̂(h) = ρ̂(−h) = γ̂(h)/γ̂(0) pour h = 0, . . . , n − 1. Montrer que n−1 X 1 ρ̂(h) = − . 2 h=1 1.3 (Impossible de décider de la stationnarité à partir d’une trajectoire) Montrer que la suite {(−1)t }t=0,1,... peut être la réalisation d’un processus non stationnaire. Montrer qu’elle peut également être la réalisation d’un processus stationnaire. Commenter les conséquences de ce résultat. 15 1.5 Exercices 1.4 (Stationnarité et ergodicité à partir d’une trajectoire) La suite 0, 1, 0, 1, . . . peut-elle être la réalisation d’un processus stationnaire ? d’un processus stationnaire ergodique ? On pourra se référer à l’annexe A pour la définition du concept d’ergodicité. 1.5 (Un bruit blanc faible non fort) Soit (ηt ) une suite iid N (0, 1) et k un entier positif. On pose ǫt = ηt ηt−1 . . . ηt−k . Montrer que (ǫt ) est un bruit blanc faible, mais n’est pas un bruit blanc fort. 1.6 (Variance asymptotique d’autocorrélations empiriques d’un bruit faible) Soit ǫt le bruit blanc défini dans l’exercice 1.5. Calculer limn→∞ nVar ρ̂(h) où h 6= 0 et ρ̂(·) désigne la fonction d’autocorrélation empirique de ǫ1 , . . . , ǫn . Comparer cette valeur avec celle donnée par la formule de Bartlett pour un bruit blanc fort. 1.7 (Représentation ARMA du carré d’un bruit faible) Soit ǫt le bruit blanc défini dans l’exercice 1.5. Montrer que ǫ2t suit un ARMA. Préciser cette représentation ARMA quand k = 1. 1.8 (Variance asymptotique d’autocorrélations empiriques d’un bruit faible) Mêmes questions que dans l’exercice 1.6 pour le bruit blanc faible ǫt = ηt /ηt−k , où (ηt ) est une suite iid telle que Eηt4 < ∞ et Eηt−2 < ∞, et k un entier positif. 1.9 (Solutions stationnaires d’un AR(1)) Soit (ηt )t∈Z une suite iid centrée et de variance σ 2 > 0, et soit a 6= 0. Considérons l’équation AR(1) Xt − aXt−1 = ηt , t ∈ Z. (1.6) 1. Montrer que dans le cas |a| < 1, la série Xt = ∞ X ak ηt−k k=0 converge en moyenne quadratique et presque sûrement, et que c’est l’unique solution stationnaire (1.6). 2. Dans le cas |a| = 1, montrer qu’il n’y a aucune solution stationnaire. 16 Introduction 3. Dans le cas |a| > 1, vérifier que ∞ X 1 Xt = − η k t+k a k=1 est l’unique solution stationnaire de (1.6). 4. Dans le cas |a| > 1, montrer que l’on a la représentation causale 1 Xt − Xt−1 = ǫt , a (1.7) t∈Z où (ǫt )t∈Z est un bruit blanc. 1.10 (L’indice CAC est-il un bruit ?) La Figure 1.6 représente le corrélogramme des rendements de l’indice S&P 500 du 3 janvier 1979 au 30 décembre 2001, ainsi que le corrélogramme du carré de cet indice. Peut-on admettre que cet indice est la réalisation d’un bruit blanc fort ? d’un bruit blanc faible ? 0.1 0.03 0.075 0.02 0.05 0.01 5 -0.01 10 15 20 25 30 35 0.025 h 5 -0.02 -0.025 -0.03 -0.05 10 15 20 25 30 35 h Fig. 1.6 – Les bâtons représentent les autocorrélations empiriques ρ̂(h) (h = 1, . . . , 36) de l’indice S&P 500 du 3 janvier 1979 au 30 décembre 2001 (graphe de gauche), et du carré de √ cet indice (graphe de droite). L’intérieur des traits en pointillé (±1.96/ n, où n = 5804 est le nombre d’observations) constitue une zone où les autocorrélations empiriques d’un bruit blanc fort se trouvent avec une probabilité d’environ 95%. 1.6 Correction des exercices Sur le site http://perso.univ-lille3.fr/~cfrancq De nombreux autres exercices et problèmes corrigés se trouvent dans le livre : Francq, C. et J-M. Zakoïan (2009) : MODELES GARCH : Structure, inférence statistique et applications financières. Economica, collection "économie et statistiques avancées". Chapitre 2 Processus conditionnellement hétéroscédastiques Dans ce chapitre, nous introduisons une classe importante de modèles de l’hétéroscédasticité conditonnelle. 2.1 Processus GARCH(p, q) Les modèles ARCH (autorégressifs conditionnellement hétéroscédastiques) ont été introduits par Engle (1982) et leur extension GARCH (ARCH généralisés) est due à Bollerslev (1986). Leur caractérisation repose essentiellement sur le concept de variance conditionnelle. Dans ces modèles, celle-ci s’écrit comme une fonction affine des valeurs passées du carré de la série. Cette spécification particulière se révèle très fructueuse car elle permet une étude complète des propriétés des solutions tout en étant assez générale. Les modèles GARCH sont en effet susceptibles de capter les propriétés caractéristiques de certaines séries vues dans le chapitre précédent. La structure “linéaire” de ces processus est mise en évidence à travers plusieurs représentations que nous allons détailler. Définitions, représentations Nous donnons une première définition d’un processus GARCH fondée sur les deux premiers moments de ǫt conditionnels à son passé. Définition 2.1 (Processus GARCH(p, q)) On dit que (ǫt ) est un processus GARCH(p, q) si ses deux premiers moments conditionnels existent et vérifient 18 Processus GARCH (i) E (ǫt | ǫu , u < t) = 0, t ∈ Z; (ii) Il existe des constantes ω, αi , i = 1, . . . , q et βj , j = 1, . . . , p telles que σt2 = V (ǫt | ǫu , u < t) = ω + q X αi ǫ2t−i + i=1 p X 2 βj σt−j , j=1 t ∈ Z. (2.1) L’équation (2.1) peut être écrite de manière symbolique sous la forme plus compacte σt2 = ω + α(B)ǫ2t + β(B)σt2 , t ∈ Z, (2.2) 2 où B est l’opérateur retard (B i ǫ2t = ǫ2t−i et B i σt2 = σt−i pour tout entier i), α et β sont les polynômes de degrés q et p : α(B) = q X i αi B , β(B) = i=1 βj B j . j=1 Si β(z) = 0 on a σt2 p X =ω+ q X αi ǫ2t−i (2.3) i=1 et le processus est appelé ARCH(q) 1 . L’innovation du processus ǫ2t est par définition la variable νt = ǫ2t − σt2 . En rem2 plaçant, dans l’équation (2.1), les variables σt−j par ǫ2t−j − νt−j on obtient la représentation ǫ2t =ω+ r X i=1 (αi + βi )ǫ2t−i + νt − p X j=1 βj νt−j , t ∈ Z. (2.4) où r = max(p, q), avec la convention αi = 0 (resp. βj = 0) si i > q (resp. j > p). On retrouve ainsi dans cette équation la structure linéaire des modèles ARMA, permettant par exemple un calcul très simple des prévisions linéaires. Sous des hypothèses supplémentaires (impliquant la stationnarité de ǫ2t ), on peut affirmer que si (ǫt ) est un GARCH(p, q), (ǫ2t ) est un processus ARMA(r, p). En particulier, le carré d’un processus ARCH(q) admet, s’il est stationnaire, une représentation AR(q). Ces représentations ARMA seront utiles pour l’estimation et l’identification 1 Cette spécification est rapidement apparue trop restrictive par rapport au comportement des séries financières. En effet, il est nécessaire pour obtenir une bonne adéquation entre ce modèle et les séries réelles de faire dépendre la variance conditionnelle d’un grand nombre de variables passées. Cela est évidemment possible en choisissant q assez grand mais cette solution n’est pas satisfaisante du point de vue statistique car elle impose d’estimer un grand nombre de coefficients. 19 2.1 Processus GARCH(p, q) des processus GARCH. Elles seront en revanche de peu d’utilité pour l’étude de la stationnarité du processus (ǫt ) car le bruit νt dépend, par construction, du passé de ǫt . Remarque : Nous avons vu au chapitre 1 qu’une propriété caractéristique des séries financières est le fait que les carrés des rendements sont autocorrélés, tandis que les rendements ne le sont pas. La représentation (2.4) montre que les processus GARCH sont bien adaptés à la prise en compte de cette propriété empirique. Si le moment d’ordre 4 de (ǫt ) est fini, la suite des autocorrélations d’ordre k de ǫ2t vérifie une relation de récurrence caractéristique des modèles ARMA. Prenons pour simplifier le cas d’un processus GARCH(1,1). Son carré (ǫ2t ) est alors un ARMA(1,1) et son autocorrélation tend vers zéro proportionnellement à (α1 +β1 )k : pour k > 1 Corr(ǫ2t , ǫ2t−k ) = γ(α1 + β1 )k où γ est une constante indépendante de k. Par ailleurs, les ǫt sont non corrélés d’après le (i) de la définition 2.1. La définition 1 ne fournit pas directement de processus la vérifiant. La définition plus restrictive suivante permettra d’obtenir explicitement des processus solutions. Soit η une loi de probabilité diffuse d’espérance nulle et de variance unité. Définition 2.2 (Processus GARCH(p, q) fort) Soit (ηt ) une suite de variables iid de loi η. On dit que (ǫt ) est un processus GARCH(p, q) au sens fort (relativement à la suite (ηt )) s’il vérifie ǫt = σt ηt P P (2.5) 2 σt2 = ω + qi=1 αi ǫ2t−i + pj=1 βj σt−j où les αi et βj sont des constantes positives et ω est une constante strictement positive. Il est clair qu’un processus GARCH fort tel que σt2 est mesurable par rapport à la tribu σ (ǫu u < t) est un processus GARCH au sens de la Définition 2.1. La réciproque n’est cependant pas vraie. Les processus GARCH au sens de la définition 2.1 sont souvent qualifiés de semiforts depuis l’article de Drost et Nijman (1993) consacré à l’agrégation temporelle. En remplaçant ǫt−i par σt−i ηt−i dans l’équation (2.1) on obtient σt2 =ω+ q X i=1 2 2 αi σt−i ηt−i + p X j=1 2 βj σt−j , (2.6) 20 Processus GARCH que l’on peut écrire σt2 =ω+ r X 2 ai (ηt−i )σt−i (2.7) i=1 où ai (z) = αi z 2 + βi , i = 1, . . . , r. Cette représentation montre que dans le cas d’un GARCH fort, le processus de volatilité vérifie une équation autorégressive, mais avec coefficients aléatoires. Propriétés des trajectoires Par rapport aux modèles usuels de séries temporelles (ARMA), cette structure permet au bruit ǫt d’avoir un ordre de grandeur fonction des variables passées. Ainsi, vont se succéder des périodes à forte volatilité (grandes valeurs en module des ǫt−i et donc de σt2 ) et d’autres où les fluctuations sont de plus faible amplitude. Les simulations des figures 2.6-2.8 mettent bien en évidence cette propriété dite de regroupement de la volatilité (volatility clustering). 2.1.1 Etude de la stationnarité Nous allons chercher sous quelles conditions il existe des processus stationnaires (au sens strict et au second-ordre) vérifiant les définitions 2.1 et/ou 2.2. On s’intéresse plus particulièrement aux solutions non anticipatives du modèle (2.5), c’est-à-dire aux processus (ǫt ) tel que ǫt soit une fonction mesurable des variables ηt−s , s ≥ 0. Nous examinons d’abord le cas du modèle GARCH(1,1) qui peut se traiter avec des techniques élémentaires. On notera, pour x > 0, log+ x = max(log x, 0). Modèle GARCH(1,1) Dans le cas où p = q = 1, le modèle (2.5) s’écrit ǫt = σt ηt σt2 =ω+ αǫ2t−1 + (2.8) 2 βσt−1 , avec ω ≥ 0, α ≥ 0, β ≥ 0. On pose a(z) = αz 2 + β. Théorème 2.1 (Stationnarité stricte du modèle GARCH(1,1) fort) Si −∞ ≤ γ := E log{αηt2 + β} < 0, (2.9) 21 2.1 Processus GARCH(p, q) la série ht = ( 1+ ∞ X ) a(ηt−1 ) . . . a(ηt−i ) ω, i=1 (2.10) √ converge presque sûrement (p.s.) et le processus (ǫt ) défini par ǫt = ht ηt est l’unique solution strictement stationnaire du modèle (2.8). Cette solution est non anticipative et ergodique. Si γ ≥ 0 et ω > 0, il n’existe pas de solution strictement stationnaire. Remarques. 1. Le coefficient γ = E log{a(ηt )} existe toujours dans [−∞, +∞[ car E log+ {a(ηt )} ≤ Ea(ηt ) = α + β. 2. Dans le cas où ω = 0 et γ < 0, il est clair d’après (2.10) que la seule solution strictement stationnaire du modèle est ǫt = 0. Il n’est donc naturel d’imposer ω > 0 dans la pratique. 3. On voit que la condition (2.9) dépend de la loi du processus (ηt ) et qu’elle n’est pas symétrique en α et β. 4. La condition (2.9) implique β < 1. Inversement, si α + β < 1, (2.9) est vérifiée, car par application de l’inégalité de Jensen E log{a(ηt )} ≤ log E{a(ηt )} = log(α + β) < 0. 5. Si (2.9) est satisfaite, elle l’est également pour tout couple (α1 , β1 ) tel que α1 ≤ α et β1 ≤ β. En particulier la stationnarité stricte du modèle GARCH implique celle du modèle ARCH obtenu en supprimant β. 6. Dans le cas ARCH(1) (β = 0), la contrainte de stationnarité stricte s’écrit 0 ≤ α < exp{−E(log ηt2 )}. (2.11) Par exemple dans le cas où ηt ∼ N (0, 1) la condition est : α < 3.56. Preuve du théorème 2.1. Utilisant de manière itérative la seconde équation du modèle (2.8), on obtient, pour N ≥ 1, σt2 2 = ω + a(ηt−1 )σt−1 " # N X 2 = ω 1+ a(ηt−1 ) . . . a(ηt−n ) + a(ηt−1 ) . . . a(ηt−N −1 )σt−N −1 n=1 2 := ht (N) + a(ηt−1 ) . . . a(ηt−N −1 )σt−N −1 . (2.12) 22 Processus GARCH + Le processus limite ht = limN →∞ ht (N) existe dans R = [0, +∞] puisque les termes de la somme sont positifs. De plus, en faisant tendre N vers l’infini dans la relation ht (N) = ω + a(ηt−1 )ht−1 (N − 1), on obtient : ht = ω + a(ηt−1 )ht−1 . Nous allons montrer que ht est presque sûrement finie si et seulement si γ < 0. Supposons γ < 0. On utilise la règle de Cauchy pour les séries à termes positifs. 2 On a " n # X 1 log{a(ηt−i )} → eγ p.s. (2.13) [a(ηt−1 ) . . . a(ηt−n )]1/n = exp n i=1 quand n → ∞, par application de la loi forte des grands nombres à la suite iid (log{a(ηt )}).3 La série définie en (2.10) converge alors presque sûrement dans R, par application de la règle de Cauchy, et le processus limite, (ht ), est à valeurs réelles positives. Par suite, le processus (ǫt ) défini par : ( )1/2 ∞ X p ǫt = ht ηt = ω + a(ηt−1 ) . . . a(ηt−i )ω ηt (2.14) i=1 est strictement stationnaire et ergodique (voir l’appendice A.2, théorème A.1). Il est non anticipatif comme fonction mesurable des variables ηt−i , i ≥ 0. De plus (ǫt ) vérifie le modèle (2.8). Nous montrons maintenant l’unicité. Soit ǫ̃t = σt ηt une solution strictement stationnaire. D’après (2.12) on a 2 σt2 = ht (N) + a(ηt−1 ) . . . a(ηt−N −1 )σt−N −1 . Par suite 2 σt2 − ht = {ht (N) − ht } + a(ηt−1 ) . . . a(ηt−N −1 )σt−N −1 . X 1/n Soit ( an ) une série à termes positifs et soit λ = lim an . Alors (i) si λ < 1 la série X X ( an ) est convergente, (ii) si λ > 1 la série ( an ) est divergente. 3 Si (X ) est une suite iid de variables admettant une espérance, non nécessairement finie, i Pn 1 X → EX , p.s. Ce résultat, que l’on trouve dans Billingsley (1995), découle de la loi i 1 i=1 n + forte pour des variables intégrables : supposons par exemple que E(XP pour i ) = +∞ et posons P + 1 tout entier m > 0, X̃i = Xi si 0 ≤ Xi ≤ m, X̃i = 0 sinon. On a n ni=1 Xi+ ≥ n1 ni=1 X̃i → E X̃1 , p.s., par application de la loi forte à la suite de variables intégrables X̃i . Lorsque m tend vers l’infini, la suite croissante E X̃1 converge vers +∞, ce qui permet de conclure que + 1 Pn i=1 Xi → ∞, p.s. n 2 23 2.1 Processus GARCH(p, q) Le terme entre accolades à droite de l’égalité tend vers 0 p.s. quand N → ∞. Par ailleurs, puisque la série définissant ht converge p.s., on a a(ηt−1 ) . . . a(ηt−n ) → 0 2 avec probabilité 1 quand n → ∞. De plus la loi de σt−N −1 est indépendante de N 2 par stationnarité. Par suite a(ηt−1 ) . . . a(ηt−N −1 )σt−N −1 → 0 en probabilité lorsque N → ∞. On a montré que σt2 − ht → 0 en probabilité quand N → ∞. Ce terme étant indépendant de N on a nécessairement ht = σt2 pour tout t, p.s. P Si γ > 0, d’après (2.13) et la règle de Cauchy, N n=1 a(ηt−1 ) . . . a(ηt−n ) → +∞, p.s. lorsque N → ∞. Donc si ω > 0, ht = +∞, p.s. D’après (2.12), il est clair que σt2 = +∞, p.s. Par suite, il n’existe pas de solution finie p.s. de (2.8). Dans le cas γ = 0, nous procéderons par l’absurde. Supposons qu’il existe une solution strictement stationnaire (ǫt , σt2 ) de (2.8). Nous avons pour n > 0, σ02 ≥ω ( 1+ n X i=1 a(η−1 ) . . . a(η−i ) ) d’où on déduit que le terme général a(η−1 ) . . . a(η−n )ω converge vers zéro, p.s., quand n → ∞, ou, de manière équivalente, que n X i=1 log a(ηi ) + log ω → −∞ p.s. quand n → ∞. D’après le théorème de Chung-Fuchs4 nous avons lim sup avec probabilité 1, ce qui contredit (2.15). Pn i=1 (2.15) log a(ηi ) = +∞ 2 Théorème 2.2 (Stationnarité au second ordre du GARCH(1,1)) Supposons ω > 0. Si α + β ≥ 1, il n’existe pas de solution GARCH(1,1) non anticipative et stationnaire au second ordre . Si α + β < 1, le processus (ǫt ) défini par (2.14), est stationnaire au second ordre. Plus précisément, (ǫt ) est un bruit blanc. De plus, il n’existe pas d’autre solution stationnaire au second ordre et non anticipative. 4 Si X1 , . . . , Xn est Pnune suite iid telle que EX1 = 0 et E|X1 | > 0 alors lim supn→∞ +∞ et lim inf n→∞ i=1 Xi = −∞ (voir par exemple Chow et Teicher (1997)). Pn i=1 Xi = 24 Processus GARCH Preuve. Si ǫt est un processus GARCH(1, 1), au sens de la définition 2.1, stationnaire au second-ordre et non anticipatif, on a E(ǫ2t ) = E E ǫ2t | ǫu , u < t = E(σt2 ) = ω + (α + β)E(ǫ2t−1 ) soit (1 − α − β)E(ǫ2t ) = ω. Il faut donc α + β < 1. On obtient de plus : E(ǫ2t ) > 0. Inversement, supposons α + β < 1. D’après la remarque 4 précédente, la condition de stationnarité stricte est vérifiée. Il suffit donc de montrer que la solution strictement stationnaire définie en (2.14) admet une variance finie. La variable ht étant une limite croissante de variables aléatoires positives, d’après le théorème de Beppo Levi, on peut intervertir espérance et somme infinie et écrire " # +∞ X E(ǫ2t ) = E(ht ) = 1 + E{a(ηt−1 ) . . . a(ηt−n )} ω n=1 = " = " 1+ 1+ +∞ X n=1 +∞ X n=1 # {Ea(ηt )}n ω # (α + β)n ω = ω . 1 − (α + β) Cela suffit à prouver la stationnarité au second-ordre de la solution. De plus cette solution est un bruit blanc car E(ǫt ) = E {E (ǫt | ǫu , u < t)} = 0 et pour tout h > 0, cov (ǫt , ǫt−h ) = E {ǫt−h E (ǫt | ǫu , u < t)} = 0. p Soit ǫ̃t = h̃t ηt une autre solution stationnaire au second ordre et non anticipative. On a |ht − h̃t | = a(ηt−1 ) . . . a(ηt−n )|ht−n−1 − h̃t−n−1 | et par suite, E|ht − h̃t | = E{a(ηt−1 ) . . . a(ηt−n )}E|ht−n−1 − h̃t−n−1 | = (α + β)n E|ht−n−1 − h̃t−n−1 |. Notons que la seconde égalité résulte du caractère non anticipatif des solutions, hypothèse qui n’était pas nécessaire pour établir l’unicité de la solution strictement stationnaire. L’espérance de |ht−n−1 − h̃t−n−1 | étant bornée par E|ht−n−1 | + E|h̃t−n−1 |, quantité finie et indépendante de n par stationnarité, et (α + β)n tendant vers 0 quand n → ∞, on obtient E|ht − h̃t | = 0 et donc ht = h̃t pour tout t, p.s. 25 2.1 Processus GARCH(p, q) 2 Les zones de stationnarité stricte et au second ordre pour le modèle GARCH (1,1) fort sont présentés figure 2.1 avec une distribution normale centrée réduite pour (ηt ) (dont seule dépend la condition de stationnarité stricte). Nous avons déjà remarqué que la frontière de la zone de stationnarité stricte correspond à une marche aléatoire (pour le processus log(ht −ω)). Une interprétation similaire existe pour la frontière de la zone de stationnarité au second ordre : si α + β = 1 on a en effet 2 ht = ω + ht−1 + αht−1 (ηt−1 − 1) ce qui fait de ht une marche aléatoire car le dernier terme est centré et non corrélé avec toute variable du passé de ht−1 . Le processus correspondant est appelé GARCH intégré (ou IGARCH(1,1)) : il est strictement stationnaire mais de variance infinie et sa variance conditionnelle est une marche aléatoire (avec terme constant strictement positif). Modèle GARCH(p, q) Dans le cas général du GARCH(p, q) fort, l’écriture vectorielle suivante sera très utile. On a (2.16) z t = bt + At z t−1 , β1 3 2 1 0 1 α1 2 3 4 Fig. 2.1 – Régions de stationnarité du modèle GARCH(1,1) si ηt ∼ N (0, 1). 1 : Stationnarité au 2nd ordre ; 1 et 2 : Stationnarité stricte ; 3 : Non stationnarité. 26 Processus GARCH où et ωηt2 0 .. . α1 ηt2 ··· 1 0 ··· 0 1 ··· .. .. .. . . . 0 At = α 1 0 0 . . . 0 ... 1 ··· ··· . .. . ... 2 ǫ z t = t−q+1 σt2 .. . 2 σt−p+1 αq ηt2 β1 ηt2 ··· 0 0 ··· 0 0 ··· .. .. .. .. . . . . ··· .. ǫ2t .. . bt = b(ηt ) = ω ∈ Rp+q , 0 . .. 0 0 0 0 ... αq β1 0 0 .. . 1 0 .. . ··· 0 0 .. . .. 0 0 βp 0 0 .. . . ... ∈ Rp+q , βp ηt2 0 0 .. . ··· ··· 0 1 1 0 (2.17) est une matrice de dimension (p + q) × (p + q). Dans le cas ARCH(q), z t ne contient que ǫ2t et ses q − 1 premières valeurs passées, et At se limite au bloc supérieur gauche de la matrice ci-dessus. L’équation (2.16) constitue un modèle vectoriel autorégressif d’ordre un, avec coefficients positifs et iid. La loi de z t conditionnelle à son passé infini coïncide avec sa loi conditionnelle à zt−1 seulement, ce qui fait de (z t ) un processus de Markov. On parle ainsi de représentation markovienne. En itérant (2.16) on obtient z t = bt + ∞ X At At−1 . . . At−k+1 bt−k . (2.18) k=1 sous réserve que la série existe au sens presque sûr. L’objet de ce qui suit est de trouver des conditions justifiant l’existence de cette série. Lorsque le membre de droite de l’équation (2.18) a un sens, cela n’assure pas pour autant que les composantes de ce vecteur sont positives. Une condition suffisante pour que, presque sûrement, ∞ X bt + At At−1 . . . At−k+1 bt−k > 0 (2.19) k=1 27 2.1 Processus GARCH(p, q) au sens ou toutes les composantes de ce vecteur sont strictement positives (éventuellement infinies), est évidemment ω > 0, αi ≥ 0 (i = 1, . . . , q), βj ≥ 0 (j = 1, . . . , p). (2.20) Cette condition, très simple à utiliser, n’est cependant pas toujours nécessaire comme nous le verrons plus loin. Stationnarité stricte L’outil principal pour l’étude de la stationnarité stricte est le concept d’exposant de Lyapounov. Soit A une matrice (p + q) × (p + q). Son rayon spectral, noté ρ(A), est le plus grand module de ses valeurs propres. Soit k · k une norme quelconque sur l’espace des matrices (p + q) × (p + q). On a le résultat d’algèbre suivant 1 log kAt k = log ρ(A) t→∞ t lim (2.21) (voir l’exercice 2.2). Cette propriété s’étend aux matrices aléatoires à travers le résultat suivant (voir Bougerol-Lacroix). Théorème 2.3 Soit {At , t ∈ Z} une suite de matrices aléatoires, strictement stationnaire et ergodique, telle que E log+ kAt k est finie. On a 1 1 E (log kAt At−1 . . . A1 k) = γ = inf∗ E(log kAt At−1 . . . A1 k) t→∞ t t∈N t lim (2.22) et γ (resp. exp(γ)) s’appelle plus grand exposant de Lyapounov (resp. rayon spectral) de la suite de matrices {At , t ∈ Z}. De plus γ = lim p.s. t→∞ 1 log kAt At−1 . . . A1 k. t (2.23) Remarques. 1. On a toujours γ ≤ E(log kA1 k), avec égalité en dimension 1. 2. Si At = A pour tout t ∈ Z, on a γ = log ρ(A) d’après (2.21). 3. Toutes les normes étant équivalentes sur un espace de dimension fini, il est facile de voir que γ est indépendant du choix de la norme. 4. L’équivalence entre les définitions de γ se montre en utilisant le théorème ergodique sous-additif, voir Kingman (1973) théorème 6. La caractérisation (2.23) est particulièrement intéressante car elle permet de calculer des approximations de ce coefficient par simulation. Des intervalles de confiance asymptotiques peuvent également être obtenus, voir Goldsheid (1991). 28 Processus GARCH Le lemme général suivant est très utile pour l’étude du produit de matrices aléatoires. Lemme 2.1 Soit {At , t ∈ Z} une suite de matrices aléatoires iid telle que E log+ kAt k est finie et de plus grand exposant de Lyapounov γ. Alors lim p.s. kA0 . . . A−t k = 0 t→∞ ⇒ γ<0 (2.24) Comme pour les modèles ARMA, nous nous intéressons plus particulièrement aux solutions (ǫt ) non anticipatives du modèle (2.5), c’est à dire telles que ǫt appartient à la tribu engendrée par {ηt , ηt−1 , . . .}. Théorème 2.4 (Stationnarité stricte du modèle GARCH(p, q)) Une condition nécessaire et suffisante d’existence d’un processus GARCH(p, q) strictement stationnaire, solution du modèle (2.5) est que γ<0 où γ est le plus grand exposant de Lyapounov de la suite {At , t ∈ Z} définie par (2.17). Lorsqu’elle existe, la solution strictement stationnaire est unique, non anticipative et ergodique. P Preuve. Nous utiliserons la norme définie par kAk = |aij |. Par commodité la norme sera notée de manière identique quelle que soit la dimension de A. Avec cette convention, la norme est clairement multiplicative : kABk ≤ kAkkBk pour toutes matrices A et B telles que AB existe 5 . Remarquons que, les variables ηt étant de variance finie, tous les termes de la matrice At sont intégrables. On a donc E log+ kAt k ≤ EkAt k < ∞. Supposons d’abord γ < 0. Alors, l’égalité (2.23) implique que la série z̃ t = bt + ∞ X At At−1 . . . At−n bt−n−1 n=0 P D’autres exemples de normes multiplicatives sont la norme euclidienne : kAk = { a2ij }1/2 = {Tr(A′ A)}1/2 , ou la norme sup définie, pour une matrice A de taille d × d, par P N (A) = sup {kAxk; x ∈ Rd , kxk ≤ 1} définie à partir de la norme vectorielle kxk = |xi |. Une norme non multiplicative est N1 définie par N1 (A) = max |aij |. 5 29 2.1 Processus GARCH(p, q) converge presque sûrement pour tout t. On a en effet, en utilisant la multiplicativité de la norme, ∞ X kz̃ t k ≤ kbt k + kAt At−1 . . . At−n kkbt−n−1 k (2.25) n=0 et kAt . . . At−n k 1/n kbt−n−1 k 1/n = p.s 1 1 exp log kAt . . . At−n k + log kbt−n−1 k n n −→ eγ < 1. ∗+ p+q Par suite, par la règle de Cauchy, z̃ t est bien défini p dans (R ) . Soit z̃ q+1,t la q + 1-ème composante de z̃ t . En posant ǫt = z̃ q+1,t ηt on définit une solution strictement stationnaire du modèle (2.5). D’après (2.18), ǫt s’exprime comme fonction mesurable de ηt , ηt−1 , . . .. La solution est donc nonanticipative et ergodique puisque (ηt ) est ergodique. L’unicité se démontre par le même raisonnement que dans le cas p = q = 1. Supposons qu’il existe une autre solution strictement stationnaire du modèle (2.5), ou de manière équivalente une autre solution strictement stationnaire positive (z ∗t ) de (2.16). Alors, pour tout n ≥ 0, kz̃ t − z ∗t k = kAt (z̃ t−1 − z ∗t−1 )k = . . . ≤ kAt . . . At−n kk(z̃ t−n−1 − z ∗t−n−1 )k. On a P(kz̃ t −z ∗t k = 6 0) > 0. Or on sait que kAt . . . At−n k → 0 p.s. quand n → ∞ car la série intervenant dans (2.25) converge. Par suite P(kz̃ t−n−1 −z ∗t−n−1 k → ∞) > 0, ce qui implique que kz̃ t−n−1 k → ∞ ou kz ∗t−n−1 k → ∞ avec une probabilité positive. Ceci est impossible car les suites (z̃ t )t et (z ∗t )t sont stationnaires. On en conclut que z̃ t = z ∗t pour tout t, p.s. Nous montrons finalement la partie nécessaire du théorème. D’après le lemme 2.1, il suffit d’établir (2.24). Nous allons montrer que, pour 1 ≤ i ≤ p + q lim A0 . . . A−t ei = 0, t→∞ p.s. (2.26) où ei est le i-ème élément de la base canonique de Rp+q . Soit (ǫt ) une solution strictement stationnaire de (2.5) et soit (z t ) défini par (2.16). On a pour t > 0 z 0 = b0 + A0 z −1 t−1 X = b0 + A0 . . . A−k b−k−1 + A0 . . . A−t z −t−1 k=0 ≥ t−1 X k=0 A0 . . . A−k b−k−1 30 Processus GARCH car les coefficients des matrices At , b0 et z t sont positifs6 . Par suite la série P t−1 k=0 A0 . . . A−k b−k−1 converge et donc A0 . . . A−k b−k−1 tend presque sûrement 2 vers 0 quand k → ∞. Or b−k−1 = ωη−k−1 e1 + ωeq+1 . Donc A0 . . . A−k b−k−1 se décompose en deux termes positifs et on a 2 lim A0 . . . A−k ωη−k−1 e1 = 0, lim A0 . . . A−k ωeq+1 = 0, k→∞ k→∞ (2.27) p.s. Puisque ω 6= 0, (2.26) est vraie pour i = q + 1. En utilisant la relation 2 A−k eq+i = βi η−k e1 + βi eq+1 + eq+i+1 , (2.28) i = 1, . . . , p avec par convention ep+q+1 = 0, pour i = 1 on obtient 0 = lim A0 . . . A−k eq+1 ≥ lim A0 . . . A−k+1 eq+2 ≥ 0 t→∞ k→∞ donc (2.26) est vraie pour i = q + 2, et par récurrence, pour i = q + j, j = 1, . . . , p 2 en utilisant (2.28). Par ailleurs, on remarque que A−k eq = αq η−k e1 + αq eq+1 ce qui permet de voir, d’après (2.27), que (2.26) est vérifiée pour i = q. On conclut pour les autres valeurs de i en utilisant 2 A−k ei = αi η−k e1 + αi eq+1 + ei+1 , i = 1, . . . , q − 1 et une récurrence ascendante. Le théorème 2.4 est donc démontré. 2 Remarques. 1. On aurait pu mener une démonstration analogue en utilisant la représentation vectorielle markovienne suivante fondée sur (2.7) (2.29) ht = ω + Bt ht−1 , avec ω = (ω, 0, . . . , 0)′ ∈ Rr , ht = 2 (σt2 , . . . , σt−r+1 ) r ∈R , Bt = a1 (ηt−1 ) . . . ar (ηt−r ) Ir−1 0 , où Ir−1 est la matrice identité de taille r − 1. Notons que les matrices Bt ne sont pas indépendantes, contrairement aux At . Il est amusant de noter (voir l’exercice 2.8) que cependant E n Y t=0 6 Bt = n Y EBt . (2.30) t=0 On utilise ici, et dans ce qui suit, la notation x ≥ y qui signifie que toutes les composantes du vecteur x sont supérieures ou égales à celles du vecteur y (de même dimension) 31 2.1 Processus GARCH(p, q) La propriété d’indépendance des At sera cruciale pour trouver les conditions d’existence des moments, c’est pourquoi il est préférable de travailler avec la représentation (2.16). 2. Pour vérifier que γ < 0, il suffit de vérifier que E(log kAt At−1 . . . A1 k) < 0 pour un t > 0. 3. Si un modèle GARCH admet une solution strictement stationnaire, tout modèle GARCH obtenu en remplaçant les αi et βj par des coefficients plus petits en admet également une. En effet le coefficient γ du modèle ainsi défini sera nécessairement inférieur à celui du modèle initial car, avec la norme utilisée, 0 ≤ A ≤ B implique kAk ≤ kBk. En particulier la stationnarité stricte du modèle GARCH implique celle du modèle ARCH obtenu en supprimant les coefficients βj . Le résultat suivant (établi par Bougerol et Picard (1992)) fournit une condition nécessaire simple de stationnarité stricte. Corollaire 2.1 Soit γ le plus grand exposant de Lyapounov de la suite {At , t ∈ Z} définie par (2.17). Alors γ<0 ⇒ p X βj < 1. j=1 Preuve. Comme tous les termes des matrices At sont positifs, il est clair que γ est supérieur au coefficient de Lyapounov de la suite obtenue en remplaçant les coefficients des q premières lignes et des q premières colonnes par 0 dans les matrices At . En utilisant la Remarque 2 du Théorème (2.3) on voit que γ ≥ log ρ(B) où B est la sous-matrice de At définie par : β1 β2 · · · βp 1 0 ··· 0 0 1 ··· 0 B= . .. . . . . .. . . . . 0 ··· 1 0 32 Processus GARCH Il est facile de montrer (par récurrence sur p et en développant par rapport à la dernière colonne) que, pour λ 6= 0, 1 det(B − λIp ) = (−1)p λp − λp−1β1 − · · · − λβp−1 − βp = (−λ)p B( ), λ où B(z) = 1 − β1 z − · · · − βp z p . On en déduit que si γ < 0 alors B(z) = 0 a toutes ses racines en dehors du cercle unité. Montrons maintenant que {B(z) = 0 ⇒ |z| > 1} ⇔ p X βj < 1 (2.31) j=1 P P On a B(0) = 1 et B(1) = 1 − pj=1 βj . Donc si pj=1 βj ≥ 1 alors B(1) ≤ 0 et, par continuité, il existe une racine dans ]0, 1]. P Inversement si pj=1 βj < 1 et si B(z0 ) = 0 pour un z0 de module inférieur ou P P Pp P p j j égal à 1 alors 1 = j=1 βj z0 = j=1 βj z0 ≤ pj=1 βj |z0 |j ≤ pj=1 βj , ce qui est impossible. D’où (2.31) et finalement le corollaire. 2 Nous donnons deux illustrations permettant d’obtenir des conditions de stationnarité plus explicites que dans le théorème . Exemples : 1. Dans le cas GARCH(1,1), on retrouve bien la condition de stationnarité stricte obtenue directement. La matrice At s’écrit dans ce cas At = (ηt2 , 1)′ (α1 , β1 ). On a donc At At−1 . . . A1 = t−1 Y 2 (α1 ηt−k + β1 )At . k=1 Par suite log kAt At−1 . . . A1 k = t−1 X k=1 2 log(α1 ηt−k + β1 ) + log kAt k et d’après (2.23) et la loi forte des grands nombres γ = E log(α1 ηt2 + β1 ). La condition nécessaire et suffisante de stationnarité stricte s’écrit donc E log(α1 ηt2 + β1 ) < 0, comme nous le savions déjà. 33 2.1 Processus GARCH(p, q) 2. Pour un modèle ARCH(2) la matrice At prend la forme α1 ηt2 α2 ηt2 At = 1 0 et la région de stationnarité peut être estimée par simulation. Le tableau suivant donne, pour quelques valeurs des coefficients α1 et α2 , la valeur moyenne et l’écarttype (entre parenthèses) obtenus pour 1000 simulations de taille 1000 (c’est à dire 1 log kA1000 A999 . . . A1 k), les ηt étant tirés selon une 1000 simulations de γ̂ = 1000 loi N (0, 1). Remarquons que dans le cas ARCH(1) les simulations fournissent une bonne approximation de la condition obtenue analytiquement (α1 < 3.56). Hormis ce cas, il n’existe pas de condition explicite portant sur les coefficients α1 et α2 . Tab. 2.1 – Estimations de γ à partir de 1000 simulations de taille t = 1000. α1 α2 0 .25 - .3 - 1 - 0.5 - - - 1 - - 1.75 -.015 .001 (.035) (.032) 1.2 - 1.7 - 1.8 - -.175 -.021 .006 (.040) (.042) (.044) -.011 .046 (.038) (.038) - 3.4 3.5 3.6 -.049 -.018 .010 (.071) (.071) (.071) - - - - - - La figure (2.2), construite à partir de ces simulations, donne une idée plus précise de la région de stationnarité stricte du processus ARCH(2). Nous concluons cette partie avec un résultat établissant que la condition de stationnarité stricte implique également l’existence de certains moments. Nous montrons au préalable le lemme suivant. Lemme 2.2 Soit X une v.a.r. presque sûrement positive. Si EX r < ∞ pour un r > 0 et si E log X < 0 alors il existe s > 0 tel que EX s < 1. Preuve. La fonction génératrice des moments de Y = log X est définie par M(u) = EeuY = EX u . La fonction M est continuement dérivable sur [0, r] et on a, pour u>0 Z uy M(u) − M(0) e −1 = dPY (y). (2.32) u u 34 Processus GARCH Remarquons que ∀τ > 0, uy e − 1 eτ |y| u ≤ τ . ∀u ∈]0, τ ], (2.33) v Ce résultat s’obtient par exemple en introduisant la fonction définie par g(v) = e v−1 pour v 6= 0 et g(0) = 1. La fonction g étant croissante sur R, on a pour y ≥ 0, eτ y − 1 eτ y euy − 1 ≤ ≤ , u τ τ et pour y < 0 1 − euy e−τ y ≤ −y ≤ u τ ce qui prouve (2.33). Le membre de droite de cette inégalité est clairement PY intégrable quand τ ∈]0, r]. Par suite, par le théorème de Lebesgue, la dérivée à droite de M en 0 est d’après (2.32) Z ydPY (y) = E(log X) < 0. Comme M(0) = 1, il existe s > 0 tel M(s) = EX s < 1. 2 3 3 2 3 2 α2 11 2 1 0 0 0 0 11 α1 22 33 Fig. 2.2 – Régions de stationnarité du modèle ARCH(2). 1 : Stationnarité au secondordre ; 1 et 2 : Stationnarité stricte ; 3 : Non stationnarité 35 2.1 Processus GARCH(p, q) Corollaire 2.2 On suppose que γ < 0. Soit ǫt = σt ηt le processus GARCH(p, q) solution strictement stationnaire du modèle (2.5). Il existe s > 0 tel que Eσt2s < ∞ et Eǫ2s t < ∞. Preuve. Puisque γ = inf t 1t E(log kAt At−1 . . . A1 k) < 0, il existe k0 ≥ 1 tel que E(log kAk0 Ak0 −1 . . . A1 k) < 0. De plus E(kAk0 Ak0 −1 . . . A1 k) = kE(Ak0 Ak0 −1 . . . A1 )k = k(EA1 )k0 k ≤ (EkA1 k)k0 < ∞ (2.34) P en utilisant la norme multiplicative kAk = i,j |A(i, j)|, la positivité des éléments des Ai , l’indépendance et l’équidistribution des Ai . Le lemme 2.2 entraîne donc l’existence d’un s ∈]0, 1[ tel que ρ := E(kAk0 Ak0 −1 . . . A1 ks ) < 1. La solution stationnaire est définie par (2.18) et satisfait ( ) ∞ k0 X X Ekz t ks ≤ kEb1 ks 1 + ρk {EkA1 ks }i < ∞. i=1 k=0 Pour l’inégalité utilisé P précédente P snous avons, en plus des arguments déjà donnés, s 7 la relation ( i ui) ≤ i ui pour toute suite de nombres positifs ui . On conclut s en remarquant que σt2s ≤ kz t ks et ǫ2s t ≤ kz t k . 2 Stationnarité au second ordre Le théorème suivant donne des conditions nécessaires et suffisantes de stationnarité au second-ordre. Théorème 2.5 (Stationnarité au 2nd ordre du modèle GARCH(p, q)) S’il existe un processus GARCH(p, q), au sens de la Définition 2.1, stationnaire au second-ordre et non anticipatif, et si ω > 0, alors q X i=1 αi + p X βi < 1. (2.35) j=1 Ceci peut se montrer en utilisant l’inégalité de Jensen et la concavité de x → xs sur [0, +∞[ pour 0 < s < 1. 7 36 Processus GARCH Inversement, si (2.35) est vérifiée, l’unique solution strictement stationnaire du modèle (2.5) est un bruit blanc (donc est stationnaire au second ordre). Il n’existe pas d’autre solution stationnaire au second ordre. Preuve. Montrons d’abord que la condition (2.35) est nécessaire. Soit (ǫt ) un processus GARCH(p, q), stationnaire au second ordre et non anticipatif. Alors la quantité E(ǫ2t ) = E E ǫ2t | ǫu , u < t = E(σt2 ) est un réel positif, indépendant de t. En prenant l’espérance des deux membres de l’égalité (2.1), on tire donc E(ǫ2t ) =ω+ q X αi E(ǫ2t ) + i=1 soit 1− q X i=1 αi − p X βj E(ǫ2t ) j=1 p X j=1 βj ! E(ǫ2t ) = ω. (2.36) Puisque ω est strictement positif, on doit avoir (2.35). Supposons maintenant que (2.35) soit vraie et cherchons une solution GARCH au sens fort (définition 2) qui soit stationnaire. Pour t, k ∈ Z, définissons les vecteurs à valeurs dans Rd suivants : 0 si k < 0 Zk (t) = bt + At Zk−1 (t − 1) si k ≥ 0. On a si k < 0 0 bt si k = 0 Zk (t) − Zk−1(t) = At {Zk−1 (t − 1) − Zk−2 (t − 1)} si k > 0. En itérant ces relations on obtient, pour k > 0 Zk (t) − Zk−1(t) = At At−1 . . . At−k+1 bt−k . X Par ailleurs, pour la norme kAk = |aij |, on a pour toute matrice aléatoire A à X i,j X coefficients positifs, EkAk = E |aij | = E aij = kE(A)k. Donc, pour k > 0 i,j i,j EkZk (t) − Zk−1 (t)k = kE(At At−1 . . . At−k+1 bt−k )k, 37 2.1 Processus GARCH(p, q) car la matrice At At−1 . . . At−k+1 bt−k est positive. Tous les termes du produit At At−1 . . . At−k+1 bt−k sont indépendants (car le processus (ηt ) est iid et chaque terme du produit est fonction d’une variable ηt−i , les dates t − i étant distinctes). Par ailleurs, A := E(At ) et b = E(bt ) ne dépendent évidemment pas de t. Finalement, pour k > 0 EkZk (t) − Zk−1 (t)k = kAk bk = (1, . . . , 1)Ak b car tous les termes du vecteur Ak b sont positifs. La condition (2.35) implique que les valeurs propres de A sont de module strictement inférieur à 1 : en effet on vérifie que ! q p X X det(λId − A) = λp+q 1 − αi λ−i − βj λ−j , (2.37) i=1 j=1 par exemple en retranchant la q + 1-ème ligne de λId − A à la première, puis en développant le déterminant par rapport à la première ligne. Donc si |λ| ≥ 1, en utilisant l’inégalité |a − b| ≥ |a| − |b|, on obtient q p q p X X X X −i −j αi − βj > 0. αi λ − βj λ ≥ 1 − | det(λId − A)| ≥ 1 − i=1 i=1 j=1 j=1 Par suite, en utilisant la décomposition de Jordan, ou (2.21), il est facile de voir que Ak → 0 à vitesse exponentielle quand k → ∞. Donc pour t fixé, Zk (t) converge à la fois aux sens L1 , en utilisant le critère de Cauchy, et presque-sûr quand k → ∞. Soit z t la limite de (Zk (t))k . A k fixé, le processus (Zk (t))t∈Z est strictement stationnaire. Le processus limite z t l’est donc également. Par ailleurs il est clair que z t vérifie l’équation (2.16). 2 Remarques. 1. Sous les conditions du théorème, l’unique solution stationnaire du modèle (2.5) est, en utilisant (2.36), un bruit blanc de variance Var(ǫt ) = 1− ω Pp . i=1 αi − j=1 βj Pq 2. Les conditions des Théorèmes 2.4 et 2.5 étant nécessaires et suffisantes, on a forcément " q # p X X αi + βi < 1 ⇒ γ < 0 i=1 j=1 38 Processus GARCH puisque la solution stationnaire au second ordre du Théorème 2.5 l’est également strictement. On vérifie directement cette implication en remarquant que si (2.35) est vraie, d’après la preuve précédente, le rayon spectral ρ(A) est strictement inférieur à 1. Par ailleurs, d’après un résultat de Kesten et Spitzer (1984, (1.4)), on a toujours : γ ≤ log ρ(A). Lorsque q p X X αi + βj = 1 i=1 j=1 le modèle est appelé GARCH(p, q) intégré ou IGARCH(p, q) (voir Engle et Bollerslev (1986)). Cette dénomination est justifiée par l’existence d’une racine unité dans la partie autorégressive de la représentation (2.4) et fait référence aux modèles ARMA intégrés, ou ARIMA. Or, cette analogie peut être trompeuse : il n’existe pas de solution stationnaire (stricte ou au 2nd ordre) d’un modèle ARIMA, tandis qu’il existe une solution strictement stationnaire d’un modèle IGARCH sous des conditions très générales. On montre en effet que si la loi des ηt admet une densité de support non borné, le modèle IGARCH(1,1) admet une unique solution strictement stationnaire car γ < log ρ(A) = 0 dans ce cas (voir Bougerol et Picard (1992), corollaire 2.2). Cette solution admet une variance infinie d’après ce qui précède. 2.1.2 Propriétés de la distribution marginale Dans cette partie, (ǫt ) désigne un processus strictement stationnaire solution du modèle (2.5). Moments d’ordre pair Nous cherchons des conditions d’existence des moments d’ordre 2m où m est un entier non nul quelconque 8 . On suppose que le processus iid (ηt ) admet des moments jusqu’à l’ordre 2m au moins, i.e. Eηt2m < ∞. Notons ⊗ le produit tensoriel, ou produit de Kronecker, et rappelons qu’il est défini de la manière suivante : pour deux matrices quelconques A = (aij )X et B, on a A ⊗ B = (aij B). On note k · k la norme matricielle définie par kAk = |aij |. i,j 8 On ne considère que les moments d’ordre pair, car si l’on fait une hypothèse de symétrie pour la loi de ηt , les moments d’ordre impair, lorsqu’ils existent, sont nuls. Si cette hypothèse n’est pas faite, ces moments semblent difficilement calculables. 39 2.1 Processus GARCH(p, q) Posons, pour k > 0, At,k = At At−1 · · · At−k+1 , et z t,k = At,k bt−k avec par convention At,0 = Ip+q et z t,0 = bt . En utilisant les égalités élémentaires kAkkBk = kA ⊗ Bk = kB ⊗ Ak et l’associativité du produit tensoriel, on a pour k > 0, Ekz t,k km = EkAt,k bt−k ⊗ · · · ⊗ At,k bt−k k = kE(At,k bt−k ⊗ · · · ⊗ At,k bt−k )k car les éléments de la matrice At,k bt−k sont positifs. Pour toute matrice A soit A⊗m = A ⊗ · · · ⊗ A. Pour tout vecteur X de taille le nombre de colonnes de A nous avons (AX)⊗m = A⊗m X ⊗m d’après la propriété du produit vectoriel : AB ⊗ CD = (A ⊗ C)(B ⊗ D), pour des matrices telles que les produits AB et CD soient bien définis. Par suite ⊗m Ekz t,k km = kE(At,k ⊗m bt−k ⊗m )k = kE(A⊗m . . . A⊗m t t−k+1 bt−k )k (2.38) Notons (m) A(m) = E(A⊗m = E(b⊗m t ) et b t ). On obtient d’après (2.38) Ekz t,k km = k(A(m) )k b(m) k en utilisant l’indépendance entre les matrices du produit At . . . At−k+1 bt−k (car chacune d’elles s’écrit en fonction d’une variable du processus iid (ηt ), les dates étant différentes). La norme matricielle étant multiplicative, nous en déduisons, en utilisant (2.18) kz t km = {Ekz t km }1/m ∞ X ≤ kz t,k km ≤ k=0 ( ∞ X k=0 k(A(m) )k k1/m ) kb(m) k1/m . (2.39) 40 Processus GARCH Si le rayon spectral de la matrice A(m) , ρ(A(m) ), est strictement inférieur à 1, on sait que k(A(m) )k k converge vers zéro à vitesse exponentielle lorsque k tend vers l’infini. Il est clair, par ailleurs, que kǫ2t km ≤ kz t km car la norme de z t est supérieure à celle de chacune de ses composantes. Une (m) condition suffisante d’existence de E(ǫ2m )< t ) est donc, d’après (2.39), que ρ(A (m) 1. De plus, lorsque ρ(A ) < 1, le processus ZK (t) = K X z t,k k=1 m converge à la fois dans L et presque sûrement vers z t , pour t fixé et K → ∞. Chacun des processus (ZK (t)) (K fixé) étant strictement stationnaire, (z t ) l’est également. On vérifie facilement que (z t ) vérifie l’équation (2.16) et que cette solution strictement stationnaire est unique. Inversement, supposons que (ǫt ) appartienne à Lm . Pour deux vecteurs x et y de même dimension, notons x ≤ y si les composantes de y − x sont toutes positives. Alors ⊗m E(z ⊗m t ) = E(z t,0 + · · · + z t,k + At . . . At−k z t−k−1 ) !⊗m ∞ X ≥ E z t,k k=0 ≥ = ∞ X k=0 ∞ X E(z ⊗m t,k ) (A(m) )k b(m) k=0 car tous les termes intervenant dans ces expressions sont positifs. Puisque toutes (m) les composantes de E(z ⊗m ) < 1. Nous t ) sont finies, nous en déduisons que ρ(A avons montré le résultat suivant. Théorème 2.6 (Stationnarité à l’ordre 2m) Supposons que E(ηt2m ) < ∞ et que ρ(A(m) ) < 1. Alors, pour tout t ∈ Z, la série (z t ) définie par (2.18) converge dans Lm et le processus (ǫ2t ), défini comme la première composante de z t , est strictement stationnaire et admet des moments jusqu’à l’ordre m. 41 2.1 Processus GARCH(p, q) Inversement, si ρ(A(m) ) ≥ 1, il n’existe pas de solution strictement stationnaire (ǫt ) de (2.5) telle que E(ǫ2m t ) < ∞. Exemple (Moments d’un processus GARCH(1, 1)). Lorsque p = q = 1, la matrice At s’écrit At = (ηt2 , 1)′ (α1 , β1 ). ⊗m Donc toutes les valeurs propres de la matrice A(m) = E{(ηt2 , 1)′ }(α1 , β1 )⊗m sont nulles à l’exception d’une seule. Celle-ci est donc la trace de A(m) . Il n’est pas difficile de voir que la condition nécessaire et suffisante d’existence de E(ǫ2m t ) s’écrit donc m X m α1i β1m−i µ2i < 1 i i=0 où µ2i = i = 0, . . . , m. Le calcul des moments peut être effectué de ⊗m manière récursive en développant E(z ⊗m . Pour le moment t ) = E(bt + At z t−1 ) d’ordre 4, il est plus simple d’effectuer un calcul direct : E(ηt2i ), E(ǫ4t ) = E(σt4 )E(ηt4 ) 4 = µ4 ω 2 + 2ω(α1 + β1 )E(ǫ2t−1 ) + (β12 + 2α1 β1 )E(σt−1 ) + α12 E(ǫ4t−1 ) d’où l’on tire E(ǫ4t ) = ω 2 (1 + α1 + β1 ) µ4 (1 − µ4 α12 − β12 − 2α1 β1 )(1 − α1 − β1 ) sous réserve de positivité du dénominateur. On voit sur cet exemple que pour un processus GARCH, dès que les αi et βj sont non tous nuls, les moments ne peuvent exister à tout ordre. Kurtosis Une façon simple de mesurer la taille des queues d’une distribution est d’utiliser le coefficient de Kurtosis, défini, pour une distribution centrée admettant au moins un moment d’ordre 2, comme le rapport du moment d’ordre 4 (éventuellement infini) sur le carré du moment d’ordre 2. Ce coefficient vaut 3 dans le cas d’une loi normale quelconque, cette valeur servant de référence. Dans le cas de processus GARCH, il est intéressant de noter la différence entre les queues de distribution conditionnelle et marginale. Pour une solution strictement stationnaire (ǫt ) du modèle GARCH(p, q) défini par (2.5), les moments conditionnels d’ordre k sont proportionnels à σt2k : 2k 2k E(ǫ2k t /ǫt−1 ) = σt E(ηt ). 42 Processus GARCH Le coefficient de Kurtosis de cette distribution conditionnelle est donc constant et égal au coefficient de Kurtosis de ηt . Il s’agit d’une propriété remarquable des modèles GARCH qui les distinguent de certaines extensions que nous verrons plus loin. Dans le cas d’un processus général de la forme : ǫt = σt ηt , où σt est une fonction mesurable du passé de ǫt , ηt est indépendant de ce passé et (ηt ) est iid centré, le coefficient de Kurtosis de la loi marginale stationnnaire est égal, s’il existe, à : E[E(ǫ4t /ǫt−1 )] E(ǫ4t ) E(σt4 ) κǫ := = = κη {E(ǫ2t )}2 {E[E(ǫ2t /ǫt−1 )]}2 {E(σt2 )}2 où κη désigne le coefficient de Kurtosis de (ηt ). On voit ainsi que les queues de distribution de (ǫt ) seront d’autant plus épaisses que la variance de σt2 est grande relativement au carré de son espérance. Au minimum (c’est à dire en absence d’effet ARCH) on retrouve le coefficient de kurtosis de (ηt ) : κǫ ≥ κη 1.0 0.8 0.6 0.4 3 β1 1 2 0.2 0.0 0.0 0.2 0.4 0.6 α1 0.8 1.0 1.2 Fig. 2.3 – Régions d’existence des moments du modèle GARCH(1,1). 1 : Moment d’ordre 4 ; 1 et 2 : Moment d’ordre 2 ; 3 : Variance infinie. 43 2.1 Processus GARCH(p, q) avec égalité si et seulement si σt2 est presque sûrement constante. Dans le cas d’un modèle GARCH(1,1) on a ainsi, d’après les calculs précédents κǫ = 1 − (α1 + β1 )2 κη . 1 − (α1 + β1 )2 − α12 (µ4 − 1) Dans le cas où ηt ∼ N (0, 1), la leptokurticité de la loi de (ǫt ) est donc une fonction croissante de α12 (µ4 − 1) . 1 − (α1 + β1 )2 On notera l’asymétrie de ce coefficient : même si α + β est grand, la distribution est peu leptokurtique si α1 est petit. Calcul des autocovariances du carré du processus La fonction d’autocorrélation de (ǫ2t ) jouera un rôle important dans la partie statistique. Elle s’obtient facilement à partir de la représentation ARMA(p ∧ q, p) ǫ2t − p∧q X i=1 (αi + βi )ǫ2t−i = ω + νt − p X βi νt−i . i=1 Il est plus difficile d’obtenir la fonction d’autocovariance car il faut calculer Eνt2 = E(ηt2 − 1)2 Eσt4 . On peut utiliser l’écriture vectorielle z t = bt + At z t−1 avec ωηt2 2 ǫt 0 .. . . . 2 . ǫt−q+1 zt = , bt = ω 2 σ t 0 .. . ... 2 σt−p+1 0 où At est définie en (2.17). En utilisant l’indépendance entre z t et (bt , At ), ainsi que des propriétés élémentaires du produit de Kronecker, nous obtenons Ez ⊗2 = E(bt + At z t−1 ) ⊗ (bt + At z t−1 ) t = Ebt ⊗ bt + EAt z t−1 ⊗ bt + Ebt ⊗ At z t−1 + EAt z t−1 ⊗ At z t−1 ⊗2 ⊗2 = Eb⊗2 t + EAt ⊗ bt Ez t−1 + Ebt ⊗ At Ez t−1 + EAt Ez t−1 . 44 Processus GARCH D’où (2) Ez ⊗2 t = I(p+q)2 − A où o −1 n (2) b + (EAt ⊗ bt + Ebt ⊗ At ) z (1) A(m) = E(A⊗m t ), z (m) = Ez ⊗m t (2.40) et b(m) = E(b⊗m t ). Pour le calcul de A(m) , on peut utiliser la décomposition At = ηt2 B + C, où B et C sont des matrices déterministes. On a alors, en posant µm = Eηtm , A(2) = E(ηt2 B + C) ⊗ (ηt2 B + C) = µ4 B ⊗2 + B ⊗ C + C ⊗ B + C ⊗2 . On obtient EAt ⊗ bt et Ebt ⊗ At . Toutes les composantes de z (1) valent P de même P ω/(1 − αi − βi ). Notons que pour h > 0, on a Ez t ⊗ z t−h = E bt + At z t−1 ⊗ z t−h = b(1) ⊗ z (1) + A(1) ⊗ Ip+q Ez t ⊗ z t−h+1 , (2.41) où Ip+q désigne la matrice identité de taille p + q. 2 Soit e1 le premier vecteur de la base canonique de R(p+q) . On peut alors proposer l’algorithme suivant : – On définit les vecteurs z (1) , b(1) , b(2) , et les matrices EAt ⊗ bt , Ebt ⊗ At , A(1) , A(2) en fonction des αi , βi et de ω, µ4 ; – On calcule Ez ⊗2 à l’aide de (2.40) ; t – Pour h = 1, 2, . . . , on calcule Ez t ⊗ z t−h à l’aide de (2.41) ; 2 – Pour h = 0, 1, . . . , on obtient γǫ2 (h) = e′1 Ez t ⊗ z t−h - e′1 z (1) . Cet algorithme n’est bien sûr pas très performant en temps de calcul et place mémoire, mais il est facile à programmer. 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 h 2 4 6 8 10 12 h 2 4 6 8 10 12 Fig. 2.4 – Fonction d’autocorrélation (graphe de gauche) et fonction d’autocorrélation partielle (graphe de droite) du carré du modèle GARCH(1,1) : 2 0.55σt−1 , (ηt ) iid N (0, 1) ǫt = σt ηt , σt2 = 1 + 0.3ǫ2t−1 + 45 2.1 Processus GARCH(p, q) Prévisions théoriques La définition des processus GARCH en termes d’espérances conditionnelles permet de calculer les prévisions optimales du processus et de son carré sachant le passé infini. Soit (ǫt ) un processus stationnaire, GARCH(p, q) au sens de la définition 2.1. La prévision optimale (au sens L2 ) de ǫt sachant son passé infini est 0 d’après (i). Plus généralement, pour h ≥ 0 E (ǫt+h | ǫu , u < t) = E {E (ǫt+h | ǫu , u < t + h) | ǫu , u < t} = 0, t∈Z ce qui montre que la prévision optimale de toute variable du futur sachant le passé infini est nulle. Le principal intérêt des modèles GARCH ne réside évidemment pas dans la prévision de la variable elle-même mais dans celle de son carré. En utilisant (ii), la prévision optimale de ǫ2t sachant le passé infini de ǫt est σt2 et plus généralement, les prévisions à horizon h ≥ 0 s’obtiennent récursivement par 2 E(ǫ2t+h | ǫu , u < t) = E(σt+h | ǫu , u < t) q p X X 2 2 = ω+ αi E(ǫt+h−i | ǫu , u < t) + βj E(σt+h−j | ǫu , u < t) i=1 j=1 avec pour i ≤ h 2 E(ǫ2t+h−i | ǫu , u < t) = E(σt+h−i | ǫu , u < t), pour i > h et pour i ≥ h E(ǫ2t+h−i | ǫu , u < t) = ǫ2t+h−i , 2 2 E(σt+h−i | ǫu , u < t) = σt+h−i . Ces prévisions coïncident avec les prévisions linéaires optimales de ǫ2t sachant son passé infini. Nous verrons plus loin une classe de modèles GARCH en un sens plus général (GARCH faibles) pour lesquels les deux types de prévision, optimales et linéaires optimales, ne coïncident pas nécessairement. Il est important de remarquer que E(ǫ2t+h | ǫu , u < t) = Var(ǫt+h | ǫu , u < t) est la variance conditionnelle de l’erreur de prévision de ǫt+h . Ainsi, la précision des prévisions dépend-elle du passé : celle-ci est d’autant plus faible que les valeurs passées sont grandes en module (en supposant positifs les coefficients αi et βj ). Cette propriété constitue une différence notable par rapport aux ARMA standard, pour lesquels les intervalles de prévision sont d’amplitude constante en fonction des valeurs passées, pour un horizon de prévision donné. 46 Processus GARCH Les figures qui suivent permettent de vérifier cette différence à partir de simulations. Dans la figure 2.5, obtenu avec un bruit fort gaussien, les prévisions à horizon 1 sont de variance constante : l’intervalle de confiance [−1.96, 1.96] contient environ 95% des réalisations. L’utilisation d’un intervalle constant pour les trois séries suivantes, figures 2.6-2.8, conduirait à de très mauvais résultats. Au contraire, les intervalles construits ici (pour des lois conditionnelles gaussiennes, centrées et de variance σt2 ) contiennent bien 95% (environ) des observations : dans les périodes calmes un petit intervalle suffit, tandis que dans les périodes agitées l’incertitude augmente et il convient d’en tenir compte. Pour un processus GARCH fort il est possible d’aller plus loin en calculant les prévisions optimales de puissances de ǫ2t à condition de disposer des moments correspondants du processus (ηt ). Par exemple, calculer les prévisions de ǫ4t permet d’évaluer la variance des erreurs de prévision de ǫ2t . Cependant les calculs sont fastidieux, la propriété de linéarité étant perdue pour ces puissances. Lorsque le processus GARCH n’est pas directement observé mais représente l’innovation d’un processus ARMA, la précision des prévisions de ce dernier à une date t dépend directement de l’importance de l’hétéroscédasticité conditionnelle à cette date. Considérons par exemple un processus AR(1) stationnaire dont l’innovation 3 1 -1 -3 100 200 300 400 500 Fig. 2.5 – Intervalles de prévision à horizon 1, à 95%, pour le bruit blanc fort de loi N (0, 1) 47 2.1 Processus GARCH(p, q) est un processus GARCH(1,1) : Xt = φXt−1 + ǫt ǫt = σt ηt 2 2 σt = ω + αǫ2t−1 + βσt−1 (2.42) 13 8 3 -2 -7 -12 100 200 300 400 500 Fig. 2.6 – Intervalles de prévision à horizon 1, à 95%, pour le processus GARCH(1,1) simulé avec ω = 1, α = 0.1, β = 0.8 et (ηt ) de loi N (0, 1) 30 20 10 0 -10 -20 -30 100 200 300 400 500 Fig. 2.7 – Intervalles de prévision à horizon 1, à 95%, pour le processus GARCH(1,1) simulé avec ω = 1, α = 0.6, β = 0.2 et (ηt ) de loi N (0, 1) 48 Processus GARCH où ω > 0, α ≥ 0, β ≥ 0, α + β ≤ 1 et |φ| < 1. On a, pour h ≥ 0 Xt+h = ǫt+h + φǫt+h−1 + · · · + φh ǫt + φh+1 Xt−1 . Donc E(Xt+h | Xu , u < t) = φh+1 Xt−1 car le passé de Xt et celui de son innovation ǫt coïncident. De plus Var(Xt+h | Xu , u < t) = Var = h X i=0 h X i=0 ! φh−i ǫt+i | ǫu , u < t φ2(h−i) Var (ǫt+i | ǫu , u < t) . Or, Var(ǫt | ǫu , u < t) = σt2 et pour i ≥ 1 2 2 Var(ǫt+i | ǫu , u < t) = E(σt+i | ǫu , u < t) = ω + (α + β)E(σt+i−1 | ǫu , u < t) i−1 i 2 = ω{1 + · · · + (α + β) } + (α + β) σt , donc Var(ǫt+i | ǫu , u < t) = ω 1 − (α + β)i + (α + β)i σt2 , 1 − (α + β) pour tout i ≥ 0. 50 0 -50 -100 100 200 300 400 500 Fig. 2.8 – Intervalles de prévision à horizon 1, à 95%, pour le processus IGARCH(1,1) simulé avec ω = 1, α = 0.7, β = 0.3 et (ηt ) de loi N (0, 1) 49 2.1 Processus GARCH(p, q) Par suite Var(Xt+h | Xu , u < t) ! h X = φ2(h−i) h X ω ω i 2(h−i) 2 + (α + β) φ σt − 1 − (α + β) i=0 1 − (α + β) i=0 ω(1 − φ2(h+1) ) ω φ2(h+1) − (α + β)(h+1) 2 = + σ − t {1 − (α + β)}(1 − φ2 ) 1 − (α + β) φ2 − (α + β) si φ2 6= α + β et Var(Xt+h ω ω(1 − φ2(h+1) ) 2 | Xu , u < t) = + σt − (h + 1)φ2h (1 − φ2 )2 1 − (α + β) ω si φ2 = α + β. Le coefficient en facteur de σt2 − 1−(α+β) étant toujours positif, on constate que la variance de la prévision à horizon h augmente linéairement avec l’écart entre la variance conditionnelle à la date t et la variance non conditionnelle de ǫt . Un écart fortement négatif (période de faible volatilité) a donc pour effet une forte précision dans les prévisions. Inversement, cette précision se déteriore lorsque σt2 est grand. Lorsque l’horizon h augmente l’importance de ce facteur diminue. Si h tend vers l’infini, on retrouve la variance non conditionnelle de Xt : lim Var(Xt+h | Xu , u < t) = Var(Xt ) = h→∞ Var(ǫt ) . 1 − φ2 Considérons maintenant deux cas non stationnaires. Si |φ| = 1, et en initialisant, par exemple à 0, toutes les variables des dates négatives (car ici, les passés infinis de Xt et ǫt ne coïncident pas) on vérifie facilement que la formule précédente devient Var(Xt+h | Xu , u < t) ωh ω 1 − (α + β)(h+1) 2 = + σt − . {1 − (α + β)} 1 − (α + β) 1 − (α + β) Donc l’impact des observations antérieures à la date t ne disparaît pas quand h augmente. Il devient cependant négligeable devant la partie déterministe proportionnelle à h. Si |φ| < 1 et α + β = 1 (erreurs IGARCH(1,1)), on a Var(ǫt+i | ǫu , u < t) = ωi + σt2 , pour tout i ≥ 0 et on voit que l’impact des variables passées sur la variance des prévisions reste constant lorsque l’horizon augmente. On parle de persistance des chocs sur la volatilité. Notons cependant que, comme dans le cas précédent, la partie non aléatoire dans la décomposition de Var(ǫt+i | ǫu , u < t) devient prépondérante lorsque l’horizon tend vers l’infini. La précision asymptotique des prévisions de ǫt est nulle, et il en est de même pour Xt car Var(Xt+h | Xu , u < t) ≥ Var(ǫt+h | ǫu , u < t). 50 2.2 Processus GARCH Asymétries Les modèles GARCH “classiques” de la partie précédente reposent sur une modélisation de la variance conditionnelle comme fonction affine du carré des innovations passées. Cette spécification a le mérite de capter deux caractéristiques importantes des séries financières - succession de périodes calmes et turbulentes, leptokurticité des distributions marginales - tout en étant suffisamment simple pour permettre une étude étendue des propriétés probabilistes et statistiques du modèle. Du point de vue empirique, la modélisation GARCH classique présente une lacune importante. Par construction, en effet, la variance conditionnelle ne dépend que du module des variables passées : l’effet sur la volatilité de la date présente des innovations passées positives et négatives est donc identique. Cette propriété est en contradiction avec avec de nombreuses études sur les séries d’action, qui mettent en évidence une corrélation négative entre le carré des innovations de la date présente et les innovations passées : si la distribution conditionnelle était symétrique en les variables passées, cette corrélation serait nulle. Or, on observe une asymétrie marquée : l’accroissement de volatilité dû à une baisse des prix est généralement supérieur à celui résultant d’une hausse de même ampleur. Cette symétrie des modèles GARCH standard a la traduction suivante en termes de corrélations. Dès que le processus (ηt ) est de loi symétrique, et sous hypothèse de stationnarité au second-odre : cov(σt , ǫt−h ) = 0, (2.43) h > 0, car σt est une fonction paire du passé de ǫt . Or si on introduit les composantes positive et négative des innovations ǫ+ t = max(ǫt , 0), ǫ− t = min(ǫt , 0) on voit facilement que (2.43) équivaut à − cov(ǫ+ t , ǫt−h ) = cov(ǫt , ǫt−h ) = 0, h > 0. Cette propriété des autocovariances, facile à vérifier empiriquement, est souvent rejetée sur les séries financières. A titre d’exemple, on obtient pour la série des rendements en logarithme de l’indice CAC40, (ǫt = log(pt /pt−1 )), présentée au chapitre 1 : L’absence de corrélations significatives ainsi que la corrélation des modules ou carrés des innovations, propriétés à la base de la construction des modèles GARCH 51 2.2 Asymétries Tab. 2.2 – Autocorrélations empiriques (série du CAC 40, période 88-98) h 1 2 3 4 5 10 20 40 ρ(ǫt , ǫt−h ) 0.030 0.005 −0.032 0.028 −0.046∗ 0.016 0.003 −0.019 ρ(|ǫt |, |ǫt−h |) 0.090∗ 0.100∗ 0.118∗ 0.099∗ 0.086∗ 0.118∗ 0.055∗ 0.032 ∗ ∗ ∗ ∗ ρ(ǫ+ , ǫ ) 0.011 −0.094 −0.148 −0.018 −0.127 −0.039 −0.026 −0.064∗ t−h t Les astérisques indiquent les paramètres statistiquement significatifs au niveau 5% en utilisant 1/n comme approximation de la variance des autocorrélations et pour n égal à 2380. standard, apparaît assez clairement sur ces données. Toute aussi évidente est l’existence d’une asymétrie dans l’impact des innovations passées sur la volatilité de la date présente. Plus précisément, en admettant la stationnarité faible du processus (ǫt ) et l’existence d’une décomposition ǫt = σt ηt , où (ηt ) est une suite de variables iid et σt une fonction mesurable positive du passé de ǫt on a + − ρ(ǫ+ t , ǫt−h ) = Kcov(σt , ǫt−h ) = K[cov(σt , ǫt−h ) + cov(σt , ǫt−h )] où K est une constante positive. Or, sauf pour h = 1 pour lequel l’autocorrélation n’est pas significative, les estimations de ρ(ǫ+ t , ǫt−h ) sont significativement négatives : donc − cov(σt , ǫ+ t−h ) < cov(σt , −ǫt−h ). On met ainsi en évidence un plus forte dépendance de la volatilité présente aux baisses de prix passées qu’aux hausses de même ampleur. Les modèles de type GARCH que nous allons considérer dans cette partie permettent d’incorporer cette propriété d’asymétrie. 2.2.1 Modèles GARCH exponentiels (EGARCH) La définition suivante est calquée sur celle des GARCH forts. Définition 2.3 (Processus EGARCH(p, q)) Soit (ηt ) une suite de variables iid telles que E(ηt ) = 0 et Var(ηt ) = 1. On dit que (ǫt ) est un processus GARCH exponentiel (exponential GARCH(p, q)) s’il vérifie une équation de la forme ǫt = σt ηt P P (2.44) 2 2 log σt = ω + qi=1 αi g(ηt−i ) + pj=1 βj log σt−j où g(ηt−i ) = θηt−i + γ[|ηt−i | − E|ηt−i |], ω, αi , βj , θ et γ sont des réels. Remarques. (2.45) 52 Processus GARCH 1. La modélisation de la volatilité σt2 ω =e q Y exp{αi g(ηt−i )} i=1 p Y 2 σt−j j=1 βj est ici multiplicative. Ce choix permet a priori d’éviter les conditions de positivité sur les coefficients, le logarithme pouvant être de signe quelconque. 2. L’interprétation usuelle selon laquelle des innovations de grand module accroissent la volatilité impose cependant des contraintes sur les coefficients. 2 Afin de rendre σt2 fonction croissante des σt−j on imposera βj ≥ 0. La fonction g(ηt−i ) est croissante en |ηt−i |, à signe de ηt−i fixé, si et seulement si γ + θ > 0 et −γ + θ < 0. Sous cette hypothèse et si αi ≥ 0, σt2 est une fonction croissante de ηt−i . On obtient finalement les contraintes suivantes −γ < θ < γ, αi ≥ 0, βj ≥ 0. (2.46) 3. L’asymétrie est prise en compte par l’intermédiaire du coefficient θ. La volatilité ne dépend que du module des ηt−i lorsque θ = 0. Si maintenant, par exemple, θ < 0 et log σt2 = ω + θηt−1 , il est clair que si ηt−1 < 0, c’est à dire ǫt−1 < 0, la variable log σt2 sera au dessus de sa moyenne tandis qu’elle sera en dessous si ǫt−1 > 0. On retrouve donc la propriété des séries financières signalée en début de partie. 4. Une autre différence par rapport aux GARCH classiques réside dans l’écriture de la variance conditionnelle comme fonction des innovations normalisées (divisées par leur écart-type conditionnel), plutôt que fonction des innovations passées. En particulier, log σt2 est un processus ARMA au sens fort (d’ordre (p, q − q ′ ) si q ′ est le premier indice i tel que αi 6= 0), car (g(ηt )) est un bruit blanc indépendant, de variance Var[g(ηt )] = θ2 + γ 2 Var(|ηt |) + 2θγCov(ηt , |ηt |). D’autres spécifications de la fonction g(·) peuvent être envisagées selon le type de propriétés empiriques que l’on souhaite reproduire. Le résultat suivant ne dépend pas de la spécification retenue pour g(·). Théorème 2.7 (Stationnarité stricte du modèle EGARCH(p, q)) Si θ et q p X X γ sont non tous deux nuls, les polynômes α(z) = αi z i et β(z) = 1 − βi z i i=1 i=1 n’ont pas de racine commune, α(z) est non identiquement nul, β(z) a toutes ses racines de module strictement supérieur à 1, le modèle EGARCH(p, q) défini en (2.44) admet une solution strictement stationnaire et non anticipative. Si E{g(ηt )}2 < ∞ cette solution vérifie E(log ǫ2t ) < ∞. 53 2.2 Asymétries Preuve : On a log ǫ2t = log σt2 + log ηt2 . Les hypothèses sur les polynômes retard permettent d’exprimer de manière unique log σt2 en fonction de ηt−1 et de son passé infini sous forme moyenne mobile infinie : log σt2 ∗ =ω + ∞ X (2.47) λi g(ηt−i ), i=1 Les processus (log σt2 ) et (log ǫ2t ) sont par suite strictement stationnaires, et stationnaires au second ordre sous la condition E(log ǫ2t ) < ∞. 2 Remarquons que la condition E{g(ηt)}2 < ∞ est évidemment vérifiée dans le cas de la spécification (2.45). Théorème 2.8 (Stationnarité au 2nd ordre du modèle EGARCH(p, q)) Sous les hypothèses du Théorème 2.7, (2.45), (2.46) et si de plus 0< ∞ Y i=1 où gη (x) = E[exp{xg(ηt )}] et les λi sont définis par est un bruit blanc de variance E(ǫ2t ) = (2.48) gη (λi ) < ∞ E(σt2 ) ω∗ =e ∞ Y α(L) β(L) = P∞ i=1 λi Li , alors (ǫ2t ) gη (λi ) i=1 où ω ∗ = ω . β(1) Preuve : D’après le développement (2.47) on a ǫ2t = σt2 ηt2 = eω ∗ ∞ Y exp{λi g(ηt−i)}ηt2 . (2.49) i=1 Remarquons que les coefficients λi sont positifs sous l’hypothèse (2.46). On a donc ǫ2t = eω ∗ ∞ Y i=1 exp{λi (θηt−i + γ|ηt−i |)} ∞ Y i=1 exp{−λi γE|ηt |)}ηt2 . (2.50) 54 Processus GARCH où le premier produit infini est limite croissante, en vertu des conditions (2.46), N Y de la suite exp{λi (θηt−i + γ|ηt−i |)}. Le second produit est un réel positif car la i=1 somme des λi converge. Le théorème de Beppo-Levi permet de conclure que Eǫ2t = eω ∗ ∞ Y i=1 E exp{λi (θηt−i + γ|ηt−i |)} ∞ Y i=1 exp{−λi γE|ηt |)} = eω ∗ ∞ Y gη (λi ). i=1 2 Remarques : 1. Dans le cas où βj = 0 pour j = 1, . . . , p (modèle EARCH(q)), les coefficients λi s’annulent pour i > q. Donc la condition (2.48) est toujours vraie, pourvu que gη (αi ) soit fini, pour i = 1, . . . , q. Si les queues de la loi de ηt ne sont pas trop épaisses (la condition est en défaut pour une loi de Student et la spécification (2.45)), un processus EARCH(q) est donc stationnaire, au sens strict et au second ordre, quels que soient les coefficients αi . 2. Si la loi des variables ηt est N (0, 1), et si g(·) vérifie (2.45), un calcul classique d’intégrale montre que 2 λi (θ + γ)2 1/2 gη (λi ) = exp{−λi γ(2/π) } exp Φ{λi (θ + γ)} 2 2 λi (θ − γ)2 Φ{λi (γ − θ)} + exp 2 où Φ désigne la fonction de répartition de la loi N (0, 1). Comme les λi résultent de l’inversion du polynôme β(.), ils décroissent exponentiellement vite vers zéro. On vérifie donc facilement que (2.48) est vraie dans ce cas, sans hypothèse supplémentaire sur les coefficients du modèle. Les conditions de stationnarité stricte et au second-ordre coïncident donc dans ce cas, contrairement à ce qui se passe dans le cas des processus GARCH standard. Théorème 2.9 (Moments du processus EGARCH(p, q)) Soit m un entier positif. Sous les conditions du Théorème 2.8 et si ∞ Y µ2m = E(ηt2m ) < ∞, i=1 gη (mλi ) < ∞, (ǫ2t ) admet un moment à l’ordre m donné par E(ǫ2m t ) mω ∗ = µ2m e ∞ Y i=1 gη (mλi ). 55 2.2 Asymétries Preuve : similaire à celle du Théorème 2.8 et utilisant (2.49). 2 Le calcul précédent montre que, dans le cas gaussien, tous les moments existent. Le modèle n’est alors pas adapté à la prise en compte de la propriété de leptokurticité. La structure d’autocorrélation du processus (log ǫ2t ) peut être obtenue en tirant parti de la forme ARMA de l’équation de log σt2 . On obtient en effet, en remplaçant 2 2 dans cette équation les log σt−j par log ǫ2t−j − log ηt−j log ǫ2t =ω+ log ηt2 + q X αi g(ηt−i ) + i=1 p X βj log ǫ2t−j j=1 − p X 2 βj log ηt−j . j=1 Posons vt = log ǫ2t − p X βj log ǫ2t−j = ω + log ηt2 + j=1 q X i=1 αi g(ηt−i ) − p X 2 βj log ηt−j . j=1 On vérifie facilement que (vt ) est de variance finie. Comme vt ne dépend que d’un nombre r fini (r = max(p, q)) de valeurs passées de ηt , il est clair que Cov(vt , vt−k ) = 0 pour k > r. Donc (vt ) est un processus MA(r) (avec terme constant) et par suite (log ǫ2t ) est un ARMA(p, r). Ce résultat présente des similitudes avec le cas des GARCH classiques, pour lesquels nous savons qu’une écriture ARMA(r, p) existe pour ǫ2t . Outre l’inversion des entiers r et p, il est important de noter que le bruit de l’équation ARMA d’un GARCH est l’innovation forte du carré, tandis que celui intervenant dans l’équation ARMA d’un EGARCH n’est généralement pas l’innovation de log ǫ2t . Sous cette réserve, la représentation ARMA peut être utile pour l’identification des ordres p et q ainsi que pour l’estimation des paramètres βj et αi (mais ces derniers n’apparaissent pas explicitement dans la représentation). Les autocorrélations de (ǫ2t ) s’obtiennent à partir de la formule (2.49). On a, sous réserve d’existence, pour h > 0 ( h−1 Y 2 2 2ω ∗ 2 E(ǫt ǫt−h ) = E e exp{λi g(ηt−i )}ηt2 ηt−h exp{λi g(ηt−h )} × 2ω ∗ = e i=1 ∞ Y exp{(λi + λi−h )g(ηt−i )} i=h+1 h−1 Y i=1 2 gη (λi )E(ηt2 ηt−h ) exp{λi g(ηt−h )}) ∞ Y i=h+1 gη (λi + λi−h ), 56 Processus GARCH le premier produit étant remplacé par 1 si h = 1. Ceci permet d’obtenir, pour h>0 "h−1 ∞ Y Y ∗ 2 Cov(ǫ2t , ǫ2t−h ) = e2ω gη (λi )E(ηt−h exp{λi g(ηt−h )}) gη (λi + λi−h ) i=1 − 2.2.2 ∞ Y i=1 i=h+1 # {gη (λi )}2 . Modèles GARCH à seuil (TGARCH) Une façon naturelle d’introduire l’asymétrie est de spécifier la variance conditionnelle en fonction des composantes positive et négative des innovations passées. Notons ǫ+ ǫ− t = max(ǫt , 0), t = min(ǫt , 0) − ces composantes, en remarquant que ǫt = ǫ+ t + ǫt . Définition 2.4 (Processus TGARCH(p, q)) Soit (ηt ) une suite de variables iid telles que E(ηt ) = 0 et Var(ηt ) = 1. On dit que (ǫt ) est un processus GARCH à seuil (Threshold GARCH(p, q)) s’il vérifie une équation de la forme ǫt = σt ηt P Pp (2.51) − σt = ω + qi=1 αi,+ ǫ+ t−i − αi,− ǫt−i + j=1 βj σt−j où ω, αi,+ , αi,− et βi sont des réels. Remarques. 1. Sous les contraintes ω > 0, αi,+ ≥ 0, αi,− ≥ 0, βi ≥ 0 (2.52) la variable σt est toujours strictement positive et s’interprète comme l’écarttype conditionnel de ǫt . Comme dans le cas GARCH classique, ces contraintes peuvent être affaiblies. Dans tous les cas, l’écart-type conditionnel de ǫt est |σt | : il n’est pas nécessaire d’imposer la positivité de σt (par opposition aux GARCH classiques fondés sur la modélisation de σt2 ). 2. A travers les coefficients αi,+ et αi,− , la volatilité présente dépend à la fois du module et du signe des innovations passées. La modélisation est suffisamment souple pour permettre une asymétrie différente selon l’écart i entre dates passées et date présente. Notons également que cette classe contient 57 2.2 Asymétries comme cas particuliers des modèles ne présentant pas d’asymétrie et dont les propriétés sont similaires à celles des GARCH. Il suffit en effet d’imposer pour tout i = 1, . . . , q, αi,+ = αi,− := αi pour obtenir σt = ω + q X i=1 αi |ǫt−i | + p X βj σt−j j=1 − (puisque |ǫt | = ǫ+ t − ǫt ). Les modèles TGARCH présentent des propriétés de linéarité analogues à celles des GARCH. Remarquons d’abord que sous les hypothèses de positivité (2.52) on a + ǫ+ t = σt ηt , − ǫ− t = σt ηt (2.53) ce qui permet d’écrire l’écart-type conditionnel sous la forme max{p,q} σt = ω + X ai (ηt−i )σt−i i=1 où ai (z) = αi,+ z + − αi,− z − + βi , i = 1, . . . , max{p, q}. Stationnarité du modèle TGARCH(1,1) L’étude de la stationnarité du processus TGARCH(1,1) découle de cette écriture et de l’analyse menée dans le cas des GARCH(1,1). La condition de stationnarité stricte sécrit E[log(α1,+ ηt+ − α1,− ηt− + β1 )] < 0. En particulier, pour le modèle TARCH(1) (β1 = 0) on a log(α1,+ ηt+ − α1,− ηt− ) = log(α1,+ )IIηt >0 + log(α1,− )IIηt <0 + log |ηt | donc, si (ηt ) est de loi symétrique l’espérance des deux variables indicatrices vaut 1/2 et la condition de stationnarité stricte devient α1,+ α1,− < e−2E log |ηt | . La condition de stationnarité au second ordre est E[(α1,+ ηt+ − α1,− ηt− + β1 )2 ] < 1 et peut être explicitée en fonction des deux premiers moments de ηt+ et ηt− . Par exemple si ηt est de loi N (0, 1) on obtient 1 2 2β1 2 (α1,+ + α1,− ) + √ (α1,+ + α1,− ) + β12 < 1. 2 2π 58 Processus GARCH Comme dans le cas GARCH(1,1), la condition de stationnarité au second ordre est plus forte que celle de stationnarité stricte. Sous l’hypothèse de stationnarité au second ordre, on voit facilement que la propriété de symétrie (2.43) est violée. En supposant symétrique la distribution de ηt , on a par exemple pour le modèle TARCH(1,1) : + 2 2 − 2 cov(σt , ǫt−1 ) = α1,+ E(ǫ+ t−1 ) − α1,− E(ǫt−i ) = (α1,+ − α1,− )E(ǫt−i ) 6= 0 dès que α1,+ 6= α1,− . Stationnarité stricte du modèle TGARCH(p, q) L’étude du cas général repose sur une représentation analogue à (2.16) obtenue en + ǫt−i 2 remplaçant dans le vecteur z t les variables ǫ2t−i par et les σt−i par σt−i , −ǫ− t−i et en modifiant de manière adéquate bt et At . Plus précisément, en utilisant (2.53) on obtient (2.54) z t = bt + At z t−1 , où bt = b(ηt ) = et ωηt+ −ωηt− 0 .. . ω 0 .. . 0 ∈ Rp+2q , ǫ+ t −ǫ− t .. . + ǫ z t = t−q+1 −ǫ− t−q+1 σt .. . σt−p+1 ∈ Rp+2q , 59 2.2 Asymétries At = α1,+ ηt+ α1,− ηt+ · · · − −α1,+ ηt −α1,− ηt− · · · 1 0 ··· 0 1 0 ··· ··· ··· .. . .. . .. 0 ... 1 α1,+ α1,− 0 ··· 0 .. . .. 0 . αq,+ ηt+ αq,− ηt+ β1 ηt+ − − −αq,+ ηt −αq,− ηt −β1 ηt− 0 0 0 .. . 0 0 .. . 0 0 0 ... αq,+ αq,− β1 ··· 0 0 1 ··· ··· 0 0 0 0 .. . .. . .. . .. 0 0 ... .. . ... 0 ··· .. . . βp ηt+ −βp ηt− 0 ··· ··· ··· .. 0 .. . . 0 0 βp ··· 0 0 .. . . 1 0 (2.55) est une matrice de dimension (p + 2q) × (p + 2q). Théorème 2.10 (Stationnarité stricte du modèle TGARCH(p, q)) Une condition nécessaire et suffisante d’existence d’un processus TGARCH(p, q) strictement stationnaire, solution non anticipative du modèle (2.51) est que γ < 0, où γ est le plus grand exposant de Lyapounov de la suite {At , t ∈ Z} définie par (2.55). Cette solution stationnaire non anticipative, lorsque γ < 0, est unique et ergodique. Preuve : L’adaptation de la partie suffisante de la preuve du Théorème 2.4 est immédiate. Pour la partie nécessaire on remarque que les termes des matrices At , bt et z t sont positifs. Ceci permet d’obtenir comme précédemment que A0 . . . A−k b−k−1 tend presque sûrement vers 0 quand k → ∞. Or b−k−1 = + − ωη−k−1 e1 − ωη−k−1 e2 + ωe2q+1 . Donc, en utilisant la positivité, on a + lim A0 . . . A−k ωη−k−1 e1 = k→∞ = − lim A0 . . . A−k ωη−k−1 e2 k→∞ lim A0 . . . A−k ωe2q+1 = 0, k→∞ p.s. On en déduit que limk→∞ A0 . . . A−k ei = 0, p.s. pour i = 1, . . . 2q + 1 par récurrence, de manière similaire au cas GARCH. 2 60 2.3 Processus GARCH Agrégation temporelle La plupart des séries économiques, et plus particulièrement les séries financières, sont analysées à différentes fréquences (jour, semaine, mois..). Le choix de la fréquence d’observation a souvent une importance cruciale quant aux propriétés de la série étudiée et, par suite, au type de modèle adapté. Dans le cas des modèles GARCH, les travaux empiriques font généralement apparaître une persistance plus forte lorsque la fréquence augmente. Nous prenons comme cadre de travail la formulation classique de la volatilité mais il est clair que les classes de modèles asymétriques vues précédemment pourraient être étudiées de la même façon. Du point de vue théorique, le problème de l’agrégation temporelle peut être posé de la manière suivante : étant donnés un processus (Xt ) et un entier m, quelles sont les propriétés du processus échantillonné (Xmt ) (i.e. construit à partir de (Xt ) en ne retenant que les dates multiples de m) ? Lorsque, pour tout entier m et pour tout modèle d’une classe donnée, admettant (Xt ) comme solution, il existe un modèle de la même classe dont (Xmt ) soit solution, cette classe est dite stable par agrégation temporelle. Un exemple très simple de modèle stable par agrégation temporelle est évidemment le bruit blanc (fort ou faible) : la propriété d’indépendance (ou de non corrélation) subsiste lorsque l’on passe d’un fréquence donnée à une fréquence plus faible. Par contre, les modèles ARMA au sens fort ne sont généralement pas stables par agrégation temporelle. Ce n’est qu’en relâchant l’hypothèse d’indépendance du bruit (ARMA faibles) qu’on obtient l’agrégation temporelle. 2.3.1 Agrégation temporelle des processus GARCH Nous allons voir dans cette partie que, comme la plupart des modèles forts (i.e. fondés sur un bruit blanc iid), les modèles GARCH au sens fort ou semi-fort (i.e. au sens de la définition 1), ne sont pas stables par agrégation : un modèle GARCH à une fréquence donnée n’est pas compatible avec un modèle GARCH à une autre fréquence. Comme pour les ARMA, on obtient l’agrégation temporelle en travaillant sur une classe plus large. Non agrégation temporelle des modèles forts : l’exemple de l’ARCH(1). Considérons une solution (ǫt ) du modèle : ǫt = {ω + αǫ2t−1 }1/2 ηt , avec 0 < α < 1, (ηt ) iid(0,1), E(ηt4 ) = µ4 < ∞. On obtient facilement le modèle vérifié par les variables des dates paires : 2 2 ǫ2t = {ω(1 + αη2t−1 ) + α2 ǫ22(t−1) η2t−1 }1/2 η2t . 61 2.3 Agrégation temporelle On en déduit que E(ǫ2t |ǫ2(t−1) , ǫ2(t−2) , . . .) = 0 Var(ǫ2t |ǫ2(t−1) , ǫ2(t−2) , . . .) = ω(1 + α) + α2 ǫ22(t−1) car η2t et η2t−1 sont indépendantes des variables intervenant dans le conditionnement. Ainsi, le processus (ǫ2t ) est un GARCH au sens semi-fort (définition 1). Il sera de plus un GARCH fort si le processus ǫ2t divisé par son écart-type conditionnel ǫ2t η̃t = {ω(1 + α) + α2 ǫ22(t−1) }1/2 est iid. On a vu que E(η̃t |ǫ2(t−1) , ǫ2(t−2) , . . .) = 0 et E(η̃t2 |ǫ2(t−1) , ǫ2(t−2) , . . .) = 1 mais E(η̃t4 |ǫ2(t−1) , ǫ2(t−2) , . . .) = µ4 ω 2 (1 + α)2 + 2ω(1 + αµ4)α2 ǫ22(t−1) + µ4 α4 ǫ42(t−1) = µ4 1 + {ω(1 + α) + α2 ǫ22(t−1) }2 (µ4 − 1)α3 ǫ22(t−1) (αǫ22(t−1) + 2ω) {ω(1 + α) + α2 ǫ22(t−1) }2 ! Cette quantité est clairement non constante, sauf lorsque α = 0 (pas d’effet ARCH) ou µ4 = 1 (ηt2 = 1, p.s.). Ceci prouve que le processus (η̃t ) n’est généralement pas iid. Le processus (ǫ2t ) n’est donc pas un GARCH fort, bien que (ǫt ) le soit. Au vu de cet exemple, il pourrait sembler que les processus GARCH forts s’agrègent dans la classe des GARCH semi-forts. L’exemple suivant montre qu’il n’en est rien. Non agrégation temporelle des GARCH forts dans la classe des GARCH semi-forts. Considérons le modèle ARCH(2) fort. Soit (ǫt ) la solution non anticipative, stationnaire au second ordre du modèle : ǫt = {ω + α1 ǫ2t−1 + α2 ǫ2t−2 }1/2 ηt , ω, α1, α2 > 0, α1 + α2 < 1, avec les mêmes hypothèses sur (ηt ) que précédemment. La représentation AR(2) vérifiée par le processus (ǫ2t ) s’écrit d’après (2.4), ǫ2t = ω + α1 ǫ2t−1 + α2 ǫ2t−2 + νt (2.56) où (νt ) est l’innovation forte de (ǫ2t ). En utilisant l’opérateur retard, ce modèle s’écrit (1 − λ1 L)(1 + λ2 L)ǫ2t = ω + νt 62 Processus GARCH où λ1 et λ2 sont des réels positifs (tels que λ1 − λ2 = α1 et λ1 λ2 = α2 ). Multipliant cette équation par (1 + λ1 L)(1 − λ2 L), il vient (1 − λ21 L2 )(1 − λ22 L2 )ǫ2t = ω(1 + λ1 )(1 − λ2 ) + (1 + λ1 L)(1 − λ2 L)νt , soit (1 − λ21 L)(1 − λ22 L)yt2 = ω ∗ + vt , en posant ω ∗ = ω(1 + λ1 )(1 − λ2 ), vt = ν2t + (λ1 − λ2 )ν2t−1 − λ1 λ2 ν2t−2 et yt = ǫ2t . On remarque que (vt ) est un processus MA(1), qui vérifie Cov(vt , vt−1 ) = Cov {ν2t + (λ1 − λ2 )ν2t−1 − λ1 λ2 ν2t−2 , ν2t−2 + (λ1 − λ2 )ν2t−3 − λ1 λ2 ν2t−4 } = −λ1 λ2 Var(νt ). Par suite (vt ) s’écrit vt = ut −θut−1 où (ut ) est un bruit blanc et θ est une constante dépendant de λ1 et λ2 . Finalement, yt2 = ǫ22t vérifie le modèle ARMA(2,1) : ǫ22t = ω ∗ + (λ21 + λ22 )ǫ22(t−1) − λ21 λ22 ǫ22(t−2) + ut − θut−1 . (2.57) Les ordres du modèle ARMA sont compatibles avec un modèle GARCH(1,2) semifort pour (ǫ2t )t , de variance conditionnelle : σt2 = Var(ǫ22t | ǫ22(t−1) , ǫ22(t−2) , . . .) 2 = ω̃ + α̃1 ǫ22(t−1) + α̃2 ǫ22(t−2) + β̃σt−1 , ω̃ > 0, α̃1 ≥ 0, α̃2 ≥ 0, β̃ ≥ 0. Si (ǫ2t )t était un tel GARCH(1,2) semi-fort, la représentation ARMA(2,1) correspondante serait alors, d’après (2.4), ǫ22t = ω̃ + (α̃1 + β̃)ǫ22(t−1) + α̃2 ǫ22(t−2) + ν̃t − β̃ ν̃t−1 . Cette équation est incompatible avec (2.57) en raison du signe du coefficient de ǫ22(t−2) . Nous en concluons que si (ǫt ) est un ARCH(2) fort, (ǫ2t ) n’est jamais un GARCH semi-fort. L’exemple précédent montre que le processus agrégé d’un GARCH fort (ou semifort) admet une représentation ARMA. Cela nous conduit aux définitions suivantes. Définition 2.5 (GARCH faible) Soit (ǫt ) un processus stationnaire à l’ordre 4. On dit que (ǫt ) est un GARCH(r, p) au sens faible si (i) (ǫt ) est un bruit blanc ; 63 2.3 Agrégation temporelle (ii) (ǫ2t ) admet une représentation ARMA de la forme ǫ2t − r X ai ǫ2t−i i=1 = c + νt − p X bi νt−i i=1 où (νt ) est l’innovation linéaire de (ǫ2t ). Rappelons que la propriété d’innovation linéaire implique que Cov(νt , ǫ2t−k ) = 0, ∀k > 0. D’après (2.4), les processus GARCH(p, q) semi-forts vérifient, sous la condition de stationnarité au 4ème ordre, la définition précédente avec r = max(p, q). L’innovation linéaire coïncide dans ce cas avec l’innovation forte : νt est donc non corrélé avec toute variable du passé de ǫt (pourvu que cette corrélation existe). La classe des GARCH faibles ne se limite pas aux processus GARCH et à leur agrégés temporels. Avant de revenir à l’agrégation temporelle, nous donnons d’autres exemples de GARCH faibles. Exemple 2.1 (GARCH avec erreur de mesure) Supposons qu’un processus GARCH soit observé avec erreur de mesure. On a donc ǫt = et + Wt , σt2 et = σt Zt , =c+ q X ′ ai e2t−i + i=1 p X 2 bi σt−i (2.58) i=1 où Wt est interprété comme une erreur de mesure. Pour simplifier on supposera que les suites (Zt ) 2 et (Wt ) sont mutuellement indépendantes, iid et centrées, de variances 1 et σW respectivement. On montre que (ǫt ) est un processus GARCH faible de la forme max{p,q} max{p,q} max{p,q} X X X 2 ǫ2t − (ai + bi )ǫ2t−i = c + 1 − ai + bi σW + ut + βi ut−i i=1 i=1 i=1 où les βi sont différents des −bi , sauf lorsque σW = 0. Il est intéressant de noter que la partie AR dans cette représentation n’est pas affectée par la présence de la perturbation Wt . Notons enfin que les GARCH avec erreur de mesure ne sont pas faciles à estimer car la vraisemblance n’a pas de forme explicite. Des méthodes utilisant les moindres carrés, le filtre de Kalman ou des simulations ont été proposées pour estimer ces modèles. Exemple 2.2 (GARCH quadratique) Considérons la modification du modèle GARCH semi-fort donnée par E(ǫt |ǫt−1 ) = 0 et E(ǫ2t |ǫt−1 ) = σt2 = c+ q X i=1 ai ǫt−i !2 + p X i=1 2 bi σt−i , (2.59) 64 Processus GARCH où les constantes bi sont positives. Soit ut = ǫ2t − σt2 . Les ut sont non corrélés entre eux ainsi qu’avec toute variable du futur (par l’hypothèse de différence de martingale) et du passé de ǫt (par l’hypothése sur la variance conditionnelle). L’équation de σt2 peut se réécrire sous la forme max{p,q} ǫ2t 2 =c + X (a2i + bi )ǫ2t−i + vt , i=1 où vt = 2c q X ai ǫt−i + i=1 X i6=j ai aj ǫt−i ǫt−j + ut − p X bi ut−i . (2.60) i=1 Il est facile de vérifier que (vt ) est un processus MA(max{p, q}). Par suite, (ǫt ) est un GARCH(max{p, q}, max{p, q}) faible. Exemple 2.3 (GARCH à changement de régime markovien) Les modèles à changement de régime markovien (ARMA, GARCH ou autre) font dépendre les coefficients d’une chaîne de Markov, afin de prendre en compte des changements apparents de dynamique de la série. La chaîne n’est pas observée lors de l’inférence statistique, on parle donc de chaîne de Markov cachée. Dans le cadre des modèles GARCH, le cas le plus simple de modèle à changement de régime markovien est celui où seul le paramètre ω dépend de la chaîne. Plus précisément, soit ∆t une chaîne de Markov à valeurs dans 0, 1, . . . , K − 1. On suppose la chaîne homogène, stationnaire irréductible, apériodique et on note pij = P [∆t = j|∆t−1 = i], pour i, j = 0, 1, . . . , K − 1, ses probabilités de transition. Le modèle considéré est donné par ǫt = σt ηt , σt2 = µ(∆t ) + q X ai ǫ2t−i + i=1 avec ω(∆t ) = K X ωi 1{∆t =i−1} , p X 2 bi σt−i (2.61) i=1 0 < ω1 < ω2 < . . . < ωK , (2.62) i=1 où (ηt ) est un processus iid (0,1) admettant des moments à l’ordre 4, la suite (ηt ) étant par ailleurs indépendante de (∆t ). Des calculs fastidieux (voir Francq et Zakoïan (1997)) montrent que (ǫt ) est un processus GARCH(max{p, q} + K − 1, p + K − 1) faible de la forme ! max{p,q} p+K−1 K−1 Y X X i 2 i (1 − λk L) I − (ai + bi )L ǫt = ω + I + βi L u t (2.63) i=1 k=1 i=1 où λ1 , . . . , λK−1 sont les valeurs propres différentes de 1 de la matrice P = (pji ). Les βi n’ont généralement pas une expression simple en fonction des paramètres initiaux, mais peuvent être obtenus numériquement à partir des premières autocorrélations du processus (ǫ2t ). Exemple 2.4 (Modèle à volatilité stochastique) Un exemple de modèle à volatilité stochastique est donné par ǫt = σt ηt , 2 2 σt2 = c + dσt−1 + (a + bσt−1 )vt , c, d, b > 0, a ≥ 0. (2.64) 65 2.3 Agrégation temporelle où (ηt ) et (vt ) sont des suites iid (0,1), avec ηt indépendant des vt−j , j ≥ 0. Remarquons que le 2 GARCH(1,1) est obtenu en prenant vt = Zt−1 − 1 et a = 0. Sous l’hypothèse d2 + b2 < 1, on 2 montre que la structure d’autocovariance de (ǫt ) est caractérisée par Cov(ǫ2t , ǫ2t−h ) = dCov(ǫ2t , ǫ2t−h+1 ), ∀h > 1. Par suite (ǫt ) est un processus GARCH(1,1) faible, avec ǫ2t − dǫ2t−1 = c + ut + βut−1 (2.65) où (ut ) est un bruit blanc faible et β peut être calculé explicitement. Exemple 2.5 (Processus β-ARCH) Diebolt et Guégan (1991) ont introduit le modèle AR(1) conditionnellement hétéroscédastique défini par Xt = φXt−1 + (c + a|Xt−1 |2β )1/2 ηt , |φ| < 1, c > 0, a ≥ 0, où (ηt ) est une suite iid (0,1) de loi symétrique. Une différence par rapport au modèles ARCH standard est que la variance conditionnelle de Xt est écrite en fonction de Xt−1 et non en fonction du bruit. Supposons β = 1 et posons 2 )1/2 ηt . ǫt = (c + aXt−1 On a 2 X ǫ2t = c + a φi−1 ǫt−i + ut i≥1 où ut = ǫ2t − E(ǫ2t | ǫu , u < t). En développant le terme au carré on obtient la représentation [1 − (φ2 + a)L]ǫ2t = c(1 − φ2 ) + vt − φ2 vt−1 P où vt = a i,j≥1,i6=j φi+j−2 ǫt−i ǫt−j + ut . On remarque que la processus (vt − φ2 vt−1 ) est un MA(1). Par suite (ǫ2t ) est un ARMA(1,1). Finalement le processus (Xt ) admet une représentaion AR(1)-GARCH(1,1) faible. La classe des GARCH faibles est stable par agrégation. Nous le montrons pour le cas GARCH(1,1). Proposition 2.1 (Agrégation du GARCH(1,1)) Soit (ǫt ) un processus GARCH(1,1) au sens faible. Alors, pour tout entier m ≥ 1 le processus (ǫmt ) est également un processus GARCH(1,1) faible. Les paramètres des représentations ARMA ǫ2t − aǫ2t−1 = c + νt − bνt−1 et ǫ2mt − a(m) ǫ2m(t−1) = c(m) + ν(m),t − b(m) ν(m),t−1 sont liés par les relations 1 − am a(m) = a , c(m) = c 1−a m−1 a b(1 − a2 ) = (1 − a2 )(1 + b2 a2(m−1) ) + (a − b)2 (1 − a2(m−1) ) m b(m) 1 + b2(m) 66 Processus GARCH Preuve. Remarquons d’abord que (ǫ2t ) étant par hypothèse stationnaire et (νt ) étant son innovation linéaire, a est de module strictement inférieur à 1. Ensuite, si (ǫt ) est un bruit (ǫmt ) en est un également. Par remplacements successifs on obtient ǫ2t = c(1 + a + . . . + am−1 ) + am ǫ2t−m + vt (2.66) où vt = νt + (a − b)[νt−1 + aνt−2 + . . . + am−2 νt−m−1 ] − am−1 bνt−m . Puisque (νt ) est un bruit, on a Cov(vt , vt−mk ) = 0, ∀k > 1. Donc (vmt )t∈Z est un processus MA(1), et par suite (ǫmt ) est un processus ARMA(1,1). Le terme constant et le coefficient AR de cette représentation apparaissent directement dans (2.66), tandis que le coefficient MA est obtenu comme la solution de module inférieure à 1 de b(m) −Cov(vt , vt−m ) am−1 b = = 1 + b2(m) Var(vt ) 1 + (a − b)2 (1 + a2 + . . . + a2(m−2) ) + a2(m−1) b2 ce qui, après simplification, donne la formule annoncée. 2 On constate en particulier que l’agrégé d’un processus ARCH(1) est également un processus ARCH(1) : b = 0 =⇒ b(m) = 0. On peut aussi remarquer que am tend vers zéro lorsque m tend vers l’infini, donc a(m) et b(m) tendent également vers zéro. Ainsi, l’hétéroscédasticité conditionnelle tend à disparaître lorsque l’on agrège de plus en plus. Ceci est conforme à l’observation empirique selon laquelle les séries à basse fréquence d’observation (hebdomadaire, mensuelle) présentent nettement moins d’effet ARCH que les séries quotidiennes par exemple. En conclusion de cette partie, nous avons vu que les modèles GARCH permettent de capter plusieurs effets importants des séries financières mais qu’il est impossible, dans cette approche, de séparer ces effets. Par exemple si l’on souhaite que les autocorrélations des carrés décroissent suffisamment lentement (α + β proche de 1 dans le cas GARCH(1,1)) cela ne peut être obtenu qu’au prix de l’existence de certains moments de la loi marginale. En pratique, lorsqu’on ajuste un modèle GARCH(1,1) à une série financière échantillonnée à haute fréquence (par exemple 2.4 Exercices 67 des variations quotidiennes de prix d’action), on obtient très généralement des coefficients α et β estimés de somme proche de 19 . Cela indique une forte persistance des chocs sur la variance 10 . Cette apparente persistance des chocs peut très bien être due à l’existence de distributions marginales à queues épaisses. Il est important de noter que ceci n’est pas dû à la forme retenue pour modéliser la variance conditionnelle : la critique s’applique également aux diverses extensions du modèle initial (par exemple celles incluant des√asymétries). La classe des modèles de type GARCH (c’est à dire de la forme ǫt = ht ηt où ht est une fonction positive quelconque du passé) apparaît donc souvent comme trop contrainte. Afin de pallier ce manque de souplesse, il est naturel d’essayer d’introduire une source additionnelle d’aléas dans la volatilité. Une première approche consiste à spécifier cet aléas supplémentaire de manière additive (ou multiplicative), à partir d’un processus indépendant du passé. Il s’agit de la classe des modèles dits à volatilité stochastique, directement inspirés des processus en temps continu du même nom, utilisés en finance mathématique. La seconde approche consiste à rendre aléatoires les paramètres des modèles GARCH traditionnels. Afin de préserver une certaine stabilité de ces coefficients, il paraît souhaitable de leur affecter un nombre fini (et limité) de valeurs possibles. Une façon naturelle de le faire consiste à faire dépendre ces coefficients de l’état d’une chaîne de Markov. Les états de la chaîne correspondront ainsi aux divers régimes du processus observé. 2.4 Exercices 2.1 (Stationnarité stricte du GARCH(1,1) pour deux lois de ηt ) Dans le cas GARCH(1,1) expliciter la condition de stationnarité stricte lorsque (i) ηt ne prend que les valeurs -1 et 1 ; (ii) ηt suit une loi uniforme. 2.2 (Coefficient de Lyapounov d’une suite constante de matrices) Montrer l’égalité (2.21) pour une matrice diagonalisable. Etendre le résultat à une matrice carrée quelconque en utilisant la représentation de Jordan. 2.3 (Coefficient de Lyapounov d’une suite de matrices) On considère la suite (At ) définie par At = zt A, où (zt ) est une suite ergodique 9 Cela est moins vrai pour des observations observées de manière plus espacée, comme des observations mensuelles. On peut d’ailleurs montrer théoriquement que le fait d’agréger temporellement les observations a pour effet de réduire la persistance de la volatilité 10 Par exemple, pour des séries hebdomadaires de rendements d’action, Hamilton et Susmel (1994) montrent qu’un choc à une date donnée peut avoir des effets non négligeables sur la variance conditionnelle un an plus tard 68 Processus GARCH de variables aléatoires réelles telles que E log+ |zt | < ∞, A est une matrice carrée non aléatoire. Déterminer le coefficient de Lyapounov γ de la suite (At ) et expliciter la condition γ < 0. 2.4 (Une autre représentation vectorielle du modèle GARCH (p, q)) 2 Vérifier que le vecteur z ∗t = (σt2 , . . . , σt−p+1 , ǫ2t−1 , . . . , ǫ2t−q+1 )′ ∈ Rp+q−1 permet, pour p ≥ 1 et q ≥ 2, de définir une représentation vectorielle équivalente à celle utilisée dans ce chapitre, de la forme z ∗t = b∗t + A∗t z ∗t−1 . 2.5 (Moment d’ordre 4 d’un ARCH(2) Montrer que pour un modèle ARCH(2) la condition d’existence du moment d’ordre 4 s’écrit, en posant µ4 = Eηt4 , α2 < 1 et µ4 α12 < 1 − α2 (1 − µ4 α22 ). 1 + α2 Calculer ce moment. 2.6 (Calcul direct des autocorrélations et autocovariances du carré d’un GARCH(1,1)) Déterminer la fonction d’autocorrélation et la fonction d’autocovariance de (ǫ2t ) lorsque (ǫt ) est solution du modèle GARCH(1,1) ǫt = σt ηt 2 σt2 = ω + αǫ2t−1 + βσt−1 où (ηt ) ∼ N (0, 1) et 1 − 3α2 − β 2 − 2αβ > 0. 2.7 (Une condition pour qu’une suite Xn soit un o(n).) Soit (Xn ) une suite de variables aléatoires de même loi, admettant une espérance. Montrer que Xn → 0 quand n → ∞ n avec probabilité 1. Montrer que la convergence peut ne pas avoir lieu si Xn n’admet pas d’espérance (on pourra considérer une suite iid de densité f (x) = x−2 1x≥1 ). 2.8 (Un cas de variables dépendantes où l’espérance du produit égale le produit des espérances) Montrer l’égalité (2.30). 69 2.4 Exercices 2.9 (Condition nécessaire d’existence du moment d’ordre 2s) On suppose que (ǫt ) est solution strictement stationnaire du modèle (2.5) avec Eǫ2s t < ∞, pour s ∈]0, 1]. On pose (K) zt = bt + K X (2.67) At At−1 . . . At−k+1 bt−k . k=1 1. Montrer que lorsque K → ∞, (K) kz t (K−1) s − zt k → 0 p.s., (K) Ekz t (K−1) s − zt k → 0. 2. En déduire que E(kAk Ak−1 . . . A1 b0 ks ) → 0 quand k → ∞. 3. Soit (Xn ) une suite de matrices ℓ × m et Y = (Y1 , . . . , Ym )′ un vecteur indépendant de (Xn ) tel que ∀i, 0 < E|Yi|s < ∞. Montrer que, lorsque n→∞ EkXn Y ks → 0 ⇒ EkXn ks → 0 4. On pose A = EAt , b = Ebt et on suppose qu’il existe un entier N tel que AN b > 0 (au sens où tous les éléments de ce vecteur sont strictement positifs). Montrer qu’il existe k0 ≥ 1 tel que E(kAk0 Ak0 −1 . . . A1 ks ) < 1. 5. En déduire que, pour s ∈]0, 1], α1 + β1 > 0, Eǫ2s t < ∞ =⇒ lim E(kAk Ak . . . A1 ks ) = 0. k→∞ 6. La condition α1 + β1 > 0 est-elle nécessaire ? 2.10 (Une minoration pour les premières autocorrélations du carré d’un ARCH) Soit (ǫt ) un processus ARCH(q) admettant des moments à l’ordre 4. Montrer que, pour i = 1, . . . , q ρǫ2 (i) ≥ αi . 2.11 (Modèle Riskmetrics) Le modèle Riskmetrics utilisé pour le calcul de la VaR repose sur les équations suivantes (ηt ) iid N (0, 1) ǫt = σt ηt , 2 σt2 = λσt−1 + (1 − λ)ǫ2t−1 où 0 < λ < 1. Montrer que ce modèle n’admet pas de solution stationnaire. Chapitre 3 Inférence statistique des modèles GARCH L’analyse statistique des modèles GARCH comporte plusieurs étapes : identification des ordres p et q, estimation des paramètres de la volatilité (coefficients ω, αi et βj ) pour des ordres p et q donnés, adéquation du modèle estimé et sélection finale du modèle le plus approprié. 3.1 Identification On dispose des observations X1 , . . . , Xn d’un processus stationnaire centré. Lorsque cette série représente les rendements d’un indice boursier, la théorie économique d’absence d’opportunité d’arbitrage entraîne que, sous des hypothèses standard, X = (Xt ) devrait être une différence de martingale, et devrait donc coïncider avec son processus d’innovation ǫ = (ǫt ). Nous avons vu que les observations Xt = ǫt , bien que non corrélées, ne sont pas indépendantes en général. Pour modéliser cette dynamique, on désire identifier un modèle GARCH(p, q) convenable, c’est-à-dire déterminer des ordres p et q plausibles pour le modèle ǫt = σt ηt q p X X (3.1) 2 2 2 βj σt−j αi ǫt−i + σt = ω + i=1 j=1 où (ηt ) est une suite de variables iid centrées et de variance unité, ω > 0, αi ≥ 0 (i = 1, . . . , q), βj ≥ 0 (j = 1, . . . , p). Dans la méthodologie de Box et Jenkins consacrée au modèles ARMA, on distingue plusieurs phases : identification, estimation, validation et prévision. Cette 71 3.1 Identification méthodologie peut être adaptée aux modèles GARCH. La phase d’identification consiste à choisir les ordres p et q. Le choix d’un petit nombre de valeurs plausibles pour ces ordres peut se faire à l’aide de plusieurs outils : i) Examen des fonctions d’autocorrélation empirique (ACRE) et d’autocorrélation partielle empirique (ACPE) de ǫ21 , . . . , ǫ2n ; ii) Examen de statistiques fonctions des autocovariances empiriques (ACVE) de ǫ2t (méthode du coin, epsilon-algorithme, ...) ; iii) Utilisation de critères d’information (AIC, BIC, ...) ; iv) Test de significativité de certains coefficients ; v) Analyse de résidus. Les méthodes iii)-v) nécessitent l’estimation d’un ou plusieurs modèles GARCH, et sont donc plutôt utilisées pour la phase de validation. La méthode i) est fondée sur le fait que si (ǫt ) suit un GARCH(p, q), alors (ǫ2t ) suit un ARMA(p ∧ q, p). En particulier, si (ǫt ) suit un ARCH(q), alors la fonction d’autocorrélation partielle théorique (ACPT) de (ǫ2t ), rǫ2 (·), satisfait (3.2) rǫ2 (h) = 0 ∀h > q. Nous savons que, quels que soient les ordres p et q, la solution non anticipative de (3.1) est un bruit blanc, c’est-à-dire un processus centré dont les autocorrélations théoriques (ACRT) ρ(h) = Eǫt ǫt+h /Eǫ2t satisfont ρ(h) = 0 pour tout h 6= 0 (voir section 2.1.1). Avant de rechercher d’éventuelles valeurs plausibles pour (p, q), il est donc naturel d’éprouver cette hypothèse d’absence d’autocorrélation. Ceci fait l’objet de la section 3.1.1. Si des ACRE significativement non nulles sont détectées, autrement dit si l’hypothèse d’absence d’arbitrage ne tient pas, si le modèle GARCH pur ne convient pas, le praticien cherchera à ajuster un ARMA(P, Q) aux données avant d’utiliser un GARCH(p, q) pour les résidus du modèle ARMA. L’identification des ordres (P, Q) est traitée dans la section 3.1.3. L’identification des ordres GARCH est traitée dans la section 3.1.4. 3.1.1 Vérification de l’absence d’autocorrélation Les ACRT d’un processus centré (ǫt ) sont généralement estimées par les ACRE γ̂(h) ρ̂(h) = , γ̂(0) −1 γ̂(h) = γ̂(−h) = n n−h X ǫt ǫt+h (3.3) t=1 pour h = 0, 1, . . . , n − 1. Nous savons que si (ǫt ) est une suite iid centrée dont la variance existe alors √ L nρ̂(h) → N (0, 1) , 72 Inférence des modèles GARCH pour tout √ h 6= 0. Pour un bruit blanc fort, les ACRE sont donc entre les bornes ±1.96/ n avec une probabilité d’environ 95% lorsque n est grand. Dans les logiciels usuels ces bornes de significativité au seuil 5% sont généralement figurées en pointillé, comme dans la figure 3.1. Cette bande de significativité n’est pas valable pour un bruit blanc faible, et notamment pour un GARCH. Comportement des autocorrélations empiriques d’un GARCH Soit ρ̂m = (ρ̂(1), . . . , ρ̂(m)) le vecteur des m premières ACRE de n observations du processus GARCH(p, q) défini par (3.1). Soit γ̂m = (γ̂(1), . . . , γ̂(m)) un vecteur d’ACVE. Proposition 3.1 Si (ǫt ) est la solution stationnaire non anticipative du modèle GARCH(p, q) (3.1), satisfaisant la condition de moment d’ordre 4 du théorème 2.6, alors, quand n → ∞, √ L nγ̂m → N (0, Σγ̂m ) et où Eǫ2t ǫ2t−1 Eǫ2t ǫt−1 ǫt−2 Σγ̂m = .. . Eǫ2t ǫt−1 ǫt−m √ L nρ̂m → N 0, Σρ̂m := γ(0)−2 Σγ̂m , Eǫ2t ǫt−1 ǫt−2 . . . Eǫ2t ǫt−1 ǫt−m .. Eǫ2t ǫ2t−2 . .. . ··· Eǫ2t ǫ2t−m . La matrice Σγ̂m est inversible. Si la loi de ηt est symétrique alors Σγ̂m est diagonale. Remarquons que sous une hypothèse de moment un peu plus forte, à savoir Eǫ4+ν t pour un ν > 0, la normalité asymptotique du vecteur γ̂m est une conséquence de la propriété de mélange fort des GARCH. On peut aussi noter que Σρ̂m = Im quand (ǫt ) est un bruit fort. Preuve. Posons γ̃m = (γ̃(1), . . . , γ̃(m)), où γ̃(h) = n−1 m et h ∈ {1, . . . , m} fixés, m X √ √ nγ̂m − nγ̃m ≤ √1 E 2 n h=1 h X t=1 ǫt ǫt−h !2 1/2 Pn t=1 ǫt ǫt−h . m Comme, pour h 1 XX ≤√ kǫt k24 → 0 n h=1 t=1 73 3.1 Identification √ √ quand n → ∞, la loi asymptotique de nγ̂m est la même que celle de nγ̃m . Soient h et k dans {1, . . . , m}. Par stationnarité Cov √ nγ̃(h), √ nγ̃(k) n 1 X Cov (ǫt ǫt−h , ǫs ǫs−k ) = n t,s=1 n−1 1 X = (n − |ℓ|)Cov (ǫt ǫt−h , ǫt+ℓ ǫt+ℓ−k ) n ℓ=−n+1 = Eǫ2t ǫt−h ǫt−k car Cov (ǫt ǫt−h , ǫt+ℓ ǫt+ℓ−k ) = Eǫ2t ǫt−h ǫt−k si ℓ = 0 0 sinon Ceci donne l’expression de Σγ̂m√. D’après le théorème de Wold-Cramer1 on obtiendra la normalité asymptotique de nγ̃m en montrant que pour tout λ = (λ1 , . . . , λm )′ ∈ Rm non nul, √ ′ L nλ γ̃m → N (0, λ′Σγ̂m λ). (3.4) Soit Ft la tribu par {ǫu , u ≤ t}. On obtient (3.4) en appliquant un TCL Pengendrée m à la suite (ǫt i=1 λi ǫt−i , Ft )t , qui est une différence de martingale stationnaire, ergodique, de carré intégrable2 . Le comportement asymptotique de ρ̂m se déduit immédiatement de celui de γ̂m . La matrice Σγ̂m est la matrice de variance du vecteur (ǫt ǫt−1 , . . . , ǫt ǫt−m )′ . Si Σγ̂m n’était pas inversible, il existerait une combinaison Pm linéaire exacte entre ′ les composantes i=i0 +1 λi ǫt ǫt−i , ou encore P de (ǫt ǫt−1 , . . . , ǫt ǫt−m ) : ǫt ǫt−i0 = ǫt−i0 1[ηt 6=0] = m λ ǫ . Par suite i=i0 +1 i t−i 1[ηt 6=0] Eǫ2t−i0 1[ηt 6=0] = m X i=i0 +1 λi E[ǫt−i0 ǫt−i 1[ηt 6=0] ] = m X i=i0 +1 λi E[ǫt−i0 ǫt−i ]P [ηt 6= 0] = 0 ce qui est absurde. On peut montrer que la forme diagonale de Σγ̂m est une conséquence de la symétrie de la loi de ηt . L 1 Pour une suite (Zn ) de vecteurs aléatoires de dimension d, Zn → Z si et seulement si pour L tout λ ∈ Rd , on a λ′ Zn → λ′ Z. 2 Si (νt , Ft )t est une différence de martingale (νt est Ft -mesurable et E(νt |Ft−1 ) = 0) stationnaire ergodique, de carré intégrable, telle que σν2 = Var(νt ) 6= 0, alors n−1/2 n X t=1 L νt → N 0, σν2 . 74 Inférence des modèles GARCH 2 On obtient un estimateur Σ̂γ̂m convergent de Σγ̂m , en remplaçant le terme générique de Σγ̂m par n−i X −1 n ǫ2t ǫt−i ǫt−j . t=1 Clairement, Σ̂ρ̂m := γ̂ −2 (0)Σ̂γ̂m est un estimateur convergent de Σρ̂m (presque sûrement inversible pour n assez grand). Ceci nous permet d’obtenir des bandes de significativité asymptotiques pour les ACRE. Tests portmanteau On peut également vouloir tester la nullité simultanée des m premières ACRT à l’aide d’une statistique dite "portmanteau", définie dans le théorème suivant. Proposition 3.2 Sous les hypothèses du théorème 3.1, la statistique portmanteau Qm = nρ̂′m Σ̂−1 ρ̂m ρ̂m suit asymptotiquement une loi du χ2 à m degrés de liberté. L Preuve. Il suffit d’utiliser le théorème 3.1 et le résultat suivant : si Xn → N (0, Σ), L 2 Σ inversible, et si Σ̂n → Σ en probabilité, alors Xn′ Σ̂−1 n Xn → χm . 2 Un test portmanteau de niveau asymptotique α, basé sur les m premières ACRE, consiste à rejeter l’hypothèse que la série est générée par un GARCH si Qm est supérieur au quantile d’ordre 1 − α d’un χ2m . Autocorrélations partielles d’un GARCH On note rm (resp. r̂m ) le vecteur des m premières autocorrélations partielles (resp. empiriques) du processus (ǫt ). D’après la proposition A.4 (voir appendice), nous savons que pour un bruit blanc faible, les ACRE et les ACPE ont la même loi asymptotique. Cela s’applique en particulier à un GARCH. En conséquence, sous l’hypothèse de bruit blanc GARCH avec moment d’ordre 4 fini, on peut prendre pour estimer Σr̂m de manière convergente, (1) Σ̂r̂m = Σ̂ρ̂m (2) ′ ou Σ̂r̂m = Jˆm Σ̂ρ̂m Jˆm , 75 3.1 Identification où Jˆm est la matrice obtenue en remplaçant ρX (1), . . . , ρX (m) par ρ̂X (1), . . . , ρ̂X (m) dans la matrice jacobienne Jm de l’application ρm 7→ rm , et Σ̂ρ̂m est l’estimateur convergent de Σρ̂m défini à la suite de la proposition 3.1. Ce corrélogramme partiel est très semblable au corrélogramme de la figure 3.2. Bien que cette pratique soit peu répandue, on peut tester la nullité simultanée de plusieurs ACPT en utilisant des tests portmanteau fondés sur les statistiques ′ Qr,BP = nr̂m r̂m m −1 (i) ′ et Qrm = nr̂m Σ̂ρ̂m r̂m . avec, par exemple, i = 2. D’après la proposition A.4, sous l’hypothèse de bruit LB 2 blanc fort les statistiques Qr,BP , QBP m m et Qm ont la même loi asymptotique χm . Sous l’hypothèse de GARCH pur, les statistiques Qrm et Qm ont également la même loi asymptotique χ2m . 3.1.2 Illustrations numériques Les limites de significativité standard des ACRE ne sont pas valides Le graphe de droite de la figure 3.1 représente le corrélogramme empirique d’une simulation de taille n = 5000 du GARCH(1,1) ǫt = σt ηt (3.5) 2 σt2 = ω + αǫ2t−1 + βσt−1 où (ηt ) est une suite de variables iid N (0, 1), ω = 1, α = 0.3 et β = 0.55. On constate que les ACRE d’ordre 2 et 4 sont très nettement en dehors des bandes de confiance à 95% calculées sous l’hypothèse de bruit blanc fort. Le praticien non averti sera tenté de rejeter l’hypothèse de bruit blanc, et de retenir un modèle ARMA dont les autocorrélations résiduelles sont plus à l’intérieur des limites de √ significativité ±1.96/ n. Pour tenter d’éviter ce genre √ d’erreur de spécification, il faut donc bien être conscient que les limites ±1.96/ n ne sont pas valables pour les ACRE d’un bruit blanc GARCH. Sur notre simulation, il est possible de calculer des limites asymptotiques exactes à 95%. Sur le graphe de droite de la figure 3.1, ces limites sont en trait pointillé épais. Toutes les ACRE sont à l’intérieur ou ne débordent que très légèrement des limites, ce qui nous incite cette fois à ne pas rejeter l’hypothèse de bruit blanc GARCH. Estimation des limites de significativité des ACRE d’un GARCH Bien entendu, sur une série réelle les limites de significativité ne peuvent pas être facilement obtenues car elles dépendent de paramètres inconnus. On peut cependant les estimer de manière convergente, comme décrit précédemment. Pour une 76 Inférence des modèles GARCH 0.06 0.06 0.04 0.04 0.02 0.02 2 4 6 8 10 12 h 4 2 -0.02 -0.02 -0.04 -0.04 -0.06 -0.06 6 8 10 12 h Fig. 3.1 – ACRE d’une simulation d’un bruit blanc fort (graphe de gauche) et du GARCH(1,1) (3.5) (graphe de droite). Les ACRE d’un bruit blanc fort sont à l’intérieur des fins traits en poin√ tillé ±1.96/ n avec une probabilité d’environ 95%. Les ACRE du bruit blanc GARCH(1,1) sont à l’intérieur des traits en pointillé plus épais (3.5) avec une probabilité de 95%, asymptotiquement. simulation de taille n = 5000 du modèle (3.5), la figure 3.2 montre en fin trait pointillé l’estimation ainsi obtenue des limites de significativité au seuil 5%. Les limites estimées sont proches des limites asymptotiques exactes. 0.06 0.04 0.02 2 4 6 8 10 12 h -0.02 -0.04 -0.06 Fig. 3.2 – Les bâtons représentent les autocorrélations empiriques d’une simulation de taille n = 5000 du GARCH(1,1) (3.5). L’intérieur des fins traits en pointillé constitue une estimation d’une zone où les ACRE du GARCH se trouvent avec une probabilité de asymptotique de 95%. La zone asymptotique exacte est délimitée par un trait pointillé plus épais. Les ACPE et leurs limites de significativité La figure 3.3 représente les ACPE de la simulation (3.5) et les estimations des (2) limites de significativité des r̂(h) au seuil 5% (basées sur Σ̂r̂m ). 77 3.1 Identification En comparant les figures 3.2 et 3.3, on voit que les ACRE et les ACPE de la simulation du GARCH se ressemblent beaucoup. Ceci est en accord avec la proposition A.4. 0.06 0.04 0.02 2 4 6 8 10 12 h -0.02 -0.04 -0.06 Fig. 3.3 – Les bâtons représentent les ACPE d’une simulation de taille n = 5000 du GARCH(1,1) (3.5). L’intérieur des fins traits en pointillé constitue une région où les ACPE du GARCH se trouvent asymptotiquement avec une probabilité de 95%. La région asymptotique exacte est délimitée par un trait pointillé plus épais. Tests portmanteau de bruit blanc fort et de GARCH pur Le tableau 3.1 donne les p-values des tests portmanteau pour la simulation de (3.5). A l’exception du test basé sur m = 4, les tests ne rejettent pas au niveau 5% l’hypothèse que la série suit un bruit blanc GARCH. Tab. 3.1 – Tests portmanteau de bruit GARCH sur une simulation de taille n = 5000 du GARCH(1,1) (3.5). retard m Qm P (χ2m > Qm ) retard m Qm P (χ2m > Qm ) 1 2 3 4 5 6 0.0021 4.1974 5.4955 10.1954 10.9118 10.9480 0.9637 0.1227 0.1391 0.0374 0.0533 0.0902 7 8 9 10 11 12 12.1273 12.2766 13.1698 14.6249 14.6880 15.2171 0.0967 0.1397 0.1555 0.1469 0.1979 0.2306 Pour tester si une série est la réalisation d’un bruit blanc fort, le test portmanteau standard est celui de Ljung-Box. Dans SAS ce test est mis en oeuvre dans le 78 Inférence des modèles GARCH tableau intitulé "Autocorrelation for White Noise". Il consiste à calculer la Pm Check LB 2 statistique Qm := n(n + 2) i=1 ρ̂ (i)/(n − i) et à rejeter l’hypothèse de bruit 2 3 blanc fort si QLB m est supérieur au quantile d’ordre 1 − α d’un χm . Le tableau 3.2 montre que pour la simulation (3.5), l’hypothèse de bruit blanc fort est rejetée. Tab. 3.2 – Tests portmanteau de bruit blanc fort sur une simulation de taille n = 5000 du GARCH(1,1) (3.5). retard m 1 2 3 4 5 6 LB Qm 0.0063 16.7831 20.5886 34.1785 35.7378 35.8622 P (χ2m > QLB ) 0.9365 0.0002 0.0001 0.0000 0.0000 0.0000 m retard m 7 8 9 10 11 12 LB Qm 38.0546 38.4358 39.9715 41.8187 41.9064 42.5059 2 LB P (χm > Qm ) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Tests portmanteau fondés sur les ACPE Les tableaux 3.3 et 3.4 présentent les tests portmanteau fondés sur les ACPE de la simulation (3.5). Comme attendu, les résultats sont très proches de ceux des tableaux 3.1 et 3.2 fondés sur les ACRE. Tab. 3.3 – Tests portmanteau de bruit GARCH fondé sur les ACPE pour une simulation de taille n = 5000 du GARCH(1,1) (3.5). retard m 1 2 3 4 5 6 Qrm 0.0021 4.1959 5.4893 9.6383 10.6516 10.6516 P (χ2m > Qrm ) 0.9637 0.1227 0.1393 0.0470 0.0587 0.0998 retard m 7 8 9 10 11 12 r Qm 11.9219 12.2436 12.7653 14.2397 14.2402 14.6708 P (χ2m > Qrm ) 0.1032 0.1407 0.1735 0.1623 0.2200 0.2599 Un exemple où les tests portmanteau fondés sur les ACPE sont plus puissants que ceux fondés sur les ACRE Les tests portmanteau fondés sur les ACPE peuvent parfois être plus puissants que ceux fondés sur les ACRE. Considérons par exemple une simulation de taille 2 La loi asymptotique de QLB m est χm . C’est la même que celle de la statistique de Box-Pierce Pm 2 := n i=1 ρ̂ (i), mais la statistique QLB m est réputée avoir un meilleur comportement à distance finie. 3 QBP m 79 3.1 Identification Tab. 3.4 – Tests portmanteau de bruit blanc fort fondé sur les ACPE pour une simulation de taille n = 5000 du GARCH(1,1) (3.5). retard m QLB m P (χ2m > QLB m ) retard m QLB m P (χ2m > QLB m ) 1 2 3 4 5 6 0.0063 16.7705 20.5606 32.5526 34.7573 34.7573 0.9366 0.0002 0.0001 0.0000 0.0000 0.0000 7 8 9 10 11 12 37.1180 37.9391 38.8358 40.7068 40.7075 41.1952 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 n = 100 du modèle MA(2) fort Xt = ηt + 0.56ηt−1 − 0.44ηt−2 , ηt iid N (0, 1). (3.6) En comparant les tableaux 3.5-3.6 et 3.7-3.8, on constate les hypothèses de bruit blanc fort et de GARCH pur sont mieux rejetées en se fondant sur les ACPE plutôt que sur les ACRE. Ceci s’explique par le fait que, pour cette MA(2), il n’y a que 2 ACRT non nulles, tandis que beaucoup plus d’ACPT sont éloignées de 0. Pour la même raison, il est clair que les résultats auraient été inverses, c’est-à-dire en faveur des tests fondés sur les ACRE, pour par exemple une alternative AR(1). Tab. 3.5 – Tests portmanteau de bruit GARCH fondés sur les ACRE, sur une simulation de taille n = 100 de la MA(2) (3.6). retard m Qm P (χ2m > Qm ) 1 1.6090 0.2046 2 4.5728 0.1016 3 5.5495 0.1357 4 6.2271 0.1828 5 6.2456 0.2830 6 6.4654 0.3731 Tab. 3.6 – Tests portmanteau de bruit blanc fort fondés sur les ACRE, sur une simulation de taille n = 100 de la MA(2) (3.6). retard m QLB m P (χ2m > QLB m ) 1 3.4039 0.0650 2 8.4085 0.0149 3 9.8197 0.0202 4 10.6023 0.0314 5 10.6241 0.0594 6 10.8905 0.0918 80 Inférence des modèles GARCH Tab. 3.7 – Tests portmanteau de bruit GARCH fondés sur les ACPE, pour une simulation de taille n = 100 de la MA(2) (3.6). retard m Qrm P (χ2m > Qrm ) 1 1.6090 0.2046 2 5.8059 0.0549 3 9.8926 0.0195 4 16.7212 0.0022 5 21.5870 0.0006 6 25.3162 0.0003 Tab. 3.8 – Tests portmanteau de bruit blanc fort fondés sur les ACPE, pour une simulation de taille n = 100 de la MA(2) (3.6). retard m Qr,BP m P (χ2m > Qr,BP ) m 1 3.3038 0.0691 2 10.1126 0.0064 3 15.7276 0.0013 4 23.1513 0.0001 5 28.4720 0.0000 6 32.6397 0.0000 81 3.1 Identification 3.1.3 Identification des ordres ARMA d’un ARMA-GARCH Plaçons nous dans le cas où la théorie économique d’absence d’opportunité d’arbitrage ne s’applique pas et/ou supposons que les outils développés dans la section 3.1.1 concluent au rejet de l’hypothèse de GARCH pur. Il est alors raisonnable de rechercher un modèle ARMA(P, Q) de la forme Xt − P X i=1 ai Xt−i = ǫt − Q X bi ǫt−i (3.7) i=1 où (ǫt ) est un bruit blanc GARCH de la forme (3.1) et les paramètres vérifient les conditions de régularité standard (les polynômes AR et MA n’ont pas de racine commune et ont les racines en dehors du disque unité, aP bQ 6= 0, Eǫ4t < ∞). Autocorrélations empiriques d’un ARMA-GARCH On sait qu’une MA(Q) satisfait ρX (h) = 0 pour tout h > Q, et qu’un AR(P ) satisfait rX (h) = 0 pour tout h > P . Les ACRE et ACPE jouent donc un rôle important pour identifier les ordres P et Q. On suppose que la loi de (ηt ) est symétrique. D’après la proposition A.1, le comportement asymptotique des ACRE est déterminé par la formule de Bartlett généralisée (A.4) (voir l’appendice). Cette formule fait intervenir les ACRT de (Xt ) et de (ǫ2t ), ainsi que le rapport ηǫ − 1 = γǫ2 (0)/γǫ2 (0). La proposition A.3 montre que le comportement asymptotique des ACPE se déduit aisément de celui des ACRE. A titre d’illustration, considérons l’ARMA(2,1)-GARCH(1,1) défini par Xt − 0.8Xt−1 + 0.8Xt−2 = ǫt − 0.8ǫt−1 ǫt = σt ηt , ηt iid N (0, 1) 2 2 σt = 1 + 0.2ǫ2t−1 + 0.6σt−1 (3.8) La figure 3.4 représente les ACRT et ACPT du modèle, ainsi que des traits en pointillés entre lesquels se trouvent les ACRE et ACPE avec un probabilité d’environ 95%, pour des réalisations de taille n = 1000 du modèle. Ces limites sont obtenues en utilisant la formule (A.4) et en calculant les autocorrélations de (ǫ2t ). L’algorithme que nous utilisons pour estimer les quantités (A.4) est le suivant i) On ajuste un AR(p0 ) à la série X1 , . . . , Xn en utilisant un critère d’information pour sélectionner l’ordre p0 ; ii) On calcule les ACRT ρ1 (h), h = 1, 2, . . . , de ce modèle AR(p0 ) ; iii) On calcule les résidus ep0 +1 , . . . , en d’ajustement du modèle AR(p0 ) ; 82 Inférence des modèles GARCH 0.2 0.4 0.2 5 5 10 15 10 15 20 h -0.2 20 -0.2 h -0.4 -0.4 -0.6 -0.6 -0.8 Fig. 3.4 – Les bâtons du graphe de gauche (de droite) représentent les ACRT (ACPT) du modèle (3.8). Les ACRE (ACPE) d’une réalisation de taille n = 1000 sont entre les traits en pointillé avec une probabilité d’environ 95%. iv) On ajuste un AR(p1 ) à la série des carrés des résidus e2p0 +1 , . . . , e2n en utilisant également un critère d’information pour sélectionner p1 ; v) On calcule les ACRT ρ2 (h), h = 1, 2, . . . , de ce modèle AR(p1 ) ; vi) On estime limn→∞ nCov {ρ̂(i), ρ̂(j)} par v̂ij + v̂ij∗ , où v̂ij = ℓX max ℓ=−ℓmax ρ1 (ℓ) [2ρ1 (i)ρ1 (j)ρ1 (ℓ) − 2ρ1 (i)ρ1 (ℓ + j) −2ρ1 (j)ρ1 (ℓ + i) + ρ1 (ℓ + j − i) + ρ1 (ℓ − j − i)] , v̂ij∗ ℓmax γ̂ǫ2 (0) X = ρ (ℓ) 2ρ1 (i)ρ1 (j)ρ21 (ℓ) − 2ρ1 (j)ρ1 (ℓ)ρ1 (ℓ + i) 2 2 γ̂ǫ (0) ℓ=−ℓ max −2ρ1 (i)ρ1 (ℓ)ρ1 (ℓ + j) + ρ1 (ℓ + i) {ρ1 (ℓ + j) + ρ1 (ℓ − j)}] , n X 1 γ̂ǫ2 (0) = e4t − γ̂ǫ2 (0), n − p0 t=p +1 0 γ̂ǫ2 (0) n X 1 = e2t , n − p0 t=p +1 0 et ℓmax est un paramètre de troncation déterminé numériquement de sorte que |ρ1 (ℓ)| et |ρ2 (ℓ)| soient inférieurs à une certaine tolérance (par exemple 10−5) pour tout ℓ > ℓmax . Cet algorithme est rapide quand on utilise l’algorithme de Durbin-Levinson pour ajuster les modèles AR. La figure 3.5 montre le résultat de cet algorithme (en utilisant le critère d’information BIC). Autocorrélations empiriques d’un ARMA-GARCH dont le bruit n’est pas symétrique 83 3.1 Identification 0.4 0.2 0.2 5 5 10 15 20 h -0.2 10 15 20 -0.2 h -0.4 -0.4 -0.6 -0.6 Fig. 3.5 – Les bâtons du graphe de gauche (de droite) représentent les ACRE (ACPE) d’une simulation de taille n = 1000 du modèle (3.8). Les traits en pointillé estiment les bandes de confiance à 95%. La formule de Bartlett généralisée (A.4) est obtenue sous la condition (A.2). Cette condition peut ne pas être satisfaite quand la loi du bruit ηt de l’équation GARCH n’est pas symétrique. Nous allons regarder quel est le comportement asymptotique des ACVE et des ACRE dans le cas très général d’un processus linéaire dont le processus d’innovation (ǫt ) est un bruit blanc faible. Reprenons les notations de la proposition A.1. La propriété suivante permet d’interpréter la variance asymptotique des ACRE comme la densité spectrale en 0 d’un processus multivarié (voir par exemple Brockwell et Davis (1992) pour le concept de densité spectrale). Proposition 3.3 Soit (Xt )t∈Z un processus univarié stationnaire satisfaisant Xt = ∞ X ψj ǫt−j , j=−∞ ∞ X j=−∞ |ψj | < ∞, où (ǫt )t∈Z est un bruit blanc faible (Eǫt = 0, Cov(ǫt , ǫt+h ) = 0 pour tout h 6= 0) tel que Eǫ4t < ∞. Notons Υt = Xt (Xt , Xt+1 , . . . , Xt+m )′ et +∞ 1 X −ihλ fΥ (λ) := e ΓΥ (h), 2π h=−∞ ΓΥ (h) = E (Υt − EΥt ) (Υt+h − EΥt+h )′ la densité spectrale du processus Υ = (Υt ), Υt = Υt − EΥt . Alors on a, lim nVarγ̂0,m := Σγ̂0,m = 2πfΥ (0). n→∞ (3.9) 84 Inférence des modèles GARCH Preuve. Par stationnarité et application du théorème de Lebesgue ! n n 1X 1X nVarγ̂0,m + o(1) = nCov Υt , Υs n t=1 n s=1 n−1 X |h| = 1− Cov Υt , Υt+h n h=−n+1 → quand n → ∞. +∞ X ΓΥ (h) = 2πfΥ (0) h=−∞ 2 L’écriture (3.9) donne l’idée de plusieurs méthodes d’estimation de Σγ̂0,m . i) L’estimateur naïf qui consiste à remplacer, dans fΥ (0), les ΓΥ (h) par les Γ̂Υ (h) ne converge pas. Mais on peut obtenir un estimateur convergent en pondérant les Γ̂Υ (h) par un poids proche de 1 quand h est très petit devant n, et proche de 0 quand h est suffisamment proche de n. Un tel estimateur est appelé HAC dans la littérature économétrique (voir par exemple Andrews, 1991). ii) On peut également obtenir un estimateur consistent de fΥ (0) en utilisant le périodogramme lissé (voir par exemple Brockwell et Davis, 1992, section 10.4). iii) Pour un AR(r) multivarié Ar (B)Yt := Yt − r X Ai Yt−i = Zt , (Zt ) bruit blanc de variance ΣZ i=1 la densité spectrale en 0 vaut fY (0) = 1 Ar (1)−1 ΣZ A′r (1)−1 . 2π Il est facile d’ajuster un modèle AR multivarié, même d’ordre élevé, en utilisant la version multivarié de l’algorithme de Durbin-Levinson (voir Brockwell and Davis, 1991, p. 422). On peut donc envisager la méthode suivante (voir Berk (1974) ou Francq, Roy et Zakoïan (2003) pour des justifications théoriques à cette méthode). 1. On ajuste des modèles AR(r), avec r P = 0, 1 . . . , R, aux données Υ1 − n−m −1 Υn , . . . , Υn−m − Υn où Υn = (n − m) t=1 Υt ; 2. On sélectionne une valeur r0 en minimisant un critère d’information, par exemple BIC ; 3. On pose Σ̂γ̂0,m = Âr0 (1)−1 Σ̂r0 Â′r0 (1)−1 , avec des notations évidentes. 85 3.1 Identification Dans les applications présentées ici nous avons utilisé la méthode iii). Identification des ordres (P, Q) Il n’est pas facile d’identifier les ordres d’un modèle mixte ARMA(P, Q) à partir des ACRE et des ACPE. La méthode du coin (Béguin, Gouriéroux and Monfort, 1980), l’epsilon-algorithme (Berlinet, 1981) ou encore la méthode de Glasbey (1982) définissent des statistiques plus commodes. Nous présentons la méthode du coin. Méthode du coin Soit D(i, j) la matrice de Toeplitz j × j D(i, j) = ρX (i) ρX (i + 1) .. . ρX (i − 1) ··· ρX (i − j + 1) ρX (i + j − 1) ··· ρX (i + 1) ρX (i) P et ∆(i, j) le déterminant de D(i, j). Puisque ρX (h) = Pi=1 ai ρX (h−i) = 0, ∀h > Q, il est clair que D(i, j) n’est pas de plein rang si i > Q et j > P . Plus précisément, P et Q sont les ordres minimaux (i.e. (Xt ) n’admet pas de représentation ARMA(P ′ , Q′ ) avec P ′ < P ou Q′ < Q) si et seulement si ∆(i, j) = 0 ∀i > Q et ∀j > P, ∆(i, P ) 6= 0 ∀i ≥ Q, ∆(Q, j) 6= 0 ∀j ≥ P. (3.10) Les ordres minimaux P et Q sont donc caractérisés par le tableau suivant (T 1) i\j 1 . . . P P +1 1 ρ1 2 ρ2 . . . . . . Q ρq Q+1 ρq+1 × × × × × × 0 0 0 0 . . . . . . . . × × × × 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 86 Inférence des modèles GARCH où ∆(j, i) est à l’intersection de la ligne i et de la colonne j, et "×" désigne un élément non nul. Les ordres P et Q sont donc caractérisés par un coin de 0 dans le tableau (T 1), d’où le nom de méthode du coin. Les éléments du tableau s’obtiennent rapidement en utilisant la récurrence sur j ∆(i, j)2 = ∆(i + 1, j)∆(i − 1, j) + ∆(i, j + 1)∆(i, j − 1), (3.11) et en posant ∆(i, 0) = 1, ∆(i, 1) = ρX (|i|). ˆ j), (Tˆ1), . . . les objets obtenus en remplaçant {ρX (h)} par Notons D̂(i, j), ∆(i, {ρ̂X (h)} dans D(i, j), ∆(i, j), (T 1), . . . En pratique on ne dispose que d’un nombre ˆ i) pour i ≥ 1, j ≥ 1 fini d’ACRE ρ̂X (1), . . . , ρ̂X (K), ce qui permet de calculer ∆(j, ˆ i) sont et i + j ≤ K + 1. Le tableau (Tˆ1) est donc triangulaire. Comme les ∆(j, ˆ des estimateurs convergent des ∆(j, i), les ordres P et Q sont caractérisés par un coin de "petites valeurs" dans le tableau (Tˆ1). Mais le terme "petite valeur" de (Tˆ1) n’est pas clair. 4 Il est préférable de considérer les statistiques "studentisées" définies, pour i = −K, . . . , K et j = 0, . . . , K − |i| + 1, par t(i, j) = ˆ j) √ ∆(i, n , σ̂∆(i,j) ˆ 2 σ̂∆(i,j) = ˆ ˆ j) ˆ j) ∂ ∆(i, ∂ ∆(i, Σ̂ , ρ̂ K ∂ρ′K ∂ρK (3.12) où Σ̂ρ̂K est un estimateur convergent de la matrice de covariance asymptotique de K premières ACRE, que l’on ˆpeut obtenirˆ avec les algorithmes vus précédemment, ˆ ∂ ∆(i,j) ∂ ∆(i,j) ∂ ∆(i,j) et où le jacobien ∂ρ′ = ∂ρX (1) , . . . , ∂ρX (K) est obtenu en dérivant (3.11) : K ˆ 0) ∂ ∆(i, = 0 pour i = −K − 1, . . . , K − 1 et k = 1, . . . , K; ∂ρX (k) ˆ 1) ∂ ∆(i, = II{k} (|i|) pour i = −K, . . . , K et k = 1, . . . , K; ∂ρX (k) ˆ ˆ ˆ ˆ j + 1) 2∆(i, j) ∂∂ρ∆(i,j) − ∆(i + 1, j) ∂ ∆(i−1,j) − ∆(i − 1, j) ∂ ∆(i+1,j) ∂ ∆(i, ∂ρX (k) ∂ρX (k) X (k) = ˆ j − 1) ∂ρX (k) ∆(i, ˆ {∆(i, j)2 − ∆(i + 1, j)∆(i − 1, j)} ∂ ∆(i,j−1) ∂ρX (k) − ˆ 2 (i, j − 1) ∆ ˆ j) et ∆(i ˆ ′ , j ′ ) pour j 6= j ′ (i.e. des éléments de lignes différentes dans le Comparer ∆(i, ˆ tableau (T 1)) est d’autant plus difficile que ce sont des déterminants de 2 matrices qui n’ont pas la même taille. 4 3.1 Identification 87 pour k = 1, . . . , K, i = −K + j, . . . , K − j et j = 1, . . . , K. Lorsque ∆(i, j) = 0 la statistique t(i, j) se comporte asymptotiquement comme une 4 N (0, 1) √ (en particulier sous réserve d’existence de EXt ). Si par contre ∆(i, j) 6= 0 alors n|t(i, j)| → ∞ p.s. quand n → ∞. On peut rejeter l’hypothèse ∆(i, j) = 0 au niveau α% si |t(i, j)| dépasse le quantile d’ordre 1 − α/2 d’une N (0, 1). On peut aussi détecter automatiquement un coin de petites valeurs dans le tableau (T˜1) des t(i, j) si aucune valeur de ce coin ne dépasse 1 − α/2 en valeur absolue. Cette pratique n’aboutit bien sûr pas à un quelconque test de niveau α, mais permet de sélectionner un petit nombre de valeurs plausibles pour les ordres P et Q. Exemple d’utilisation de la méthode du coin Sur une simulation de taille n = 1000 du modèle ARMA(2,1)-GARCH(1,1) (3.8) on obtient le tableau suivant : .p.|.q..1....2....3....4....5....6....7....8....9...10...11...12... 1 | 17.6-31.6-22.6 -1.9 11.5 8.7 -0.1 -6.1 -4.2 0.5 3.5 2.1 2 | 36.1 20.3 12.2 8.7 6.5 4.9 4.0 3.3 2.5 2.1 1.8 3 | -7.8 -1.6 -0.2 0.5 0.7 -0.7 0.8 -1.4 1.2 -1.1 4 | 5.2 0.1 0.4 0.3 0.6 -0.1 -0.3 0.5 -0.2 5 | -3.7 0.4 -0.1 -0.5 0.4 -0.2 0.2 -0.2 6 | 2.8 0.6 0.5 0.4 0.2 0.4 0.2 7 | -2.0 -0.7 0.2 0.0 -0.4 -0.3 8 | 1.7 0.8 0.0 0.2 0.2 9 | -0.6 -1.2 -0.5 -0.2 10 | 1.4 0.9 -0.2 11 | -0.2 -1.2 12 | 1.2 On remarque des coins de valeurs pouvant raisonnablement être des réalisations d’une N (0, 1). Un tel coin est constitué des éléments des lignes 3, 4, . . . et des colonnes 2, 3, . . . , ce qui nous incite à retenir le modèle ARMA(2,1). Le programme de détection automatiques des coins de petites valeurs donne. ARMA(P,Q) MODELS FOUND WITH GIVEN SIGNIFICANCE LEVEL PROBA CRIT MODELS FOUND 0.200000 1.28 ( 2, 8) ( 3, 1) (10, 0) 0.100000 1.64 ( 2, 1) ( 8, 0) 0.050000 1.96 ( 1,10) ( 2, 1) ( 7, 0) 0.020000 2.33 ( 0,11) ( 1, 9) ( 2, 1) ( 6, 0) 0.010000 2.58 ( 0,11) ( 1, 8) ( 2, 1) ( 6, 0) 88 Inférence des modèles GARCH 0.005000 0.002000 0.001000 0.000100 0.000010 2.81 3.09 3.29 3.72 4.26 ( ( ( ( ( 0,11) 0,11) 0,11) 0, 9) 0, 8) ( ( ( ( ( 1, 1, 1, 1, 1, 8) 8) 8) 7) 6) ( ( ( ( ( 2, 2, 2, 2, 2, 1) 1) 1) 1) 1) ( ( ( ( ( 5, 5, 5, 5, 4, 0) 0) 0) 0) 0) On retrouve les ordres (P, Q) = (2, 1) du modèle simulé, mais aussi d’autres ordres plausibles. Il n’est pas étonnant que le modèle ARMA(2,1) soit bien approché par d’autres modèles ARMA, par exemple un AR(6), une MA(11) ou encore un ARMA(1,8) (mais en pratique on préfère le modèle ARMA(2,1) car les autres modèles sont moins parcimonieux). 3.1.4 Identification des ordres GARCH d’un ARMAGARCH Principe de la méthode Pour identifier les ordres d’un GARCH(p, q), on peut utiliser le fait que (ǫ2t ) suit un ARMA(P̃ , Q̃) avec P̃ = p ∧ q et Q̃ = p. Dans le cas d’un GARCH pur, (ǫt ) = (Xt ) est observé. La variance asymptotique des ACRE de ǫ21 , . . . , ǫ2n peut être estimée par la méthode décrite précédemment. Le tableau des statistiques studentisées de la méthode du coin s’en déduit, exactement comme dans la section précédente. Il s’agit ensuite de détecter au moins un coin de valeurs normales à partir de la ligne P̃ + 1 et de la colonne Q̃ + 1 du tableau, sous les contraintes P̃ ≥ 1 (car p ∧ q ≥ q ≥ 1) et P̃ ≥ Q̃. Ceci aboutit à sélectionner des modèles GARCH(p, q) tels que (p, q) = (Q̃, P̃ ) quand Q̃ < P̃ et (p, q) = (Q̃, 1), (p, q) = (Q̃, 2), . . . , (p, q) = (Q̃, P̃ ) quand Q̃ ≥ P̃ . Dans le cas d’un ARMA-GARCH, les ǫt ne sont pas observés, mais on peut les approcher par les résidus d’ajustement d’un AR, comme décrit dans les étapes i) et iii) de l’algorithme de la section 3.1.3. Applications Considérons une simulation de taille n = 5000 du modèle GARCH(2,1) ǫt = σt ηt 2 2 σt2 = ω + αǫ2t−1 + β1 σt−1 + β2 σt−2 (3.13) où (ηt ) est une suite de variables iid N (0, 1), ω = 1, α = 0.1, β1 = 0.05 et β2 = 0.8. Le tableau des statistiques studentisées de la méthode du coin est le suivant. 89 3.1 Identification .max(p,q).|.p..1....2....3....4....5....6....7....8....9...10...11...12...13...14...15... 1 | 5.3 2.9 5.1 2.2 5.3 5.9 3.6 3.7 2.9 2.9 3.4 1.4 5.8 2.4 3.0 2 | -2.4 -3.5 2.4 -4.4 2.2 -0.7 0.6 -0.7 -0.3 0.4 1.1 -2.5 2.8 -0.2 3 | 4.9 2.4 0.7 1.7 0.7 -0.8 0.2 0.4 0.3 0.3 0.7 1.4 1.4 4 | -0.4 -4.3 -1.8 -0.6 1.0 -0.6 0.4 -0.4 0.5 -0.6 0.4 -1.1 5 | 4.6 2.4 0.6 0.9 0.8 0.5 0.3 -0.4 -0.5 0.5 -0.8 6 | -3.1 -1.7 1.4 -0.8 -0.3 0.3 0.3 -0.5 0.5 0.4 7 | 3.1 1.2 0.3 0.6 0.3 0.2 0.5 0.1 -0.7 8 | -1.0 -1.3 -0.7 -0.5 0.8 -0.5 0.3 -0.6 9 | 1.5 0.3 0.2 0.7 -0.5 0.5 -0.7 10 | -1.7 0.1 0.3 -0.7 -0.6 0.5 11 | 1.8 1.2 0.6 0.7 -1.0 12 | 1.6 -1.3 -1.4 -1.1 13 | 4.2 2.3 1.4 14 | -1.2 -0.6 15 | 1.4 On remarque un coin de valeurs plausibles pour une N (0, 1) à partir de la ligne P̃ +1 = 3 et de la colonne Q̃+1 = 3, ce qui correspond à des modèles GARCH(p, q) tel que (p ∧ q, p) = (2, 2), c’est à dire (p, q) = (2, 1) ou (p, q) = (2, 2). Un petit nombre d’autres valeurs plausibles pour (p, q) sont détectées. GARCH(p,q) MODELS FOUND WITH GIVEN PROBA CRIT MODELS 0.200000 1.28 ( 3, 1) ( 3, 0.100000 1.64 ( 3, 1) ( 3, 0.050000 1.96 ( 2, 1) ( 2, 0.020000 2.33 ( 2, 1) ( 2, 0.010000 2.58 ( 2, 1) ( 2, 0.005000 2.81 ( 2, 1) ( 2, 0.002000 3.09 ( 2, 1) ( 2, 0.001000 3.29 ( 2, 1) ( 2, 0.000100 3.72 ( 2, 1) ( 2, 0.000010 4.26 ( 2, 1) ( 2, SIGNIFICANCE LEVEL FOUND 2) ( 3, 3) ( 1,13) 2) ( 3, 3) ( 2, 4) 2) ( 0,13) 2) ( 1, 5) ( 0,13) 2) ( 1, 4) ( 0,13) 2) ( 1, 4) ( 0,13) 2) ( 1, 4) ( 0,13) 2) ( 1, 4) ( 0,13) 2) ( 1, 4) ( 0,13) 2) ( 1, 4) ( 0, 5) ( 0,13) Un ARMA-GARCH Reprenons la simulation de taille n = 1000 du modèle ARMA(2,1)-GARCH(1,1) (3.8). Le tableau des statistiques studentisées de la méthode du coin, appliquée aux ACRE du processus observé, a déjà été présenté. Un petit nombre de modèles ARMA, dont le modèle ARMA(2,1), ont été retenus. Soient e1+p0 , . . . , en les résidus d’ajustement des observations par un modèle AR(p0 ), dont l’ordre p0 est sélectionné par critère d’information. 5 En appliquant à nouveau la méthode du coin, mais sur les ACRE des carrés des résidus e21+p0 , . . . , e2n , et en estimant les covariances entre ACRE par l’approximation AR spectrale multivariée décrite plus haut, on obtient le tableau suivant. 5 On pourrait également utiliser l’algorithme des innovations de Brockwell et Davis (1992, p.172) pour ajuster rapidement des modèles MA. On pourrait encore utiliser un des modèles ARMA préalablement sélectionnés, par exemple le modèle ARMA(2,1), pour approximer les innovations. 90 Inférence des modèles GARCH .max(p,q).|.p..1....2....3....4....5....6....7....8....9...10...11...12... 1 | 4.5 4.1 3.5 2.1 1.1 2.1 1.2 1.0 0.7 0.4 -0.2 0.9 2 | -2.7 0.3 -0.2 0.1 -0.4 0.5 -0.2 0.2 -0.1 0.4 -0.2 3 | 1.4 -0.2 0.0 -0.2 0.2 0.3 -0.2 0.1 -0.2 0.1 4 | -0.9 0.1 0.2 0.2 -0.2 0.2 0.0 -0.2 -0.1 5 | 0.3 -0.4 0.2 -0.2 0.1 0.1 -0.1 0.1 6 | -0.7 0.4 -0.2 0.2 -0.1 0.1 -0.1 7 | 0.0 -0.1 -0.2 0.1 -0.1 -0.2 8 | -0.1 0.1 -0.1 -0.2 -0.1 9 | -0.3 0.1 -0.1 -0.1 10 | 0.1 -0.2 -0.1 11 | -0.4 0.2 12 | -1.0 On remarque un coin de valeurs pouvant raisonnablement être produites par des N (0, 1) à partir de la ligne 2 et de la colonne 2, ce qui correspond à un modèle GARCH(1, 1). Un autre coin apparaît en dessous de la ligne 2, ce qui correspond à un modèle GARCH(0, 2)=ARCH(2). En pratique, dans cette phase d’identification, on retiendrait au moins ces 2 modèles. Viendrait ensuite la phase d’estimation des modèles retenus, suivie d’une phase de validation constituée de tests de significativité des coefficients, d’examen des résidus et de comparaison de critères d’information. Cette phase de validation permet de retenir le modèle final qui sert aux prévisions. GARCH(p,q) MODELS FOUND WITH GIVEN PROBA CRIT MODELS 0.200000 1.28 ( 1, 1) ( 0, 0.100000 1.64 ( 1, 1) ( 0, 0.050000 1.96 ( 1, 1) ( 0, 0.020000 2.33 ( 1, 1) ( 0, 0.010000 2.58 ( 1, 1) ( 0, 0.005000 2.81 ( 0, 1) 0.002000 3.09 ( 0, 1) 0.001000 3.29 ( 0, 1) 0.000100 3.72 ( 0, 1) 0.000010 4.26 ( 0, 1) SIGNIFICANCE LEVEL FOUND 3) 2) 2) 2) 2) Contraintes sur ρǫ2 (·) Les coefficients de la représentation ARMA de ǫ2t sont contraints. Ceci entraîne que les autocorrélations de ǫ2t sont toujours positives. Proposition 3.4 Si ǫ est un GARCH qui possède des moments d’ordre 4, alors ρǫ2 (h) ≥ 0 pour tout h > 0. 91 3.2 Estimation des ARCH par MCO Preuve. Considérons la représentation vectorielle (2.16) de la forme z t = bt + At z t−1 . Supposons que Cov z t , z t−h soit semi-définie positive pour h ≥ 0. C’est évidemment le cas pour h = 0. Alors Cov z t , z t−h−1 = Cov bt + At z t−1 , z t−h−1 = EAt Cov z t , z t−h est aussi semi-définie positive. 2 3.2 Estimation des modèles ARCH par la méthode des moindres carrés Dans cette partie nous considérons l’estimation par la moindres carrés ordinaires (MCO) du modèle ARCH(q) : ǫt = σt ηt , σt2 = ω0 + q X α0i ǫ2t−i i=1 avec ω0 > 0, α0i ≥ 0, i = 1, . . . , q (3.14) (ηt ) est une suite de variables iid, E(ηt ) = 0, Var(ηt ) = 1. La méthode consiste à tirer parti de la représentation AR sur le carré du processus observé et à appliquer la méthode des mondres carrés quasi-généralisés (MCQG). Aucune hypothèse n’est faite sur la loi de ηt . Les estimateurs obtenus sont, au moins pour n grand, moins précis que ceux du quasi-maximum de vraisemblance (QMV) (voir plus loin) mais plus faciles à obtenir. Ils peuvent également fournir des valeurs initiales pour la procédure d’optimisation utilisée dans l’obtention d’estimateurs du QMV plus précis. La vraie valeur du vecteur des paramètres est noté θ0 = (ω0 , α01 , . . . , α0q )′ et nous noterons θ une valeur quelconque. On déduit de (3.14) la représentation AR(q) ǫ2t = ω0 + q X α0i ǫ2t−i + ut (3.15) i=1 où ut = ǫ2t − σt2 = (ηt2 − 1)σt2 . La suite (ut , Ft−1 )t constitue donc une différence de martingale. 92 Inférence des modèles GARCH On suppose que l’on dispose d’observations ǫ1 , . . . , ǫn , réalisation partielle du processus (ǫt ), et de valeurs initiales ǫ0 , . . . , ǫ1−q . Par exemple ces valeurs initiales peuvent être choisies nulles. Introduisant le vecteur ′ Zt−1 = 1, ǫ2t−1 , . . . , ǫ2t−q , on déduit de (3.15) le système ′ ǫ2t = Zt−1 θ0 + ut , (3.16) t = 1, . . . , n soit Y = Xθ0 + U en définissant la matrice n × q et les vecteurs n × 1 ′ Zn−1 ǫ2n X = ... , Y = ... , U = Z0′ ǫ21 un .. . . u1 Supposons que la matrice X ′ X soit inversible (nous verrons que c’est le cas asymptotiquement, donc aussi pour n assez grand). On en déduit l’estimateur des MCO de θ : θ̂n = (X ′ X)−1 X ′ Y. (3.17) L’estimateur des MCO de σ02 = Varθ0 (ut ) est : ( )2 q n X X 1 1 2 2 2 kY − X θ̂n k = ǫt − ω̂ − α̂i ǫt−i . σ̂ = n−q−1 n − q − 1 t=1 i=1 2 Nous serons amenés, pour établir la convergence, à considérer les hypothèses suivantes. H1 : (ǫt ) est solution non anticipative strictement stationnaire du modèle (3.14). H2 : Eθ0 (ǫ4t ) < +∞. H3 : P [ηt2 = 1] 6= 1. Théorème 3.1 (Convergence des estimateurs MCO pour un ARCH) Soit (θ̂n ) une suite d’estimateurs satisfaisant (3.17). Sous les hypothèses H1-H3, presque sûrement θ̂n → θ0 , σ̂n2 → σ02 , quand n → ∞. 93 3.2 Estimation des ARCH par MCO Preuve. La preuve comporte plusieurs étapes. i) Nous avons vu (Théorème 2.4) que l’unique solution stationnaire non anticipative (ǫt ) est ergodique. Le processus (Zt ) est également ergodique car Zt s’écrit comme fonction mesurable des ǫt−i . Le théorème ergodique6 appliqué au processus strictement stationnaire (Zt ) entraîne n 1 ′ 1X ′ ′ XX= Zt−1 Zt−1 → Eθ0 (Zt−1 Zt−1 ), n n t=1 p.s. quand n → ∞. (3.18) L’existence de l’espérance est assurée par l’hypothèse H3. On a de même n 1X 1 ′ XY = Zt−1 ǫ2t → Eθ0 (Zt−1 ǫ2t ), n n t=1 p.s. quand n → ∞. ′ ii) Montrons par l’absurde l’inversibilité de la matrice Eθ0 Zt−1 Zt−1 = Eθ0 Zt Zt′ . Supposons qu’il existe c vecteur non nul de Rq+1 tel que c′ Eθ0 Zt Zt′ = 0. Donc Eθ0 {c′ Zt (c′ Zt )′ } = 0, d’où l’on déduit que c′ Zt est p.s. constant. Par suite, il existe une combinaison linéaire p.s. égale à une constante des variables ǫ2t , . . . , ǫ2t−q+1 . On peut supposer sans perte de généralité que, dans cette combinaison, le coefficient de ǫ2t = ηt2 σt2 est 1. Donc ηt s’exprime p.s. comme fonction mesurable des variables ǫt−1 , . . . , ǫt−q . Or, d’après le caractère non anticipatif de la solution, ηt2 est indépendante de ces variables. Ceci implique que ηt2 est p.s. égale à une constante. Cette constante ne peut être que 1, mais on aboutit alors à une contradiction avec H3. ′ Donc Eθ0 Zt−1 Zt−1 est inversible. iii) Il découle de ce qui précède que n1 X ′ X est p.s. inversible, pour n assez grand et que p.s. quand n → ∞, ′ −1 ′ −1 XX XY ′ θ̂n = → Eθ0 (Zt−1 Zt−1 ) Eθ0 (Zt−1 ǫ2t ). n n iv) Rappelons que le processus (ut ) est l’innovation forte de (ǫ2t ). On a donc, en particulier, les relations d’orthogonalité Eθ0 (ut ) = Eθ0 (ut ε2t−1 ) = . . . = Eθ0 (ut ε2t−q ) = 0 c’est-à-dire Eθ0 (Zt−1 ut ) = 0 6 Si Pn(Xt ) est un processus stationnaire ergodique et EX1 existe dans R ∪ {+∞} alors n t=1 Xt converge presque sûrement vers EX1 quand n → ∞ (voir par exemple Billingsley "Probability and Measure" (1995) p. 284 et 495). −1 94 Inférence des modèles GARCH d’où l’on déduit, en utilisant (3.16), ′ Eθ0 (Zt−1 ǫ2t ) = Eθ0 (Zt−1 Zt−1 )θ0 . Donc, d’après ii) et iii), θ̂n converge p.s. vers θ0 . La convergence forte de σ̂n2 vers σ02 s’en déduit. 2 Pour la normalité asymptotique de l’estimateur des MCO, nous devons faire l’hypothèse supplémentaire H4 : Eθ0 (ε8t ) < +∞. Introduisons les matrices carrées symétriques de taille q + 1 ′ A = Eθ0 (Zt−1 Zt−1 ), ′ I = Eθ0 (σt4 Zt−1 Zt−1 ). L’inversibilité de A a été établie dans la preuve du Théorème 3.1, celle de I sera montrée dans la preuve du résultat suivant, qui établit la normalité asymptotique de l’estimateur des MCO. On note µ4 = Eηt4 . Théorème 3.2 Sous les hypothèses H1-H4, √ L n(θ̂n − θ0 ) → N (0, (µ4 − 1)A−1 IA−1 ). Preuve. On a, d’après (3.16) θ̂n = = n !−1 n !−1 ( 1X ′ Zt−1 Zt−1 n t=1 1X ′ Zt−1 Zt−1 n t=1 = θ0 + n 1X Zt−1 ǫ2t n t=1 n ! 1X ′ Zt−1 (Zt−1 θ0 + ut ) n t=1 !−1 ( n ) n X 1X 1 ′ Zt−1 Zt−1 Zt−1 ut . n t=1 n t=1 ) 95 3.2 Estimation des ARCH par MCO Donc √ n 1X ′ Zt−1 Zt−1 n t=1 n(θ̂n − θ0 ) = !−1 ( n 1 X √ Zt−1 ut n t=1 ) . (3.19) Soit λ ∈ Rq+1 , λ 6= 0. La suite (λ′ Zt−1 ut , Ft ) est une différence de martingale stationnaire, ergodique et de carré intégrable de variance ′ ′ Varθ0 (λ′ Zt−1 ut ) = λ′ Eθ0 (Zt−1 Zt−1 u2t )λ = λ′ Eθ0 Zt−1 Zt−1 (ηt2 − 1)2 σt4 λ = (µ4 − 1)λ′ Iλ. Par application d’un TCL (voir note de bas de page de la preuve de la Proposition 3.1) on en déduit que, pour tout λ 6= 0 n 1 X ′ L √ λ Zt−1 ut → N (0, (µ4 − 1)λ′ Iλ). n t=1 Par suite, en appliquant la propriété de Cramer-Wold, n 1 X L √ Zt−1 ut → N (0, (µ4 − 1)I). n t=1 (3.20) On montre que cette loi limite est non dégénérée, c’est-à-dire que I est inversible, par le même raisonnement que celui utilisé pour établir l’inversibilité de A dans la preuve du Théorème 3.1. Par √ suite, on déduit de (3.18), (3.19) et (3.20), par un raisonnement classique, que n(θ̂n − θ0 ) est asymptotiquement normal, de moyenne le vecteur nul, et de variance la matrice du théorème. 2 Remarque : on obtient des estimateurs convergents  et Iˆ des matrices A et I en remplaçant les moments théoriques par les moments empiriques correspondants : n 1X ′  = Zt−1 Zt−1 , n t=1 n 1X 4 ′ Iˆ = σ̂ Zt−1 Zt−1 n t=1 t ′ où σ̂t2 = Zt−1 θ̂n . On estime également de le moment d’ordre Pnmanière convergente 1 4 4 du processus ηt = ǫt /σt par µ̂4 = n t=1 (ǫt /σ̂t ) . On en déduit finalement un estimateur convergent de la matrice de variance asymptotique défini par √ ˆ as { n(θ̂n − θ0 )} = (µ̂4 − 1)Â−1 IˆÂ−1 . Var 96 Inférence des modèles GARCH Exemple : ARCH(1) Lorsque q = 1 les conditions de moments H2 et H4 prennent la forme µ4 α2 < 1 et µ8 α4 < 1 (voir l’exemple illustrant le Théorème 2.6). On a A= 1 Eθ0 ǫ2t−1 Eθ0 ǫ2t−1 Eθ0 ǫ4t−1 , I= Eθ0 σt4 Eθ0 σt4 ǫ2t−1 Eθ0 σt4 ǫ2t−1 Eθ0 σt4 ǫ4t−1 On a Eθ0 ǫ2t = ω , 1−α Eθ0 ǫ4t = µ4 Eθ0 σt4 = ω 2 (1 + α) µ4 . (1 − µ4 α2 )(1 − α) Les autres termes de la matrice I s’obtiennent en utilisant σt4 = (ω + αǫ2t−1 )2 et en calculant les moments d’ordre 6 et 8 de ǫ2t . A titre d’exemple, le tableau suivant présente quelques valeurs numériques de la variance asymptotique, pour différentes valeurs des paramètres, lorsque ηt suit la loi normale (0,1). On a µ4 = 3, µ8 = 105 et l’hypothèse H4 prend la forme α < 105−1/4 = 0.312. paramètres ω = 1, α = 0.1 ω = 1, α = 0.2 ω = 1, α = 0.3 √ 3.98 −1.85 8.03 −5.26 151.0 −106.5 Varas { n(θ̂n − θ0 )} −1.85 2.15 −5.26 5.46 −106.5 77.6 La précision asymptotique du paramètre ω, et globalement celle du couple θ, devient très faible au voisinage de la frontière d’existence du moment d’ordre 8. La méthode peut cependant être utilisée pour estimer α, même pour des valeurs plus élévées de ce paramètre (l’estimateur est convergent pour α < 3−1/2 = 0.577), et fournir ainsi une valeur initiale dans l’algorithme de maximisation de la vraisemblance. 3.3 Estimation des modèles GARCH par quasimaximum de vraisemblance Dans cette partie nous étudions la méthode du maximum de vraisemblance conditionnelle (à des valeurs initiales). Nous présentons une procédure itérative de calcul de la log-vraisemblance gaussienne, conditionnellement à des valeurs initiales fixes ou aléatoires. Cette vraisemblance est écrite comme si la loi des variables ηt était normale centrée réduite (on parle de pseudo ou quasi-vraisemblance), mais cette hypothèse n’est pas nécessaire pour la convergence forte de l’estimateur. Elle a évidemment un effet sur la variance de la loi normale asymptotique de l’estimateur. 97 3.3 Estimation des GARCH par QMV 3.3.1 Quasi-vraisemblance conditionnelle On supposera que les observations ǫ1 , . . . , ǫn constituent une réalisation (de longueur n) d’un processus GARCH(p, q), solution strictement stationnaire non anticipative du modèle ǫt = σt ηt q p X X (3.21) 2 2 2 σ = ω + α ǫ + βj σt−j i t−i t i=1 j=1 où (ηt ) est une suite de variables iid centrées et de variance unité, ω > 0, αi ≥ 0 (i = 1, . . . , q), βj ≥ 0 (j = 1, . . . , p). Les ordres p et q sont supposés connus. Le vecteur des paramètres θ = (θ1 , . . . , θp+q+1 )′ := (ω, α1 , . . . , αq , β1 , . . . , βp )′ (3.22) appartient à un espace de paramètres Θ ⊂]0, +∞[×[0, ∞[p+q . La vraie valeur du paramètre est inconnue et est notée θ0 = (ω0 , α01 , . . . , α0q , β01 , . . . , β0p )′ . Pour écrire la vraisemblance du modèle, il faut spécifier une distribution particulière pour les variables iid ηt . On considère généralement la quasi-vraisemblance gaussienne, i.e. la vraisemblance obtenue à partir d’une loi normale centrée réduite pour les ηt . Nous ne ferons cependant pas l’hypothèse que cette loi constitue la vraie distribution du processus iid. La spécification d’une distribution gaussienne pour les variables ηt ne permet pas d’en déduire simplement la loi de l’échantillon. On travaille avec la vraisemblance de ǫ1 , . . . , ǫn conditionnellement à certaines valeurs initiales. 2 Etant données des valeurs initiales ǫ0 , . . . , ǫ1−q , σ̃02 , . . . , σ̃1−p que nous allons préciser, la vraisemblance conditionnelle gaussienne Ln (θ) s’écrit n Y 1 ǫ2t p Ln (θ) = Ln (θ; ǫ1 , . . . , ǫn ) = (3.23) exp − 2 , 2σ̃t 2πσ̃t2 t=1 où les σ̃t2 sont définis récursivement, pour t ≥ 1, par σ̃t2 = σ̃t2 (θ) =ω+ q X i=1 αi ǫ2t−i + p X 2 βj σ̃t−j . (3.24) j=1 Pour une valeur donnée de θ, sous l’hypothèse de stationnarité au second ordre, la variance non conditionnelle (correspondant à cette valeur de θ) est un choix raisonnable pour les valeurs initiales inconnues : ω 2 Pq P ǫ20 = · · · = ǫ21−q = σ02 = · · · = σ1−p = . (3.25) 1 − i=1 αi − pj=1 βj 98 Inférence des modèles GARCH De telle valeurs initiales ne conviennent pas notamment pour les modèles IGARCH, pour lesquels l’hypothèse de stationnarité au second ordre est relachée, car la constante (3.25) prendrait des valeurs négatives pour certaines valeurs de θ. On peut alors proposer de prendre comme valeurs initiales 2 ǫ20 = · · · = ǫ21−q = σ̃02 = · · · = σ̃1−p =ω (3.26) 2 ǫ20 = · · · = ǫ21−q = σ̃02 = · · · = σ̃1−p = ǫ21 . (3.27) ou encore Un estimateur du QMV de θ est défini comme toute quantité θ̂n vérifiant presque sûrement Ln (θ̂n ) = sup Ln (θ). (3.28) θ∈Θ On voit, en prenant le logarithme, que maximiser la vraisemblance revient à minimiser par rapport à θ −1 l̃n (θ) = n n X ℓ̃t , où ℓ̃t = ℓ̃t (θ) = t=1 ǫ2t + ln σ̃t2 σ̃t2 (3.29) et σ̃t2 est définie en (3.24). Un estimateur du quasi-maximum de vraisemblance est donc une solution mesurable de l’équation θ̂n = arg min l̃n (θ). (3.30) θ∈Θ Equations de vraisemblance On obtient les équations de vraisemblance en annulant la dérivée par rapport à θ du critère l̃n (θ), ce qui donne n 1 ∂ σ̃ 2 1X 2 {ǫt − σ̃t2 } 4 t = 0. n t=1 σ̃t ∂θ (3.31) Ces équations s’interprètent, pour n grand, comme des relations d’orthogonalité. En effet, comme nous le verrons plus précisément dans la partie suivante, le terme de gauche de l’égalité précédente se comporte asymptotiquement comme n 1X 2 1 ∂σ 2 {ǫt − σt2 } 4 t n t=1 σt ∂θ (3.32) 99 3.3 Estimation des GARCH par QMV l’influence des valeurs initiales étant nulle lorsque n → ∞. Or, pour la vraie valeur du paramètre, l’innovation de ǫ2t est νt = ǫ2t −σt2 . Donc sous réserve que l’espérance existe, on a 1 ∂σt2 (θ0 ) Eθ0 νt 4 =0 σt (θ0 ) ∂θ ∂σ2 (θ ) 1 t 0 est une fonction mesurable des ǫt−i , i > 0. Ce résultat n’est autre car σ4 (θ ∂θ t 0) que la version asymptotique de (3.31) en θ0 , en utilisant le théorème ergodique. 3.3.2 Propriétés asymptotiques de l’estimateur du QMV Dans tout le chapitre, nousPutiliserons comme norme d’une matrice A = (aij ) quelconque la norme kAk = |aij |. Le rayon spectral d’une matrice A carrée sera L noté ρ(A). Le produit de Kronecker sera noté ⊗ et le symbole → désignera la convergence en loi. Convergence forte Rappelons que le modèle (3.21) possède une solution strictement stationnaire si et seulement si le coefficient de Lyapounov de la suite de matrices α1 ηt2 ··· 1 0 ··· 0 1 ··· .. .. .. . . . 0 At = α 1 0 0 . . . 0 ... αq ηt2 β1 ηt2 ··· 0 0 ··· 0 0 ··· .. .. .. .. . . . . 1 ··· .. ··· ··· . .. . ... 0 0 0 ... αq β1 0 0 .. . 1 0 .. . ··· 0 0 0 . .. 0 0 .. . . ... 0 βp ··· ··· 0 1 .. βp ηt2 0 0 .. . 1 0 est strictement négatif. On note γ(θ) ce coefficient de Lyapounov. 100 Inférence des modèles GARCH Notons Aθ (z) = q X αi z i et Bθ (z) = 1 − i=1 p X βj z j . j=1 Par convention Aθ (z) = 0 si q = 0 et Bθ (z) = 1 si p = 0. Pour la convergence, les hypothèses suivantes sont faites. A1 : θ0 ∈ Θ et Θ est compact. A2 : γ(θ0 ) < 0 et ∀θ ∈ Θ, A3 : Pp j=1 βj < 1. ηt2 a une loi non dégénérée. A4 : si p > 0, Aθ0 (z) et Bθ0 (z) n’ont pas de racine commune, Aθ0 (1) 6= 0, et α0q + β0p 6= 0. Il sera pratique d’approximer la suite (ℓ̃t (θ)) par une suite stationnaire ergodique. Grâce au Corollaire 2.1, la condition de stricte stationnarité A2 implique que les racines de Bθ (z) sont extérieures au disque unité. Notons donc (σt2 )t = {σt2 (θ)}t la solution strictement stationnaire ergodique et non anticipative de σt2 =ω+ q X αi ǫ2t−i + p X 2 βj σt−j , j=1 i=1 (3.33) ∀t et soit −1 ln (θ) = ln (θ; ǫn , ǫn−1 . . . , ) = n n X ℓt , ℓt = ℓt (θ) = t=1 ǫ2t + ln σt2 . σt2 Théorème 3.3 (Convergence forte de l’estimateur du QMV) Soit (θ̂n ) une suite d’estimateurs du QMV satisfaisant (3.30), avec les conditions initiales (3.26) ou (3.27). Sous les hypothèses A1-A4, presque sûrement θ̂n → θ0 , quand n → ∞. La démonstration, comme celle des autres théorèmes de cette partie, est donnée dans Francq et Zakoïan (2004). Elle repose sur une représentation vectorielle au 2 2 2 2 torégressive d’ordre un du vecteur σ t = σt , σt−1 , . . . , σt−p+1 , analogue à celle utilisée pour l’étude de la stationnarité. L’hypothèse de stationnarité stricte sur tout Θ et la compacité permettent d’exprimer σ 2t sous forme d’une série dépendant du passé infini de la variable ǫ2t . On montre que les valeurs initiales n’ont pas 3.3 Estimation des GARCH par QMV 101 d’importance asymptotiquement en utilisant le fait que, sous l’hypothèse de stationnarité stricte, ǫ2t admet nécessairement un moment d’ordre s, avec s > 0 (voir le Corollaire 2.2). Cette propriété permet également de vérifier que l’espérance de ℓt (θ0 ) est bien définie dans R et que Eθ0 (ℓt (θ)) − Eθ0 (ℓt (θ0 )) ≥ 0, ce qui assure que le critère limite est minimisé en la vraie valeur. La difficulté provient du fait que Eθ0 (ℓ+ t (θ)) peut être égal à +∞. Les hypothèses A3 et A4 sont cruciales pour établir l’identifiabilité : la première exclut l’existence d’une combinaison linéaire constante entre les ǫ2t−j , j ≥ 0. On utilise également l’hypothèse d’absence de racines communes. L’ergodicité de ℓt (θ) et un argument de compacité permettent de conclure. Remarques : 1. On ne suppose pas que la vraie valeur θ0 du paramètre appartient à l’intérieur de Θ. Le théorème permet donc de traiter les cas où certains coefficients, αi ou βj , sont nuls. 2. L’hypothèse A4 disparait dans le cas ARCH. Elle permet de sur-identifier l’un des ordres, p ou q, mais pas les deux. 3. L’hypothèse A4 exclut le cas où tous les α0i sont nuls. Ceci est évidemment nécessaire, sinon le modèle a pour solution un bruit blanc fort qui peut s’écrire de multiples manières. Par exemple, un bruit blanc fort de variance 2 1 peut s’écrire sous la forme d’un GARCH(1,1) avec σt2 = ω +0×ǫ2t−1 +βσt−1 , pour tous ω et β positifs tels que ω = 1 − β. 4. L’hypothèse d’absence de racines communes, dans A4, n’est restrictive que si p > 1 et q > 1. En effet si q = 1, la seule racine de Aθ0 (z) est 0 et Bθ0 (0) 6= 0. Si p = 1 et β01 6= 0, la seule racine de Bθ0 (z) est 1/β01 > 0 (si β01 = 0, le polynôme n’admet pas de racine). En raison de la positivité des coefficients α0i , cette valeur ne peut annuler Aθ0 (z). Normalité asymptotique Pour montrer la normalité asymptotique les hypothèses supplémentaires suivantes sont nécessaires. ◦ ◦ A5 : θ0 ∈Θ, où Θ est l’intérieur de Θ. A6 : κη = Eηt4 < ∞. 102 Inférence des modèles GARCH Théorème 3.4 (Normalité√asymptotique des estimateurs du QMV) Sous les hypothèses A1-A6 n(θ̂n − θ0 ) tend en loi vers une N (0, (κη − 1)J −1 ), où 2 ∂ ℓt (θ0 ) 1 ∂σt2 (θ0 ) ∂σt2 (θ0 ) J := Eθ0 = Eθ0 . (3.34) ∂θ∂θ′ σt4 (θ0 ) ∂θ ∂θ′ La preuve de ce théorème repose classiquement sur un développement de Taylor du critère (3.29) en θ0 . On a −1/2 0 = n n X ∂ ℓ̃t (θ̂n ) ∂θ t=1 n X ∂ −1/2 = n ℓ̃t (θ0 ) + ∂θ t=1 ! n √ 1 X ∂2 n θ̂n − θ0 ℓ̃t (θij∗ ) n t=1 ∂θi ∂θj (3.35) où les θij∗ sont entre θ̂n et θ0 . Nous montrerons que n−1/2 et que n−1 n X t=1 n X ∂ L ℓ̃t (θ0 ) → N (0, (κη − 1)J) , ∂θ t=1 ∂2 ℓ̃t (θij∗ ) → J(i, j) en probabilité. ∂θi ∂θj (3.36) (3.37) La preuve du théorème en découlera immédiatement. Remarques : 1. L’hypothèse A5 est classique car elle permet d’utiliser le fait que les conditions du premier ordre sont valides, au moins asymptotiquement. En effet si θ̂n est convergent, il appartient également à l’intérieur de Θ pour n grand. En tant que maximum, il doit donc annuler la dérivée de la fonction critère. Cette hypothèse est cependant restrictive car elle √ exclut par exemple le cas α01 = 0 (il est cependant clair que dans ce cas, n(α̂1 − α01 ) est concentrée sur [0, ∞[ et ne peut donc être asymptotiquement normale). Ce type de problèmes, dits ”de bord”, doit faire l’objet d’une étude spécifique. 2. L’hypothèse A6 ne porte pas sur ǫ2t , et n’exclut bien sûr pas le cas IGARCH. Seule une hypothèse d’existence du moment d’ordre 4 est imposée sur la suite (ηt ). Cette hypothèse est clairement nécessaire pour l’existence de la variance du vecteur du score ∂ℓt (θ0 )/∂θ. 103 3.3 Estimation des GARCH par QMV 3.3.3 Exemple : le cas ARCH(1) Considérons le modèle ARCH(1) ǫt = {ω + αǫ2t−1 }1/2 ηt , avec ω > 0, α ≥ 0 et supposons que la loi des variables ηt soit une N (0, 1). Le paramètre à estimer est ici θ = (ω, α)′. La contrainte de stationnarité stricte, A2, s’écrit d’après (2.11) α < exp{−E(log ηt2 )} ≃ 3.56. Afin que l’hypothèse A1 soit vérifiée, on peut prendre un espace des paramètres de la forme Θ = [δ, 1/δ] × [0, 3.56 − δ] où δ > 0 est une constante suffisamment petite pour que la vraie valeur θ0 = (ω0 , α0 )′ appartienne à Θ. Pour ce choix de Θ, les hypothèses A1 − A4 sont vérifiées et l’estimateur du MV de θ est fortement convergent d’après le théorème 3.4. Puisque ∂ σ̃t2 /∂θ = (1, ǫ2t−1 )′ , l’estimateur du MV θ̂n = (ω̂n , α̂n )′ est caractérisé par les équations normales n 1 X ǫ2t − ω̂n − α̂n ǫ2t−1 1 =0 (3.38) ǫ2t−1 n t=1 (ω̂n + α̂n ǫ2t−1 )2 en prenant par exemple ǫ20 = ǫ21 . Cet estimateur n’a pas de forme explicite et doit être obtenu numériquement pour un échantillon donné. L’application du théorème 3.4 donnant la loi asymptotique de l’estimateur ne ◦ nécessite comme seule hypothèse supplémentaire que θ0 appartienne à Θ = ]δ, 1/δ[×]0, 3.56 − δ[. Ainsi, même si α0 = 0 (modèle conditionnellement homoscédastique), l’estimateur reste convergent mais il ne peut être asymptotiquement normal. La matrice J prend la forme suivante 2 J = Eθ0 et la variance asymptotique de √ 1 (ω0 +α0 ǫ2t−1 )2 ǫ2t−1 (ω0 +α0 ǫ2t−1 )2 ǫt−1 (ω0 +α0 ǫ2t−1 )2 ǫ4t−1 (ω0 +α0 ǫ2t−1 )2 n(θ̂n − θ0 ) est √ Varas { n(θ̂n − θ0 )} = 2J −1 . A titre d’exemple, voici quelques exemples de calculs numériques de cette matrice, les espérances étant obtenues à partir de simulations de taille 10000 : paramètres ω = 1, α = 0.1 ω = 1, α = 0.5 ω = 1, α = 0.95 √ 3.46 −1.34 4.85 −2.15 6.61 −2.83 Varas { n(θ̂n − θ0 )} −1.34 1.87 −2.15 3.99 −2.83 6.67 104 Inférence des modèles GARCH La comparaison avec les valeurs obtenues par la méthode des MCO fait apparaître une meilleure précision asymptotique de l’estimateur du MV. Afin d’évaluer, en échantillon fini, la qualité de l’approximation asymptotique de la variance de l’estimateur nous effectuons l’expérience de Monte-Carlo suivante. Pour la valeur θ0 du paramètre, et pour une taille n donnée, N échantillons sont simulés, condui(i) sant à N estimations θ̂n de θ, i = 1, . . . N. On note θn = (ω n , αn )′ leur moyenne empirique. L’écart-type empirique (root mean-square error) des estimations de α est noté ( )1/2 N 2 1 X (i) RMSE(α) = α̂ − αn N i=1 n √ 1/2 √ et peut être comparé à {Varas [ n(α̂n − α0 )]} / n, cette dernière quantité étant évaluée indépendamment, par simulation. Une comparaison similaire peut évidemment être effectuée pour le paramètre ω. Pour θ0 = (0.2, 0.9)′ et N = 1000 on a obtenu les résultats suivants, pour différentes tailles n : n 100 250 500 1000 √ 1/2 √ αn RMSE(α) {Varas [ n(α̂n − α0 )]} / n P̂ [α̂n ≥ 1] 0.85221 0.25742 0.25014 0.266 0.88336 0.16355 0.15820 0.239 0.89266 0.10659 0.11186 0.152 0.89804 0.08143 0.07911 0.100 La proximité entre les résultats des colonnes 3 et 4 apparaît très satisfaisante, même pour des tailles moyennes. La dernière colonne indique la probabilité empirique (ou fréquence dans l’échantillon) que α̂n dépasse de 1 (valeur limite pour la stationnarité au second ordre). Ces résultats indiquent que même si la moyenne des estimations est très proche de la vraie valeur pour n grand, la variabilité de l’estimateur reste élevée. Notons enfin qu’une taille de 1000 reste réaliste pour les séries financières. 3.4 Exercices 3.1 (Comportement asymptotique des ACVE d’une différence de martingale) Soit (ǫt ) une suite stationnaire d’accroissements de martingale telle que Pn 4 −1 Eǫt < ∞ et γ̂(h) = n t=1 ǫt ǫt+h . Déterminer la loi asymptotique de n1/2 γ̂(h) pour h 6= 0. 105 3.4 Exercices 3.2 (Comportement asymptotique de n1/2 γ̂(1) pour un ARCH(1)) Soit la solution stationnaire non anticipative d’un ARCH(1) ǫt = σt ηt σt2 = ω + αǫ2t−1 (3.39) où (ηt ) est un bruit blanc fort de variance 1 et µ4 α2 < 1 avec µ4 = Eηt4 . Déterminer la loi asymptotique de n1/2 γ̂(1). 3.3 (Comportement asymptotique de n1/2 ρ̂(1) pour un ARCH(1)) Pour le modèle ARCH(1) de l’exercice 3.2, déterminer la loi asymptotique de n1/2 ρ̂(1). Quelle est la variance asymptotique de cette statistique quand α = 0 ? Tracer cette variance asymptotique en fonction de α et conclure. 3.4 (Formule de l’estimateur MCO d’un ARCH) Montrer que lorsque X est de rang q, l’estimateur défini par (3.17) est l’unique solution du problème de minimisation θ̂ = arg min q+1 θ∈R n X t=1 ′ (ǫ2t − Zt−1 θ)2 , Zt′ = (1, ǫ2t , . . . , ǫ2t−q+1 ). 3.5 (Estimateur MCO non contraint et contraint d’un ARCH(2)) Soit un modèle ARCH(2) ǫt = σt ηt σt2 = ω + α1 ǫ2t−1 + α2 ǫ2t−2 Soit θ̂ = (ω̂, α̂1 , α̂2 )′ l’estimateur des MCO non contraint du paramètre θ = (ω, α1 , α2 )′ . Peut-on avoir 1. α̂1 < 0 ? 2. α̂1 < 0 et α̂2 < 0 ? 3. ω̂ < 0, α̂1 < 0 et α̂2 < 0 ? Soit θ̂c = (ω̂ c , α̂1c , α̂2c )′ l’estimateur des MCO contraint par α̂1c ≥ 0 et α̂2c ≥ 0. Considérons l’exemple numérique suivant de n = 3 observations plus 2 valeurs initiales : ǫ2−1 = 0, ǫ20 = 1, ǫ21 = 0, ǫ22 = 1/2, ǫ23 = 1/2. Calculer θ̂ et θ̂c pour ces observations. 3.6 (Estimation d’un AR(1) avec erreurs ARCH(q)) On considère le modèle Xt = φ0 Xt−1 + ǫt , |φ0 | < 1, 106 Inférence des modèles GARCH où (ǫt ) est la solution strictement stationnaire du modèle (3.14) sous la condition Eǫ4t < ∞. Montrer que l’estimateur des MCO de φ est convergent et asymptotiquement normal. L’hypothèse Eǫ4t < ∞ est-elle nécessaire dans le cas d’un AR(1) avec erreurs iid ? 3.7 (Théorème ergodique pour processus non intégrable) Montrer le théorème ergodique suivant, utilisé dans la preuve de la convergence de l’estimateur du QMV. Le résultat est démontré dans Billingsley (1995, p. 284) pour des variables iid. Si (Xt ) est un processus strictement stationnaire ergodique et si EX1 existe dans R ∪ {+∞} alors −1 n n X t=1 Xt → EX1 , p.s. quand n → ∞. Indication : considérer les variables tronquées Xtκ = Xt 1Xt ≤κ où κ > 0 et faire tendre κ vers +∞. 3.8 (Théorème ergodique uniforme) Soit le processus {Xt (θ)} de la forme Xt (θ) = f (θ, ηt , ηt−1 , . . .) (3.40) où (ηt ) est un strictement stationnaire et ergodique et f est continue en θ ∈ Θ, Θ compact de Rd . 1. Montrer que le processus {inf θ∈Θ Xt (θ)} est strictement stationnaire et ergodique. 2. La propriété reste-t-elle vraie si on ne suppose plus Xt (θ) de la forme (3.40) mais que l’on suppose {Xt (θ)} strictement stationnaire et ergodique et Xt (θ) fonction continue de θ ? 3.9 (Estimateur des MCO pour un GARCH) Dans le cadre du modèle GARCH(p, q), (3.21), un estimateur des MCO de θ est défini comme toute solution mesurable θ̂n de θ̂n = arg min Qn (θ), θ∈Θ où Q̃n (θ) = n−1 n X t=1 ẽ2t (θ), Θ ⊂ Rp+q+1 , ẽt (θ) = ǫ2t − σ̃t2 (θ), 107 3.4 Exercices et σ̃t2 (θ) est défini par (3.24) avec, par exemple, des valeurs initiales données par (3.26) ou (3.27). Notons que l’estimateur est non contraint et que la variable σ̃t2 (θ) peut prendre des valeurs négatives. On peut de même définir un estimateur des MCO contraint θ̂nc = arg min Qn (θ), θ∈Θc Θ ⊂]0, +∞[×[0, +∞[p+q . Le but de cet exercice est de montrer que sous les hypothèses du théorème 3.3, et si Eθ0 ǫ4t < ∞, les estimateurs des MCO, contraint et non contraint, sont fortement convergents. On considére le critère théorique −1 Qn (θ) = n n X e2t (θ), t=1 et (θ) = ǫ2t − σt2 (θ). 1. Montrer que supθ∈Θ Q̃n (θ) − Qn (θ) → 0, presque sûrement quand n → ∞. 2. Montrer que le critère asymptotique est minimisé en θ0 : ∀θ ∈ Θ, lim Q(θ) ≥ lim Q(θ0 ) n→∞ n→∞ et que θ0 en est l’unique minimum. 3. En déduire que θ̂n → θ0 , presque sûrement quand n → ∞. 4. Montrer que θ̂nc → θ0 , presque sûrement quand n → ∞. 3.10 (La moyenne des carrés des résidus normalisés est égale à 1) Pour un modèle GARCH, estimé par maximum de vraisemblance avec valeurs initiales nulles, on introduit les résidus normalisés : η̂t = ǫt /σ̃t (θ̂n ), t = 1, . . . , n. Montrer que p.s. n 1X 2 η̂ = 1. n t=1 t Indication : on pourra remarquer que pour tout c > 0, il existe θ̂n∗ tel que σ̃t2 (θ̂n∗ ) = cσ̃t2 (θ̂n ) pour tout t ≥ 0. On pourra ensuite considérer la fonction c 7→ ln (θ̂n∗ ). 3.11 (Estimateur de Jensen et Rahbek pour le paramètre α0 d’un ARCH(1) non stationnaire) 108 Inférence des modèles GARCH Dans leur article paru en 2004 dans Econometrica, Jensen et Rahbek affirment que l’estimateur QMV d’un ARCH est convergent et asymptotiquement normal, même si les paramètres sont en dehors de la région de stricte stationnarité. Ils considèrent en réalité le modèle ARCH(1), 1/2 ht = ω0 + α0 ǫ2t−1 , ǫt = ht ηt , t = 1, 2, . . . avec ω0 > 0, α0 > 0 et les hypothèses usuelles sur la suite (ηt ), mais où le paramètre ω0 > 0 est supposé connu (ω0 = 1 par exemple) et où seul α0 est inconnu. Un estimateur QMV contraint de α0 est défini par n α̂nc (ω0 ) 1X = arg min ℓt (α), α∈[0,∞) n t=1 ℓt (α) = ǫ2t + log σt2 (α), σt2 (α) (3.41) où σt2 (α) = ω0 + αǫ2t−1 . Supposons donc ω0 = 1 et supposons vérifiée la condition de non stationnarité α0 > exp −E log ηt2 . (3.42) 1. Vérifier que n n ǫ2t−1 1 X 1 X ∂ √ ℓt (α0 ) = √ (1 − ηt2 ) 1 + α0 ǫ2t−1 n t=1 ∂α n t=1 et que ǫ2t−1 1 → 2 1 + α0 ǫt−1 α0 p.s. quand t → ∞ 2. En déduire que n 1 X ∂ L √ ℓt (α0 ) → N n t=1 ∂α κη − 1 0, . α02 3. Déterminer la limite presque sûre de n 1 X ∂2 ℓt (α0 ). n t=1 ∂α2 4. Montrer que pour tout α > 0, presque sûrement n 1 X ∂3 sup ℓt (α) = O(1). 3 ∂α α≥α n t=1 109 3.4 Exercices 5. En déduire que si α̂nc = α̂nc (ω0 ) → α0 presque sûrement alors √ L n (α̂nc − α0 ) → N 0, (κη − 1)α02 . 6. Le résultat est-il changé lorsque α̂nc = α̂nc (1) et ω0 6= 1 ? 7. Ce résultat a-t-il une quelconque conséquence pratique pour l’estimation des ARCH ? Chapitre 4 Modèles à volatilité stochastique Nous avons vu que les modèles GARCH reposent sur l’adéquation entre les concepts de variance conditionnelle et de volatilité. Cette spécification, qui fait de la volatilité une variable observable, a d’immenses avantages du point de vue statistique (prévision, inférence), mais elle rend l’étude probabiliste complexe et elle implique des limitations importantes sur les propriétés dynamiques. A l’opposé, les modèles dits à volatilité stochastique font de la volatilité une variable latente (non observable) possédant une dynamique propre. Le processus observé, ǫt , et sa volatilité, σt , sont liés par l’équation ǫt = σt ηt où (ηt ) est un bruit blanc indépendant, généralement supposé indépendant du processus (σt ). On complète le modèle en spécifiant la dynamique de σt , a priori quelconque pourvu qu’elle soit compatible avec la positivité cette variable. Comme dans le cas GARCH, il existe une spécification simple, courramment utilisée, suffisamment riche pour reproduire les principales caractéristiques des séries financières et susceptible d’extensions. Cette spécification, appelée modèle canonique, consiste à supposer que le logarithme de la volatilité, ou de son carré, suit un modèle AR(1) avec terme constant. Dans ces modèles, les processus (ǫt ) et (σt ) ne sont évidemment pas indépendants mais, contrairement au cas GARCH, la variable ht = σt2 ne s’interprète plus comme la variance de ǫt conditionnelle à son passé : celle-ci n’a pas, dans ces modèles, une forme explicite. Il existe cependant de nombreuses analogies entre les deux classes de processus et celles-ci doivent être vues comme concurrentes, en particulier pour la modélisation des séries financières. 111 4.1 Modèle canonique 4.1 Le modèle canonique Le modèle à volatilité stochastique canonique semble avoir été introduit dans la littérature économétrique par Taylor (1986). Les méthodes statistiques permettant de l’utiliser en pratique n’ont cependant été développés que dans le courant des années 90. Si les propriétés probabilistes de ces processus sont simples à établir, du moins par comparaison aux modèles GARCH, l’inférence statistique pose, comme nous le verrons, de nombreux problèmes pouvant justifier l’utilisation de méthodes sophistiquées. Nous commençons par passer en revue les propriétés élémentaires du modèle canonique. Considérons le modèle √ εt = ht ηt (4.1) ln ht = ω + β ln ht−1 + σvt où |β| < 1, (ηt ) et (vt ) sont deux suites indépendantes de variables iid centrées et de variance égale à 1. Le modèle (4.1), appellé modèle à volatilité stochastique canonique, a été le plus étudié dans la littérature en raison de sa simplicité et de ses liens avec des modèles en temps continu1 . Notons que l’écriture en logarithme de la dynamique de la volatilité assure la positivité de ht sans qu’il soit nécessaire de contraindre les coefficients ω, β et σ. On pourra cependant supposer σ > 0 sans perte de généralité. Comme pour les modèles GARCH, l’amplitude de ǫt est proportionnelle à ht mais son signe est indépendant de cette variable. La volatilité ht étant dépendante de son passé, il est clair que le module de ǫt dépend également de celui de ses valeurs passées. Dans ce modèle, le paramètre β joue le rôle du coefficient de persistance dans le modèle GARCH(1,1) standard. En effet, il est facile de voir, que lorsque β est proche de 1, un choc positif sur la volatilité (assimilable à une grande valeur positive de ηt ) a généralement pour effet de maintenir la volatilité a un niveau élevé sur plusieurs périodes. L’effet du choc est évidemment atténué, puisque β < 1, et tend à disparaitre. Un choc négatif a inversement un impact négatif sur la volatilité Si β est proche de 0 l’effet du choc est transitoire, la volatilité dépendant peu de ses valeurs passées. Enfin, si β est proche de -1 l’effet instantanné d’un choc positif est une volatilité anormalement élevée mais, dès la date suivante, cette volatilité 1 Sous des hypothèses supplémentaires de normalité des bruits blancs (ηt ) et (vt ) ce modèle peut s’interpréter comme une discrétisation de modèles de diffusion introduits dans la littérature financière. 112 Modèles à volatilité stochastique prend une petite valeur, puis à nouveau une grande valeur etc., ceci sous réserve qu’aucun nouveau choc n’intervienne entre temps. Un choc négatif génère le même type d’effets alternés. Ceux-ci n’étant généralement pas observés pour les séries financières, on peut d’ores et déjà considérer les valeurs négatives de β comme peu réalistes pour les applications. L’interprétation des autres coefficients est plus immédiate. Le paramètre ω est un facteur d’échelle pour la volatilité tandis que σ mesure l’amplitude des oscillations autour de sa moyenne : la volatilité de la log-volatilité est constante dans ce modèle. Nous étudions maintenant les propriétés probabilistes du modèle. 4.1.1 Stationnarité stricte Appellons non anticipative toute solution de (4.1) appartenant à la tribu engendrée par {(ηu , vu ) : u ≤ t}. On a le résultat suivant, dont la preuve est évidente : Proposition 4.1 Le modèle (4.1) admet, sous la contrainte |β| < 1, une unique solution strictement stationnaire. Cette solution est non anticipative et donnée par εt = exp ( ∞ σX i ω + β vt−i 2(1 − β) 2 i=0 ) ηt , (4.2) t ∈ Z. Si |β| > 1, il n’existe pas de solution strictement stationnaire non anticipative. La forme de la solution strictement stationnaire permet de préciser ses caractéristiques du second ordre. 4.1.2 Stationnarité au second ordre i Proposition 4.2 Soit αi = E{exp(σβ vt )}, i ≥ 0. Si |β| < 1 et processus (εt ) défini par (4.2) est un bruit blanc de variance Var(εt ) = e ω 1−β ∞ Y i=0 αi . ∞ Y i=0 αi < ∞, le 113 4.1 Modèle canonique Preuve. On a, d’après les hypothèses d’indépendance sur les suites (ηt ) et (vt ) ( !) ∞ σX i ω E(εt ) = E exp + β vt−i E(ηt ) = 0, 2(1 − β) 2 i=0 ( !)2 ∞ ω σX i Var(εt ) = E exp + β vt−i E(ηt2 ) 2(1 − β) 2 i=0 Y ∞ ∞ n σ o2 ω Y ω i 1−β = exp E exp β vt−i =e αi . 1 − β i=0 2 i=0 De plus, pour tout k > 0, Cov(εt , εt−k ) = 0 entre (ηt ) et (vt ). en utilisant à nouveau l’indépendance 2 Remarque. Dans le cas où (vt ) est un processus gaussien, il est possible de donner 2 des résultats plus explicites. Si X ∼ N (0, 1) on a E(eρX ) = eρ /2 pour toute ∞ 2 Y σ 2i et il est clair que la condition 0 < αi < ∞ constante ρ. Donc αi = exp 2 β est réalisée si et seulement si |β| < 1. De plus ω σ2 Var(εt ) = exp + 1 − β 2(1 − β 2 ) i=0 lorsque vt suit une loi normale centrée réduite. Le processus (εt ) ne constitue pas un bruit blanc au sens fort (i.e. un bruit blanc indépendant) comme nous allons le voir en étudiant les fonctions d’autocovariances de certaines de ses transformées. 4.1.3 Représentation ARMA pour le processus (ln ε2t ) En prenant le logarithme du carré de ǫt , la première équation de (4.1) devient : ln ε2t = ln ht + ln ηt2 . (4.3) Cette écriture permet de dériver la fonction d’autocovariance du processus (ln ε2t ). On effectue le changement de notations suivant : Xt = ln ε2t , Yt = ln ht et Zt = Xt − Yt = ln ηt2 . 114 Modèles à volatilité stochastique On suppose que Zt admet des moments jusqu’à l’ordre 4 et on note µZ = E(Zt ), σZ2 = Var(Zt ), σZ2 2 = Var(Zt2 ).2 On notera de manière similaire les moments de Xt et Yt . Le résultat suivant montre que (Xt ) admet une représentation ARMA, propriété qui se révèlera très utile pour l’estimation. Proposition 4.3 Si |β| < 1 et σZ2 2 < ∞, le processus (Xt ) = ln ε2t admet une représentation ARMA(1,1) de la forme (4.4) Xt − µX = β(Xt−1 − µX ) + ut − αut−1 , où (ut ) est un bruit blanc. Preuve. Le processus (Yt ) étant solution du modèle AR(1) Yt = ω + βYt−1 + σvt , ses moyenne et fonction d’autocovariance sont données par ω 1−β σ2 γY (0) = Var(Yt ) = 1 − β2 γY (k) = Cov(Yt , Yt−k ) = βγY (k − 1), µY = E(Yt ) = k > 0. D’après l’indépendance entre (Yt ) et (Zt ), (Xt ) est un processus du second ordre dont les les caractéristiques s’obtiennent comme suit ω + µZ , 1−β σ2 γX (0) = Var(Xt ) = Var(Yt ) + Var(Zt ) = + σZ2 , 1 − β2 σ2 γX (k) = γY (k) = βγY (k − 1) = β k , k > 0. 1 − β2 µX = E(Xt ) = E(Yt ) + E(Zt ) = Puisque γX (k) = βγX (k − 1), ∀k > 1, (Xt ) vérifie une équation ARMA(1,1) de la forme (4.4). La constante α s’obtient à partir des deux premières autocovariances de (Xt ). D’après (4.4) on a, en notant σu2 la variance du bruit dans cette représentation γX (0) = βγX (1) + σu2 {1 + α(α − β)} , 2 Dans le cas où ηt ∼ N (0, 1) on a µZ = −1.270, Abramovitz et Stegun (1970), p. 260 and 943). γX (1) = −ασu2 + βγX (0). 2 σZ = π 2 /2 = 4.935, 2 σZ 2 = 263.484 (cf 115 4.1 Modèle canonique Donc si σZ2 6= 0 1 + α(α − β) γX (0) − βγX (1) σ 2 + σZ2 = = α βγX (0) − γX (1) βσZ2 et la solution de module inférieur à 1 est donnée par (1 + β 2 )σZ2 + σ 2 − {(1 + β)2 σZ2 + σ 2 }1/2 {(1 − β)2 σZ2 + σ 2 }1/2 . α= 2βσZ2 De plus, la variance du bruit dans (4.4) est donnée par σu2 = βσZ2 α si β 6= 0 (voir remarque ci-dessous) (et σu2 = σ 2 + σZ2 si β = 0). Enfin, si σZ2 = 0 la relation γX (k) = βγX (k − 1) est vraie aussi pour k = 1 et (Xt ) est un AR(1) (i.e. α = 0 dans (4.4)). 2 Remarques : (i) Si β = 0, (Xt ) est un bruit blanc fort (indépendant) et α = 0. Inversement, si β 6= 0, on a α 6= 0 dès que σZ2 > 0, et les ordres de la représentation ARMA(1,1) sont exacts. (ii) Il est important de remarquer que dans (4.4) (ut ) est seulement un bruit blanc au sens faible, c’est à dire une suite de variables non corrélées (et évidemment centrées et de variance constante). Ces variables ne sont généralement pas indépendantes et elles ne constituent même pas une différence de martingale (comme c’était par exemple le cas pour le bruit de la représentation ARMA du carré d’un processus GARCH). On s’en aperçoit en calculant par exemple3 E{ut (Xt−1 − µX )2 } = σ 3 α{1 + β 2 (1 − α)} E(vt3 ) + (α − β)E(Zt − µZ )3 (1 − β 3 )(1 − αβ 2) Même lorsque la distribution de (vt ) est symmétrique cette quantité est généralement non nulle. Ceci montre que ut peut être corrélée avec des fonctions (nécessairement non linéaires) de son passé : donc E(ut |ut−1 , ut−2 , . . .) 6= 0 (p.s). Exemple : Si ηt et vt suivent la loi N (0, 1) et si ω = −1, β = 0.9, σ = 0.4, on vérifie facilement que (Xt ) admet la représentation ARMA(1,1) suivante (Xt − 11.27) − 0.9(Xt−1 − 11.27) = ut − 0.81ut−1 , où (ut ) est un bruit blanc de variance σu2 = 5.52. 3 voir Francq et Zakoïan (2001) 116 4.2 Modèles à volatilité stochastique Autocovariance du processus (ε2t ) La forme du modèle se prête moins facilement à une étude de la fonction d’autocovariance du processus (ǫ2t ). Celle-ci est pourtant utile pour la comparaison avec les modèles GARCH ainsi que pour certaines méthodes d’estimation. On a en utilisant (4.2), pour tout k ≥ 0 (∞ ) ∞ Y i Y 2ω i 2 E(ε2t ε2t−k ) = e 1−β E eσβ vt−i eσβ vt−k−i E(ηt2 ηt−k ) i=0 i=0 En particulier E(ε4t ) = e 2ω 1−β ∞ Y i=0 n o i E e2σβ vt E(ηt4 ) 2 et pour k > 0, puisque ηt2 et ηt−k sont indépendantes et d’espérance 1 (k−1 ) ∞ Y i Y 2ω i −k E(ε2t ε2t−k ) = e 1−β E eσβ vt−i eσβ (1+β )vt−i i=0 k−1 Y 2ω = e 1−β i=0 αi i=k ∞ Y αk,i i=k en posant, pour i ≥ k, αk,i = E[exp{σβ i(1 + β −k )vt }]. Donc (ε2t ) est stationnaire au second ordre dès que |β| < 1 et E(ηt4 ) i=0 et on a pour tout k > 0 Cov(ε2t , ε2t−k ) = e 2ω 1−β ∞ Y k−1 Y i=0 αi α0,i < ∞ ∞ Y i=k αk,i − ∞ Y i=0 αi2 ! . Supposons maintenant que vt suit la loi N (0, 1). On vérifie facilement que αk,i = 2 exp{ σ2 β 2i (1 + β −k )2 } et que la condition de stationnarité au second ordre se limite à E(ηt4 ) < ∞ et |β| < 1 dans ce cas. Par suite, pour tout k > 0 ! k−1 ∞ ∞ Y σ2 2i Y Y 2ω σ 2 2i −k 2 2 2i Cov(ε2t , ε2t−k ) = e 1−β e2β e 2 β (1+β ) − eσ β i=0 = e 2 2ω + σ 2 1−β 1−β 2 i=k σ βk 2 e 1−β −1 . i=0 4.3 Estimation 117 Il est intéressant de remarquer que la fonction d’autocovariance de (ε2t ) tend vers zéro lorsque k tend vers l’infini mais que la décroissance n’est pas compatible avec une équation de récurrence linéaire reliant les autocovariances. Or une telle relation est caractéristique des modèles ARMA. On peut donc en déduire que (ǫ2t ), bien que stationnaire au second ordre, n’admet pas de représentation ARMA. On se trouve ici dans un cas où la représentation de Wold ne se réduit pas à une écriture ARMA. Cependant on a un équivalent de la forme Cov(ε2t , ε2t−k ) ∼ cste×β k lorsque k → ∞, ce qui montre que la vitesse asymptotique de décroissance (exponentielle) des autocovariances est la même que pour un processus ARMA. 4.3 Estimation Le caractère latent (inobservable) de la volatilité rend l’inférence statistique des modèles à volatilité stochastique plus complexe que celle des modèles de type GARCH. En particulier la loi conditionnelle du processus observé n’est pas explicite, ce qui empêche d’écrire la vraisemblance sous une forme simple permettant de la maximiser. Cette complexité explique que jusqu’au début des années 90, les articles consacrés à l’estimation de tels modèles étaient peu nombreux. Depuis, la situation a radicalement changé et de nombreuses méthodes sont disponibles dans la littérature statistique : pseudo-maximum de vraisemblance ; moments généralisés ; méthode fondée sur les représentations ARMA ; méthode Bayésienne : méthodes simulées. Les principaux critères de comparaison sont les suivants : précision des estimateurs, simplicité de l’implémentation numérique, vitesse d’obtention des estimation, existence ou non de propriétés asymptotiques dans la littérature, robustesse par rapport aux hypothèses et possibilités d’adaptation à diverses spécifications de la volatilité. Nous allons présenter brièvement la méthode pseudo-maximum de vraisemblance, sans discussion de ses propriétés asymptotiques. On se place dans la cadre du modèle canonique (4.1). Notons θ = (ω, β, σ) le vecteur des paramètres et θ0 la vraie valeur. On observe une trajectoire de longueur n, soit ǫn = (ε1 , . . . , εn ), du processus (εt ). Rappelons que les autres variables du modèle, en particulier la volatilité ht , ne sont pas observables. L’écriture classique de la vraisemblance pour une série temporelle (ǫt ) repose sur la décomposition de la densité jointe en produit de densités conditionnelles. La vraisemblance, en la valeur θ du paramètre et pour l’observation (ǫ1 , . . . , ǫn ) s’écrit 118 Modèles à volatilité stochastique donc ℓ(ǫ1 , . . . , ǫn ; θ) = n Y t=1 f (ǫt |ǫ1 , . . . , ǫt−1 )p(ǫ1 ) où, pour 2 ≤ t ≤ n, f (·|ǫ1 , . . . , ǫt−1 ) désigne la densité de ǫt conditionnelle à (ǫ1 , . . . , ǫt−1 ) et p(·) la densité de ǫ1 . Lorsque les lois conditionnelles sont gaussiennes cette décomposition permet d’obtenir une écriture simple de la logvraisemblance en fonction des moyenne et variance conditionnelles des variables ǫt : n n 1X (ǫt − mt (θ))2 log ℓ(ǫ1 , . . . , ǫn ; θ) = − log 2π − log σt2 (θ) + 2 2 t=1 σt2 (θ) en posant mt (θ) = E(ǫt |ǫ1 , . . . , ǫt−1 ) et σt2 (θ) = Var(ǫt |ǫ1 , . . . , ǫt−1 ). Dans le cas du modèle (4.1), la loi du processus observable conditionnelle à ses valeurs passées n’est pas connue explicitement. Il n’est pas difficile d’obtenir la loi conditionnelle du couple (ǫt , ht ) ainsi que celle de (ht ) en faisant des hypothèses appropriées sur les bruits (par exemple en les supposant gaussiens et indépendants l’un de l’autre). La densité conditionnelle de (ǫt ) peut donc être exprimée comme une intégrale faisant intervenir ces deux lois conditionnelles. Pourtant cette méthode n’est pas viable en pratique : le calcul numérique d’une intégrale est coûteux en précision et temps de calcul, et cette opération devrait être répétée n − 1 fois (en négligeant le problème de la loi initiale). La méthode du pseudo-maximum de vraisemblance repose sur une approximation de la vraisemblance, obtenue à partir du filtre de Kalman. Celui-ci s’applique aux modèles admettant une représentation espace-état et peut être utilisé pour le filtrage, le lissage et la prédiction. L’écriture générale d’une représentation espace-état se présente sous la forme de deux équations yt = Ut αt + dt + ut αt = Tt αt−1 + ct + Rt vt la première étant appelée équation de mesure et la seconde équation de transition. La variable yt est observable et à valeurs dans RN tandis que les m composantes du vecteur αt , appelé vecteur d’état, sont généralement inobservables. Les matrices Ut , dt , Tt , ct et Rt sont généralement supposées non stochastiques mais peuvent dépendre de t. Les suites (ut ) et (vt ) sont centrées, sériellement non corrélées mais leur variance peut dépendre du temps. On suppose également que ut et vs sont non corrélés, quels que soient s et t. Le filtre de Kalman est un algorithme permettant de (i) prédire la valeur du vecteur d’état à la date t sachant ses valeurs passées ; 119 4.3 Estimation (ii) filtrer, c’est à dire estimer la valeur de αt à partir des observations de y jusqu’à la date t ; (iii) lisser, c’est à dire estimer la valeur de αt à partir des observations de y jusqu’à la date T , avec T > t. Sous des hypothèses de normalité des termes d’erreur et de la distribution initiale du vecteur d’état : ut ; N (0, Ht ), vt ; N (0, Qt), α0 ; N (a0 , P0 ) (4.5) l’agorithme permet de calculer récursivement la distribution conditionnelle de αt sachant y1 , . . . , yt . Cette distribution est gaussienne et sa moyenne fournit donc un “estimateur” optimal (au sens L2 ) de αt . Lorsque l’hypothèse de normalité (4.5) est en défaut, le filtre de Kalman ne fournit généralement plus l’espérance conditionnelle de αt . L’estimateur obtenu n’est plus optimal mais seulement optimal parmi les estimateurs linéaires. La mise en oeuvre de l’algorithme nécessite d’introduire les notations suivantes : at|t = E(αt |y1, . . . , yt ), Pt|t = Var[αt |y1 , . . . , yt ], at|t−1 = E(αt |y1, . . . , yt−1 ), Pt|t−1 = Var[αt |y1 , . . . , yt−1 ], Première étape : en prenant l’espérance conditionnelle par rapport à y1 , . . . , yt−1 dans l’équation de transition, on obtient at|t−1 = Tt at−1 + ct puis, en utilisant la relation αt − at|t−1 = Tt (αt−1 − at−1 ) + Rt vt , Pt|t−1 = Tt Pt−1 Tt′ + Rt Qt Rt′ . Ces équations sont appelées équations de prévision. Deuxième étape : Une fois disponible l’observation yt , les quantités précédentes sont mises à jour : at|t = at|t−1 + Pt|t−1 Ut′ Ft−1 (yt − Ut at|t−1 − dt ) et en posant Pt|t = Pt|t−1 − Pt|t−1 Ut′ Ft−1 Ut Pt|t−1 Ft := Var(yt |y1 , . . . , yt−1 ) = Ut Pt|t−1 Ut′ + Ht . C’est dans la deuxième étape qu’interviennent les hypothèses de normalité. On utilise en effet le fait que la distribution de (yt , αt ) conditionnellement à y1 , . . . , yt−1 est 120 Modèles à volatilité stochastique gaussienne, ce qui permet d’obtenir la loi de αt conditionnellement à y1 , . . . , yt−1 , yt . 4 On calcule ainsi, de manière récursive pour t = 1, . . . , n, les quantités at|t , at|t−1 et Pt|t−1 . Ceci permet en même temps d’obtenir E(yt |y1 , . . . , yt−1 ) = Ut at|t−1 + dt et Ft = Var(yt |y1, . . . , yt−1 ) et donc d’écrire la log-vraisemblance gaussienne du modèle. La forme espace état du modèle (4.1) est obtenue par passage au logarithme : ln ǫ2t = ln ht + mZ + ut ln ht = β lnt−1 +ω + σvt avec les notations Zt = ln ηt2 , mZ = E(Zt ) et ut = Zt − mZ . On note également σZ2 = Var(ln ηt2 ), en supposant que cette quantité existe. Soit at|t = E(ln ht |ǫ21 , . . . , ǫ2t ), Pt|t = Var(ln ht |ǫ21 , . . . , ǫ2t ), at|t−1 = E(ln ht |ǫ21 , . . . , ǫ2t−1 ), Pt|t−1 = Var(ln ht |ǫ21 , . . . , ǫ2t−1 ), L’algorithme prend ici la forme simplifiée at|t−1 = βat−1 + ω, Pt|t−1 = β 2 Pt−1 + σ 2 σv2 at|t = at|t−1 + Pt|t−1 Ft−1 (ln ǫ2t − at|t−1 − mZ ) et Ft = Var(ln ǫ2t |ǫ21 , . . . , ǫ2t−1 ) = Pt|t−1 + σZ2 , 2 Pt|t = Pt|t−1 − Pt|t−1 Ft−1 D’où finalement la (pseudo) log-vraisemblance : n (log(ǫ2t ) − at|t−1 − mZ )2 n 1X log ℓ(ǫ1 , . . . , ǫn ; θ) = − log 2π − log Ft + 2 2 t=1 Ft Pour des valeurs fixées de mZ et σZ2 , les paramètres ω, β, σ peuvent alors être estimés en maximisant cette fonction, construite en appliquant l’algorithme précédent. Il est important de remarquer que la variance conditionnelle Ft obtenue avec l’algorithme ne dépend pas des observations. Si le vecteur (x, y)′ est gaussien avec µx = E(x), µy = E(y), Σxx = Var(x), Σyy = Var(y), Σxy = Σ′yx = Cov(x, y) la loi de x conditionnelle à y est la gaussienne 4 −1 N (µx + Σxy Σ−1 yy (y − µy ), Σxx − Σxy Σyy Σyx ) . Chapitre 5 Modèle à chaîne de Markov cachée 5.1 Chaîne de Markov à nombre fini d’états Une processus de Markov est un processus tel que le futur ne dépend que du présent et pas du passé. Plus précisément, une chaîne de Markov (∆t )t≥0 prenant ses valeurs dans E = {1, ..., d} (on dit que E est l’espace des états de la chaîne) est définie par : 1. une P loi initiale définie par π0 (i) = IP(∆0 = i) pour i = 1, . . . , d (avec bien sûr di=1 π0 (i) = 1) ; 2. une matrice de probabilités de transition P = (p(i, j))1≤i,j≤d telle que p(i, j) = IP(∆t = j|∆t−1 = i) = IP(∆t = j|∆t−1 = i, ∆t−2 = et−2 , . . . , ∆0 = e0 ) P pour tout (i, j, et−2 , . . . , e0 ) ∈ E t+1 (avec bien sûr dj=1 p(i, j) = 1 pour tout i ∈ E). Les probabilités de transition étant indépendantes de t, on dit que la chaîne est homogène. On note P(k) = p(k) (i, j) 1≤i,j≤d la matrice des probabilités de transition en k étapes : p(k) (i, j) = IP(∆t = j|∆t−k = i). Il est facile de voir que P(k) = Pk , ou plus généralement ′ ′ équations de Chapman-Kolmogorov : P(k+k ) = P(k) P(k ) . Notons π0 (1) π0 = ... π0 (d) IP(∆n = 1) .. et πn = . . IP(∆n = d) 122 Chaîne de Markov cachée On peut facilement vérifier que πn = P′ πn−1 , ′ πn = P n π0 , n ≥ 0. On dit qu’une probabilité π sur E est une loi invariante si π = P′ π, π ′ 1 = 1 (avec 1′ = (1, . . . , 1)). Si la loi limite π∞ := limn→∞ πn existe alors c’est une loi invariante. On dit que 2 états i et j communiquent si on peut passer de i à j en un nombre fini d’étapes (i.e. p(m) (i, j) > 0) et que l’on peut passer également de j à i en un nombre fini d’étapes. Si tous les états communiquent, on dit que la chaîne est irréductible. Un état i est dit apériodique si 1 est le plus grand commun diviseur des entiers m tels que p(m) (i, i) > 0. La chaîne est dite apériodique si tous les états sont apériodiques. Toute chaîne à espace fini d’états qui est irréductible et apériodique admet une unique loi invariante. Si la loi initiale est cette loi invariante alors la chaîne est stationnaire et ergodique. Si la loi initiale est une loi quelconque alors la loi de la chaîne converge vers la loi invariante. Exemple 5.1 (urne d’Ehrenfest) Ce modèle d’urne a été introduit en physique pour décrire des échanges de chaleur entre deux systèmes. A l’étape initiale 0, on répartit au hasard d boules numérotées de 1 à d entre deux urnes A et B. A l’étape n ≥ 1, on tire un nombre i au hasard entre 1 et d et la boule i est changée d’urne. Le nombre ∆n de boules dans l’urne A à l’étape n suit une chaîne de Markov à espace d’états E = {0, 1, . . . , d}, de loi initiale π0 (i) := IP(∆0 = i) = Cdi /2d et de matrice de transition 0 1 0 ··· 0 1/d 0 (d − 1)/d ··· 0 0 2/d 0 (d − 2)/d . (5.1) P= . . . .. . 0 ··· 0 1 0 Le nombre de boules dans l’urne A change successivement de parité au fil des étapes. On a par exemple p(2k+1) (2i, 2i) = 0. Ainsi la chaîne est irréductible, mais périodique. On peut montrer (voir l’exercice 5.2) que π0 est une loi invariante. Ceci signifie qu’en partant de cette loi, on a πn = π0 pour tout n, et donc limn→∞ πn existe et vaut π0 . Si par contre, on prend par exemple comme loi initiale la mesure de Dirac en 0, alors limn→∞ πn n’existe pas (en effet πn (2i) = 0 pour n impair et πn (2i + 1) = 0 pour n pair). 123 5.2 Chaîne de Markov cachée 5.2 Chaîne de Markov cachée On dit qu’un processus (Xt )t≥0 suit un modèle à chaîne de Markov cachée si 1. conditionnellement à une certaine chaîne de Markov (∆t ) non observée, les observations X0 , X1 , . . . sont indépendantes ; 2. la loi conditionnelle de Xs sachant (∆t ) ne dépend que de ∆s . Considérons pour commencer le simple modèle suivant √ ǫt = ht ηt , ht = ω(∆t ), (5.2) où ω(1) < . . . < ω(d), (5.3) (ηt ) une suite iid centrée de variance 1 et ∆t est une chaîne de Markov sur E = {1, ..., d}, stationnaire, irréductible et apériodique. On suppose de plus que (ηt ) et (∆t ) sont deux processus indépendants. Il est facile de vérifier que les conditions définissant un modèle à chaîne de Markov cachée sont satisfaites. Notons que la condition (5.3) n’est pas restrictive car si ω(i) = ω(j) on peut toujours regrouper les états i et j en changeant de chaîne. Remarquons que ce modèle s’inscrit également dans la classe des modèles généraux à variance conditionnelle aléatoire (1.5), où Ft−1 est la tribu engendrée par la variable ∆t . En dépit de sa simplicité, ce modèle présente de fortes similitudes, mais aussi des différence, avec les modèles GARCH standard. 5.2.1 Comparaison avec les modèles GARCH Comme dans les modèles GARCH ou à volatilité stochastique, le processus observé (ǫt ) est centré et ses trajectoires consistent en des oscillations autour de zéro. L’amplitude de ces oscillations sera différente selon l’état où se trouve la chaîne ∆t . Dans le régime 1 celles-ci seront faibles tandis que le régime d correspondra à des périodes plus turbulentes (en moyenne la variance est cependant constante au cours du temps). La durée de séjour dans chacun des régimes et le nombre de transition d’un régime vers un autre dépendent uniquement des probabilités de transition de la chaîne. Un exemple de trajectoire (100 observations) est donné dans la Figure 5.1 suivante. Il s’agit d’un modèle à 3 régimes (ω(1) = 1, ω(2) = 3, ω(3) = 9) avec probabilités de transition : p(1, 2) = 0.1, p(1, 3) = 0.05, p(2, 1) = p(3, 1) = 0.3. Ce modèle très simple présente de fortes analogies avec ceux de la famille GARCH. 124 Chaîne de Markov cachée 20 10 0 -10 -20 10 20 30 40 50 60 70 80 90 100 t Fig. 5.1 – Simulation de longueur 100 de (5.2) : le trait plein correspond aux valeurs simulées de ǫt et les pointillés correspondent à ±2ω(∆t ) (source : Francq et Roussignol (1997)). Par construction la propriété de regroupement des dates à forte volatilité assurée. 1 est Avec les hypothèses faites sur la chaîne et sur (ηt ), toute solution du modèle (5.2) est évidemment strictement stationnaire. Les moments de ǫt existent à tout ordre, pourvu que les mêmes moments existent pour le processus ηt . D’après l’indépendance entre ηt et ∆t , on a pour tout réel positif r, E(ǫrt ) = Eω(∆t ) r/2 E(ηtr ) = d X ω(i)r/2 π(i)E(ηtr ). i=1 En particulier ǫt est centré. Rappelons que pour un modèle GARCH, les moments ne peuvent exister à tout ordre. Bien que la distribution marginale de ǫt ne possède pas de queues épaisses, la propriété de leptokurticité est cependant vérifiée : la distribution de ǫt est à queues plus épaisses que celle de ηt . Si l’on suppose cette dernière normale, le coefficient de Kurtosis de ǫt est strictement supérieur à 3 (la valeur exacte dépend à la fois des probabilités de transition et des valeurs des variances ω(i) pour les divers régimes). Une différence importante par rapport aux modèles GARCH apparaît lorsque l’on considère le coefficient de Kurtosis conditionnel. Rappelons que celui-ci est 1 Il est important de noter que ht ne représente pas ici la variance de ǫt conditionnellement à l’information disponible á la date t : en effet ω(δt ) ne s’exprime pas en fonction du passé de ǫt . On continuera cependant à appeler volatilité le processus (ht ). 125 5.2 Chaîne de Markov cachée constant dans le cas GARCH. Pour le modèle (5.2) on a E(ǫ4t |ǫt−1 , ǫt−2 , . . .) E(h2t |ǫt−1 , ǫt−2 , . . .) = κη [E(ǫ2t |ǫt−1 , ǫt−2 , . . .)]2 [E(ht |ǫt−1 , ǫt−2 , . . .)]2 et ici la simplification des espérances n’a pas lieu, ht ne s’exprimant pas comme une fonction du passé de ǫt . Ainsi la forme de distribution conditionnelle est susceptible d’évoluer au cours du temps. Des similitudes moins évidentes avec les modèles GARCH standard apparaissent lorsqu’on étudie les autocorrélations de (ǫt ) et (ǫ2t ). 5.2.2 Autocorrélations, moments On a Corr(ǫt , ǫt−k ) = 0, pour tout k > 0 donc (ǫt ) est un bruit de variance Eǫ2t = d X ω(i)π(i). i=1 Nous étudions maintenant l’autocorrélation des carrés. Nous commençons par considérer le cas d = 2 qui permet une présentation plus simple que le cas général. La matrice de transition admet pour valeurs propres 1 et λ := p(1, 1) + p(2, 2) − 1. Notons que −1 < λ < 1. En diagonalisant IP il est facile de voir que les éléments de IPk sont de la forme, pour k ≥ 0 p(k) (i, j) = a1 (i, j) + a2 (i, j)λk . En faisant tendre k vers l’infini on obtient a1 (i, j) = π(j), et en utilisant la valeur k = 0 : a1 (i, j) + a2 (i, j) = 1{i=j} . Par suite pour j = 1, 2 et i 6= j p(k) (i, j) = π(j)(1 − λk ), p(k) (j, j) = π(j) + λk π(i), d’où, pour i, j = 1, 2 p(k) (i, j) − π(j) = λk {1 − π(j)} 1{i=j} −π(j) 1{i6=j} . (5.4) On a, pour k > 0, Cov(ǫ2t , ǫ2t−k ) = Cov {ω(∆t ), ω(∆t−k )} = E {ω(∆t )ω(∆t−k )} − {Eω(∆t )}2 ( d )2 d X X = p(k) (i, j)π(i)ω(i)ω(j) − π(i)ω(i) i,j=1 = d X i {p(k) (i, j) − π(j)}π(i)ω(i)ω(j), i,j=1 (5.5) 126 Chaîne de Markov cachée donc en utilisant (5.4) Cov(ǫ2t , ǫ2t−k ) = λk ( 2 X j=1 (1 − π(j))π(j)ω 2(j) − = λk {ω(1) − ω(2)}2π(1)π(2), X π(i)π(j)ω(i)ω(j) i6=j k > 0. ) (5.6) Il est intéressant de constater que les autocorrélations des carrés décroissent à vitesse exponentielle, comme pour un processus GARCH stationnaire au second ordre. Une différence importante pourtant, est que la vitesse de cette convergence n’est pas liée à l’existence des moments. Notons aussi que les autocorrélations décroîtront d’autant plus lentement en module que |λ| = |1 − p(1, 1) − p(2, 2)| sera grand, c’est-à-dire que les probabilités de passer d’un régime à l’autre seront, toutes les deux, soit très faibles soit très fortes. Évidemment, Cov(ǫ2t , ǫ2t−k ) = 0 pour tout k > 0 lorsque ω(1) = ω(2) car alors ǫt est un bruit blanc iid. Un calcul similaire montre que Var(ǫ2t ) = {ω(1) − ω(2)}2 π(1)π(2) + {ω 2 (1)π(1) + ω 2 (2)π(2)}Var(ηt2 ). (5.7) On déduit de (5.6) et (5.7) que ǫ2t vérifie un modèle ARMA(1,1) de coefficient autorégressif égal à λ. Dans le cas général la matrice IP n’est pas toujours diagonalisable mais admet toujours 1 comme valeur propre, la dimension de l’espace propre associé étant 1. Notons λ1 , . . . λm les autres valeurs propres et n1 , . . . , nm les dimensions des espaces propres correspondants (n1 + · · · + nm = d − 1). On a la représentation de Jordan IP = SJS −1 , pour une matrice inversible S et Jn1 (λ1 ) 0 ... 0 .. 0 . Jn2 (λ2 ) 0 . .. . . .. .. J = .. . . . . . . . Jnm (λm ) 0 0 ... 0 1 où Jl (λ) = λIl + Nl (1), en notant Nl (i) la matrice carrée de dimension l dont tous les éléments sont nuls hormis des 1 sur la i-ème surdiagonale. On a, en utilisant ′ ′ Nlk (1) = Nl (k ′ ) pour k ′ ≤ l − 1 et Nlk (1) = 0 pour k ′ > l − 1, Jlk (λ) k X ′ ′ k λk−k Nlk (1) = ′ k k ′ =0 l−1 X ′ k λk−k Nl (k ′ ) := λk P (l) (k) = ′ k ′ k =0 127 5.2 Chaîne de Markov cachée où P (l) est un polynôme de degré l − 1. Par k (n1 ) λ1 P (k) 0 0 λk2 P (n2 ) (k) ... IPk = S .. . 0 ... On en déduit, que p(k) (i, j) = π(j) + suite 0 .. 0 . −1 .. .. ... . . S . .. . λkm P (nm ) (k) 0 0 1 ... m X (n ) λkl pl,i,jm (k) l=1 (n ) où les pl,i,jm sont des polynômes de degré l−1. Le premier terme à droite de l’égalité est nécessairement celui-ci car p(k) (i, j) → π(j) quand k → ∞ et les λl sont de module strictement inférieur à 1. Par suite en utilisant (5.5), Cov(ǫ2t , ǫ2t−k ) = d X m X (n ) λkl pl,i,jm (k) := i,j=1 l=1 m X (nm ) λkl ql (k), k>0 (5.8) l=1 (n ) où les pl,i,jm sont des polynômes de degré l − 1. Le calcul de E(ht+k |ǫt−1 , ǫt−2 , . . .) est plus compliqué, mais on peut montrer que cette quantité dépend de k par l’intermédiaire des λkl (de façon analogue à la formule (5.8)). Ainsi, la chaîne (∆t ) introduit une source de persistance des chocs sur la volatilité. 5.2.3 Estimation L’écriture de la vraisemblance peut s’obtenir en conditionnant par tous les « chemins » possibles de la chaîne, (e1 , . . . , en ), où les ei prennent leurs valeurs dans E = {1, . . . , d}. La probabilité d’un tel chemin est donnée par IP(e1 , . . . , en ) = IP(∆1 = e1 , . . . , ∆n = en ) = π(e1 )p(e1 , e2 ) . . . p(en−1 , en ). Pour chacun de ces chemins, on obtient une (quasi)-vraisemblance conditionnelle de la forme n Y (e1 ,...,en ) L (ǫ1 , . . . , ǫn ) = φet (ǫt ), t=1 où φi (·) désigne la densité N {0, ω(i)}. 128 Chaîne de Markov cachée Finalement, la vraisemblance de l’échantillon s’écrit X L(ǫ1 , . . . , ǫn ) = L(e1 ,...,en) (ǫ1 , . . . , ǫn )IP(e1 , . . . , en ). (e1 ,...,en )∈E n Malheureusement, cette formule est inutilisable en pratique car la somme comporte dn termes (ce qui est considérable même pour des petits échantillons et 2 régimes). Voici plusieurs solutions à ce problème numérique. Calcul de la vraisemblance Écriture matricielle : Notons Fk (i) = gk (ǫ1 , . . . , ǫk |∆k = i)π(i) où gk (·|∆k = i) est la loi de (ǫ1 , . . . , ǫk ) sachant {∆k = i}. On peut facilement vérifier que F1 (i) = π(i)φi (ǫ1 ) d X Fk (i) = φi (ǫk ) Fk−1 (j)p(j, i) (5.9) (5.10) j=1 et Lθ (ǫ1 , . . . , ǫn ) = d X Fn (i). (5.11) i=1 Sous forme matricielle on obtient Fk := (Fk (1), . . . , Fk (d))′ = M(ǫk )Fk−1 , où D’où p(1, 1)φ1(x) · · · p(d, 1)φ1(x) .. M(x) = . . p(1, d)φd(x) · · · p(d, d)φd (x) Lθ (ǫ1 , . . . , ǫn ) = 1′ M(ǫn )M(ǫn−1 ) · · · M(ǫ2 )F1 , qui est cette fois tout à fait calculable (de l’ordre de d2 n multiplications). (5.12) 129 5.2 Chaîne de Markov cachée Algorithme Forward-Backward Soit Bk (i) = Bk (ǫk+1 , . . . , ǫn |∆k = i) la loi de (ǫk+1 , . . . , ǫn ) sachant {∆k = i}. En utilisant la propriété de Markov, on a Lθ (ǫ1 , . . . , ǫn |∆k = i)π(i) = Fk (i)Bk (i). Les formules Forward, permettant de calculer Fk (i) pour k = 1, 2, . . . , sont données par (5.9)-(5.10). Les formules Backward permettant de calculer Bk (i) pour k = n − 1, n − 2, . . . sont, avec une convention pour k = n, Bn (i) = 1 d X Bk (i) = Bk+1 (j)p(i, j)φj (ǫk+1 ). (5.13) (5.14) j=1 On obtient alors Lθ (ǫ1 , . . . , ǫn ) = d X Fk (i)Bk (i) (5.15) i=1 pour tout k ∈ {1, . . . , n}. Si on prend k = n, on retrouve (5.11). Filtre de Hamilton L’algorithme Forward-Backward a été développé dans la littérature statistique (Baum, Inequalities, 1972). Les modèles faisant intervenir une chaîne de Markov latente ont été développés dans la littérature économétrique par Hamilton (Econometrica, 1989). Posons IP(∆t = 1|ǫt , . . . , ǫ1 ) IP(∆t = 1|ǫt−1 , . . . , ǫ1 ) .. .. πt|t = , πt|t−1 = , . . IP(∆t = d|ǫt , . . . , ǫ1 ) IP(∆t = d|ǫt−1 , . . . , ǫ1 ) φ(ǫt ) = (φ1 (ǫt ), . . . , φd(ǫt ))′ , et notons ⊙ le produit d’Hadamard des matrices (le produit élément par élément). Avec des notation évidentes, on a πt|t (i) = IP(∆t = i|ǫt , . . . , ǫ1 ) = φi (ǫt )IP(∆t = i|ǫt−1 , . . . , ǫ1 ) , ft (ǫt |ǫt−1 , . . . , ǫ1 ) 130 Chaîne de Markov cachée où ft (ǫt |ǫt−1 , . . . , ǫ1 ) = d X i=1 φi (ǫt )πt|t−1 (i) = 1′ πt|t−1 ⊙ φ(ǫt ) . Partant de la valeur initiale π1|0 = π (la loi stationnaire) ou π1|0 = π0 (une loi initiale fixée), on calcule donc πt|t = 1′ π ⊙ φ(ǫt ) t|t−1 , πt|t−1 ⊙ φ(ǫt ) πt+1|t = P′ πt|t (5.16) pour t = 1, . . . , n, et on obtient la log-vraisemblance conditionnelle log Lθ (ǫ1 , . . . , ǫn ) = n X t=1 log ft (ǫt |ǫt−1 , . . . , ǫ1 ), (5.17) où ft (ǫt |ǫt−1 , . . . , ǫ1 ) = 1′ πt|t−1 ⊙ φ(ǫt ) . (5.18) L’algorithme de Hamilton (5.16)-(5.18) semble préférable à l’algorithme ForwardBackward décrit par (5.9)-(5.10) et (5.13)-(5.15) qui, sous cette forme, engendre des « underflow ». Notons cependant qu’il existe des versions conditionnelles de l’algorithme Forward-Backward qui évitent le problème d’underflow (Devijver, Pattern Recognition Letter, 1985). Notons également que l’écriture matricielle (5.12) est très pratique pour obtenir le comportement asymptotique de l’estimateur du QMV (Francq et Roussignol, JTSA, 1997). Maximisation de la vraisemblance La maximisation de la (log-)vraisemblance peut se faire à l’aide d’une procédure d’optimisation classique, ou à l’aide de l’algorithme EM (Espérance–Maximisation) dont le principe est le suivant. Il sera plus simple de considérer que la loi initiale π0 (la loi de ∆1 ) n’est pas forcément la loi stationnaire π. Dans l’algorithme EM, π0 est un paramètre supplémentaire, que l’on cherche également à estimer. Si en plus de (ǫ1 , . . . , ǫn ), on observait également (∆1 , . . . , ∆n ), il serait facile d’estimer θ et π0 par maximum de vraisemblance. En effet log Lθ,π0 (ǫ1 , . . . , ǫn , ∆1 , . . . , ∆n ) n n X X = log φ∆t (ǫt ) + log π0 (∆1 ) + log p(∆t−1 , ∆t ) t=1 = a1 + a2 + a3 t=2 131 5.2 Chaîne de Markov cachée où a1 = a1 (ω) = d X n X i=1 t=1 (5.19) log φi (ǫt ) 1{∆t =i} , (5.20) a2 = a2 (π0 ) = log π0 (∆1 ), d X d n X X a3 = a3 (P) = log p(i, j) 1{∆t−1 =i,∆t =j} . i=1 j=1 (5.21) t=2 D’après (5.19), il faut maximiser, en ω(i), les termes i = 1, . . . , d. Ceci donne les « estimateurs » Pn t=1 log φi (ǫt ) 1{∆t =i} , pour n X 1 ǫ2t 1{∆t =i} . t=1 1{∆t =i} t=1 ω̃(i) = Pn La maximisation de (5.20), en π0 (1), . . . , π0 (d) et sous la contrainte donne π̃0 (i) = 1{∆1 =i} . (5.22) Pd i=1 π0 (i) = 1, (5.23) D’après (5.21), P pour i = 1, . . . , d, il faut maximiser, en p(i, 1), . . . , p(i, d) sous la contrainte dj=1 p(i, j) = 1, le terme d X On obtient 2 Pn t=2 1{∆t−1 =i,∆t =j} log p(i, j) P . n 1 {∆ =i} t−1 t=2 j=1 n X 1 1{∆t−1 =i,∆t =j} . t=2 1{∆t =i} t=2 p̃(i, j) = Pn (5.24) En pratique les formules (5.22), (5.23) et (5.24) ne sont pas utilisables, puisque l’on ne connaît pas (∆t ). D’un point de vue conceptuel, l’algorithme EM alterne des étapes E d’évaluation de l’espérance de la vraisemblance étant donné la valeur courante du paramètre, et des étapes M de maximisation de la fonction objectif calculée dans l’étape E. D’un point de vue pratique, l’algorithme EM n’utilise ici que l’étape M, couplée au calcul des probabilités prédites πt|t−1 et filtrées πt|t de l’algorithme de Hamilton (5.16), et aussi une étape supplémentaire pour le calcul de probabilités lissées. 2 P Soit p1 , . . . , pn des nombres positifs tels que i pi = 1. Il est facile de voir, par substitution ou P par la méthode du multiplicateur de P Lagrange, que sous la contrainte di=1 πi = 1, le maximum global de la fonction (π1 , . . . , πd ) → i pi log πi est au point (π1 , . . . , πd ) = (p1 , . . . , pd ) 132 Chaîne de Markov cachée (k) Étape E : Supposons que l’on dispose d’une estimation (θ(k) , π0 ) de (θ, π0 ). Il semble raisonnable d’approximer la log-vraisemblance inconnue par son espérance (k) sachant les observations (ǫ1 , . . . , ǫn ), calculée sous la loi de paramètre (θ(k) , π0 ). On obtient le critère (k) Q(θ, π0 |θ(k) , π0 ) = Eθ(k) ,π(k) {log Lθ,π0 (ǫ1 , . . . , ǫn , ∆1 , . . . , ∆n )|ǫ1 , . . . , ǫn } 0 = A1 (ω) + A2 (π0 ) + A3 (P), où A1 (ω) = d X n X i=1 t=1 A2 (π0 ) = d X i=1 A3 (P) = X log φi (ǫt )Pθ(k) ,π(k) {∆t = i|ǫ1 , . . . , ǫn } , 0 log π0 (i)Pθ(k) ,π(k) {∆1 = i|ǫ1 , . . . , ǫn }, 0 log p(i, j) n X t=2 i,j Pθ(k) ,π(k) {∆t−1 = i, ∆t = j|ǫ1 , . . . , ǫn }. 0 (5.25) (5.26) (5.27) Étape M : On cherche dans cette étape à maximiser, en (θ, π0 ), la log(k) vraisemblance estimée Q(θ, π0 |θ(k) , π0 ). La solution de la maximisation de (5.25) est Pn 2 t=1 ǫt Pθ (k) ,π0(k) {∆t = i|ǫ1 , . . . , ǫn } ω̂(i) = Pn . (5.28) t=1 Pθ (k) ,π (k) {∆t = i|ǫ1 , . . . , ǫn } 0 On estime donc la variance du régime i en prenant la moyenne des ǫ2t , pondérées par les probabilités conditionnelles d’être dans le régime i à l’instant t. De même (5.26) donne π̂0 (i) = Pθ(k) ,π(k) {∆1 = i|ǫ1 , . . . , ǫn } , (5.29) 0 et (5.27) donne p̂(i, j) = Pn Pθ(k) ,π(k) {∆t−1 = i, ∆t = j|ǫ1 , . . . , ǫn } 0 Pn . P t=2 θ (k) ,π (k) {∆t−1 = i|ǫ1 , . . . , ǫn } t=2 (5.30) 0 Les formules de « réestimation » (5.28), (5.29) et (5.30) nécessitent le calcul des probabilités lissées πt|n = (P {∆t = i|ǫ1 , . . . , ǫn })′1≤i≤d ∈ Rd et πt−1,t|n = (P {∆t−1 = i, ∆t = j|ǫ1 , . . . , ǫn })′1≤i,j≤d ∈ Rd × Rd , 133 5.3 Processus GARCH(p, q) à changement de régime en oubliant les indices. Calcul des probabilités lissées : La propriété de Markov entraîne que, sachant ∆t , les observations ǫt , ǫt+1 , . . . n’apportent aucune information sur ∆t−1 . On a donc IP(∆t−1 = i|∆t = j, ǫ1 , . . . , ǫn ) = IP(∆t−1 = i|∆t = j, ǫ1 , . . . , ǫt−1 ) et πt−1,t|n (i, j) = IP(∆t−1 = i|∆t = j, ǫ1 , . . . , ǫn )πt|n (j) p(i, j)πt−1|t−1 (i)πt|n (j) = . πt|t−1 (j) Il reste à calculer les probabilités lissées πt|n , données par πt−1|n (i) = d X πt−1,t|n (i, j) = j=1 pour t = n, n − 1, . . . , 2. d X p(i, j)πt−1|t−1 (i)πt|n (j) j=1 πt|t−1 (j) (0) Partant d’un valeur initiale (θ(0) , π0 ), les formules deréestimation (5.28), (5.29) (k) (k) et (5.30) permettent d’obtenir une suite d’estimateurs θ , π0 qui accroissent k la vraisemblance (voir 5.11). Dans la pratique, la suite converge assez rapidement vers l’estimateur du maximum de vraisemblance (voir les exercices 5.4, 5.5 et 5.7), à condition de choisir une bonne valeur initiale θ(0) > 0 (voir 5.6). Le modèle (5.2) est certainement trop fruste pour rendre compte de manière satisfaisante des propriétés dynamiques de séries réelles : tant que l’on reste dans le même régime, les observations sont indépendantes et cette hypothèse n’est généralement pas tenable en pratique. Une extension naturelle des modèles (2.1) et (5.2) consiste à supposer que dans un régime donné, la dynamique est régie par un processus GARCH. 5.3 Processus GARCH(p, q) à changement de régime Nous considérons le modèle GARCH à changement de régime markovien : √ ǫt = ht ηt P P (5.31) ht = ω(∆t ) + qi=1 αi (∆t )ǫ2t−i + pj=1 βj (∆t )ht−j 134 Chaîne de Markov cachée avec les contraintes de positivité suivantes : pour k = 1, . . . , d, ω(k) > 0, αi (k) ≥ 0, 1 ≤ i ≤ q, βj (k) ≥ 0, 1 ≤ j ≤ p. On a ainsi une dynamique à d régimes GARCH différents ce qui permet une grande souplesse de modélisation. Le modèle GARCH standard correspond évidemment à un seul régime (d = 1) et constitue donc un cas particulier de (5.31). Les propriétés vues dans le cas particulier du modèle (5.2) se retrouvent a fortiori pour cette forme générale. Une différence importante, pourtant, est que l’on a maintenant deux sources distinctes de persistance : l’une provenant de la chaîne (∆t ), l’autre des coefficients αi (·) et βj (·). Cette propriété permet une grande souplesse de modélisation : on peut par exemple avoir des régimes où les chocs des variables passées ont un effet très persistant et d’autres régimes où ils sont peu persistants. Une autre différence par rapport à l’exemple introductif concerne la stationnarité au second-ordre. Pour que ǫt soit de variance finie, indépendante du temps, il faut imposer des contraintes sur les coefficients αi (·) et βj (·) ainsi que sur les probabilités de transition. Sans rentrer dans les détails3 , notons simplement qu’il n’est pas nécessaire (mais il est suffisant) d’imposer la stationnarité dans chaque régime : l’existence de régimes explosifs (pourvu que les probabilités de rester dans ces régimes ne soient pas trop grandes) n’implique pas que la série soit globalement explosive. Il est également intéressant de remarquer que lorsque le changement de régime affecte seulement le terme ω(·) (i.e. les αP i et βj ne Pdépendent pas de ∆t ), on retrouve la condition de stationnarité usuelle ( i αi + j βj < 1). Enfin, comme dans le cas GARCH standard, une fois l’existence de Var(ǫt ) assurée, (ǫt ) est un bruit blanc. Pour les applications, on se limite généralement à des régimes ARCH, ce qui permet d’estimer les paramètres en utilisant le filtre de Hamilton présenté précédemment. Illustration Afin d’illustrer la méthode, considérons la série de l’indice CAC 404 . Les observations couvrent la période allant du 1er juin 1988 (date d’inauguration de l’indice) au 31 décembre 1993, ce qui donne 1286 observations. La Table 5.1, présente de nombreuses estimations du modèle (5.31). En particulier un GARCH(1,1) standard (d = 1) est estimé. Comme dans de nombreuses études empiriques les résultats indiquent une forte persistance (α(1) + β(1) proche de 1). 3 4 voir Francq, Roussignol et Zakoïan (2001). Cet exemple est tiré de Francq, Roussignol et Zakoïan (2001). 5.3 Processus GARCH(p, q) à changement de régime 135 Le cas de d =2 régimes en l’absence d’effet GARCH (p = q = 0) conduit à des différences importantes entre les valeurs estimées de ω(1) et ω(2). Il faut également noter que les probabilités de transition d’un régime à l’autre sont très faibles, ce qui confirme la propriété de persistance. L’introduction d’un effet ARCH(1) dans chaque régime (d = 2, p = 0, q = 1) conduit aux mêmes conclusions. De plus, l’hétéroscédasticité dans chaque régime est très faible. L’augmentation de l’ordre de l’ARCH semble avoir peu d’effet : les modèles estimés sont en fait les mêmes pour q = 1 et q = 2. Les autres modèles présentés sont obtenus en augmentant le nombre de régimes. La présence de 5 régimes semble rejetée par les données : pour d = 5, q = p = 0, les variances marginales dans les 2 derniers régimes sont égales (ω(4) = ω(5)). Les résultats obtenus pour d = 3 et d = 4 indiquent qu’il est pertinent de considérer 4 régimes. Les variances marginales (ω(i)/(1 − α(i)), i = 1, . . . , 4) sont très différentes. De plus, les trois premiers régimes sont très persistants. Par contre le régime le plus volatil ne peut comporter que quelques observations consécutives. Le troisième régime est caractérisé par un coefficient α(1) très différent de zéro ce qui justifie l’inclusion d’un effet ARCH. La Figure 2.3 représente en trait plein la série ǫt , t = 2, . . . , 1286. Afin d’identifier les changements de régime, nous avons reporté en pointillés ±2× l’écart-type conditionnel (dans chaque régime) du modèle ARCH estimé, pour le régime qui maximise les probabilités lissées ( i.e. calculées à chaque date en utilisant toutes les observations). Le graphique confirme les remarques précédentes : faible persistance et faible occurrence du quatrième régime ; présence d’effet ARCH dans le troisième ; forte occurence des deux premiers régimes, sans effet ARCH. 136 Chaîne de Markov cachée 5 0 -5 0 25 50 75 100 125 150 175 200 225 250 275 300 325 330 355 380 405 430 455 480 505 530 555 580 605 630 655 660 685 710 735 760 785 810 835 860 885 910 935 960 985 t 5 0 -5 t 5 0 -5 t 5 0 -5 990 1040 1090 1140 1190 1240 1290 Fig. 5.2 – Série CAC 40 du 2 Juin 1988 au 31 Décembre 1993. Source : Francq, Roussignol et Zakoïan (2001). t 137 5.3 Processus GARCH(p, q) à changement de régime Tab. 5.1 – Estimation par Maximum de vraisemblance de différents modèles à changement de régime pour la série du CAC 40. Source : Francq, Roussignol et Zakoïan (2001). Model d = 1, q = 1, p = 1 parameter estimates ω = 0.13 α(1) = 0.184 d = 2, q = 0, p = 0 ω = (0.81, 4.46) p(1, 1) = 0.977 p(1, 2) = 0.023 p(2, 1) = 0.102 p(2, 2) = 0.898 ω = (0.76, 3.71) α(1) = 0.05 α(2) = 0.10 p(1, 1) = 0.979 p(1, 2) = 0.021 p(2, 1) = 0.084 p(2, 2) = 0.916 ω = (0.76, 3.70) α(1) = (0.05, 0.0) α(2) = (0.10, 0, 00) p(1, 1) = 0.979 p(1, 2) = 0.021 p(2, 1) = 0.084 p(2, 2) = 0.916 d = 2, q = 1, p = 0 d = 2, q = 2, p = 0 d = 3, q = 0, p = 0 d = 3, q = 1, p = 0 β(1) = 0.739 ω = (0.42, 1.27, 6.77) p(1, 1) = 0.972 p(1, 2) = 0.015 p(2, 1) = 0.008 p(2, 2) = 0.982 p(3, 1) = 0.038 p(3, 2) = 0.080 ω = (0.41, 1.25, 5.75) α(1) = 0.01 α(2) = 0.0 p(1, 1) = 0.973 p(1, 2) = p(2, 1) = 0.007 p(2, 2) = p(3, 1) = 0.037 p(3, 2) = p(1, 3) = 0.013 p(2, 3) = 0.010 p(3, 3) = 0.882 α(3) = 0.09 0.014 p(1, 3) = 0.013 0.983 p(2, 3) = 0.010 0.071 p(3, 3) = 0.892 d = 3, q = 2, p = 0 ω = (0.41, 1.25, 5.75) α(1) = (0.01, 0.0) α(2) = (0.0, 0.0) α(3) = (0.09, 0.0) p(1, 1) = 0.973 p(1, 2) = 0.014 p(1, 3) = 0.013 p(2, 1) = 0.007 p(2, 2) = 0.983 p(2, 3) = 0.010 p(3, 1) = 0.037 p(3, 2) = 0.071 p(3, 3) = 0.892 d = 4, q = 1, p = 0 ω = (0.40, 1.17, 2.90, 12.11) α(1) = 0.01 α(2) = 0.0 α(3) = 0.23 α(4) = 0.06 p(1, 1) = 0.972 p(1, 2) = 0.016 p(1, 3) = 0.009 p(1, 4) = 0.003 p(2, 1) = 0.006 p(2, 2) = 0.983 p(2, 3) = 0.001 p(2, 4) = 0.010 p(3, 1) = 0.0 p(3, 2) = 0.028 p(3, 3) = 0.972 p(3, 4) = 0.0 p(4, 1) = 0.178 p(4, 2) = 0.139 p(4, 3) = 0.0 p(4, 4) = 0.682 d = 5, q = 0, p = 0 ω = (0.44, 1.13, 2.73, 10.88, 10.88) p(1, 1) = 0.974 p(1, 2) = 0.015 p(1, 3) = 0.0 p(1, 4) = 0.0 p(1, 5) = 0.010 p(2, 1) = 0.006 p(2, 2) = 0.980 p(2, 3) = 0.004 p(2, 4) = 0.010 p(2, 5) = 0.0 p(3, 1) = 0.0 p(3, 2) = 0.021 p(3, 3) = 0.964 p(3, 4) = 0.015 p(3, 5) = 0.0 p(4, 1) = 0.159 p(4, 2) = 0.441 p(4, 3) = 0.0 p(4, 4) = 0.400 p(4, 5) = 0.0 p(5, 1) = 0.040 p(5, 2) = 0.0 p(5, 3) = 0.079 p(5, 4) = 0.0 p(5, 5) = 0.880 138 Chaîne de Markov cachée Conclusion L’application de modèles de type GARCH à des séries très longues comme celles que l’on rencontre en finance (i.e. plusieurs milliers d’observations), conduit en général à estimer une très forte persistance de la volatilité. Cet effet peut être fallacieux et s’expliquer par la nécessité d’obtenir des distributions marginales admettant peu de moments. Les modèles à changement de régime markovien permettent d’estimer séparément des propriétés très différentes : persistance des chocs, décroissance des autocorrélations, distributions marginales à queues plus ou moins épaisses, déformation au cours du temps des densités conditionnelles. Ces modèles sont adaptés aux séries sur très longue période avec une succession de phases différentes assimilables aux divers régimes. Il ne faut évidemment pas perdre de vue que, malgré leur souplesse et leur sophistication, ces modèles ne constituent (comme c’est toujours le cas) qu’une approximation de la réalité5 . 5.4 Exercices 5.1 (Ajuster des GARCH à des sous-périodes du CAC) Prendre un indice boursier sur une longue période (par exemple le CAC 40 du 1 mars 1990 au 29 décembre 2006). Ajuster un GARCH(1,1) aux rendements de la première moitié des observations, puis un GARCH(1,1) sur les rendements du reste des observations. Comparer les 2 GARCH estimés, que l’on note M1 et M2. Faire une centaine de simulations d’un GARCH(1,1) ayant les paramètres du modèle M1. Comparer la distribution des paramètres estimés sur les 100 simulations du modèle M1 avec les paramètres du modèle M2. 5.2 (Loi invariante du modèle d’Ehrenfest) Montrer que la loi π0 définie sur {0, 1, . . . , d} par π0 (i) = Cdi /2d est invariante pour la chaîne de matrice de transition IP donnée par (5.1). 5.3 (Période d’une chaîne irréductible) La période d’un état i d’une chaîne de Markov est le plus grand commun diviseur (pgcd) de {m : p(m) (i, i) > 0}. Montrer que tous les états d’une chaîne de Markov irréductible ont la même période. 5 Par exemple le mécanisme de changement de régime pourrait dépendre explicitement des observations passées (i.e. pas seulement du régime auquel appartiennent les observations). 139 5.4 Exercices 5.4 (Algorithme EM détaillé) Décrire les étapes l’algorithme EM qui permet d’estimer le modèle HMM (5.2)-(5.3). 5.5 (Programmer l’algorithme EM) Programmer l’algorithme EM de l’exercice 5.4 (en R par exemple). 5.6 (Choix de la valeur initiale dans l’algorithme EM) Supposons que, dans l’algorithme EM décrit par l’exercice 5.4, les valeurs initiales sont telles que p(i0 , j0 ) = 0 pour certaines valeurs i0 , j0 ∈ {1, . . . , d}. Que peut-on dire des valeurs actualisées de p(i0 , j0 ) obtenues dans toute la suite de l’algorithme ? 5.7 (Ajuster un modèle à volatilité HMM sur des séries réelles) Utiliser le programme obtenu dans l’exercice 5.5 pour ajuster un modèle HMM de la forme (5.2)-(5.3) sur plusieurs séries de rendements boursiers (par exemple le CAC 40 et le SP 500). 5.8 (Stationnarité stricte des MS-GARCH) Considérons un GARCH(p, q) à changement de régime markovien (5.31). Déterminer une condition de stricte stationnarité. 5.9 (Stationnarité stricte du MS-GARCH(1,1)) Considérons un MS-GARCH(1,1), c’est-à-dire le modèle (5.31) avec p = q = 1. Donner une condition explicite de stricte stationnarité. Considérer le cas ARCH(1). 5.10 (Stationnarité du GARCH(1,1) à changement de régime indépendant) Considérons un GARCH(1,1) à changement de régime indépendant, c’està-dire un modèle de la forme (5.31) où (∆t ) est une suite iid. Donner une condition d’existence d’une solution stationnaire au second ordre. 5.11 (Convergence de l’algorithm EM) (k) Soit θ(k) , π0 une suite d’estimateurs obtenus par l’algorithme EM décrit k dans la section 5.2.3. Avec des abus de notations, on note Lθ,π0 (ǫ1 , . . . , ǫn ) la vraisemblance et Lθ,π0 (ǫ1 , . . . , ǫn , ∆1 , . .n. , ∆n ) la loi jointe des o observations et de (∆1 , . . . , ∆n ). Montrer que la suite Lθ(k) ,π(k) (ǫ1 , . . . , ǫn ) 0 k est croissante. 140 Chaîne de Markov cachée 5.12 (Vraisemblance d’un MS-ARCH) Considérons un ARCH(q) à changement de régime markovien, c’est-à-dire le modèle (5.31) avec p = 0. Montrer que la vraisemblance peut se mettre sous une forme matricielle similaire à (5.12), que l’on peut appliquer l’algorithme aller-retour (5.9)-(5.10) et (5.13)-(5.15), et que l’on peut également utiliser le filtre de Hamilton (5.16)-(5.18). Peut-on adapter l’algorithme EM ? 5.13 (Une autre modélisation des MS-GARCH(1,1)) Le modèle suivant a été proposé par Haas, Mittnik et Paolella (2004) et étudié par Liu (2006). On définit pour chaque régime k ∈ {1, . . . , d} une volatilité 2 σt2 (k) = ω(k) + α(k)ǫ2t−1 + β(k)σt−1 (k) et on pose ǫt = σt2 (∆t )ηt . Expliquer en quoi cette modélisation diffère de celle définie en (5.31) pour p = q = 1. Annexe A Autocorrélation, ergodicité, TCL A.1 Formule de Bartlett généralisée Soient des observations X1 , . . . , Xn d’un processus X = (Xt ) stationnaire au second ordre et centré. Les autocovariances et autocorrélations empiriques sont définies par n−h 1X Xt Xt+h , γ̂X (h) = γ̂X (−h) = n t=1 ρ̂X (h) = ρ̂X (−h) = γ̂X (h) γ̂X (0) (A.1) pour h = 0, . . . , n − 1. La proposition suivante nous donne une expression relativement facile à calculer de la variance asymptotique de ces estimateurs. Proposition A.1 Soit (Xt )t∈Z défini par Xt = ∞ X i=−∞ ψi ǫt−i , ∞ X i=−∞ |ψi | < ∞, où (ǫt )t∈Z est un bruit blanc faible tel que Eǫ4t := ηǫ (Eǫ2t )2 < ∞, et Eǫt1 ǫt2 ǫt3 ǫt4 = Eǫ2t1 ǫ2t3 si t1 = t2 et t3 = t4 0 si t1 6= t2 , t1 = 6 t3 et t1 6= t4 . (A.2) 142 Autocorrélation, ergodicité, TCL Alors on a, en notant ρǫ2 = P+∞ h=−∞ ρǫ2 (h), lim nCov {γ̂X (i), γ̂X (j)} = (ηǫ − 3)γX (i)γX (j) n→∞ ∞ X + ℓ=−∞ γX (ℓ) {γX (ℓ + j − i) + γX (ℓ − j − i)} +(ρǫ2 − 3)(ηǫ − 1)γX (i)γX (j) ∞ X +(ηǫ − 1) γX (ℓ − i) {γX (ℓ − j) + γX (ℓ + j)} ρǫ2 (ℓ). (A.3) ℓ=−∞ Si, quand n → ∞, √ L n (γ̂0,m − γ0,m ) → N 0, Σγ̂0,m , où les éléments de Σγ̂0,m sont donnés par (A.3), alors √ L n (ρ̂m − ρm ) → N (0, Σρ̂m ) , où les éléments de Σρ̂m sont donnés par la formule de Bartlett généralisée lim nCov {ρ̂(i), ρ̂(j)} = vij + vij∗ , n→∞ vij = ∞ X ℓ=−∞ (A.4) ρX (ℓ) [2ρX (i)ρX (j)ρX (ℓ) − 2ρX (i)ρX (ℓ + j) −2ρX (j)ρX (ℓ + i) + ρX (ℓ + j − i) + ρX (ℓ − j − i)] , vij∗ = +(ηǫ − 1) ∞ X ℓ=−∞ ρǫ2 (ℓ) 2ρX (i)ρX (j)ρ2X (ℓ) − 2ρX (j)ρX (ℓ)ρX (ℓ + i) −2ρX (i)ρX (ℓ)ρX (ℓ + j) + ρX (ℓ + i) {ρX (ℓ + j) + ρX (ℓ − j)}] . Remarquons que si (ǫt ) est un GARCH dont la loi de ηt est symétrique et si Eǫ4t < ∞, alors (A.2) est vérifiée. A droite de l’égalité (A.3), il y a une somme de 4 termes. Quand la suite (ǫ2t ) est non corrélée, la somme des 2 derniers termes vaut −2(ηǫ − 1)γX (i)γX (j) + (ηǫ − 1)γX (i) {γX (j) + γX (−j)} = 0. Dans ce cas, on retrouve la formule de Bartlett (1.1). Le troisième terme est nul quand la loi marginale de ǫt est gaussienne. Dans (A.4), on peut réécrire le terme (ηǫ − 1) sous la forme γǫ2 (0)γǫ−2 (0). Quand la suite (ǫ2t ) est non corrélée, on a vij∗ = 0 et on retrouve également la formule de Bartlett pour les ACRE. 143 A.2 Ergodicité A.2 Ergodicité On dit qu’une suite stationnaire est ergodique si elle satisfait la loi forte des grands nombres. Définition A.1 (Processus stationnaire ergodique) Un processus strictement stationnaire (Zt )t∈Z , à valeurs réelles, est dit ergodique si et seulement si, pour tout borélien B et tout entier k, −1 n n X t=1 IB (Zt , Zt+1 , . . . , Zt+k ) → P {(Z1 , . . . , Z1+k ) ∈ B} avec probabilité 1.1 Certaines transformations de suites ergodiques restent ergodiques. Théorème A.1 Si (Zt )t∈Z est une suite strictement stationnaire ergodique et si (Yt )t∈Z est définie par Yt = f (. . . , Zt−1 , Zt , Zt+1 , . . . ), où f est une fonction mesurable de R∞ dans R, alors (Yt )t∈Z est également une suite strictement stationnaire ergodique. En particulier, si (Xt )t∈Z est la solution stationnaire non anticipative de l’équation AR(1) Xt = aXt−1 + ηt , |a| < 1, ηt iid (0, σ 2 ) (A.5) 2 alors le théorème montre que (Xt )t∈Z , (Xt−1 ηt )t∈Z et (Xt−1 )t∈Z sont des suites stationnaires et ergodiques. Théorème A.2 (Le théorème ergodique pour suites stationnaires) Si (Zt )t∈Z est strictement stationnaire et ergodique, si f est mesurable et si E|f (. . . , Zt−1 , Zt , Zt+1 , . . . )| < ∞, alors −1 n n X t=1 1 f (. . . , Zt−1 , Zt , Zt+1 , . . . ) → Ef (. . . , Zt−1 , Zt , Zt+1 , . . . ) p.s. Le concept d’ergodicité est bien plus général. Il peut être étendu à des suites non stationnaires (voir e.g. Billingsley (1995) "Probability and Measure", Wiley, New York.) 144 Autocorrélation, ergodicité, TCL À titre d’exemple, considérons l’estimateur des moindres carrés ân du paramètre a de (A.5). Par définition ân = arg min Qn (a), a Qn (a) = n X t=2 (Xt − aXt−1 )2 . En annulant la dérivée du critère, on obtient P n−1 nt=2 Xt Xt−1 P ân = . 2 n−1 nt=2 Xt−1 Le théorème ergodique montre que le numérateur tend presque sûrement vers γ(1) = Cov(Xt , Xt−1 ) = aγ(0) et que le numérateur tend vers γ(0). On en déduit que ân → a presque sûrement quand n → ∞. Remarquons que ce résultat reste valable si on remplace l’hypothèse ηt bruit blanc fort par l’hypothèse que ηt est un bruit blanc semi-fort, ou même que ηt est un bruit blanc faible stationnaire ergodique. A.3 Différence de martingale Dans un jeu équitable de hasard pur (par exemple A et B jouent à pile ou face, A donne un Euro à B quand la pièce fait pile, B donne un Euro à A quand la pièce fait face), la fortune d’un joueur est une martingale. Définition A.2 (Martingale) Soient (Yt )t∈N une suite de variables aléatoires réelles (v.a.r.) et (Ft )t∈N une suite de tribus. La suite (Yt , Ft )t∈N est une martingale si et seulement si 1. Ft ⊂ Ft+1 ; 2. Yt est Ft -mesurable ; 3. E|Yt | < ∞ ; 4. E(Yt+1 |Ft ) = Yt . Quand on dit que (Yt )t∈N est une martingale, on prend implicitement Ft = σ(Yu , u ≤ t), c’est-à-dire la tribu engendrée par les valeurs passées et présentes. Définition A.3 (Différence de martingale) Soient (ηt )t∈N une suite de v.a.r. et (Ft )t∈N une suite de tribus. La suite (ηt , Ft )t∈N est une différence de martingale (ou une suite d’accroissements de martingale) si et seulement si 145 A.3 Différence de martingale 1. Ft ⊂ Ft+1 ; 2. ηt est Ft -mesurable ; 3. E|ηt | < ∞ ; 4. E(ηt+1 |Ft ) = 0. Remarque A.1 Si (Yt , Ft )t∈N est une martingale et si on pose η0 = Y0 , ηt = Yt − Yt−1 , alors (ηt , Ft )t∈N est une différence de martingale : E(ηt+1 |Ft ) = E(Yt+1 |Ft)− E(Yt |Ft) = 0. Remarque A.2 Si (ηt , Ft )t∈N est une différence de martingale et si on pose Yt = η0 + η1 + · · · + ηt , alors (Yt , Ft )t∈N est une martingale : E(Yt+1 |Ft ) = E(Yt + ηt+1 |Ft ) = Yt . Remarque A.3 Dans l’exemple (A.5), ( k X i=0 ai ηt−i , σ(ηu , t − k ≤ u ≤ t) ) k∈N est une martingale, et {ηt , σ(ηu , u ≤ t)}t∈N , {ηt Xt−1 , σ(ηu , u ≤ t)}t∈N sont des différences de martingale. Il existe un théorème central limite (TCL) pour des suites triangulaires de différences de martingale. Théorème A.3 (TCL de Lindeberg) On suppose que, pour chaque n > 0, 2 (ηnk , Fnk )k∈N est une différence de martingale de carré intégrable. Soit σnk = 2 E(ηnk |Fn(k−1) ). Si n X k=1 2 σnk → σ02 en probabilité quand n → ∞, (A.6) où σ0 est une constante strictement positive, et n X k=1 2 Eηnk 1{|ηnk |≥ǫ} → 0 quand n → ∞, pour chaque réel positif ǫ, alors Pn k=1 ηnk L → N (0, σ02) (A.7) 146 Autocorrélation, ergodicité, TCL Remarque A.4 Dans de nombreuses applications, ηnk et Fnk sont seulement définis pour 1 ≤ k ≤ n et peuvent être présentés sous la forme d’un tableau triangulaire η11 η21 η22 η31 η32 η33 .. . ηn1 ηn2 · · · ηnn .. . On peut définir ηnk et Fnk pour tout k ≥ 0 en posant ηn0 = 0, Fn0 = {∅, Ω} et ηnk = 0, Fnk = Fnn pour tout k > n. Dans le théorème on suppose que chaque ligne du tableau triangulaire est une différence de martingale. Remarque A.5 Le théorème précédent contient le TCL usuel. Soit Z1 , · · · , Zn une suite iid dont la variance existe. Il suffit de poser Zk − EZk √ et Fnk = σ(Z1 , . . . , Zk ). n ηnk = Il est clair que (ηnk , Fnk )k∈N est une différence de martingale de carré intégrable. 2 2 On a σnk = Eηnk = n−1 Var(Z0 ). Par conséquent la condition de normalisation (A.6) est satisfaite. De plus n X k=1 2 Eηnk 1{|ηnk |≥ǫ} = = n X Zk=1 −1 n Z √ {|Zk −EZk |≥ nǫ} √ {|Z1 −EZ1 |≥ nǫ} |Zk − EZk |2 dP |Z1 − EZ1 |2 dP → 0 R √ car {|Z1 − EZ1 | ≥ nǫ} ↓ ∅ et Ω |Z1 − EZ1 |2 dP < ∞. La condition de Lindeberg (A.7) est donc satisfaite. Le théorème entraîne le TCL standard : n X k=1 n ηnk 1 X =√ (Zk − EZk ). n k=1 Remarque A.6 Dans l’exemple (A.5), posons ηnk = ηk Xk−1 √ and Fnk = σ(ηu , u ≤ k). n 147 A.3 Différence de martingale La suite (ηnk , Fnk )k∈N est une différence de martingale de carré intégrable. Nous 2 2 avons σnk = n−1 σ 2 Xk−1 . Le théorème ergodique entraîne (A.6) avec σ02 = σ 4 /(1 − 2 a ). Nous avons Z n n X X 2 −1 Eηnk 1{|ηnk |≥ǫ} = n |ηk Xk−1|2 dP √ {|ηk Xk−1 |≥ nǫ} k=1 Zk=1 = |η1 X0 |2 dP → 0 √ {|η1 X0 |≥ nǫ} R √ car {|η1 X0 | ≥ nǫ} ↓ ∅ et Ω |η1 X0 |2 dP < ∞. Ceci montre (A.7). Le TCL de Lindeberg entraîne n−1/2 n X k=1 On en déduit que 1/2 n car n−1 Pn k=1 L ηk Xk−1 → N (0, σ 4 /(1 − a2 )). P n−1/2 nk=1 ηk Xk−1 L Pn (ân − a) = → N (0, 1 − a2 ), 2 −1 n k=1 Xk−1 2 Xk−1 → σ 2 /(1 − a2 ). (A.8) 2 Remarque A.7 Le résultat précédent peut être utilisé pour obtenir un intervalle de confiance asymptotique ou pour tester le coefficient a. 1. h 1/2 i ân ± 1.96n−1/2 1 − â2n est un intervalle de confiance au niveau de confiance asymptotique 95%confidence. 2. L’hypothèse nulle H√ ap= 0 est rejetée au niveau asymptotique 5% si 0 : |tn | > 1.96, où tn = nân / 1 − â2n est la t-statistique. Dans souvent 1 − â2n par σ̂ 2 /γ̂(0) où σ̂ 2 = Pn les statistiques2 précédentes, on remplace P n −1 2 t=1 (Xt − ân Xt−1 ) /(n − 1) et γ̂(0) = n t=1 Xt−1 . Asymptotiquement, cela ne fait aucune différence : Pn n − 1 σ̂ 2 (Xt − ân Xt−1 )2 t=1P = n 2 n γ̂(0) t=1 Xt−1 Pn Pn Pn 2 2 2 t=1 Xt + ân t=1 Xt−1 − 2ân t=1 Xt Xt−1 Pn = 2 t=1 Xt−1 Pn 2 X = Pnt=1 2t − â2n . t=1 Xt−1 2 L L On a utilisé le résultat suivant : si Yn → Y et Tn → T en probabilité, alors Tn Yn → Y T 148 Autocorrélation, ergodicité, TCL Il est cependant préférable d’utiliser σ̂ 2 /γ̂(0) qui est toujours positif, plutôt que 1 − â2n car, à distance finie, on peut avoir â2n > 1. A.4 Autocorrélations partielles Définition Le coefficient d’autocorrélation partielle théorique (ACPT) de retard h > 0, rX (h), d’un processus X = (Xt ) stationnaire au second ordre, dont les innovations linéaires ne sont pas nulles, 3 est le coefficient de corrélation entre Xt − EL(Xt |Xt−1 , Xt−2 , . . . , Xt−h+1 ) et Xt−h − EL(Xt−h |Xt−1 , Xt−2 , . . . , Xt−h+1 ), où EL(Z|Y1 , . . . , Yk ) désigne la régression linéaire d’une variable de carré intégrable Y sur des variables Y1 , . . . , Yk : rX (h) = Cor (Xt , Xt−h |Xt−1 , Xt−2 , . . . , Xt−h+1 ) . (A.9) On peut donc interpréter rX (h) comme la corrélation résiduelle entre Xt et Xt+h , une fois enlevée l’influence linéaire des variables intermédiaires Xt+1 , Xt+2 , . . . , Xt+h−1 . Supposons (Xt ) centré et considérons le modèle de régression linéaire de Xt sur Xt−1 , . . . , Xt−h : Xt = ah,1 Xt−1 + · · · + ah,h Xt−h + uh,t, uh,t ⊥Xt−1 , . . . , Xt−h . (A.10) On a EL(Xt |Xt−1 , . . . , Xt−h ) = ah,1 Xt−1 + · · · + ah,h Xt−h , EL(Xt−h−1 |Xt−1 , . . . , Xt−h ) = ah,1 Xt−h + · · · + ah,h Xt−1 , (A.11) (A.12) et rX (h) = ah,h . (A.13) Preuve de (A.11) et (A.12). On obtient (A.11) à partir de (A.10), en utilisant la linéarité de EL(·|Xt−1 , . . . , Xt−h ) et ah,1 Xt−1 + · · · + ah,h Xt−h ⊥uh,t . 3 Ainsi la variance de ǫt := Xt − EL(Xt |Xt−1 , . . . ) est non nulle 149 A.4 Autocorrélations partielles Le vecteur des coefficients de la régression linéaire de Xt−h−1 sur Xt−1 , . . . , Xt−h est donné par −1 X X t−1 t−1 E ... Xt−1 . . . Xt−h EXt−h−1 ... . (A.14) Xt−h Xt−h Comme et Xt−1 E ... Xt−h Xt−1 . . . Xt−h Xt−h = E ... Xt−1 Xt−h . . . Xt−1 Xt−1 Xt−h EXt−h−1 ... = EXt ... , Xt−h Xt−1 c’est aussi le vecteur des coefficients de la régression linéaire de Xt sur Xt−h , . . . , Xt−1 , ce qui donne (A.12). Preuve de (A.13). De (A.10) on tire EL(Xt |Xt−1 , . . . , Xt−h+1 ) = ah,1 Xt−1 + · · · + ah,h−1 Xt−h+1 +ah,h E(Xt−h |Xt−1 , . . . , Xt−h+1 ). D’où Xt − EL(Xt |Xt−1 , . . . , Xt−h+1 ) = ah,h {Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )} + uh,t . Cette dernière égalité est de la forme Y = ah,h X + u avec u⊥X, d’où Cov(Y, X) = ah,h Var(X), ce qui donne ah,h = Cov {Xt − EL(Xt |Xt−1 , . . . , Xt−h+1 ), Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )} . Var {Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )} Pour conclure il suffit de remarquer que, en utilisant la parité de γX (·) et (A.12), Var {Xt − EL(Xt |Xt−1 , . . . , Xt−h+1 )} = Var {Xt − ah−1,1 Xt−1 − · · · − ah−1,h−1 Xt−h+1 } = Var {Xt−h − ah−1,1 Xt−h+1 − · · · − ah−1,h−1 Xt−1 } = Var {Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )} . 150 Autocorrélation, ergodicité, TCL Algorithme de calcul On peut calculer rX (h) rapidement, à partir de ρX (1), . . . , ρX (h), à l’aide de l’algorithme de Durbin : (A.15) a1,1 = ρX (1) ak,k = ak,i ρX (k) − Pk−1 i=1 Pk−1 ρX (k − i)ak−1,i 1 − i=1 ρX (i)ak−1,i = ak−1,i − ak,k ak−1,k−i, i = 1, . . . , k − 1. (A.16) (A.17) Les étapes (A.16) et (A.17) sont répétées pour k = 2, . . . , h − 1, puis rX (h) = ah,h est obtenu par l’étape (A.16). Preuve de (A.17). D’après (A.10), EL(Xt |Xt−1 , . . . , Xt−k+1 ) = k−1 X i=1 ak,iXt−i + ak,k EL(Xt−k |Xt−1 , . . . , Xt−k+1 ). Donc, en utilisant (A.12), k−1 X ak−1,iXt−i = k−1 X ak,i Xt−i + ak,k i=1 i=1 k−1 X ak−1,k−i Xt−i , i=1 ce qui donne (A.17) (les vecteurs Xt−1 , . . . , Xt−k+1 ne sont pas presque sûrement liés car les innovations de (Xt ) ne sont pas dégénérées). Preuve de (A.16). Le vecteur des coefficients de la régression linéaire de Xt sur Xt−1 , . . . , Xt−h satisfait Xt−1 E ... Xt−h Xt−1 . . . Xt−h ah,1 Xt−1 . . .. = EXt .. . ah,h Xt−h La dernière ligne de (A.18) donne h X i=1 ah,i γ(h − i) = γ(h). (A.18) 151 A.4 Autocorrélations partielles Donc, en utilisant (A.17), ah,h = ρ(h) − = ρ(h) − = ce qui donne (A.16). h−1 X i=1 h−1 X ρ(h − i)ah,i ρ(h − i)(ah−1,i − ah,h ah−1,h−i) i=1 Ph−1 ρ(h) − i=1 ρ(h − i)ah−1,i P 1 − h−1 i=1 ρ(h − i)ah−1,h−i Comportement des autocorrélations partielles empiriques Les autocorrélations partielles empiriques (ACPE), r̂(h), sont obtenues par l’algorithme A.15 − A.17, en remplaçant ρX (k) par ρ̂X (k), où γ̂X (h) ρ̂X (h) = , γ̂X (0) −1 γ̂X (h) = γ̂X (−h) = n n−h X Xt Xt+h t=1 pour h = 0, 1, . . . , n−1. Quand on ne suppose pas que (Xt ) est centré, on remplace Xt par Xt −X n . D’après (A.13), on sait que pour un AR(p) on a rX (h) = 0, ∀h > p. Lorsque le bruit est fort, la loi asymptotique des r̂(h), h > p, est très simple. Proposition A.2 Si X est la solution stationnaire non anticipative du modèle AR(p) Xt − alors p X ai Xt−i = ηt , 2 ηt iid(0, σ ), i=1 √ L 2 σ 6= 0, nr̂(h) → N (0, 1) , 1− p X i=1 ai z i 6= 0 ∀|z| ≤ 1, ∀h > p. Preuve. Soit a0 = (a1 , . . . , ap , 0, . . . , 0) le vecteur des coefficients du modèle écrit sous forme AR(h), h > p. Soit Xn−1 . . . Xn−h Xn Xn−2 . . . Xn−h−1 Xn−1 −1 X = .. , Y = .. et â = {X ′ X} X ′ Y . . X0 . . . X1−h X1 152 Autocorrélation, ergodicité, TCL le coefficient de la régression empirique de Xt sur Xt−1 , . . . , Xt−h (on pose Xt = 0 pour t ≤ 0). On peut montrer que, comme pour un modèle de régression classique, √ L n(â − a0 ) → N (0, Σ) , où −1 γX (0) γX (1) · · · γX (h − 1) γX (1) γX (0) · · · γX (h − 2) p.s. −1 Σ = σ 2 lim n−1 {X ′ X} = σ 2 . . . n→∞ . γX (h − 1) · · · γX (1) γX (0) Puisque r̂X (h) est la dernière composante de â (d’après (A.13)), on a √ L nr̂(h) → N (0, Σ(h, h)) , avec Σ(h, h) = σ 2 ∆(0, h − 1) , ∆(0, h) En appliquant les relations γX (0) − h−1 X γX (0) γX (1) · · · γX (j − 1) γX (1) γ (0) · · · γX (j − 2) X ∆(0, j) = .. . γX (j − 1) · · · γX (1) γX (0) ai γX (i) = σ 2 γX (k) − i=1 pour k = 1, . . . , h − 1, on obtient γX (0) γX (1) γX (1) γX (0) .. ∆(0, h) = . γX (h − 2) γX (h − 1) γX (h − 1) γX (h − 2) = σ 2 ∆(0, h − 1). h−1 X i=1 ai γX (k − i) = 0 · · · γX (h − 2) · · · γX (h − 3) ··· ··· γX (0) γX (1) D’où Σ(h, h) = 1, ce qui complète la preuve. . . 0 Ph−1 γX (0) − i=1 ai γX (i) 0 0 2 Le résultat de la proposition A.2 n’est plus valable quand on ne fait pas l’hypothèse que le bruit ηt est iid. On peut néanmoins déduire le comportement asymptotique des ACPE de celui des ACRE. Notons ρm = (ρX (1), . . . , ρX (m)), rm = (rX (1), . . . , rX (m)) ρ̂m = (ρ̂X (1), . . . , ρ̂X (m)), et r̂m = (r̂X (1), . . . , r̂X (m)). 153 A.4 Autocorrélations partielles Proposition A.3 Si, quand n → ∞, √ L n (ρ̂m − ρm ) → N (0, Σρ̂m ) , alors √ L ′ Σr̂m = Jm Σρ̂m Jm , n (r̂m − rm ) → N (0, Σr̂m ) , où les éléments de la matrice jacobienne Jm sont définis par Jm (i, j) = ∂rX (i)/∂ρX (i) et sont obtenus récursivement pour k = 2, . . . , m par (j) ∂rX (1)/∂ρX (j) = a1,1 = 1{1} (j) (j) (j) dk nk − nk dk ∂rX (k)/∂ρX (j) = = , d2k k−1 X nk = ρX (k) − ρX (k − i)ak−1,i, (j) ak,k i=1 dk = 1 − k−1 X ρX (i)ak−1,i , i=1 (j) nk = 1{k} (j) − ak−1,k−j − (j) dk = −ak−1,j − (j) ak,i = (j) ak−1,i − k−1 X k−1 X i=1 (j) ρX (k − i)ak−1,i , (j) ρX (i)ak−1,i , i=1 (j) ak,k ak−1,k−i − (j) ak,k ak−1,k−i, i = 1, . . . , k − 1. en posant ai,j = 0 pour j ≤ 0 ou j > i. Preuve. Il suffit d’appliquer la méthode delta 4 en considérant rX (h) comme une fonction différentiable de ρX (1), . . . , ρX (h). 2 Nous en déduisons que pour un bruit blanc faible, les ACRE et les ACPE ont la même loi asymptotique. Cela s’applique en particulier à un GARCH. Proposition A.4 Si X est un bruit blanc faible et √ L nρ̂m → N (0, Σρ̂m ) , alors √ L nr̂m → N (0, Σρ̂m ) . √ L Si n(Xn − µ) → N (0, Σ), pour Xn dans Rm , et g : Rm → Rk de classe C 1 au voisinage de √ L µ, alors n {g(Xn ) − g(µ)} → N (0, JΣJ ′ ), où J = {∂g(x)/∂x′ } (µ) 4 154 Autocorrélation, ergodicité, TCL (j) Preuve. Reprenons le calcul des dérivées ak,i quand ρX (h) = 0 pour tout h = 6 0. Il est clair que ak,i = 0 pour tout k et tout i. On a alors dk = 1, nk = 0 et (j) (j) nk = 1{k} (j). On a donc ak,k = 1{k} (j), d’où Jm = Im . 2 Le résultat suivant est plus fort car il montre que pour un bruit blanc les ACRE et les ACPE sont asymptotiquement équivalentes. Proposition A.5 Si (Xt ) est un bruit blanc faible satisfaisant la condition de la proposition A.4 et, pour tout h fixé, √ n (âh−1,1 , . . . , âh−1,h−1 ) = OP (1) (A.19) où (âh−1,1 , . . . , âh−1,h−1 )′ est le vecteur des coefficients estimés de la régression linéaire de Xt sur Xt−1 , . . . , Xt−h+1 , (t = h, . . . , n), alors ρ̂(h) − r̂(h) = OP (n−1 ). Preuve. Le résultat est évident pour h = 1. Pour h > 1, nous avons d’après (A.16) P ρ̂(h) − h−1 ρ̂(h − i)âh−1,i . r̂(h) = Pi=1 h−1 1 − i=1 ρ̂(i)âh−1,i D’après les hypothèses ρ̂(k) = oP (1), (âh−1,1 , . . . , âh−1,h−1)′ = oP (1) et ρ̂(k)âh−1,i = OP (n−1 ) pour i = 1, . . . , h − 1 et k = 1, . . . , h. D’où P n h−1 i=1 âh−1,i {ρ̂(h − i) − ρ̂(i)ρ̂(h)} n {ρ̂(h) − r̂(h)} = = Op (1). 2 P 1 − h−1 ρ̂(i)â h−1,i i=1 Sous des hypothèses très peu restrictives, le terme de gauche de l’égalité (A.19) tend en loi vers une normale non dégénérée, ce qui entraîne bien sûr (A.19). BIBLIOGRAPHIE Propriétés des séries financières : 2, 8, 27. Définition des ARCH, GARCH, IGARCH : 3, 13, 14. Stationnarité : 5, 20. A.4 Autocorrélations partielles 155 Estimation des modèles GARCH : 16, 24, 26, 30, 35, 36. Asymétries et autres spécifications : 12, 25, 29, 33, 37. GARCH faibles et agrégation : 10, 15, 31. Lien avec les modèles en temps continu : 28. Modèles à volatilité stochastique : 1, 9, 32. Modèles à changement de régime : 7, 11, 18, 22. Livres, revues de la littérature : 4, 6, 17, 19, 21, 23, 34. 1. Andersen, T.G. and B. E. Sørensen (1996) : "GMM Estimation of a Stochastic Volatility Model : A Monte Carlo Study." Journal of Business and Economic Statistics 14, 328–352. 2. Black, F.(1976) :"Studies of Stock Price Volatility Changes," Proceedings from the American Statistical Association, Business and Economic Statistics Section, 177–181. 3. Bollerslev, T.P. (1986) : "Generalized Autoregressive Conditional Heteroskedasticity," Journal of Econometrics, 31, 309–328. 4. Bollerslev, T.P., Engle, R.F. and D.B. Nelson (1994) : "ARCH Models," in Handbook of Econometrics, Vol. IV, Edited by R.F Engle and D.L.McFadden, Chap 49, 2959-3038. 5. Bougerol, P. and N. Picard (1992) : "Stationarity of GARCH Processes and of Some Nonnegative Time Series," Journal of Econometrics, 52, 115– 127. 6. Brockwell, P. J., and Davis, R. A. (1991) : Time Series : Theory and Methods. Springer-Verlag. 7. Cai, J. (1994) : "A Markov Model of Switching-Regime ARCH," Journal of Business and Economic Statistics 12, 309–316. 8. Christie, A.A. (1982) : "The Stochastic Behavior of Common Stock Variances : Value, Leverage and Interest Rate Effects" Journal of Financial Economics, 10, 407–432. 9. Danielsson, J. (1994) : "Stochastic Volatility in Asset Prices, Estimation with Simulated Maximum Likelihood," Journal of Econometrics, 64, 375– 400. 10. Drost, F.C. and T.E. Nijman (1993) : "Temporal Aggregation of GARCH Processes," Econometrica, 61, 909–927. 156 Autocorrélation, ergodicité, TCL 11. Dueker, M.J. (1997) : "Markov Switching in GARCH processes and MeanReverting Stock Market Volatility, " Journal of Business and Economic Statistics 15, 26–34. 12. El Babsiri, M. and J.M. Zakoïan (2001) : "Contemporaneous Asymmetry in GARCH Processes," Journal of Econometrics, 101, 257-294. 13. Engle, R.F. (1982) : "Autoregressive Conditional Heteroskedasticity with Estimates of the Variance of U.K. Inflation," Econometrica, 50, 987–1008. 14. Engle, R.F. and T. Bollerslev (1986) : "Modelling the Persistence of Conditional Variances," (with comments and a reply by the authors Econometric Reviews, 5, 1–87. 15. Francq, C. et J-M. Zakoïan (2000) : "Estimating Weak GARCH Representations", Econometric Theory, 16, 692-728. 16. Francq, C. et J-M. Zakoïan (2004) : "Maximum Likelihood Estimation of Pure GARCH and ARMA-GARCH Processes", Bernoulli, 10, 605-637. 17. Francq, C. et J-M. Zakoïan (2009) : MODELES GARCH : Structure, inférence statistique et applications financières. Economica, collection "économie et statistiques avancées". 18. Francq, C., M. Roussignol et J-M. Zakoïan (2001) : "Conditional Heteroskedasticity driven by Hidden Markov Chains", Journal of Time Series Analysis, 22, 197-220. 19. Ghysels, E., A.C. Harvey, and E. Renault (1996) : Stochastic Volatility. In C.R. Rao and G.S. Maddala (Eds.), Statistical Methods in Finance, 119–191. Amsterdam : North-Holland. 20. Goldsheid, I. Y. (1991) : Lyapunov exponents and asymptotic behavior of the product of random matrices. In : Lecture Notes in Mathematics 1486, 23-37. Springer, Berlin. 21. Gouriéroux, C. (1997) : ARCH Models and Financial Applications. Springer-Verlag, New-York. 22. Hamilton, J.D., and R. Susmel (1994) : Autoregressive Conditional Heteroskedasticity and Changes in Regime. Journal of Econometrics 64, 307– 333. 23. Harvey, A.C. (1989) Forecasting, structural time series models and the Kalman Filter. Cambridge University Press. 24. Lee, S.W. and B.E. Hansen, (1994) : "Asymptotic Theory for the GARCH(1,1) Quasi-Maximum Likelihood Estimator,"Econometric Theory, 10, 29–58. A.4 Autocorrélations partielles 157 25. Liu J., Li W.K. and C.W. Li (1997) : "On a Threshold Autoregression with Conditional Heteroskedastic Variances," Journal of Statistical Planning and Inference, 62, 279–300. 26. Lumsdaine, R.L. (1996) : "Consistency and Asymptotic Normality of the Quasi-Maximum Likelihood Estimator in IGARCH(1,1) and Covariance Stationary GARCH(1,1) Models," Econometrica, 64, 575–596. 27. Mandelbrot, B. (1963) : "The Variations of Certain Speculative Prices," Journal of Business, 36, 394–419. 28. Nelson, D.B. (1990) : "ARCH Models as Diffusion Approximations," Journal of Econometrics, 45, 7–38. 29. Nelson D.B. (1991) : "Conditional Heteroskedasticity in Asset Returns : a New Approach," Econometrica, 59, 347–370. 30. Newey W.K and D.G. Steigerwald (1997) : "Asymptotic Bias for Quasi-Maximum Likelihood Estimators in Conditional Heteroskedasticity Models," Econometrica, 65, 3, 587–599. 31. Nijman, T. and E. Sentana (1996) : "Marginalization and Contemporaneous Aggregation in Multivariate GARCH Processes," Journal of Econometrics, 71, 71–87. 32. Ruiz, E. (1994) : "Quasi-Maximum Likelihood Estimation of Stochastic Volatility Models." Journal of Econometrics 63, 289–306. 33. Shephard, N. (1996) : Statistical Aspects of ARCH and Stochastic Volatility. In D.R. Cox, D.V. Hinkley and O.E. Barndorff-Nielsen (Eds.), Time Series Models in Econometrics, Finance and Other Fields, 1–67. London : Chapman & Hall. 34. Taylor, S. (1986) : Modelling Financial Time Series, New-York : Wiley. 35. Weiss, A.A. (1984) : ARMA Models with ARCH Errors. Journal of Time Series Analysis 5, 129–143. 36. Weiss, A.A., (1986) : "Asymptotic Theory for ARCH Models : Estimation and Testing," Econometric Theory, 2, 107–131. 37. Zakoïan, J.M. (1994) : "Threshold Heteroskedastic Models," Journal of Economic Dynamics and Control, 18, 931–955. Annexe B Solution des exercices Chapitre 1 1.1 P 1. (a) On a la solution stationnaire Xt = i≥0 0.5i (ηt−i + 1), de moyenne EXt = 2 et d’autocorrélations ρX (h) = 0.5|h| . (b) On a une solution stationnaire "anticipative" Xt = −1 − 1X i 0.5 ηt+i+1 , 2 i≥0 qui est telle que EXt = −1 et ρX (h) = 0.5|h|. (c) La solution stationnaire Xt = 2 + X i≥0 0.5i (ηt−i − 0.4ηt−i−1 ), est telle que EXt = 2 avec ρX (1) = 2/19 et ρX (h) = 0.5h−1 ρX (1) pour h > 1. 2. Les modèles compatibles sont respectivement ARMA(1,2), MA(3) et ARMA(1,1). 3. Le premier bruit est fort, le second est faible car 4 2 Cov (ηt ηt−1 )2 , (ηt−1 ηt−2 )2 = Eηt2 ηt−1 ηt−2 − 1 6= 0, et on peut même préciser que, d’après l’inégalité de Jensen, cette corrélation est positive. 159 1.2 En toute généralité, posons Xt = X n pour t < 1 ou t > n. On a n−1 X 1X 1 γ̂(h) = (Xt − X n )(Xt+h − X n ) = n h,t n h=−n+1 ce qui donne 1 + 2 Pn−1 h=1 ( n X t=1 (Xt − X n ) )2 = 0, ρ̂(h) = 0, d’où le résultat. 1.3 Considérons la suite dégénérée (Xt )t=0,1,... définie, sur un espace probabilisé (Ω, A, IP), par Xt (ω) = (−1)t pour tout ω ∈ Ω et tout t ≥ 0. Avec probabilité 1, la suite {(−1)t } sera réalisation du processus (Xt ). Ce processus est non stationnaire car, par exemple, EX0 6= EX1 . Soit U une variable de loi uniforme sur {0, 1}. On définit le processus (Yt )t=0,1,... par Yt (ω) = (−1)t+U (ω) pour tout ω ∈ Ω et tout t ≥ 0. Le processus (Yt ) est stationnaire. On peut même préciser que EYt = 0 et Cov (Yt , Yt+h ) = (−1)h . Avec probabilité 1/2, le processus stationnaire (Yt ) a pour réalisation la suite {(−1)t } (et avec probabilité 1/2, il a pour réalisation {(−1)t+1 }). Cet exemple nous laisse penser qu’il est en principe impossible de déterminer si un processus est stationnaire ou pas à partir de l’observation d’une seule trajectoire, même de longueur infinie. Cependant, le praticien ne modélisera pas {(−1)t } comme la réalisation du processus stationnaire (Yt ). La modélisation par le processus non stationnaire (Xt ) est plus simple, plus naturelle, et donne entière satisfaction en termes de prévisions. 1.5 Par simple calcul, on trouve Eǫt = 0, Var ǫt = 1 et Cov(ǫt , ǫt−h ) = 0 quand h 6= 0, donc (ǫt ) est un bruit blanc faible. On a Cov(ǫ2t , ǫ2t−1 ) = 4 4 2 Eηt2 ηt−1 . . . ηt−k ηt−k−1 − 1 = 3k − 1 6= 0, donc ǫt et ǫt−1 ne sont pas indépendants, ce qui montre que (ǫt ) n’est pas un bruit blanc fort. 1.6 Supposons Pn h > 0. Soit la variable aléatoire √ ρ̃(h) = γ̃(h)/γ̃(0), où γ̃(h) = −1 n t=1 ǫt ǫt−h . Il est facile de voir que √ nρ̂(h) a la même variance (et aussi la même loi) asymptotique que nρ̃(h). En utilisant γ̃(0) → 1, la 160 Solution des exercices stationnarité et le théorème de Lebesgue, cette variance asymptotique vaut n X √ Var nγ̃(h) = n−1 Cov (ǫt ǫt−h , ǫs ǫs−h ) t,s=1 −1 = n n−1 X (n − |ℓ|)Cov (ǫ1 ǫ1−h , ǫ1+ℓ ǫ1+ℓ−h ) ℓ=−n+1 → = ∞ X Cov (ǫ1 ǫ1−h , ǫ1+ℓ ǫ1+ℓ−h ) ℓ=−∞ Eǫ21 ǫ21−h = 3k−h+1 si 0 < h ≤ k 1 si h>k Cette valeur peut être arbitrairement plus grande que 1, valeur qui correspond à la variance asymptotique des autocorrélations empiriques d’un bruit blanc fort. 1.7 Il est clair que (ǫ2t ) est un processus stationnaire au second ordre. Par construction, ǫt et ǫt−h sont indépendants pour h > k, donc γǫ2 (h) := Cov(ǫ2t , ǫ2t−h ) = 0 pour tout h > k. De plus γǫ2 (h) = 3k+1−h − 1, pour h = 0, . . . , k. D’après le théorème 1.2, ǫ2t − 1 suit donc une MA(k). Dans le cas k = 1, on a une écriture de la forme ǫ2t = 1 + ut + but−1 , où (ut ) est un bruit blanc de variance σ 2 et |b| < 1. Les coefficients b et σ 2 sont déterminés par γǫ2 (0) = 8 = σ 2 (1 + b2 ), √ ce qui donne b = 2 − 3 et σ 2 = 2/b. γǫ2 (1) = 2 = bσ 2 , 1.8 En raisonnant comme dans l’exercice 1.6, la variance asymptotique vaut 2 Eǫ21 ǫ21−h η12 η1−h = E 2 2 (Eǫ21 )2 η1−k η1−h−k η2 E 21 η1−k −2 = Eη12 Eη1−2 1 −1 si 0 < h = k si 0 < h 6= k Comme E(η1−2 ) ≥ (Eη12 )−1 , pour k 6= h la variance asymptotique peut être arbitrairement plus petite que 1, valeur qui correspond à la variance asymptotique des autocorrélations empiriques d’un bruit blanc fort. 1.9 1. On a n n X X k a ηt−k ≤ |a|k σ → 0 k=m 2 k=m 161 quand n > m et m → ∞. La suite {ut (n)}n définie par un = Pn k 2 k=0 a ηt−k est de Cauchy dans L , et converge donc en moyenne quadratique. A priori, ∞ X k=0 k |a ηt−k | := lim ↑ n n X k=0 |ak ηt−k | existe dans R ∪ +{∞}. En utilisant Beppo-Levi, E ∞ X k=0 k |a ηt−k | = (E|ηt |) F P∞ ∞ X k=0 |ak | < ∞, ce qui montre que la limite k=0 |ak ηt−k | est finie presque sûrement. Ainsi, quand n → ∞, ut (n) converge P∞ àk la fois presque sûrement et en moyenne quadratique vers ut = k=0 a ηt−k . Comme ut (n) = aut−1 (n − 1) + ηt , ∀n, on obtient, par passage à la limite quand n → ∞, ut = aut−1 + ηt . Ceci montre que (Xt ) = (ut ) est une solution stationnaire de l’équation AR(1). Finalement, supposons qu’il y ait 2 solutions stationnaires à l’équation : Xt = aXt−1 + ηt et ut = aut−1 + ηt . Si ut0 6= Xt0 , alors 0 < |ut0 − Xt0 | = |an | |ut0 −n − Xt0 −n | , ∀n, ce qui entraîne lim sup |ut0 −n | = +∞ n→∞ ou lim sup |Xt0 −n | = +∞, n→∞ et contredit l’hypothèse que les 2 suites sont stationnaires, montrant ainsi l’unicité de la solution stationnaire. 2. On a Xt = ηt + aηt−1 + · · · + ak ηt−k + ak+1 Xt−k−1 . Puisque |a| = 1, Var Xt − ak+1 Xt−k−1 = (k + 1)σ 2 → ∞ quand k → ∞. En supposant (Xt ) stationnaire, Var Xt − ak+1 Xt−k−1 = 2 {VarXt ± Cov (Xt , Xt−k−1 )} , et on aurait alors lim |Cov (Xt , Xt−k−1)| = ∞. k→∞ Ceci est impossible, car d’après l’inégalité de Cauchy-Schwarz, |Cov (Xt , Xt−k−1 )| ≤ VarXt . 162 Solution des exercices 3. Le raisonnement du 1) montre que n ∞ X X 1 1 n→∞ vt (n) := − ηt+k → vt = − ηt+k k a ak k=1 k=1 presque sûrement et en moyenne quadratique. Puisque vt (n) = avt−1 (n + 1) + ηt pour tout n, (vt ) est une solution stationnaire (que l’on appelle anticipative, car fonction des valeurs futures du bruit) de l’équation AR(1). L’unicité de la solution stationnaire se montre comme dans le 1). 4. La fonction d’autocovariance de la solution stationnaire est ∞ X 1 σ2 γ(0) = σ = , a2k a2 − 1 2 k=1 1 γ(h) = γ(h − 1) h > 0. a On a donc Eǫt = 0 et ∀h > 0 1 1 1 Cov(ǫt , ǫt−h ) = γ(h) − γ(h − 1) − γ(h + 1) + 2 γ(h) = 0, a a a ce qui permet de vérifier que ǫt est bien un bruit blanc. 1.10 Sur le graphe de gauche, on constate que plusieurs autocorrélations empiriques sont en dehors des bandes de significativité à 95 %, ce qui laisse penser que la série n’est peut-être pas la réalisation d’un bruit blanc fort. En regardant le graphe de droite, le doute n’est plus permis : si la série observée ǫ1 , . . . , ǫn était engendrée par un bruit blanc fort, il en serait de même pour la série ǫ21 , . . . , ǫ2n recentrée. Ce n’est clairement pas le cas car des autocorrélations empiriques débordent très largement des bandes de significativité. Par contre, il n’est pas exclu que la série soit un √ bruit faible. On sait que la formule de Bartlett. donnant les limites ±1.96/ n n’est pas valable pour un bruit faible (voir exercices 1.6 et 1.8). D’autre part on sait que le carré d’un bruit faible peut être corrélé (voir exercice 1.7). Chapitre 2 2.1 Dans le cas (i) la condition de stationnarité stricte devient α + β < 1. Dans le cas (ii), des calculs d’intégrale élémentaires montrent que la condition s’écrit : r r β 3α 2 arctan + log(3α + β) < 2. 3α β 163 2.2 Notons λ1 , . . . , λm les valeurs propres de A. Si A est digonalisable, il existe P inversible et D diagonale telles que A = P −1 DP. Par suite, en choisissant une norme multiplicative log kAt k = log kP −1 D t P k ≤ log kP −1kkD t kkP k = log kP −1k+log kD t k+log kP k. P P t Pour la norme multiplicative kAk = |aij | on a log kD t k = log m i=1 λi . Le résultat s’en déduit immédiatement. Lorsque A est carrée quelconque, on peut utiliser la représentation de Jordan. Notons ni la dimension de l’espace propre associé à λi . La représentation de Jordan s’écrit A = P −1 JP où P inversible et J est la matrice bloc-diagonale de blocs les m matrices Ji (λi ), de taille ni × ni , comportant la valeur λi sur la diagonale, des 1 sur la sur-diagonale, et des 0 partout ailleurs. Par suite At = P −1 J t P où J t est la matrice bloc-diagonale de blocs les matrices Jit (λi ). On montre que Jit (λi ) = λti Pi (t) où Pi est un polynôme à coefficients matriciels, de degré ni − 1. On conclut en utilisant la même norme que précédemment. P 2.3 On utilise la norme multiplicative kAk = |aij |. Ainsi log kAzt k ≤ log kAk + + + log kzt k, donc log kAzt k ≤ log kAk + log |zt |, qui admet une espérance finie par hypothèse. Par suite γ existe. On a ! t t Y X t t log (kAt At−1 . . . A1 k) = log kA k zi = log kA k + log |zi | i=1 et donc γ = lim p.s. t→∞ i=1 ! t X 1 1 log kAt k + log |zi | . t t i=1 En utilisant (2.21) et le théorème ergodique, on obtient γ = log ρ(A) + E log |zt |. Par conséquent γ < 0 si et seulement si ρ(A) < exp (−E log |zt |) . p 2.5 On a ǫt = ω + α1 ǫ2t−1 + α2 ǫ2t−2 ηt donc le moment d’ordre 2 s’écrit, sous la condition α1 + α2 < 1 ω Eǫ2t = 1 − α1 − α2 (voir le théorème 2.5 et sa Remarque 1). On a de plus, en utilisant la stationnarité stricte, qui résulte de la condition précédente, Eǫ4t = µ4 E(ω + α1 ǫ2t−1 + α2 ǫ2t−2 )2 = µ4 {ω 2 + (α12 + α22 )Eǫ4t + 2ω(α1 + α2 )Eǫ2t + 2α1 α2 Eǫ2t ǫ2t−1 }. 164 Solution des exercices Par ailleurs Eǫ2t ǫ2t−1 = E(ω + α1 ǫ2t−1 + α2 ǫ2t−2 )ǫ2t−1 = ωEǫ2t + α1 Eǫ4t + α2 Eǫ2t−2 ǫ2t−1 , d’où l’on tire (1 − α2 )Eǫ2t ǫ2t−1 = ωEǫ2t + α1 Eǫ4t . En injectant cette relation dans la formule obtenue pour Eǫ4t on obtient, après simplifications, µ4 2 2 4 α1 (1 + α2 ) + α2 (1 − α2 ) Eǫt 1 − 1 − α2 2ω 2 2 = µ4 ω + {α1 + α2 (1 − α2 )} . (1 − α2 )(1 − α1 − α2 ) La condition cherchée s’obtient, après simplification, en exprimant que si Eǫ4t < ∞, le terme entre crochets dans le membre de gauche de cette égalité doit être strictement positif. On notera que la condition n’est pas symétrique en α1 et α2 . La figure B.1 permet de visualiser la condition, représentée comme la partie du quadrant positif située en dessous de la courbe. On obtient alors Eǫ4t = µ4 ω 2 (1 + α1 + α1 α2 − α22 ) . (1 − α1 − α2 ) [1 − α2 − µ4 {α12 (1 + α2 ) + α22 (1 − α2 )}] α1 0.5 0.4 0.3 0.2 0.1 α2 0.1 0.2 0.3 0.4 0.5 Fig. B.1 – Région d’existence du moment d’ordre 4 du modèle ARCH(2) (pour µ4 = 3). 2.6 On a vu que (ǫ2t ) admet la représentation ARMA(1,1) ǫ2t − (α + β)ǫ2t−1 = ω + νt − βνt−1 , 165 où νt = ǫ2t − E(ǫ2t |ǫt−1 ) est un bruit blanc (faible). La fonction d’autocorrélation de ǫ2t satisfait donc ρǫ2 (h) = (α + β)ρǫ2 (h − 1), (B.1) ∀h > 1. En utilisant la représentation MA(∞) ǫ2t ∞ X ω = + νt + α (α + β)i−1 νt−i , 1−α−β i=1 on obtient γǫ2 (0) = Eνt2 1+α 2 ∞ X (α + β) 2(i−1) i=1 et γǫ2 (1) = Eνt2 2 α + α (α + β) ∞ X (α + β) ! = 2(i−1) i=1 Eνt2 ! = 1+ Eνt2 α2 1 − (α + β)2 α2 (α + β) α+ . 1 − (α + β)2 On en déduit l’autocorrélation d’ordre 1 : ρǫ2 (1) = α (1 − β 2 − αβ) . 1 − β 2 − 2αβ Les autres autocorrélations s’obtiennent à partir de (B.1) et de ρǫ2 (1). Pour déterminer les autocovariances, il reste à calculer Eνt2 = E(ǫ2t − σt2 )2 = E(ηt2 − 1)2 Eσt4 =2Eσt4 , ce que l’on obtient par Eσt4 = E(ω + αǫ2t + βσt2 )2 = ω 2 + 3α2 Eσt4 + β 2 Eσt4 + 2ω(α + β)Eσt2 + 2αβEσt4 ω ω 2 + 2ω(α + β) 1−α−β ω 2 (1 + α + β) = = . 1 − 3α2 − β 2 − 2αβ (1 − α − β)(1 − 3α2 − β 2 − 2αβ) 2.7 Pour tout ǫ > 0 on a, en remarquant que la fonction f (t) = P (t−1 |X1 | > ǫ) est décroissante, ∞ X n=1 ∞ X P n |Xn | > ǫ = P n−1 |X1 | > ǫ −1 ≤ = n=1 Z ∞ Z0 ∞ 0 P t−1 |X1 | > ǫ dt P ǫ−1 |X1 | > t dt = ǫ−1 E|X1 | < ∞. 166 Solution des exercices Le lemme de Borel-Cantelli permet de conclure à la convergence. Soit maintenant (Xn ) une suite iid de densité f (x) = x−2 1x≥1 . On a pour tout K > 0, ∞ ∞ X X 1 −1 P (n Xn > K) = = +∞. nK n=1 n=1 Les événements {n−1 Xn > K} étant indépendants, on peut utiliser la réciproque du lemme de Borel-Cantelli : l’évènement {n−1 Xn > K pour une infinité de n } a pour probabilité 1. Donc, avec probabilité 1, la suite (n−1 Xn ) ne tend pas vers 0. 2.8 Remarquons d’abord que les r − 1 dernières lignes de Bt A sont les r − 1 premières de A, quelle que soit A de taille adéquate. Ceci implique que les r−1 dernières lignes de E(Bt A) sont les r −1 dernières de E(Bt )E(A). On montre de plus, par récurrence sur t, que la i-ème ligne ℓi,t−i de Bt . . . B1 est une fonction mesurable des ηt−j , pour j ≥ i. La première ligne de Bt+1 Bt . . . B1 est donc de la forme a1 (ηt )ℓ1,t−1 + · · · + ar (ηt−r )ℓr,t−r . Puisque E{a1 (ηt )ℓ1,t−1 +· · ·+ar (ηt−r )ℓr,t−r } = Ea1 (ηt )Eℓ1,t−1 +· · ·+Ear (ηt−r )Eℓr,t−r 2.9 la première ligne de EBt+1 Bt . . . B1 est donc le produit de la première ligne de EBt+1 et de EBt . . . B1 , ce qui permet de conclure. (K) 1. La première convergence découle du fait que, à t fixé, la suite z t K converge p.s. (vers z t ). On en déduit que (K) kz t (K−1) − zt k → 0 p.s. Pour la seconde convergence on applique le théorème de convergence dominée. On a s (K) (K−1) s (K) (K−1) k ≤ E kz t k + kz t k Ekz t − z t (K) (K−1) s ≤ Ekz t ks + Ekz t k < ∞. La première inégalité utilise (a + b)s ≤ as + bs pour a, b ≥ 0 et s ∈]0, 1]. La seconde inégalité découle de Eǫ2s t < ∞. D’où la propriété. (K) (K−1) 2. On a z t − z t = At At−1 . . . At−K+1 bt−K . La convergence découle de la n question précédente eto de la stricte stationnarité, à K fixé, de la (K) (K−1) , t∈Z . suite z t − z t 3. On a kXn Y ks = ( X i,j |Xn,ij Yj | )s ≥ |Xn,i′j ′ Yj ′ |s 167 pour tout i′ = 1, . . . , ℓ, j ′ = 1, . . . , m. Par suite, d’après l’indépendance entre Xn et Y , E|Xn,i′j ′ Yj ′ |s = E|Xn,i′ j ′ |s E|Yj ′ |s → 0 p.s. quand n → ∞. Or E|Yj ′ |s est un nombre strictement positif, d’où E|Xn,i′j ′ |s → 0 p.s., ∀i′ , j ′ . Par suite, en utilisant à nouveau (a + b)s ≤ as + bs , EkXn ks = E ( X i,j |Xn,ij | )s ≤ X i,j E|Xn,ij |s → 0. 4. Remarquons que la question précédente ne permet pas de déduire directement de la convergence vers 0 de E(kAk Ak−1 . . . A1 b0 ks ) celle de E(kAk Ak−1 . . . A1 ks ) car b0 a des composantes nulles. Pour k suffisamment grand on a cependant E(kAk Ak−1 . . . A1 b0 ks ) = E(kAk Ak−1 . . . AN +1 Y ks ) où Y = AN . . . A1 b0 est indépendant de Ak Ak−1 . . . AN +1 . Le terme général ai,j de AN . . . A1 est le terme (i, j) de la matrice AN multiplié par un produit de variables ηt2 . D’après l’hypothèse AN > 0, on a donc ai,j > 0 p.s. pour tout i et tout j. Par suite la i-ème composante de Y vérifie Yi > 0 p.s. pour tout i. Donc EYis > 0. La question précédente permet d’affirmer que E(kAk Ak−1 . . . AN +1 ks ) → 0 et, par stationnarité stricte, que E(kAk−N Ak−N −1 . . . A1 ks ) → 0 quand k → ∞. On peut conclure qu’il existe k0 tel que E(kAk0 Ak0 −1 . . . A1 ks ) < 1. 5. Si α1 ou β1 est strictement positif, les éléments des deux premières lignes du vecteur A2 b le sont également, ainsi que ceux des lignes q + 1 et q + 2. Par récurrence on montre facilement que Amax(p,q) b0 > 0 sous cette hypothèse. 6. La condition AN b0 > 0 peut être assurée sans que α1 ou β1 soit strictement positif. Il suffit de considérer un ARCH(3) avec α1 = 0, α2 > 0, α3 > 0, pour lequel on vérifie facilement que A4 b0 > 0. 2.10 En utilisant la représentation AR(q) pour le processus (ǫ2t ), ainsi que le fait que les autocorrélations de ǫ2t sont positives, on obtient ρǫ2 (i) = α1 ρǫ2 (i−1)+· · ·+αi−1 ρǫ2 (1)+αi +αi+1 ρǫ2 (1)+· · ·+αq ρǫ2 (q−i) ≥ αi . 2.11 En posant a(z) = λ + (1 − λ)z 2 , on a 2 σt2 = a(ηt−1 )σt−1 = a(ηt−1 ) · · · a(η1 ) λσ02 + (1 − λ)σ02 η02 . 168 Solution des exercices Quelle que soit la valeur de σ02 > 0, fixée ou même aléatoire, on a presque sûrement t−1 1 log σt2 t = 1X 1 log λσ02 + (1 − λ)σ02 η02 + log a(ηk ) t t k=1 → E log a(ηk ) < log Ea(ηk ) = 0 en utilisant la loi des grands nombres et l’inégalité de Jensen. On en déduit que σt2 → 0 presque sûrement quand t → ∞. Chapitre 3 3.1 Soit (Ft ) une suite croissante de tribus telle que ǫt ∈ Ft et E(ǫt |Ft−1 ) = 0. Pour h > 0, on a ǫt ǫt+h ∈ Ft+h et E(ǫt ǫt+h |Ft+h−1 ) = ǫt E(ǫt+h |Ft+h−1) = 0. La suite (ǫt ǫt+h , Ft+h )t est donc une suite stationnaire d’accroissements de martingale de carré intégrable. On a donc L n1/2 γ̃(h) → N (0, Eǫ2t ǫ2t+h ), où γ̃(h) = n−1 Pn t=1 ǫt ǫt+h . 1/2 n Pour conclure 1/2 γ̃(h) − n 1 il suffit de remarquer que −1/2 γ̂(h) = n n X t=n−h+1 ǫt ǫt+h → 0 en probabilité (on a même convergence L2 vers 0). 3.2 Ce processus est une différence de martingale stationnaire dont la variance est γ(0) = Eǫ2t = Son moment d’ordre 4 vérifie D’où Eǫ4t = µ4 ω 2 + α2 Eǫ4t + 2αωEǫ2t . Eǫ4t = 1 ω . 1−α µ4 (ω 2 + 2αωEǫ2t ) µ4 ω 2 (1 + α) = . 1 − µ4 α 2 (1 − α)(1 − µ4 α2 ) L L Si Xn → x, x constante, et Yn → Y , alors Xn + Yn → x + Y 169 De plus Eǫ2t ǫ2t−1 = E(ω + αǫ2t−1 )ǫ2t−1 = ω2 + αEǫ4t . 1−α On obtient donc, en utilisant l’exercice 3.1 ω 2(1 + αµ4 ) L 1/2 . n γ̂(1) → N 0, (1 − α)(1 − µ4 α2 ) 3.3 On a n1/2 ρ̂(1) = n1/2 γ̂(1) . γ̂(0) D’après le théorème ergodique, le dénominateur converge en probabilité (et même p.s.) vers γǫ (0) = ω/(1 −nα) 6= 0. D’aprèso l’exercice 3.2, le numéraω 2 (1+αµ4 ) teur converge en loi vers une N 0, (1−α)(1−µ . Le théorème de Cramér 2 4α ) 2 entraîne alors 1/2 n L ρ̂(1) → N (1 − α)(1 + αµ4 ) 0, (1 − µ4 α2 ) . La variance asymptotique vaut 1 quand α = 0 (i.e. quand ǫt est un bruit blanc fort). La figure B.2 montre la loi asymptotique des ACRE d’un GARCH est parfois très différente de la loi asymptotique des ACRE d’un bruit blanc fort. 3.4 L’hypothèse de plein rang colonne pour X implique que X ′ X est inversible. En notant < ·, · > le produit scalaire associé à la norme euclidienne, on a D E n o −1 ′ ′ ′ Y − X θ̂n , X(θ̂n − θ) = Y X − X (X X) X X (θ̂n − θ) = 0 et nQn (θ) = kY − Xθk2 D E = kY − X θ̂n k2 + kX(θ̂n − θ)k2 + 2 Y − X θ̂n , X(θ̂n − θ) ≥ kY − X θ̂n k2 = nQn (θ̂n ), avec égalité si et seulement si θ = θ̂n , ce qui permet de conclure. 2 L L Si Yn → Y et Tn → t en probabilité, t constante, alors Tn Yn → Y t 170 Solution des exercices 6 5 4 3 2 1 0.1 0.2 0.3 0.4 0.5 α √ nρ̂(1) pour l’ARCH(1) (3.39) √ avec (ηt ) gaussien (trait plein), et la variance asymptotique de nρ̂(1) quand ǫt est un bruit blanc fort (trait pointillé) Fig. B.2 – Comparaison entre la variance asymptotique de 3.5 Le cas 3 n’est pas possible, sinon on aurait ǫ2t < ǫ2t − ω̂ − α̂1 ǫ2t−1 − α̂2 ǫ2t−2 pour tout t, et par conséquent kY k2 < kY − X θ̂n k2 , ce qui n’est pas possible. Sur les données, on obtient θ̂ = (1, −1, −1/2) d’où θ̂c 6= θ̂. L’estimateur contraint doit donc coïncider avec l’un des trois estimateurs suivants : soit celui contraint par α2 = 0, soit celui contraint par α1 = 0, ou soit celui contraint par α1 = α2 = 0. L’estimateur contraint par α2 = 0 est θ̃ = (7/12, −1/2, 0), et ne convient donc pas. L’estimateur contraint par α1 = 0 donne l’estimateur recherché θ̂c = (1/4, 0, 1/4). 3.6 L’estimateur des MCO de φ0 est, en introduisant une valeur initiale X0 , n φ̂n = 1X 2 X n t=1 t−1 !−1 n 1X Xt Xt−1 n t=1 et il vérifie √ n n(φ̂n − φ0 ) = 1X 2 X n t=1 t−1 !−1 n 1 X √ ǫt Xt−1 . n t=1 171 Sous les hypothèses de l’énoncé, le théorème ergodique entraîne les convergences p.s n n 1X 2 X → EXt2 , n t=1 t−1 1X Xt Xt−1 → EXt Xt−1 = φ0 EXt2 n t=1 et par suite la convergence p.s. de φ̂n vers φ0 . Pour la convergence l’hypothèse Eǫ2t < ∞ suffit. Si Eǫ4t < ∞ la suite (ǫt Xt−1 , Ft ) est une différence de martingale stationnaire, ergodique et de carré intégrable de variance 2 Var(ǫt Xt−1 ) = E(σt2 Xt−1 ). On voit que cette espérance existe en développant le produit ! ∞ !2 q X X 2 σt2 Xt−1 = ω0 + ǫ2t−i φi0 ǫt−1−i . i=1 i=0 Par suite le TCL pour différence de martingale stationnaire implique n 1 X L 2 √ ǫt Xt−1 → N (0, E(σt2 Xt−1 )) n t=1 d’où √ L 2 n(φ̂n − φ0 ) → N (0, {E(Xt2 )}−2 E(σt2 Xt−1 )). Lorsque σt2 = ω0 la condition Eǫ2t < ∞ suffit pour avoir la normalité asymptotique. 3.7 Pour tout κ > 0, le processus (Xtκ ) est ergodique et admet une espérance, comme (Xt ). Cette espérance est finie puisque Xtκ ≤ κ et (Xtκ )− = Xt− . On a donc, par le théorème ergodique standard n n 1X 1X κ Xt ≥ Xt → E(X1κ ), n t=1 n t=1 3.8 p.s. quand n → ∞. Lorsque κ → ∞, la variable X1κ tend en croissant vers X1 . Donc par le théorème de Beppo-Levi E(X1κ ) converge vers E(X1 ) = +∞. Par suite P n n−1 t=1 Xt tend p.s. vers l’infini. 1. Les hypothèses sur f et Θ assurent que Yt = {inf θ∈Θ Xt (θ)} est une fonction mesurable de ηt , ηt−1 , . . . Par suite (Yt ) est stationnaire et ergodique. 172 Solution des exercices 2. Si l’on supprime la condition (3.40), la propriété peut n’être plus vérifiée. Soit par exemple Θ = {θ1 , θ2 } et supposons que le couple (Xt (θ1 ), Xt (θ2 )) soit iid de loi normale centrée, chaque composante étant de variance 1, mais avec une covariance entre ces composantes différente selon que t est pair ou impair. Chacun des processus (Xt (θ1 )) et (Xt (θ2 )) est bien stationnaire et ergodique (comme processus iid). Pourtant Yt = infθ (Xt (θ)) = min(Xt (θ1 ), Xt (θ2 )) n’est pas stationnaire car sa loi dépend de la parité de t. 3.9 1. En utilisant notamment la compacité de Θ et en montrant que sup σ̃t2 − σt2 ≤ Kρt , θ∈Θ nous avons sup Qn (θ) − Q̃n (θ) θ∈Θ n X (2σt2 + σ̃t2 − σt2 )(σt2 − σ̃t2 ) − 2ǫ2t (σt2 − σ̃t2 ) (θ) = sup n−1 θ∈Θ t=1 n X −1 ≤ sup Kn θ∈Θ t=1 (2σt2 + Kρt )ρt + 2ǫ2t ρt → 0 (B.2) presque sûrement. En effet, sur un ensemble de probabilité un, on a pour tout ι > 0 −1 lim sup sup Kn n→∞ θ∈Θ −1 ≤ ι lim sup n n→∞ = ι n X 2 (2σt + Kρt )ρt + 2ǫ2t ρt (B.3) t=1 n X Eθ0 sup σt2 θ∈Θ t=1 + sup σt2 θ∈Θ + ǫ2t . Eθ0 σt2 (θ0 ) Remarquons que Eǫ2t < ∞ , et σ̃ 2t = ct + Bct−1 + · · · + B t−q−1 cq+1 + B t−q c̃q + · · · + B t−1 c̃1 + B t σ̃ 20 , entraînent que Eθ0 supθ∈Θ σt2 (θ) < ∞. La limite supérieure (B.3) étant inférieure à tout nombre positif, elle est nulle. 2. Remarquons que νt := ǫ2t −σt2 (θ0 ) = ǫ2t −Eθ0 (ǫ2t |ǫt−1 , . . . ) est l’innovation forte de ǫ2t . On a donc orthogonalité entre νt et toute variable intégrable 173 et mesurable par rapport à la tribu engendrée par {ǫu , u < t}. On en déduit que le critère asymptotique est minimisé en θ0 : 2 lim Qn (θ) = Eθ0 ǫ2t − σt2 (θ0 ) + σt2 (θ0 ) − σt2 (θ) n→∞ 2 = lim Qn (θ0 ) + Eθ0 σt2 (θ0 ) − σt2 (θ) + 2Eθ0 νt σt2 (θ0 ) − σt2 (θ) n→∞ 2 = lim Qn (θ0 ) + Eθ0 σt2 (θ0 ) − σt2 (θ) ≥ lim Qn (θ0 ), n→∞ n→∞ avec égalité si et seulement si σt2 (θ) = σt2 (θ0 ) Pθ0 -presque sûrement, c’est-à-dire θ = θ0 (d’après A3 et A4, voir la preuve du théorème 3.3). 3. On conclut à la convergence de θ̂n comme dans le d) du théorème 3.3, en utilisant un argument de compacité et en montrant, grâce au théorème ergodique, qu’il existe un voisinage V (θ1 ) de tout point θ1 tel que si θ1 ∈ Θ, θ1 6= θ0 , lim inf inf Q(θ) > lim Q(θ0 ) n→∞ θ∈V (θ1 ) n→∞ p.s. 4. Puisque tout ce qui vient d’être énoncé reste valable lorsque Θ est remplacé par n’importe quel compact plus petit contenant θ0 , par exemple Θc , nous avons également convergence forte de θ̂nc vers θ0 . 3.10 On sait que θ̂n minimise sur Θ −1 l̃n (θ) = n n X ǫ2t + log σ̃t2 . 2 σ̃ t=1 t Pour tout c > 0, il existe θ̂n∗ tel que σ̃t2 (θ̂n∗ ) = cσ̃t2 (θ̂n ) pour tout t ≥ 0. Notons que θ̂n∗ 6= θ̂n si et seulement si c 6= 1. Par exemple, pour un modèle GARCH(1,1), si θ̂n = (ω̂, α̂1 , β̂1 ) on a θ̂n∗ = (cω̂, cα̂1 , β̂1 ). Soit f (c) = l̃n (θ̂n∗ ). Le minimum de f est obtenu en un seul point −1 c=n n X t=1 ǫ2t σ̃t2 (θ̂n ) . Pour cette valeur c, on a θ̂n∗ = θ̂n . Par suite c = 1 avec probabilité 1, ce qui prouve le résultat. 3.11 1. Le premier résultat est direct, pour le second il suffit de montrer que ǫ2t → ∞ p.s. lorsque γ > 0. 2. Le résultat s’obtient en appliquant le théorème central limite de Lindeberg. 174 Solution des exercices 3. En utilisant la convergence de ǫ2t−1 vers +∞, n n 1 X ∂2 1X 2 ℓ (α ) = (2ηt − 1) t 0 n t=1 ∂α2 n t=1 ǫ2t−1 1 + α0 ǫ2t−1 2 → 1 α02 p.s.. 4. D’après le fait que ∂ 2 σt2 (α)/∂α2 = ∂ 3 σt2 (α)/∂α3 = 0, on a 3 3 2 2 2 ∂ (1 + α ǫ )η ǫ 0 t−1 t t−1 2 ∂α3 ℓt (α) = 2 − 6 1 + αǫ2 1 + αǫt−1 t−1 n α0 2 o 1 ≤ 2+6 1+ ηt . α α3 5. La dérivée du critère s’annule en α̂nc . Un développement limité de cette dérivée autour de α0 donne alors n n √ 1 X ∂ 1 X ∂2 0 = √ ℓt (α0 ) + ℓt (α0 ) n(α̂nc − α0 ) 2 n t=1 ∂α n t=1 ∂α √ n 1 X ∂3 n(α̂nc − α0 )2 ∗ + ℓt (α ) n t=1 ∂α3 2 où α∗ est entre α̂nc et α0 . Le résultat se déduit facilement des questions précédentes. 6. Lorsque ω0 6= 1, on a ∂ ℓt (α0 ) = ∂α ǫ2t−1 ǫ2t 1 + α0 ǫ2t−1 1 + α0 ǫ2t−1 ǫ2t−1 1 − ηt2 + dt , 1 + α0 ǫ2t−1 1− = avec dt = ǫ2t−1 (1 − ω0 ) 2 η . (1 + α0 ǫ2t−1 )2 t Puisque dt → 0 p.s. quand t → ∞ la convergence en loi de la question 2 a toujours lieu. Par ailleurs 2 ǫ2t−1 ∂2 ǫ2t ℓt (α0 ) = (2 − 1) ∂α2 1 + α0 ǫ2t−1 1 + α0 ǫ2t−1 2 ǫ2t−1 2 = (2ηt − 1) + d∗t , 1 + α0 ǫ2t−1 175 avec d∗t (ω0 − 1)ηt2 =2 (1 + α0 ǫ2t−1 ) ǫ2t−1 1 + α0 ǫ2t−1 2 = o(1) p.s. ce qui implique que le résultat obtenu dans le 3) n’est pas changé. Il en est de même pour la question 4) car 3 3 2 2 2 ∂ (ω + α ǫ )η ǫ 0 0 t−1 t t−1 2 ∂α3 ℓt (α) = 2 − 6 1 + αǫ2 1 + αǫt−1 t−1 n α0 2 o 1 ≤ 2 + 6 ω0 + ηt . α α3 Finalement on peut facilement voir que le comportement asymptotique de α̂nc (ω0 ) est le même que celui α̂nc (ω), quelle que soit la valeur fixée pour ω. 7. En pratique ω0 n’est pas connu et il faut l’estimer, mais il n’est sans doute pas possible d’estimer le paramètre (ω0 , α0 ) sans hypothèse de stationnarité stricte. Par ailleurs, sous (3.42), le modèle ARCH(1) engendre des trajectoires explosives peu compatibles avec les séries financières couramment observées. Chapitre 5 5.1 Les modèles estimés sur les séries de rendements {rt , t = 2, . . . 2122} et {rt , t = 2123, . . . 4245} ont les volatilités (M1) : σt2 = 2 2 0.098 + 0.087 rt−1 + 0.84 σt−1 , (0.015) (0.012) (0.02) (M2) : σt2 = 2 2 0.012 + 0.075 rt−1 + 0.919 σt−1 . (0.004 (0.009) (0.009) Notons θ(1) = (0.098, 0.087, 0.84)′ et θ(2) = (0.012, 0.075, 0.919)′ les paramètres des 2 modèles. Ces valeurs semblent très différentes pour les para(i) mètres ω de β. Notons, par exemple, σβ la valeur estimée de l’écart-type de l’estimateur de β pour le modèle Mi. On constate que les intervalles de confiance [ω (1) − 2σω(1) , ω (1) + 2σω(1) ] = [0.068, 0.129] et [ω (2) − 2σω(2) , ω (2) + 2σω(2) ] = [0.004, 0.020] 176 Solution des exercices ne se recoupent pas. Il en est de même pour les intervalles (1) (1) (2) (2) [β (1) − 2σβ , β (1) + 2σβ ] = [0.80, 0.88] et [β (2) − 2σβ , β (2) + 2σβ ] = [0.90, 0.94]. Sur le troisième graphique de la figure B.3 on a représenté, sous forme de boîtes à moustaches, la distribution empirique des paramètres estimés θ̂(1) de 100 simulations du modèle M1. L’écart θ(1) − θ(2) entre les paramètres des modèles M1 et M2 est figuré sous forme d’un losange rouge, et apparaît comme une valeur aberrante pour la distribution de θ̂(1) . 5.2 En utilisant la formule élémentaire Cdi = Cdi−1 (d − i + 1)/d + Cdi+1 (i + 1)/d, on montre que IP′ π0 = π0 . 5.3 Soit i et j deux états distincts, et d(i) la période de l’état i. Si la chaîne est irréductible il existe un entier m1 tel que p(m1 ) (i, j) > 0 et un entier m2 tel que p(m2 ) (j, i) > 0. L’entier d(i) divise m1 + m2 car p(m1 +m2 ) (i, i) ≥ p(m1 ) (i, j)p(m2 ) (j, i) > 0. De même d(i) divise m1 +m+m2 pour tout m ∈ {m : p(m) (j, j) > 0}. Alors m = m+m1 +m2 −(m1 +m2 ) = k1 d(i)−k2 d(i) = (k1 − k2 )d(i), ce qui montre que d(i) divise m pour tout m ∈ {m : p(m) (j, j) > 0}. Comme d(j) est le pgcd de {m : p(m) (j, j) > 0}, et que nous venons de montrer que d(i) est un commun diviseur des éléments de cet ensemble, on en déduit que d(i) ≤ d(j). Par symétrie, on a également d(j) ≤ d(i). 5.4 En partant de valeurs initiales pour les paramètres π0 = {P (∆1 = 1), . . . , P (∆1 = d)}′ , p(i, j) = P (∆t = j | ∆t−1 = i) ω = {ω(1), . . . , ω(d)}′ , l’algorithme consiste à répéter jusqu’à convergence les étapes suivantes : 1. Poser π1|0 = π0 et πt|t = π ⊙ φ(ǫt ) t|t−1 , 1′ πt|t−1 ⊙ φ(ǫt ) πt+1|t = P′ πt|t , 2. Calculer les probabilités lissées πt|n (i) ǫ1 , . . . , ǫn ) en utilisant πt−1|n (i) = d X p(i, j)πt−1|t−1 (i)πt|n (j) j=1 πt|t−1 (j) for t = 1, . . . , n. = P (∆t = i for t = n, n − 1, . . . , 2, | 177 et πt−1,t|n (i, j) = P (∆t−1 = i, ∆t = j | ǫ1 , . . . , ǫn ) à partir de πt−1,t|n (i, j) = p(i, j)πt−1|t−1 (i)πt|n (j) . πt|t−1 (j) 3. Remplacer les précédentes valeurs des paramètres par π0 π1|n , Pn Pn 2 ǫt πt|n (i) t=2 πt−1,t|n (i, j) p(i, j) = Pn et ω(i) = Pt=1 . n t=2 πt−1|n (i) t=1 πt|n (i) 5.5 La partie essentielle du code est la suivante : # une iteration de l’algorithm EM EM <- function(omega,pi0,p,y){ d<-length(omega) n <- length(y) # y contient les n observations vrais<-0 pit.t<-matrix(0,nrow=d,ncol=n) pit.tm1<-matrix(0,nrow=d,ncol=n+1) vecphi<-rep(0,d) pit.tm1[,1]<-pi0 for (t in 1:n) { for (j in 1:d) vecphi[j]<-{dnorm(y[t], mean=0,sd=sqrt(abs(omega[j])))} den<-sum(pit.tm1[,t]*vecphi) if(den<=0)return(Inf) pit.t[,t]<-(pit.tm1[,t]*vecphi)/den pit.tm1[,t+1]<-t(p)%*%pit.t[,t] vrais<-vrais+log(den) } pit.n<-matrix(0,nrow=d,ncol=n) pit.n[,n]=pit.t[,n] for (t in n:2) { for (i in 1:d) { pit.n[i,t-1]<- {pit.t[i,t-1]*sum(p[i,1:d]* pit.n[1:d,t]/pit.tm1[1:d,t])} } } pitm1et.n<-array(0,dim=c(d,d,n)) for (t in 2:n) { for (i in 1:d) { for (j in 1:d) { = 178 Solution des exercices pitm1et.n[i,j,t]<-p[i,j]*pit.t[i,t-1]*pit.n[j,t]/pit.tm1[j,t] } } } omega.final<-omega pi0.final<-pi0 p.final<-p for (i in 1:d) { omega.final[i]<-sum((y[1:n]^2)*pit.n[i,1:n])/sum(pit.n[i,1:n]) pi0.final[i]<-pit.n[i,1] for (j in 1:d) { p.final[i,j]<-sum(pitm1et.n[i,j,2:n])/sum(pit.n[i,1:(n-1)]) } } liss<-{list(probaliss=pit.n,probatransliss=pitm1et.n,vrais=vrais, omega.final=omega.final,pi0.final=pi0.final,p.final=p.final)} } 5.6 La dernière égalité du (2) de l’algorithme montre que πt−1,t|n (i0 , j0 ) = 0 pour tout t. Le point (3) montre alors que p(i0 , j0 ) ≡ 0 dans toutes les étapes de l’algorithme. 5.7 Considérons l’indice CAC 40 et l’indice SP 500 sur la période du 1 mars 1990 au 29 décembre 2006. Sur les rendements journaliers (en %), nous avons ajusté le modèle HMM (5.2)-(5.3) avec d = 4 régimes, en utilisant le code donné dans l’exercice 5.5. En prenant comme valeurs initiales des valeurs proches de celles de la table 5.1 pour d = 4 et q = 0, mais en prenant garde de ne mettre à zéro aucune probabilité de transition (voir l’exercice 5.6), on obtient après environ 60 itérations EM les valeurs estimées pour le SP 500 0.981 0.019 0.000 0.000 0.26 0.62 , P̂SP = 0.018 0.979 0.003 0.000 ω̂SP = 0.000 0.003 0.986 0.011 1.28 0.000 0.000 0.055 0.945 4.8 et pour le CAC 40 0.51 1.19 ω̂SP = 2.45 8.4 , P̂SP 0.993 0.003 = 0.000 0.004 Les probabilités estimées des régimes sont π̂SP = (0.30, 0.32, 0.32, 0.06)′, 0.003 0.991 0.020 0.000 0.002 0.003 0.977 0.032 0.002 0.003 . 0.003 0.963 π̂CAC = (0.26, 0.49, 0.19, 0.06)′, et les durées moyennes des 4 régimes - égales à 1/{1 − p(i, i)} - sont, en arrondissant, DSP = (53, 48, 71, 18)′, DCAC = (140, 107, 43, 27)′. 179 Ainsi quand le CAC reste en moyenne 27 jours dans le régime le plus volatile, à savoir le régime 4. La figure B.4 confirme que pour les 2 séries le régime le plus volatile est toujours le moins persistent, avec cependant une longue période de volatilité élevée entre le 27 juin 2002 et le 21 octobre 2002, soit 81 jours, pour le SP 500 et entre le 4 juin 2002 et le 8 novembre 2002, soit 113 jours, pour le CAC. Il est intéressant de constater que pour le modèle du SP 500 les transitions se font systématiquement d’un régime à un régime adjacent. Étant par exemple dans le régime 2, on peut soit rester dans ce régime ou alors aller dans le régime 1 ou 3, mais la probabilité p(2, 4) d’aller directement dans le régime 4 est nulle, approximativement. Le CAC peut par contre transiter brutalement du régime 2 au régime 4. 5.8 La représentation (2.16), z t = bt + A0t z t−1 , reste valide en posant 2 )′ ∈ Rp+q , z t = (ǫ2t , . . . , ǫ2t−q+1 , σt2 , . . . , σt−p+1 bt = (ω(∆t )ηt2 , 0, . . . , ω, 0, . . . , 0)′ ∈ Rp+q , α1 (∆t )ηt2 · · · αq (∆t )ηt2 β1 (∆t )ηt2 · · · βp (∆t )ηt2 Iq−1 0 0 At = α1 (∆t ) · · · αq (∆t ) β1 (∆t ) · · · βp (∆t ) 0 Ip−1 0 . La preuve du théorème 2.4 fonctionne parfaitement avec cette nouvelle suite (At ), ce qui montre qu’il existe une solution strictement stationnaire ssi l’exposant de Lyapounov de (At ) est strictement négatif. La solution est alors unique, non anticipative et ergodique, et prend la forme (2.18). 5.9 Le théorème 2.9 se généralise directement, et la condition nécessaire et suffisante de stricte stationnarité est γ := E∆,η log α(∆t )ηt2 + β(∆t ) = d X k=1 π(k)Eη log α(k)ηt2 + β(k) < 0. Dans le cas ARCH(1) à d régimes, on obtient la CNS d X k=1 π(k) log α(k) < −E log ηt2 . 5.10 Si (ǫt ) est une solution strictement stationnaire et non anticipative et si la 2 suite (∆t ) est iid alors α(∆t ) et β(∆t ) sont indépendants de ǫ2t−1 et de σt−1 . 2 2 Si en plus Eǫt < ∞ alors, en posant a(∆t , ηt ) = α(∆t )ηt + β(∆t ), on a Eǫ2t = Eσt2 = Eω(∆t ) + {Ea(∆t , ηt )} Eσt2 . 180 Solution des exercices Pour qu’il y ait une solution positive à cette équation il faut que Ea(∆t , ηt ) = Eα(∆t ) + Eβ(∆t ) = d X k=1 π(k) {α(k) + β(k)} < 1. Inversement, sous cette condition le processus ( )1/2 ∞ X ǫt = ω(∆t ) + a(∆t−1 , ηt−1 ) . . . a(∆t−i , ηt−i )ω(∆t−i−1 ) ηt i=1 est une solution strictement stationnaire et non anticipative qui vérifie ( ) ∞ X i Eǫ2t = Eω(∆t ) 1 + {Ea(∆t , ηt )} < ∞. i=1 5.11 Utilisant la relation élémentaire log x ≤ x − 1, on a (k+1) (k) (k) (k) 0 ≤ Q(θ(k+1) , π0 |θ(k) , π0 ) − Q(θ(k) , π0 |θ(k) , π0 ) Lθ(k+1) ,π(k+1) (ǫ1 , . . . , ǫn , e1 , . . . , en ) X 0 = log L (k) (ǫ1 , . . . , ǫn , e1 , . . . , en ) n θ (k) ,π (e1 ,...,en )∈E ≤ ×IPθ(k) ,π(k) (∆1 = e1 , . . . , ∆n = en | ǫ1 , . . . , ǫn ) 0 ( Lθ(k+1) ,π(k+1) (ǫ1 , . . . , ǫn , e1 , . . . , en ) X 0 Lθ(k) ,π(k) (ǫ1 , . . . , ǫn , e1 , . . . , en ) (e1 ,...,en )∈E n × = 0 0 −1 ) Lθ(k) ,π(k) (ǫ1 , . . . , ǫn , e1 , . . . , en ) 0 Lθ(k) ,π(k) (ǫ1 , . . . , ǫn ) 0 Lθ(k+1) ,π(k+1) (ǫ1 , . . . , ǫn ) − Lθ(k) ,π(k) (ǫ1 , . . . , ǫn ) 0 0 Lθ(k) ,π(k) (ǫ1 , . . . , ǫn ) , 0 d’où le résultat. 5.12 Il suffit de raisonner conditionnellement à des variables initiales ǫ20 , . . . , ǫ21−q , les équations (5.12), (5.9)-(5.10), (5.13)-(5.15), et (5.16)-(5.18) restent valables en remplaçant φk(ǫt ) par la densité φk (ǫt |ǫt−1 , . . . , ǫt−q ) d’une Pq 2 N 0, ω(k) + i=1 αi (k)ǫt−i (et en remplaçant la notation M(ǫt ) par M(ǫt |ǫt−1 , . . . , ǫt−q )). L’algorithme EM ne peut être généralisé simplement car la maximisation de (5.19) est remplacée par celle de a1 = a1 (ω, α, β) = d X n X i=1 t=1 log φi (ǫt |ǫt−1 , . . . , ǫt−q ) 1{∆t =i} , 181 n’a pas de solution explicite de la forme (5.22), mais nécessite l’utilisation d’un algorithme d’optimisation. 5.13 Il est utile de comparer les expressions de la volatilité en fonction du passé infini des ǫt et de ∆t . On supposera que les conditions d’existence de ces représentations sont vérifiées. Pour le modèle du cours (en notant ht la volatilité afin de la distinguer de celle de l’exercice) on a ht = ht (∆t ) = ω(∆t ) + α(∆t )ǫ2t−1 + β(∆t )ht−1 (∆t−1 ) et par suite ht = ω(∆t ) + α(∆t )ǫ2t−1 + ∞ X i=0 β(∆t ) . . . β(∆t−i ){ω(∆t−i−1 ) + α(∆t−i−1 )ǫ2t−i−2 } (c’est la variance de ǫt conditionnelle à son passé et à tout le passé (et présent) de ∆t ). Pour le modèle de l’exercice, 2 σt2 = σt2 (∆t ) = ω(∆t ) + α(∆t )ǫ2t−1 + β(∆t )σt−1 (∆t ) d’où σt2 (∆t ) = {1 − β(∆t )}−1 ω(∆t ) + α(∆t ) ∞ X β(∆t )i ǫ2t−i−1 i=0 (c’est la variance de ǫt conditionnelle à son passé et à ∆t ). Dans le deuxième cas la volatilité ne dépend, conditionnellement au passé de ǫt , que des coefficients du régime où la chaîne se trouve à la date t. Notons que dans le modèle du cours, la volatilité à la date t est reliée à celle à la date précédente, ht−1 (∆t−1 ). Dans le nouveau modèle il n’en est rien car 2 σt−1 (∆t ) ne s’interprète pas comme une variance conditionnelle. 182 Solution des exercices Première partie 5 −5 0 CAC 40 0 −5 5−Oct−92 28−Oct−97 26−Mar−93 (1) distribution de θ^ et θ(2) − θ(1) (losange) 10 12 ^ (1) Distribution de β − β(1)et β(2) − β(1) (ligne verticale) 4 6 densité 8 0.05 0.00 0 2 −0.05 CAC 40 5 Seconde partie ^ (1) − ω(1) ω ^ (1) − α(1) α ^ (1) β − β(1) −0.10 −0.05 0.00 0.05 0.10 Fig. B.3 – Le paramètre θ (1) (respectivement θ (2) ) est celui d’un GARCH(1,1) ajusté à la série des rendements de l’indice CAC 40 pour la période du 1 mars 1990 au 3 septembre 1998 (respectivement du 4 septembre 1998 au 29 décembre 2006). Les boîtes à moustaches représentent la distribution empirique des paramètres estimés θ̂ (1) de 100 simulations du modèle ajusté à la première partie du CAC. 183 0 −5 SP 500 5 Rendements du SP 500 15−Nov−91 27−Oct−97 4−Jan−00 19−Jul−02 0 −5 CAC 40 5 Rendements du CAC 40 19−Aug−91 17−Sep−98 11−Sep−01 Fig. B.4 – Rendements de l’indice CAC 40 et de l’indice SP 500 pour la période du 1 mars 1990 au 29 décembre 2006, avec ±2 fois l’écart-type du régime dont la probabilité lissée est maximale. Annexe C Problèmes ENSAE - 3ème année, DEA Mars 2004 Modèles GARCH et à volatilité stochastique Examen Durée : deux heures. Sans document. Problème : Soit (ηt ) une suite de variables indépendantes de même loi (iid), telle que E(ηt ) = 0, Var(ηt ) = 1, E(ηt4 ) = µ4 . Soit (at ) une suite de variables iid, indépendante de la suite (ηt ), prenant les valeurs 0 et 1, telle que P [at = 1] = p, On considère le modèle : P [at = 0] = 1 − p, 0 ≤ p ≤ 1. ∀t ∈ Z, ǫt = {σ1t at + σ2t (1 − at )}ηt , 2 2 σ1t = ω1 + α1 ǫ2t−1 , σ2t = ω2 + α2 ǫ2t−1 , (C.1) (C.2) αi ≥ 0, (C.3) où ωi > 0, i = 1, 2. On appelle non anticipatives les solutions telles que ǫt soit indépendante des variables futures ηt+h et at+h , h > 0. 1. Remarquer que le modèle contient l’ARCH(1) standard pour divers choix des paramètres que l’on précisera. 185 Quels types de trajectoires peut-on obtenir avec la spécification introduite ici ? 2. Afin d’obtenir une condition de stationnarité stricte écrire (C.2) sous la forme 2 2 σ1,t−1 σ1t ω1 Zt := = + At−1 (C.4) 2 2 σ2,t−1 σ2t ω2 où At−1 est une matrice fonction de ηt−1 , at−1 , α1 , α2 que l’on précisera. 3. En déduire une condition de stationnarité stricte du processus (Zt ), puis du processus (ǫt ) en fonction du coefficient de Lyapounov 1 γ = lim p.s. log kAt At−1 . . . A1 k t→∞ t de la suite (At ) (on justifiera l’existence de γ et on rappellera brièvement les étapes de la démonstration). Remarquer que At s’écrit comme le produit d’un vecteur colonne par un vecteur ligne. En déduire une expression simple de la condition de stationnarité stricte, en fonction d’une constante c que l’on précisera : α1p α21−p < c. Comment s’interprète cette condition ? 4. Donner une condition nécessaire d’existence d’une solution stationnaire au second ordre et non anticipative. On pourra admettre que cette condition implique la stationnarité stricte. En déduire que la condition nécessaire de stationnarité au second ordre est suffisante. Calculer la variance de ǫt . 5. On souhaite prévoir les valeurs futures de ǫt et de son carré. Exprimer en fonction de ǫt−1 les prévisions E(ǫt+h |ǫt−1 , ǫt−2 , . . .) et E(ǫ2t+h |ǫt−1 , ǫt−2 , . . .), pour h > 0. 6. Quel est le coefficient de kurtosis conditionnel de ǫt ? Existe-t-il un modèle ARCH standard dont (ǫt ) soit solution ? 7. En supposant la loi de ηt normale standard, écrire la vraisemblance du modèle. On décide d’estimer dans un premier temps un modèle ARCH(1) standard, puis le modèle (C.1)-(C.2). La série comporte 2000 observations. On admettra que les estimateurs sont asymptotiquement normaux. Les résultats sont présentés dans le tableau suivant (les écarts-types estimés sont entre parenthèses, Ln (·) désigne la vraisemblance) : Commenter ces résultats. Peut-on accepter le modèle général ? (on a P [χ2 (3) > 7.81] = 0.05). 8. Discuter l’estimation du modèle par MCO (facultatif). 186 Problèmes ω̂1 α̂1 ω̂2 α̂2 p̂ log Ln (θ̂) ARCH(1) 0.002 0.6 -1275.2 (0.001) (0.2) modèle (C.1)-(C.2) 0.001 0.10 0.005 1.02 0.72 -1268.2 (0.001) (0.03) (0.000) (0.23) (0.12) Eléments de corrigé 1. On obtient l’ARCH(1) standard pour α1 = α2 , ∀p, pour p = 0, ∀α1 , α2 et pour p = 1, ∀α1 , α2 . Les trajectoires sont susceptibles de présenter de brusques variations de volatilité (par exemple si ω1 et ω2 sont très différents). 2. On obtient l’équation (6) avec 2 2 α1 ηt−1 a2t−1 α1 ηt−1 (1 − a2t−1 ) At−1 = 2 2 α2 ηt−1 a2t−1 α2 ηt−1 (1 − a2t−1 ) 3. L’existence de γ suppose que E log+ kAt k < ∞. Cette condition P est réalisée car EkAt k < ∞, par exemple pour la norme définie par kAk = |aij |. La condition de stationnarité stricte s’obtient en suivant les étapes du cours, non reprises ici. On obtient γ < 0. Sous cette condition la solution strictement stationnaire de (6) s’écrit ! ∞ X ω1 Zt = I + At At−1 . . . At−i ω2 i=0 On remarque que At = Donc At At−1 = 2 ηt2 ηt−1 (α1 a2t At At−1 . . . A1 = η12 t−2 Y i=0 α1 ηt2 α2 ηt2 + α2 (1 − 2 ηt−i (α1 a2t−i (a2t a2t )) (1 − a2t )). + α2 (1 − α1 ηt2 α2 ηt2 (a2t−1 a2t−i )) α1 ηt2 α2 ηt2 (1 − a2t−1 )), (a20 (1 − a20 )), 187 kAt At−1 . . . A1 k = η12 t−2 Y i=0 α1 ηt2 (a20 α2 ηt2 2 ηt−i (α1 a2t−i +α2 (1−a2t−i )) (1 − a20 )) , car α1 et α2 sont positifs. Par suite, d’après la loi forte des grands nombres, t−1 t−2 1X 1X 2 log ηt−i + log(α1 a2t−i + α2 (1 − a2t−i )) t i=0 t i=0 α1 ηt2 1 2 2 + log (a (1 − a )) 2 0 0 α2 ηt t → E log ηt2 + E log(α1 a2t + α2 (1 − a2t )) 1 log kAt At−1 . . . A1 k = t presque sûrement quand t → ∞. La deuxième espérance vaut p log α1 + (1 − p) log α2 = log α1p α21−p . Par suite γ<0 ⇐⇒ α1p α21−p < exp{−E(log ηt2 )}. On constate que la condition est vérifiée même si l’un des coefficients, par exemple α1 , est grand, pourvu que la probabilité correspondante, p, ne soit pas trop grande. 4. Si (ǫt ) est stationnaire au second-ordre on a Eǫ2t = p(ω1 + α1 E(ǫ2t )) + (1 − p)(ω2 + α2 E(ǫ2t )). La condition nécessaire est donc α := pα1 + (1 − p)α2 < 1 et Var(ǫt ) = pω1 + (1 − p)ω2 . 1 − pα1 − (1 − p)α2 Inversement, supposons que cette condition est vérifiée et qu’elle implique γ < 0. On a α1 p α1 (1 − p) E(At ) = . α2 p α2 (1 − p) Cette matrice est de rang 1, admet donc une valeur propre nulle et une valeur propre non nulle égale à sa trace, c’est-à-dire à α. Ce coefficient, inférieur à 1 par hypothèse, est également le rayon spectral de E(At ). Par suite l’espérance de la solutionnaire stationnaire Zt définie plus haut est finie car EAt At−1 . . . At−i = {E(At )}i+1 . 188 Problèmes 5. E(ǫt+h |ǫt−1 , ǫt−2 , . . .) = 0. En remarquant que at (1 − at ) = 0 on a ǫ2t+h 2 = [{ω1 a2t+h + ω2 (1 − a2t+h )} + {α1 a2t+h + α2 (1 − a2t+h )}ǫ2t+h−1 ]ηt+h := ω̃t+h + α̃t+h ǫ2t+h−1 = ω̃t+h + α̃t+h ω̃t+h−1 + · · · + α̃t+h . . . α̃t+1 ω̃t + α̃t+h . . . α̃t ǫ2t−1 . En posant ω = E ω̃t et puisque α = E α̃t on en déduit que E(ǫ2t+h |ǫt−1 , . . .)) = ω(1 + α + · · · + αh ) + αh+1 ǫ2t−1 pour h > 0. 6. Le coefficient de Kurtosis conditionnel est égal à 4 4 E(ǫ4t |ǫt−1 , . . .) E(ηt4 ) pσ1t + (1 − p)σ2t = . 2 2 2 {E(ǫ2t |ǫt−1 , . . .)}2 {E(ηt2 )}2 (pσ1t + (1 − p)σ2t ) Il estdépendant de t en général, ce qui montre qu’il n’existe pas de GARCH standard solution de ce modèle (sauf dans les cas mentionnés en question 1.) 7. La densité conditionnelle de ǫt s’écrit ǫ2t 1 ǫ2t 1 exp − 2 + (1 − p) √ exp − 2 lt = p √ 2σ1t 2σ2t 2πσ1t 2πσ2t et la log-vraisemblance de l’échantillon est le produit des lt pour t allant de 1 à n. Les résultats d’estimation font apparaître des coefficients α1 et α2 estimés très différents. Par ailleurs le test du rapport de vraisemblance revient à comparer la différence des log-vraisemblances au quantile d’ordre 1 − α d’une loi du χ2 (3). On a 2 × (1275.2 − 1268.2) > 7.81 donc on ne peut rejeter le modèle général au seuil 95%. 189 ENSAE - 3ème année, DEA Mars 2005 Modèles GARCH et à volatilité stochastique Examen Durée : deux heures. Sans document. Problème : Soit (ηt ) une suite de variables indépendantes de même loi (iid), telle que E(ηt ) = 0. Quand E|ηt |m < ∞, on pose µm = Eηtm . Considérons le modèle t ∈ Z. ǫt = ηt + bηt ǫt−1 , (C.1) 1. Stationnarité stricte (a) Soit Zt,n = ηt + n X i=1 bi ηt ηt−1 · · · ηt−i . Montrer que si E ln |bηt | < 0 alors la suite (|Zt,n |)n≥1 converge presque sûrement. On pose alors Zt = ηt + ∞ X i=1 bi ηt ηt−1 · · · ηt−i . (b) Montrer que si E ln |bηt | < 0 alors l’équation (C.1) admet une solution strictement stationnaire non anticipative et ergodique. (c) On a ∞ 2 1 x ln |x| √ exp − dx = −0.635181. 2 2π −∞ Z En déduire la condition de stationnarité stricte quand ηt ∼ N (0, µ2). 2. Stationnarité au second ordre (a) A quelle condition (Zt,n )n est-elle une suite de Cauchy dans L2 ? (b) Montrer que b2 µ2 < 1 entraîne E ln |bηt | < 0. (c) Montrer que si b2 µ2 < 1 alors (ǫt ) = (Zt ) est la solution stationnaire au second ordre de (C.1). (d) On suppose que µ2 6= 0. Montrer que la condition b2 µ2 < 1 est également nécessaire pour l’existence d’une solution nonanticipative stationnaire au second ordre. 190 Problèmes 3. Propriétés des moments marginaux et conditionnels On suppose que b2 µ2 < 1 et que (ǫt ) est la solution stationnaire au second ordre de (C.1). (a) Montrer que (ǫt ) est un processus GARCH faible dont on précisera les ordres. (b) Comparer la variance conditionnelle de (ǫt ), avec celle d’un ARCH(1) fort. Le signe de ǫt−1 a-t-il un impact sur la volatilité à la date t ? Cette propriété est-elle intéressante pour les séries financières ? 4. Estimation On note b0 et µ02 la vraie valeur des paramètres b et µ2 . On suppose que b20 µ02 < 1 et que ǫ1 , . . . , ǫn est une réalisation stationnaire au second ordre du modèle (C.1). On pose ht = ht (b, µ2 ) = µ2 (1 + bǫt−1 )2 et h0t = ht (b0 , µ02 ). (a) Quelle est l’interprétation de νt = ǫ2t − h0t = (ηt2 − µ02 )(1 + b0 ǫt−1 )2 ? (b) On suppose que Eǫ4t < ∞. Montrer que, presque sûrement, n 2X νt (h0t − ht ) = 0. lim n→∞ n t=2 (c) On suppose que la loi de ǫt n’est pas concentrée en 1 ou 2 points (en particulier µ2 6= 0). Montrer que E(h0t − ht )2 = 0 si et seulement si b = b0 et µ2 = µ02 . (d) Sous les hypothèses précédentes, on considère le critère n 2 1 X 2 Qn (b, µ2 ) = ǫt − ht . n t=2 Montrer que, presque sûrement, lim Qn (b, µ2 ) ≥ lim Qn (b0 , µ02 ) n→∞ n→∞ avec égalité si et seulement si b = b0 et µ2 = µ02 . En déduire une méthode d’estimation des paramètres. (e) Décrire la méthode du quasi-maximum de vraisemblance. 5. Extension Sans rentrer dans le détail des démonstrations, étendre les résultats obtenus concernant la stationnarité et l’estimation au modèle ǫt = ηt + b1 ηt ǫt−1 + · · · + bq ηt ǫt−q , t ∈ Z. 191 Eléments de corrigé 1. (a) D’après la règle de Cauchy, il suffit de montrer que presque sûrement lim |bi ηt · · · ηt−i |1/i < 1. i→∞ Or d’après la loi des grands nombres, la limite précédente vaut ( !) i 1 X lim exp log |bηt−k | + log |ηt | = exp{E log |bηt |}, i→∞ i k=1 ce qui montre le résultat. (b) Pour tout n on a Zt,n = ηt + bηt Zt−1,n−1 . Par passage à la limite Zt = ηt + bηt Zt−1 , ce qui montre que (ǫt ) = (Zt ) est une solution non anticipative de (C.1). Comme Zt = f (ηt , ηt−1 , . . . ) (où f : R∞ → R est mesurable) et (ηt ) est stationnaire ergodique, (Zt ) est également stationnaire et ergodique. √ηt (c) On a E log µ2 = −0.635181. La condition de stationnarité s’écrit donc ou encore √ ηt ηt √ E log b µ2 √ = log |b µ2 | + E log √ < 0, µ2 µ2 |b| √ µ2 < exp {0.635181} = 1.88736. 2. (a) Pour n < m, on a E ( m X i=n bi ηt · · · ηt−i )2 = m X i=n b2i µi+1 →0 2 quand n, m → ∞ (i.e. la suite est de Cauchy) si et seulement si b2 µ2 < 1. (b) Si b2 µ2 < 1 alors, en utilisant l’inégalité de Jensen, on a 1 1 1 E log |bηt | = E log b2 ηt2 ≤ log Eb2 ηt2 = log b2 µ2 < 0. 2 2 2 192 Problèmes (c) Quand b2 µ2 < 1, on a vu que la suite (Zt,n )n était de Cauchy. Elle converge donc dans L2 vers une limite Z̃t . Elle converge également presque sûrement vers Zt . Donc Zt = Z̃t presque sûrement, et EZt2 < ∞. Pour montrer l’unicité de la solution, supposons qu’il existe deux solutions stationnaires au second ordre (Zt ) et (Zt∗ ). Alors, pour tout n ≥ 1, ∗ ∗ Zt − Zt∗ = bηt (Zt−1 − Zt−1 ) = bn ηt ηt−1 · · · ηt−n+1 (Zt−n − Zt−n ). D’après l’inégalité de Cauchy-Schwarz et l’inégalité triangulaire n/2 E|Zt − Zt∗ | ≤ |b|n µ2 {kZ1 k2 + kZ1∗ k2 } . Ceci étant vrai pour tout n, la condition b2 µ2 < 1 entraîne E|Zt − Zt∗ | = 0, ce qui implique Zt = Zt∗ presque sûrement. (d) Si ǫt est une telle solution alors Eǫ2t = µ2 + b2 µ2 Eǫ2t , c’est-à-dire 1 − b2 µ2 Eǫ2t = µ2 . Si b2 µ2 était > 1, le terme de gauche de l’inégalité précédente serait négatif, alors que le terme de droite est strictement positif. 3. (a) Une telle solution est nonanticipative et vérifie Eǫt = Eηt + bEηt Eǫt−1 = 0, µ2 Eǫ2t = , 1 − b2 µ2 Cov (ǫt , ǫt−h ) = 0, ∀h > 0. C’est donc un bruit blanc. Montrons que (ǫ2t ) est un ARMA. On a, pour k > 0, en utilisant l’indépendance entre ηt et ǫt−k et E(ηt2 ) = µ2 , Cov(ǫ2t , ǫ2t−k ) = Cov(ηt2 + 2bηt2 ǫt−1 + b2 ηt2 ǫ2t−1 , ǫ2t−k ) = 2bCov(ηt2 ǫt−1 , ǫ2t−k ) + b2 Cov(ηt2 ǫ2t−1 , ǫ2t−k ) = 2bµ2 Cov(ǫt−1 , ǫ2t−k ) + b2 µ2 Cov(ǫ2t−1 , ǫ2t−k ) Pour k > 1, Cov(ǫt−1 , ǫ2t−k ) = E(ǫt−1 ǫ2t−k ) = E(ηt−1 (1 + bǫt−2 )ǫ2t−k ) = 0. Par suite, pour k > 1, Cov(ǫ2t , ǫ2t−k ) = b2 µ2 Cov(ǫ2t−1 , ǫ2t−k ), 193 ce qui montre que (ǫ2t ) admet une représentation ARMA(1,1). Finalement, (ǫt ) admet une représentation GARCH(1,1) faible. (b) Pour notre modèle la volatilité est µ2 (1 + bǫt−1 )2 = µ2 + b2 µ2 ǫ2t−1 + 2bµ2 ǫt−1 tandis qu’elle est de la forme ω + αǫ2t−1 pour un ARCH(1). Le signe de ǫt−1 est donc important. Si b < 0, un rendement ǫt−1 négatif fera plus augmenter la volatilité que le rendement −ǫt−1 > 0. Une telle asymétrie des chocs est observée sur les séries réelles, mais n’est pas prise en compte par un modèle GARCH standard. 4. (a)Puisque h0t est l’espérance conditionnelle de ǫ2t sachant le passé de ǫt , νt est l’innovation forte de ǫ2t . (b) Le processus {νt (h0t − ht )}t est stationnaire ergodique, d’après des arguments déjà utilisés. Le théorème ergodique entraîne n 2X νt (h0t − ht ) = E(ηt2 − µ02 )Eh0t (h0t − ht ) = 0 p.s. n→∞ n t=2 lim car h0t (h0t − ht ) est indépendante de (ηt2 − µ02 ), comme fonction mesurable de {ηu , u ≤ t − 1}. (c) On a E(h0t − ht )2 = 0 si et seulement si h0t − ht = (µ02 b20 − µ2 b2 )ǫ2t−1 + 2(µ02 b0 − µ2 b)ǫt−1 + (µ02 − µ2 ) = 0 p.s. Cette équation du second degré en ǫt−1 (ou en ǫt par stationnarité) admet une solution si et seulement si les coefficients sont nuls, c’est-à-dire ssi b = b0 et µ2 = µ02 . (d) En utilisant les deux dernières questions, presque sûrement, n 2 1 X 2 lim Qn (b, µ2 ) = lim ǫt − h0t + h0t − ht n→∞ n→∞ n t=2 = ≥ lim Qn (b0 , µ02 ) + E(h0t − ht )2 + 0 n→∞ lim Qn (b0 , µ02 ) n→∞ avec égalité si et seulement si b = b0 et µ2 = µ02 . Ceci suggère de rechercher une valeur de b, µ2 qui minimise le critère Qn (b, µ2 ). C’est la méthode des moindres carrés. 194 Problèmes (e) Si ηt est de loi normale N (0, µ02) alors la loi de ǫt sachant {ǫu , u < t} est N (0, h0t ). Etant donnée la valeur initiale ǫ1 , la quasi-log vraisemblance de ǫ2 , . . . , ǫn est donc n n 1X ǫ2t Ln (b, µ2 ) = − log 2π − log ht (b, µ2 ) + . 2 2 t=2 ht (b, µ2 ) Un estimateur du quasi-maximum de vraisemblance (QMV) satisfait (b̂, µ̂2 ) = arg max Ln (b, µ2 ), (b,µ2 )∈Θ où Θ ⊂ R×]0, ∞[ est l’espace des paramètres. Si Θ est supposé compact, puisque le critère est continu, il existe toujours au moins un estimateur QMV. 195 ENSAE - 3ème année, DEA Janvier 2006 Modèles GARCH et à volatilité stochastique Durée : deux heures. Sans document. Problème : On considère le modèle : ǫt = σt ηt 2 σt2 = ω(ηt−1 ) + αǫ2t−1 + βσt−1 (C.1) où (ηt ) est une suite de variables iid (indépendantes de même loi), centrées, de variance 1 et admettant des moments à l’ordre 4 au moins ; ω(·) est une fonction à valeurs strictement positives. On pose ω = E{ω(ηt )}. Pour tout processus (Xt ), on note Xt−1 la tribu engendrée par les variables Xt−i , i > 0. 1. Expliquer brièvement en quoi le modèle diffère du GARCH(1, 1) classique et quel peut être son intérêt pour la modélisation des séries financières. Un exemple de trajectoire obtenue en simulant ce modèle est donnée en fin d’énoncé. 2. Stationnarité stricte (a) Montrer, de manière détaillée, que sous l’hypothèse E log a(ηt ) < 0, où a est une fonction que l’on précisera, le modèle admet une unique solution strictement stationnaire non anticipative. (b) Montrer que si E log a(ηt ) > 0, le modèle n’admet pas de solution strictement stationnaire. 3. Stationnarité au second-ordre, Kurtosis (a) Etablir la condition nécessaire et suffisante de stationnarité au secondordre et calculer E(ǫ2t ). En déduire que le processus a les mêmes propriétés du second-ordre qu’un GARCH(1,1) standard (i.e. avec ω(·) constante) que l’on précisera. (b) En admettant que les moments d’ordre 4 existent, comparer les coefficients de Kurtosis de ces processus. Commenter. 4. Asymétries Donner un exemple de spécification de ω permettant de prendre en compte la propriété d’asymétrie usuelle pour les séries financières. 196 Problèmes 5. Représentation ARMA (a) On note νt = ǫ2t − E[ǫ2t | ǫt−1 ] l’innovation de ǫ2t . Montrer, en précisant les hypothèses nécessaires, que ǫ2t = ω + (α + β)ǫ2t−1 + ut , où ut = νt − βνt−1 + ω(ηt−1 ) − ω. (b) Montrer que (ut ) est un processus MA(1). En déduire que ǫ2t admet une représentation ARMA(1,1). Diffère-t-elle de celle obtenue pour le GARCH(1, 1) standard obtenu pour ω(ηt−1 ) = ω (on pourra considérer le cas β = 0) ? 6. Estimation et tests (a) Remarquer, à l’aide de la question 5, que la fonction d’autocorrélation ρ(h) du processus (ǫ2t ) vérifie : ρ(h) = αρ(h − 1), pour h > 1. En déduire un estimateur simple de α quelle que soit la spécification de ω. Les valeurs suivantes ont été obtenues pour les premières autocorrélations empiriques de (ǫ2t ) : ρ̂(1) = 0.445, ρ̂(2) = 0.219, ρ̂(3) = 0.110, ρ̂(4) = 0.056. Proposer une estimation de α. Un modèle ARCH(1) standard (β = 0 et ω constante) est-il plausible pour ces données ? (b) On suppose la fonction ω(·) paramétrée à l’aide d’un paramètre γ : par 2 exemple ω(ηt−1 ) = 1 + γηt−1 avec γ > 0. Il s’agit d’estimer θ = (γ, α, β)′ à partir d’observations ǫ1 , . . . , ǫn . Ecrire le critère du quasi-maximum de vraisemblance, à partir de valeurs initiales pour les variables antérieures à la date 1. 7. Extension Examiner, sans rentrer dans les détails, comment sont modifiés les résultats des questions précédentes si l’on remplace ω(ηt−1 ) par ω(ηt−k ), avec k > 1, dans le modèle (C.1). 197 5 5 20 -5 -10 40 60 80 100 20 40 60 80 100 -5 -10 Fig. C.1 – Simulations du modèle (C.1) avec α = 0.2, β = 0.5 et ω(ηt−1 ) = 4 4 (figure de gauche), ω(ηt−1 ) = 1 + ηt−1 (figure de droite), pour la même suite de variables ηt ∼ N (0, 1).