Modèles GARCH et à volatilité stochastique

Transcription

Modèles GARCH et
à volatilité stochastique1
Christian FRANCQ
Jean-Michel ZAKOÏAN
14 décembre 2009
1 Correction
des exercices sur http://perso.univ-lille3.fr/~cfrancq
Chapitre 1
Introduction
Les modèles linéaires occupent une place centrale dans la théorie et le traitement
des séries temporelles. Ils s’appuient sur des concepts tels que la stationnarité,
l’autocovariance, l’innovation dont nous rappelons, dans ce chapitre, les principales
propriétés et utilisations.
Nous noterons (Ω, F , P ) un espace probabilisé, sur lequel nous considérerons une
suite de variables aléatoires réelles (Xt )t∈Z . Une telle suite est appelée série temporelle et constitue un exemple de processus stochastique à temps discret.
1.1
Processus stationnaires
La stationnarité joue un rôle majeur en séries temporelles car elle remplace de
manière naturelle l’hypothèse d’observations iid (indépendantes et identiquement
distribuées) en statistique standard. Garantissant que l’accroissement de la taille
de l’échantillon s’accompagne d’une augmentation du même ordre de l’information,
la stationnarité est à la base d’une théorie asymptotique générale.
On considère généralement deux notions de stationnarité.
Définition 1.1 (Stationnarité stricte) Le processus (Xt ) est dit strictement
stationnaire si les vecteurs (X1 , . . . , Xk )′ et (X1+h , . . . , Xk+h )′ ont même loi jointe,
pour tout entier k et tout entier relatif h.
La notion suivante peut sembler moins exigeante car elle n’impose de contraintes
qu’aux deux premiers moments des variables Xt , mais contrairement à la stationnarité stricte, elle requiert l’existence de ceux-ci.
3
1.1 Processus stationnaires
Définition 1.2 (Stationnarité au second-ordre) Le processus (Xt ) est dit
stationnaire au second-ordre si
(i) EXt2 < ∞ ∀t ∈ Z,
(ii) EXt = m
∀t ∈ Z,
(iii) Cov(Xt , Xt+h ) = γ(h) ∀t, h ∈ Z.
La fonction γ(·) (resps. ρ(·) := γ(·)/γ(0)) est appelée fonction d’autocovariance
(resp. d’autocorrélation) de (Xt ).
L’exemple le plus simple de processus stationnaire au second-ordre est celui du
bruit blanc. Ce processus est particulièrement important car il permet de construire
des processus stationnaires plus complexes.
Définition 1.3 (Bruit blanc faible) Le processus (ǫt ) est appelé bruit blanc
faible s’il vérifie, pour une constante positive σ 2 :
(i) Eǫt = 0 ∀t ∈ Z,
(ii) Eǫ2t = σ 2
∀t ∈ Z,
(iii) Cov(ǫt , ǫt+h ) = 0
∀t, h ∈ Z, h 6= 0.
Remarque. Il importe de noter qu’aucune hypothèse d’indépendance n’est faite
dans la définition du bruit blanc faible. Les variables aux différentes dates sont
seulement non corrélées et la distinction est cruciale en particulier pour les modèles
de séries financières. Il est parfois nécessaire de remplacer l’hypothèse (iii) par
l’hypothèse plus forte
(iii’) les variables ǫt et ǫt+h sont indépendantes.
On parle alors de bruit blanc fort.
Estimation des autocovariances
La théorie classique des séries temporelles est centrée sur la structure du secondordre des processus. Les processus stationnaires gaussiens sont complètement caractérisés par leur moyenne et leur fonction d’autocovariance. Pour les processus
non gaussiens, il est fréquent, à partir d’une réalisation de longueur n de la série,
soit X1 , . . . , Xn , de chercher à estimer la fonction d’autocovariance du processus
sous-jacent afin d’avoir une première idée de sa structure de dépendance temporelle. Cette étape est préliminaire à toute construction d’un modèle approprié. On
4
Introduction
utilise généralement pour estimer γ(h), l’autocovariance empirique définie, pour
0 ≤ h < n par
n−h
γ̂(h) =
1X
(Xj − X)(Xj+h − X) := γ̂(−h),
n j=1
P
où X = 1/n nj=1 Xj désigne la moyenne empirique. On définit de manière analogue la fonction d’autocorrélation empirique par ρ̂(h) = γ̂(h)/γ̂(0) pour |h| < n.
Les estimateurs précédents sont biaisés mais asymptotiquement sans biais.
Il existe d’autres estimateurs similaires de la fonction d’autocovariance pos-sédant les mêmes propriétés asymptotiques (par exemple en remplaçant 1/n par
1/(n − h)). Cet estimateur peut cependant être préféré à d’autres car la matrice
(γ̂(i − j)) est semi-définie positive (cf Brockwell et Davis (1991), p.221).
Bien que définie pour |h| < n, la fonction d’autocovariance empirique fournit
évidemment un estimateur très pauvre de γ(h) pour des valeurs de h proches de
n. Box et Jenkins (1994), p.32, recommandent à titre indicatif de n’utiliser ces
quantités que si n > 50 et pour h ≤ n/4.
Il est souvent important (par exemple pour la sélection de modèles) de déterminer
si les autocovariances empiriques sont significativement différentes de zéro au-delà
d’un certain rang. Pour cela il est nécessaire d’estimer la structure de covariance
de ces autocovariances empiriques. On a le résultat suivant (voir par exemple
Brockwell et Davis (1991), p. 226)
Théorème 1.1 Si (Xt ) est un processus linéaire, c’est à dire s’il satisfait
Xt =
∞
X
φj ǫt−j
j=−∞
où (ǫt ) est une suite de variables iid, telles que
E(ǫt ) = 0,
et où
P∞
j=−∞
E(ǫ2t ) = σ 2 ,
E(ǫ4t ) = ησ 4 < ∞
|φj | < ∞, on a les formules de Bartlett :
lim nCov{γ̂(h), γ̂(k)} = (η − 3)γ(h)γ(k)
n→∞
+
∞
X
i=−∞
γ(i)γ(i + k − h) + γ(i + k)γ(i − h).
(1.1)
5
1.2 Modèles ARMA et ARIMA
Les hypothèses du théorème sont contraignantes car elles requièrent que le bruit
(ǫt ) soit fort. Des extensions (permettant de relâcher l’hypothèse de linéarité)
ont été proposées mais en supposant nuls tous les cumulants d’ordre 4 (le terme
(η −3)γ(h)γ(k) disparaît alors). Pour de nombreux processus non linéaires (en particulier les processus ARCH étudiés dans la suite du cours), la covariance asymptotique des autocovariances peut être très différente de (1.1) et l’utilisation des
formules de Bartlett (1.1) peut conduire à des erreurs de spécification (voir chapitre 3).
1.2
Modèles ARMA et ARIMA
L’analyse classique des séries temporelles repose sur la construction de modèles du
processus stochastique sous-jacent. Celui-ci est ensuite utilisé d’un point de vue
statistique, que ce soit pour analyser la structure “causale” du processus ou pour
produire des prévisions “optimales”.
Une classe très importante de modèles utilisés pour la prévision des processus
stationnaires est celle des AutoRégressifs-Moyenne Mobile (ARMA). Ceux-ci découlent naturellement d’un résultat fondamental dû à Wold (1938) qui peut s’énoncer comme suit : tout processus “purement non déterministe” 1 , stationnaire au
second ordre et tel que E(Xt ) = 0, admet une écriture moyenne mobile infinie
Xt = ǫt +
∞
X
ci ǫt−i ,
(1.2)
i=1
où (ǫt ) est le processus des innovations linéaires de (Xt ), c’est à dire
ǫt = Xt − E(Xt |HX (t − 1)),
(1.3)
où HX (t − 1) désigne l’espace de Hilbert engendré par les
aléatoires
P variables
2
2
Xt−1 , Xt−2 , . . . . La suite de coefficients (ci ) est telle que i ci < ∞.
Si maintenant on tronque la série précédente, on obtient le processus suivant
Xt (q) = ǫt +
q
X
ci ǫt−i .
i=1
1
T∞ Un processus stationnaire (Xt ) est dit purement non déterministe si et seulement si
n=−∞ HX (n) = {0}, où HX (n) désigne, dans l’espace de Hilbert des variables réelles centrées et de carré intégrable, le sous-espace engendré par les limites des combinaisons linéaires des
variables Xn−i , i ≥ 0. Voir Brockwell et Davis (1991), p.187-189, pour plus de détails.
2
Dans cette écriture, on identifie la classe d’équivalence E(Xt |HX (t − 1)) avec une variable
aléatoire.
6
Introduction
appelé moyenne-mobile
(moving average) d’ordre q, ou MA(q). On a kXt (q) −
P
2
2
2
Xt k2 = Eǫt i>q ci → 0, quand q → ∞. Par suite, l’ensemble des moyennes
mobiles finies est dense dans l’ensemble des processus stationnaires au second
ordre purement non déterministes. Pour des raisons de parcimonie, on préfère aux
pures moyennes mobiles la classe plus générale des autorégressifs- moyenne mobile
(ARMA) qui permettent le plus souvent d’obtenir la même précision en utilisant
moins de paramètres.
Définition 1.4 (Processus ARMA(p, q)) Un processus stationnaire (Xt ) est
appelé processus ARMA(p, q) où p et q sont des entiers, si il existe des réels
a1 , . . . , ap , b1 , . . . , bq tels que
∀t ∈ Z,
Xt +
p
X
i=1
ai Xt−i = ǫt +
q
X
bj ǫt−j ,
(1.4)
j=1
où (ǫt ) est le processus des innovations linéaires de (Xt ).
On suppose généralement P
que les polynômes autorégressif
et moyenne mobile, resP
pectivement a(z) = 1 + pi=0 ai z i et b(z) = 1 + qi=0 bi z i n’ont pas de racine
commune et que leurs racines sont de module supérieur à 1. L’intérêt principal de
cette modélisation et des représentations obtenues en inversant successivement les
polynômes a(·) et b(·), est de permettre de calculer les prévisions linéaires optimales du processus de manière beaucoup plus simple que sous la seule hypothèse
de stationnarité au second-ordre.
Pour des raisons de commodité statistique, les modèles ARMA sont généralement
utilisés sous des hypothèses plus fortes sur le bruit que celles de bruit blanc faible.
On parle ainsi de modèle ARMA fort lorsque, dans la définition précédente, on fait
sur ǫt une hypothèse de bruit blanc fort (indépendant). Cette hypothèse supplémentaire permet en particulier de développer les méthodes d’inférence fondées sur
la vraisemblance, mais elle restreint dramatiquement la généralité de la classe des
processus ARMA. En effet, l’hypothèse d’ARMA fort revient à supposer que (i)
les prévisions optimales du processus sont linéaires ((ǫt ) étant l’innovation forte de
(Xt )) et (ii) les intervalles de confiance des prévisions ont une amplitude fonction
de l’horizon mais non des observations elles-mêmes. Nous verrons dans la partie
suivante que cette conséquence peut être désastreuse, en particulier concernant les
séries financières.
Terminons cette partie par la propriété caractéristique suivante, donnée ici sans
démonstration (voir Brockwell et Davis (1991), p.89-90), que nous utiliserons par
la suite.
7
1.3 Séries financières
Théorème 1.2 Si (Xt ) est un processus stationnaire au second-ordre, centré, tel
que
p
X
γ(h) +
ai γ(h − i) = 0, si |h| > q,
i=1
alors (Xt ) est un processus ARMA(p, q) vérifiant (1.4).
1.3
Séries financières
La modélisation des séries financières est un problème complexe. Cette complexité
n’est pas seulement due à la grande variété des séries utilisées (prix d’action,
taux d’intérêt, taux de change etc.), à l’importance de la fréquence d’observation
(seconde, minute, heure, jour, etc) ou à la disponibilité d’échantillons de très grande
taille. Elle tient surtout à l’existence de régularités statistiques (‘faits stylisés’)
communes à un très grand nombre de séries financières et difficiles à reproduire
artificiellement à partir de modèles stochastiques.
Dans un article paru en 1963, Mandelbrot mettait en évidence un ensemble de
telles propriétés. Ces régularités empiriques, vérifiées et complétées depuis par
de nombreux auteurs, apparaissent plus ou moins nettement en fonction de la fréquence d’observation de la série et de sa nature. Les propriétés que nous présentons
ci-dessous valent surtout pour des séries quotidiennes de prix d’action.
Soit pt le cours d’un actif à la date t et ǫt = log(pt /pt−1 ) le logarithme du rendement
(également appelé rendement). La série (ǫt ) est souvent proche de celle décrivant
t−1
les variations relatives des prix : rt = ptp−p
, soit ǫt = log(1 + rt ). Ces deux
t−1
séries présentent sur celle des prix l’avantage d’être sans unité, ce qui facilite les
comparaisons entre plusieurs titres. Les propriétés suivantes ont été abondamment
commentées dans la littérature financière.
(i) Non stationnarité de pt . Les trajectoires de prix sont généralement proches
de celle d’une marche aléatoire sans terme constant (voir par exemple la série de
l’indice CAC représentée figure 1.1). En revanche les séries de rendements ont des
trajectoires apparemment compatibles avec la stationnarité au second ordre. On
constate par exemple sur les figures 1.2 à 1.3 que la série ǫt = log(pt /pt−1 ), où
pt désigne le cours de l’indice CAC, est constituée d’oscillations autour de zéro,
d’amplitudes très différentes d’une date à l’autre mais de module moyen constant
sur des sous-périodes suffisamment longues.
(ii) Autocorrélations des carrés des variations de prix. On constate que la série (ǫt )
présente de très faibles autocorrélations, la rendant proche d’un bruit blanc. En revanche les séries des carrés (ǫ2t ) ou des valeurs absolues (|ǫt |) sont souvent fortement
8
4000
2000
3000
prix
5000
6000
7000
Introduction
19/Aug/91
11/Sep/01
21/Jan/08
0
−5
−10
Rendements
5
10
Fig. 1.1 – Indice CAC 40 sur la période 01/03/1990-15/10/2008 (4702 observations).
19/Aug/91
11/Sep/01
21/Jan/08
Fig. 1.2 – Rendements de l’indice CAC 40 (02/03/1990-15/10/2008).
9
autocorrélées (voir la figure 1.4). Ces deux propriétés ne sont pas incompatibles
mais montrent que le bruit blanc n’est pas indépendant.
(iii) Regroupement des extrêmes (volatility clustering). Les grandes valeurs de |ǫt |,
ou fortes variations de prix, tendent à être suivies de grandes valeurs, et les petites
de petites. Cette propriété se voit souvent à l’oeil nu sur les trajectoires (voir figure 1.3). On remarque des sous-périodes de forte agitation des prix (on dit que le
marché est plus volatil), suivies de sous-périodes beaucoup plus calmes (on parle
de faible volatilité). Comme ces sous-périodes sont récurrentes mais se succèdent
de façon non périodiques, ceci ne signifie pas que la suite des rendements est incompatible avec un processus stationnaire, et donc en particulier homoscédastique
(c’est-à-dire de variance marginale constante). En revanche, puisqu’une forte valeur
de ǫ2t−1 semble augmenter la probabilité d’observer une forte valeur pour ǫ2t (avec
un signe aussi bien positif que négatif pour ǫt ), la variance de ǫt conditionnellement
à ses valeurs passées (parfois appelée volatilité) ne semble pas constante. C’est un
phénomène connu sous le nom d’hétéroscédasticité conditionnelle (variance conditionnelle non constante). Il est important de savoir que l’hétéroscédasticité conditionnelle n’est pas incompatible avec l’homoscédasticité marginale, ni même avec
la stationnarité.
0
−5
−10
Rendements
5
10
(iv) Queues de distribution épaisses. Lorsque l’on considère les distributions de
21/Jan/08
06/Oct/08
Fig. 1.3 – Rendements de l’indice CAC 40 (02/01/2008-15/10/2008).
10
Introduction
probabilité empiriques de séries de rendements, ou de variations de prix, ou encore
du logarithme de ces variations de prix, on s’aperçoit généralement que celles-ci ne
correspondent pas à une distribution gaussienne. Les tests classiques de normalité
tendent à rejeter nettement l’hypothèse d’une distribution normale. Plus précisément, les densités de probabilité de ces séries présentent des queues épaisses (à
décroissance plus lente que exp(−x2 /2)) et des pics en zéro (voir la figure 1.5) :
elles sont dites leptokurtiques. Une mesure de cet effet est obtenue à partir du
coefficient de kurtosis, rapport du moment empirique centré d’ordre 4 et du carré
de la variance empirique, qui est asymptotiquement égal à 3 dans le cas gaussien
0.2
0.0
−0.2
ACRE
0.4
Autocorrélations empiriques (ACRE) des rendements
0
5
10
15
20
25
30
35
30
35
Retard
0.2
0.0
−0.2
ACRE
0.4
ACRE des carrés des rendements
0
5
10
15
20
25
Retard
Fig. 1.4 – Autocorrélations empiriques (ACRE) des rendements et des carrés des rendements de l’indice CAC 40 (02/01/2008-15/10/2008).
11
et est nettement supérieur pour ces séries.
0.2
0.0
0.1
Densité
0.3
(v) Effets de levier. On nomme ainsi une propriété, remarquée par Brock (1976),
d’asymétrie de l’impact des valeurs passées positives et négatives sur la volatilité de
la date courante. Ainsi, les valeurs négatives (baisses du cours) tendent à provoquer
un accroissement de volatilité supérieur à celui induit par des valeurs positives
(hausses des cours) de même amplitude. Empiriquement, on observe souvent une
corrélation positive entre ǫ+
t = max(ǫt , 0) et |ǫt+h | (une hausse des rendements
laisse présager une hausse des volatilités futures), mais, comme le montre par
exemple le tableau 1.1, cette corrélation est généralement moins forte que celle
que l’on observe entre −ǫ−
t = max(−ǫt , 0) et |ǫt+h | (car une baisse des rendements
induit souvent plus de volatilité qu’une hausse).
−10
−5
0
5
10
Fig. 1.5 – Estimateur de la densité des rendements du CAC 40 (trait plein) et densité normale ayant pour paramètres la moyenne empirique et la variance empirique des
rendements (trait en pointillé).
12
Introduction
Tab. 1.1 – Autocorrélations empiriques des rendements ǫt du CAC 40, autocorrélations des valeurs absolues |ǫt |, corrélations empiriques entre ǫ+
t−h et |ǫt |, et
−
corrélations empiriques entre −ǫt−h et |ǫt |
h
1
2
3
4
5
6
7
ρ̂ǫ (h)
-0.012 -0.014 -0.047 0.025 -0.043 -0.023 -0.014
ρ̂|ǫ| (h)
0.175 0.229 0.235 0.200 0.218 0.212 0.203
ρ̂(ǫ+
,
|ǫ
|)
0.038
0.059 0.051 0.055 0.059 0.109 0.061
t
t−h
−
ρ̂(−ǫt−h , |ǫt |) 0.160 0.200 0.215 0.173 0.190 0.136 0.173
−
On utilise les notations ǫ+
t = max(ǫt , 0) et ǫt = min(ǫt , 0).
(vi) Saisonnalités. Lorsque les marchés ne fonctionnent pas (week-ends, fêtes) la
volatilité tend à augmenter, reflètant ainsi l’information accumulée pendant cet
arrêt. Pourtant, on constate souvent que cette hausse est moins forte que si l’information s’accumulait à vitesse constante. Notons enfin que l’effet saisonnier est
également très présent pour les séries “intra-day”.
1.4
Modèles à variance (conditionnelle) aléatoire
Les propriétés précédentes illustrent la difficulté de modéliser les séries financières.
Les formulations classiques (de type ARMA) sont inappropriées car centrées sur
la structure d’autocovariance des processus. Or, de ce point de vue, la plupart des
séries de rendements ne diffèrent guère des bruits blancs.
Le fait que les grandes valeurs des carrés des rendements soient généralement
précédées de grandes valeurs (indépendamment du signe des rendements) est difficilement compatible avec une variance conditionnelle constante. Ce phénomène
est connu sous le nom d’hétéroscédasticité conditionnelle :
Var(ǫt | ǫt−1 , ǫt−2 , . . . ) 6≡ cste.
De même que de nombreux processus stationnaires au second-ordre ont une espérance conditionnelle non constante, l’hétéroscédasticité conditionnelle est parfaitement compatible avec la stationnarité (au sens strict ou au second ordre). Les
processus GARCH étudiés dans ce livre illustreront abondamment ce point.
Les modèles introduits dans la littérature économétrique afin de prendre en compte
les propriétés particulières des séries financières (variations de prix ou du logarithme des prix, taux d’intérêt etc.) se présentent généralement sous la forme
multiplicative
ǫt = σt ηt
(1.5)
13
1.4 Modèles à variance (conditionnelle) aléatoire
où (ηt ) est un processus iid centré de variance unité et (σt ) est une suite de variables
telles que :
i) σt est mesurable par rapport à une tribu, notée Ft−1 engendrée par le passé de
ǫt et, éventuellement, par le présent et le passé d’un processus latent (i.e. inobservable) noté (vt ) ;
ii) ηt est indépendant de Ft−1 ;
iii) σt > 0.
La variable aléatoire σt est appelée volatilité de ǫt . Ainsi, le signe de la variation de
prix (signe de ǫt ) est celui de ηt , indépendamment des variations de prix passées.
Remarquons dès maintenant que (sous réserve d’existence)
E(ǫt ) = E(σt )E(ηt ) = 0
et
Cov(ǫt , ǫt−h ) = E(ηt )E(σt ǫt−h ) = 0,
∀h > 0
ce qui fait de (ǫt ) un bruit blanc. La série des carrés présente en revanche des
autocovariances non nulles, en général : (ǫt ) n’est donc pas un bruit blanc fort.
Les différentes classes de modèles diffèrent par la spécification adoptée pour σt .
On distingue
- les processus conditionnellement hétéroscédastiques (ou de type GARCH, voir
chapitre 2) pour lesquels Ft−1 = σ(ǫs ; s < t) est la tribu engendrée par le passé
de ǫt . La volatilité est ici fonction déterministe du passé de ǫt . Les processus de
cette classe diffèrent par le choix d’une spécification de cette fonction. Les modèles
GARCH standard sont caractérisés par une volatilité fonction affine des valeurs
passées de ǫ2t . Ils seront étudiés en détail dans le chapitre 2.
- les processus dits à volatilité stochastique pour lesquels Ft−1 est la tribu engendrée
par {vt , vt−1 , . . .}, où (vt ) est un bruit blanc fort indépendant de (ηt ). Dans ces
modèles, la volatilité est elle-même un processus latent. Le modèle le plus étudié
dans cette classe repose sur l’hypothèse que le processus log σt suit un AR(1) de
la forme :
log σt = ω + φ log σt−1 + vt .
où le bruit (vt ) est supposé indépendant de (ηt ). Ils feront l’objet du chapitre 3.
- les processus dits à changement de régime stochastique pour lesquels σt =
σ(∆t , Ft−1 ), où (∆t ) est un processus latent (inobservable) indépendant de (ηt ).
L’état de la variable ∆t est ici assimilable à un régime et, conditionnellement à cet
état, la volatilité du processus ǫt est spécifiée comme celle d’un processus GARCH.
Le processus (∆t ) est généralement modélisé par une chaîne de Markov à espace
d’états fini. On parle alors de modèles à changement de régime markovien. L’étude
de cette classe sera effectuée au chapitre 4.
14
1.5
Introduction
Exercices
1.1 (Stationnarité, modèles ARMA, bruits blancs)
Soit (ηt ) une suite de variables iid centrées et de variance 1 (et si nécessaire
de moment d’ordre 4 fini).
1. Les modèles suivants admettent-ils une solution stationnaire ? Si oui
déterminer l’espérance et la fonction d’autocorrélation de cette solution.
(a) Xt = 1 + 0.5Xt−1 + ηt ;
(b) Xt = 1 + 2Xt−1 + ηt ;
(c) Xt = 1 + 0.5Xt−1 + ηt − 0.4ηt−1 .
2. Identifier les modèles ARMA compatibles avec les relations de récurrence suivantes, où ρ(·) désigne la fonction d’autocorrélation :
(a) ρ(h) = 0.4ρ(h − 1),
∀h > 2 ;
(c) ρ(h) = 0.2ρ(h − 2),
∀h > 1.
(b) ρ(h) = 0,
∀h > 3 ;
3. Vérifier que les processus suivants sont des bruits blancs et préciser s’il
s’agit de bruits faibles ou forts.
(a) ǫt = ηt2 − 1 ;
(b) ǫt = ηt ηt−1 ;
1.2 (Une propriété de la somme des autocorrélations empiriques)
Soit
n−h
1X
γ̂(h) = γ̂(−h) =
(Xt − X n )(Xt+h − X n ),
n t=1
h = 0, . . . , n − 1
les autocovariances d’observations réelles quelconques X1 , . . . , Xn . Posons
ρ̂(h) = ρ̂(−h) = γ̂(h)/γ̂(0) pour h = 0, . . . , n − 1. Montrer que
n−1
X
1
ρ̂(h) = − .
2
h=1
1.3 (Impossible de décider de la stationnarité à partir d’une trajectoire)
Montrer que la suite {(−1)t }t=0,1,... peut être la réalisation d’un processus
non stationnaire. Montrer qu’elle peut également être la réalisation d’un
processus stationnaire. Commenter les conséquences de ce résultat.
15
1.5 Exercices
1.4 (Stationnarité et ergodicité à partir d’une trajectoire)
La suite 0, 1, 0, 1, . . . peut-elle être la réalisation d’un processus stationnaire ?
d’un processus stationnaire ergodique ? On pourra se référer à l’annexe A
pour la définition du concept d’ergodicité.
1.5 (Un bruit blanc faible non fort)
Soit (ηt ) une suite iid N (0, 1) et k un entier positif. On pose ǫt =
ηt ηt−1 . . . ηt−k . Montrer que (ǫt ) est un bruit blanc faible, mais n’est pas un
bruit blanc fort.
1.6 (Variance asymptotique d’autocorrélations empiriques d’un bruit faible)
Soit ǫt le bruit blanc défini dans l’exercice 1.5. Calculer limn→∞ nVar ρ̂(h) où
h 6= 0 et ρ̂(·) désigne la fonction d’autocorrélation empirique de ǫ1 , . . . , ǫn .
Comparer cette valeur avec celle donnée par la formule de Bartlett pour un
bruit blanc fort.
1.7 (Représentation ARMA du carré d’un bruit faible)
Soit ǫt le bruit blanc défini dans l’exercice 1.5. Montrer que ǫ2t suit un ARMA.
Préciser cette représentation ARMA quand k = 1.
1.8 (Variance asymptotique d’autocorrélations empiriques d’un bruit faible)
Mêmes questions que dans l’exercice 1.6 pour le bruit blanc faible ǫt =
ηt /ηt−k , où (ηt ) est une suite iid telle que Eηt4 < ∞ et Eηt−2 < ∞, et k
un entier positif.
1.9 (Solutions stationnaires d’un AR(1))
Soit (ηt )t∈Z une suite iid centrée et de variance σ 2 > 0, et soit a 6= 0. Considérons l’équation AR(1)
Xt − aXt−1 = ηt ,
t ∈ Z.
(1.6)
1. Montrer que dans le cas |a| < 1, la série
Xt =
∞
X
ak ηt−k
k=0
converge en moyenne quadratique et presque sûrement, et que c’est
l’unique solution stationnaire (1.6).
2. Dans le cas |a| = 1, montrer qu’il n’y a aucune solution stationnaire.
16
Introduction
3. Dans le cas |a| > 1, vérifier que
∞
X
1
Xt = −
η
k t+k
a
k=1
est l’unique solution stationnaire de (1.6).
4. Dans le cas |a| > 1, montrer que l’on a la représentation causale
1
Xt − Xt−1 = ǫt ,
a
(1.7)
t∈Z
où (ǫt )t∈Z est un bruit blanc.
1.10 (L’indice CAC est-il un bruit ?)
La Figure 1.6 représente le corrélogramme des rendements de l’indice S&P
500 du 3 janvier 1979 au 30 décembre 2001, ainsi que le corrélogramme du
carré de cet indice. Peut-on admettre que cet indice est la réalisation d’un
bruit blanc fort ? d’un bruit blanc faible ?
0.1
0.03
0.075
0.02
0.05
0.01
5
-0.01
10
15
20
25
30
35
0.025
h
5
-0.02
-0.025
-0.03
-0.05
10
15
20
25
30
35
h
Fig. 1.6 – Les bâtons représentent les autocorrélations empiriques ρ̂(h) (h = 1, . . . , 36) de
l’indice S&P 500 du 3 janvier 1979 au 30 décembre 2001 (graphe de gauche), et du carré de
√
cet indice (graphe de droite). L’intérieur des traits en pointillé (±1.96/ n, où n = 5804 est le
nombre d’observations) constitue une zone où les autocorrélations empiriques d’un bruit blanc
fort se trouvent avec une probabilité d’environ 95%.
1.6
Correction des exercices
Sur le site http://perso.univ-lille3.fr/~cfrancq
De nombreux autres exercices et problèmes corrigés se trouvent dans le livre :
Francq, C. et J-M. Zakoïan (2009) : MODELES GARCH : Structure, inférence statistique et applications financières. Economica, collection "économie et
statistiques avancées".
Chapitre 2
Processus conditionnellement
hétéroscédastiques
Dans ce chapitre, nous introduisons une classe importante de modèles de l’hétéroscédasticité conditonnelle.
2.1
Processus GARCH(p, q)
Les modèles ARCH (autorégressifs conditionnellement hétéroscédastiques) ont été
introduits par Engle (1982) et leur extension GARCH (ARCH généralisés) est due
à Bollerslev (1986). Leur caractérisation repose essentiellement sur le concept de
variance conditionnelle. Dans ces modèles, celle-ci s’écrit comme une fonction affine
des valeurs passées du carré de la série. Cette spécification particulière se révèle
très fructueuse car elle permet une étude complète des propriétés des solutions tout
en étant assez générale. Les modèles GARCH sont en effet susceptibles de capter
les propriétés caractéristiques de certaines séries vues dans le chapitre précédent.
La structure “linéaire” de ces processus est mise en évidence à travers plusieurs
représentations que nous allons détailler.
Définitions, représentations
Nous donnons une première définition d’un processus GARCH fondée sur les deux
premiers moments de ǫt conditionnels à son passé.
Définition 2.1 (Processus GARCH(p, q)) On dit que (ǫt ) est un processus
GARCH(p, q) si ses deux premiers moments conditionnels existent et vérifient
18
Processus GARCH
(i) E (ǫt | ǫu , u < t) = 0,
t ∈ Z;
(ii) Il existe des constantes ω, αi , i = 1, . . . , q et βj , j = 1, . . . , p telles que
σt2
= V (ǫt | ǫu , u < t) = ω +
q
X
αi ǫ2t−i
+
i=1
p
X
2
βj σt−j
,
j=1
t ∈ Z.
(2.1)
L’équation (2.1) peut être écrite de manière symbolique sous la forme plus compacte
σt2 = ω + α(B)ǫ2t + β(B)σt2 , t ∈ Z,
(2.2)
2
où B est l’opérateur retard (B i ǫ2t = ǫ2t−i et B i σt2 = σt−i
pour tout entier i), α et β
sont les polynômes de degrés q et p :
α(B) =
q
X
i
αi B ,
β(B) =
i=1
βj B j .
j=1
Si β(z) = 0 on a
σt2
p
X
=ω+
q
X
αi ǫ2t−i
(2.3)
i=1
et le processus est appelé ARCH(q) 1 .
L’innovation du processus ǫ2t est par définition la variable νt = ǫ2t − σt2 . En rem2
plaçant, dans l’équation (2.1), les variables σt−j
par ǫ2t−j − νt−j on obtient la représentation
ǫ2t
=ω+
r
X
i=1
(αi +
βi )ǫ2t−i
+ νt −
p
X
j=1
βj νt−j ,
t ∈ Z.
(2.4)
où r = max(p, q), avec la convention αi = 0 (resp. βj = 0) si i > q (resp. j > p).
On retrouve ainsi dans cette équation la structure linéaire des modèles ARMA,
permettant par exemple un calcul très simple des prévisions linéaires. Sous des
hypothèses supplémentaires (impliquant la stationnarité de ǫ2t ), on peut affirmer
que si (ǫt ) est un GARCH(p, q), (ǫ2t ) est un processus ARMA(r, p). En particulier,
le carré d’un processus ARCH(q) admet, s’il est stationnaire, une représentation
AR(q). Ces représentations ARMA seront utiles pour l’estimation et l’identification
1
Cette spécification est rapidement apparue trop restrictive par rapport au comportement des
séries financières. En effet, il est nécessaire pour obtenir une bonne adéquation entre ce modèle
et les séries réelles de faire dépendre la variance conditionnelle d’un grand nombre de variables
passées. Cela est évidemment possible en choisissant q assez grand mais cette solution n’est pas
satisfaisante du point de vue statistique car elle impose d’estimer un grand nombre de coefficients.
19
2.1 Processus GARCH(p, q)
des processus GARCH. Elles seront en revanche de peu d’utilité pour l’étude de la
stationnarité du processus (ǫt ) car le bruit νt dépend, par construction, du passé
de ǫt .
Remarque : Nous avons vu au chapitre 1 qu’une propriété caractéristique des
séries financières est le fait que les carrés des rendements sont autocorrélés, tandis
que les rendements ne le sont pas. La représentation (2.4) montre que les processus
GARCH sont bien adaptés à la prise en compte de cette propriété empirique. Si
le moment d’ordre 4 de (ǫt ) est fini, la suite des autocorrélations d’ordre k de
ǫ2t vérifie une relation de récurrence caractéristique des modèles ARMA. Prenons
pour simplifier le cas d’un processus GARCH(1,1). Son carré (ǫ2t ) est alors un
ARMA(1,1) et son autocorrélation tend vers zéro proportionnellement à (α1 +β1 )k :
pour k > 1
Corr(ǫ2t , ǫ2t−k ) = γ(α1 + β1 )k
où γ est une constante indépendante de k. Par ailleurs, les ǫt sont non corrélés
d’après le (i) de la définition 2.1.
La définition 1 ne fournit pas directement de processus la vérifiant. La définition
plus restrictive suivante permettra d’obtenir explicitement des processus solutions.
Soit η une loi de probabilité diffuse d’espérance nulle et de variance unité.
Définition 2.2 (Processus GARCH(p, q) fort) Soit (ηt ) une suite de variables iid de loi η. On dit que (ǫt ) est un processus GARCH(p, q) au sens fort
(relativement à la suite (ηt )) s’il vérifie
ǫt = σt ηt P
P
(2.5)
2
σt2 = ω + qi=1 αi ǫ2t−i + pj=1 βj σt−j
où les αi et βj sont des constantes positives et ω est une constante strictement
positive.
Il est clair qu’un processus GARCH fort tel que σt2 est mesurable par rapport à
la tribu σ (ǫu u < t) est un processus GARCH au sens de la Définition 2.1. La
réciproque n’est cependant pas vraie.
Les processus GARCH au sens de la définition 2.1 sont souvent qualifiés de semiforts depuis l’article de Drost et Nijman (1993) consacré à l’agrégation temporelle.
En remplaçant ǫt−i par σt−i ηt−i dans l’équation (2.1) on obtient
σt2
=ω+
q
X
i=1
2
2
αi σt−i
ηt−i
+
p
X
j=1
2
βj σt−j
,
(2.6)
20
Processus GARCH
que l’on peut écrire
σt2
=ω+
r
X
2
ai (ηt−i )σt−i
(2.7)
i=1
où ai (z) = αi z 2 + βi , i = 1, . . . , r. Cette représentation montre que dans le cas
d’un GARCH fort, le processus de volatilité vérifie une équation autorégressive,
mais avec coefficients aléatoires.
Propriétés des trajectoires
Par rapport aux modèles usuels de séries temporelles (ARMA), cette structure
permet au bruit ǫt d’avoir un ordre de grandeur fonction des variables passées.
Ainsi, vont se succéder des périodes à forte volatilité (grandes valeurs en module
des ǫt−i et donc de σt2 ) et d’autres où les fluctuations sont de plus faible amplitude.
Les simulations des figures 2.6-2.8 mettent bien en évidence cette propriété dite
de regroupement de la volatilité (volatility clustering).
2.1.1
Etude de la stationnarité
Nous allons chercher sous quelles conditions il existe des processus stationnaires (au
sens strict et au second-ordre) vérifiant les définitions 2.1 et/ou 2.2. On s’intéresse
plus particulièrement aux solutions non anticipatives du modèle (2.5), c’est-à-dire
aux processus (ǫt ) tel que ǫt soit une fonction mesurable des variables ηt−s , s ≥ 0.
Nous examinons d’abord le cas du modèle GARCH(1,1) qui peut se traiter avec
des techniques élémentaires. On notera, pour x > 0, log+ x = max(log x, 0).
Modèle GARCH(1,1)
Dans le cas où p = q = 1, le modèle (2.5) s’écrit

 ǫt = σt ηt

σt2
=ω+
αǫ2t−1
+
(2.8)
2
βσt−1
,
avec ω ≥ 0, α ≥ 0, β ≥ 0. On pose a(z) = αz 2 + β.
Théorème 2.1 (Stationnarité stricte du modèle GARCH(1,1) fort) Si
−∞ ≤ γ := E log{αηt2 + β} < 0,
(2.9)
21
la série
ht =
(
1+
∞
X
)
a(ηt−1 ) . . . a(ηt−i ) ω,
i=1
(2.10)
√
converge presque sûrement (p.s.) et le processus (ǫt ) défini par ǫt = ht ηt est
l’unique solution strictement stationnaire du modèle (2.8). Cette solution est non
anticipative et ergodique.
Si γ ≥ 0 et ω > 0, il n’existe pas de solution strictement stationnaire.
Remarques.
1. Le coefficient γ = E log{a(ηt )} existe toujours dans [−∞, +∞[ car
E log+ {a(ηt )} ≤ Ea(ηt ) = α + β.
2. Dans le cas où ω = 0 et γ < 0, il est clair d’après (2.10) que la seule solution
strictement stationnaire du modèle est ǫt = 0. Il n’est donc naturel d’imposer
ω > 0 dans la pratique.
3. On voit que la condition (2.9) dépend de la loi du processus (ηt ) et qu’elle
n’est pas symétrique en α et β.
4. La condition (2.9) implique β < 1. Inversement, si
α + β < 1,
(2.9) est vérifiée, car par application de l’inégalité de Jensen
E log{a(ηt )} ≤ log E{a(ηt )} = log(α + β) < 0.
5. Si (2.9) est satisfaite, elle l’est également pour tout couple (α1 , β1 ) tel que
α1 ≤ α et β1 ≤ β. En particulier la stationnarité stricte du modèle GARCH
implique celle du modèle ARCH obtenu en supprimant β.
6. Dans le cas ARCH(1) (β = 0), la contrainte de stationnarité stricte s’écrit
0 ≤ α < exp{−E(log ηt2 )}.
(2.11)
Par exemple dans le cas où ηt ∼ N (0, 1) la condition est : α < 3.56.
Preuve du théorème 2.1.
Utilisant de manière itérative la seconde équation du modèle (2.8), on obtient,
pour N ≥ 1,
σt2
2
= ω + a(ηt−1 )σt−1
"
#
N
X
2
= ω 1+
a(ηt−1 ) . . . a(ηt−n ) + a(ηt−1 ) . . . a(ηt−N −1 )σt−N
−1
n=1
2
:= ht (N) + a(ηt−1 ) . . . a(ηt−N −1 )σt−N
−1 .
(2.12)
22
Processus GARCH
+
Le processus limite ht = limN →∞ ht (N) existe dans R = [0, +∞] puisque les
termes de la somme sont positifs. De plus, en faisant tendre N vers l’infini dans la
relation ht (N) = ω + a(ηt−1 )ht−1 (N − 1), on obtient :
ht = ω + a(ηt−1 )ht−1 .
Nous allons montrer que ht est presque sûrement finie si et seulement si γ < 0.
Supposons γ < 0. On utilise la règle de Cauchy pour les séries à termes positifs. 2
On a
" n
#
X
1
log{a(ηt−i )} → eγ p.s.
(2.13)
[a(ηt−1 ) . . . a(ηt−n )]1/n = exp
n i=1
quand n → ∞, par application de la loi forte des grands nombres à la suite iid
(log{a(ηt )}).3
La série définie en (2.10) converge alors presque sûrement dans R, par application
de la règle de Cauchy, et le processus limite, (ht ), est à valeurs réelles positives.
Par suite, le processus (ǫt ) défini par :
(
)1/2
∞
X
p
ǫt = ht ηt = ω +
a(ηt−1 ) . . . a(ηt−i )ω
ηt
(2.14)
i=1
est strictement stationnaire et ergodique (voir l’appendice A.2, théorème A.1). Il
est non anticipatif comme fonction mesurable des variables ηt−i , i ≥ 0. De plus
(ǫt ) vérifie le modèle (2.8).
Nous montrons maintenant l’unicité. Soit ǫ̃t = σt ηt une solution strictement stationnaire. D’après (2.12) on a
2
σt2 = ht (N) + a(ηt−1 ) . . . a(ηt−N −1 )σt−N
−1 .
Par suite
2
σt2 − ht = {ht (N) − ht } + a(ηt−1 ) . . . a(ηt−N −1 )σt−N
−1 .
X
1/n
Soit (
an ) une série à termes positifs et soit λ = lim an . Alors (i) si λ < 1 la série
X
X
(
an ) est convergente, (ii) si λ > 1 la série (
an ) est divergente.
3
Si
(X
)
est
une
suite
iid
de
variables
admettant
une espérance, non nécessairement finie,
i
Pn
1
X
→
EX
,
p.s.
Ce
résultat,
que
l’on
trouve
dans Billingsley (1995), découle de la loi
i
1
i=1
n
+
forte pour des variables intégrables : supposons par exemple que E(XP
pour
i ) = +∞ et posons
P
+
1
tout entier m > 0, X̃i = Xi si 0 ≤ Xi ≤ m, X̃i = 0 sinon. On a n ni=1 Xi+ ≥ n1 ni=1 X̃i →
E X̃1 , p.s., par application de la loi forte à la suite de variables intégrables X̃i . Lorsque m
tend
vers l’infini, la suite croissante E X̃1 converge vers +∞, ce qui permet de conclure que
+
1 Pn
i=1 Xi → ∞, p.s.
n
2
23
Le terme entre accolades à droite de l’égalité tend vers 0 p.s. quand N → ∞. Par
ailleurs, puisque la série définissant ht converge p.s., on a a(ηt−1 ) . . . a(ηt−n ) → 0
2
avec probabilité 1 quand n → ∞. De plus la loi de σt−N
−1 est indépendante de N
2
par stationnarité. Par suite a(ηt−1 ) . . . a(ηt−N −1 )σt−N −1 → 0 en probabilité lorsque
N → ∞. On a montré que σt2 − ht → 0 en probabilité quand N → ∞. Ce terme
étant indépendant de N on a nécessairement ht = σt2 pour tout t, p.s.
P
Si γ > 0, d’après (2.13) et la règle de Cauchy, N
n=1 a(ηt−1 ) . . . a(ηt−n ) → +∞, p.s.
lorsque N → ∞. Donc si ω > 0, ht = +∞, p.s. D’après (2.12), il est clair que
σt2 = +∞, p.s. Par suite, il n’existe pas de solution finie p.s. de (2.8).
Dans le cas γ = 0, nous procéderons par l’absurde. Supposons qu’il existe une
solution strictement stationnaire (ǫt , σt2 ) de (2.8). Nous avons pour n > 0,
σ02
≥ω
(
1+
n
X
i=1
a(η−1 ) . . . a(η−i )
)
d’où on déduit que le terme général a(η−1 ) . . . a(η−n )ω converge vers zéro, p.s.,
quand n → ∞, ou, de manière équivalente, que
n
X
i=1
log a(ηi ) + log ω → −∞ p.s. quand n → ∞.
D’après le théorème de Chung-Fuchs4 nous avons lim sup
avec probabilité 1, ce qui contredit (2.15).
Pn
i=1
(2.15)
log a(ηi ) = +∞
2
Théorème 2.2 (Stationnarité au second ordre du GARCH(1,1))
Supposons ω > 0.
Si α + β ≥ 1, il n’existe pas de solution GARCH(1,1) non anticipative et stationnaire au second ordre .
Si α + β < 1, le processus (ǫt ) défini par (2.14), est stationnaire au second ordre.
Plus précisément, (ǫt ) est un bruit blanc. De plus, il n’existe pas d’autre solution
stationnaire au second ordre et non anticipative.
4
Si X1 , . . . , Xn est
Pnune suite iid telle que EX1 = 0 et E|X1 | > 0 alors lim supn→∞
+∞ et lim inf n→∞ i=1 Xi = −∞ (voir par exemple Chow et Teicher (1997)).
Pn
i=1
Xi =
24
Processus GARCH
Preuve. Si ǫt est un processus GARCH(1, 1), au sens de la définition 2.1, stationnaire au second-ordre et non anticipatif, on a
E(ǫ2t ) = E E ǫ2t | ǫu , u < t = E(σt2 ) = ω + (α + β)E(ǫ2t−1 )
soit
(1 − α − β)E(ǫ2t ) = ω.
Il faut donc α + β < 1. On obtient de plus : E(ǫ2t ) > 0.
Inversement, supposons α + β < 1. D’après la remarque 4 précédente, la condition de stationnarité stricte est vérifiée. Il suffit donc de montrer que la solution
strictement stationnaire définie en (2.14) admet une variance finie. La variable ht
étant une limite croissante de variables aléatoires positives, d’après le théorème de
Beppo Levi, on peut intervertir espérance et somme infinie et écrire
"
#
+∞
X
E(ǫ2t ) = E(ht ) = 1 +
E{a(ηt−1 ) . . . a(ηt−n )} ω
n=1
=
"
=
"
1+
1+
+∞
X
n=1
+∞
X
n=1
#
{Ea(ηt )}n ω
#
(α + β)n ω =
ω
.
1 − (α + β)
Cela suffit à prouver la stationnarité au second-ordre de la solution. De plus cette
solution est un bruit blanc car E(ǫt ) = E {E (ǫt | ǫu , u < t)} = 0 et pour tout
h > 0,
cov (ǫt , ǫt−h ) = E {ǫt−h E (ǫt | ǫu , u < t)} = 0.
p
Soit ǫ̃t = h̃t ηt une autre solution stationnaire au second ordre et non anticipative.
On a
|ht − h̃t | = a(ηt−1 ) . . . a(ηt−n )|ht−n−1 − h̃t−n−1 |
et par suite,
E|ht − h̃t | = E{a(ηt−1 ) . . . a(ηt−n )}E|ht−n−1 − h̃t−n−1 |
= (α + β)n E|ht−n−1 − h̃t−n−1 |.
Notons que la seconde égalité résulte du caractère non anticipatif des solutions, hypothèse qui n’était pas nécessaire pour établir l’unicité de la solution strictement stationnaire. L’espérance de |ht−n−1 − h̃t−n−1 | étant bornée par
E|ht−n−1 | + E|h̃t−n−1 |, quantité finie et indépendante de n par stationnarité, et
(α + β)n tendant vers 0 quand n → ∞, on obtient E|ht − h̃t | = 0 et donc ht = h̃t
pour tout t, p.s.
25
2
Les zones de stationnarité stricte et au second ordre pour le modèle GARCH
(1,1) fort sont présentés figure 2.1 avec une distribution normale centrée réduite
pour (ηt ) (dont seule dépend la condition de stationnarité stricte). Nous avons
déjà remarqué que la frontière de la zone de stationnarité stricte correspond à une
marche aléatoire (pour le processus log(ht −ω)). Une interprétation similaire existe
pour la frontière de la zone de stationnarité au second ordre : si α + β = 1 on a
en effet
2
ht = ω + ht−1 + αht−1 (ηt−1
− 1)
ce qui fait de ht une marche aléatoire car le dernier terme est centré et non corrélé avec toute variable du passé de ht−1 . Le processus correspondant est appelé
GARCH intégré (ou IGARCH(1,1)) : il est strictement stationnaire mais de variance infinie et sa variance conditionnelle est une marche aléatoire (avec terme
constant strictement positif).
Modèle GARCH(p, q)
Dans le cas général du GARCH(p, q) fort, l’écriture vectorielle suivante sera très
utile. On a
(2.16)
z t = bt + At z t−1 ,
β1
3
2
1
0
1
α1 2
3
4
Fig. 2.1 – Régions de stationnarité du modèle GARCH(1,1) si ηt ∼ N (0, 1). 1 : Stationnarité au 2nd ordre ; 1 et 2 : Stationnarité stricte ; 3 : Non stationnarité.
26
Processus GARCH
où
et

ωηt2
0
..
.


α1 ηt2
···
1
0 ···
0
1 ···
..
.. ..
.
.
.








 0


At =  α
1


 0

 0

 .
 .
 .

0
...
1
···
···
.
..
.
...


 2
 ǫ
z t =  t−q+1
 σt2

..

.
2
σt−p+1
αq ηt2 β1 ηt2
···
0
0
···
0
0
···
..
..
.. ..
.
.
.
.
···
..
ǫ2t
..
.











bt = b(ηt ) =  ω  ∈ Rp+q ,


 0 
 . 
 .. 
0
0
0
0
...
αq
β1
0
0
..
.
1
0
..
.
···
0
0
..
.
..
0
0
βp
0
0
..
.
.
...




 ∈ Rp+q ,



βp ηt2
0
0
..
.
···
···
0
1

1
0























(2.17)
est une matrice de dimension (p + q) × (p + q). Dans le cas ARCH(q), z t ne contient
que ǫ2t et ses q − 1 premières valeurs passées, et At se limite au bloc supérieur
gauche de la matrice ci-dessus. L’équation (2.16) constitue un modèle vectoriel
autorégressif d’ordre un, avec coefficients positifs et iid. La loi de z t conditionnelle
à son passé infini coïncide avec sa loi conditionnelle à zt−1 seulement, ce qui fait
de (z t ) un processus de Markov. On parle ainsi de représentation markovienne.
En itérant (2.16) on obtient
z t = bt +
∞
X
At At−1 . . . At−k+1 bt−k .
(2.18)
k=1
sous réserve que la série existe au sens presque sûr. L’objet de ce qui suit est de
trouver des conditions justifiant l’existence de cette série. Lorsque le membre de
droite de l’équation (2.18) a un sens, cela n’assure pas pour autant que les composantes de ce vecteur sont positives. Une condition suffisante pour que, presque
sûrement,
∞
X
bt +
At At−1 . . . At−k+1 bt−k > 0
(2.19)
k=1
27
au sens ou toutes les composantes de ce vecteur sont strictement positives (éventuellement infinies), est évidemment
ω > 0,
αi ≥ 0 (i = 1, . . . , q),
βj ≥ 0 (j = 1, . . . , p).
(2.20)
Cette condition, très simple à utiliser, n’est cependant pas toujours nécessaire
comme nous le verrons plus loin.
Stationnarité stricte
L’outil principal pour l’étude de la stationnarité stricte est le concept d’exposant
de Lyapounov. Soit A une matrice (p + q) × (p + q). Son rayon spectral, noté ρ(A),
est le plus grand module de ses valeurs propres. Soit k · k une norme quelconque
sur l’espace des matrices (p + q) × (p + q). On a le résultat d’algèbre suivant
1
log kAt k = log ρ(A)
t→∞ t
lim
(2.21)
(voir l’exercice 2.2). Cette propriété s’étend aux matrices aléatoires à travers le
résultat suivant (voir Bougerol-Lacroix).
Théorème 2.3 Soit {At , t ∈ Z} une suite de matrices aléatoires, strictement stationnaire et ergodique, telle que E log+ kAt k est finie. On a
1
1
E (log kAt At−1 . . . A1 k) = γ = inf∗ E(log kAt At−1 . . . A1 k)
t→∞ t
t∈N t
lim
(2.22)
et γ (resp. exp(γ)) s’appelle plus grand exposant de Lyapounov (resp. rayon spectral) de la suite de matrices {At , t ∈ Z}. De plus
γ = lim p.s.
t→∞
1
log kAt At−1 . . . A1 k.
t
(2.23)
Remarques.
1. On a toujours γ ≤ E(log kA1 k), avec égalité en dimension 1.
2. Si At = A pour tout t ∈ Z, on a γ = log ρ(A) d’après (2.21).
3. Toutes les normes étant équivalentes sur un espace de dimension fini, il est
facile de voir que γ est indépendant du choix de la norme.
4. L’équivalence entre les définitions de γ se montre en utilisant le théorème
ergodique sous-additif, voir Kingman (1973) théorème 6. La caractérisation
(2.23) est particulièrement intéressante car elle permet de calculer des approximations de ce coefficient par simulation. Des intervalles de confiance
asymptotiques peuvent également être obtenus, voir Goldsheid (1991).
28
Processus GARCH
Le lemme général suivant est très utile pour l’étude du produit de matrices aléatoires.
Lemme 2.1 Soit {At , t ∈ Z} une suite de matrices aléatoires iid telle que
E log+ kAt k est finie et de plus grand exposant de Lyapounov γ. Alors
lim p.s. kA0 . . . A−t k = 0
t→∞
⇒
γ<0
(2.24)
Comme pour les modèles ARMA, nous nous intéressons plus particulièrement aux
solutions (ǫt ) non anticipatives du modèle (2.5), c’est à dire telles que ǫt appartient
à la tribu engendrée par {ηt , ηt−1 , . . .}.
Théorème 2.4 (Stationnarité stricte du modèle GARCH(p, q)) Une
condition nécessaire et suffisante d’existence d’un processus GARCH(p, q)
strictement stationnaire, solution du modèle (2.5) est que
γ<0
où γ est le plus grand exposant de Lyapounov de la suite {At , t ∈ Z} définie par
(2.17).
Lorsqu’elle existe, la solution strictement stationnaire est unique, non anticipative
et ergodique.
P
Preuve. Nous utiliserons la norme définie par kAk =
|aij |. Par commodité la
norme sera notée de manière identique quelle que soit la dimension de A. Avec
cette convention, la norme est clairement multiplicative : kABk ≤ kAkkBk pour
toutes matrices A et B telles que AB existe 5 .
Remarquons que, les variables ηt étant de variance finie, tous les termes de la
matrice At sont intégrables. On a donc
E log+ kAt k ≤ EkAt k < ∞.
Supposons d’abord γ < 0. Alors, l’égalité (2.23) implique que la série
z̃ t = bt +
∞
X
At At−1 . . . At−n bt−n−1
n=0
P
D’autres exemples de normes multiplicatives sont la norme euclidienne : kAk = { a2ij }1/2 =
{Tr(A′ A)}1/2 , ou la norme sup définie, pour une matrice A de taille d × d, par
P N (A) =
sup {kAxk; x ∈ Rd , kxk ≤ 1} définie à partir de la norme vectorielle kxk =
|xi |. Une
norme non multiplicative est N1 définie par N1 (A) = max |aij |.
5
29
converge presque sûrement pour tout t. On a en effet, en utilisant la multiplicativité
de la norme,
∞
X
kz̃ t k ≤ kbt k +
kAt At−1 . . . At−n kkbt−n−1 k
(2.25)
n=0
et
kAt . . . At−n k
1/n
kbt−n−1 k
1/n
=
p.s
1
1
exp
log kAt . . . At−n k + log kbt−n−1 k
n
n
−→ eγ < 1.
∗+ p+q
Par suite, par la règle de Cauchy, z̃ t est bien défini
p dans (R ) . Soit z̃ q+1,t la
q + 1-ème composante de z̃ t . En posant ǫt = z̃ q+1,t ηt on définit une solution
strictement stationnaire du modèle (2.5). D’après (2.18), ǫt s’exprime comme fonction mesurable de ηt , ηt−1 , . . .. La solution est donc nonanticipative et ergodique
puisque (ηt ) est ergodique.
L’unicité se démontre par le même raisonnement que dans le cas p = q = 1.
Supposons qu’il existe une autre solution strictement stationnaire du modèle (2.5),
ou de manière équivalente une autre solution strictement stationnaire positive (z ∗t )
de (2.16). Alors, pour tout n ≥ 0,
kz̃ t − z ∗t k = kAt (z̃ t−1 − z ∗t−1 )k = . . . ≤ kAt . . . At−n kk(z̃ t−n−1 − z ∗t−n−1 )k.
On a P(kz̃ t −z ∗t k =
6 0) > 0. Or on sait que kAt . . . At−n k → 0 p.s. quand n → ∞ car
la série intervenant dans (2.25) converge. Par suite P(kz̃ t−n−1 −z ∗t−n−1 k → ∞) > 0,
ce qui implique que kz̃ t−n−1 k → ∞ ou kz ∗t−n−1 k → ∞ avec une probabilité positive.
Ceci est impossible car les suites (z̃ t )t et (z ∗t )t sont stationnaires. On en conclut
que z̃ t = z ∗t pour tout t, p.s.
Nous montrons finalement la partie nécessaire du théorème. D’après le lemme 2.1,
il suffit d’établir (2.24). Nous allons montrer que, pour 1 ≤ i ≤ p + q
lim A0 . . . A−t ei = 0,
t→∞
p.s.
(2.26)
où ei est le i-ème élément de la base canonique de Rp+q . Soit (ǫt ) une solution
strictement stationnaire de (2.5) et soit (z t ) défini par (2.16). On a pour t > 0
z 0 = b0 + A0 z −1
t−1
X
= b0 +
A0 . . . A−k b−k−1 + A0 . . . A−t z −t−1
k=0
≥
t−1
X
k=0
A0 . . . A−k b−k−1
30
Processus GARCH
car les coefficients des matrices At , b0 et z t sont positifs6 . Par suite la série
P
t−1
k=0 A0 . . . A−k b−k−1 converge et donc A0 . . . A−k b−k−1 tend presque sûrement
2
vers 0 quand k → ∞. Or b−k−1 = ωη−k−1
e1 + ωeq+1 . Donc A0 . . . A−k b−k−1 se
décompose en deux termes positifs et on a
2
lim A0 . . . A−k ωη−k−1
e1 = 0,
lim A0 . . . A−k ωeq+1 = 0,
k→∞
k→∞
(2.27)
p.s.
Puisque ω 6= 0, (2.26) est vraie pour i = q + 1. En utilisant la relation
2
A−k eq+i = βi η−k
e1 + βi eq+1 + eq+i+1 ,
(2.28)
i = 1, . . . , p
avec par convention ep+q+1 = 0, pour i = 1 on obtient
0 = lim A0 . . . A−k eq+1 ≥ lim A0 . . . A−k+1 eq+2 ≥ 0
t→∞
k→∞
donc (2.26) est vraie pour i = q + 2, et par récurrence, pour i = q + j, j = 1, . . . , p
2
en utilisant (2.28). Par ailleurs, on remarque que A−k eq = αq η−k
e1 + αq eq+1 ce qui
permet de voir, d’après (2.27), que (2.26) est vérifiée pour i = q. On conclut pour
les autres valeurs de i en utilisant
2
A−k ei = αi η−k
e1 + αi eq+1 + ei+1 ,
i = 1, . . . , q − 1
et une récurrence ascendante. Le théorème 2.4 est donc démontré.
2
Remarques.
1. On aurait pu mener une démonstration analogue en utilisant la représentation vectorielle markovienne suivante fondée sur (2.7)
(2.29)
ht = ω + Bt ht−1 ,
avec
ω = (ω, 0, . . . , 0)′ ∈ Rr ,
ht =
2
(σt2 , . . . , σt−r+1
)
r
∈R ,
Bt =
a1 (ηt−1 ) . . . ar (ηt−r )
Ir−1
0
,
où Ir−1 est la matrice identité de taille r − 1. Notons que les matrices Bt ne
sont pas indépendantes, contrairement aux At . Il est amusant de noter (voir
l’exercice 2.8) que cependant
E
n
Y
t=0
6
Bt =
n
Y
EBt .
(2.30)
t=0
On utilise ici, et dans ce qui suit, la notation x ≥ y qui signifie que toutes les composantes
du vecteur x sont supérieures ou égales à celles du vecteur y (de même dimension)
31
La propriété d’indépendance des At sera cruciale pour trouver les conditions
d’existence des moments, c’est pourquoi il est préférable de travailler avec la
représentation (2.16).
2. Pour vérifier que γ < 0, il suffit de vérifier que
E(log kAt At−1 . . . A1 k) < 0
pour un t > 0.
3. Si un modèle GARCH admet une solution strictement stationnaire, tout modèle GARCH obtenu en remplaçant les αi et βj par des coefficients plus petits
en admet également une. En effet le coefficient γ du modèle ainsi défini sera
nécessairement inférieur à celui du modèle initial car, avec la norme utilisée,
0 ≤ A ≤ B implique kAk ≤ kBk. En particulier la stationnarité stricte du
modèle GARCH implique celle du modèle ARCH obtenu en supprimant les
coefficients βj .
Le résultat suivant (établi par Bougerol et Picard (1992)) fournit une condition
nécessaire simple de stationnarité stricte.
Corollaire 2.1 Soit γ le plus grand exposant de Lyapounov de la suite {At , t ∈ Z}
définie par (2.17). Alors
γ<0
⇒
p
X
βj < 1.
j=1
Preuve. Comme tous les termes des matrices At sont positifs, il est clair que
γ est supérieur au coefficient de Lyapounov de la suite obtenue en remplaçant
les coefficients des q premières lignes et des q premières colonnes par 0 dans les
matrices At . En utilisant la Remarque 2 du Théorème (2.3) on voit que
γ ≥ log ρ(B)
où B est la sous-matrice de At définie par :


β1 β2 · · ·
βp
 1 0 ···
0 


 0 1 ···
0 
B=
.
 .. . . . .
.. 
 .
.
.
. 
0
··· 1 0
32
Processus GARCH
Il est facile de montrer (par récurrence sur p et en développant par rapport à la
dernière colonne) que, pour λ 6= 0,
1
det(B − λIp ) = (−1)p λp − λp−1β1 − · · · − λβp−1 − βp = (−λ)p B( ),
λ
où B(z) = 1 − β1 z − · · · − βp z p . On en déduit que si γ < 0 alors B(z) = 0 a toutes
ses racines en dehors du cercle unité.
Montrons maintenant que
{B(z) = 0 ⇒ |z| > 1}
⇔
p
X
βj < 1
(2.31)
j=1
P
P
On a B(0) = 1 et B(1) = 1 − pj=1 βj . Donc si pj=1 βj ≥ 1 alors B(1) ≤ 0 et, par
continuité, il existe une racine dans ]0, 1].
P
Inversement si pj=1 βj < 1 et si B(z0 ) = 0 pour un z0 de module inférieur ou
P
P
Pp
P
p
j
j
égal à 1 alors 1 = j=1 βj z0 = j=1 βj z0 ≤ pj=1 βj |z0 |j ≤ pj=1 βj , ce qui est
impossible. D’où (2.31) et finalement le corollaire.
2
Nous donnons deux illustrations permettant d’obtenir des conditions de stationnarité plus explicites que dans le théorème .
Exemples : 1. Dans le cas GARCH(1,1), on retrouve bien la condition de stationnarité stricte obtenue directement. La matrice At s’écrit dans ce cas
At = (ηt2 , 1)′ (α1 , β1 ).
On a donc
At At−1 . . . A1 =
t−1
Y
2
(α1 ηt−k
+ β1 )At .
k=1
Par suite
log kAt At−1 . . . A1 k =
t−1
X
k=1
2
log(α1 ηt−k
+ β1 ) + log kAt k
et d’après (2.23) et la loi forte des grands nombres γ = E log(α1 ηt2 + β1 ). La
condition nécessaire et suffisante de stationnarité stricte s’écrit donc E log(α1 ηt2 +
β1 ) < 0, comme nous le savions déjà.
33
2. Pour un modèle ARCH(2) la matrice At prend la forme
α1 ηt2 α2 ηt2
At =
1
0
et la région de stationnarité peut être estimée par simulation. Le tableau suivant
donne, pour quelques valeurs des coefficients α1 et α2 , la valeur moyenne et l’écarttype (entre parenthèses) obtenus pour 1000 simulations de taille 1000 (c’est à dire
1
log kA1000 A999 . . . A1 k), les ηt étant tirés selon une
1000 simulations de γ̂ = 1000
loi N (0, 1). Remarquons que dans le cas ARCH(1) les simulations fournissent une
bonne approximation de la condition obtenue analytiquement (α1 < 3.56). Hormis
ce cas, il n’existe pas de condition explicite portant sur les coefficients α1 et α2 .
Tab. 2.1 – Estimations de γ à partir de 1000 simulations de taille t = 1000.
α1
α2
0
.25
-
.3
-
1
-
0.5
-
-
-
1
-
-
1.75
-.015
.001
(.035) (.032)
1.2
-
1.7
-
1.8
-
-.175 -.021
.006
(.040) (.042) (.044)
-.011
.046
(.038) (.038)
-
3.4
3.5
3.6
-.049 -.018
.010
(.071) (.071) (.071)
-
-
-
-
-
-
La figure (2.2), construite à partir de ces simulations, donne une idée plus précise
de la région de stationnarité stricte du processus ARCH(2).
Nous concluons cette partie avec un résultat établissant que la condition de stationnarité stricte implique également l’existence de certains moments. Nous montrons
au préalable le lemme suivant.
Lemme 2.2 Soit X une v.a.r. presque sûrement positive. Si EX r < ∞ pour un
r > 0 et si E log X < 0 alors il existe s > 0 tel que EX s < 1.
Preuve. La fonction génératrice des moments de Y = log X est définie par M(u) =
EeuY = EX u . La fonction M est continuement dérivable sur [0, r] et on a, pour
u>0
Z uy
M(u) − M(0)
e −1
=
dPY (y).
(2.32)
u
u
34
Processus GARCH
Remarquons que
∀τ > 0,
uy
e − 1 eτ |y|
u ≤ τ .
∀u ∈]0, τ ],
(2.33)
v
Ce résultat s’obtient par exemple en introduisant la fonction définie par g(v) = e v−1
pour v 6= 0 et g(0) = 1. La fonction g étant croissante sur R, on a pour y ≥ 0,
eτ y − 1
eτ y
euy − 1
≤
≤
,
u
τ
τ
et pour y < 0
1 − euy
e−τ y
≤ −y ≤
u
τ
ce qui prouve (2.33). Le membre de droite de cette inégalité est clairement PY intégrable quand τ ∈]0, r]. Par suite, par le théorème de Lebesgue, la dérivée à
droite de M en 0 est d’après (2.32)
Z
ydPY (y) = E(log X) < 0.
Comme M(0) = 1, il existe s > 0 tel M(s) = EX s < 1.
2
3
3
2
3
2
α2
11
2
1
0
0
0
0
11
α1
22
33
Fig. 2.2 – Régions de stationnarité du modèle ARCH(2). 1 : Stationnarité au secondordre ; 1 et 2 : Stationnarité stricte ; 3 : Non stationnarité
35
Corollaire 2.2 On suppose que γ < 0. Soit ǫt = σt ηt le processus GARCH(p, q)
solution strictement stationnaire du modèle (2.5). Il existe s > 0 tel que Eσt2s < ∞
et Eǫ2s
t < ∞.
Preuve. Puisque γ = inf t 1t E(log kAt At−1 . . . A1 k) < 0, il existe k0 ≥ 1 tel que
E(log kAk0 Ak0 −1 . . . A1 k) < 0. De plus
E(kAk0 Ak0 −1 . . . A1 k) = kE(Ak0 Ak0 −1 . . . A1 )k
= k(EA1 )k0 k
≤ (EkA1 k)k0 < ∞
(2.34)
P
en utilisant la norme multiplicative kAk = i,j |A(i, j)|, la positivité des éléments
des Ai , l’indépendance et l’équidistribution des Ai . Le lemme 2.2 entraîne donc
l’existence d’un s ∈]0, 1[ tel que ρ := E(kAk0 Ak0 −1 . . . A1 ks ) < 1. La solution
stationnaire est définie par (2.18) et satisfait
(
)
∞
k0
X
X
Ekz t ks ≤ kEb1 ks 1 +
ρk
{EkA1 ks }i < ∞.
i=1
k=0
Pour l’inégalité
utilisé
P précédente
P snous avons, en plus des arguments déjà donnés,
s
7
la relation ( i ui) ≤ i ui pour toute suite de nombres positifs ui . On conclut
s
en remarquant que σt2s ≤ kz t ks et ǫ2s
t ≤ kz t k .
2
Stationnarité au second ordre
Le théorème suivant donne des conditions nécessaires et suffisantes de stationnarité
au second-ordre.
Théorème 2.5 (Stationnarité au 2nd ordre du modèle GARCH(p, q))
S’il existe un processus GARCH(p, q), au sens de la Définition 2.1, stationnaire
au second-ordre et non anticipatif, et si ω > 0, alors
q
X
i=1
αi +
p
X
βi < 1.
(2.35)
j=1
Ceci peut se montrer en utilisant l’inégalité de Jensen et la concavité de x → xs sur [0, +∞[
pour 0 < s < 1.
7
36
Processus GARCH
Inversement, si (2.35) est vérifiée, l’unique solution strictement stationnaire du
modèle (2.5) est un bruit blanc (donc est stationnaire au second ordre). Il n’existe
pas d’autre solution stationnaire au second ordre.
Preuve. Montrons d’abord que la condition (2.35) est nécessaire. Soit (ǫt ) un
processus GARCH(p, q), stationnaire au second ordre et non anticipatif. Alors la
quantité
E(ǫ2t ) = E E ǫ2t | ǫu , u < t = E(σt2 )
est un réel positif, indépendant de t. En prenant l’espérance des deux membres de
l’égalité (2.1), on tire donc
E(ǫ2t )
=ω+
q
X
αi E(ǫ2t )
+
i=1
soit
1−
q
X
i=1
αi −
p
X
βj E(ǫ2t )
j=1
p
X
j=1
βj
!
E(ǫ2t ) = ω.
(2.36)
Puisque ω est strictement positif, on doit avoir (2.35).
Supposons maintenant que (2.35) soit vraie et cherchons une solution GARCH au
sens fort (définition 2) qui soit stationnaire. Pour t, k ∈ Z, définissons les vecteurs
à valeurs dans Rd suivants :
0
si k < 0
Zk (t) =
bt + At Zk−1 (t − 1) si k ≥ 0.
On a

si k < 0
 0
bt
si k = 0
Zk (t) − Zk−1(t) =

At {Zk−1 (t − 1) − Zk−2 (t − 1)} si k > 0.
En itérant ces relations on obtient, pour k > 0
Zk (t) − Zk−1(t) = At At−1 . . . At−k+1 bt−k .
X
Par ailleurs, pour la norme kAk =
|aij |, on a pour toute matrice aléatoire A à
X i,j
X
coefficients positifs, EkAk = E
|aij | = E
aij = kE(A)k. Donc, pour k > 0
i,j
i,j
EkZk (t) − Zk−1 (t)k = kE(At At−1 . . . At−k+1 bt−k )k,
37
car la matrice At At−1 . . . At−k+1 bt−k est positive. Tous les termes du produit
At At−1 . . . At−k+1 bt−k sont indépendants (car le processus (ηt ) est iid et chaque
terme du produit est fonction d’une variable ηt−i , les dates t − i étant distinctes).
Par ailleurs, A := E(At ) et b = E(bt ) ne dépendent évidemment pas de t. Finalement, pour k > 0
EkZk (t) − Zk−1 (t)k = kAk bk = (1, . . . , 1)Ak b
car tous les termes du vecteur Ak b sont positifs.
La condition (2.35) implique que les valeurs propres de A sont de module strictement inférieur à 1 : en effet on vérifie que
!
q
p
X
X
det(λId − A) = λp+q 1 −
αi λ−i −
βj λ−j ,
(2.37)
i=1
j=1
par exemple en retranchant la q + 1-ème ligne de λId − A à la première, puis en
développant le déterminant par rapport à la première ligne. Donc si |λ| ≥ 1, en
utilisant l’inégalité |a − b| ≥ |a| − |b|, on obtient
q
p
q
p
X
X
X
X
−i
−j αi −
βj > 0.
αi λ −
βj λ ≥ 1 −
| det(λId − A)| ≥ 1 −
i=1
i=1
j=1
j=1
Par suite, en utilisant la décomposition de Jordan, ou (2.21), il est facile de voir que
Ak → 0 à vitesse exponentielle quand k → ∞. Donc pour t fixé, Zk (t) converge à la
fois aux sens L1 , en utilisant le critère de Cauchy, et presque-sûr quand k → ∞. Soit
z t la limite de (Zk (t))k . A k fixé, le processus (Zk (t))t∈Z est strictement stationnaire.
Le processus limite z t l’est donc également. Par ailleurs il est clair que z t vérifie
l’équation (2.16).
2
Remarques.
1. Sous les conditions du théorème, l’unique solution stationnaire du modèle
(2.5) est, en utilisant (2.36), un bruit blanc de variance
Var(ǫt ) =
1−
ω
Pp
.
i=1 αi −
j=1 βj
Pq
2. Les conditions des Théorèmes 2.4 et 2.5 étant nécessaires et suffisantes, on a
forcément
" q
#
p
X
X
αi +
βi < 1 ⇒ γ < 0
i=1
j=1
38
Processus GARCH
puisque la solution stationnaire au second ordre du Théorème 2.5 l’est également strictement. On vérifie directement cette implication en remarquant
que si (2.35) est vraie, d’après la preuve précédente, le rayon spectral ρ(A)
est strictement inférieur à 1. Par ailleurs, d’après un résultat de Kesten et
Spitzer (1984, (1.4)), on a toujours : γ ≤ log ρ(A).
Lorsque
q
p
X
X
αi +
βj = 1
i=1
j=1
le modèle est appelé GARCH(p, q) intégré ou IGARCH(p, q) (voir Engle et Bollerslev (1986)). Cette dénomination est justifiée par l’existence d’une racine unité
dans la partie autorégressive de la représentation (2.4) et fait référence aux modèles
ARMA intégrés, ou ARIMA. Or, cette analogie peut être trompeuse : il n’existe
pas de solution stationnaire (stricte ou au 2nd ordre) d’un modèle ARIMA, tandis qu’il existe une solution strictement stationnaire d’un modèle IGARCH sous
des conditions très générales. On montre en effet que si la loi des ηt admet une
densité de support non borné, le modèle IGARCH(1,1) admet une unique solution
strictement stationnaire car
γ < log ρ(A) = 0
dans ce cas (voir Bougerol et Picard (1992), corollaire 2.2). Cette solution admet
une variance infinie d’après ce qui précède.
2.1.2
Propriétés de la distribution marginale
Dans cette partie, (ǫt ) désigne un processus strictement stationnaire solution du
modèle (2.5).
Moments d’ordre pair
Nous cherchons des conditions d’existence des moments d’ordre 2m où m est un entier non nul quelconque 8 . On suppose que le processus iid (ηt ) admet des moments
jusqu’à l’ordre 2m au moins, i.e. Eηt2m < ∞.
Notons ⊗ le produit tensoriel, ou produit de Kronecker, et rappelons qu’il est
défini de la manière suivante : pour deux matrices quelconques A = (aij )X
et B, on
a A ⊗ B = (aij B). On note k · k la norme matricielle définie par kAk =
|aij |.
i,j
8
On ne considère que les moments d’ordre pair, car si l’on fait une hypothèse de symétrie
pour la loi de ηt , les moments d’ordre impair, lorsqu’ils existent, sont nuls. Si cette hypothèse
n’est pas faite, ces moments semblent difficilement calculables.
39
Posons, pour k > 0,
At,k = At At−1 · · · At−k+1 ,
et z t,k = At,k bt−k
avec par convention At,0 = Ip+q et z t,0 = bt . En utilisant les égalités élémentaires
kAkkBk = kA ⊗ Bk = kB ⊗ Ak
et l’associativité du produit tensoriel, on a pour k > 0,
Ekz t,k km = EkAt,k bt−k ⊗ · · · ⊗ At,k bt−k k = kE(At,k bt−k ⊗ · · · ⊗ At,k bt−k )k
car les éléments de la matrice At,k bt−k sont positifs. Pour toute matrice A soit
A⊗m = A ⊗ · · · ⊗ A.
Pour tout vecteur X de taille le nombre de colonnes de A nous avons
(AX)⊗m = A⊗m X ⊗m
d’après la propriété du produit vectoriel : AB ⊗ CD = (A ⊗ C)(B ⊗ D), pour des
matrices telles que les produits AB et CD soient bien définis. Par suite
⊗m
Ekz t,k km = kE(At,k ⊗m bt−k ⊗m )k = kE(A⊗m
. . . A⊗m
t
t−k+1 bt−k )k
(2.38)
Notons
(m)
A(m) = E(A⊗m
= E(b⊗m
t ) et b
t ).
On obtient d’après (2.38)
Ekz t,k km = k(A(m) )k b(m) k
en utilisant l’indépendance entre les matrices du produit At . . . At−k+1 bt−k (car
chacune d’elles s’écrit en fonction d’une variable du processus iid (ηt ), les dates
étant différentes). La norme matricielle étant multiplicative, nous en déduisons, en
utilisant (2.18)
kz t km = {Ekz t km }1/m
∞
X
≤
kz t,k km
≤
k=0
(
∞
X
k=0
k(A(m) )k k1/m
)
kb(m) k1/m .
(2.39)
40
Processus GARCH
Si le rayon spectral de la matrice A(m) , ρ(A(m) ), est strictement inférieur à 1, on
sait que k(A(m) )k k converge vers zéro à vitesse exponentielle lorsque k tend vers
l’infini. Il est clair, par ailleurs, que
kǫ2t km ≤ kz t km
car la norme de z t est supérieure à celle de chacune de ses composantes. Une
(m)
condition suffisante d’existence de E(ǫ2m
)<
t ) est donc, d’après (2.39), que ρ(A
(m)
1. De plus, lorsque ρ(A ) < 1, le processus
ZK (t) =
K
X
z t,k
k=1
m
converge à la fois dans L et presque sûrement vers z t , pour t fixé et K → ∞.
Chacun des processus (ZK (t)) (K fixé) étant strictement stationnaire, (z t ) l’est
également. On vérifie facilement que (z t ) vérifie l’équation (2.16) et que cette solution strictement stationnaire est unique.
Inversement, supposons que (ǫt ) appartienne à Lm . Pour deux vecteurs x et y de
même dimension, notons x ≤ y si les composantes de y − x sont toutes positives.
Alors
⊗m
E(z ⊗m
t ) = E(z t,0 + · · · + z t,k + At . . . At−k z t−k−1 )
!⊗m
∞
X
≥ E
z t,k
k=0
≥
=
∞
X
k=0
∞
X
E(z ⊗m
t,k )
(A(m) )k b(m)
k=0
car tous les termes intervenant dans ces expressions sont positifs. Puisque toutes
(m)
les composantes de E(z ⊗m
) < 1. Nous
t ) sont finies, nous en déduisons que ρ(A
avons montré le résultat suivant.
Théorème 2.6 (Stationnarité à l’ordre 2m) Supposons que E(ηt2m ) < ∞ et
que
ρ(A(m) ) < 1.
Alors, pour tout t ∈ Z, la série (z t ) définie par (2.18) converge dans Lm et le
processus (ǫ2t ), défini comme la première composante de z t , est strictement stationnaire et admet des moments jusqu’à l’ordre m.
41
Inversement, si ρ(A(m) ) ≥ 1, il n’existe pas de solution strictement stationnaire
(ǫt ) de (2.5) telle que E(ǫ2m
t ) < ∞.
Exemple (Moments d’un processus GARCH(1, 1)). Lorsque p = q = 1, la matrice
At s’écrit
At = (ηt2 , 1)′ (α1 , β1 ).
⊗m
Donc toutes les valeurs propres de la matrice A(m) = E{(ηt2 , 1)′ }(α1 , β1 )⊗m
sont nulles à l’exception d’une seule. Celle-ci est donc la trace de A(m) . Il n’est
pas difficile de voir que la condition nécessaire et suffisante d’existence de E(ǫ2m
t )
s’écrit donc
m X
m
α1i β1m−i µ2i < 1
i
i=0
où µ2i =
i = 0, . . . , m. Le calcul des moments peut être effectué de
⊗m
manière récursive en développant E(z ⊗m
. Pour le moment
t ) = E(bt + At z t−1 )
d’ordre 4, il est plus simple d’effectuer un calcul direct :
E(ηt2i ),
E(ǫ4t ) = E(σt4 )E(ηt4 )
4
= µ4 ω 2 + 2ω(α1 + β1 )E(ǫ2t−1 ) + (β12 + 2α1 β1 )E(σt−1
) + α12 E(ǫ4t−1 )
d’où l’on tire
E(ǫ4t ) =
ω 2 (1 + α1 + β1 )
µ4
(1 − µ4 α12 − β12 − 2α1 β1 )(1 − α1 − β1 )
sous réserve de positivité du dénominateur.
On voit sur cet exemple que pour un processus GARCH, dès que les αi et βj sont
non tous nuls, les moments ne peuvent exister à tout ordre.
Kurtosis
Une façon simple de mesurer la taille des queues d’une distribution est d’utiliser le
coefficient de Kurtosis, défini, pour une distribution centrée admettant au moins
un moment d’ordre 2, comme le rapport du moment d’ordre 4 (éventuellement
infini) sur le carré du moment d’ordre 2. Ce coefficient vaut 3 dans le cas d’une
loi normale quelconque, cette valeur servant de référence. Dans le cas de processus
GARCH, il est intéressant de noter la différence entre les queues de distribution
conditionnelle et marginale. Pour une solution strictement stationnaire (ǫt ) du
modèle GARCH(p, q) défini par (2.5), les moments conditionnels d’ordre k sont
proportionnels à σt2k :
2k
2k
E(ǫ2k
t /ǫt−1 ) = σt E(ηt ).
42
Processus GARCH
Le coefficient de Kurtosis de cette distribution conditionnelle est donc constant
et égal au coefficient de Kurtosis de ηt . Il s’agit d’une propriété remarquable des
modèles GARCH qui les distinguent de certaines extensions que nous verrons plus
loin.
Dans le cas d’un processus général de la forme :
ǫt = σt ηt ,
où σt est une fonction mesurable du passé de ǫt , ηt est indépendant de ce passé et
(ηt ) est iid centré, le coefficient de Kurtosis de la loi marginale stationnnaire est
égal, s’il existe, à :
E[E(ǫ4t /ǫt−1 )]
E(ǫ4t )
E(σt4 )
κǫ :=
=
=
κη
{E(ǫ2t )}2
{E[E(ǫ2t /ǫt−1 )]}2
{E(σt2 )}2
où κη désigne le coefficient de Kurtosis de (ηt ). On voit ainsi que les queues de
distribution de (ǫt ) seront d’autant plus épaisses que la variance de σt2 est grande
relativement au carré de son espérance. Au minimum (c’est à dire en absence
d’effet ARCH) on retrouve le coefficient de kurtosis de (ηt ) :
κǫ ≥ κη
1.0
0.8
0.6
0.4
3
β1
1
2
0.2
0.0
0.0
0.2
0.4
0.6
α1 0.8
1.0
1.2
Fig. 2.3 – Régions d’existence des moments du modèle GARCH(1,1). 1 : Moment d’ordre
4 ; 1 et 2 : Moment d’ordre 2 ; 3 : Variance infinie.
43
avec égalité si et seulement si σt2 est presque sûrement constante.
Dans le cas d’un modèle GARCH(1,1) on a ainsi, d’après les calculs précédents
κǫ =
1 − (α1 + β1 )2
κη .
1 − (α1 + β1 )2 − α12 (µ4 − 1)
Dans le cas où ηt ∼ N (0, 1), la leptokurticité de la loi de (ǫt ) est donc une fonction
croissante de
α12 (µ4 − 1)
.
1 − (α1 + β1 )2
On notera l’asymétrie de ce coefficient : même si α + β est grand, la distribution
est peu leptokurtique si α1 est petit.
Calcul des autocovariances du carré du processus
La fonction d’autocorrélation de (ǫ2t ) jouera un rôle important dans la partie statistique. Elle s’obtient facilement à partir de la représentation ARMA(p ∧ q, p)
ǫ2t −
p∧q
X
i=1
(αi + βi )ǫ2t−i = ω + νt −
p
X
βi νt−i .
i=1
Il est plus difficile d’obtenir la fonction d’autocovariance car il faut calculer
Eνt2 = E(ηt2 − 1)2 Eσt4 .
On peut utiliser l’écriture vectorielle z t = bt + At z t−1 avec




ωηt2
2
ǫt
 0 
..


 . 
.


 . 
 2

 . 
 ǫt−q+1 


zt = 
 , bt =  ω 
2
σ




t


 0 
..




.
 ... 
2
σt−p+1
0
où At est définie en (2.17). En utilisant l’indépendance entre z t et (bt , At ), ainsi
que des propriétés élémentaires du produit de Kronecker, nous obtenons
Ez ⊗2
= E(bt + At z t−1 ) ⊗ (bt + At z t−1 )
t
= Ebt ⊗ bt + EAt z t−1 ⊗ bt + Ebt ⊗ At z t−1 + EAt z t−1 ⊗ At z t−1
⊗2
⊗2
= Eb⊗2
t + EAt ⊗ bt Ez t−1 + Ebt ⊗ At Ez t−1 + EAt Ez t−1 .
44
Processus GARCH
D’où
(2)
Ez ⊗2
t = I(p+q)2 − A
où
o
−1 n (2)
b + (EAt ⊗ bt + Ebt ⊗ At ) z (1)
A(m) = E(A⊗m
t ),
z (m) = Ez ⊗m
t
(2.40)
et b(m) = E(b⊗m
t ).
Pour le calcul de A(m) , on peut utiliser la décomposition At = ηt2 B + C, où B et
C sont des matrices déterministes. On a alors, en posant µm = Eηtm ,
A(2) = E(ηt2 B + C) ⊗ (ηt2 B + C) = µ4 B ⊗2 + B ⊗ C + C ⊗ B + C ⊗2 .
On obtient
EAt ⊗ bt et Ebt ⊗ At . Toutes les composantes de z (1) valent
P de même
P
ω/(1 − αi − βi ). Notons que pour h > 0, on a
Ez t ⊗ z t−h = E bt + At z t−1 ⊗ z t−h
= b(1) ⊗ z (1) + A(1) ⊗ Ip+q Ez t ⊗ z t−h+1 ,
(2.41)
où Ip+q désigne la matrice identité de taille p + q.
2
Soit e1 le premier vecteur de la base canonique de R(p+q) . On peut alors proposer
l’algorithme suivant :
– On définit les vecteurs z (1) , b(1) , b(2) , et les matrices EAt ⊗ bt , Ebt ⊗ At , A(1) ,
A(2) en fonction des αi , βi et de ω, µ4 ;
– On calcule Ez ⊗2
à l’aide de (2.40) ;
t
– Pour h = 1, 2, . . . , on calcule Ez t ⊗ z t−h à l’aide de (2.41) ;
2
– Pour h = 0, 1, . . . , on obtient γǫ2 (h) = e′1 Ez t ⊗ z t−h - e′1 z (1) .
Cet algorithme n’est bien sûr pas très performant en temps de calcul et place
mémoire, mais il est facile à programmer.
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
h
2
4
6
8
10
12
h
2
4
6
8
10
12
Fig. 2.4 – Fonction d’autocorrélation (graphe de gauche) et fonction d’autocorrélation partielle (graphe de droite) du carré du modèle GARCH(1,1) :
2
0.55σt−1
, (ηt ) iid N (0, 1)
ǫt = σt ηt ,
σt2 = 1 + 0.3ǫ2t−1 +
45
Prévisions théoriques
La définition des processus GARCH en termes d’espérances conditionnelles permet
de calculer les prévisions optimales du processus et de son carré sachant le passé
infini.
Soit (ǫt ) un processus stationnaire, GARCH(p, q) au sens de la définition 2.1. La
prévision optimale (au sens L2 ) de ǫt sachant son passé infini est 0 d’après (i). Plus
généralement, pour h ≥ 0
E (ǫt+h | ǫu , u < t) = E {E (ǫt+h | ǫu , u < t + h) | ǫu , u < t} = 0,
t∈Z
ce qui montre que la prévision optimale de toute variable du futur sachant le passé
infini est nulle. Le principal intérêt des modèles GARCH ne réside évidemment
pas dans la prévision de la variable elle-même mais dans celle de son carré. En
utilisant (ii), la prévision optimale de ǫ2t sachant le passé infini de ǫt est σt2 et plus
généralement, les prévisions à horizon h ≥ 0 s’obtiennent récursivement par
2
E(ǫ2t+h | ǫu , u < t) = E(σt+h
| ǫu , u < t)
q
p
X
X
2
2
= ω+
αi E(ǫt+h−i | ǫu , u < t) +
βj E(σt+h−j
| ǫu , u < t)
i=1
j=1
avec pour i ≤ h
2
E(ǫ2t+h−i | ǫu , u < t) = E(σt+h−i
| ǫu , u < t),
pour i > h
et pour i ≥ h
E(ǫ2t+h−i | ǫu , u < t) = ǫ2t+h−i ,
2
2
E(σt+h−i
| ǫu , u < t) = σt+h−i
.
Ces prévisions coïncident avec les prévisions linéaires optimales de ǫ2t sachant son
passé infini. Nous verrons plus loin une classe de modèles GARCH en un sens plus
général (GARCH faibles) pour lesquels les deux types de prévision, optimales et
linéaires optimales, ne coïncident pas nécessairement.
Il est important de remarquer que E(ǫ2t+h | ǫu , u < t) = Var(ǫt+h | ǫu , u < t) est
la variance conditionnelle de l’erreur de prévision de ǫt+h . Ainsi, la précision des
prévisions dépend-elle du passé : celle-ci est d’autant plus faible que les valeurs
passées sont grandes en module (en supposant positifs les coefficients αi et βj ).
Cette propriété constitue une différence notable par rapport aux ARMA standard,
pour lesquels les intervalles de prévision sont d’amplitude constante en fonction
des valeurs passées, pour un horizon de prévision donné.
46
Processus GARCH
Les figures qui suivent permettent de vérifier cette différence à partir de simulations. Dans la figure 2.5, obtenu avec un bruit fort gaussien, les prévisions à horizon
1 sont de variance constante : l’intervalle de confiance [−1.96, 1.96] contient environ 95% des réalisations. L’utilisation d’un intervalle constant pour les trois séries
suivantes, figures 2.6-2.8, conduirait à de très mauvais résultats. Au contraire, les
intervalles construits ici (pour des lois conditionnelles gaussiennes, centrées et de
variance σt2 ) contiennent bien 95% (environ) des observations : dans les périodes
calmes un petit intervalle suffit, tandis que dans les périodes agitées l’incertitude
augmente et il convient d’en tenir compte.
Pour un processus GARCH fort il est possible d’aller plus loin en calculant les
prévisions optimales de puissances de ǫ2t à condition de disposer des moments
correspondants du processus (ηt ). Par exemple, calculer les prévisions de ǫ4t permet
d’évaluer la variance des erreurs de prévision de ǫ2t . Cependant les calculs sont
fastidieux, la propriété de linéarité étant perdue pour ces puissances.
Lorsque le processus GARCH n’est pas directement observé mais représente l’innovation d’un processus ARMA, la précision des prévisions de ce dernier à une date
t dépend directement de l’importance de l’hétéroscédasticité conditionnelle à cette
date. Considérons par exemple un processus AR(1) stationnaire dont l’innovation
3
1
-1
-3
100
200
300
400
500
Fig. 2.5 – Intervalles de prévision à horizon 1, à 95%, pour le bruit blanc fort de loi
N (0, 1)
47
est un processus GARCH(1,1) :

 Xt = φXt−1 + ǫt
ǫt = σt ηt
 2
2
σt = ω + αǫ2t−1 + βσt−1
(2.42)
13
8
3
-2
-7
-12
100
200
300
400
500
Fig. 2.6 – Intervalles de prévision à horizon 1, à 95%, pour le processus GARCH(1,1)
simulé avec ω = 1, α = 0.1, β = 0.8 et (ηt ) de loi N (0, 1)
30
20
10
0
-10
-20
-30
100
200
300
400
500
Fig. 2.7 – Intervalles de prévision à horizon 1, à 95%, pour le processus GARCH(1,1)
48
Processus GARCH
où ω > 0, α ≥ 0, β ≥ 0, α + β ≤ 1 et |φ| < 1. On a, pour h ≥ 0
Xt+h = ǫt+h + φǫt+h−1 + · · · + φh ǫt + φh+1 Xt−1 .
Donc
E(Xt+h | Xu , u < t) = φh+1 Xt−1
car le passé de Xt et celui de son innovation ǫt coïncident. De plus
Var(Xt+h | Xu , u < t) = Var
=
h
X
i=0
h
X
i=0
!
φh−i ǫt+i | ǫu , u < t
φ2(h−i) Var (ǫt+i | ǫu , u < t) .
Or, Var(ǫt | ǫu , u < t) = σt2 et pour i ≥ 1
2
2
Var(ǫt+i | ǫu , u < t) = E(σt+i
| ǫu , u < t) = ω + (α + β)E(σt+i−1
| ǫu , u < t)
i−1
i 2
= ω{1 + · · · + (α + β) } + (α + β) σt ,
donc
Var(ǫt+i | ǫu , u < t) = ω
1 − (α + β)i
+ (α + β)i σt2 ,
1 − (α + β)
pour tout i ≥ 0.
50
0
-50
-100
100
200
300
400
500
Fig. 2.8 – Intervalles de prévision à horizon 1, à 95%, pour le processus IGARCH(1,1)
49
Par suite
Var(Xt+h | Xu , u < t)
!
h
X
=
φ2(h−i)
h
X
ω
ω
i 2(h−i)
2
+
(α + β) φ
σt −
1 − (α + β) i=0
1 − (α + β)
i=0
ω(1 − φ2(h+1) )
ω
φ2(h+1) − (α + β)(h+1)
2
=
+
σ
−
t
{1 − (α + β)}(1 − φ2 )
1 − (α + β)
φ2 − (α + β)
si φ2 6= α + β et
Var(Xt+h
ω
ω(1 − φ2(h+1) )
2
| Xu , u < t) =
+ σt −
(h + 1)φ2h
(1 − φ2 )2
1 − (α + β)
ω
si φ2 = α + β. Le coefficient en facteur de σt2 − 1−(α+β)
étant toujours positif, on
constate que la variance de la prévision à horizon h augmente linéairement avec
l’écart entre la variance conditionnelle à la date t et la variance non conditionnelle
de ǫt . Un écart fortement négatif (période de faible volatilité) a donc pour effet une
forte précision dans les prévisions. Inversement, cette précision se déteriore lorsque
σt2 est grand. Lorsque l’horizon h augmente l’importance de ce facteur diminue. Si
h tend vers l’infini, on retrouve la variance non conditionnelle de Xt :
lim Var(Xt+h | Xu , u < t) = Var(Xt ) =
h→∞
Var(ǫt )
.
1 − φ2
Considérons maintenant deux cas non stationnaires. Si |φ| = 1, et en initialisant,
par exemple à 0, toutes les variables des dates négatives (car ici, les passés infinis de
Xt et ǫt ne coïncident pas) on vérifie facilement que la formule précédente devient
Var(Xt+h | Xu , u < t)
ωh
ω
1 − (α + β)(h+1)
2
=
+ σt −
.
{1 − (α + β)}
1 − (α + β)
1 − (α + β)
Donc l’impact des observations antérieures à la date t ne disparaît pas quand h
augmente. Il devient cependant négligeable devant la partie déterministe proportionnelle à h.
Si |φ| < 1 et α + β = 1 (erreurs IGARCH(1,1)), on a
Var(ǫt+i | ǫu , u < t) = ωi + σt2 ,
pour tout i ≥ 0
et on voit que l’impact des variables passées sur la variance des prévisions reste
constant lorsque l’horizon augmente. On parle de persistance des chocs sur la volatilité. Notons cependant que, comme dans le cas précédent, la partie non aléatoire
dans la décomposition de Var(ǫt+i | ǫu , u < t) devient prépondérante lorsque l’horizon tend vers l’infini. La précision asymptotique des prévisions de ǫt est nulle, et
il en est de même pour Xt car Var(Xt+h | Xu , u < t) ≥ Var(ǫt+h | ǫu , u < t).
50
2.2
Processus GARCH
Asymétries
Les modèles GARCH “classiques” de la partie précédente reposent sur une modélisation de la variance conditionnelle comme fonction affine du carré des innovations
passées. Cette spécification a le mérite de capter deux caractéristiques importantes
des séries financières - succession de périodes calmes et turbulentes, leptokurticité
des distributions marginales - tout en étant suffisamment simple pour permettre
une étude étendue des propriétés probabilistes et statistiques du modèle.
Du point de vue empirique, la modélisation GARCH classique présente une lacune
importante. Par construction, en effet, la variance conditionnelle ne dépend que
du module des variables passées : l’effet sur la volatilité de la date présente des
innovations passées positives et négatives est donc identique. Cette propriété est en
contradiction avec avec de nombreuses études sur les séries d’action, qui mettent en
évidence une corrélation négative entre le carré des innovations de la date présente
et les innovations passées : si la distribution conditionnelle était symétrique en
les variables passées, cette corrélation serait nulle. Or, on observe une asymétrie
marquée : l’accroissement de volatilité dû à une baisse des prix est généralement
supérieur à celui résultant d’une hausse de même ampleur.
Cette symétrie des modèles GARCH standard a la traduction suivante en termes
de corrélations. Dès que le processus (ηt ) est de loi symétrique, et sous hypothèse
de stationnarité au second-odre :
cov(σt , ǫt−h ) = 0,
(2.43)
h > 0,
car σt est une fonction paire du passé de ǫt . Or si on introduit les composantes
positive et négative des innovations
ǫ+
t = max(ǫt , 0),
ǫ−
t = min(ǫt , 0)
on voit facilement que (2.43) équivaut à
−
cov(ǫ+
t , ǫt−h ) = cov(ǫt , ǫt−h ) = 0,
h > 0.
Cette propriété des autocovariances, facile à vérifier empiriquement, est souvent
rejetée sur les séries financières. A titre d’exemple, on obtient pour la série des
rendements en logarithme de l’indice CAC40, (ǫt = log(pt /pt−1 )), présentée au
chapitre 1 :
L’absence de corrélations significatives ainsi que la corrélation des modules ou carrés des innovations, propriétés à la base de la construction des modèles GARCH
51
2.2 Asymétries
Tab. 2.2 – Autocorrélations empiriques (série du CAC 40, période 88-98)
h
1
2
3
4
5
10
20
40
ρ(ǫt , ǫt−h )
0.030
0.005
−0.032
0.028
−0.046∗
0.016
0.003
−0.019
ρ(|ǫt |, |ǫt−h |) 0.090∗
0.100∗
0.118∗
0.099∗
0.086∗
0.118∗
0.055∗
0.032
∗
∗
∗
∗
ρ(ǫ+
,
ǫ
)
0.011
−0.094
−0.148
−0.018
−0.127
−0.039
−0.026
−0.064∗
t−h
t
Les astérisques indiquent les paramètres statistiquement significatifs au niveau 5% en utilisant 1/n comme approximation de la variance des autocorrélations et pour n égal à 2380.
standard, apparaît assez clairement sur ces données. Toute aussi évidente est l’existence d’une asymétrie dans l’impact des innovations passées sur la volatilité de la
date présente. Plus précisément, en admettant la stationnarité faible du processus
(ǫt ) et l’existence d’une décomposition ǫt = σt ηt , où (ηt ) est une suite de variables
iid et σt une fonction mesurable positive du passé de ǫt on a
+
−
ρ(ǫ+
t , ǫt−h ) = Kcov(σt , ǫt−h ) = K[cov(σt , ǫt−h ) + cov(σt , ǫt−h )]
où K est une constante positive. Or, sauf pour h = 1 pour lequel l’autocorrélation n’est pas significative, les estimations de ρ(ǫ+
t , ǫt−h ) sont significativement
négatives : donc
−
cov(σt , ǫ+
t−h ) < cov(σt , −ǫt−h ).
On met ainsi en évidence un plus forte dépendance de la volatilité présente aux
baisses de prix passées qu’aux hausses de même ampleur.
Les modèles de type GARCH que nous allons considérer dans cette partie permettent d’incorporer cette propriété d’asymétrie.
2.2.1
Modèles GARCH exponentiels (EGARCH)
La définition suivante est calquée sur celle des GARCH forts.
Définition 2.3 (Processus EGARCH(p, q)) Soit (ηt ) une suite de variables iid
telles que E(ηt ) = 0 et Var(ηt ) = 1. On dit que (ǫt ) est un processus GARCH
exponentiel (exponential GARCH(p, q)) s’il vérifie une équation de la forme
ǫt
= σt ηt P
P
(2.44)
2
2
log σt = ω + qi=1 αi g(ηt−i ) + pj=1 βj log σt−j
où
g(ηt−i ) = θηt−i + γ[|ηt−i | − E|ηt−i |],
ω, αi , βj , θ et γ sont des réels.
Remarques.
(2.45)
52
Processus GARCH
1. La modélisation de la volatilité
σt2
ω
=e
q
Y
exp{αi g(ηt−i )}
i=1
p
Y
2
σt−j
j=1
βj
est ici multiplicative. Ce choix permet a priori d’éviter les conditions de
positivité sur les coefficients, le logarithme pouvant être de signe quelconque.
2. L’interprétation usuelle selon laquelle des innovations de grand module accroissent la volatilité impose cependant des contraintes sur les coefficients.
2
Afin de rendre σt2 fonction croissante des σt−j
on imposera βj ≥ 0. La fonction g(ηt−i ) est croissante en |ηt−i |, à signe de ηt−i fixé, si et seulement si
γ + θ > 0 et −γ + θ < 0. Sous cette hypothèse et si αi ≥ 0, σt2 est une
fonction croissante de ηt−i . On obtient finalement les contraintes suivantes
−γ < θ < γ,
αi ≥ 0,
βj ≥ 0.
(2.46)
3. L’asymétrie est prise en compte par l’intermédiaire du coefficient θ. La volatilité ne dépend que du module des ηt−i lorsque θ = 0. Si maintenant, par
exemple, θ < 0 et log σt2 = ω + θηt−1 , il est clair que si ηt−1 < 0, c’est à dire
ǫt−1 < 0, la variable log σt2 sera au dessus de sa moyenne tandis qu’elle sera
en dessous si ǫt−1 > 0. On retrouve donc la propriété des séries financières
signalée en début de partie.
4. Une autre différence par rapport aux GARCH classiques réside dans l’écriture
de la variance conditionnelle comme fonction des innovations normalisées (divisées par leur écart-type conditionnel), plutôt que fonction des innovations
passées. En particulier, log σt2 est un processus ARMA au sens fort (d’ordre
(p, q − q ′ ) si q ′ est le premier indice i tel que αi 6= 0), car (g(ηt )) est un bruit
blanc indépendant, de variance
Var[g(ηt )] = θ2 + γ 2 Var(|ηt |) + 2θγCov(ηt , |ηt |).
D’autres spécifications de la fonction g(·) peuvent être envisagées selon le type de
propriétés empiriques que l’on souhaite reproduire. Le résultat suivant ne dépend
pas de la spécification retenue pour g(·).
Théorème 2.7 (Stationnarité stricte du modèle EGARCH(p, q)) Si θ et
q
p
X
X
γ sont non tous deux nuls, les polynômes α(z) =
αi z i et β(z) = 1 −
βi z i
i=1
i=1
n’ont pas de racine commune, α(z) est non identiquement nul, β(z) a toutes
ses racines de module strictement supérieur à 1, le modèle EGARCH(p, q) défini en (2.44) admet une solution strictement stationnaire et non anticipative. Si
E{g(ηt )}2 < ∞ cette solution vérifie E(log ǫ2t ) < ∞.
53
2.2 Asymétries
Preuve : On a log ǫ2t = log σt2 + log ηt2 . Les hypothèses sur les polynômes retard
permettent d’exprimer de manière unique log σt2 en fonction de ηt−1 et de son passé
infini sous forme moyenne mobile infinie :
log σt2
∗
=ω +
∞
X
(2.47)
λi g(ηt−i ),
i=1
Les processus (log σt2 ) et (log ǫ2t ) sont par suite strictement stationnaires, et stationnaires au second ordre sous la condition E(log ǫ2t ) < ∞.
2
Remarquons que la condition E{g(ηt)}2 < ∞ est évidemment vérifiée dans le cas
de la spécification (2.45).
Théorème 2.8 (Stationnarité au 2nd ordre du modèle EGARCH(p, q))
Sous les hypothèses du Théorème 2.7, (2.45), (2.46) et si de plus
0<
∞
Y
i=1
où gη (x) = E[exp{xg(ηt )}] et les λi sont définis par
est un bruit blanc de variance
E(ǫ2t )
=
(2.48)
gη (λi ) < ∞
E(σt2 )
ω∗
=e
∞
Y
α(L)
β(L)
=
P∞
i=1
λi Li , alors (ǫ2t )
gη (λi )
i=1
où ω ∗ =
ω
.
β(1)
Preuve : D’après le développement (2.47) on a
ǫ2t = σt2 ηt2 = eω
∗
∞
Y
exp{λi g(ηt−i)}ηt2 .
(2.49)
i=1
Remarquons que les coefficients λi sont positifs sous l’hypothèse (2.46). On a donc
ǫ2t = eω
∗
∞
Y
i=1
exp{λi (θηt−i + γ|ηt−i |)}
∞
Y
i=1
exp{−λi γE|ηt |)}ηt2 .
(2.50)
54
Processus GARCH
où le premier produit infini est limite croissante, en vertu des conditions (2.46),
N
Y
de la suite
exp{λi (θηt−i + γ|ηt−i |)}. Le second produit est un réel positif car la
i=1
somme des λi converge. Le théorème de Beppo-Levi permet de conclure que
Eǫ2t = eω
∗
∞
Y
i=1
E exp{λi (θηt−i + γ|ηt−i |)}
∞
Y
i=1
exp{−λi γE|ηt |)} = eω
∗
∞
Y
gη (λi ).
i=1
2
Remarques :
1. Dans le cas où βj = 0 pour j = 1, . . . , p (modèle EARCH(q)), les coefficients
λi s’annulent pour i > q. Donc la condition (2.48) est toujours vraie, pourvu
que gη (αi ) soit fini, pour i = 1, . . . , q. Si les queues de la loi de ηt ne sont
pas trop épaisses (la condition est en défaut pour une loi de Student et la
spécification (2.45)), un processus EARCH(q) est donc stationnaire, au sens
strict et au second ordre, quels que soient les coefficients αi .
2. Si la loi des variables ηt est N (0, 1), et si g(·) vérifie (2.45), un calcul classique
d’intégrale montre que
2
λi (θ + γ)2
1/2
gη (λi ) = exp{−λi γ(2/π) } exp
Φ{λi (θ + γ)}
2
2
λi (θ − γ)2
Φ{λi (γ − θ)}
+ exp
2
où Φ désigne la fonction de répartition de la loi N (0, 1). Comme les λi résultent de l’inversion du polynôme β(.), ils décroissent exponentiellement vite
vers zéro. On vérifie donc facilement que (2.48) est vraie dans ce cas, sans
hypothèse supplémentaire sur les coefficients du modèle. Les conditions de
stationnarité stricte et au second-ordre coïncident donc dans ce cas, contrairement à ce qui se passe dans le cas des processus GARCH standard.
Théorème 2.9 (Moments du processus EGARCH(p, q)) Soit m un entier
positif. Sous les conditions du Théorème 2.8 et si
∞
Y
µ2m = E(ηt2m ) < ∞,
i=1
gη (mλi ) < ∞,
(ǫ2t ) admet un moment à l’ordre m donné par
E(ǫ2m
t )
mω ∗
= µ2m e
∞
Y
i=1
gη (mλi ).
55
2.2 Asymétries
Preuve : similaire à celle du Théorème 2.8 et utilisant (2.49).
2
Le calcul précédent montre que, dans le cas gaussien, tous les moments existent. Le
modèle n’est alors pas adapté à la prise en compte de la propriété de leptokurticité.
La structure d’autocorrélation du processus (log ǫ2t ) peut être obtenue en tirant
parti de la forme ARMA de l’équation de log σt2 . On obtient en effet, en remplaçant
2
2
dans cette équation les log σt−j
par log ǫ2t−j − log ηt−j
log ǫ2t
=ω+
log ηt2
+
q
X
αi g(ηt−i ) +
i=1
p
X
βj log ǫ2t−j
j=1
−
p
X
2
βj log ηt−j
.
j=1
Posons
vt = log ǫ2t −
p
X
βj log ǫ2t−j = ω + log ηt2 +
j=1
q
X
i=1
αi g(ηt−i ) −
p
X
2
βj log ηt−j
.
j=1
On vérifie facilement que (vt ) est de variance finie. Comme vt ne dépend que
d’un nombre r fini (r = max(p, q)) de valeurs passées de ηt , il est clair que
Cov(vt , vt−k ) = 0 pour k > r. Donc (vt ) est un processus MA(r) (avec terme
constant) et par suite (log ǫ2t ) est un ARMA(p, r). Ce résultat présente des similitudes avec le cas des GARCH classiques, pour lesquels nous savons qu’une écriture
ARMA(r, p) existe pour ǫ2t . Outre l’inversion des entiers r et p, il est important
de noter que le bruit de l’équation ARMA d’un GARCH est l’innovation forte du
carré, tandis que celui intervenant dans l’équation ARMA d’un EGARCH n’est généralement pas l’innovation de log ǫ2t . Sous cette réserve, la représentation ARMA
peut être utile pour l’identification des ordres p et q ainsi que pour l’estimation
des paramètres βj et αi (mais ces derniers n’apparaissent pas explicitement dans
la représentation).
Les autocorrélations de (ǫ2t ) s’obtiennent à partir de la formule (2.49). On a, sous
réserve d’existence, pour h > 0
(
h−1
Y
2 2
2ω ∗
2
E(ǫt ǫt−h ) = E e
exp{λi g(ηt−i )}ηt2 ηt−h
exp{λi g(ηt−h )}
×
2ω ∗
= e
i=1
∞
Y
exp{(λi + λi−h )g(ηt−i )}
i=h+1
h−1
Y
i=1
2
gη (λi )E(ηt2 ηt−h
)
exp{λi g(ηt−h )})
∞
Y
i=h+1
gη (λi + λi−h ),
56
Processus GARCH
le premier produit étant remplacé par 1 si h = 1. Ceci permet d’obtenir, pour
h>0
"h−1
∞
Y
Y
∗
2
Cov(ǫ2t , ǫ2t−h ) = e2ω
gη (λi )E(ηt−h
exp{λi g(ηt−h )})
gη (λi + λi−h )
i=1
−
2.2.2
∞
Y
i=1
i=h+1
#
{gη (λi )}2 .
Modèles GARCH à seuil (TGARCH)
Une façon naturelle d’introduire l’asymétrie est de spécifier la variance conditionnelle en fonction des composantes positive et négative des innovations passées.
Notons
ǫ+
ǫ−
t = max(ǫt , 0),
t = min(ǫt , 0)
−
ces composantes, en remarquant que ǫt = ǫ+
t + ǫt .
Définition 2.4 (Processus TGARCH(p, q)) Soit (ηt ) une suite de variables
iid telles que E(ηt ) = 0 et Var(ηt ) = 1. On dit que (ǫt ) est un processus GARCH
à seuil (Threshold GARCH(p, q)) s’il vérifie une équation de la forme
ǫt = σt ηt P
Pp
(2.51)
−
σt = ω + qi=1 αi,+ ǫ+
t−i − αi,− ǫt−i +
j=1 βj σt−j
où ω, αi,+ , αi,− et βi sont des réels.
Remarques.
1. Sous les contraintes
ω > 0,
αi,+ ≥ 0,
αi,− ≥ 0,
βi ≥ 0
(2.52)
la variable σt est toujours strictement positive et s’interprète comme l’écarttype conditionnel de ǫt . Comme dans le cas GARCH classique, ces contraintes
peuvent être affaiblies. Dans tous les cas, l’écart-type conditionnel de ǫt est
|σt | : il n’est pas nécessaire d’imposer la positivité de σt (par opposition aux
GARCH classiques fondés sur la modélisation de σt2 ).
2. A travers les coefficients αi,+ et αi,− , la volatilité présente dépend à la fois
du module et du signe des innovations passées. La modélisation est suffisamment souple pour permettre une asymétrie différente selon l’écart i entre
dates passées et date présente. Notons également que cette classe contient
57
2.2 Asymétries
comme cas particuliers des modèles ne présentant pas d’asymétrie et dont
les propriétés sont similaires à celles des GARCH. Il suffit en effet d’imposer
pour tout i = 1, . . . , q, αi,+ = αi,− := αi pour obtenir
σt = ω +
q
X
i=1
αi |ǫt−i | +
p
X
βj σt−j
j=1
−
(puisque |ǫt | = ǫ+
t − ǫt ).
Les modèles TGARCH présentent des propriétés de linéarité analogues à celles des
GARCH. Remarquons d’abord que sous les hypothèses de positivité (2.52) on a
+
ǫ+
t = σt ηt ,
−
ǫ−
t = σt ηt
(2.53)
ce qui permet d’écrire l’écart-type conditionnel sous la forme
max{p,q}
σt = ω +
X
ai (ηt−i )σt−i
i=1
où ai (z) = αi,+ z + − αi,− z − + βi , i = 1, . . . , max{p, q}.
Stationnarité du modèle TGARCH(1,1)
L’étude de la stationnarité du processus TGARCH(1,1) découle de cette écriture
et de l’analyse menée dans le cas des GARCH(1,1). La condition de stationnarité
stricte sécrit
E[log(α1,+ ηt+ − α1,− ηt− + β1 )] < 0.
En particulier, pour le modèle TARCH(1) (β1 = 0) on a
log(α1,+ ηt+ − α1,− ηt− ) = log(α1,+ )IIηt >0 + log(α1,− )IIηt <0 + log |ηt |
donc, si (ηt ) est de loi symétrique l’espérance des deux variables indicatrices vaut
1/2 et la condition de stationnarité stricte devient
α1,+ α1,− < e−2E log |ηt | .
La condition de stationnarité au second ordre est
E[(α1,+ ηt+ − α1,− ηt− + β1 )2 ] < 1
et peut être explicitée en fonction des deux premiers moments de ηt+ et ηt− . Par
exemple si ηt est de loi N (0, 1) on obtient
1 2
2β1
2
(α1,+ + α1,−
) + √ (α1,+ + α1,− ) + β12 < 1.
2
2π
58
Processus GARCH
Comme dans le cas GARCH(1,1), la condition de stationnarité au second ordre
est plus forte que celle de stationnarité stricte.
Sous l’hypothèse de stationnarité au second ordre, on voit facilement que la propriété de symétrie (2.43) est violée. En supposant symétrique la distribution de ηt ,
on a par exemple pour le modèle TARCH(1,1) :
+ 2
2
− 2
cov(σt , ǫt−1 ) = α1,+ E(ǫ+
t−1 ) − α1,− E(ǫt−i ) = (α1,+ − α1,− )E(ǫt−i ) 6= 0
dès que α1,+ 6= α1,− .
Stationnarité stricte du modèle TGARCH(p, q)
L’étude du cas général repose sur une représentation analogue
à (2.16) obtenue en
+
ǫt−i
2
remplaçant dans le vecteur z t les variables ǫ2t−i par
et les σt−i
par σt−i ,
−ǫ−
t−i
et en modifiant de manière adéquate bt et At . Plus précisément, en utilisant (2.53)
on obtient
(2.54)
z t = bt + At z t−1 ,
où







bt = b(ηt ) = 





et
ωηt+
−ωηt−
0
..
.
ω
0
..
.
0







 ∈ Rp+2q ,






ǫ+
t
−ǫ−
t
..
.




 +
 ǫ
z t =  t−q+1
 −ǫ−
t−q+1

σt


..

.
σt−p+1







 ∈ Rp+2q ,





59
2.2 Asymétries
At =

α1,+ ηt+
α1,− ηt+ · · ·
−
 −α1,+ ηt −α1,− ηt− · · ·

1
0
···






















0
1
0
···
···
···
..
.
..
.
..
0
...
1
α1,+
α1,−
0
···
0
..
.
..
0
.
αq,+ ηt+
αq,− ηt+
β1 ηt+
−
−
−αq,+ ηt −αq,− ηt −β1 ηt−
0
0
0
..
.
0
0
..
.
0
0
0
...
αq,+
αq,−
β1
···
0
0
1
···
···
0
0
0
0
..
.
..
.
..
.
..
0
0
...
..
.
...
0

···
..
.
.
βp ηt+
−βp ηt− 

0

···
···
···
..
0
..
.
.
0
0
βp
···
0
0
..
.
.
1
0





















(2.55)
est une matrice de dimension (p + 2q) × (p + 2q).
Théorème 2.10 (Stationnarité stricte du modèle TGARCH(p, q)) Une
condition nécessaire et suffisante d’existence d’un processus TGARCH(p, q) strictement stationnaire, solution non anticipative du modèle (2.51) est que γ < 0, où γ
est le plus grand exposant de Lyapounov de la suite {At , t ∈ Z} définie par (2.55).
Cette solution stationnaire non anticipative, lorsque γ < 0, est unique et ergodique.
Preuve : L’adaptation de la partie suffisante de la preuve du Théorème 2.4
est immédiate. Pour la partie nécessaire on remarque que les termes des matrices At , bt et z t sont positifs. Ceci permet d’obtenir comme précédemment
que A0 . . . A−k b−k−1 tend presque sûrement vers 0 quand k → ∞. Or b−k−1 =
+
−
ωη−k−1
e1 − ωη−k−1
e2 + ωe2q+1 . Donc, en utilisant la positivité, on a
+
lim A0 . . . A−k ωη−k−1
e1 =
k→∞
=
−
lim A0 . . . A−k ωη−k−1
e2
k→∞
lim A0 . . . A−k ωe2q+1 = 0,
k→∞
p.s.
On en déduit que limk→∞ A0 . . . A−k ei = 0, p.s. pour i = 1, . . . 2q + 1 par récurrence, de manière similaire au cas GARCH.
2
60
2.3
Processus GARCH
Agrégation temporelle
La plupart des séries économiques, et plus particulièrement les séries financières,
sont analysées à différentes fréquences (jour, semaine, mois..). Le choix de la fréquence d’observation a souvent une importance cruciale quant aux propriétés de
la série étudiée et, par suite, au type de modèle adapté. Dans le cas des modèles
GARCH, les travaux empiriques font généralement apparaître une persistance plus
forte lorsque la fréquence augmente. Nous prenons comme cadre de travail la formulation classique de la volatilité mais il est clair que les classes de modèles asymétriques vues précédemment pourraient être étudiées de la même façon.
Du point de vue théorique, le problème de l’agrégation temporelle peut être posé
de la manière suivante : étant donnés un processus (Xt ) et un entier m, quelles
sont les propriétés du processus échantillonné (Xmt ) (i.e. construit à partir de (Xt )
en ne retenant que les dates multiples de m) ? Lorsque, pour tout entier m et pour
tout modèle d’une classe donnée, admettant (Xt ) comme solution, il existe un
modèle de la même classe dont (Xmt ) soit solution, cette classe est dite stable par
agrégation temporelle.
Un exemple très simple de modèle stable par agrégation temporelle est évidemment
le bruit blanc (fort ou faible) : la propriété d’indépendance (ou de non corrélation)
subsiste lorsque l’on passe d’un fréquence donnée à une fréquence plus faible. Par
contre, les modèles ARMA au sens fort ne sont généralement pas stables par
agrégation temporelle. Ce n’est qu’en relâchant l’hypothèse d’indépendance du
bruit (ARMA faibles) qu’on obtient l’agrégation temporelle.
2.3.1
Agrégation temporelle des processus GARCH
Nous allons voir dans cette partie que, comme la plupart des modèles forts (i.e.
fondés sur un bruit blanc iid), les modèles GARCH au sens fort ou semi-fort
(i.e. au sens de la définition 1), ne sont pas stables par agrégation : un modèle
GARCH à une fréquence donnée n’est pas compatible avec un modèle GARCH à
une autre fréquence. Comme pour les ARMA, on obtient l’agrégation temporelle
en travaillant sur une classe plus large.
Non agrégation temporelle des modèles forts : l’exemple de
l’ARCH(1).
Considérons une solution (ǫt ) du modèle : ǫt = {ω + αǫ2t−1 }1/2 ηt , avec 0 < α < 1,
(ηt ) iid(0,1), E(ηt4 ) = µ4 < ∞. On obtient facilement le modèle vérifié par les
variables des dates paires :
2
2
ǫ2t = {ω(1 + αη2t−1
) + α2 ǫ22(t−1) η2t−1
}1/2 η2t .
61
2.3 Agrégation temporelle
On en déduit que
E(ǫ2t |ǫ2(t−1) , ǫ2(t−2) , . . .)
= 0
Var(ǫ2t |ǫ2(t−1) , ǫ2(t−2) , . . .) = ω(1 + α) + α2 ǫ22(t−1)
car η2t et η2t−1 sont indépendantes des variables intervenant dans le conditionnement. Ainsi, le processus (ǫ2t ) est un GARCH au sens semi-fort (définition 1). Il
sera de plus un GARCH fort si le processus ǫ2t divisé par son écart-type conditionnel
ǫ2t
η̃t =
{ω(1 + α) + α2 ǫ22(t−1) }1/2
est iid. On a vu que E(η̃t |ǫ2(t−1) , ǫ2(t−2) , . . .) = 0 et E(η̃t2 |ǫ2(t−1) , ǫ2(t−2) , . . .) = 1
mais
E(η̃t4 |ǫ2(t−1) , ǫ2(t−2) , . . .) = µ4
ω 2 (1 + α)2 + 2ω(1 + αµ4)α2 ǫ22(t−1) + µ4 α4 ǫ42(t−1)
= µ4 1 +
{ω(1 + α) + α2 ǫ22(t−1) }2
(µ4 − 1)α3 ǫ22(t−1) (αǫ22(t−1) + 2ω)
{ω(1 + α) + α2 ǫ22(t−1) }2
!
Cette quantité est clairement non constante, sauf lorsque α = 0 (pas d’effet ARCH)
ou µ4 = 1 (ηt2 = 1, p.s.). Ceci prouve que le processus (η̃t ) n’est généralement pas
iid. Le processus (ǫ2t ) n’est donc pas un GARCH fort, bien que (ǫt ) le soit.
Au vu de cet exemple, il pourrait sembler que les processus GARCH forts
s’agrègent dans la classe des GARCH semi-forts. L’exemple suivant montre qu’il
n’en est rien.
Non agrégation temporelle des GARCH forts dans la classe des
GARCH semi-forts.
Considérons le modèle ARCH(2) fort. Soit (ǫt ) la solution non anticipative, stationnaire au second ordre du modèle :
ǫt = {ω + α1 ǫ2t−1 + α2 ǫ2t−2 }1/2 ηt ,
ω, α1, α2 > 0,
α1 + α2 < 1,
avec les mêmes hypothèses sur (ηt ) que précédemment. La représentation AR(2)
vérifiée par le processus (ǫ2t ) s’écrit d’après (2.4),
ǫ2t = ω + α1 ǫ2t−1 + α2 ǫ2t−2 + νt
(2.56)
où (νt ) est l’innovation forte de (ǫ2t ). En utilisant l’opérateur retard, ce modèle
s’écrit
(1 − λ1 L)(1 + λ2 L)ǫ2t = ω + νt
62
Processus GARCH
où λ1 et λ2 sont des réels positifs (tels que λ1 − λ2 = α1 et λ1 λ2 = α2 ). Multipliant
cette équation par (1 + λ1 L)(1 − λ2 L), il vient
(1 − λ21 L2 )(1 − λ22 L2 )ǫ2t = ω(1 + λ1 )(1 − λ2 ) + (1 + λ1 L)(1 − λ2 L)νt ,
soit
(1 − λ21 L)(1 − λ22 L)yt2 = ω ∗ + vt ,
en posant ω ∗ = ω(1 + λ1 )(1 − λ2 ), vt = ν2t + (λ1 − λ2 )ν2t−1 − λ1 λ2 ν2t−2 et yt = ǫ2t .
On remarque que (vt ) est un processus MA(1), qui vérifie
Cov(vt , vt−1 )
= Cov {ν2t + (λ1 − λ2 )ν2t−1 − λ1 λ2 ν2t−2 , ν2t−2 + (λ1 − λ2 )ν2t−3 − λ1 λ2 ν2t−4 }
= −λ1 λ2 Var(νt ).
Par suite (vt ) s’écrit vt = ut −θut−1 où (ut ) est un bruit blanc et θ est une constante
dépendant de λ1 et λ2 . Finalement, yt2 = ǫ22t vérifie le modèle ARMA(2,1) :
ǫ22t = ω ∗ + (λ21 + λ22 )ǫ22(t−1) − λ21 λ22 ǫ22(t−2) + ut − θut−1 .
(2.57)
Les ordres du modèle ARMA sont compatibles avec un modèle GARCH(1,2) semifort pour (ǫ2t )t , de variance conditionnelle :
σt2 = Var(ǫ22t | ǫ22(t−1) , ǫ22(t−2) , . . .)
2
= ω̃ + α̃1 ǫ22(t−1) + α̃2 ǫ22(t−2) + β̃σt−1
,
ω̃ > 0, α̃1 ≥ 0, α̃2 ≥ 0, β̃ ≥ 0.
Si (ǫ2t )t était un tel GARCH(1,2) semi-fort, la représentation ARMA(2,1) correspondante serait alors, d’après (2.4),
ǫ22t = ω̃ + (α̃1 + β̃)ǫ22(t−1) + α̃2 ǫ22(t−2) + ν̃t − β̃ ν̃t−1 .
Cette équation est incompatible avec (2.57) en raison du signe du coefficient de
ǫ22(t−2) . Nous en concluons que si (ǫt ) est un ARCH(2) fort, (ǫ2t ) n’est jamais un
GARCH semi-fort.
L’exemple précédent montre que le processus agrégé d’un GARCH fort (ou semifort) admet une représentation ARMA. Cela nous conduit aux définitions suivantes.
Définition 2.5 (GARCH faible) Soit (ǫt ) un processus stationnaire à l’ordre 4.
On dit que (ǫt ) est un GARCH(r, p) au sens faible si
(i) (ǫt ) est un bruit blanc ;
63
(ii) (ǫ2t ) admet une représentation ARMA de la forme
ǫ2t
−
r
X
ai ǫ2t−i
i=1
= c + νt −
p
X
bi νt−i
i=1
où (νt ) est l’innovation linéaire de (ǫ2t ).
Rappelons que la propriété d’innovation linéaire implique que
Cov(νt , ǫ2t−k ) = 0,
∀k > 0.
D’après (2.4), les processus GARCH(p, q) semi-forts vérifient, sous la condition de
stationnarité au 4ème ordre, la définition précédente avec r = max(p, q). L’innovation linéaire coïncide dans ce cas avec l’innovation forte : νt est donc non corrélé
avec toute variable du passé de ǫt (pourvu que cette corrélation existe).
La classe des GARCH faibles ne se limite pas aux processus GARCH et à leur agrégés temporels. Avant de revenir à l’agrégation temporelle, nous donnons d’autres
exemples de GARCH faibles.
Exemple 2.1 (GARCH avec erreur de mesure) Supposons
qu’un
processus
GARCH soit observé avec erreur de mesure. On a donc
ǫt = et + Wt ,
σt2
et = σt Zt ,
=c+
q
X
′
ai e2t−i
+
i=1
p
X
2
bi σt−i
(2.58)
i=1
où Wt est interprété comme une erreur de mesure. Pour simplifier on supposera que les suites (Zt )
2
et (Wt ) sont mutuellement indépendantes, iid et centrées, de variances 1 et σW
respectivement.
On montre que (ǫt ) est un processus GARCH faible de la forme


max{p,q}
max{p,q}
max{p,q}
X
X
X
2
ǫ2t −
(ai + bi )ǫ2t−i = c + 1 −
ai + bi  σW
+ ut +
βi ut−i
i=1
i=1
i=1
où les βi sont différents des −bi , sauf lorsque σW = 0. Il est intéressant de noter que la partie
AR dans cette représentation n’est pas affectée par la présence de la perturbation Wt .
Notons enfin que les GARCH avec erreur de mesure ne sont pas faciles à estimer car la vraisemblance n’a pas de forme explicite. Des méthodes utilisant les moindres carrés, le filtre de Kalman
ou des simulations ont été proposées pour estimer ces modèles.
Exemple 2.2 (GARCH quadratique) Considérons la modification du modèle
GARCH semi-fort donnée par
E(ǫt |ǫt−1 ) = 0
et
E(ǫ2t |ǫt−1 )
=
σt2
=
c+
q
X
i=1
ai ǫt−i
!2
+
p
X
i=1
2
bi σt−i
,
(2.59)
64
Processus GARCH
où les constantes bi sont positives. Soit ut = ǫ2t − σt2 . Les ut sont non corrélés entre eux ainsi
qu’avec toute variable du futur (par l’hypothèse de différence de martingale) et du passé de ǫt
(par l’hypothése sur la variance conditionnelle). L’équation de σt2 peut se réécrire sous la forme
max{p,q}
ǫ2t
2
=c +
X
(a2i + bi )ǫ2t−i + vt ,
i=1
où
vt = 2c
q
X
ai ǫt−i +
i=1
X
i6=j
ai aj ǫt−i ǫt−j + ut −
p
X
bi ut−i .
(2.60)
i=1
Il est facile de vérifier que (vt ) est un processus MA(max{p, q}). Par suite, (ǫt ) est un
GARCH(max{p, q}, max{p, q}) faible.
Exemple 2.3 (GARCH à changement de régime markovien) Les modèles à
changement de régime markovien (ARMA, GARCH ou autre) font dépendre les coefficients d’une
chaîne de Markov, afin de prendre en compte des changements apparents de dynamique de la
série. La chaîne n’est pas observée lors de l’inférence statistique, on parle donc de chaîne de
Markov cachée.
Dans le cadre des modèles GARCH, le cas le plus simple de modèle à changement de régime
markovien est celui où seul le paramètre ω dépend de la chaîne. Plus précisément, soit ∆t une
chaîne de Markov à valeurs dans 0, 1, . . . , K − 1. On suppose la chaîne homogène, stationnaire
irréductible, apériodique et on note pij = P [∆t = j|∆t−1 = i], pour i, j = 0, 1, . . . , K − 1, ses
probabilités de transition. Le modèle considéré est donné par
ǫt = σt ηt ,
σt2 = µ(∆t ) +
q
X
ai ǫ2t−i +
i=1
avec
ω(∆t ) =
K
X
ωi 1{∆t =i−1} ,
p
X
2
bi σt−i
(2.61)
i=1
0 < ω1 < ω2 < . . . < ωK ,
(2.62)
i=1
où (ηt ) est un processus iid (0,1) admettant des moments à l’ordre 4, la suite (ηt ) étant par
ailleurs indépendante de (∆t ). Des calculs fastidieux (voir Francq et Zakoïan (1997)) montrent
que (ǫt ) est un processus GARCH(max{p, q} + K − 1, p + K − 1) faible de la forme


!
max{p,q}
p+K−1
K−1
Y
X
X
i 2
i

(1 − λk L) I −
(ai + bi )L ǫt = ω + I +
βi L u t
(2.63)
i=1
k=1
i=1
où λ1 , . . . , λK−1 sont les valeurs propres différentes de 1 de la matrice P = (pji ). Les βi n’ont
généralement pas une expression simple en fonction des paramètres initiaux, mais peuvent être
obtenus numériquement à partir des premières autocorrélations du processus (ǫ2t ).
Exemple 2.4 (Modèle à volatilité stochastique) Un exemple de modèle à volatilité stochastique est donné par
ǫt = σt ηt ,
2
2
σt2 = c + dσt−1
+ (a + bσt−1
)vt ,
c, d, b > 0, a ≥ 0.
(2.64)
65
où (ηt ) et (vt ) sont des suites iid (0,1), avec ηt indépendant des vt−j , j ≥ 0. Remarquons que le
2
GARCH(1,1) est obtenu en prenant vt = Zt−1
− 1 et a = 0. Sous l’hypothèse d2 + b2 < 1, on
2
montre que la structure d’autocovariance de (ǫt ) est caractérisée par
Cov(ǫ2t , ǫ2t−h ) = dCov(ǫ2t , ǫ2t−h+1 ),
∀h > 1.
Par suite (ǫt ) est un processus GARCH(1,1) faible, avec
ǫ2t − dǫ2t−1 = c + ut + βut−1
(2.65)
où (ut ) est un bruit blanc faible et β peut être calculé explicitement.
Exemple 2.5 (Processus β-ARCH) Diebolt et Guégan (1991) ont introduit le modèle
AR(1) conditionnellement hétéroscédastique défini par
Xt = φXt−1 + (c + a|Xt−1 |2β )1/2 ηt ,
|φ| < 1,
c > 0,
a ≥ 0,
où (ηt ) est une suite iid (0,1) de loi symétrique. Une différence par rapport au modèles ARCH
standard est que la variance conditionnelle de Xt est écrite en fonction de Xt−1 et non en fonction
du bruit.
Supposons β = 1 et posons
2
)1/2 ηt .
ǫt = (c + aXt−1
On a

2
X
ǫ2t = c + a 
φi−1 ǫt−i  + ut
i≥1
où ut =
ǫ2t
−
E(ǫ2t
| ǫu , u < t). En développant le terme au carré on obtient la représentation
[1 − (φ2 + a)L]ǫ2t = c(1 − φ2 ) + vt − φ2 vt−1
P
où vt = a i,j≥1,i6=j φi+j−2 ǫt−i ǫt−j + ut . On remarque que la processus (vt − φ2 vt−1 ) est un
MA(1). Par suite (ǫ2t ) est un ARMA(1,1). Finalement le processus (Xt ) admet une représentaion
AR(1)-GARCH(1,1) faible.
La classe des GARCH faibles est stable par agrégation. Nous le montrons pour le
cas GARCH(1,1).
Proposition 2.1 (Agrégation du GARCH(1,1)) Soit (ǫt ) un processus
GARCH(1,1) au sens faible. Alors, pour tout entier m ≥ 1 le processus (ǫmt ) est
également un processus GARCH(1,1) faible. Les paramètres des représentations
ARMA
ǫ2t − aǫ2t−1 = c + νt − bνt−1
et ǫ2mt − a(m) ǫ2m(t−1) = c(m) + ν(m),t − b(m) ν(m),t−1
sont liés par les relations
1 − am
a(m) = a , c(m) = c
1−a
m−1
a
b(1 − a2 )
=
(1 − a2 )(1 + b2 a2(m−1) ) + (a − b)2 (1 − a2(m−1) )
m
b(m)
1 + b2(m)
66
Processus GARCH
Preuve. Remarquons d’abord que (ǫ2t ) étant par hypothèse stationnaire et (νt )
étant son innovation linéaire, a est de module strictement inférieur à 1. Ensuite,
si (ǫt ) est un bruit (ǫmt ) en est un également. Par remplacements successifs on
obtient
ǫ2t = c(1 + a + . . . + am−1 ) + am ǫ2t−m + vt
(2.66)
où vt = νt + (a − b)[νt−1 + aνt−2 + . . . + am−2 νt−m−1 ] − am−1 bνt−m . Puisque (νt ) est
un bruit, on a
Cov(vt , vt−mk ) = 0, ∀k > 1.
Donc (vmt )t∈Z est un processus MA(1), et par suite (ǫmt ) est un processus
ARMA(1,1). Le terme constant et le coefficient AR de cette représentation apparaissent directement dans (2.66), tandis que le coefficient MA est obtenu comme
la solution de module inférieure à 1 de
b(m)
−Cov(vt , vt−m )
am−1 b
=
=
1 + b2(m)
Var(vt )
1 + (a − b)2 (1 + a2 + . . . + a2(m−2) ) + a2(m−1) b2
ce qui, après simplification, donne la formule annoncée.
2
On constate en particulier que l’agrégé d’un processus ARCH(1) est également un
processus ARCH(1) : b = 0 =⇒ b(m) = 0.
On peut aussi remarquer que am tend vers zéro lorsque m tend vers l’infini, donc
a(m) et b(m) tendent également vers zéro. Ainsi, l’hétéroscédasticité conditionnelle
tend à disparaître lorsque l’on agrège de plus en plus. Ceci est conforme à l’observation empirique selon laquelle les séries à basse fréquence d’observation (hebdomadaire, mensuelle) présentent nettement moins d’effet ARCH que les séries
quotidiennes par exemple.
En conclusion de cette partie, nous avons vu que les modèles GARCH permettent
de capter plusieurs effets importants des séries financières mais qu’il est impossible, dans cette approche, de séparer ces effets. Par exemple si l’on souhaite que
les autocorrélations des carrés décroissent suffisamment lentement (α + β proche
de 1 dans le cas GARCH(1,1)) cela ne peut être obtenu qu’au prix de l’existence
de certains moments de la loi marginale. En pratique, lorsqu’on ajuste un modèle
GARCH(1,1) à une série financière échantillonnée à haute fréquence (par exemple
2.4 Exercices
67
des variations quotidiennes de prix d’action), on obtient très généralement des coefficients α et β estimés de somme proche de 19 . Cela indique une forte persistance
des chocs sur la variance 10 . Cette apparente persistance des chocs peut très bien
être due à l’existence de distributions marginales à queues épaisses.
Il est important de noter que ceci n’est pas dû à la forme retenue pour modéliser la
variance conditionnelle : la critique s’applique également aux diverses extensions du
modèle initial (par exemple celles incluant des√asymétries). La classe des modèles
de type GARCH (c’est à dire de la forme ǫt = ht ηt où ht est une fonction positive
quelconque du passé) apparaît donc souvent comme trop contrainte.
Afin de pallier ce manque de souplesse, il est naturel d’essayer d’introduire une
source additionnelle d’aléas dans la volatilité. Une première approche consiste à
spécifier cet aléas supplémentaire de manière additive (ou multiplicative), à partir
d’un processus indépendant du passé. Il s’agit de la classe des modèles dits à volatilité stochastique, directement inspirés des processus en temps continu du même
nom, utilisés en finance mathématique. La seconde approche consiste à rendre
aléatoires les paramètres des modèles GARCH traditionnels. Afin de préserver une
certaine stabilité de ces coefficients, il paraît souhaitable de leur affecter un nombre
fini (et limité) de valeurs possibles. Une façon naturelle de le faire consiste à faire
dépendre ces coefficients de l’état d’une chaîne de Markov. Les états de la chaîne
correspondront ainsi aux divers régimes du processus observé.
2.4
Exercices
2.1 (Stationnarité stricte du GARCH(1,1) pour deux lois de ηt )
Dans le cas GARCH(1,1) expliciter la condition de stationnarité stricte
lorsque (i) ηt ne prend que les valeurs -1 et 1 ; (ii) ηt suit une loi uniforme.
2.2 (Coefficient de Lyapounov d’une suite constante de matrices)
Montrer l’égalité (2.21) pour une matrice diagonalisable. Etendre le résultat
à une matrice carrée quelconque en utilisant la représentation de Jordan.
2.3 (Coefficient de Lyapounov d’une suite de matrices)
On considère la suite (At ) définie par At = zt A, où (zt ) est une suite ergodique
9
Cela est moins vrai pour des observations observées de manière plus espacée, comme des
observations mensuelles. On peut d’ailleurs montrer théoriquement que le fait d’agréger temporellement les observations a pour effet de réduire la persistance de la volatilité
10
Par exemple, pour des séries hebdomadaires de rendements d’action, Hamilton et Susmel
(1994) montrent qu’un choc à une date donnée peut avoir des effets non négligeables sur la
variance conditionnelle un an plus tard
68
Processus GARCH
de variables aléatoires réelles telles que E log+ |zt | < ∞, A est une matrice
carrée non aléatoire. Déterminer le coefficient de Lyapounov γ de la suite
(At ) et expliciter la condition γ < 0.
2.4 (Une autre représentation vectorielle du modèle GARCH (p, q))
2
Vérifier que le vecteur z ∗t = (σt2 , . . . , σt−p+1
, ǫ2t−1 , . . . , ǫ2t−q+1 )′ ∈ Rp+q−1 permet, pour p ≥ 1 et q ≥ 2, de définir une représentation vectorielle équivalente
à celle utilisée dans ce chapitre, de la forme z ∗t = b∗t + A∗t z ∗t−1 .
2.5 (Moment d’ordre 4 d’un ARCH(2)
Montrer que pour un modèle ARCH(2) la condition d’existence du moment
d’ordre 4 s’écrit, en posant µ4 = Eηt4 ,
α2 < 1 et µ4 α12 <
1 − α2
(1 − µ4 α22 ).
1 + α2
Calculer ce moment.
2.6 (Calcul direct des autocorrélations et autocovariances du carré d’un
GARCH(1,1))
Déterminer la fonction d’autocorrélation et la fonction d’autocovariance de
(ǫ2t ) lorsque (ǫt ) est solution du modèle GARCH(1,1)
ǫt = σt ηt
2
σt2 = ω + αǫ2t−1 + βσt−1
où (ηt ) ∼ N (0, 1) et 1 − 3α2 − β 2 − 2αβ > 0.
2.7 (Une condition pour qu’une suite Xn soit un o(n).)
Soit (Xn ) une suite de variables aléatoires de même loi, admettant une espérance. Montrer que
Xn
→ 0 quand n → ∞
n
avec probabilité 1.
Montrer que la convergence peut ne pas avoir lieu si Xn n’admet pas d’espérance (on pourra considérer une suite iid de densité f (x) = x−2 1x≥1 ).
2.8 (Un cas de variables dépendantes où l’espérance du produit égale le produit
des espérances)
Montrer l’égalité (2.30).
69
2.4 Exercices
2.9 (Condition nécessaire d’existence du moment d’ordre 2s)
On suppose que (ǫt ) est solution strictement stationnaire du modèle (2.5)
avec Eǫ2s
t < ∞, pour s ∈]0, 1]. On pose
(K)
zt
= bt +
K
X
(2.67)
At At−1 . . . At−k+1 bt−k .
k=1
1. Montrer que lorsque K → ∞,
(K)
kz t
(K−1) s
− zt
k → 0 p.s.,
(K)
Ekz t
(K−1) s
− zt
k → 0.
2. En déduire que E(kAk Ak−1 . . . A1 b0 ks ) → 0 quand k → ∞.
3. Soit (Xn ) une suite de matrices ℓ × m et Y = (Y1 , . . . , Ym )′ un vecteur
indépendant de (Xn ) tel que ∀i, 0 < E|Yi|s < ∞. Montrer que, lorsque
n→∞
EkXn Y ks → 0 ⇒ EkXn ks → 0
4. On pose A = EAt , b = Ebt et on suppose qu’il existe un entier N tel que
AN b > 0 (au sens où tous les éléments de ce vecteur sont strictement
positifs). Montrer qu’il existe k0 ≥ 1 tel que
E(kAk0 Ak0 −1 . . . A1 ks ) < 1.
5. En déduire que, pour s ∈]0, 1],
α1 + β1 > 0, Eǫ2s
t < ∞
=⇒
lim E(kAk Ak . . . A1 ks ) = 0.
k→∞
6. La condition α1 + β1 > 0 est-elle nécessaire ?
2.10 (Une minoration pour les premières autocorrélations du carré d’un ARCH)
Soit (ǫt ) un processus ARCH(q) admettant des moments à l’ordre 4. Montrer
que, pour i = 1, . . . , q
ρǫ2 (i) ≥ αi .
2.11 (Modèle Riskmetrics)
Le modèle Riskmetrics utilisé pour le calcul de la VaR repose sur les équations
suivantes

(ηt ) iid N (0, 1)
 ǫt = σt ηt ,

2
σt2 = λσt−1
+ (1 − λ)ǫ2t−1
où 0 < λ < 1. Montrer que ce modèle n’admet pas de solution stationnaire.
Chapitre 3
Inférence statistique des modèles
GARCH
L’analyse statistique des modèles GARCH comporte plusieurs étapes : identification des ordres p et q, estimation des paramètres de la volatilité (coefficients ω, αi
et βj ) pour des ordres p et q donnés, adéquation du modèle estimé et sélection
finale du modèle le plus approprié.
3.1
Identification
On dispose des observations X1 , . . . , Xn d’un processus stationnaire centré.
Lorsque cette série représente les rendements d’un indice boursier, la théorie économique d’absence d’opportunité d’arbitrage entraîne que, sous des hypothèses
standard, X = (Xt ) devrait être une différence de martingale, et devrait donc
coïncider avec son processus d’innovation ǫ = (ǫt ). Nous avons vu que les observations Xt = ǫt , bien que non corrélées, ne sont pas indépendantes en général.
Pour modéliser cette dynamique, on désire identifier un modèle GARCH(p, q)
convenable, c’est-à-dire déterminer des ordres p et q plausibles pour le modèle


 ǫt = σt ηt q
p
X
X
(3.1)
2
2
2
βj σt−j
αi ǫt−i +

 σt = ω +
i=1
j=1
où (ηt ) est une suite de variables iid centrées et de variance unité, ω > 0, αi ≥ 0
(i = 1, . . . , q), βj ≥ 0 (j = 1, . . . , p).
Dans la méthodologie de Box et Jenkins consacrée au modèles ARMA, on distingue plusieurs phases : identification, estimation, validation et prévision. Cette
71
3.1 Identification
méthodologie peut être adaptée aux modèles GARCH. La phase d’identification
consiste à choisir les ordres p et q.
Le choix d’un petit nombre de valeurs plausibles pour ces ordres peut se faire à
l’aide de plusieurs outils :
i) Examen des fonctions d’autocorrélation empirique (ACRE) et d’autocorrélation
partielle empirique (ACPE) de ǫ21 , . . . , ǫ2n ;
ii) Examen de statistiques fonctions des autocovariances empiriques (ACVE) de
ǫ2t (méthode du coin, epsilon-algorithme, ...) ;
iii) Utilisation de critères d’information (AIC, BIC, ...) ;
iv) Test de significativité de certains coefficients ;
v) Analyse de résidus.
Les méthodes iii)-v) nécessitent l’estimation d’un ou plusieurs modèles GARCH,
et sont donc plutôt utilisées pour la phase de validation. La méthode i) est fondée
sur le fait que si (ǫt ) suit un GARCH(p, q), alors (ǫ2t ) suit un ARMA(p ∧ q, p). En
particulier, si (ǫt ) suit un ARCH(q), alors la fonction d’autocorrélation partielle
théorique (ACPT) de (ǫ2t ), rǫ2 (·), satisfait
(3.2)
rǫ2 (h) = 0 ∀h > q.
Nous savons que, quels que soient les ordres p et q, la solution non anticipative de
(3.1) est un bruit blanc, c’est-à-dire un processus centré dont les autocorrélations
théoriques (ACRT) ρ(h) = Eǫt ǫt+h /Eǫ2t satisfont ρ(h) = 0 pour tout h 6= 0 (voir
section 2.1.1). Avant de rechercher d’éventuelles valeurs plausibles pour (p, q), il
est donc naturel d’éprouver cette hypothèse d’absence d’autocorrélation. Ceci fait
l’objet de la section 3.1.1. Si des ACRE significativement non nulles sont détectées, autrement dit si l’hypothèse d’absence d’arbitrage ne tient pas, si le modèle
GARCH pur ne convient pas, le praticien cherchera à ajuster un ARMA(P, Q)
aux données avant d’utiliser un GARCH(p, q) pour les résidus du modèle ARMA.
L’identification des ordres (P, Q) est traitée dans la section 3.1.3. L’identification
des ordres GARCH est traitée dans la section 3.1.4.
3.1.1
Vérification de l’absence d’autocorrélation
Les ACRT d’un processus centré (ǫt ) sont généralement estimées par les ACRE
γ̂(h)
ρ̂(h) =
,
γ̂(0)
−1
γ̂(h) = γ̂(−h) = n
n−h
X
ǫt ǫt+h
(3.3)
t=1
pour h = 0, 1, . . . , n − 1. Nous savons que si (ǫt ) est une suite iid centrée dont la
variance existe alors
√
L
nρ̂(h) → N (0, 1) ,
72
Inférence des modèles GARCH
pour tout
√ h 6= 0. Pour un bruit blanc fort, les ACRE sont donc entre les bornes
±1.96/ n avec une probabilité d’environ 95% lorsque n est grand. Dans les logiciels usuels ces bornes de significativité au seuil 5% sont généralement figurées en
pointillé, comme dans la figure 3.1. Cette bande de significativité n’est pas valable
pour un bruit blanc faible, et notamment pour un GARCH.
Comportement des autocorrélations empiriques d’un GARCH
Soit ρ̂m = (ρ̂(1), . . . , ρ̂(m)) le vecteur des m premières ACRE de n observations
du processus GARCH(p, q) défini par (3.1). Soit γ̂m = (γ̂(1), . . . , γ̂(m)) un vecteur
d’ACVE.
Proposition 3.1 Si (ǫt ) est la solution stationnaire non anticipative du modèle
GARCH(p, q) (3.1), satisfaisant la condition de moment d’ordre 4 du théorème
2.6, alors, quand n → ∞,
√
L
nγ̂m → N (0, Σγ̂m )
et
où

Eǫ2t ǫ2t−1

 Eǫ2t ǫt−1 ǫt−2
Σγ̂m = 
..

.
Eǫ2t ǫt−1 ǫt−m
√
L
nρ̂m → N 0, Σρ̂m := γ(0)−2 Σγ̂m ,
Eǫ2t ǫt−1 ǫt−2 . . . Eǫ2t ǫt−1 ǫt−m
..
Eǫ2t ǫ2t−2
.
..
.
···
Eǫ2t ǫ2t−m



.

La matrice Σγ̂m est inversible. Si la loi de ηt est symétrique alors Σγ̂m est diagonale.
Remarquons que sous une hypothèse de moment un peu plus forte, à savoir Eǫ4+ν
t
pour un ν > 0, la normalité asymptotique du vecteur γ̂m est une conséquence de la
propriété de mélange fort des GARCH. On peut aussi noter que Σρ̂m = Im quand
(ǫt ) est un bruit fort.
Preuve. Posons γ̃m = (γ̃(1), . . . , γ̃(m)), où γ̃(h) = n−1
m et h ∈ {1, . . . , m} fixés,

m
X
√
√
nγ̂m − nγ̃m ≤ √1
E
2
n  h=1
h
X
t=1
ǫt ǫt−h
!2 1/2


Pn
t=1 ǫt ǫt−h .
m
Comme, pour
h
1 XX
≤√
kǫt k24 → 0
n h=1 t=1
73
3.1 Identification
√
√
quand n → ∞, la loi asymptotique de nγ̂m est la même que celle de nγ̃m .
Soient h et k dans {1, . . . , m}. Par stationnarité
Cov
√
nγ̃(h),
√
nγ̃(k)
n
1 X
Cov (ǫt ǫt−h , ǫs ǫs−k )
=
n t,s=1
n−1
1 X
=
(n − |ℓ|)Cov (ǫt ǫt−h , ǫt+ℓ ǫt+ℓ−k )
n ℓ=−n+1
= Eǫ2t ǫt−h ǫt−k
car
Cov (ǫt ǫt−h , ǫt+ℓ ǫt+ℓ−k ) =
Eǫ2t ǫt−h ǫt−k si ℓ = 0
0
sinon
Ceci donne l’expression de Σγ̂m√. D’après le théorème de Wold-Cramer1 on obtiendra
la normalité asymptotique de nγ̃m en montrant que pour tout λ = (λ1 , . . . , λm )′ ∈
Rm non nul,
√ ′
L
nλ γ̃m → N (0, λ′Σγ̂m λ).
(3.4)
Soit Ft la tribu
par {ǫu , u ≤ t}. On obtient (3.4) en appliquant un TCL
Pengendrée
m
à la suite (ǫt i=1 λi ǫt−i , Ft )t , qui est une différence de martingale stationnaire,
ergodique, de carré intégrable2 . Le comportement asymptotique de ρ̂m se déduit
immédiatement de celui de γ̂m .
La matrice Σγ̂m est la matrice de variance du vecteur (ǫt ǫt−1 , . . . , ǫt ǫt−m )′ . Si
Σγ̂m n’était pas inversible, il existerait une combinaison
Pm linéaire exacte entre
′
les composantes
i=i0 +1 λi ǫt ǫt−i , ou encore
P de (ǫt ǫt−1 , . . . , ǫt ǫt−m ) : ǫt ǫt−i0 =
ǫt−i0 1[ηt 6=0] = m
λ
ǫ
.
Par
suite
i=i0 +1 i t−i 1[ηt 6=0]
Eǫ2t−i0
1[ηt 6=0] =
m
X
i=i0 +1
λi E[ǫt−i0 ǫt−i 1[ηt 6=0] ] =
m
X
i=i0 +1
λi E[ǫt−i0 ǫt−i ]P [ηt 6= 0] = 0
ce qui est absurde.
On peut montrer que la forme diagonale de Σγ̂m est une conséquence de la symétrie
de la loi de ηt .
L
1
Pour une suite (Zn ) de vecteurs aléatoires de dimension d, Zn → Z si et seulement si pour
L
tout λ ∈ Rd , on a λ′ Zn → λ′ Z.
2
Si (νt , Ft )t est une différence de martingale (νt est Ft -mesurable et E(νt |Ft−1 ) = 0) stationnaire ergodique, de carré intégrable, telle que σν2 = Var(νt ) 6= 0, alors
n−1/2
n
X
t=1
L
νt → N 0, σν2 .
74
2
On obtient un estimateur Σ̂γ̂m convergent de Σγ̂m , en remplaçant le terme générique
de Σγ̂m par
n−i
X
−1
n
ǫ2t ǫt−i ǫt−j .
t=1
Clairement, Σ̂ρ̂m := γ̂ −2 (0)Σ̂γ̂m est un estimateur convergent de Σρ̂m (presque
sûrement inversible pour n assez grand). Ceci nous permet d’obtenir des bandes
de significativité asymptotiques pour les ACRE.
Tests portmanteau
On peut également vouloir tester la nullité simultanée des m premières ACRT à
l’aide d’une statistique dite "portmanteau", définie dans le théorème suivant.
Proposition 3.2 Sous les hypothèses du théorème 3.1, la statistique portmanteau
Qm = nρ̂′m Σ̂−1
ρ̂m ρ̂m
suit asymptotiquement une loi du χ2 à m degrés de liberté.
L
Preuve. Il suffit d’utiliser le théorème 3.1 et le résultat suivant : si Xn → N (0, Σ),
L
2
Σ inversible, et si Σ̂n → Σ en probabilité, alors Xn′ Σ̂−1
n Xn → χm .
2
Un test portmanteau de niveau asymptotique α, basé sur les m premières ACRE,
consiste à rejeter l’hypothèse que la série est générée par un GARCH si Qm est
supérieur au quantile d’ordre 1 − α d’un χ2m .
Autocorrélations partielles d’un GARCH
On note rm (resp. r̂m ) le vecteur des m premières autocorrélations partielles (resp.
empiriques) du processus (ǫt ). D’après la proposition A.4 (voir appendice), nous
savons que pour un bruit blanc faible, les ACRE et les ACPE ont la même loi
asymptotique. Cela s’applique en particulier à un GARCH. En conséquence, sous
l’hypothèse de bruit blanc GARCH avec moment d’ordre 4 fini, on peut prendre
pour estimer Σr̂m de manière convergente,
(1)
Σ̂r̂m = Σ̂ρ̂m
(2)
′
ou Σ̂r̂m = Jˆm Σ̂ρ̂m Jˆm
,
75
3.1 Identification
où Jˆm est la matrice obtenue en remplaçant ρX (1), . . . , ρX (m) par ρ̂X (1), . . . ,
ρ̂X (m) dans la matrice jacobienne Jm de l’application ρm 7→ rm , et Σ̂ρ̂m est l’estimateur convergent de Σρ̂m défini à la suite de la proposition 3.1. Ce corrélogramme
partiel est très semblable au corrélogramme de la figure 3.2.
Bien que cette pratique soit peu répandue, on peut tester la nullité simultanée de
plusieurs ACPT en utilisant des tests portmanteau fondés sur les statistiques
′
Qr,BP
= nr̂m
r̂m
m
−1
(i)
′
et Qrm = nr̂m
Σ̂ρ̂m
r̂m .
avec, par exemple, i = 2. D’après la proposition A.4, sous l’hypothèse de bruit
LB
2
blanc fort les statistiques Qr,BP
, QBP
m
m et Qm ont la même loi asymptotique χm .
Sous l’hypothèse de GARCH pur, les statistiques Qrm et Qm ont également la même
loi asymptotique χ2m .
3.1.2
Illustrations numériques
Les limites de significativité standard des ACRE ne sont pas valides
Le graphe de droite de la figure 3.1 représente le corrélogramme empirique d’une
simulation de taille n = 5000 du GARCH(1,1)
ǫt = σt ηt
(3.5)
2
σt2 = ω + αǫ2t−1 + βσt−1
où (ηt ) est une suite de variables iid N (0, 1), ω = 1, α = 0.3 et β = 0.55. On
constate que les ACRE d’ordre 2 et 4 sont très nettement en dehors des bandes
de confiance à 95% calculées sous l’hypothèse de bruit blanc fort. Le praticien non
averti sera tenté de rejeter l’hypothèse de bruit blanc, et de retenir un modèle
ARMA dont les autocorrélations
résiduelles sont plus à l’intérieur des limites de
√
significativité ±1.96/ n. Pour tenter d’éviter ce genre
√ d’erreur de spécification, il
faut donc bien être conscient que les limites ±1.96/ n ne sont pas valables pour les
ACRE d’un bruit blanc GARCH. Sur notre simulation, il est possible de calculer
des limites asymptotiques exactes à 95%. Sur le graphe de droite de la figure 3.1,
ces limites sont en trait pointillé épais. Toutes les ACRE sont à l’intérieur ou ne
débordent que très légèrement des limites, ce qui nous incite cette fois à ne pas
rejeter l’hypothèse de bruit blanc GARCH.
Estimation des limites de significativité des ACRE d’un GARCH
Bien entendu, sur une série réelle les limites de significativité ne peuvent pas être
facilement obtenues car elles dépendent de paramètres inconnus. On peut cependant les estimer de manière convergente, comme décrit précédemment. Pour une
76
0.06
0.06
0.04
0.04
0.02
0.02
2
4
6
8
10
12
h
4
2
-0.02
-0.02
-0.04
-0.04
-0.06
-0.06
6
8
10
12
h
Fig. 3.1 – ACRE d’une simulation d’un bruit blanc fort (graphe de gauche) et du GARCH(1,1)
(3.5) (graphe de droite). Les ACRE d’un bruit blanc fort sont à l’intérieur des fins traits en poin√
tillé ±1.96/ n avec une probabilité d’environ 95%. Les ACRE du bruit blanc GARCH(1,1) sont à
l’intérieur des traits en pointillé plus épais (3.5) avec une probabilité de 95%, asymptotiquement.
simulation de taille n = 5000 du modèle (3.5), la figure 3.2 montre en fin trait
pointillé l’estimation ainsi obtenue des limites de significativité au seuil 5%. Les
limites estimées sont proches des limites asymptotiques exactes.
0.06
0.04
0.02
2
4
6
8
10
12
h
-0.02
-0.04
-0.06
Fig. 3.2 – Les bâtons représentent les autocorrélations empiriques d’une simulation de taille
n = 5000 du GARCH(1,1) (3.5). L’intérieur des fins traits en pointillé constitue une estimation
d’une zone où les ACRE du GARCH se trouvent avec une probabilité de asymptotique de 95%.
La zone asymptotique exacte est délimitée par un trait pointillé plus épais.
Les ACPE et leurs limites de significativité
La figure 3.3 représente les ACPE de la simulation (3.5) et les estimations des
(2)
limites de significativité des r̂(h) au seuil 5% (basées sur Σ̂r̂m ).
77
3.1 Identification
En comparant les figures 3.2 et 3.3, on voit que les ACRE et les ACPE de la simulation du GARCH se ressemblent beaucoup. Ceci est en accord avec la proposition
A.4.
0.06
0.04
0.02
2
4
6
8
10
12
h
-0.02
-0.04
-0.06
Fig. 3.3 – Les bâtons représentent les ACPE d’une simulation de taille n = 5000 du
GARCH(1,1) (3.5). L’intérieur des fins traits en pointillé constitue une région où les ACPE
du GARCH se trouvent asymptotiquement avec une probabilité de 95%. La région asymptotique
exacte est délimitée par un trait pointillé plus épais.
Tests portmanteau de bruit blanc fort et de GARCH pur
Le tableau 3.1 donne les p-values des tests portmanteau pour la simulation de
(3.5). A l’exception du test basé sur m = 4, les tests ne rejettent pas au niveau
5% l’hypothèse que la série suit un bruit blanc GARCH.
Tab. 3.1 – Tests portmanteau de bruit GARCH sur une simulation de taille n = 5000
du GARCH(1,1) (3.5).
retard m
Qm
P (χ2m > Qm )
retard m
Qm
P (χ2m > Qm )
1
2
3
4
5
6
0.0021 4.1974 5.4955 10.1954 10.9118 10.9480
0.9637 0.1227 0.1391 0.0374 0.0533 0.0902
7
8
9
10
11
12
12.1273 12.2766 13.1698 14.6249 14.6880 15.2171
0.0967 0.1397 0.1555 0.1469 0.1979 0.2306
Pour tester si une série est la réalisation d’un bruit blanc fort, le test portmanteau
standard est celui de Ljung-Box. Dans SAS ce test est mis en oeuvre dans le
78
tableau intitulé "Autocorrelation
for White Noise". Il consiste à calculer la
Pm Check
LB
2
statistique Qm := n(n + 2) i=1 ρ̂ (i)/(n − i) et à rejeter l’hypothèse de bruit
2 3
blanc fort si QLB
m est supérieur au quantile d’ordre 1 − α d’un χm . Le tableau 3.2
montre que pour la simulation (3.5), l’hypothèse de bruit blanc fort est rejetée.
Tab. 3.2 – Tests portmanteau de bruit blanc fort sur une simulation de taille n = 5000
du GARCH(1,1) (3.5).
retard m
1
2
3
4
5
6
LB
Qm
0.0063 16.7831 20.5886 34.1785 35.7378 35.8622
P (χ2m > QLB
)
0.9365 0.0002 0.0001 0.0000 0.0000 0.0000
m
retard m
7
8
9
10
11
12
LB
Qm
38.0546 38.4358 39.9715 41.8187 41.9064 42.5059
2
LB
P (χm > Qm ) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Tests portmanteau fondés sur les ACPE
Les tableaux 3.3 et 3.4 présentent les tests portmanteau fondés sur les ACPE de
la simulation (3.5). Comme attendu, les résultats sont très proches de ceux des
tableaux 3.1 et 3.2 fondés sur les ACRE.
Tab. 3.3 – Tests portmanteau de bruit GARCH fondé sur les ACPE pour une simulation
de taille n = 5000 du GARCH(1,1) (3.5).
retard m
1
2
3
4
5
6
Qrm
0.0021 4.1959 5.4893 9.6383 10.6516 10.6516
P (χ2m > Qrm ) 0.9637 0.1227 0.1393 0.0470 0.0587 0.0998
retard m
7
8
9
10
11
12
r
Qm
11.9219 12.2436 12.7653 14.2397 14.2402 14.6708
P (χ2m > Qrm ) 0.1032 0.1407 0.1735 0.1623 0.2200 0.2599
Un exemple où les tests portmanteau fondés sur les ACPE sont plus
puissants que ceux fondés sur les ACRE
Les tests portmanteau fondés sur les ACPE peuvent parfois être plus puissants
que ceux fondés sur les ACRE. Considérons par exemple une simulation de taille
2
La loi asymptotique
de QLB
m est χm . C’est la même que celle de la statistique de Box-Pierce
Pm 2
:= n i=1 ρ̂ (i), mais la statistique QLB
m est réputée avoir un meilleur comportement à
distance finie.
3
QBP
m
79
3.1 Identification
Tab. 3.4 – Tests portmanteau de bruit blanc fort fondé sur les ACPE pour une simulation
de taille n = 5000 du GARCH(1,1) (3.5).
retard m
QLB
m
P (χ2m > QLB
m )
retard m
QLB
m
P (χ2m > QLB
m )
1
2
3
4
5
6
0.0063 16.7705 20.5606 32.5526 34.7573 34.7573
0.9366 0.0002 0.0001 0.0000 0.0000 0.0000
7
8
9
10
11
12
37.1180 37.9391 38.8358 40.7068 40.7075 41.1952
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
n = 100 du modèle MA(2) fort
Xt = ηt + 0.56ηt−1 − 0.44ηt−2 ,
ηt iid N (0, 1).
(3.6)
En comparant les tableaux 3.5-3.6 et 3.7-3.8, on constate les hypothèses de bruit
blanc fort et de GARCH pur sont mieux rejetées en se fondant sur les ACPE plutôt
que sur les ACRE. Ceci s’explique par le fait que, pour cette MA(2), il n’y a que
2 ACRT non nulles, tandis que beaucoup plus d’ACPT sont éloignées de 0. Pour
la même raison, il est clair que les résultats auraient été inverses, c’est-à-dire en
faveur des tests fondés sur les ACRE, pour par exemple une alternative AR(1).
Tab. 3.5 – Tests portmanteau de bruit GARCH fondés sur les ACRE, sur une simulation
de taille n = 100 de la MA(2) (3.6).
retard m
Qm
P (χ2m > Qm )
1
1.6090
0.2046
2
4.5728
0.1016
3
5.5495
0.1357
4
6.2271
0.1828
5
6.2456
0.2830
6
6.4654
0.3731
Tab. 3.6 – Tests portmanteau de bruit blanc fort fondés sur les ACRE, sur une simulation de taille n = 100 de la MA(2) (3.6).
retard m
QLB
m
P (χ2m > QLB
m )
1
3.4039
0.0650
2
8.4085
0.0149
3
9.8197
0.0202
4
10.6023
0.0314
5
10.6241
0.0594
6
10.8905
0.0918
80
Tab. 3.7 – Tests portmanteau de bruit GARCH fondés sur les ACPE, pour une simulation de taille n = 100 de la MA(2) (3.6).
retard m
Qrm
P (χ2m > Qrm )
1
1.6090
0.2046
2
5.8059
0.0549
3
9.8926
0.0195
4
16.7212
0.0022
5
21.5870
0.0006
6
25.3162
0.0003
Tab. 3.8 – Tests portmanteau de bruit blanc fort fondés sur les ACPE, pour une simulation de taille n = 100 de la MA(2) (3.6).
retard m
Qr,BP
m
P (χ2m > Qr,BP
)
m
1
3.3038
0.0691
2
10.1126
0.0064
3
15.7276
0.0013
4
23.1513
0.0001
5
28.4720
0.0000
6
32.6397
0.0000
81
3.1 Identification
3.1.3
Identification des ordres ARMA d’un
ARMA-GARCH
Plaçons nous dans le cas où la théorie économique d’absence d’opportunité d’arbitrage ne s’applique pas et/ou supposons que les outils développés dans la section
3.1.1 concluent au rejet de l’hypothèse de GARCH pur. Il est alors raisonnable de
rechercher un modèle ARMA(P, Q) de la forme
Xt −
P
X
i=1
ai Xt−i = ǫt −
Q
X
bi ǫt−i
(3.7)
i=1
où (ǫt ) est un bruit blanc GARCH de la forme (3.1) et les paramètres vérifient les
conditions de régularité standard (les polynômes AR et MA n’ont pas de racine
commune et ont les racines en dehors du disque unité, aP bQ 6= 0, Eǫ4t < ∞).
Autocorrélations empiriques d’un ARMA-GARCH
On sait qu’une MA(Q) satisfait ρX (h) = 0 pour tout h > Q, et qu’un AR(P )
satisfait rX (h) = 0 pour tout h > P . Les ACRE et ACPE jouent donc un rôle
important pour identifier les ordres P et Q.
On suppose que la loi de (ηt ) est symétrique. D’après la proposition A.1, le comportement asymptotique des ACRE est déterminé par la formule de Bartlett généralisée (A.4) (voir l’appendice). Cette formule fait intervenir les ACRT de (Xt ) et
de (ǫ2t ), ainsi que le rapport ηǫ − 1 = γǫ2 (0)/γǫ2 (0). La proposition A.3 montre que
le comportement asymptotique des ACPE se déduit aisément de celui des ACRE.
A titre d’illustration, considérons l’ARMA(2,1)-GARCH(1,1) défini par

 Xt − 0.8Xt−1 + 0.8Xt−2 = ǫt − 0.8ǫt−1
ǫt = σt ηt , ηt iid N (0, 1)
 2
2
σt = 1 + 0.2ǫ2t−1 + 0.6σt−1
(3.8)
La figure 3.4 représente les ACRT et ACPT du modèle, ainsi que des traits en
pointillés entre lesquels se trouvent les ACRE et ACPE avec un probabilité d’environ 95%, pour des réalisations de taille n = 1000 du modèle. Ces limites sont
obtenues en utilisant la formule (A.4) et en calculant les autocorrélations de (ǫ2t ).
L’algorithme que nous utilisons pour estimer les quantités (A.4) est le suivant
i) On ajuste un AR(p0 ) à la série X1 , . . . , Xn en utilisant un critère d’information
pour sélectionner l’ordre p0 ;
ii) On calcule les ACRT ρ1 (h), h = 1, 2, . . . , de ce modèle AR(p0 ) ;
iii) On calcule les résidus ep0 +1 , . . . , en d’ajustement du modèle AR(p0 ) ;
82
0.2
0.4
0.2
5
5
10
15
10
15
20
h -0.2
20
-0.2
h
-0.4
-0.4
-0.6
-0.6
-0.8
Fig. 3.4 – Les bâtons du graphe de gauche (de droite) représentent les ACRT (ACPT) du
modèle (3.8). Les ACRE (ACPE) d’une réalisation de taille n = 1000 sont entre les traits en
pointillé avec une probabilité d’environ 95%.
iv) On ajuste un AR(p1 ) à la série des carrés des résidus e2p0 +1 , . . . , e2n en utilisant
également un critère d’information pour sélectionner p1 ;
v) On calcule les ACRT ρ2 (h), h = 1, 2, . . . , de ce modèle AR(p1 ) ;
vi) On estime limn→∞ nCov {ρ̂(i), ρ̂(j)} par v̂ij + v̂ij∗ , où
v̂ij =
ℓX
max
ℓ=−ℓmax
ρ1 (ℓ) [2ρ1 (i)ρ1 (j)ρ1 (ℓ) − 2ρ1 (i)ρ1 (ℓ + j)
−2ρ1 (j)ρ1 (ℓ + i) + ρ1 (ℓ + j − i) + ρ1 (ℓ − j − i)] ,
v̂ij∗
ℓmax
γ̂ǫ2 (0) X
=
ρ
(ℓ)
2ρ1 (i)ρ1 (j)ρ21 (ℓ) − 2ρ1 (j)ρ1 (ℓ)ρ1 (ℓ + i)
2
2
γ̂ǫ (0) ℓ=−ℓ
max
−2ρ1 (i)ρ1 (ℓ)ρ1 (ℓ + j) + ρ1 (ℓ + i) {ρ1 (ℓ + j) + ρ1 (ℓ − j)}] ,
n
X
1
γ̂ǫ2 (0) =
e4t − γ̂ǫ2 (0),
n − p0 t=p +1
0
γ̂ǫ2 (0)
n
X
1
=
e2t ,
n − p0 t=p +1
0
et ℓmax est un paramètre de troncation déterminé numériquement de sorte que
|ρ1 (ℓ)| et |ρ2 (ℓ)| soient inférieurs à une certaine tolérance (par exemple 10−5)
pour tout ℓ > ℓmax .
Cet algorithme est rapide quand on utilise l’algorithme de Durbin-Levinson pour
ajuster les modèles AR. La figure 3.5 montre le résultat de cet algorithme (en
utilisant le critère d’information BIC).
Autocorrélations empiriques d’un ARMA-GARCH dont le bruit
n’est pas symétrique
83
3.1 Identification
0.4
0.2
0.2
5
5
10
15
20
h
-0.2
10
15
20
-0.2
h
-0.4
-0.4
-0.6
-0.6
Fig. 3.5 – Les bâtons du graphe de gauche (de droite) représentent les ACRE (ACPE) d’une
simulation de taille n = 1000 du modèle (3.8). Les traits en pointillé estiment les bandes de
confiance à 95%.
La formule de Bartlett généralisée (A.4) est obtenue sous la condition (A.2). Cette
condition peut ne pas être satisfaite quand la loi du bruit ηt de l’équation GARCH
n’est pas symétrique. Nous allons regarder quel est le comportement asymptotique
des ACVE et des ACRE dans le cas très général d’un processus linéaire dont le
processus d’innovation (ǫt ) est un bruit blanc faible. Reprenons les notations de la
proposition A.1. La propriété suivante permet d’interpréter la variance asymptotique des ACRE comme la densité spectrale en 0 d’un processus multivarié (voir
par exemple Brockwell et Davis (1992) pour le concept de densité spectrale).
Proposition 3.3 Soit (Xt )t∈Z un processus univarié stationnaire satisfaisant
Xt =
∞
X
ψj ǫt−j ,
j=−∞
∞
X
j=−∞
|ψj | < ∞,
où (ǫt )t∈Z est un bruit blanc faible (Eǫt = 0, Cov(ǫt , ǫt+h ) = 0 pour tout h 6= 0) tel
que Eǫ4t < ∞. Notons Υt = Xt (Xt , Xt+1 , . . . , Xt+m )′ et
+∞
1 X −ihλ
fΥ (λ) :=
e
ΓΥ (h),
2π h=−∞
ΓΥ (h) = E (Υt − EΥt ) (Υt+h − EΥt+h )′
la densité spectrale du processus Υ = (Υt ), Υt = Υt − EΥt . Alors on a,
lim nVarγ̂0,m := Σγ̂0,m = 2πfΥ (0).
n→∞
(3.9)
84
Preuve. Par stationnarité et application du théorème de Lebesgue
!
n
n
1X
1X
nVarγ̂0,m + o(1) = nCov
Υt ,
Υs
n t=1
n s=1
n−1 X
|h|
=
1−
Cov Υt , Υt+h
n
h=−n+1
→
quand n → ∞.
+∞
X
ΓΥ (h) = 2πfΥ (0)
h=−∞
2
L’écriture (3.9) donne l’idée de plusieurs méthodes d’estimation de Σγ̂0,m .
i) L’estimateur naïf qui consiste à remplacer, dans fΥ (0), les ΓΥ (h) par les Γ̂Υ (h)
ne converge pas. Mais on peut obtenir un estimateur convergent en pondérant
les Γ̂Υ (h) par un poids proche de 1 quand h est très petit devant n, et proche
de 0 quand h est suffisamment proche de n. Un tel estimateur est appelé HAC
dans la littérature économétrique (voir par exemple Andrews, 1991).
ii) On peut également obtenir un estimateur consistent de fΥ (0) en utilisant le
périodogramme lissé (voir par exemple Brockwell et Davis, 1992, section 10.4).
iii) Pour un AR(r) multivarié
Ar (B)Yt := Yt −
r
X
Ai Yt−i = Zt ,
(Zt ) bruit blanc de variance ΣZ
i=1
la densité spectrale en 0 vaut
fY (0) =
1
Ar (1)−1 ΣZ A′r (1)−1 .
2π
Il est facile d’ajuster un modèle AR multivarié, même d’ordre élevé, en utilisant
la version multivarié de l’algorithme de Durbin-Levinson (voir Brockwell and
Davis, 1991, p. 422). On peut donc envisager la méthode suivante (voir Berk
(1974) ou Francq, Roy et Zakoïan (2003) pour des justifications théoriques à
cette méthode).
1. On ajuste des modèles AR(r), avec r P
= 0, 1 . . . , R, aux données Υ1 −
n−m
−1
Υn , . . . , Υn−m − Υn où Υn = (n − m)
t=1 Υt ;
2. On sélectionne une valeur r0 en minimisant un critère d’information, par
exemple BIC ;
3. On pose
Σ̂γ̂0,m = Âr0 (1)−1 Σ̂r0 Â′r0 (1)−1 ,
avec des notations évidentes.
85
3.1 Identification
Dans les applications présentées ici nous avons utilisé la méthode iii).
Identification des ordres (P, Q)
Il n’est pas facile d’identifier les ordres d’un modèle mixte ARMA(P, Q) à partir
des ACRE et des ACPE. La méthode du coin (Béguin, Gouriéroux and Monfort, 1980), l’epsilon-algorithme (Berlinet, 1981) ou encore la méthode de Glasbey
(1982) définissent des statistiques plus commodes. Nous présentons la méthode du
coin.
Méthode du coin
Soit D(i, j) la matrice de Toeplitz j × j



D(i, j) = 

ρX (i)
ρX (i + 1)
..
.
ρX (i − 1)
···
ρX (i − j + 1)
ρX (i + j − 1)
···
ρX (i + 1)
ρX (i)





P
et ∆(i, j) le déterminant de D(i, j). Puisque ρX (h) = Pi=1 ai ρX (h−i) = 0, ∀h >
Q, il est clair que D(i, j) n’est pas de plein rang si i > Q et j > P . Plus précisément, P et Q sont les ordres minimaux (i.e. (Xt ) n’admet pas de représentation
ARMA(P ′ , Q′ ) avec P ′ < P ou Q′ < Q) si et seulement si

 ∆(i, j) = 0 ∀i > Q et ∀j > P,
∆(i, P ) 6= 0 ∀i ≥ Q,

∆(Q, j) 6= 0 ∀j ≥ P.
(3.10)
Les ordres minimaux P et Q sont donc caractérisés par le tableau suivant
(T 1)
i\j
1
.
.
.
P
P +1
1
ρ1
2
ρ2
.
.
. .
. .
Q
ρq
Q+1
ρq+1
×
×
×
×
×
×
0
0
0
0
.
.
.
.
.
.
.
.
× × × ×
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
86
où ∆(j, i) est à l’intersection de la ligne i et de la colonne j, et "×" désigne un
élément non nul.
Les ordres P et Q sont donc caractérisés par un coin de 0 dans le tableau (T 1),
d’où le nom de méthode du coin. Les éléments du tableau s’obtiennent rapidement
en utilisant la récurrence sur j
∆(i, j)2 = ∆(i + 1, j)∆(i − 1, j) + ∆(i, j + 1)∆(i, j − 1),
(3.11)
et en posant ∆(i, 0) = 1, ∆(i, 1) = ρX (|i|).
ˆ j), (Tˆ1), . . . les objets obtenus en remplaçant {ρX (h)} par
Notons D̂(i, j), ∆(i,
{ρ̂X (h)} dans D(i, j), ∆(i, j), (T 1), . . . En pratique on ne dispose que d’un nombre
ˆ i) pour i ≥ 1, j ≥ 1
fini d’ACRE ρ̂X (1), . . . , ρ̂X (K), ce qui permet de calculer ∆(j,
ˆ i) sont
et i + j ≤ K + 1. Le tableau (Tˆ1) est donc triangulaire. Comme les ∆(j,
ˆ
des estimateurs convergent des ∆(j, i), les ordres P et Q sont caractérisés par un
coin de "petites valeurs" dans le tableau (Tˆ1). Mais le terme "petite valeur" de
(Tˆ1) n’est pas clair. 4
Il est préférable de considérer les statistiques "studentisées" définies, pour i =
−K, . . . , K et j = 0, . . . , K − |i| + 1, par
t(i, j) =
ˆ j)
√ ∆(i,
n
,
σ̂∆(i,j)
ˆ
2
σ̂∆(i,j)
=
ˆ
ˆ j)
ˆ j)
∂ ∆(i,
∂ ∆(i,
Σ̂
,
ρ̂
K
∂ρ′K
∂ρK
(3.12)
où Σ̂ρ̂K est un estimateur convergent de la matrice de covariance asymptotique de
K premières ACRE, que l’on
ˆpeut obtenirˆ avec
les algorithmes vus précédemment,
ˆ
∂ ∆(i,j)
∂ ∆(i,j)
∂ ∆(i,j)
et où le jacobien ∂ρ′ = ∂ρX (1) , . . . , ∂ρX (K) est obtenu en dérivant (3.11) :
K
ˆ 0)
∂ ∆(i,
= 0 pour i = −K − 1, . . . , K − 1 et k = 1, . . . , K;
∂ρX (k)
ˆ 1)
∂ ∆(i,
= II{k} (|i|) pour i = −K, . . . , K et k = 1, . . . , K;
∂ρX (k)
ˆ
ˆ
ˆ
ˆ j + 1)
2∆(i, j) ∂∂ρ∆(i,j)
− ∆(i + 1, j) ∂ ∆(i−1,j)
− ∆(i − 1, j) ∂ ∆(i+1,j)
∂ ∆(i,
∂ρX (k)
∂ρX (k)
X (k)
=
ˆ j − 1)
∂ρX (k)
∆(i,
ˆ
{∆(i, j)2 − ∆(i + 1, j)∆(i − 1, j)} ∂ ∆(i,j−1)
∂ρX (k)
−
ˆ 2 (i, j − 1)
∆
ˆ j) et ∆(i
ˆ ′ , j ′ ) pour j 6= j ′ (i.e. des éléments de lignes différentes dans le
Comparer ∆(i,
ˆ
tableau (T 1)) est d’autant plus difficile que ce sont des déterminants de 2 matrices qui n’ont pas
la même taille.
4
3.1 Identification
87
pour k = 1, . . . , K, i = −K + j, . . . , K − j et j = 1, . . . , K.
Lorsque ∆(i, j) = 0 la statistique t(i, j) se comporte asymptotiquement comme une
4
N (0, 1)
√ (en particulier sous réserve d’existence de EXt ). Si par contre ∆(i, j) 6= 0
alors n|t(i, j)| → ∞ p.s. quand n → ∞. On peut rejeter l’hypothèse ∆(i, j) = 0
au niveau α% si |t(i, j)| dépasse le quantile d’ordre 1 − α/2 d’une N (0, 1). On peut
aussi détecter automatiquement un coin de petites valeurs dans le tableau (T˜1)
des t(i, j) si aucune valeur de ce coin ne dépasse 1 − α/2 en valeur absolue. Cette
pratique n’aboutit bien sûr pas à un quelconque test de niveau α, mais permet de
sélectionner un petit nombre de valeurs plausibles pour les ordres P et Q.
Exemple d’utilisation de la méthode du coin
Sur une simulation de taille n = 1000 du modèle ARMA(2,1)-GARCH(1,1) (3.8)
on obtient le tableau suivant :
.p.|.q..1....2....3....4....5....6....7....8....9...10...11...12...
1 | 17.6-31.6-22.6 -1.9 11.5 8.7 -0.1 -6.1 -4.2 0.5 3.5 2.1
2 | 36.1 20.3 12.2 8.7 6.5 4.9 4.0 3.3 2.5 2.1 1.8
3 | -7.8 -1.6 -0.2 0.5 0.7 -0.7 0.8 -1.4 1.2 -1.1
4 |
5.2 0.1 0.4 0.3 0.6 -0.1 -0.3 0.5 -0.2
5 | -3.7 0.4 -0.1 -0.5 0.4 -0.2 0.2 -0.2
6 |
2.8 0.6 0.5 0.4 0.2 0.4 0.2
7 | -2.0 -0.7 0.2 0.0 -0.4 -0.3
8 |
1.7 0.8 0.0 0.2 0.2
9 | -0.6 -1.2 -0.5 -0.2
10 |
1.4 0.9 -0.2
11 | -0.2 -1.2
12 |
1.2
On remarque des coins de valeurs pouvant raisonnablement être des réalisations
d’une N (0, 1). Un tel coin est constitué des éléments des lignes 3, 4, . . . et des
colonnes 2, 3, . . . , ce qui nous incite à retenir le modèle ARMA(2,1). Le programme
de détection automatiques des coins de petites valeurs donne.
ARMA(P,Q) MODELS FOUND WITH GIVEN SIGNIFICANCE LEVEL
PROBA
CRIT
MODELS FOUND
0.200000
1.28
( 2, 8)
( 3, 1)
(10, 0)
0.100000
1.64
( 2, 1)
( 8, 0)
0.050000
1.96
( 1,10)
( 2, 1)
( 7, 0)
0.020000
2.33
( 0,11)
( 1, 9)
( 2, 1)
( 6, 0)
0.010000
2.58
( 0,11)
( 1, 8)
( 2, 1)
( 6, 0)
88
0.005000
0.002000
0.001000
0.000100
0.000010
2.81
3.09
3.29
3.72
4.26
(
(
(
(
(
0,11)
0,11)
0,11)
0, 9)
0, 8)
(
(
(
(
(
1,
1,
1,
1,
1,
8)
8)
8)
7)
6)
(
(
(
(
(
2,
2,
2,
2,
2,
1)
1)
1)
1)
1)
(
(
(
(
(
5,
5,
5,
5,
4,
0)
0)
0)
0)
0)
On retrouve les ordres (P, Q) = (2, 1) du modèle simulé, mais aussi d’autres ordres
plausibles. Il n’est pas étonnant que le modèle ARMA(2,1) soit bien approché
par d’autres modèles ARMA, par exemple un AR(6), une MA(11) ou encore un
ARMA(1,8) (mais en pratique on préfère le modèle ARMA(2,1) car les autres
modèles sont moins parcimonieux).
3.1.4
Identification des ordres GARCH d’un ARMAGARCH
Principe de la méthode
Pour identifier les ordres d’un GARCH(p, q), on peut utiliser le fait que (ǫ2t ) suit un
ARMA(P̃ , Q̃) avec P̃ = p ∧ q et Q̃ = p. Dans le cas d’un GARCH pur, (ǫt ) = (Xt )
est observé. La variance asymptotique des ACRE de ǫ21 , . . . , ǫ2n peut être estimée
par la méthode décrite précédemment. Le tableau des statistiques studentisées de
la méthode du coin s’en déduit, exactement comme dans la section précédente.
Il s’agit ensuite de détecter au moins un coin de valeurs normales à partir de la
ligne P̃ + 1 et de la colonne Q̃ + 1 du tableau, sous les contraintes P̃ ≥ 1 (car
p ∧ q ≥ q ≥ 1) et P̃ ≥ Q̃. Ceci aboutit à sélectionner des modèles GARCH(p, q)
tels que (p, q) = (Q̃, P̃ ) quand Q̃ < P̃ et (p, q) = (Q̃, 1), (p, q) = (Q̃, 2), . . . ,
(p, q) = (Q̃, P̃ ) quand Q̃ ≥ P̃ .
Dans le cas d’un ARMA-GARCH, les ǫt ne sont pas observés, mais on peut les
approcher par les résidus d’ajustement d’un AR, comme décrit dans les étapes i)
et iii) de l’algorithme de la section 3.1.3.
Applications
Considérons une simulation de taille n = 5000 du modèle GARCH(2,1)
ǫt = σt ηt
2
2
σt2 = ω + αǫ2t−1 + β1 σt−1
+ β2 σt−2
(3.13)
où (ηt ) est une suite de variables iid N (0, 1), ω = 1, α = 0.1, β1 = 0.05 et β2 = 0.8.
Le tableau des statistiques studentisées de la méthode du coin est le suivant.
89
3.1 Identification
.max(p,q).|.p..1....2....3....4....5....6....7....8....9...10...11...12...13...14...15...
1 |
5.3 2.9 5.1 2.2 5.3 5.9 3.6 3.7 2.9 2.9 3.4 1.4 5.8 2.4 3.0
2 | -2.4 -3.5 2.4 -4.4 2.2 -0.7 0.6 -0.7 -0.3 0.4 1.1 -2.5 2.8 -0.2
3 |
4.9 2.4 0.7 1.7 0.7 -0.8 0.2 0.4 0.3 0.3 0.7 1.4 1.4
4 | -0.4 -4.3 -1.8 -0.6 1.0 -0.6 0.4 -0.4 0.5 -0.6 0.4 -1.1
5 |
4.6 2.4 0.6 0.9 0.8 0.5 0.3 -0.4 -0.5 0.5 -0.8
6 | -3.1 -1.7 1.4 -0.8 -0.3 0.3 0.3 -0.5 0.5 0.4
7 |
3.1 1.2 0.3 0.6 0.3 0.2 0.5 0.1 -0.7
8 | -1.0 -1.3 -0.7 -0.5 0.8 -0.5 0.3 -0.6
9 |
1.5 0.3 0.2 0.7 -0.5 0.5 -0.7
10 | -1.7 0.1 0.3 -0.7 -0.6 0.5
11 |
1.8 1.2 0.6 0.7 -1.0
12 |
1.6 -1.3 -1.4 -1.1
13 |
4.2 2.3 1.4
14 | -1.2 -0.6
15 |
1.4
On remarque un coin de valeurs plausibles pour une N (0, 1) à partir de la ligne
P̃ +1 = 3 et de la colonne Q̃+1 = 3, ce qui correspond à des modèles GARCH(p, q)
tel que (p ∧ q, p) = (2, 2), c’est à dire (p, q) = (2, 1) ou (p, q) = (2, 2). Un petit
nombre d’autres valeurs plausibles pour (p, q) sont détectées.
GARCH(p,q) MODELS FOUND WITH GIVEN
PROBA
CRIT
MODELS
0.200000
1.28
( 3, 1)
( 3,
0.100000
1.64
( 3, 1)
( 3,
0.050000
1.96
( 2, 1)
( 2,
0.020000
2.33
( 2, 1)
( 2,
0.010000
2.58
( 2, 1)
( 2,
0.005000
2.81
( 2, 1)
( 2,
0.002000
3.09
( 2, 1)
( 2,
0.001000
3.29
( 2, 1)
( 2,
0.000100
3.72
( 2, 1)
( 2,
0.000010
4.26
( 2, 1)
( 2,
SIGNIFICANCE LEVEL
FOUND
2)
( 3, 3)
( 1,13)
2)
( 3, 3)
( 2, 4)
2)
( 0,13)
2)
( 1, 5)
( 0,13)
2)
( 1, 4)
( 0,13)
2)
( 1, 4)
( 0,13)
2)
( 1, 4)
( 0,13)
2)
( 1, 4)
( 0,13)
2)
( 1, 4)
( 0,13)
2)
( 1, 4)
( 0, 5)
( 0,13)
Un ARMA-GARCH
Reprenons la simulation de taille n = 1000 du modèle ARMA(2,1)-GARCH(1,1)
(3.8). Le tableau des statistiques studentisées de la méthode du coin, appliquée
aux ACRE du processus observé, a déjà été présenté. Un petit nombre de modèles ARMA, dont le modèle ARMA(2,1), ont été retenus. Soient e1+p0 , . . . , en les
résidus d’ajustement des observations par un modèle AR(p0 ), dont l’ordre p0 est
sélectionné par critère d’information. 5 En appliquant à nouveau la méthode du
coin, mais sur les ACRE des carrés des résidus e21+p0 , . . . , e2n , et en estimant les covariances entre ACRE par l’approximation AR spectrale multivariée décrite plus
haut, on obtient le tableau suivant.
5
On pourrait également utiliser l’algorithme des innovations de Brockwell et Davis (1992,
p.172) pour ajuster rapidement des modèles MA. On pourrait encore utiliser un des modèles
ARMA préalablement sélectionnés, par exemple le modèle ARMA(2,1), pour approximer les
innovations.
90
.max(p,q).|.p..1....2....3....4....5....6....7....8....9...10...11...12...
1 |
4.5 4.1 3.5 2.1 1.1 2.1 1.2 1.0 0.7 0.4 -0.2 0.9
2 | -2.7 0.3 -0.2 0.1 -0.4 0.5 -0.2 0.2 -0.1 0.4 -0.2
3 |
1.4 -0.2 0.0 -0.2 0.2 0.3 -0.2 0.1 -0.2 0.1
4 | -0.9 0.1 0.2 0.2 -0.2 0.2 0.0 -0.2 -0.1
5 |
0.3 -0.4 0.2 -0.2 0.1 0.1 -0.1 0.1
6 | -0.7 0.4 -0.2 0.2 -0.1 0.1 -0.1
7 |
0.0 -0.1 -0.2 0.1 -0.1 -0.2
8 | -0.1 0.1 -0.1 -0.2 -0.1
9 | -0.3 0.1 -0.1 -0.1
10 |
0.1 -0.2 -0.1
11 | -0.4 0.2
12 | -1.0
On remarque un coin de valeurs pouvant raisonnablement être produites par des
N (0, 1) à partir de la ligne 2 et de la colonne 2, ce qui correspond à un modèle
GARCH(1, 1). Un autre coin apparaît en dessous de la ligne 2, ce qui correspond
à un modèle GARCH(0, 2)=ARCH(2). En pratique, dans cette phase d’identification, on retiendrait au moins ces 2 modèles. Viendrait ensuite la phase d’estimation des modèles retenus, suivie d’une phase de validation constituée de tests de
significativité des coefficients, d’examen des résidus et de comparaison de critères
d’information. Cette phase de validation permet de retenir le modèle final qui sert
aux prévisions.
GARCH(p,q) MODELS FOUND WITH GIVEN
PROBA
CRIT
MODELS
0.200000
1.28
( 1, 1)
( 0,
0.100000
1.64
( 1, 1)
( 0,
0.050000
1.96
( 1, 1)
( 0,
0.020000
2.33
( 1, 1)
( 0,
0.010000
2.58
( 1, 1)
( 0,
0.005000
2.81
( 0, 1)
0.002000
3.09
( 0, 1)
0.001000
3.29
( 0, 1)
0.000100
3.72
( 0, 1)
0.000010
4.26
( 0, 1)
SIGNIFICANCE LEVEL
FOUND
3)
2)
2)
2)
2)
Contraintes sur ρǫ2 (·)
Les coefficients de la représentation ARMA de ǫ2t sont contraints. Ceci entraîne
que les autocorrélations de ǫ2t sont toujours positives.
Proposition 3.4 Si ǫ est un GARCH qui possède des moments d’ordre 4, alors
ρǫ2 (h) ≥ 0 pour tout h > 0.
91
3.2 Estimation des ARCH par MCO
Preuve. Considérons la représentation
vectorielle (2.16) de la forme z t = bt +
At z t−1 . Supposons que Cov z t , z t−h soit semi-définie positive pour h ≥ 0. C’est
évidemment le cas pour h = 0. Alors
Cov z t , z t−h−1 = Cov bt + At z t−1 , z t−h−1 = EAt Cov z t , z t−h
est aussi semi-définie positive.
2
3.2
Estimation des modèles ARCH par la méthode
des moindres carrés
Dans cette partie nous considérons l’estimation par la moindres carrés ordinaires
(MCO) du modèle ARCH(q) :
ǫt = σt ηt ,
σt2 = ω0 +
q
X
α0i ǫ2t−i
i=1
avec ω0 > 0, α0i ≥ 0, i = 1, . . . , q
(3.14)
(ηt ) est une suite de variables iid, E(ηt ) = 0, Var(ηt ) = 1.
La méthode consiste à tirer parti de la représentation AR sur le carré du processus
observé et à appliquer la méthode des mondres carrés quasi-généralisés (MCQG).
Aucune hypothèse n’est faite sur la loi de ηt . Les estimateurs obtenus sont, au moins
pour n grand, moins précis que ceux du quasi-maximum de vraisemblance (QMV)
(voir plus loin) mais plus faciles à obtenir. Ils peuvent également fournir des valeurs
initiales pour la procédure d’optimisation utilisée dans l’obtention d’estimateurs
du QMV plus précis.
La vraie valeur du vecteur des paramètres est noté θ0 = (ω0 , α01 , . . . , α0q )′ et nous
noterons θ une valeur quelconque.
On déduit de (3.14) la représentation AR(q)
ǫ2t
= ω0 +
q
X
α0i ǫ2t−i + ut
(3.15)
i=1
où ut = ǫ2t − σt2 = (ηt2 − 1)σt2 . La suite (ut , Ft−1 )t constitue donc une différence de
martingale.
92
On suppose que l’on dispose d’observations ǫ1 , . . . , ǫn , réalisation partielle du processus (ǫt ), et de valeurs initiales ǫ0 , . . . , ǫ1−q . Par exemple ces valeurs initiales
peuvent être choisies nulles. Introduisant le vecteur
′
Zt−1
= 1, ǫ2t−1 , . . . , ǫ2t−q ,
on déduit de (3.15) le système
′
ǫ2t = Zt−1
θ0 + ut ,
(3.16)
t = 1, . . . , n
soit
Y = Xθ0 + U
en définissant la matrice n × q et les vecteurs n × 1





′
Zn−1
ǫ2n





X =  ...  , Y =  ...  , U = 
Z0′
ǫ21

un
..  .
. 
u1
Supposons que la matrice X ′ X soit inversible (nous verrons que c’est le cas asymptotiquement, donc aussi pour n assez grand). On en déduit l’estimateur des MCO
de θ :
θ̂n = (X ′ X)−1 X ′ Y.
(3.17)
L’estimateur des MCO de σ02 = Varθ0 (ut ) est :
(
)2
q
n
X
X
1
1
2
2
2
kY − X θ̂n k =
ǫt − ω̂ −
α̂i ǫt−i .
σ̂ =
n−q−1
n − q − 1 t=1
i=1
2
Nous serons amenés, pour établir la convergence, à considérer les hypothèses
suivantes.
H1 : (ǫt ) est solution non anticipative strictement stationnaire du modèle
(3.14).
H2 : Eθ0 (ǫ4t ) < +∞.
H3 : P [ηt2 = 1] 6= 1.
Théorème 3.1 (Convergence des estimateurs MCO pour un ARCH)
Soit (θ̂n ) une suite d’estimateurs satisfaisant (3.17). Sous les hypothèses H1-H3,
presque sûrement
θ̂n → θ0 ,
σ̂n2 → σ02 ,
quand n → ∞.
93
Preuve. La preuve comporte plusieurs étapes.
i) Nous avons vu (Théorème 2.4) que l’unique solution stationnaire non anticipative (ǫt ) est ergodique. Le processus (Zt ) est également ergodique car Zt s’écrit
comme fonction mesurable des ǫt−i . Le théorème ergodique6 appliqué au processus
strictement stationnaire (Zt ) entraîne
n
1 ′
1X
′
′
XX=
Zt−1 Zt−1
→ Eθ0 (Zt−1 Zt−1
),
n
n t=1
p.s.
quand n → ∞.
(3.18)
L’existence de l’espérance est assurée par l’hypothèse H3. On a de même
n
1X
1 ′
XY =
Zt−1 ǫ2t → Eθ0 (Zt−1 ǫ2t ),
n
n t=1
p.s.
quand n → ∞.
′
ii) Montrons par l’absurde l’inversibilité de la matrice Eθ0 Zt−1 Zt−1
= Eθ0 Zt Zt′ .
Supposons qu’il existe c vecteur non nul de Rq+1 tel que c′ Eθ0 Zt Zt′ = 0. Donc
Eθ0 {c′ Zt (c′ Zt )′ } = 0, d’où l’on déduit que c′ Zt est p.s. constant. Par suite, il existe
une combinaison linéaire p.s. égale à une constante des variables ǫ2t , . . . , ǫ2t−q+1 . On
peut supposer sans perte de généralité que, dans cette combinaison, le coefficient
de ǫ2t = ηt2 σt2 est 1. Donc ηt s’exprime p.s. comme fonction mesurable des variables
ǫt−1 , . . . , ǫt−q . Or, d’après le caractère non anticipatif de la solution, ηt2 est indépendante de ces variables. Ceci implique que ηt2 est p.s. égale à une constante. Cette
constante ne peut être que 1, mais on aboutit alors à une contradiction avec H3.
′
Donc Eθ0 Zt−1 Zt−1
est inversible.
iii) Il découle de ce qui précède que n1 X ′ X est p.s. inversible, pour n assez grand
et que p.s. quand n → ∞,
′ −1 ′
−1
XX
XY
′
θ̂n =
→ Eθ0 (Zt−1 Zt−1
)
Eθ0 (Zt−1 ǫ2t ).
n
n
iv) Rappelons que le processus (ut ) est l’innovation forte de (ǫ2t ). On a donc, en
particulier, les relations d’orthogonalité
Eθ0 (ut ) = Eθ0 (ut ε2t−1 ) = . . . = Eθ0 (ut ε2t−q ) = 0
c’est-à-dire
Eθ0 (Zt−1 ut ) = 0
6
Si
Pn(Xt ) est un processus stationnaire ergodique et EX1 existe dans R ∪ {+∞} alors
n
t=1 Xt converge presque sûrement vers EX1 quand n → ∞ (voir par exemple Billingsley "Probability and Measure" (1995) p. 284 et 495).
−1
94
d’où l’on déduit, en utilisant (3.16),
′
Eθ0 (Zt−1 ǫ2t ) = Eθ0 (Zt−1 Zt−1
)θ0 .
Donc, d’après ii) et iii), θ̂n converge p.s. vers θ0 .
La convergence forte de σ̂n2 vers σ02 s’en déduit.
2
Pour la normalité asymptotique de l’estimateur des MCO, nous devons faire
l’hypothèse supplémentaire
H4 : Eθ0 (ε8t ) < +∞.
Introduisons les matrices carrées symétriques de taille q + 1
′
A = Eθ0 (Zt−1 Zt−1
),
′
I = Eθ0 (σt4 Zt−1 Zt−1
).
L’inversibilité de A a été établie dans la preuve du Théorème 3.1, celle de I sera
montrée dans la preuve du résultat suivant, qui établit la normalité asymptotique
de l’estimateur des MCO.
On note µ4 = Eηt4 .
Théorème 3.2 Sous les hypothèses H1-H4,
√
L
n(θ̂n − θ0 ) → N (0, (µ4 − 1)A−1 IA−1 ).
Preuve. On a, d’après (3.16)
θ̂n =
=
n
!−1
n
!−1 (
1X
′
Zt−1 Zt−1
n t=1
1X
′
Zt−1 Zt−1
n t=1
= θ0 +
n
1X
Zt−1 ǫ2t
n t=1
n
!
1X
′
Zt−1 (Zt−1
θ0 + ut )
n t=1
!−1 ( n
)
n
X
1X
1
′
Zt−1 Zt−1
Zt−1 ut .
n t=1
n t=1
)
95
Donc
√
n
1X
′
Zt−1 Zt−1
n t=1
n(θ̂n − θ0 ) =
!−1 (
n
1 X
√
Zt−1 ut
n t=1
)
.
(3.19)
Soit λ ∈ Rq+1 , λ 6= 0. La suite (λ′ Zt−1 ut , Ft ) est une différence de martingale
stationnaire, ergodique et de carré intégrable de variance
′
′
Varθ0 (λ′ Zt−1 ut ) = λ′ Eθ0 (Zt−1 Zt−1
u2t )λ = λ′ Eθ0 Zt−1 Zt−1
(ηt2 − 1)2 σt4 λ
= (µ4 − 1)λ′ Iλ.
Par application d’un TCL (voir note de bas de page de la preuve de la Proposition
3.1) on en déduit que, pour tout λ 6= 0
n
1 X ′
L
√
λ Zt−1 ut → N (0, (µ4 − 1)λ′ Iλ).
n t=1
Par suite, en appliquant la propriété de Cramer-Wold,
n
1 X
L
√
Zt−1 ut → N (0, (µ4 − 1)I).
n t=1
(3.20)
On montre que cette loi limite est non dégénérée, c’est-à-dire que I est inversible,
par le même raisonnement que celui utilisé pour établir l’inversibilité de A dans la
preuve du Théorème 3.1.
Par √
suite, on déduit de (3.18), (3.19) et (3.20), par un raisonnement classique,
que n(θ̂n − θ0 ) est asymptotiquement normal, de moyenne le vecteur nul, et de
variance la matrice du théorème.
2
Remarque : on obtient des estimateurs convergents Â et Iˆ des matrices A et I en
remplaçant les moments théoriques par les moments empiriques correspondants :
n
1X
′
Â =
Zt−1 Zt−1
,
n t=1
n
1X 4
′
Iˆ =
σ̂ Zt−1 Zt−1
n t=1 t
′
où σ̂t2 = Zt−1
θ̂n . On estime également de
le moment d’ordre
Pnmanière convergente
1
4
4 du processus ηt = ǫt /σt par µ̂4 = n t=1 (ǫt /σ̂t ) . On en déduit finalement un
estimateur convergent de la matrice de variance asymptotique défini par
√
ˆ as { n(θ̂n − θ0 )} = (µ̂4 − 1)Â−1 IˆÂ−1 .
Var
96
Exemple : ARCH(1) Lorsque q = 1 les conditions de moments H2 et H4
prennent la forme µ4 α2 < 1 et µ8 α4 < 1 (voir l’exemple illustrant le Théorème
2.6). On a
A=
1
Eθ0 ǫ2t−1
Eθ0 ǫ2t−1 Eθ0 ǫ4t−1
,
I=
Eθ0 σt4
Eθ0 σt4 ǫ2t−1
Eθ0 σt4 ǫ2t−1 Eθ0 σt4 ǫ4t−1
On a
Eθ0 ǫ2t =
ω
,
1−α
Eθ0 ǫ4t = µ4 Eθ0 σt4 =
ω 2 (1 + α)
µ4 .
(1 − µ4 α2 )(1 − α)
Les autres termes de la matrice I s’obtiennent en utilisant σt4 = (ω + αǫ2t−1 )2 et en
calculant les moments d’ordre 6 et 8 de ǫ2t .
A titre d’exemple, le tableau suivant présente quelques valeurs numériques de la
variance asymptotique, pour différentes valeurs des paramètres, lorsque ηt suit
la loi normale (0,1). On a µ4 = 3, µ8 = 105 et l’hypothèse H4 prend la forme
α < 105−1/4 = 0.312.
paramètres
ω = 1, α = 0.1 ω = 1, α = 0.2 ω = 1, α = 0.3 √
3.98 −1.85
8.03 −5.26
151.0 −106.5
Varas { n(θ̂n − θ0 )}
−1.85 2.15
−5.26 5.46
−106.5 77.6
La précision asymptotique du paramètre ω, et globalement celle du couple θ, devient très faible au voisinage de la frontière d’existence du moment d’ordre 8. La
méthode peut cependant être utilisée pour estimer α, même pour des valeurs plus
élévées de ce paramètre (l’estimateur est convergent pour α < 3−1/2 = 0.577), et
fournir ainsi une valeur initiale dans l’algorithme de maximisation de la vraisemblance.
3.3
Estimation des modèles GARCH par quasimaximum de vraisemblance
Dans cette partie nous étudions la méthode du maximum de vraisemblance conditionnelle (à des valeurs initiales). Nous présentons une procédure itérative de calcul
de la log-vraisemblance gaussienne, conditionnellement à des valeurs initiales fixes
ou aléatoires. Cette vraisemblance est écrite comme si la loi des variables ηt était
normale centrée réduite (on parle de pseudo ou quasi-vraisemblance), mais cette
hypothèse n’est pas nécessaire pour la convergence forte de l’estimateur. Elle a évidemment un effet sur la variance de la loi normale asymptotique de l’estimateur.
97
3.3 Estimation des GARCH par QMV
3.3.1
Quasi-vraisemblance conditionnelle
On supposera que les observations ǫ1 , . . . , ǫn constituent une réalisation (de longueur n) d’un processus GARCH(p, q), solution strictement stationnaire non anticipative du modèle


 ǫt = σt ηt q
p
X
X
(3.21)
2
2
2
σ
=
ω
+
α
ǫ
+
βj σt−j

i t−i
 t
i=1
j=1
où (ηt ) est une suite de variables iid centrées et de variance unité, ω > 0, αi ≥ 0
(i = 1, . . . , q), βj ≥ 0 (j = 1, . . . , p).
Les ordres p et q sont supposés connus. Le vecteur des paramètres
θ = (θ1 , . . . , θp+q+1 )′ := (ω, α1 , . . . , αq , β1 , . . . , βp )′
(3.22)
appartient à un espace de paramètres Θ ⊂]0, +∞[×[0, ∞[p+q . La vraie valeur du
paramètre est inconnue et est notée θ0 = (ω0 , α01 , . . . , α0q , β01 , . . . , β0p )′ .
Pour écrire la vraisemblance du modèle, il faut spécifier une distribution particulière pour les variables iid ηt . On considère généralement la quasi-vraisemblance
gaussienne, i.e. la vraisemblance obtenue à partir d’une loi normale centrée réduite
pour les ηt . Nous ne ferons cependant pas l’hypothèse que cette loi constitue la
vraie distribution du processus iid.
La spécification d’une distribution gaussienne pour les variables ηt ne permet pas
d’en déduire simplement la loi de l’échantillon. On travaille avec la vraisemblance
de ǫ1 , . . . , ǫn conditionnellement à certaines valeurs initiales.
2
Etant données des valeurs initiales ǫ0 , . . . , ǫ1−q , σ̃02 , . . . , σ̃1−p
que nous allons préciser, la vraisemblance conditionnelle gaussienne Ln (θ) s’écrit
n
Y
1
ǫ2t
p
Ln (θ) = Ln (θ; ǫ1 , . . . , ǫn ) =
(3.23)
exp − 2 ,
2σ̃t
2πσ̃t2
t=1
où les σ̃t2 sont définis récursivement, pour t ≥ 1, par
σ̃t2
=
σ̃t2 (θ)
=ω+
q
X
i=1
αi ǫ2t−i
+
p
X
2
βj σ̃t−j
.
(3.24)
j=1
Pour une valeur donnée de θ, sous l’hypothèse de stationnarité au second ordre,
la variance non conditionnelle (correspondant à cette valeur de θ) est un choix
raisonnable pour les valeurs initiales inconnues :
ω
2
Pq
P
ǫ20 = · · · = ǫ21−q = σ02 = · · · = σ1−p
=
.
(3.25)
1 − i=1 αi − pj=1 βj
98
De telle valeurs initiales ne conviennent pas notamment pour les modèles IGARCH,
pour lesquels l’hypothèse de stationnarité au second ordre est relachée, car la
constante (3.25) prendrait des valeurs négatives pour certaines valeurs de θ. On
peut alors proposer de prendre comme valeurs initiales
2
ǫ20 = · · · = ǫ21−q = σ̃02 = · · · = σ̃1−p
=ω
(3.26)
2
ǫ20 = · · · = ǫ21−q = σ̃02 = · · · = σ̃1−p
= ǫ21 .
(3.27)
ou encore
Un estimateur du QMV de θ est défini comme toute quantité θ̂n vérifiant presque
sûrement
Ln (θ̂n ) = sup Ln (θ).
(3.28)
θ∈Θ
On voit, en prenant le logarithme, que maximiser la vraisemblance revient à minimiser par rapport à θ
−1
l̃n (θ) = n
n
X
ℓ̃t ,
où ℓ̃t = ℓ̃t (θ) =
t=1
ǫ2t
+ ln σ̃t2
σ̃t2
(3.29)
et σ̃t2 est définie en (3.24). Un estimateur du quasi-maximum de vraisemblance est
donc une solution mesurable de l’équation
θ̂n = arg min l̃n (θ).
(3.30)
θ∈Θ
Equations de vraisemblance
On obtient les équations de vraisemblance en annulant la dérivée par rapport à θ
du critère l̃n (θ), ce qui donne
n
1 ∂ σ̃ 2
1X 2
{ǫt − σ̃t2 } 4 t = 0.
n t=1
σ̃t ∂θ
(3.31)
Ces équations s’interprètent, pour n grand, comme des relations d’orthogonalité.
En effet, comme nous le verrons plus précisément dans la partie suivante, le terme
de gauche de l’égalité précédente se comporte asymptotiquement comme
n
1X 2
1 ∂σ 2
{ǫt − σt2 } 4 t
n t=1
σt ∂θ
(3.32)
99
l’influence des valeurs initiales étant nulle lorsque n → ∞. Or, pour la vraie valeur
du paramètre, l’innovation de ǫ2t est νt = ǫ2t −σt2 . Donc sous réserve que l’espérance
existe, on a
1 ∂σt2 (θ0 )
Eθ0 νt 4
=0
σt (θ0 ) ∂θ
∂σ2 (θ )
1
t 0
est une fonction mesurable des ǫt−i , i > 0. Ce résultat n’est autre
car σ4 (θ
∂θ
t 0)
que la version asymptotique de (3.31) en θ0 , en utilisant le théorème ergodique.
3.3.2
Propriétés asymptotiques de l’estimateur du QMV
Dans tout le chapitre, nousPutiliserons comme norme d’une matrice A = (aij )
quelconque la norme kAk = |aij |. Le rayon spectral d’une matrice A carrée sera
L
noté ρ(A). Le produit de Kronecker sera noté ⊗ et le symbole → désignera la
convergence en loi.
Convergence forte
Rappelons que le modèle (3.21) possède une solution strictement stationnaire si et
seulement si le coefficient de Lyapounov de la suite de matrices

α1 ηt2
···
1
0 ···
0
1 ···
..
.. ..
.
.
.








 0


At =  α
1


 0

 0

 .
 .
 .

0
...
αq ηt2 β1 ηt2
···
0
0
···
0
0
···
..
..
.. ..
.
.
.
.
1
···
..
···
···
.
..
.
...
0
0
0
...
αq
β1
0
0
..
.
1
0
..
.
···
0
0
0
.
..
0
0
..
.
.
...
0
βp
···
···
0
1
..
βp ηt2
0
0
..
.
1
0
est strictement négatif. On note γ(θ) ce coefficient de Lyapounov.























100
Notons
Aθ (z) =
q
X
αi z
i
et
Bθ (z) = 1 −
i=1
p
X
βj z j .
j=1
Par convention Aθ (z) = 0 si q = 0 et Bθ (z) = 1 si p = 0.
Pour la convergence, les hypothèses suivantes sont faites.
A1 :
θ0 ∈ Θ et Θ est compact.
A2 :
γ(θ0 ) < 0 et ∀θ ∈ Θ,
A3 :
Pp
j=1 βj
< 1.
ηt2 a une loi non dégénérée.
A4 :
si p > 0, Aθ0 (z) et Bθ0 (z) n’ont pas de racine commune,
Aθ0 (1) 6= 0, et α0q + β0p 6= 0.
Il sera pratique d’approximer la suite (ℓ̃t (θ)) par une suite stationnaire ergodique.
Grâce au Corollaire 2.1, la condition de stricte stationnarité A2 implique que les
racines de Bθ (z) sont extérieures au disque unité. Notons donc (σt2 )t = {σt2 (θ)}t la
solution strictement stationnaire ergodique et non anticipative de
σt2
=ω+
q
X
αi ǫ2t−i
+
p
X
2
βj σt−j
,
j=1
i=1
(3.33)
∀t
et soit
−1
ln (θ) = ln (θ; ǫn , ǫn−1 . . . , ) = n
n
X
ℓt ,
ℓt = ℓt (θ) =
t=1
ǫ2t
+ ln σt2 .
σt2
Théorème 3.3 (Convergence forte de l’estimateur du QMV) Soit
(θ̂n )
une suite d’estimateurs du QMV satisfaisant (3.30), avec les conditions initiales
(3.26) ou (3.27). Sous les hypothèses A1-A4, presque sûrement
θ̂n → θ0 ,
quand n → ∞.
La démonstration, comme celle des autres théorèmes de cette partie, est donnée
dans Francq et Zakoïan (2004). Elle repose sur une représentation
vectorielle au
2
2
2
2
torégressive d’ordre un du vecteur σ t = σt , σt−1 , . . . , σt−p+1 , analogue à celle
utilisée pour l’étude de la stationnarité. L’hypothèse de stationnarité stricte sur
tout Θ et la compacité permettent d’exprimer σ 2t sous forme d’une série dépendant du passé infini de la variable ǫ2t . On montre que les valeurs initiales n’ont pas
101
d’importance asymptotiquement en utilisant le fait que, sous l’hypothèse de stationnarité stricte, ǫ2t admet nécessairement un moment d’ordre s, avec s > 0 (voir
le Corollaire 2.2). Cette propriété permet également de vérifier que l’espérance de
ℓt (θ0 ) est bien définie dans R et que Eθ0 (ℓt (θ)) − Eθ0 (ℓt (θ0 )) ≥ 0, ce qui assure
que le critère limite est minimisé en la vraie valeur. La difficulté provient du fait
que Eθ0 (ℓ+
t (θ)) peut être égal à +∞. Les hypothèses A3 et A4 sont cruciales pour
établir l’identifiabilité : la première exclut l’existence d’une combinaison linéaire
constante entre les ǫ2t−j , j ≥ 0. On utilise également l’hypothèse d’absence de racines communes. L’ergodicité de ℓt (θ) et un argument de compacité permettent de
conclure.
Remarques :
1. On ne suppose pas que la vraie valeur θ0 du paramètre appartient à l’intérieur
de Θ. Le théorème permet donc de traiter les cas où certains coefficients, αi
ou βj , sont nuls.
2. L’hypothèse A4 disparait dans le cas ARCH. Elle permet de sur-identifier
l’un des ordres, p ou q, mais pas les deux.
3. L’hypothèse A4 exclut le cas où tous les α0i sont nuls. Ceci est évidemment
nécessaire, sinon le modèle a pour solution un bruit blanc fort qui peut
s’écrire de multiples manières. Par exemple, un bruit blanc fort de variance
2
1 peut s’écrire sous la forme d’un GARCH(1,1) avec σt2 = ω +0×ǫ2t−1 +βσt−1
,
pour tous ω et β positifs tels que ω = 1 − β.
4. L’hypothèse d’absence de racines communes, dans A4, n’est restrictive que si
p > 1 et q > 1. En effet si q = 1, la seule racine de Aθ0 (z) est 0 et Bθ0 (0) 6= 0.
Si p = 1 et β01 6= 0, la seule racine de Bθ0 (z) est 1/β01 > 0 (si β01 = 0, le
polynôme n’admet pas de racine). En raison de la positivité des coefficients
α0i , cette valeur ne peut annuler Aθ0 (z).
Normalité asymptotique
Pour montrer la normalité asymptotique les hypothèses supplémentaires suivantes
sont nécessaires.
◦
◦
A5 : θ0 ∈Θ, où Θ est l’intérieur de Θ.
A6 : κη = Eηt4 < ∞.
102
Théorème 3.4 (Normalité√asymptotique des estimateurs du QMV)
Sous les hypothèses A1-A6 n(θ̂n − θ0 ) tend en loi vers une N (0, (κη − 1)J −1 ),
où
2
∂ ℓt (θ0 )
1 ∂σt2 (θ0 ) ∂σt2 (θ0 )
J := Eθ0
= Eθ0
.
(3.34)
∂θ∂θ′
σt4 (θ0 ) ∂θ
∂θ′
La preuve de ce théorème repose classiquement sur un développement de Taylor
du critère (3.29) en θ0 . On a
−1/2
0 = n
n
X
∂
ℓ̃t (θ̂n )
∂θ
t=1
n
X
∂
−1/2
= n
ℓ̃t (θ0 ) +
∂θ
t=1
!
n
√ 1 X ∂2
n θ̂n − θ0
ℓ̃t (θij∗ )
n t=1 ∂θi ∂θj
(3.35)
où les θij∗ sont entre θ̂n et θ0 . Nous montrerons que
n−1/2
et que
n−1
n
X
t=1
n
X
∂
L
ℓ̃t (θ0 ) → N (0, (κη − 1)J) ,
∂θ
t=1
∂2
ℓ̃t (θij∗ ) → J(i, j) en probabilité.
∂θi ∂θj
(3.36)
(3.37)
La preuve du théorème en découlera immédiatement.
Remarques :
1. L’hypothèse A5 est classique car elle permet d’utiliser le fait que les conditions du premier ordre sont valides, au moins asymptotiquement. En effet si
θ̂n est convergent, il appartient également à l’intérieur de Θ pour n grand.
En tant que maximum, il doit donc annuler la dérivée de la fonction critère.
Cette hypothèse est cependant restrictive car elle √
exclut par exemple le cas
α01 = 0 (il est cependant clair que dans ce cas, n(α̂1 − α01 ) est concentrée sur [0, ∞[ et ne peut donc être asymptotiquement normale). Ce type de
problèmes, dits ”de bord”, doit faire l’objet d’une étude spécifique.
2. L’hypothèse A6 ne porte pas sur ǫ2t , et n’exclut bien sûr pas le cas IGARCH.
Seule une hypothèse d’existence du moment d’ordre 4 est imposée sur la suite
(ηt ). Cette hypothèse est clairement nécessaire pour l’existence de la variance
du vecteur du score ∂ℓt (θ0 )/∂θ.
103
3.3.3
Exemple : le cas ARCH(1)
Considérons le modèle ARCH(1)
ǫt = {ω + αǫ2t−1 }1/2 ηt ,
avec ω > 0, α ≥ 0 et supposons que la loi des variables ηt soit une N (0, 1). Le
paramètre à estimer est ici θ = (ω, α)′. La contrainte de stationnarité stricte, A2,
s’écrit d’après (2.11)
α < exp{−E(log ηt2 )} ≃ 3.56.
Afin que l’hypothèse A1 soit vérifiée, on peut prendre un espace des paramètres
de la forme Θ = [δ, 1/δ] × [0, 3.56 − δ] où δ > 0 est une constante suffisamment
petite pour que la vraie valeur θ0 = (ω0 , α0 )′ appartienne à Θ. Pour ce choix de Θ,
les hypothèses A1 − A4 sont vérifiées et l’estimateur du MV de θ est fortement
convergent d’après le théorème 3.4.
Puisque ∂ σ̃t2 /∂θ = (1, ǫ2t−1 )′ , l’estimateur du MV θ̂n = (ω̂n , α̂n )′ est caractérisé par
les équations normales
n
1 X ǫ2t − ω̂n − α̂n ǫ2t−1
1
=0
(3.38)
ǫ2t−1
n t=1 (ω̂n + α̂n ǫ2t−1 )2
en prenant par exemple ǫ20 = ǫ21 . Cet estimateur n’a pas de forme explicite et doit
être obtenu numériquement pour un échantillon donné.
L’application du théorème 3.4 donnant la loi asymptotique de l’estimateur ne
◦
nécessite comme seule hypothèse supplémentaire que θ0 appartienne à Θ =
]δ, 1/δ[×]0, 3.56 − δ[. Ainsi, même si α0 = 0 (modèle conditionnellement homoscédastique), l’estimateur reste convergent mais il ne peut être asymptotiquement
normal. La matrice J prend la forme suivante


2
J = Eθ0 
et la variance asymptotique de
√
1
(ω0 +α0 ǫ2t−1 )2
ǫ2t−1
(ω0 +α0 ǫ2t−1 )2
ǫt−1
(ω0 +α0 ǫ2t−1 )2
ǫ4t−1
(ω0 +α0 ǫ2t−1 )2
n(θ̂n − θ0 ) est
√
Varas { n(θ̂n − θ0 )} = 2J −1 .

A titre d’exemple, voici quelques exemples de calculs numériques de cette matrice,
les espérances étant obtenues à partir de simulations de taille 10000 :
paramètres
ω = 1, α = 0.1 ω = 1, α = 0.5 ω = 1, α = 0.95
√
3.46 −1.34
4.85 −2.15
6.61 −2.83
Varas { n(θ̂n − θ0 )}
−1.34 1.87
−2.15 3.99
−2.83 6.67
104
La comparaison avec les valeurs obtenues par la méthode des MCO fait apparaître
une meilleure précision asymptotique de l’estimateur du MV. Afin d’évaluer, en
échantillon fini, la qualité de l’approximation asymptotique de la variance de l’estimateur nous effectuons l’expérience de Monte-Carlo suivante. Pour la valeur θ0
du paramètre, et pour une taille n donnée, N échantillons sont simulés, condui(i)
sant à N estimations θ̂n de θ, i = 1, . . . N. On note θn = (ω n , αn )′ leur moyenne
empirique. L’écart-type empirique (root mean-square error) des estimations de α
est noté
(
)1/2
N
2
1 X (i)
RMSE(α) =
α̂ − αn
N i=1 n
√
1/2 √
et peut être comparé à {Varas [ n(α̂n − α0 )]} / n, cette dernière quantité étant
évaluée indépendamment, par simulation. Une comparaison similaire peut évidemment être effectuée pour le paramètre ω. Pour θ0 = (0.2, 0.9)′ et N = 1000 on a
obtenu les résultats suivants, pour différentes tailles n :
n
100
250
500
1000
√
1/2 √
αn
RMSE(α) {Varas [ n(α̂n − α0 )]} / n P̂ [α̂n ≥ 1]
0.85221
0.25742
0.25014
0.266
0.88336
0.16355
0.15820
0.239
0.89266
0.10659
0.11186
0.152
0.89804
0.08143
0.07911
0.100
La proximité entre les résultats des colonnes 3 et 4 apparaît très satisfaisante,
même pour des tailles moyennes. La dernière colonne indique la probabilité empirique (ou fréquence dans l’échantillon) que α̂n dépasse de 1 (valeur limite pour la
stationnarité au second ordre). Ces résultats indiquent que même si la moyenne
des estimations est très proche de la vraie valeur pour n grand, la variabilité de
l’estimateur reste élevée. Notons enfin qu’une taille de 1000 reste réaliste pour les
séries financières.
3.4
Exercices
3.1 (Comportement asymptotique des ACVE d’une différence de martingale)
Soit (ǫt ) une suite stationnaire
d’accroissements de martingale telle que
Pn
4
−1
Eǫt < ∞ et γ̂(h) = n
t=1 ǫt ǫt+h .
Déterminer la loi asymptotique de n1/2 γ̂(h) pour h 6= 0.
105
3.4 Exercices
3.2 (Comportement asymptotique de n1/2 γ̂(1) pour un ARCH(1))
Soit la solution stationnaire non anticipative d’un ARCH(1)
ǫt = σt ηt
σt2 = ω + αǫ2t−1
(3.39)
où (ηt ) est un bruit blanc fort de variance 1 et µ4 α2 < 1 avec µ4 = Eηt4 .
Déterminer la loi asymptotique de n1/2 γ̂(1).
3.3 (Comportement asymptotique de n1/2 ρ̂(1) pour un ARCH(1))
Pour le modèle ARCH(1) de l’exercice 3.2, déterminer la loi asymptotique
de n1/2 ρ̂(1). Quelle est la variance asymptotique de cette statistique quand
α = 0 ? Tracer cette variance asymptotique en fonction de α et conclure.
3.4 (Formule de l’estimateur MCO d’un ARCH)
Montrer que lorsque X est de rang q, l’estimateur défini par (3.17) est
l’unique solution du problème de minimisation
θ̂ = arg min
q+1
θ∈R
n
X
t=1
′
(ǫ2t − Zt−1
θ)2 ,
Zt′ = (1, ǫ2t , . . . , ǫ2t−q+1 ).
3.5 (Estimateur MCO non contraint et contraint d’un ARCH(2))
Soit un modèle ARCH(2)
ǫt = σt ηt
σt2 = ω + α1 ǫ2t−1 + α2 ǫ2t−2
Soit θ̂ = (ω̂, α̂1 , α̂2 )′ l’estimateur des MCO non contraint du paramètre θ =
(ω, α1 , α2 )′ . Peut-on avoir
1. α̂1 < 0 ?
2. α̂1 < 0 et α̂2 < 0 ?
3. ω̂ < 0, α̂1 < 0 et α̂2 < 0 ?
Soit θ̂c = (ω̂ c , α̂1c , α̂2c )′ l’estimateur des MCO contraint par α̂1c ≥ 0 et α̂2c ≥
0. Considérons l’exemple numérique suivant de n = 3 observations plus 2
valeurs initiales : ǫ2−1 = 0, ǫ20 = 1, ǫ21 = 0, ǫ22 = 1/2, ǫ23 = 1/2. Calculer θ̂ et θ̂c
pour ces observations.
3.6 (Estimation d’un AR(1) avec erreurs ARCH(q))
On considère le modèle
Xt = φ0 Xt−1 + ǫt ,
|φ0 | < 1,
106
où (ǫt ) est la solution strictement stationnaire du modèle (3.14) sous la condition Eǫ4t < ∞. Montrer que l’estimateur des MCO de φ est convergent et
asymptotiquement normal. L’hypothèse Eǫ4t < ∞ est-elle nécessaire dans le
cas d’un AR(1) avec erreurs iid ?
3.7 (Théorème ergodique pour processus non intégrable)
Montrer le théorème ergodique suivant, utilisé dans la preuve de la convergence de l’estimateur du QMV. Le résultat est démontré dans Billingsley
(1995, p. 284) pour des variables iid.
Si (Xt ) est un processus strictement stationnaire ergodique et si EX1 existe
dans R ∪ {+∞} alors
−1
n
n
X
t=1
Xt → EX1 ,
p.s.
quand n → ∞.
Indication : considérer les variables tronquées Xtκ = Xt 1Xt ≤κ où κ > 0 et
faire tendre κ vers +∞.
3.8 (Théorème ergodique uniforme)
Soit le processus {Xt (θ)} de la forme
Xt (θ) = f (θ, ηt , ηt−1 , . . .)
(3.40)
où (ηt ) est un strictement stationnaire et ergodique et f est continue en
θ ∈ Θ, Θ compact de Rd .
1. Montrer que le processus {inf θ∈Θ Xt (θ)} est strictement stationnaire et
ergodique.
2. La propriété reste-t-elle vraie si on ne suppose plus Xt (θ) de la forme
(3.40) mais que l’on suppose {Xt (θ)} strictement stationnaire et ergodique et Xt (θ) fonction continue de θ ?
3.9 (Estimateur des MCO pour un GARCH)
Dans le cadre du modèle GARCH(p, q), (3.21), un estimateur des MCO de
θ est défini comme toute solution mesurable θ̂n de
θ̂n = arg min Qn (θ),
θ∈Θ
où
Q̃n (θ) = n−1
n
X
t=1
ẽ2t (θ),
Θ ⊂ Rp+q+1 ,
ẽt (θ) = ǫ2t − σ̃t2 (θ),
107
3.4 Exercices
et σ̃t2 (θ) est défini par (3.24) avec, par exemple, des valeurs initiales données
par (3.26) ou (3.27). Notons que l’estimateur est non contraint et que la
variable σ̃t2 (θ) peut prendre des valeurs négatives. On peut de même définir
un estimateur des MCO contraint
θ̂nc = arg min Qn (θ),
θ∈Θc
Θ ⊂]0, +∞[×[0, +∞[p+q .
Le but de cet exercice est de montrer que sous les hypothèses du théorème
3.3, et si Eθ0 ǫ4t < ∞, les estimateurs des MCO, contraint et non contraint,
sont fortement convergents.
On considére le critère théorique
−1
Qn (θ) = n
n
X
e2t (θ),
t=1
et (θ) = ǫ2t − σt2 (θ).
1. Montrer que supθ∈Θ Q̃n (θ) − Qn (θ) → 0, presque sûrement quand n →
∞.
2. Montrer que le critère asymptotique est minimisé en θ0 :
∀θ ∈ Θ,
lim Q(θ) ≥ lim Q(θ0 )
n→∞
n→∞
et que θ0 en est l’unique minimum.
3. En déduire que θ̂n → θ0 , presque sûrement quand n → ∞.
4. Montrer que θ̂nc → θ0 , presque sûrement quand n → ∞.
3.10 (La moyenne des carrés des résidus normalisés est égale à 1)
Pour un modèle GARCH, estimé par maximum de vraisemblance avec valeurs
initiales nulles, on introduit les résidus normalisés : η̂t = ǫt /σ̃t (θ̂n ), t =
1, . . . , n. Montrer que p.s.
n
1X 2
η̂ = 1.
n t=1 t
Indication : on pourra remarquer que pour tout c > 0, il existe θ̂n∗ tel que
σ̃t2 (θ̂n∗ ) = cσ̃t2 (θ̂n ) pour tout t ≥ 0. On pourra ensuite considérer la fonction
c 7→ ln (θ̂n∗ ).
3.11 (Estimateur de Jensen et Rahbek pour le paramètre α0 d’un ARCH(1) non
stationnaire)
108
Dans leur article paru en 2004 dans Econometrica, Jensen et Rahbek affirment que l’estimateur QMV d’un ARCH est convergent et asymptotiquement normal, même si les paramètres sont en dehors de la région de stricte
stationnarité. Ils considèrent en réalité le modèle ARCH(1),
1/2
ht = ω0 + α0 ǫ2t−1 ,
ǫt = ht ηt ,
t = 1, 2, . . .
avec ω0 > 0, α0 > 0 et les hypothèses usuelles sur la suite (ηt ), mais où le
paramètre ω0 > 0 est supposé connu (ω0 = 1 par exemple) et où seul α0
est inconnu. Un estimateur QMV contraint de α0 est défini par
n
α̂nc (ω0 )
1X
= arg min
ℓt (α),
α∈[0,∞) n
t=1
ℓt (α) =
ǫ2t
+ log σt2 (α),
σt2 (α)
(3.41)
où σt2 (α) = ω0 + αǫ2t−1 .
Supposons donc ω0 = 1 et supposons vérifiée la condition de non stationnarité
α0 > exp −E log ηt2 .
(3.42)
1. Vérifier que
n
n
ǫ2t−1
1 X
1 X ∂
√
ℓt (α0 ) = √
(1 − ηt2 )
1 + α0 ǫ2t−1
n t=1 ∂α
n t=1
et que
ǫ2t−1
1
→
2
1 + α0 ǫt−1
α0
p.s.
quand t → ∞
2. En déduire que
n
1 X ∂
L
√
ℓt (α0 ) → N
n t=1 ∂α
κη − 1
0,
.
α02
3. Déterminer la limite presque sûre de
n
1 X ∂2
ℓt (α0 ).
n t=1 ∂α2
4. Montrer que pour tout α > 0, presque sûrement
n
1 X
∂3
sup ℓt (α) = O(1).
3
∂α
α≥α n
t=1
109
3.4 Exercices
5. En déduire que si α̂nc = α̂nc (ω0 ) → α0 presque sûrement alors
√
L
n (α̂nc − α0 ) → N 0, (κη − 1)α02 .
6. Le résultat est-il changé lorsque α̂nc = α̂nc (1) et ω0 6= 1 ?
7. Ce résultat a-t-il une quelconque conséquence pratique pour l’estimation
des ARCH ?
Chapitre 4
Modèles à volatilité stochastique
Nous avons vu que les modèles GARCH reposent sur l’adéquation entre les
concepts de variance conditionnelle et de volatilité. Cette spécification, qui fait
de la volatilité une variable observable, a d’immenses avantages du point de vue
statistique (prévision, inférence), mais elle rend l’étude probabiliste complexe et
elle implique des limitations importantes sur les propriétés dynamiques.
A l’opposé, les modèles dits à volatilité stochastique font de la volatilité une variable latente (non observable) possédant une dynamique propre. Le processus
observé, ǫt , et sa volatilité, σt , sont liés par l’équation
ǫt = σt ηt
où (ηt ) est un bruit blanc indépendant, généralement supposé indépendant du
processus (σt ). On complète le modèle en spécifiant la dynamique de σt , a priori
quelconque pourvu qu’elle soit compatible avec la positivité cette variable. Comme
dans le cas GARCH, il existe une spécification simple, courramment utilisée, suffisamment riche pour reproduire les principales caractéristiques des séries financières
et susceptible d’extensions. Cette spécification, appelée modèle canonique, consiste
à supposer que le logarithme de la volatilité, ou de son carré, suit un modèle AR(1)
avec terme constant. Dans ces modèles, les processus (ǫt ) et (σt ) ne sont évidemment pas indépendants mais, contrairement au cas GARCH, la variable ht = σt2
ne s’interprète plus comme la variance de ǫt conditionnelle à son passé : celle-ci
n’a pas, dans ces modèles, une forme explicite. Il existe cependant de nombreuses
analogies entre les deux classes de processus et celles-ci doivent être vues comme
concurrentes, en particulier pour la modélisation des séries financières.
111
4.1 Modèle canonique
4.1
Le modèle canonique
Le modèle à volatilité stochastique canonique semble avoir été introduit dans la
littérature économétrique par Taylor (1986). Les méthodes statistiques permettant
de l’utiliser en pratique n’ont cependant été développés que dans le courant des
années 90. Si les propriétés probabilistes de ces processus sont simples à établir, du
moins par comparaison aux modèles GARCH, l’inférence statistique pose, comme
nous le verrons, de nombreux problèmes pouvant justifier l’utilisation de méthodes
sophistiquées.
Nous commençons par passer en revue les propriétés élémentaires du modèle canonique.
Considérons le modèle

√
 εt = ht ηt

(4.1)
ln ht = ω + β ln ht−1 + σvt
où |β| < 1, (ηt ) et (vt ) sont deux suites indépendantes de variables iid centrées
et de variance égale à 1. Le modèle (4.1), appellé modèle à volatilité stochastique
canonique, a été le plus étudié dans la littérature en raison de sa simplicité et de
ses liens avec des modèles en temps continu1 . Notons que l’écriture en logarithme
de la dynamique de la volatilité assure la positivité de ht sans qu’il soit nécessaire
de contraindre les coefficients ω, β et σ. On pourra cependant supposer σ > 0 sans
perte de généralité.
Comme pour les modèles GARCH, l’amplitude de ǫt est proportionnelle à ht mais
son signe est indépendant de cette variable. La volatilité ht étant dépendante de
son passé, il est clair que le module de ǫt dépend également de celui de ses valeurs
passées.
Dans ce modèle, le paramètre β joue le rôle du coefficient de persistance dans
le modèle GARCH(1,1) standard. En effet, il est facile de voir, que lorsque β
est proche de 1, un choc positif sur la volatilité (assimilable à une grande valeur
positive de ηt ) a généralement pour effet de maintenir la volatilité a un niveau élevé
sur plusieurs périodes. L’effet du choc est évidemment atténué, puisque β < 1, et
tend à disparaitre. Un choc négatif a inversement un impact négatif sur la volatilité
Si β est proche de 0 l’effet du choc est transitoire, la volatilité dépendant peu de
ses valeurs passées. Enfin, si β est proche de -1 l’effet instantanné d’un choc positif
est une volatilité anormalement élevée mais, dès la date suivante, cette volatilité
1
Sous des hypothèses supplémentaires de normalité des bruits blancs (ηt ) et (vt ) ce modèle
peut s’interpréter comme une discrétisation de modèles de diffusion introduits dans la littérature
financière.
112
prend une petite valeur, puis à nouveau une grande valeur etc., ceci sous réserve
qu’aucun nouveau choc n’intervienne entre temps. Un choc négatif génère le même
type d’effets alternés. Ceux-ci n’étant généralement pas observés pour les séries
financières, on peut d’ores et déjà considérer les valeurs négatives de β comme peu
réalistes pour les applications.
L’interprétation des autres coefficients est plus immédiate. Le paramètre ω est un
facteur d’échelle pour la volatilité tandis que σ mesure l’amplitude des oscillations
autour de sa moyenne : la volatilité de la log-volatilité est constante dans ce modèle.
Nous étudions maintenant les propriétés probabilistes du modèle.
4.1.1
Stationnarité stricte
Appellons non anticipative toute solution de (4.1) appartenant à la tribu engendrée
par {(ηu , vu ) : u ≤ t}. On a le résultat suivant, dont la preuve est évidente :
Proposition 4.1 Le modèle (4.1) admet, sous la contrainte |β| < 1, une unique
solution strictement stationnaire. Cette solution est non anticipative et donnée par
εt = exp
(
∞
σX i
ω
+
β vt−i
2(1 − β) 2 i=0
)
ηt ,
(4.2)
t ∈ Z.
Si |β| > 1, il n’existe pas de solution strictement stationnaire non anticipative.
La forme de la solution strictement stationnaire permet de préciser ses caractéristiques du second ordre.
4.1.2
Stationnarité au second ordre
i
Proposition 4.2 Soit αi = E{exp(σβ vt )}, i ≥ 0. Si |β| < 1 et
processus (εt ) défini par (4.2) est un bruit blanc de variance
Var(εt ) = e
ω
1−β
∞
Y
i=0
αi .
∞
Y
i=0
αi < ∞, le
113
Preuve. On a, d’après les hypothèses d’indépendance sur les suites (ηt ) et (vt )
(
!)
∞
σX i
ω
E(εt ) = E exp
+
β vt−i
E(ηt ) = 0,
2(1 − β) 2 i=0
(
!)2
∞
ω
σX i
Var(εt ) = E exp
+
β vt−i
E(ηt2 )
2(1 − β) 2 i=0
Y
∞
∞
n
σ
o2
ω Y
ω
i
1−β
= exp
E exp
β vt−i
=e
αi .
1 − β i=0
2
i=0
De plus, pour tout k > 0, Cov(εt , εt−k ) = 0
entre (ηt ) et (vt ).
en utilisant à nouveau l’indépendance
2
Remarque. Dans le cas où (vt ) est un processus gaussien, il est possible de donner
2
des résultats plus explicites. Si X ∼ N (0, 1) on a E(eρX ) = eρ /2 pour toute
∞
2 Y
σ
2i
et il est clair que la condition 0 <
αi < ∞
constante ρ. Donc αi = exp 2 β
est réalisée si et seulement si |β| < 1. De plus
ω
σ2
Var(εt ) = exp
+
1 − β 2(1 − β 2 )
i=0
lorsque vt suit une loi normale centrée réduite.
Le processus (εt ) ne constitue pas un bruit blanc au sens fort (i.e. un bruit blanc
indépendant) comme nous allons le voir en étudiant les fonctions d’autocovariances
de certaines de ses transformées.
4.1.3
Représentation ARMA pour le processus (ln ε2t )
En prenant le logarithme du carré de ǫt , la première équation de (4.1) devient :
ln ε2t = ln ht + ln ηt2 .
(4.3)
Cette écriture permet de dériver la fonction d’autocovariance du processus (ln ε2t ).
On effectue le changement de notations suivant :
Xt = ln ε2t ,
Yt = ln ht
et Zt = Xt − Yt = ln ηt2 .
114
On suppose que Zt admet des moments jusqu’à l’ordre 4 et on note µZ = E(Zt ),
σZ2 = Var(Zt ), σZ2 2 = Var(Zt2 ).2 On notera de manière similaire les moments de
Xt et Yt . Le résultat suivant montre que (Xt ) admet une représentation ARMA,
propriété qui se révèlera très utile pour l’estimation.
Proposition 4.3 Si |β| < 1 et σZ2 2 < ∞, le processus (Xt ) = ln ε2t admet une
représentation ARMA(1,1) de la forme
(4.4)
Xt − µX = β(Xt−1 − µX ) + ut − αut−1 ,
où (ut ) est un bruit blanc.
Preuve. Le processus (Yt ) étant solution du modèle AR(1)
Yt = ω + βYt−1 + σvt ,
ses moyenne et fonction d’autocovariance sont données par
ω
1−β
σ2
γY (0) = Var(Yt ) =
1 − β2
γY (k) = Cov(Yt , Yt−k ) = βγY (k − 1),
µY
= E(Yt ) =
k > 0.
D’après l’indépendance entre (Yt ) et (Zt ), (Xt ) est un processus du second ordre
dont les les caractéristiques s’obtiennent comme suit
ω
+ µZ ,
1−β
σ2
γX (0) = Var(Xt ) = Var(Yt ) + Var(Zt ) =
+ σZ2 ,
1 − β2
σ2
γX (k) = γY (k) = βγY (k − 1) = β k
, k > 0.
1 − β2
µX = E(Xt ) = E(Yt ) + E(Zt ) =
Puisque γX (k) = βγX (k − 1), ∀k > 1, (Xt ) vérifie une équation ARMA(1,1)
de la forme (4.4). La constante α s’obtient à partir des deux premières autocovariances de (Xt ). D’après (4.4) on a, en notant σu2 la variance du bruit dans cette
représentation
γX (0) = βγX (1) + σu2 {1 + α(α − β)} ,
2
Dans le cas où ηt ∼ N (0, 1) on a µZ = −1.270,
Abramovitz et Stegun (1970), p. 260 and 943).
γX (1) = −ασu2 + βγX (0).
2
σZ
= π 2 /2 = 4.935,
2
σZ
2 = 263.484 (cf
115
Donc si σZ2 6= 0
1 + α(α − β)
γX (0) − βγX (1)
σ 2 + σZ2
=
=
α
βγX (0) − γX (1)
βσZ2
et la solution de module inférieur à 1 est donnée par
(1 + β 2 )σZ2 + σ 2 − {(1 + β)2 σZ2 + σ 2 }1/2 {(1 − β)2 σZ2 + σ 2 }1/2
.
α=
2βσZ2
De plus, la variance du bruit dans (4.4) est donnée par
σu2 =
βσZ2
α
si β 6= 0 (voir remarque ci-dessous) (et σu2 = σ 2 + σZ2 si β = 0). Enfin, si σZ2 = 0 la
relation γX (k) = βγX (k − 1) est vraie aussi pour k = 1 et (Xt ) est un AR(1) (i.e.
α = 0 dans (4.4)).
2
Remarques : (i) Si β = 0, (Xt ) est un bruit blanc fort (indépendant) et α = 0.
Inversement, si β 6= 0, on a α 6= 0 dès que σZ2 > 0, et les ordres de la représentation
ARMA(1,1) sont exacts.
(ii) Il est important de remarquer que dans (4.4) (ut ) est seulement un bruit blanc
au sens faible, c’est à dire une suite de variables non corrélées (et évidemment
centrées et de variance constante). Ces variables ne sont généralement pas indépendantes et elles ne constituent même pas une différence de martingale (comme
c’était par exemple le cas pour le bruit de la représentation ARMA du carré d’un
processus GARCH). On s’en aperçoit en calculant par exemple3
E{ut (Xt−1 − µX )2 } =
σ 3 α{1 + β 2 (1 − α)}
E(vt3 ) + (α − β)E(Zt − µZ )3
(1 − β 3 )(1 − αβ 2)
Même lorsque la distribution de (vt ) est symmétrique cette quantité est généralement non nulle. Ceci montre que ut peut être corrélée avec des fonctions (nécessairement non linéaires) de son passé : donc E(ut |ut−1 , ut−2 , . . .) 6= 0 (p.s).
Exemple : Si ηt et vt suivent la loi N (0, 1) et si ω = −1, β = 0.9, σ = 0.4, on
vérifie facilement que (Xt ) admet la représentation ARMA(1,1) suivante
(Xt − 11.27) − 0.9(Xt−1 − 11.27) = ut − 0.81ut−1 ,
où (ut ) est un bruit blanc de variance σu2 = 5.52.
3
voir Francq et Zakoïan (2001)
116
4.2
Autocovariance du processus (ε2t )
La forme du modèle se prête moins facilement à une étude de la fonction d’autocovariance du processus (ǫ2t ). Celle-ci est pourtant utile pour la comparaison avec
les modèles GARCH ainsi que pour certaines méthodes d’estimation.
On a en utilisant (4.2), pour tout k ≥ 0
(∞
)
∞
Y i
Y
2ω
i
2
E(ε2t ε2t−k ) = e 1−β E
eσβ vt−i
eσβ vt−k−i E(ηt2 ηt−k
)
i=0
i=0
En particulier
E(ε4t )
= e
2ω
1−β
∞
Y
i=0
n
o
i
E e2σβ vt E(ηt4 )
2
et pour k > 0, puisque ηt2 et ηt−k
sont indépendantes et d’espérance 1
(k−1
)
∞
Y i
Y
2ω
i
−k
E(ε2t ε2t−k ) = e 1−β E
eσβ vt−i
eσβ (1+β )vt−i
i=0
k−1
Y
2ω
= e 1−β
i=0
αi
i=k
∞
Y
αk,i
i=k
en posant, pour i ≥ k, αk,i = E[exp{σβ i(1 + β −k )vt }]. Donc (ε2t ) est stationnaire
au second ordre dès que
|β| < 1 et
E(ηt4 )
i=0
et on a pour tout k > 0
Cov(ε2t , ε2t−k ) = e
2ω
1−β
∞
Y
k−1
Y
i=0
αi
α0,i < ∞
∞
Y
i=k
αk,i −
∞
Y
i=0
αi2
!
.
Supposons maintenant que vt suit la loi N (0, 1). On vérifie facilement que αk,i =
2
exp{ σ2 β 2i (1 + β −k )2 } et que la condition de stationnarité au second ordre se limite
à E(ηt4 ) < ∞ et |β| < 1 dans ce cas. Par suite, pour tout k > 0
!
k−1
∞
∞
Y σ2 2i Y
Y
2ω
σ 2 2i
−k
2
2
2i
Cov(ε2t , ε2t−k ) = e 1−β
e2β
e 2 β (1+β ) −
eσ β
i=0
= e
2
2ω
+ σ 2
1−β
1−β
2 i=k
σ
βk
2
e 1−β
−1 .
i=0
4.3 Estimation
117
Il est intéressant de remarquer que la fonction d’autocovariance de (ε2t ) tend vers
zéro lorsque k tend vers l’infini mais que la décroissance n’est pas compatible avec
une équation de récurrence linéaire reliant les autocovariances. Or une telle relation
est caractéristique des modèles ARMA. On peut donc en déduire que (ǫ2t ), bien
que stationnaire au second ordre, n’admet pas de représentation ARMA. On se
trouve ici dans un cas où la représentation de Wold ne se réduit pas à une écriture
ARMA. Cependant on a un équivalent de la forme Cov(ε2t , ε2t−k ) ∼ cste×β k lorsque
k → ∞, ce qui montre que la vitesse asymptotique de décroissance (exponentielle)
des autocovariances est la même que pour un processus ARMA.
4.3
Estimation
Le caractère latent (inobservable) de la volatilité rend l’inférence statistique des
modèles à volatilité stochastique plus complexe que celle des modèles de type
GARCH. En particulier la loi conditionnelle du processus observé n’est pas explicite, ce qui empêche d’écrire la vraisemblance sous une forme simple permettant
de la maximiser. Cette complexité explique que jusqu’au début des années 90, les
articles consacrés à l’estimation de tels modèles étaient peu nombreux. Depuis,
la situation a radicalement changé et de nombreuses méthodes sont disponibles
dans la littérature statistique : pseudo-maximum de vraisemblance ; moments généralisés ; méthode fondée sur les représentations ARMA ; méthode Bayésienne :
méthodes simulées. Les principaux critères de comparaison sont les suivants : précision des estimateurs, simplicité de l’implémentation numérique, vitesse d’obtention
des estimation, existence ou non de propriétés asymptotiques dans la littérature,
robustesse par rapport aux hypothèses et possibilités d’adaptation à diverses spécifications de la volatilité.
Nous allons présenter brièvement la méthode pseudo-maximum de vraisemblance,
sans discussion de ses propriétés asymptotiques. On se place dans la cadre du
modèle canonique (4.1). Notons θ = (ω, β, σ) le vecteur des paramètres et θ0 la
vraie valeur.
On observe une trajectoire de longueur n, soit ǫn = (ε1 , . . . , εn ), du processus (εt ).
Rappelons que les autres variables du modèle, en particulier la volatilité ht , ne
sont pas observables.
L’écriture classique de la vraisemblance pour une série temporelle (ǫt ) repose sur
la décomposition de la densité jointe en produit de densités conditionnelles. La
vraisemblance, en la valeur θ du paramètre et pour l’observation (ǫ1 , . . . , ǫn ) s’écrit
118
donc
ℓ(ǫ1 , . . . , ǫn ; θ) =
n
Y
t=1
f (ǫt |ǫ1 , . . . , ǫt−1 )p(ǫ1 )
où, pour 2 ≤ t ≤ n, f (·|ǫ1 , . . . , ǫt−1 ) désigne la densité de ǫt conditionnelle
à (ǫ1 , . . . , ǫt−1 ) et p(·) la densité de ǫ1 . Lorsque les lois conditionnelles sont
gaussiennes cette décomposition permet d’obtenir une écriture simple de la logvraisemblance en fonction des moyenne et variance conditionnelles des variables
ǫt :
n
n
1X
(ǫt − mt (θ))2
log ℓ(ǫ1 , . . . , ǫn ; θ) = − log 2π −
log σt2 (θ) +
2
2 t=1
σt2 (θ)
en posant mt (θ) = E(ǫt |ǫ1 , . . . , ǫt−1 ) et σt2 (θ) = Var(ǫt |ǫ1 , . . . , ǫt−1 ).
Dans le cas du modèle (4.1), la loi du processus observable conditionnelle à ses
valeurs passées n’est pas connue explicitement. Il n’est pas difficile d’obtenir la loi
conditionnelle du couple (ǫt , ht ) ainsi que celle de (ht ) en faisant des hypothèses
appropriées sur les bruits (par exemple en les supposant gaussiens et indépendants
l’un de l’autre). La densité conditionnelle de (ǫt ) peut donc être exprimée comme
une intégrale faisant intervenir ces deux lois conditionnelles. Pourtant cette méthode n’est pas viable en pratique : le calcul numérique d’une intégrale est coûteux
en précision et temps de calcul, et cette opération devrait être répétée n − 1 fois
(en négligeant le problème de la loi initiale).
La méthode du pseudo-maximum de vraisemblance repose sur une approximation de la vraisemblance, obtenue à partir du filtre de Kalman. Celui-ci s’applique
aux modèles admettant une représentation espace-état et peut être utilisé pour le
filtrage, le lissage et la prédiction.
L’écriture générale d’une représentation espace-état se présente sous la forme de
deux équations
yt = Ut αt + dt + ut
αt = Tt αt−1 + ct + Rt vt
la première étant appelée équation de mesure et la seconde équation de transition.
La variable yt est observable et à valeurs dans RN tandis que les m composantes
du vecteur αt , appelé vecteur d’état, sont généralement inobservables. Les matrices
Ut , dt , Tt , ct et Rt sont généralement supposées non stochastiques mais peuvent
dépendre de t. Les suites (ut ) et (vt ) sont centrées, sériellement non corrélées mais
leur variance peut dépendre du temps. On suppose également que ut et vs sont
non corrélés, quels que soient s et t.
Le filtre de Kalman est un algorithme permettant de
(i) prédire la valeur du vecteur d’état à la date t sachant ses valeurs passées ;
119
4.3 Estimation
(ii) filtrer, c’est à dire estimer la valeur de αt à partir des observations de y jusqu’à
la date t ;
(iii) lisser, c’est à dire estimer la valeur de αt à partir des observations de y jusqu’à
la date T , avec T > t.
Sous des hypothèses de normalité des termes d’erreur et de la distribution initiale
du vecteur d’état :
ut ; N (0, Ht ),
vt ; N (0, Qt),
α0 ; N (a0 , P0 )
(4.5)
l’agorithme permet de calculer récursivement la distribution conditionnelle de αt
sachant y1 , . . . , yt . Cette distribution est gaussienne et sa moyenne fournit donc un
“estimateur” optimal (au sens L2 ) de αt . Lorsque l’hypothèse de normalité (4.5) est
en défaut, le filtre de Kalman ne fournit généralement plus l’espérance conditionnelle de αt . L’estimateur obtenu n’est plus optimal mais seulement optimal parmi
les estimateurs linéaires.
La mise en oeuvre de l’algorithme nécessite d’introduire les notations suivantes :
at|t = E(αt |y1, . . . , yt ),
Pt|t = Var[αt |y1 , . . . , yt ],
at|t−1 = E(αt |y1, . . . , yt−1 ), Pt|t−1 = Var[αt |y1 , . . . , yt−1 ],
Première étape : en prenant l’espérance conditionnelle par rapport à y1 , . . . , yt−1
dans l’équation de transition, on obtient
at|t−1 = Tt at−1 + ct
puis, en utilisant la relation αt − at|t−1 = Tt (αt−1 − at−1 ) + Rt vt ,
Pt|t−1 = Tt Pt−1 Tt′ + Rt Qt Rt′ .
Ces équations sont appelées équations de prévision.
Deuxième étape : Une fois disponible l’observation yt , les quantités précédentes
sont mises à jour :
at|t = at|t−1 + Pt|t−1 Ut′ Ft−1 (yt − Ut at|t−1 − dt )
et
en posant
Pt|t = Pt|t−1 − Pt|t−1 Ut′ Ft−1 Ut Pt|t−1
Ft := Var(yt |y1 , . . . , yt−1 ) = Ut Pt|t−1 Ut′ + Ht .
C’est dans la deuxième étape qu’interviennent les hypothèses de normalité. On utilise en effet le fait que la distribution de (yt , αt ) conditionnellement à y1 , . . . , yt−1 est
120
gaussienne, ce qui permet d’obtenir la loi de αt conditionnellement à y1 , . . . , yt−1 , yt .
4
On calcule ainsi, de manière récursive pour t = 1, . . . , n, les quantités at|t , at|t−1
et Pt|t−1 . Ceci permet en même temps d’obtenir E(yt |y1 , . . . , yt−1 ) = Ut at|t−1 + dt
et Ft = Var(yt |y1, . . . , yt−1 ) et donc d’écrire la log-vraisemblance gaussienne du
modèle.
La forme espace état du modèle (4.1) est obtenue par passage au logarithme :
ln ǫ2t = ln ht + mZ + ut
ln ht = β lnt−1 +ω + σvt
avec les notations Zt = ln ηt2 , mZ = E(Zt ) et ut = Zt − mZ . On note également
σZ2 = Var(ln ηt2 ), en supposant que cette quantité existe. Soit
at|t = E(ln ht |ǫ21 , . . . , ǫ2t ),
Pt|t = Var(ln ht |ǫ21 , . . . , ǫ2t ),
at|t−1 = E(ln ht |ǫ21 , . . . , ǫ2t−1 ), Pt|t−1 = Var(ln ht |ǫ21 , . . . , ǫ2t−1 ),
L’algorithme prend ici la forme simplifiée
at|t−1 = βat−1 + ω,
Pt|t−1 = β 2 Pt−1 + σ 2 σv2
at|t = at|t−1 + Pt|t−1 Ft−1 (ln ǫ2t − at|t−1 − mZ )
et
Ft = Var(ln ǫ2t |ǫ21 , . . . , ǫ2t−1 ) = Pt|t−1 + σZ2 ,
2
Pt|t = Pt|t−1 − Pt|t−1
Ft−1
D’où finalement la (pseudo) log-vraisemblance :
n
(log(ǫ2t ) − at|t−1 − mZ )2
n
1X
log ℓ(ǫ1 , . . . , ǫn ; θ) = − log 2π −
log Ft +
2
2 t=1
Ft
Pour des valeurs fixées de mZ et σZ2 , les paramètres ω, β, σ peuvent alors être
estimés en maximisant cette fonction, construite en appliquant l’algorithme précédent. Il est important de remarquer que la variance conditionnelle Ft obtenue avec
l’algorithme ne dépend pas des observations.
Si le vecteur (x, y)′ est gaussien avec µx = E(x), µy = E(y), Σxx = Var(x), Σyy =
Var(y), Σxy = Σ′yx = Cov(x, y) la loi de x conditionnelle à y est la gaussienne
4
−1
N (µx + Σxy Σ−1
yy (y − µy ), Σxx − Σxy Σyy Σyx )
.
Chapitre 5
Modèle à chaîne de Markov cachée
5.1
Chaîne de Markov à nombre fini d’états
Une processus de Markov est un processus tel que le futur ne dépend que du
présent et pas du passé. Plus précisément, une chaîne de Markov (∆t )t≥0 prenant
ses valeurs dans E = {1, ..., d} (on dit que E est l’espace des états de la chaîne) est
définie par :
1. une P
loi initiale définie par π0 (i) = IP(∆0 = i) pour i = 1, . . . , d (avec bien
sûr di=1 π0 (i) = 1) ;
2. une matrice de probabilités de transition P = (p(i, j))1≤i,j≤d telle que
p(i, j) = IP(∆t = j|∆t−1 = i)
= IP(∆t = j|∆t−1 = i, ∆t−2 = et−2 , . . . , ∆0 = e0 )
P
pour tout (i, j, et−2 , . . . , e0 ) ∈ E t+1 (avec bien sûr dj=1 p(i, j) = 1 pour tout
i ∈ E).
Les probabilités de transition étant indépendantes de t, on dit que la chaîne est homogène. On note P(k) = p(k) (i, j) 1≤i,j≤d la matrice des probabilités de transition
en k étapes : p(k) (i, j) = IP(∆t = j|∆t−k = i). Il est facile de voir que P(k) = Pk ,
ou plus généralement
′
′
équations de Chapman-Kolmogorov : P(k+k ) = P(k) P(k ) .
Notons


π0 (1)


π0 =  ... 
π0 (d)


IP(∆n = 1)


..
et πn = 
.
.
IP(∆n = d)
122
Chaîne de Markov cachée
On peut facilement vérifier que
πn = P′ πn−1 ,
′
πn = P n π0 ,
n ≥ 0.
On dit qu’une probabilité π sur E est une loi invariante si
π = P′ π,
π ′ 1 = 1 (avec 1′ = (1, . . . , 1)).
Si la loi limite π∞ := limn→∞ πn existe alors c’est une loi invariante.
On dit que 2 états i et j communiquent si on peut passer de i à j en un nombre
fini d’étapes (i.e. p(m) (i, j) > 0) et que l’on peut passer également de j à i en
un nombre fini d’étapes. Si tous les états communiquent, on dit que la chaîne est
irréductible.
Un état i est dit apériodique si 1 est le plus grand commun diviseur des entiers
m tels que p(m) (i, i) > 0. La chaîne est dite apériodique si tous les états sont
apériodiques.
Toute chaîne à espace fini d’états qui est irréductible et apériodique admet une
unique loi invariante. Si la loi initiale est cette loi invariante alors la chaîne est
stationnaire et ergodique. Si la loi initiale est une loi quelconque alors la loi de la
chaîne converge vers la loi invariante.
Exemple 5.1 (urne d’Ehrenfest) Ce modèle d’urne a été introduit en physique
pour décrire des échanges de chaleur entre deux systèmes.
A l’étape initiale 0, on répartit au hasard d boules numérotées de 1 à d entre deux
urnes A et B. A l’étape n ≥ 1, on tire un nombre i au hasard entre 1 et d et
la boule i est changée d’urne. Le nombre ∆n de boules dans l’urne A à l’étape
n suit une chaîne de Markov à espace d’états E = {0, 1, . . . , d}, de loi initiale
π0 (i) := IP(∆0 = i) = Cdi /2d et de matrice de transition


0
1
0
···
0
 1/d 0 (d − 1)/d
···
0 



 0 2/d
0
(d − 2)/d

 .
(5.1)
P= .
.

 .


..


.
0 ···
0
1
0
Le nombre de boules dans l’urne A change successivement de parité au fil des
étapes. On a par exemple p(2k+1) (2i, 2i) = 0. Ainsi la chaîne est irréductible, mais
périodique. On peut montrer (voir l’exercice 5.2) que π0 est une loi invariante. Ceci
signifie qu’en partant de cette loi, on a πn = π0 pour tout n, et donc limn→∞ πn
existe et vaut π0 . Si par contre, on prend par exemple comme loi initiale la mesure
de Dirac en 0, alors limn→∞ πn n’existe pas (en effet πn (2i) = 0 pour n impair et
πn (2i + 1) = 0 pour n pair).
123
5.2 Chaîne de Markov cachée
5.2
On dit qu’un processus (Xt )t≥0 suit un modèle à chaîne de Markov cachée si
1. conditionnellement à une certaine chaîne de Markov (∆t ) non observée, les
observations X0 , X1 , . . . sont indépendantes ;
2. la loi conditionnelle de Xs sachant (∆t ) ne dépend que de ∆s .
Considérons pour commencer le simple modèle suivant
√
ǫt =
ht ηt ,
ht = ω(∆t ),
(5.2)
où
ω(1) < . . . < ω(d),
(5.3)
(ηt ) une suite iid centrée de variance 1 et ∆t est une chaîne de Markov sur E =
{1, ..., d}, stationnaire, irréductible et apériodique. On suppose de plus que (ηt ) et
(∆t ) sont deux processus indépendants. Il est facile de vérifier que les conditions
définissant un modèle à chaîne de Markov cachée sont satisfaites. Notons que la
condition (5.3) n’est pas restrictive car si ω(i) = ω(j) on peut toujours regrouper
les états i et j en changeant de chaîne.
Remarquons que ce modèle s’inscrit également dans la classe des modèles généraux
à variance conditionnelle aléatoire (1.5), où Ft−1 est la tribu engendrée par la
variable ∆t . En dépit de sa simplicité, ce modèle présente de fortes similitudes,
mais aussi des différence, avec les modèles GARCH standard.
5.2.1
Comparaison avec les modèles GARCH
Comme dans les modèles GARCH ou à volatilité stochastique, le processus observé
(ǫt ) est centré et ses trajectoires consistent en des oscillations autour de zéro.
L’amplitude de ces oscillations sera différente selon l’état où se trouve la chaîne ∆t .
Dans le régime 1 celles-ci seront faibles tandis que le régime d correspondra à des
périodes plus turbulentes (en moyenne la variance est cependant constante au cours
du temps). La durée de séjour dans chacun des régimes et le nombre de transition
d’un régime vers un autre dépendent uniquement des probabilités de transition de
la chaîne. Un exemple de trajectoire (100 observations) est donné dans la Figure
5.1 suivante. Il s’agit d’un modèle à 3 régimes (ω(1) = 1, ω(2) = 3, ω(3) = 9) avec
probabilités de transition : p(1, 2) = 0.1, p(1, 3) = 0.05, p(2, 1) = p(3, 1) = 0.3.
Ce modèle très simple présente de fortes analogies avec ceux de la famille GARCH.
124
20
10
0
-10
-20
10
20
30
40
50
60
70
80
90
100
t
Fig. 5.1 – Simulation de longueur 100 de (5.2) : le trait plein correspond aux valeurs
simulées de ǫt et les pointillés correspondent à ±2ω(∆t ) (source : Francq et Roussignol
(1997)).
Par construction la propriété de regroupement des dates à forte volatilité
assurée.
1
est
Avec les hypothèses faites sur la chaîne et sur (ηt ), toute solution du modèle (5.2)
est évidemment strictement stationnaire. Les moments de ǫt existent à tout ordre,
pourvu que les mêmes moments existent pour le processus ηt . D’après l’indépendance entre ηt et ∆t , on a pour tout réel positif r,
E(ǫrt )
= Eω(∆t )
r/2
E(ηtr )
=
d
X
ω(i)r/2 π(i)E(ηtr ).
i=1
En particulier ǫt est centré. Rappelons que pour un modèle GARCH, les moments
ne peuvent exister à tout ordre. Bien que la distribution marginale de ǫt ne possède
pas de queues épaisses, la propriété de leptokurticité est cependant vérifiée : la
distribution de ǫt est à queues plus épaisses que celle de ηt . Si l’on suppose cette
dernière normale, le coefficient de Kurtosis de ǫt est strictement supérieur à 3 (la
valeur exacte dépend à la fois des probabilités de transition et des valeurs des
variances ω(i) pour les divers régimes).
Une différence importante par rapport aux modèles GARCH apparaît lorsque
l’on considère le coefficient de Kurtosis conditionnel. Rappelons que celui-ci est
1
Il est important de noter que ht ne représente pas ici la variance de ǫt conditionnellement à
l’information disponible á la date t : en effet ω(δt ) ne s’exprime pas en fonction du passé de ǫt .
On continuera cependant à appeler volatilité le processus (ht ).
125
constant dans le cas GARCH. Pour le modèle (5.2) on a
E(ǫ4t |ǫt−1 , ǫt−2 , . . .)
E(h2t |ǫt−1 , ǫt−2 , . . .)
=
κη
[E(ǫ2t |ǫt−1 , ǫt−2 , . . .)]2
[E(ht |ǫt−1 , ǫt−2 , . . .)]2
et ici la simplification des espérances n’a pas lieu, ht ne s’exprimant pas comme une
fonction du passé de ǫt . Ainsi la forme de distribution conditionnelle est susceptible
d’évoluer au cours du temps.
Des similitudes moins évidentes avec les modèles GARCH standard apparaissent
lorsqu’on étudie les autocorrélations de (ǫt ) et (ǫ2t ).
5.2.2
Autocorrélations, moments
On a
Corr(ǫt , ǫt−k ) = 0,
pour tout k > 0
donc (ǫt ) est un bruit de variance
Eǫ2t
=
d
X
ω(i)π(i).
i=1
Nous étudions maintenant l’autocorrélation des carrés. Nous commençons par
considérer le cas d = 2 qui permet une présentation plus simple que le cas général.
La matrice de transition admet pour valeurs propres 1 et λ := p(1, 1) + p(2, 2) − 1.
Notons que −1 < λ < 1. En diagonalisant IP il est facile de voir que les éléments
de IPk sont de la forme, pour k ≥ 0 p(k) (i, j) = a1 (i, j) + a2 (i, j)λk . En faisant
tendre k vers l’infini on obtient a1 (i, j) = π(j), et en utilisant la valeur k = 0 :
a1 (i, j) + a2 (i, j) = 1{i=j} . Par suite pour j = 1, 2 et i 6= j
p(k) (i, j) = π(j)(1 − λk ),
p(k) (j, j) = π(j) + λk π(i),
d’où, pour i, j = 1, 2
p(k) (i, j) − π(j) = λk {1 − π(j)} 1{i=j} −π(j) 1{i6=j} .
(5.4)
On a, pour k > 0,
Cov(ǫ2t , ǫ2t−k ) = Cov {ω(∆t ), ω(∆t−k )} = E {ω(∆t )ω(∆t−k )} − {Eω(∆t )}2
( d
)2
d
X
X
=
p(k) (i, j)π(i)ω(i)ω(j) −
π(i)ω(i)
i,j=1
=
d
X
i
{p(k) (i, j) − π(j)}π(i)ω(i)ω(j),
i,j=1
(5.5)
126
donc en utilisant (5.4)
Cov(ǫ2t , ǫ2t−k ) = λk
( 2
X
j=1
(1 − π(j))π(j)ω 2(j) −
= λk {ω(1) − ω(2)}2π(1)π(2),
X
π(i)π(j)ω(i)ω(j)
i6=j
k > 0.
)
(5.6)
Il est intéressant de constater que les autocorrélations des carrés décroissent à
vitesse exponentielle, comme pour un processus GARCH stationnaire au second
ordre. Une différence importante pourtant, est que la vitesse de cette convergence
n’est pas liée à l’existence des moments. Notons aussi que les autocorrélations
décroîtront d’autant plus lentement en module que |λ| = |1 − p(1, 1) − p(2, 2)|
sera grand, c’est-à-dire que les probabilités de passer d’un régime à l’autre seront,
toutes les deux, soit très faibles soit très fortes. Évidemment, Cov(ǫ2t , ǫ2t−k ) = 0
pour tout k > 0 lorsque ω(1) = ω(2) car alors ǫt est un bruit blanc iid. Un calcul
similaire montre que
Var(ǫ2t ) = {ω(1) − ω(2)}2 π(1)π(2) + {ω 2 (1)π(1) + ω 2 (2)π(2)}Var(ηt2 ).
(5.7)
On déduit de (5.6) et (5.7) que ǫ2t vérifie un modèle ARMA(1,1) de coefficient
autorégressif égal à λ.
Dans le cas général la matrice IP n’est pas toujours diagonalisable mais admet
toujours 1 comme valeur propre, la dimension de l’espace propre associé étant
1. Notons λ1 , . . . λm les autres valeurs propres et n1 , . . . , nm les dimensions des
espaces propres correspondants (n1 + · · · + nm = d − 1). On a la représentation de
Jordan IP = SJS −1 , pour une matrice inversible S et


Jn1 (λ1 )
0
...
0
.. 

 0
.
Jn2 (λ2 ) 0
 .
.. 
.
.

..
..
J =  ..
.


 .
.
.
.
 .
. Jnm (λm ) 0
0
...
0
1
où Jl (λ) = λIl + Nl (1), en notant Nl (i) la matrice carrée de dimension l dont tous
les éléments sont nuls hormis des 1 sur la i-ème surdiagonale. On a, en utilisant
′
′
Nlk (1) = Nl (k ′ ) pour k ′ ≤ l − 1 et Nlk (1) = 0 pour k ′ > l − 1,
Jlk (λ)
k X
′
′
k
λk−k Nlk (1)
=
′
k
k ′ =0
l−1 X
′
k
λk−k Nl (k ′ ) := λk P (l) (k)
=
′
k
′
k =0
127
où P (l) est un polynôme de degré l − 1. Par
 k (n1 )
λ1 P
(k)
0


0
λk2 P (n2 ) (k)

...
IPk = S 


..

.
0
...
On en déduit, que
p(k) (i, j) = π(j) +
suite

0
.. 
0
.
 −1
..
..
... 
.
.
S .

..
. λkm P (nm ) (k) 0
0
1
...
m
X
(n )
λkl pl,i,jm (k)
l=1
(n )
où les pl,i,jm sont des polynômes de degré l−1. Le premier terme à droite de l’égalité
est nécessairement celui-ci car p(k) (i, j) → π(j) quand k → ∞ et les λl sont de
module strictement inférieur à 1. Par suite en utilisant (5.5),
Cov(ǫ2t , ǫ2t−k ) =
d X
m
X
(n )
λkl pl,i,jm (k) :=
i,j=1 l=1
m
X
(nm )
λkl ql
(k),
k>0
(5.8)
l=1
(n )
où les pl,i,jm sont des polynômes de degré l − 1.
Le calcul de E(ht+k |ǫt−1 , ǫt−2 , . . .) est plus compliqué, mais on peut montrer que
cette quantité dépend de k par l’intermédiaire des λkl (de façon analogue à la
formule (5.8)). Ainsi, la chaîne (∆t ) introduit une source de persistance des chocs
sur la volatilité.
5.2.3
Estimation
L’écriture de la vraisemblance peut s’obtenir en conditionnant par tous les « chemins » possibles de la chaîne, (e1 , . . . , en ), où les ei prennent leurs valeurs dans
E = {1, . . . , d}. La probabilité d’un tel chemin est donnée par
IP(e1 , . . . , en ) = IP(∆1 = e1 , . . . , ∆n = en ) = π(e1 )p(e1 , e2 ) . . . p(en−1 , en ).
Pour chacun de ces chemins, on obtient une (quasi)-vraisemblance conditionnelle
de la forme
n
Y
(e1 ,...,en )
L
(ǫ1 , . . . , ǫn ) =
φet (ǫt ),
t=1
où φi (·) désigne la densité N {0, ω(i)}.
128
Finalement, la vraisemblance de l’échantillon s’écrit
X
L(ǫ1 , . . . , ǫn ) =
L(e1 ,...,en) (ǫ1 , . . . , ǫn )IP(e1 , . . . , en ).
(e1 ,...,en )∈E n
Malheureusement, cette formule est inutilisable en pratique car la somme comporte
dn termes (ce qui est considérable même pour des petits échantillons et 2 régimes).
Voici plusieurs solutions à ce problème numérique.
Calcul de la vraisemblance
Écriture matricielle : Notons
Fk (i) = gk (ǫ1 , . . . , ǫk |∆k = i)π(i)
où gk (·|∆k = i) est la loi de (ǫ1 , . . . , ǫk ) sachant {∆k = i}. On peut facilement
vérifier que
F1 (i) = π(i)φi (ǫ1 )
d
X
Fk (i) = φi (ǫk )
Fk−1 (j)p(j, i)
(5.9)
(5.10)
j=1
et
Lθ (ǫ1 , . . . , ǫn ) =
d
X
Fn (i).
(5.11)
i=1
Sous forme matricielle on obtient
Fk := (Fk (1), . . . , Fk (d))′ = M(ǫk )Fk−1 ,
où

D’où

p(1, 1)φ1(x) · · · p(d, 1)φ1(x)


..
M(x) = 
.
.
p(1, d)φd(x) · · · p(d, d)φd (x)
Lθ (ǫ1 , . . . , ǫn ) = 1′ M(ǫn )M(ǫn−1 ) · · · M(ǫ2 )F1 ,
qui est cette fois tout à fait calculable (de l’ordre de d2 n multiplications).
(5.12)
129
Algorithme Forward-Backward
Soit Bk (i) = Bk (ǫk+1 , . . . , ǫn |∆k = i) la loi de (ǫk+1 , . . . , ǫn ) sachant {∆k = i}. En
utilisant la propriété de Markov, on a
Lθ (ǫ1 , . . . , ǫn |∆k = i)π(i) = Fk (i)Bk (i).
Les formules Forward, permettant de calculer Fk (i) pour k = 1, 2, . . . , sont données
par (5.9)-(5.10). Les formules Backward permettant de calculer Bk (i) pour k =
n − 1, n − 2, . . . sont, avec une convention pour k = n,
Bn (i) = 1
d
X
Bk (i) =
Bk+1 (j)p(i, j)φj (ǫk+1 ).
(5.13)
(5.14)
j=1
On obtient alors
Lθ (ǫ1 , . . . , ǫn ) =
d
X
Fk (i)Bk (i)
(5.15)
i=1
pour tout k ∈ {1, . . . , n}. Si on prend k = n, on retrouve (5.11).
Filtre de Hamilton
L’algorithme Forward-Backward a été développé dans la littérature statistique
(Baum, Inequalities, 1972). Les modèles faisant intervenir une chaîne de Markov
latente ont été développés dans la littérature économétrique par Hamilton (Econometrica, 1989). Posons




IP(∆t = 1|ǫt , . . . , ǫ1 )
IP(∆t = 1|ǫt−1 , . . . , ǫ1 )




..
..
πt|t = 
 , πt|t−1 = 
,
.
.
IP(∆t = d|ǫt , . . . , ǫ1 )
IP(∆t = d|ǫt−1 , . . . , ǫ1 )
φ(ǫt ) = (φ1 (ǫt ), . . . , φd(ǫt ))′ , et notons ⊙ le produit d’Hadamard des matrices (le
produit élément par élément).
Avec des notation évidentes, on a
πt|t (i) = IP(∆t = i|ǫt , . . . , ǫ1 ) =
φi (ǫt )IP(∆t = i|ǫt−1 , . . . , ǫ1 )
,
ft (ǫt |ǫt−1 , . . . , ǫ1 )
130
où
ft (ǫt |ǫt−1 , . . . , ǫ1 ) =
d
X
i=1
φi (ǫt )πt|t−1 (i) = 1′ πt|t−1 ⊙ φ(ǫt ) .
Partant de la valeur initiale π1|0 = π (la loi stationnaire) ou π1|0 = π0 (une loi
initiale fixée), on calcule donc
πt|t =
1′
π
⊙ φ(ǫt )
t|t−1
,
πt|t−1 ⊙ φ(ǫt )
πt+1|t = P′ πt|t
(5.16)
pour t = 1, . . . , n, et on obtient la log-vraisemblance conditionnelle
log Lθ (ǫ1 , . . . , ǫn ) =
n
X
t=1
log ft (ǫt |ǫt−1 , . . . , ǫ1 ),
(5.17)
où
ft (ǫt |ǫt−1 , . . . , ǫ1 ) = 1′ πt|t−1 ⊙ φ(ǫt ) .
(5.18)
L’algorithme de Hamilton (5.16)-(5.18) semble préférable à l’algorithme ForwardBackward décrit par (5.9)-(5.10) et (5.13)-(5.15) qui, sous cette forme, engendre des
« underflow ». Notons cependant qu’il existe des versions conditionnelles de l’algorithme Forward-Backward qui évitent le problème d’underflow (Devijver, Pattern
Recognition Letter, 1985). Notons également que l’écriture matricielle (5.12) est
très pratique pour obtenir le comportement asymptotique de l’estimateur du QMV
(Francq et Roussignol, JTSA, 1997).
Maximisation de la vraisemblance
La maximisation de la (log-)vraisemblance peut se faire à l’aide d’une procédure
d’optimisation classique, ou à l’aide de l’algorithme EM (Espérance–Maximisation)
dont le principe est le suivant.
Il sera plus simple de considérer que la loi initiale π0 (la loi de ∆1 ) n’est pas
forcément la loi stationnaire π. Dans l’algorithme EM, π0 est un paramètre supplémentaire, que l’on cherche également à estimer. Si en plus de (ǫ1 , . . . , ǫn ), on
observait également (∆1 , . . . , ∆n ), il serait facile d’estimer θ et π0 par maximum
de vraisemblance. En effet
log Lθ,π0 (ǫ1 , . . . , ǫn , ∆1 , . . . , ∆n )
n
n
X
X
=
log φ∆t (ǫt ) + log π0 (∆1 ) +
log p(∆t−1 , ∆t )
t=1
= a1 + a2 + a3
t=2
131
où
a1 = a1 (ω) =
d X
n
X
i=1 t=1
(5.19)
log φi (ǫt ) 1{∆t =i} ,
(5.20)
a2 = a2 (π0 ) = log π0 (∆1 ),
d X
d
n
X
X
a3 = a3 (P) =
log p(i, j)
1{∆t−1 =i,∆t =j} .
i=1 j=1
(5.21)
t=2
D’après (5.19), il faut maximiser, en ω(i), les termes
i = 1, . . . , d. Ceci donne les « estimateurs »
Pn
t=1
log φi (ǫt ) 1{∆t =i} , pour
n
X
1
ǫ2t 1{∆t =i} .
t=1 1{∆t =i} t=1
ω̃(i) = Pn
La maximisation de (5.20), en π0 (1), . . . , π0 (d) et sous la contrainte
donne
π̃0 (i) = 1{∆1 =i} .
(5.22)
Pd
i=1
π0 (i) = 1,
(5.23)
D’après (5.21),
P pour i = 1, . . . , d, il faut maximiser, en p(i, 1), . . . , p(i, d) sous la
contrainte dj=1 p(i, j) = 1, le terme
d
X
On obtient
2
Pn
t=2 1{∆t−1 =i,∆t =j}
log p(i, j) P
.
n
1
{∆
=i}
t−1
t=2
j=1
n
X
1
1{∆t−1 =i,∆t =j} .
t=2 1{∆t =i} t=2
p̃(i, j) = Pn
(5.24)
En pratique les formules (5.22), (5.23) et (5.24) ne sont pas utilisables, puisque
l’on ne connaît pas (∆t ). D’un point de vue conceptuel, l’algorithme EM alterne
des étapes E d’évaluation de l’espérance de la vraisemblance étant donné la valeur
courante du paramètre, et des étapes M de maximisation de la fonction objectif
calculée dans l’étape E. D’un point de vue pratique, l’algorithme EM n’utilise ici
que l’étape M, couplée au calcul des probabilités prédites πt|t−1 et filtrées πt|t de
l’algorithme de Hamilton (5.16), et aussi une étape supplémentaire pour le calcul
de probabilités lissées.
2
P
Soit p1 , . . . , pn des nombres positifs tels que i pi = 1. Il est facile de voir, par substitution ou
P
par la méthode du multiplicateur de P
Lagrange, que sous la contrainte di=1 πi = 1, le maximum
global de la fonction (π1 , . . . , πd ) → i pi log πi est au point (π1 , . . . , πd ) = (p1 , . . . , pd )
132
(k)
Étape E : Supposons que l’on dispose d’une estimation (θ(k) , π0 ) de (θ, π0 ). Il
semble raisonnable d’approximer la log-vraisemblance inconnue par son espérance
(k)
sachant les observations (ǫ1 , . . . , ǫn ), calculée sous la loi de paramètre (θ(k) , π0 ).
On obtient le critère
(k)
Q(θ, π0 |θ(k) , π0 ) = Eθ(k) ,π(k) {log Lθ,π0 (ǫ1 , . . . , ǫn , ∆1 , . . . , ∆n )|ǫ1 , . . . , ǫn }
0
= A1 (ω) + A2 (π0 ) + A3 (P),
où
A1 (ω) =
d X
n
X
i=1 t=1
A2 (π0 ) =
d
X
i=1
A3 (P) =
X
log φi (ǫt )Pθ(k) ,π(k) {∆t = i|ǫ1 , . . . , ǫn } ,
0
log π0 (i)Pθ(k) ,π(k) {∆1 = i|ǫ1 , . . . , ǫn },
0
log p(i, j)
n
X
t=2
i,j
Pθ(k) ,π(k) {∆t−1 = i, ∆t = j|ǫ1 , . . . , ǫn }.
0
(5.25)
(5.26)
(5.27)
Étape M : On cherche dans cette étape à maximiser, en (θ, π0 ), la log(k)
vraisemblance estimée Q(θ, π0 |θ(k) , π0 ). La solution de la maximisation de (5.25)
est
Pn 2
t=1 ǫt Pθ (k) ,π0(k) {∆t = i|ǫ1 , . . . , ǫn }
ω̂(i) = Pn
.
(5.28)
t=1 Pθ (k) ,π (k) {∆t = i|ǫ1 , . . . , ǫn }
0
On estime donc la variance du régime i en prenant la moyenne des ǫ2t , pondérées
par les probabilités conditionnelles d’être dans le régime i à l’instant t. De même
(5.26) donne
π̂0 (i) = Pθ(k) ,π(k) {∆1 = i|ǫ1 , . . . , ǫn } ,
(5.29)
0
et (5.27) donne
p̂(i, j) =
Pn
Pθ(k) ,π(k) {∆t−1 = i, ∆t = j|ǫ1 , . . . , ǫn }
0
Pn
.
P
t=2 θ (k) ,π (k) {∆t−1 = i|ǫ1 , . . . , ǫn }
t=2
(5.30)
0
Les formules de « réestimation » (5.28), (5.29) et (5.30) nécessitent le calcul des
probabilités lissées
πt|n = (P {∆t = i|ǫ1 , . . . , ǫn })′1≤i≤d ∈ Rd
et
πt−1,t|n = (P {∆t−1 = i, ∆t = j|ǫ1 , . . . , ǫn })′1≤i,j≤d ∈ Rd × Rd ,
133
5.3 Processus GARCH(p, q) à changement de régime
en oubliant les indices.
Calcul des probabilités lissées : La propriété de Markov entraîne que, sachant ∆t , les observations ǫt , ǫt+1 , . . . n’apportent aucune information sur ∆t−1 .
On a donc
IP(∆t−1 = i|∆t = j, ǫ1 , . . . , ǫn ) = IP(∆t−1 = i|∆t = j, ǫ1 , . . . , ǫt−1 )
et
πt−1,t|n (i, j) = IP(∆t−1 = i|∆t = j, ǫ1 , . . . , ǫn )πt|n (j)
p(i, j)πt−1|t−1 (i)πt|n (j)
=
.
πt|t−1 (j)
Il reste à calculer les probabilités lissées πt|n , données par
πt−1|n (i) =
d
X
πt−1,t|n (i, j) =
j=1
pour t = n, n − 1, . . . , 2.
d
X
j=1
πt|t−1 (j)
(0)
Partant d’un valeur initiale (θ(0) , π0 ), les formules deréestimation
(5.28), (5.29)
(k)
(k)
et (5.30) permettent d’obtenir une suite d’estimateurs θ , π0
qui accroissent
k
la vraisemblance (voir 5.11). Dans la pratique, la suite converge assez rapidement
vers l’estimateur du maximum de vraisemblance (voir les exercices 5.4, 5.5 et 5.7),
à condition de choisir une bonne valeur initiale θ(0) > 0 (voir 5.6).
Le modèle (5.2) est certainement trop fruste pour rendre compte de manière satisfaisante des propriétés dynamiques de séries réelles : tant que l’on reste dans
le même régime, les observations sont indépendantes et cette hypothèse n’est généralement pas tenable en pratique. Une extension naturelle des modèles (2.1) et
(5.2) consiste à supposer que dans un régime donné, la dynamique est régie par
un processus GARCH.
5.3
Processus GARCH(p, q) à changement de régime
Nous considérons le modèle GARCH à changement de régime markovien :
√
ǫt =
ht ηt P
P
(5.31)
ht = ω(∆t ) + qi=1 αi (∆t )ǫ2t−i + pj=1 βj (∆t )ht−j
134
avec les contraintes de positivité suivantes :
pour k = 1, . . . , d, ω(k) > 0, αi (k) ≥ 0, 1 ≤ i ≤ q, βj (k) ≥ 0, 1 ≤ j ≤ p.
On a ainsi une dynamique à d régimes GARCH différents ce qui permet une grande
souplesse de modélisation. Le modèle GARCH standard correspond évidemment
à un seul régime (d = 1) et constitue donc un cas particulier de (5.31).
Les propriétés vues dans le cas particulier du modèle (5.2) se retrouvent a fortiori
pour cette forme générale. Une différence importante, pourtant, est que l’on a
maintenant deux sources distinctes de persistance : l’une provenant de la chaîne
(∆t ), l’autre des coefficients αi (·) et βj (·). Cette propriété permet une grande
souplesse de modélisation : on peut par exemple avoir des régimes où les chocs des
variables passées ont un effet très persistant et d’autres régimes où ils sont peu
persistants.
Une autre différence par rapport à l’exemple introductif concerne la stationnarité
au second-ordre. Pour que ǫt soit de variance finie, indépendante du temps, il
faut imposer des contraintes sur les coefficients αi (·) et βj (·) ainsi que sur les
probabilités de transition. Sans rentrer dans les détails3 , notons simplement qu’il
n’est pas nécessaire (mais il est suffisant) d’imposer la stationnarité dans chaque
régime : l’existence de régimes explosifs (pourvu que les probabilités de rester dans
ces régimes ne soient pas trop grandes) n’implique pas que la série soit globalement
explosive. Il est également intéressant de remarquer que lorsque le changement de
régime affecte seulement le terme ω(·) (i.e. les αP
i et βj ne
Pdépendent pas de ∆t ), on
retrouve la condition de stationnarité usuelle ( i αi + j βj < 1). Enfin, comme
dans le cas GARCH standard, une fois l’existence de Var(ǫt ) assurée, (ǫt ) est un
bruit blanc.
Pour les applications, on se limite généralement à des régimes ARCH, ce qui permet
d’estimer les paramètres en utilisant le filtre de Hamilton présenté précédemment.
Illustration
Afin d’illustrer la méthode, considérons la série de l’indice CAC 404 . Les observations couvrent la période allant du 1er juin 1988 (date d’inauguration de l’indice)
au 31 décembre 1993, ce qui donne 1286 observations.
La Table 5.1, présente de nombreuses estimations du modèle (5.31). En particulier
un GARCH(1,1) standard (d = 1) est estimé. Comme dans de nombreuses études
empiriques les résultats indiquent une forte persistance (α(1) + β(1) proche de 1).
3
4
voir Francq, Roussignol et Zakoïan (2001).
Cet exemple est tiré de Francq, Roussignol et Zakoïan (2001).
135
Le cas de d =2 régimes en l’absence d’effet GARCH (p = q = 0) conduit à des
différences importantes entre les valeurs estimées de ω(1) et ω(2). Il faut également
noter que les probabilités de transition d’un régime à l’autre sont très faibles, ce
qui confirme la propriété de persistance. L’introduction d’un effet ARCH(1) dans
chaque régime (d = 2, p = 0, q = 1) conduit aux mêmes conclusions. De plus,
l’hétéroscédasticité dans chaque régime est très faible. L’augmentation de l’ordre
de l’ARCH semble avoir peu d’effet : les modèles estimés sont en fait les mêmes
pour q = 1 et q = 2.
Les autres modèles présentés sont obtenus en augmentant le nombre de régimes.
La présence de 5 régimes semble rejetée par les données : pour d = 5, q = p = 0,
les variances marginales dans les 2 derniers régimes sont égales (ω(4) = ω(5)). Les
résultats obtenus pour d = 3 et d = 4 indiquent qu’il est pertinent de considérer
4 régimes. Les variances marginales (ω(i)/(1 − α(i)), i = 1, . . . , 4) sont très
différentes. De plus, les trois premiers régimes sont très persistants. Par contre le
régime le plus volatil ne peut comporter que quelques observations consécutives.
Le troisième régime est caractérisé par un coefficient α(1) très différent de zéro ce
qui justifie l’inclusion d’un effet ARCH.
La Figure 2.3 représente en trait plein la série ǫt , t = 2, . . . , 1286. Afin d’identifier les changements de régime, nous avons reporté en pointillés ±2× l’écart-type
conditionnel (dans chaque régime) du modèle ARCH estimé, pour le régime qui
maximise les probabilités lissées ( i.e. calculées à chaque date en utilisant toutes
les observations). Le graphique confirme les remarques précédentes : faible persistance et faible occurrence du quatrième régime ; présence d’effet ARCH dans le
troisième ; forte occurence des deux premiers régimes, sans effet ARCH.
136
5
0
-5
0
25
50
75
100
125
150
175
200
225
250
275
300
325
330
355
380
405
430
455
480
505
530
555
580
605
630
655
660
685
710
735
760
785
810
835
860
885
910
935
960
985
t
5
0
-5
t
5
0
-5
t
5
0
-5
990
1040
1090
1140
1190
1240
1290
Fig. 5.2 – Série CAC 40 du 2 Juin 1988 au 31 Décembre 1993. Source : Francq, Roussignol et Zakoïan (2001).
t
137
Tab. 5.1 – Estimation par Maximum de vraisemblance de différents modèles à changement de régime pour la série du CAC 40. Source : Francq, Roussignol et Zakoïan
(2001).
Model
d = 1, q = 1, p = 1
parameter estimates
ω = 0.13 α(1) = 0.184
d = 2, q = 0, p = 0
ω = (0.81, 4.46)
p(1, 1) = 0.977 p(1, 2) = 0.023
p(2, 1) = 0.102
p(2, 2) = 0.898
ω = (0.76, 3.71)
α(1) = 0.05 α(2) = 0.10
p(1, 1) = 0.979 p(1, 2) = 0.021
p(2, 1) = 0.084
p(2, 2) = 0.916
ω = (0.76, 3.70)
α(1) = (0.05, 0.0) α(2) = (0.10, 0, 00)
p(1, 1) = 0.979 p(1, 2) = 0.021 p(2, 1) = 0.084
p(2, 2) = 0.916
d = 2, q = 1, p = 0
d = 2, q = 2, p = 0
d = 3, q = 0, p = 0
d = 3, q = 1, p = 0
β(1) = 0.739
ω = (0.42, 1.27, 6.77)
p(1, 1) = 0.972 p(1, 2) = 0.015
p(2, 1) = 0.008 p(2, 2) = 0.982
p(3, 1) = 0.038 p(3, 2) = 0.080
ω = (0.41, 1.25, 5.75)
α(1) = 0.01 α(2) = 0.0
p(1, 1) = 0.973 p(1, 2) =
p(2, 1) = 0.007 p(2, 2) =
p(3, 1) = 0.037 p(3, 2) =
p(1, 3) = 0.013
p(2, 3) = 0.010
p(3, 3) = 0.882
α(3) = 0.09
0.014 p(1, 3) = 0.013
0.983 p(2, 3) = 0.010
0.071 p(3, 3) = 0.892
d = 3, q = 2, p = 0
ω = (0.41, 1.25, 5.75)
α(1) = (0.01, 0.0) α(2) = (0.0, 0.0) α(3) = (0.09, 0.0)
p(1, 1) = 0.973 p(1, 2) = 0.014 p(1, 3) = 0.013
p(2, 1) = 0.007 p(2, 2) = 0.983 p(2, 3) = 0.010
p(3, 1) = 0.037 p(3, 2) = 0.071 p(3, 3) = 0.892
d = 4, q = 1, p = 0
ω = (0.40, 1.17, 2.90, 12.11)
α(1) = 0.01 α(2) = 0.0 α(3) = 0.23 α(4) = 0.06
p(1, 1) = 0.972 p(1, 2) = 0.016 p(1, 3) = 0.009 p(1, 4) = 0.003
p(2, 1) = 0.006 p(2, 2) = 0.983 p(2, 3) = 0.001 p(2, 4) = 0.010
p(3, 1) = 0.0 p(3, 2) = 0.028 p(3, 3) = 0.972 p(3, 4) = 0.0
p(4, 1) = 0.178 p(4, 2) = 0.139 p(4, 3) = 0.0 p(4, 4) = 0.682
d = 5, q = 0, p = 0
ω = (0.44, 1.13, 2.73, 10.88, 10.88)
p(1, 1) = 0.974 p(1, 2) = 0.015 p(1, 3) = 0.0 p(1, 4) = 0.0 p(1, 5) = 0.010
p(2, 1) = 0.006 p(2, 2) = 0.980 p(2, 3) = 0.004 p(2, 4) = 0.010 p(2, 5) = 0.0
p(3, 1) = 0.0 p(3, 2) = 0.021 p(3, 3) = 0.964 p(3, 4) = 0.015 p(3, 5) = 0.0
p(4, 1) = 0.159 p(4, 2) = 0.441 p(4, 3) = 0.0 p(4, 4) = 0.400 p(4, 5) = 0.0
p(5, 1) = 0.040 p(5, 2) = 0.0 p(5, 3) = 0.079 p(5, 4) = 0.0 p(5, 5) = 0.880
138
Conclusion
L’application de modèles de type GARCH à des séries très longues comme celles
que l’on rencontre en finance (i.e. plusieurs milliers d’observations), conduit en
général à estimer une très forte persistance de la volatilité. Cet effet peut être
fallacieux et s’expliquer par la nécessité d’obtenir des distributions marginales
admettant peu de moments.
Les modèles à changement de régime markovien permettent d’estimer séparément
des propriétés très différentes : persistance des chocs, décroissance des autocorrélations, distributions marginales à queues plus ou moins épaisses, déformation au
cours du temps des densités conditionnelles. Ces modèles sont adaptés aux séries
sur très longue période avec une succession de phases différentes assimilables aux
divers régimes. Il ne faut évidemment pas perdre de vue que, malgré leur souplesse
et leur sophistication, ces modèles ne constituent (comme c’est toujours le cas)
qu’une approximation de la réalité5 .
5.4
Exercices
5.1 (Ajuster des GARCH à des sous-périodes du CAC)
Prendre un indice boursier sur une longue période (par exemple le CAC 40
du 1 mars 1990 au 29 décembre 2006). Ajuster un GARCH(1,1) aux rendements de la première moitié des observations, puis un GARCH(1,1) sur
les rendements du reste des observations. Comparer les 2 GARCH estimés,
que l’on note M1 et M2. Faire une centaine de simulations d’un GARCH(1,1)
ayant les paramètres du modèle M1. Comparer la distribution des paramètres
estimés sur les 100 simulations du modèle M1 avec les paramètres du modèle
M2.
5.2 (Loi invariante du modèle d’Ehrenfest)
Montrer que la loi π0 définie sur {0, 1, . . . , d} par π0 (i) = Cdi /2d est invariante
pour la chaîne de matrice de transition IP donnée par (5.1).
5.3 (Période d’une chaîne irréductible)
La période d’un état i d’une chaîne de Markov est le plus grand commun
diviseur (pgcd) de {m : p(m) (i, i) > 0}. Montrer que tous les états d’une
chaîne de Markov irréductible ont la même période.
5
Par exemple le mécanisme de changement de régime pourrait dépendre explicitement des
observations passées (i.e. pas seulement du régime auquel appartiennent les observations).
139
5.4 Exercices
5.4 (Algorithme EM détaillé)
Décrire les étapes l’algorithme EM qui permet d’estimer le modèle HMM
(5.2)-(5.3).
5.5 (Programmer l’algorithme EM)
Programmer l’algorithme EM de l’exercice 5.4 (en R par exemple).
5.6 (Choix de la valeur initiale dans l’algorithme EM)
Supposons que, dans l’algorithme EM décrit par l’exercice 5.4, les valeurs
initiales sont telles que p(i0 , j0 ) = 0 pour certaines valeurs i0 , j0 ∈ {1, . . . , d}.
Que peut-on dire des valeurs actualisées de p(i0 , j0 ) obtenues dans toute la
suite de l’algorithme ?
5.7 (Ajuster un modèle à volatilité HMM sur des séries réelles)
Utiliser le programme obtenu dans l’exercice 5.5 pour ajuster un modèle
HMM de la forme (5.2)-(5.3) sur plusieurs séries de rendements boursiers
(par exemple le CAC 40 et le SP 500).
5.8 (Stationnarité stricte des MS-GARCH)
Considérons un GARCH(p, q) à changement de régime markovien (5.31).
Déterminer une condition de stricte stationnarité.
5.9 (Stationnarité stricte du MS-GARCH(1,1))
Considérons un MS-GARCH(1,1), c’est-à-dire le modèle (5.31) avec p = q =
1. Donner une condition explicite de stricte stationnarité. Considérer le cas
ARCH(1).
5.10 (Stationnarité du GARCH(1,1) à changement de régime indépendant)
Considérons un GARCH(1,1) à changement de régime indépendant, c’està-dire un modèle de la forme (5.31) où (∆t ) est une suite iid. Donner une
condition d’existence d’une solution stationnaire au second ordre.
5.11 (Convergence
de l’algorithm EM)
(k)
Soit θ(k) , π0
une suite d’estimateurs obtenus par l’algorithme EM décrit
k
dans la section 5.2.3. Avec des abus de notations, on note Lθ,π0 (ǫ1 , . . . , ǫn ) la
vraisemblance et Lθ,π0 (ǫ1 , . . . , ǫn , ∆1 , . .n. , ∆n ) la loi jointe des
o observations et
de (∆1 , . . . , ∆n ). Montrer que la suite Lθ(k) ,π(k) (ǫ1 , . . . , ǫn )
0
k
est croissante.
140
5.12 (Vraisemblance d’un MS-ARCH)
Considérons un ARCH(q) à changement de régime markovien, c’est-à-dire le
modèle (5.31) avec p = 0. Montrer que la vraisemblance peut se mettre sous
une forme matricielle similaire à (5.12), que l’on peut appliquer l’algorithme
aller-retour (5.9)-(5.10) et (5.13)-(5.15), et que l’on peut également utiliser
le filtre de Hamilton (5.16)-(5.18). Peut-on adapter l’algorithme EM ?
5.13 (Une autre modélisation des MS-GARCH(1,1))
Le modèle suivant a été proposé par Haas, Mittnik et Paolella (2004) et
étudié par Liu (2006). On définit pour chaque régime k ∈ {1, . . . , d} une
volatilité
2
σt2 (k) = ω(k) + α(k)ǫ2t−1 + β(k)σt−1
(k)
et on pose ǫt = σt2 (∆t )ηt . Expliquer en quoi cette modélisation diffère de celle
définie en (5.31) pour p = q = 1.
Annexe A
Autocorrélation, ergodicité, TCL
A.1
Formule de Bartlett généralisée
Soient des observations X1 , . . . , Xn d’un processus X = (Xt ) stationnaire au second
ordre et centré. Les autocovariances et autocorrélations empiriques sont définies
par
n−h
1X
Xt Xt+h ,
γ̂X (h) = γ̂X (−h) =
n t=1
ρ̂X (h) = ρ̂X (−h) =
γ̂X (h)
γ̂X (0)
(A.1)
pour h = 0, . . . , n − 1. La proposition suivante nous donne une expression relativement facile à calculer de la variance asymptotique de ces estimateurs.
Proposition A.1 Soit (Xt )t∈Z défini par
Xt =
∞
X
i=−∞
ψi ǫt−i ,
∞
X
i=−∞
|ψi | < ∞,
où (ǫt )t∈Z est un bruit blanc faible tel que Eǫ4t := ηǫ (Eǫ2t )2 < ∞, et
Eǫt1 ǫt2 ǫt3 ǫt4 =
Eǫ2t1 ǫ2t3 si t1 = t2 et t3 = t4
0
si t1 6= t2 , t1 =
6 t3 et t1 6= t4 .
(A.2)
142
Alors on a, en notant ρǫ2 =
P+∞
h=−∞
ρǫ2 (h),
lim nCov {γ̂X (i), γ̂X (j)} = (ηǫ − 3)γX (i)γX (j)
n→∞
∞
X
+
ℓ=−∞
γX (ℓ) {γX (ℓ + j − i) + γX (ℓ − j − i)}
+(ρǫ2 − 3)(ηǫ − 1)γX (i)γX (j)
∞
X
+(ηǫ − 1)
γX (ℓ − i) {γX (ℓ − j) + γX (ℓ + j)} ρǫ2 (ℓ).
(A.3)
ℓ=−∞
Si, quand n → ∞,
√
L
n (γ̂0,m − γ0,m ) → N 0, Σγ̂0,m ,
où les éléments de Σγ̂0,m sont donnés par (A.3), alors
√
L
n (ρ̂m − ρm ) → N (0, Σρ̂m ) ,
où les éléments de Σρ̂m sont donnés par la formule de Bartlett généralisée
lim nCov {ρ̂(i), ρ̂(j)} = vij + vij∗ ,
n→∞
vij =
∞
X
ℓ=−∞
(A.4)
ρX (ℓ) [2ρX (i)ρX (j)ρX (ℓ) − 2ρX (i)ρX (ℓ + j)
−2ρX (j)ρX (ℓ + i) + ρX (ℓ + j − i) + ρX (ℓ − j − i)] ,
vij∗
= +(ηǫ − 1)
∞
X
ℓ=−∞
ρǫ2 (ℓ) 2ρX (i)ρX (j)ρ2X (ℓ) − 2ρX (j)ρX (ℓ)ρX (ℓ + i)
−2ρX (i)ρX (ℓ)ρX (ℓ + j) + ρX (ℓ + i) {ρX (ℓ + j) + ρX (ℓ − j)}] .
Remarquons que si (ǫt ) est un GARCH dont la loi de ηt est symétrique et si
Eǫ4t < ∞, alors (A.2) est vérifiée.
A droite de l’égalité (A.3), il y a une somme de 4 termes. Quand la suite (ǫ2t ) est
non corrélée, la somme des 2 derniers termes vaut
−2(ηǫ − 1)γX (i)γX (j) + (ηǫ − 1)γX (i) {γX (j) + γX (−j)} = 0.
Dans ce cas, on retrouve la formule de Bartlett (1.1). Le troisième terme est nul
quand la loi marginale de ǫt est gaussienne.
Dans (A.4), on peut réécrire le terme (ηǫ − 1) sous la forme γǫ2 (0)γǫ−2 (0). Quand
la suite (ǫ2t ) est non corrélée, on a vij∗ = 0 et on retrouve également la formule de
Bartlett pour les ACRE.
143
A.2 Ergodicité
A.2
Ergodicité
On dit qu’une suite stationnaire est ergodique si elle satisfait la loi forte des grands
nombres.
Définition A.1 (Processus stationnaire ergodique) Un processus strictement stationnaire (Zt )t∈Z , à valeurs réelles, est dit ergodique si et seulement si,
pour tout borélien B et tout entier k,
−1
n
n
X
t=1
IB (Zt , Zt+1 , . . . , Zt+k ) → P {(Z1 , . . . , Z1+k ) ∈ B}
avec probabilité 1.1
Certaines transformations de suites ergodiques restent ergodiques.
Théorème A.1 Si (Zt )t∈Z est une suite strictement stationnaire ergodique et si
(Yt )t∈Z est définie par
Yt = f (. . . , Zt−1 , Zt , Zt+1 , . . . ),
où f est une fonction mesurable de R∞ dans R, alors (Yt )t∈Z est également une
suite strictement stationnaire ergodique.
En particulier, si (Xt )t∈Z est la solution stationnaire non anticipative de l’équation
AR(1)
Xt = aXt−1 + ηt , |a| < 1, ηt iid (0, σ 2 )
(A.5)
2
alors le théorème montre que (Xt )t∈Z , (Xt−1 ηt )t∈Z et (Xt−1
)t∈Z sont des suites
stationnaires et ergodiques.
Théorème A.2 (Le théorème ergodique pour suites stationnaires) Si
(Zt )t∈Z est strictement stationnaire et ergodique, si f est mesurable et si
E|f (. . . , Zt−1 , Zt , Zt+1 , . . . )| < ∞,
alors
−1
n
n
X
t=1
1
f (. . . , Zt−1 , Zt , Zt+1 , . . . ) → Ef (. . . , Zt−1 , Zt , Zt+1 , . . . ) p.s.
Le concept d’ergodicité est bien plus général. Il peut être étendu à des suites non stationnaires
(voir e.g. Billingsley (1995) "Probability and Measure", Wiley, New York.)
144
À titre d’exemple, considérons l’estimateur des moindres carrés ân du paramètre
a de (A.5). Par définition
ân = arg min Qn (a),
a
Qn (a) =
n
X
t=2
(Xt − aXt−1 )2 .
En annulant la dérivée du critère, on obtient
P
n−1 nt=2 Xt Xt−1
P
ân =
.
2
n−1 nt=2 Xt−1
Le théorème ergodique montre que le numérateur tend presque sûrement vers
γ(1) = Cov(Xt , Xt−1 ) = aγ(0) et que le numérateur tend vers γ(0). On en déduit
que ân → a presque sûrement quand n → ∞. Remarquons que ce résultat reste
valable si on remplace l’hypothèse ηt bruit blanc fort par l’hypothèse que ηt est
un bruit blanc semi-fort, ou même que ηt est un bruit blanc faible stationnaire
ergodique.
A.3
Différence de martingale
Dans un jeu équitable de hasard pur (par exemple A et B jouent à pile ou face, A
donne un Euro à B quand la pièce fait pile, B donne un Euro à A quand la pièce
fait face), la fortune d’un joueur est une martingale.
Définition A.2 (Martingale) Soient (Yt )t∈N une suite de variables aléatoires
réelles (v.a.r.) et (Ft )t∈N une suite de tribus. La suite (Yt , Ft )t∈N est une martingale si et seulement si
1. Ft ⊂ Ft+1 ;
2. Yt est Ft -mesurable ;
3. E|Yt | < ∞ ;
4. E(Yt+1 |Ft ) = Yt .
Quand on dit que (Yt )t∈N est une martingale, on prend implicitement Ft =
σ(Yu , u ≤ t), c’est-à-dire la tribu engendrée par les valeurs passées et présentes.
Définition A.3 (Différence de martingale) Soient (ηt )t∈N une suite de v.a.r.
et (Ft )t∈N une suite de tribus. La suite (ηt , Ft )t∈N est une différence de martingale
(ou une suite d’accroissements de martingale) si et seulement si
145
A.3 Différence de martingale
1. Ft ⊂ Ft+1 ;
2. ηt est Ft -mesurable ;
3. E|ηt | < ∞ ;
4. E(ηt+1 |Ft ) = 0.
Remarque A.1 Si (Yt , Ft )t∈N est une martingale et si on pose η0 = Y0 , ηt = Yt −
Yt−1 , alors (ηt , Ft )t∈N est une différence de martingale : E(ηt+1 |Ft ) = E(Yt+1 |Ft)−
E(Yt |Ft) = 0.
Remarque A.2 Si (ηt , Ft )t∈N est une différence de martingale et si on pose Yt =
η0 + η1 + · · · + ηt , alors (Yt , Ft )t∈N est une martingale : E(Yt+1 |Ft ) = E(Yt +
ηt+1 |Ft ) = Yt .
Remarque A.3 Dans l’exemple (A.5),
( k
X
i=0
ai ηt−i , σ(ηu , t − k ≤ u ≤ t)
)
k∈N
est une martingale, et {ηt , σ(ηu , u ≤ t)}t∈N , {ηt Xt−1 , σ(ηu , u ≤ t)}t∈N sont des différences de martingale.
Il existe un théorème central limite (TCL) pour des suites triangulaires de différences de martingale.
Théorème A.3 (TCL de Lindeberg) On suppose que, pour chaque n > 0,
2
(ηnk , Fnk )k∈N est une différence de martingale de carré intégrable. Soit σnk
=
2
E(ηnk |Fn(k−1) ). Si
n
X
k=1
2
σnk
→ σ02 en probabilité quand n → ∞,
(A.6)
où σ0 est une constante strictement positive, et
n
X
k=1
2
Eηnk
1{|ηnk |≥ǫ} → 0 quand n → ∞,
pour chaque réel positif ǫ, alors
Pn
k=1 ηnk
L
→ N (0, σ02)
(A.7)
146
Remarque A.4 Dans de nombreuses applications, ηnk et Fnk sont seulement définis pour 1 ≤ k ≤ n et peuvent être présentés sous la forme d’un tableau triangulaire
η11
η21 η22
η31 η32 η33
..
.
ηn1 ηn2 · · · ηnn
..
.
On peut définir ηnk et Fnk pour tout k ≥ 0 en posant ηn0 = 0, Fn0 = {∅, Ω} et
ηnk = 0, Fnk = Fnn pour tout k > n. Dans le théorème on suppose que chaque
ligne du tableau triangulaire est une différence de martingale.
Remarque A.5 Le théorème précédent contient le TCL usuel. Soit Z1 , · · · , Zn
une suite iid dont la variance existe. Il suffit de poser
Zk − EZk
√
et Fnk = σ(Z1 , . . . , Zk ).
n
ηnk =
Il est clair que (ηnk , Fnk )k∈N est une différence de martingale de carré intégrable.
2
2
On a σnk
= Eηnk
= n−1 Var(Z0 ). Par conséquent la condition de normalisation
(A.6) est satisfaite. De plus
n
X
k=1
2
Eηnk
1{|ηnk |≥ǫ}
=
=
n
X
Zk=1
−1
n
Z
√
{|Zk −EZk |≥ nǫ}
√
{|Z1 −EZ1 |≥ nǫ}
|Zk − EZk |2 dP
|Z1 − EZ1 |2 dP → 0
R
√
car {|Z1 − EZ1 | ≥ nǫ} ↓ ∅ et Ω |Z1 − EZ1 |2 dP < ∞. La condition de Lindeberg
(A.7) est donc satisfaite. Le théorème entraîne le TCL standard :
n
X
k=1
n
ηnk
1 X
=√
(Zk − EZk ).
n k=1
Remarque A.6 Dans l’exemple (A.5), posons
ηnk =
ηk Xk−1
√
and Fnk = σ(ηu , u ≤ k).
n
147
A.3 Différence de martingale
La suite (ηnk , Fnk )k∈N est une différence de martingale de carré intégrable. Nous
2
2
avons σnk
= n−1 σ 2 Xk−1
. Le théorème ergodique entraîne (A.6) avec σ02 = σ 4 /(1 −
2
a ). Nous avons
Z
n
n
X
X
2
−1
Eηnk 1{|ηnk |≥ǫ} =
n
|ηk Xk−1|2 dP
√
{|ηk Xk−1 |≥ nǫ}
k=1
Zk=1
=
|η1 X0 |2 dP → 0
√
{|η1 X0 |≥ nǫ}
R
√
car {|η1 X0 | ≥ nǫ} ↓ ∅ et Ω |η1 X0 |2 dP < ∞. Ceci montre (A.7). Le TCL de
Lindeberg entraîne
n−1/2
n
X
k=1
On en déduit que
1/2
n
car n−1
Pn
k=1
L
ηk Xk−1 → N (0, σ 4 /(1 − a2 )).
P
n−1/2 nk=1 ηk Xk−1 L
Pn
(ân − a) =
→ N (0, 1 − a2 ),
2
−1
n
k=1 Xk−1
2
Xk−1
→ σ 2 /(1 − a2 ).
(A.8)
2
Remarque A.7 Le résultat précédent peut être utilisé pour obtenir un intervalle
de confiance asymptotique ou pour tester le coefficient a.
1.
h
1/2 i
ân ± 1.96n−1/2 1 − â2n
est un intervalle de confiance au niveau de confiance asymptotique 95%confidence.
2. L’hypothèse nulle H√
ap= 0 est rejetée au niveau asymptotique 5% si
0 :
|tn | > 1.96, où tn = nân / 1 − â2n est la t-statistique.
Dans
souvent 1 − â2n par σ̂ 2 /γ̂(0) où σ̂ 2 =
Pn les statistiques2 précédentes, on remplace
P
n
−1
2
t=1 (Xt − ân Xt−1 ) /(n − 1) et γ̂(0) = n
t=1 Xt−1 . Asymptotiquement, cela ne
fait aucune différence :
Pn
n − 1 σ̂ 2
(Xt − ân Xt−1 )2
t=1P
=
n
2
n γ̂(0)
t=1 Xt−1
Pn
Pn
Pn
2
2
2
t=1 Xt + ân
t=1 Xt−1 − 2ân
t=1 Xt Xt−1
Pn
=
2
t=1 Xt−1
Pn
2
X
= Pnt=1 2t − â2n .
t=1 Xt−1
2
L
L
On a utilisé le résultat suivant : si Yn → Y et Tn → T en probabilité, alors Tn Yn → Y T
148
Il est cependant préférable d’utiliser σ̂ 2 /γ̂(0) qui est toujours positif, plutôt que
1 − â2n car, à distance finie, on peut avoir â2n > 1.
A.4
Autocorrélations partielles
Définition
Le coefficient d’autocorrélation partielle théorique (ACPT) de retard h > 0, rX (h),
d’un processus X = (Xt ) stationnaire au second ordre, dont les innovations linéaires ne sont pas nulles, 3 est le coefficient de corrélation entre
Xt − EL(Xt |Xt−1 , Xt−2 , . . . , Xt−h+1 )
et
Xt−h − EL(Xt−h |Xt−1 , Xt−2 , . . . , Xt−h+1 ),
où EL(Z|Y1 , . . . , Yk ) désigne la régression linéaire d’une variable de carré intégrable
Y sur des variables Y1 , . . . , Yk :
rX (h) = Cor (Xt , Xt−h |Xt−1 , Xt−2 , . . . , Xt−h+1 ) .
(A.9)
On peut donc interpréter rX (h) comme la corrélation résiduelle entre Xt et Xt+h ,
une fois enlevée l’influence linéaire des variables intermédiaires Xt+1 , Xt+2 , . . . ,
Xt+h−1 .
Supposons (Xt ) centré et considérons le modèle de régression linéaire de Xt sur
Xt−1 , . . . , Xt−h :
Xt = ah,1 Xt−1 + · · · + ah,h Xt−h + uh,t,
uh,t ⊥Xt−1 , . . . , Xt−h .
(A.10)
On a
EL(Xt |Xt−1 , . . . , Xt−h ) = ah,1 Xt−1 + · · · + ah,h Xt−h ,
EL(Xt−h−1 |Xt−1 , . . . , Xt−h ) = ah,1 Xt−h + · · · + ah,h Xt−1 ,
(A.11)
(A.12)
et
rX (h) = ah,h .
(A.13)
Preuve de (A.11) et (A.12). On obtient (A.11) à partir de (A.10), en utilisant
la linéarité de EL(·|Xt−1 , . . . , Xt−h ) et ah,1 Xt−1 + · · · + ah,h Xt−h ⊥uh,t .
3
Ainsi la variance de ǫt := Xt − EL(Xt |Xt−1 , . . . ) est non nulle
149
A.4 Autocorrélations partielles
Le vecteur des coefficients de la régression linéaire de Xt−h−1 sur Xt−1 , . . . , Xt−h
est donné par
 
−1





X
X
t−1
t−1






E  ...  Xt−1 . . . Xt−h
EXt−h−1  ...  .
(A.14)




Xt−h
Xt−h
Comme

et

Xt−1


E  ... 
Xt−h
Xt−1 . . .
Xt−h


Xt−h


= E  ... 
Xt−1
Xt−h . . . Xt−1




Xt−1
Xt−h




EXt−h−1  ...  = EXt  ...  ,
Xt−h
Xt−1
c’est aussi le vecteur des coefficients de la régression linéaire de Xt sur
Xt−h , . . . , Xt−1 , ce qui donne (A.12).
Preuve de (A.13). De (A.10) on tire
EL(Xt |Xt−1 , . . . , Xt−h+1 ) = ah,1 Xt−1 + · · · + ah,h−1 Xt−h+1
+ah,h E(Xt−h |Xt−1 , . . . , Xt−h+1 ).
D’où
Xt − EL(Xt |Xt−1 , . . . , Xt−h+1 ) = ah,h {Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )} + uh,t .
Cette dernière égalité est de la forme Y = ah,h X + u avec u⊥X, d’où Cov(Y, X) =
ah,h Var(X), ce qui donne
ah,h =
Cov {Xt − EL(Xt |Xt−1 , . . . , Xt−h+1 ), Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )}
.
Var {Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )}
Pour conclure il suffit de remarquer que, en utilisant la parité de γX (·) et (A.12),
Var {Xt − EL(Xt |Xt−1 , . . . , Xt−h+1 )}
= Var {Xt − ah−1,1 Xt−1 − · · · − ah−1,h−1 Xt−h+1 }
= Var {Xt−h − ah−1,1 Xt−h+1 − · · · − ah−1,h−1 Xt−1 }
= Var {Xt−h − EL(Xt−h |Xt−1 , . . . , Xt−h+1 )} .
150
Algorithme de calcul
On peut calculer rX (h) rapidement, à partir de ρX (1), . . . , ρX (h), à l’aide de l’algorithme de Durbin :
(A.15)
a1,1 = ρX (1)
ak,k =
ak,i
ρX (k) −
Pk−1
i=1
Pk−1
ρX (k − i)ak−1,i
1 − i=1 ρX (i)ak−1,i
= ak−1,i − ak,k ak−1,k−i, i = 1, . . . , k − 1.
(A.16)
(A.17)
Les étapes (A.16) et (A.17) sont répétées pour k = 2, . . . , h − 1, puis rX (h) = ah,h
est obtenu par l’étape (A.16).
Preuve de (A.17). D’après (A.10),
EL(Xt |Xt−1 , . . . , Xt−k+1 ) =
k−1
X
i=1
ak,iXt−i + ak,k EL(Xt−k |Xt−1 , . . . , Xt−k+1 ).
Donc, en utilisant (A.12),
k−1
X
ak−1,iXt−i =
k−1
X
ak,i Xt−i + ak,k
i=1
i=1
k−1
X
ak−1,k−i Xt−i ,
i=1
ce qui donne (A.17) (les vecteurs Xt−1 , . . . , Xt−k+1 ne sont pas presque sûrement
liés car les innovations de (Xt ) ne sont pas dégénérées).
Preuve de (A.16). Le vecteur des coefficients de la régression linéaire de Xt sur
Xt−1 , . . . , Xt−h satisfait


Xt−1


E  ... 
Xt−h
Xt−1 . . . Xt−h



ah,1
Xt−1
 . 
 . 
 ..  = EXt  ..  .
ah,h
Xt−h

La dernière ligne de (A.18) donne
h
X
i=1
ah,i γ(h − i) = γ(h).
(A.18)
151
Donc, en utilisant (A.17),
ah,h = ρ(h) −
= ρ(h) −
=
ce qui donne (A.16).
h−1
X
i=1
h−1
X
ρ(h − i)ah,i
ρ(h − i)(ah−1,i − ah,h ah−1,h−i)
i=1
Ph−1
ρ(h) − i=1 ρ(h − i)ah−1,i
P
1 − h−1
i=1 ρ(h − i)ah−1,h−i
Comportement des autocorrélations partielles empiriques
Les autocorrélations partielles empiriques (ACPE), r̂(h), sont obtenues par l’algorithme A.15 − A.17, en remplaçant ρX (k) par ρ̂X (k), où
γ̂X (h)
ρ̂X (h) =
,
γ̂X (0)
−1
γ̂X (h) = γ̂X (−h) = n
n−h
X
Xt Xt+h
t=1
pour h = 0, 1, . . . , n−1. Quand on ne suppose pas que (Xt ) est centré, on remplace
Xt par Xt −X n . D’après (A.13), on sait que pour un AR(p) on a rX (h) = 0, ∀h >
p. Lorsque le bruit est fort, la loi asymptotique des r̂(h), h > p, est très simple.
Proposition A.2 Si X est la solution stationnaire non anticipative du modèle
AR(p)
Xt −
alors
p
X
ai Xt−i = ηt ,
2
ηt iid(0, σ ),
i=1
√
L
2
σ 6= 0,
nr̂(h) → N (0, 1) ,
1−
p
X
i=1
ai z i 6= 0 ∀|z| ≤ 1,
∀h > p.
Preuve. Soit a0 = (a1 , . . . , ap , 0, . . . , 0) le vecteur des coefficients du modèle écrit
sous forme AR(h), h > p. Soit




Xn−1 . . . Xn−h
Xn
 Xn−2 . . . Xn−h−1 
 Xn−1 




−1
X =  ..
 , Y =  ..  et â = {X ′ X} X ′ Y
 .

 . 
X0 . . . X1−h
X1
152
le coefficient de la régression empirique de Xt sur Xt−1 , . . . , Xt−h (on pose Xt = 0
pour t ≤ 0). On peut montrer que, comme pour un modèle de régression classique,
√
L
n(â − a0 ) → N (0, Σ) , où

−1
γX (0)
γX (1) · · ·
γX (h − 1)
 γX (1)
γX (0) · · ·
γX (h − 2) 
p.s.


−1
Σ = σ 2 lim n−1 {X ′ X} = σ 2 
 .
.
.
n→∞


.
γX (h − 1) · · ·
γX (1)
γX (0)
Puisque r̂X (h) est la dernière composante de â (d’après (A.13)), on a
√
L
nr̂(h) → N (0, Σ(h, h)) ,
avec
Σ(h, h) = σ 2
∆(0, h − 1)
,
∆(0, h)
En appliquant les relations
γX (0) −
h−1
X
γX (0)
γX (1) · · ·
γX (j − 1)
γX (1)
γ
(0)
·
·
·
γX (j − 2)
X
∆(0, j) = ..
.
γX (j − 1) · · ·
γX (1)
γX (0)
ai γX (i) = σ 2
γX (k) −
i=1
pour k = 1, . . . , h − 1, on obtient
γX (0)
γX (1)
γX (1)
γX (0)
..
∆(0, h) = .
γX (h − 2) γX (h − 1)
γX (h − 1) γX (h − 2)
= σ 2 ∆(0, h − 1).
h−1
X
i=1
ai γX (k − i) = 0
· · · γX (h − 2)
· · · γX (h − 3)
···
···
γX (0)
γX (1)
D’où Σ(h, h) = 1, ce qui complète la preuve.
.
.
0
Ph−1
γX (0) − i=1 ai γX (i) 0
0
2
Le résultat de la proposition A.2 n’est plus valable quand on ne fait pas l’hypothèse
que le bruit ηt est iid. On peut néanmoins déduire le comportement asymptotique
des ACPE de celui des ACRE. Notons
ρm = (ρX (1), . . . , ρX (m)),
rm = (rX (1), . . . , rX (m))
ρ̂m = (ρ̂X (1), . . . , ρ̂X (m)),
et
r̂m = (r̂X (1), . . . , r̂X (m)).
153
Proposition A.3 Si, quand n → ∞,
√
L
n (ρ̂m − ρm ) → N (0, Σρ̂m ) ,
alors
√
L
′
Σr̂m = Jm Σρ̂m Jm
,
n (r̂m − rm ) → N (0, Σr̂m ) ,
où les éléments de la matrice jacobienne Jm sont définis par Jm (i, j) =
∂rX (i)/∂ρX (i) et sont obtenus récursivement pour k = 2, . . . , m par
(j)
∂rX (1)/∂ρX (j) = a1,1 = 1{1} (j)
(j)
(j)
dk nk − nk dk
∂rX (k)/∂ρX (j) =
=
,
d2k
k−1
X
nk = ρX (k) −
ρX (k − i)ak−1,i,
(j)
ak,k
i=1
dk = 1 −
k−1
X
ρX (i)ak−1,i ,
i=1
(j)
nk = 1{k} (j) − ak−1,k−j −
(j)
dk = −ak−1,j −
(j)
ak,i
=
(j)
ak−1,i
−
k−1
X
k−1
X
i=1
(j)
ρX (k − i)ak−1,i ,
(j)
ρX (i)ak−1,i ,
i=1
(j)
ak,k ak−1,k−i −
(j)
ak,k ak−1,k−i,
i = 1, . . . , k − 1.
en posant ai,j = 0 pour j ≤ 0 ou j > i.
Preuve. Il suffit d’appliquer la méthode delta 4 en considérant rX (h) comme une
fonction différentiable de ρX (1), . . . , ρX (h). 2
Nous en déduisons que pour un bruit blanc faible, les ACRE et les ACPE ont la
même loi asymptotique. Cela s’applique en particulier à un GARCH.
Proposition A.4 Si X est un bruit blanc faible et
√
L
nρ̂m → N (0, Σρ̂m ) ,
alors
√
L
nr̂m → N (0, Σρ̂m ) .
√
L
Si n(Xn − µ) → N (0, Σ), pour Xn dans Rm , et g : Rm → Rk de classe C 1 au voisinage de
√
L
µ, alors n {g(Xn ) − g(µ)} → N (0, JΣJ ′ ), où J = {∂g(x)/∂x′ } (µ)
4
154
(j)
Preuve. Reprenons le calcul des dérivées ak,i quand ρX (h) = 0 pour tout h =
6 0.
Il est clair que ak,i = 0 pour tout k et tout i. On a alors dk = 1, nk = 0 et
(j)
(j)
nk = 1{k} (j). On a donc ak,k = 1{k} (j), d’où Jm = Im . 2
Le résultat suivant est plus fort car il montre que pour un bruit blanc les ACRE
et les ACPE sont asymptotiquement équivalentes.
Proposition A.5 Si (Xt ) est un bruit blanc faible satisfaisant la condition de la
proposition A.4 et, pour tout h fixé,
√
n (âh−1,1 , . . . , âh−1,h−1 ) = OP (1)
(A.19)
où (âh−1,1 , . . . , âh−1,h−1 )′ est le vecteur des coefficients estimés de la régression
linéaire de Xt sur Xt−1 , . . . , Xt−h+1 , (t = h, . . . , n), alors
ρ̂(h) − r̂(h) = OP (n−1 ).
Preuve. Le résultat est évident pour h = 1. Pour h > 1, nous avons d’après (A.16)
P
ρ̂(h) − h−1
ρ̂(h − i)âh−1,i
.
r̂(h) =
Pi=1
h−1
1 − i=1 ρ̂(i)âh−1,i
D’après les hypothèses
ρ̂(k) = oP (1),
(âh−1,1 , . . . , âh−1,h−1)′ = oP (1)
et
ρ̂(k)âh−1,i = OP (n−1 )
pour i = 1, . . . , h − 1 et k = 1, . . . , h. D’où
P
n h−1
i=1 âh−1,i {ρ̂(h − i) − ρ̂(i)ρ̂(h)}
n {ρ̂(h) − r̂(h)} =
= Op (1). 2
P
1 − h−1
ρ̂(i)â
h−1,i
i=1
Sous des hypothèses très peu restrictives, le terme de gauche de l’égalité (A.19)
tend en loi vers une normale non dégénérée, ce qui entraîne bien sûr (A.19).
BIBLIOGRAPHIE
Propriétés des séries financières : 2, 8, 27.
Définition des ARCH, GARCH, IGARCH : 3, 13, 14.
Stationnarité : 5, 20.
155
Estimation des modèles GARCH : 16, 24, 26, 30, 35, 36.
Asymétries et autres spécifications : 12, 25, 29, 33, 37.
GARCH faibles et agrégation : 10, 15, 31.
Lien avec les modèles en temps continu : 28.
Modèles à volatilité stochastique : 1, 9, 32.
Modèles à changement de régime : 7, 11, 18, 22.
Livres, revues de la littérature : 4, 6, 17, 19, 21, 23, 34.
1. Andersen, T.G. and B. E. Sørensen (1996) : "GMM Estimation of a
Stochastic Volatility Model : A Monte Carlo Study." Journal of Business
and Economic Statistics 14, 328–352.
2. Black, F.(1976) :"Studies of Stock Price Volatility Changes," Proceedings
from the American Statistical Association, Business and Economic Statistics
Section, 177–181.
3. Bollerslev, T.P. (1986) : "Generalized Autoregressive Conditional Heteroskedasticity," Journal of Econometrics, 31, 309–328.
4. Bollerslev, T.P., Engle, R.F. and D.B. Nelson (1994) : "ARCH
Models," in Handbook of Econometrics, Vol. IV, Edited by R.F Engle and
D.L.McFadden, Chap 49, 2959-3038.
5. Bougerol, P. and N. Picard (1992) : "Stationarity of GARCH Processes
and of Some Nonnegative Time Series," Journal of Econometrics, 52, 115–
127.
6. Brockwell, P. J., and Davis, R. A. (1991) : Time Series : Theory and
Methods. Springer-Verlag.
7. Cai, J. (1994) : "A Markov Model of Switching-Regime ARCH," Journal
of Business and Economic Statistics 12, 309–316.
8. Christie, A.A. (1982) : "The Stochastic Behavior of Common Stock Variances : Value, Leverage and Interest Rate Effects" Journal of Financial
Economics, 10, 407–432.
9. Danielsson, J. (1994) : "Stochastic Volatility in Asset Prices, Estimation
with Simulated Maximum Likelihood," Journal of Econometrics, 64, 375–
400.
10. Drost, F.C. and T.E. Nijman (1993) : "Temporal Aggregation of
GARCH Processes," Econometrica, 61, 909–927.
156
11. Dueker, M.J. (1997) : "Markov Switching in GARCH processes and MeanReverting Stock Market Volatility, " Journal of Business and Economic Statistics 15, 26–34.
12. El Babsiri, M. and J.M. Zakoïan (2001) : "Contemporaneous Asymmetry in GARCH Processes," Journal of Econometrics, 101, 257-294.
13. Engle, R.F. (1982) : "Autoregressive Conditional Heteroskedasticity with
Estimates of the Variance of U.K. Inflation," Econometrica, 50, 987–1008.
14. Engle, R.F. and T. Bollerslev (1986) : "Modelling the Persistence of
Conditional Variances," (with comments and a reply by the authors Econometric Reviews, 5, 1–87.
15. Francq, C. et J-M. Zakoïan (2000) : "Estimating Weak GARCH Representations", Econometric Theory, 16, 692-728.
16. Francq, C. et J-M. Zakoïan (2004) : "Maximum Likelihood Estimation
of Pure GARCH and ARMA-GARCH Processes", Bernoulli, 10, 605-637.
17. Francq, C. et J-M. Zakoïan (2009) : MODELES GARCH : Structure,
inférence statistique et applications financières. Economica, collection "économie et statistiques avancées".
18. Francq, C., M. Roussignol et J-M. Zakoïan (2001) : "Conditional Heteroskedasticity driven by Hidden Markov Chains", Journal of Time Series
Analysis, 22, 197-220.
19. Ghysels, E., A.C. Harvey, and E. Renault (1996) : Stochastic Volatility. In C.R. Rao and G.S. Maddala (Eds.), Statistical Methods in Finance,
119–191. Amsterdam : North-Holland.
20. Goldsheid, I. Y. (1991) : Lyapunov exponents and asymptotic behavior
of the product of random matrices. In : Lecture Notes in Mathematics 1486,
23-37. Springer, Berlin.
21. Gouriéroux, C. (1997) : ARCH Models and Financial Applications.
Springer-Verlag, New-York.
22. Hamilton, J.D., and R. Susmel (1994) : Autoregressive Conditional
Heteroskedasticity and Changes in Regime. Journal of Econometrics 64, 307–
333.
23. Harvey, A.C. (1989) Forecasting, structural time series models and the
Kalman Filter. Cambridge University Press.
24. Lee, S.W. and B.E. Hansen, (1994) : "Asymptotic Theory for the
GARCH(1,1) Quasi-Maximum Likelihood Estimator,"Econometric Theory,
10, 29–58.
157
25. Liu J., Li W.K. and C.W. Li (1997) : "On a Threshold Autoregression
with Conditional Heteroskedastic Variances," Journal of Statistical Planning
and Inference, 62, 279–300.
26. Lumsdaine, R.L. (1996) : "Consistency and Asymptotic Normality of the
Quasi-Maximum Likelihood Estimator in IGARCH(1,1) and Covariance Stationary GARCH(1,1) Models," Econometrica, 64, 575–596.
27. Mandelbrot, B. (1963) : "The Variations of Certain Speculative Prices,"
Journal of Business, 36, 394–419.
28. Nelson, D.B. (1990) : "ARCH Models as Diffusion Approximations," Journal of Econometrics, 45, 7–38.
29. Nelson D.B. (1991) : "Conditional Heteroskedasticity in Asset Returns : a
New Approach," Econometrica, 59, 347–370.
30. Newey W.K and D.G. Steigerwald (1997) : "Asymptotic Bias for
Quasi-Maximum Likelihood Estimators in Conditional Heteroskedasticity
Models," Econometrica, 65, 3, 587–599.
31. Nijman, T. and E. Sentana (1996) : "Marginalization and Contemporaneous Aggregation in Multivariate GARCH Processes," Journal of Econometrics, 71, 71–87.
32. Ruiz, E. (1994) : "Quasi-Maximum Likelihood Estimation of Stochastic Volatility Models." Journal of Econometrics 63, 289–306.
33. Shephard, N. (1996) : Statistical Aspects of ARCH and Stochastic Volatility. In D.R. Cox, D.V. Hinkley and O.E. Barndorff-Nielsen (Eds.), Time
Series Models in Econometrics, Finance and Other Fields, 1–67. London :
Chapman & Hall.
34. Taylor, S. (1986) : Modelling Financial Time Series, New-York : Wiley.
35. Weiss, A.A. (1984) : ARMA Models with ARCH Errors. Journal of Time
Series Analysis 5, 129–143.
36. Weiss, A.A., (1986) : "Asymptotic Theory for ARCH Models : Estimation
and Testing," Econometric Theory, 2, 107–131.
37. Zakoïan, J.M. (1994) : "Threshold Heteroskedastic Models," Journal of
Economic Dynamics and Control, 18, 931–955.
Annexe B
Solution des exercices
Chapitre 1
1.1
P
1. (a) On a la solution stationnaire Xt = i≥0 0.5i (ηt−i + 1), de moyenne
EXt = 2 et d’autocorrélations ρX (h) = 0.5|h| .
(b) On a une solution stationnaire "anticipative"
Xt = −1 −
1X i
0.5 ηt+i+1 ,
2 i≥0
qui est telle que EXt = −1 et ρX (h) = 0.5|h|.
(c) La solution stationnaire
Xt = 2 +
X
i≥0
0.5i (ηt−i − 0.4ηt−i−1 ),
est telle que EXt = 2 avec ρX (1) = 2/19 et ρX (h) = 0.5h−1 ρX (1)
pour h > 1.
2. Les modèles compatibles sont respectivement ARMA(1,2), MA(3) et
ARMA(1,1).
3. Le premier bruit est fort, le second est faible car
4
2
Cov (ηt ηt−1 )2 , (ηt−1 ηt−2 )2 = Eηt2 ηt−1
ηt−2
− 1 6= 0,
et on peut même préciser que, d’après l’inégalité de Jensen, cette corrélation est positive.
159
1.2 En toute généralité, posons Xt = X n pour t < 1 ou t > n. On a
n−1
X
1X
1
γ̂(h) =
(Xt − X n )(Xt+h − X n ) =
n h,t
n
h=−n+1
ce qui donne 1 + 2
Pn−1
h=1
( n
X
t=1
(Xt − X n )
)2
= 0,
ρ̂(h) = 0, d’où le résultat.
1.3 Considérons la suite dégénérée (Xt )t=0,1,... définie, sur un espace probabilisé
(Ω, A, IP), par Xt (ω) = (−1)t pour tout ω ∈ Ω et tout t ≥ 0. Avec probabilité
1, la suite {(−1)t } sera réalisation du processus (Xt ). Ce processus est non
stationnaire car, par exemple, EX0 6= EX1 .
Soit U une variable de loi uniforme sur {0, 1}. On définit le processus
(Yt )t=0,1,... par
Yt (ω) = (−1)t+U (ω)
pour tout ω ∈ Ω et tout t ≥ 0. Le processus (Yt ) est stationnaire. On peut
même préciser que EYt = 0 et Cov (Yt , Yt+h ) = (−1)h . Avec probabilité 1/2,
le processus stationnaire (Yt ) a pour réalisation la suite {(−1)t } (et avec
probabilité 1/2, il a pour réalisation {(−1)t+1 }).
Cet exemple nous laisse penser qu’il est en principe impossible de déterminer
si un processus est stationnaire ou pas à partir de l’observation d’une seule
trajectoire, même de longueur infinie. Cependant, le praticien ne modélisera
pas {(−1)t } comme la réalisation du processus stationnaire (Yt ). La modélisation par le processus non stationnaire (Xt ) est plus simple, plus naturelle,
et donne entière satisfaction en termes de prévisions.
1.5 Par simple calcul, on trouve Eǫt = 0, Var ǫt = 1 et Cov(ǫt , ǫt−h ) = 0
quand h 6= 0, donc (ǫt ) est un bruit blanc faible. On a Cov(ǫ2t , ǫ2t−1 ) =
4
4
2
Eηt2 ηt−1
. . . ηt−k
ηt−k−1
− 1 = 3k − 1 6= 0, donc ǫt et ǫt−1 ne sont pas indépendants, ce qui montre que (ǫt ) n’est pas un bruit blanc fort.
1.6 Supposons
Pn h > 0. Soit la variable aléatoire
√ ρ̃(h) = γ̃(h)/γ̃(0), où γ̃(h) =
−1
n
t=1 ǫt ǫt−h . Il est facile de voir que
√ nρ̂(h) a la même variance (et
aussi la même loi) asymptotique que nρ̃(h). En utilisant γ̃(0) → 1, la
160
stationnarité et le théorème de Lebesgue, cette variance asymptotique vaut
n
X
√
Var nγ̃(h) = n−1
Cov (ǫt ǫt−h , ǫs ǫs−h )
t,s=1
−1
= n
n−1
X
(n − |ℓ|)Cov (ǫ1 ǫ1−h , ǫ1+ℓ ǫ1+ℓ−h )
ℓ=−n+1
→
=
∞
X
Cov (ǫ1 ǫ1−h , ǫ1+ℓ ǫ1+ℓ−h )
ℓ=−∞
Eǫ21 ǫ21−h
=
3k−h+1 si 0 < h ≤ k
1
si
h>k
Cette valeur peut être arbitrairement plus grande que 1, valeur qui correspond à la variance asymptotique des autocorrélations empiriques d’un bruit
blanc fort.
1.7 Il est clair que (ǫ2t ) est un processus stationnaire au second ordre. Par construction, ǫt et ǫt−h sont indépendants pour h > k, donc γǫ2 (h) := Cov(ǫ2t , ǫ2t−h ) =
0 pour tout h > k. De plus γǫ2 (h) = 3k+1−h − 1, pour h = 0, . . . , k. D’après
le théorème 1.2, ǫ2t − 1 suit donc une MA(k). Dans le cas k = 1, on a une
écriture de la forme
ǫ2t = 1 + ut + but−1 ,
où (ut ) est un bruit blanc de variance σ 2 et |b| < 1. Les coefficients b et σ 2
sont déterminés par
γǫ2 (0) = 8 = σ 2 (1 + b2 ),
√
ce qui donne b = 2 − 3 et σ 2 = 2/b.
γǫ2 (1) = 2 = bσ 2 ,
1.8 En raisonnant comme dans l’exercice 1.6, la variance asymptotique vaut
2
Eǫ21 ǫ21−h
η12 η1−h
=
E
2
2
(Eǫ21 )2
η1−k
η1−h−k
η2
E 21
η1−k
−2
=
Eη12 Eη1−2
1
−1
si 0 < h = k
si 0 < h 6= k
Comme E(η1−2 ) ≥ (Eη12 )−1 , pour k 6= h la variance asymptotique peut être
arbitrairement plus petite que 1, valeur qui correspond à la variance asymptotique des autocorrélations empiriques d’un bruit blanc fort.
1.9
1. On a
n
n
X
X
k
a ηt−k ≤
|a|k σ → 0
k=m
2
k=m
161
quand
n > m et m → ∞. La suite {ut (n)}n définie par un =
Pn
k
2
k=0 a ηt−k est de Cauchy dans L , et converge donc en moyenne quadratique. A priori,
∞
X
k=0
k
|a ηt−k | := lim ↑
n
n
X
k=0
|ak ηt−k |
existe dans R ∪ +{∞}. En utilisant Beppo-Levi,
E
∞
X
k=0
k
|a ηt−k | = (E|ηt |) F
P∞
∞
X
k=0
|ak | < ∞,
ce qui montre que la limite k=0 |ak ηt−k | est finie presque sûrement.
Ainsi, quand n → ∞, ut (n) converge
P∞ àk la fois presque sûrement et en
moyenne quadratique vers ut = k=0 a ηt−k . Comme
ut (n) = aut−1 (n − 1) + ηt ,
∀n,
on obtient, par passage à la limite quand n → ∞, ut = aut−1 + ηt .
Ceci montre que (Xt ) = (ut ) est une solution stationnaire de l’équation
AR(1).
Finalement, supposons qu’il y ait 2 solutions stationnaires à l’équation :
Xt = aXt−1 + ηt et ut = aut−1 + ηt . Si ut0 6= Xt0 , alors
0 < |ut0 − Xt0 | = |an | |ut0 −n − Xt0 −n | ,
∀n,
ce qui entraîne
lim sup |ut0 −n | = +∞
n→∞
ou
lim sup |Xt0 −n | = +∞,
n→∞
et contredit l’hypothèse que les 2 suites sont stationnaires, montrant
ainsi l’unicité de la solution stationnaire.
2. On a Xt = ηt + aηt−1 + · · · + ak ηt−k + ak+1 Xt−k−1 . Puisque |a| = 1,
Var Xt − ak+1 Xt−k−1 = (k + 1)σ 2 → ∞
quand k → ∞. En supposant (Xt ) stationnaire,
Var Xt − ak+1 Xt−k−1 = 2 {VarXt ± Cov (Xt , Xt−k−1 )} ,
et on aurait alors
lim |Cov (Xt , Xt−k−1)| = ∞.
k→∞
Ceci est impossible, car d’après l’inégalité de Cauchy-Schwarz,
|Cov (Xt , Xt−k−1 )| ≤ VarXt .
162
3. Le raisonnement du 1) montre que
n
∞
X
X
1
1
n→∞
vt (n) := −
ηt+k → vt = −
ηt+k
k
a
ak
k=1
k=1
presque sûrement et en moyenne quadratique. Puisque
vt (n) = avt−1 (n + 1) + ηt
pour tout n, (vt ) est une solution stationnaire (que l’on appelle anticipative, car fonction des valeurs futures du bruit) de l’équation AR(1).
L’unicité de la solution stationnaire se montre comme dans le 1).
4. La fonction d’autocovariance de la solution stationnaire est
∞
X
1
σ2
γ(0) = σ
=
,
a2k
a2 − 1
2
k=1
1
γ(h) = γ(h − 1) h > 0.
a
On a donc Eǫt = 0 et ∀h > 0
1
1
1
Cov(ǫt , ǫt−h ) = γ(h) − γ(h − 1) − γ(h + 1) + 2 γ(h) = 0,
a
a
a
ce qui permet de vérifier que ǫt est bien un bruit blanc.
1.10 Sur le graphe de gauche, on constate que plusieurs autocorrélations empiriques sont en dehors des bandes de significativité à 95 %, ce qui laisse penser
que la série n’est peut-être pas la réalisation d’un bruit blanc fort. En regardant le graphe de droite, le doute n’est plus permis : si la série observée
ǫ1 , . . . , ǫn était engendrée par un bruit blanc fort, il en serait de même pour
la série ǫ21 , . . . , ǫ2n recentrée. Ce n’est clairement pas le cas car des autocorrélations empiriques débordent très largement des bandes de significativité.
Par contre, il n’est pas exclu que la série soit un
√ bruit faible. On sait que la
formule de Bartlett. donnant les limites ±1.96/ n n’est pas valable pour un
bruit faible (voir exercices 1.6 et 1.8). D’autre part on sait que le carré d’un
bruit faible peut être corrélé (voir exercice 1.7).
Chapitre 2
2.1 Dans le cas (i) la condition de stationnarité stricte devient α + β < 1. Dans le
cas (ii), des calculs d’intégrale élémentaires montrent que la condition s’écrit :
r
r
β
3α
2
arctan
+ log(3α + β) < 2.
3α
β
163
2.2 Notons λ1 , . . . , λm les valeurs propres de A. Si A est digonalisable, il existe P
inversible et D diagonale telles que A = P −1 DP. Par suite, en choisissant
une norme multiplicative
log kAt k = log kP −1 D t P k ≤ log kP −1kkD t kkP k = log kP −1k+log kD t k+log kP k.
P
P
t
Pour la norme multiplicative kAk =
|aij | on a log kD t k = log m
i=1 λi . Le
résultat s’en déduit immédiatement.
Lorsque A est carrée quelconque, on peut utiliser la représentation de Jordan.
Notons ni la dimension de l’espace propre associé à λi . La représentation de
Jordan s’écrit A = P −1 JP où P inversible et J est la matrice bloc-diagonale
de blocs les m matrices Ji (λi ), de taille ni × ni , comportant la valeur λi
sur la diagonale, des 1 sur la sur-diagonale, et des 0 partout ailleurs. Par
suite At = P −1 J t P où J t est la matrice bloc-diagonale de blocs les matrices
Jit (λi ). On montre que Jit (λi ) = λti Pi (t) où Pi est un polynôme à coefficients
matriciels, de degré ni − 1. On conclut en utilisant la même norme que
précédemment.
P
2.3 On utilise la norme multiplicative kAk =
|aij |. Ainsi log kAzt k ≤ log kAk +
+
+
log kzt k, donc log kAzt k ≤ log kAk + log |zt |, qui admet une espérance finie
par hypothèse. Par suite γ existe. On a
!
t
t
Y
X
t
t
log (kAt At−1 . . . A1 k) = log kA k
zi = log kA k +
log |zi |
i=1
et donc
γ = lim p.s.
t→∞
i=1
!
t
X
1
1
log kAt k +
log |zi | .
t
t i=1
En utilisant (2.21) et le théorème ergodique, on obtient
γ = log ρ(A) + E log |zt |.
Par conséquent γ < 0 si et seulement si ρ(A) < exp (−E log |zt |) .
p
2.5 On a ǫt = ω + α1 ǫ2t−1 + α2 ǫ2t−2 ηt donc le moment d’ordre 2 s’écrit, sous la
condition α1 + α2 < 1
ω
Eǫ2t =
1 − α1 − α2
(voir le théorème 2.5 et sa Remarque 1). On a de plus, en utilisant la stationnarité stricte, qui résulte de la condition précédente,
Eǫ4t = µ4 E(ω + α1 ǫ2t−1 + α2 ǫ2t−2 )2
= µ4 {ω 2 + (α12 + α22 )Eǫ4t + 2ω(α1 + α2 )Eǫ2t + 2α1 α2 Eǫ2t ǫ2t−1 }.
164
Par ailleurs
Eǫ2t ǫ2t−1 = E(ω + α1 ǫ2t−1 + α2 ǫ2t−2 )ǫ2t−1 = ωEǫ2t + α1 Eǫ4t + α2 Eǫ2t−2 ǫ2t−1 ,
d’où l’on tire
(1 − α2 )Eǫ2t ǫ2t−1 = ωEǫ2t + α1 Eǫ4t .
En injectant cette relation dans la formule obtenue pour Eǫ4t on obtient,
après simplifications,
µ4 2
2
4
α1 (1 + α2 ) + α2 (1 − α2 )
Eǫt 1 −
1 − α2
2ω 2
2
= µ4 ω +
{α1 + α2 (1 − α2 )} .
(1 − α2 )(1 − α1 − α2 )
La condition cherchée s’obtient, après simplification, en exprimant que si
Eǫ4t < ∞, le terme entre crochets dans le membre de gauche de cette égalité
doit être strictement positif. On notera que la condition n’est pas symétrique
en α1 et α2 . La figure B.1 permet de visualiser la condition, représentée
comme la partie du quadrant positif située en dessous de la courbe. On
obtient alors
Eǫ4t =
µ4 ω 2 (1 + α1 + α1 α2 − α22 )
.
(1 − α1 − α2 ) [1 − α2 − µ4 {α12 (1 + α2 ) + α22 (1 − α2 )}]
α1
0.5
0.4
0.3
0.2
0.1
α2
0.1
0.2
0.3
0.4
0.5
Fig. B.1 – Région d’existence du moment d’ordre 4 du modèle ARCH(2) (pour µ4 = 3).
2.6 On a vu que (ǫ2t ) admet la représentation ARMA(1,1)
ǫ2t − (α + β)ǫ2t−1 = ω + νt − βνt−1 ,
165
où νt = ǫ2t − E(ǫ2t |ǫt−1 ) est un bruit blanc (faible). La fonction d’autocorrélation de ǫ2t satisfait donc
ρǫ2 (h) = (α + β)ρǫ2 (h − 1),
(B.1)
∀h > 1.
En utilisant la représentation MA(∞)
ǫ2t
∞
X
ω
=
+ νt + α
(α + β)i−1 νt−i ,
1−α−β
i=1
on obtient
γǫ2 (0) =
Eνt2
1+α
2
∞
X
(α + β)
2(i−1)
i=1
et
γǫ2 (1) =
Eνt2
2
α + α (α + β)
∞
X
(α + β)
!
=
2(i−1)
i=1
Eνt2
!
=
1+
Eνt2
α2
1 − (α + β)2
α2 (α + β)
α+
.
1 − (α + β)2
On en déduit l’autocorrélation d’ordre 1 :
ρǫ2 (1) =
α (1 − β 2 − αβ)
.
1 − β 2 − 2αβ
Les autres autocorrélations s’obtiennent à partir de (B.1) et de ρǫ2 (1).
Pour déterminer les autocovariances, il reste à calculer Eνt2 = E(ǫ2t − σt2 )2 =
E(ηt2 − 1)2 Eσt4 =2Eσt4 , ce que l’on obtient par
Eσt4 = E(ω + αǫ2t + βσt2 )2
= ω 2 + 3α2 Eσt4 + β 2 Eσt4 + 2ω(α + β)Eσt2 + 2αβEσt4
ω
ω 2 + 2ω(α + β) 1−α−β
ω 2 (1 + α + β)
=
=
.
1 − 3α2 − β 2 − 2αβ
(1 − α − β)(1 − 3α2 − β 2 − 2αβ)
2.7 Pour tout ǫ > 0 on a, en remarquant que la fonction f (t) = P (t−1 |X1 | > ǫ)
est décroissante,
∞
X
n=1
∞
X
P n |Xn | > ǫ =
P n−1 |X1 | > ǫ
−1
≤
=
n=1
Z
∞
Z0 ∞
0
P t−1 |X1 | > ǫ dt
P ǫ−1 |X1 | > t dt = ǫ−1 E|X1 | < ∞.
166
Le lemme de Borel-Cantelli permet de conclure à la convergence.
Soit maintenant (Xn ) une suite iid de densité f (x) = x−2 1x≥1 . On a pour
tout K > 0,
∞
∞
X
X
1
−1
P (n Xn > K) =
= +∞.
nK
n=1
n=1
Les événements {n−1 Xn > K} étant indépendants, on peut utiliser la réciproque du lemme de Borel-Cantelli : l’évènement {n−1 Xn >
K pour une infinité de n } a pour probabilité 1. Donc, avec probabilité 1,
la suite (n−1 Xn ) ne tend pas vers 0.
2.8 Remarquons d’abord que les r − 1 dernières lignes de Bt A sont les r − 1
premières de A, quelle que soit A de taille adéquate. Ceci implique que les r−1
dernières lignes de E(Bt A) sont les r −1 dernières de E(Bt )E(A). On montre
de plus, par récurrence sur t, que la i-ème ligne ℓi,t−i de Bt . . . B1 est une
fonction mesurable des ηt−j , pour j ≥ i. La première ligne de Bt+1 Bt . . . B1
est donc de la forme a1 (ηt )ℓ1,t−1 + · · · + ar (ηt−r )ℓr,t−r . Puisque
E{a1 (ηt )ℓ1,t−1 +· · ·+ar (ηt−r )ℓr,t−r } = Ea1 (ηt )Eℓ1,t−1 +· · ·+Ear (ηt−r )Eℓr,t−r
2.9
la première ligne de EBt+1 Bt . . . B1 est donc le produit de la première ligne
de EBt+1 et de EBt . . . B1 , ce qui permet de conclure.
(K)
1. La première convergence découle du fait que, à t fixé, la suite z t
K
converge p.s. (vers z t ). On en déduit que
(K)
kz t
(K−1)
− zt
k → 0 p.s.
Pour la seconde convergence on applique le théorème de convergence
dominée. On a
s
(K)
(K−1) s
(K)
(K−1)
k ≤ E kz t k + kz t
k
Ekz t − z t
(K)
(K−1) s
≤ Ekz t ks + Ekz t
k < ∞.
La première inégalité utilise (a + b)s ≤ as + bs pour a, b ≥ 0 et s ∈]0, 1].
La seconde inégalité découle de Eǫ2s
t < ∞. D’où la propriété.
(K)
(K−1)
2. On a z t − z t
= At At−1 . . . At−K+1 bt−K . La convergence découle
de la n
question précédente eto de la stricte stationnarité, à K fixé, de la
(K)
(K−1)
, t∈Z .
suite z t − z t
3. On a
kXn Y ks =
(
X
i,j
|Xn,ij Yj |
)s
≥ |Xn,i′j ′ Yj ′ |s
167
pour tout i′ = 1, . . . , ℓ, j ′ = 1, . . . , m. Par suite, d’après l’indépendance
entre Xn et Y , E|Xn,i′j ′ Yj ′ |s = E|Xn,i′ j ′ |s E|Yj ′ |s → 0 p.s. quand n → ∞.
Or E|Yj ′ |s est un nombre strictement positif, d’où E|Xn,i′j ′ |s → 0 p.s.,
∀i′ , j ′ . Par suite, en utilisant à nouveau (a + b)s ≤ as + bs ,
EkXn ks = E
(
X
i,j
|Xn,ij |
)s
≤
X
i,j
E|Xn,ij |s → 0.
4. Remarquons que la question précédente ne permet pas de déduire directement de la convergence vers 0 de E(kAk Ak−1 . . . A1 b0 ks ) celle de
E(kAk Ak−1 . . . A1 ks ) car b0 a des composantes nulles. Pour k suffisamment grand on a cependant
E(kAk Ak−1 . . . A1 b0 ks ) = E(kAk Ak−1 . . . AN +1 Y ks )
où Y = AN . . . A1 b0 est indépendant de Ak Ak−1 . . . AN +1 . Le terme
général ai,j de AN . . . A1 est le terme (i, j) de la matrice AN multiplié par un produit de variables ηt2 . D’après l’hypothèse AN > 0, on
a donc ai,j > 0 p.s. pour tout i et tout j. Par suite la i-ème composante de Y vérifie Yi > 0 p.s. pour tout i. Donc EYis > 0. La
question précédente permet d’affirmer que E(kAk Ak−1 . . . AN +1 ks ) →
0 et, par stationnarité stricte, que E(kAk−N Ak−N −1 . . . A1 ks ) →
0 quand k → ∞. On peut conclure qu’il existe k0 tel que
E(kAk0 Ak0 −1 . . . A1 ks ) < 1.
5. Si α1 ou β1 est strictement positif, les éléments des deux premières
lignes du vecteur A2 b le sont également, ainsi que ceux des lignes q + 1
et q + 2. Par récurrence on montre facilement que Amax(p,q) b0 > 0 sous
cette hypothèse.
6. La condition AN b0 > 0 peut être assurée sans que α1 ou β1 soit strictement positif. Il suffit de considérer un ARCH(3) avec α1 = 0, α2 >
0, α3 > 0, pour lequel on vérifie facilement que A4 b0 > 0.
2.10 En utilisant la représentation AR(q) pour le processus (ǫ2t ), ainsi que le fait
que les autocorrélations de ǫ2t sont positives, on obtient
ρǫ2 (i) = α1 ρǫ2 (i−1)+· · ·+αi−1 ρǫ2 (1)+αi +αi+1 ρǫ2 (1)+· · ·+αq ρǫ2 (q−i) ≥ αi .
2.11 En posant a(z) = λ + (1 − λ)z 2 , on a
2
σt2 = a(ηt−1 )σt−1
= a(ηt−1 ) · · · a(η1 ) λσ02 + (1 − λ)σ02 η02 .
168
Quelle que soit la valeur de σ02 > 0, fixée ou même aléatoire, on a presque
sûrement
t−1
1
log σt2
t
=
1X
1
log λσ02 + (1 − λ)σ02 η02 +
log a(ηk )
t
t k=1
→ E log a(ηk ) < log Ea(ηk ) = 0
en utilisant la loi des grands nombres et l’inégalité de Jensen. On en déduit
que σt2 → 0 presque sûrement quand t → ∞.
Chapitre 3
3.1 Soit (Ft ) une suite croissante de tribus telle que ǫt ∈ Ft et E(ǫt |Ft−1 ) = 0.
Pour h > 0, on a ǫt ǫt+h ∈ Ft+h et
E(ǫt ǫt+h |Ft+h−1 ) = ǫt E(ǫt+h |Ft+h−1) = 0.
La suite (ǫt ǫt+h , Ft+h )t est donc une suite stationnaire d’accroissements de
martingale de carré intégrable. On a donc
L
n1/2 γ̃(h) → N (0, Eǫ2t ǫ2t+h ),
où γ̃(h) = n−1
Pn
t=1 ǫt ǫt+h .
1/2
n
Pour conclure
1/2
γ̃(h) − n
1
il suffit de remarquer que
−1/2
γ̂(h) = n
n
X
t=n−h+1
ǫt ǫt+h → 0
en probabilité (on a même convergence L2 vers 0).
3.2 Ce processus est une différence de martingale stationnaire dont la variance est
γ(0) = Eǫ2t =
Son moment d’ordre 4 vérifie
D’où
Eǫ4t = µ4 ω 2 + α2 Eǫ4t + 2αωEǫ2t .
Eǫ4t =
1
ω
.
1−α
µ4 (ω 2 + 2αωEǫ2t )
µ4 ω 2 (1 + α)
=
.
1 − µ4 α 2
(1 − α)(1 − µ4 α2 )
L
L
Si Xn → x, x constante, et Yn → Y , alors Xn + Yn → x + Y
169
De plus
Eǫ2t ǫ2t−1 = E(ω + αǫ2t−1 )ǫ2t−1 =
ω2
+ αEǫ4t .
1−α
On obtient donc, en utilisant l’exercice 3.1
ω 2(1 + αµ4 )
L
1/2
.
n γ̂(1) → N 0,
(1 − α)(1 − µ4 α2 )
3.3 On a
n1/2 ρ̂(1) =
n1/2 γ̂(1)
.
γ̂(0)
D’après le théorème ergodique, le dénominateur converge en probabilité (et
même p.s.) vers γǫ (0) = ω/(1 −nα) 6= 0. D’aprèso l’exercice 3.2, le numéraω 2 (1+αµ4 )
teur converge en loi vers une N 0, (1−α)(1−µ
. Le théorème de Cramér
2
4α )
2
entraîne alors
1/2
n
L
ρ̂(1) → N
(1 − α)(1 + αµ4 )
0,
(1 − µ4 α2 )
.
La variance asymptotique vaut 1 quand α = 0 (i.e. quand ǫt est un bruit
blanc fort). La figure B.2 montre la loi asymptotique des ACRE d’un GARCH
est parfois très différente de la loi asymptotique des ACRE d’un bruit blanc
fort.
3.4 L’hypothèse de plein rang colonne pour X implique que X ′ X est inversible.
En notant < ·, · > le produit scalaire associé à la norme euclidienne, on a
D
E
n
o
−1
′
′
′
Y − X θ̂n , X(θ̂n − θ) = Y X − X (X X) X X (θ̂n − θ) = 0
et
nQn (θ) = kY − Xθk2
D
E
= kY − X θ̂n k2 + kX(θ̂n − θ)k2 + 2 Y − X θ̂n , X(θ̂n − θ)
≥ kY − X θ̂n k2 = nQn (θ̂n ),
avec égalité si et seulement si θ = θ̂n , ce qui permet de conclure.
2
L
L
Si Yn → Y et Tn → t en probabilité, t constante, alors Tn Yn → Y t
170
6
5
4
3
2
1
0.1
0.2
0.3
0.4
0.5
α
√
nρ̂(1) pour l’ARCH(1) (3.39)
√
avec (ηt ) gaussien (trait plein), et la variance asymptotique de nρ̂(1) quand ǫt est un bruit
blanc fort (trait pointillé)
Fig. B.2 – Comparaison entre la variance asymptotique de
3.5 Le cas 3 n’est pas possible, sinon on aurait
ǫ2t < ǫ2t − ω̂ − α̂1 ǫ2t−1 − α̂2 ǫ2t−2
pour tout t, et par conséquent kY k2 < kY − X θ̂n k2 , ce qui n’est pas possible.
Sur les données, on obtient θ̂ = (1, −1, −1/2) d’où θ̂c 6= θ̂. L’estimateur
contraint doit donc coïncider avec l’un des trois estimateurs suivants : soit
celui contraint par α2 = 0, soit celui contraint par α1 = 0, ou soit celui
contraint par α1 = α2 = 0. L’estimateur contraint par α2 = 0 est θ̃ =
(7/12, −1/2, 0), et ne convient donc pas. L’estimateur contraint par α1 = 0
donne l’estimateur recherché θ̂c = (1/4, 0, 1/4).
3.6 L’estimateur des MCO de φ0 est, en introduisant une valeur initiale X0 ,
n
φ̂n =
1X 2
X
n t=1 t−1
!−1
n
1X
Xt Xt−1
n t=1
et il vérifie
√
n
n(φ̂n − φ0 ) =
1X 2
X
n t=1 t−1
!−1
n
1 X
√
ǫt Xt−1 .
n t=1
171
Sous les hypothèses de l’énoncé, le théorème ergodique entraîne les convergences p.s
n
n
1X 2
X → EXt2 ,
n t=1 t−1
1X
Xt Xt−1 → EXt Xt−1 = φ0 EXt2
n t=1
et par suite la convergence p.s. de φ̂n vers φ0 . Pour la convergence l’hypothèse
Eǫ2t < ∞ suffit.
Si Eǫ4t < ∞ la suite (ǫt Xt−1 , Ft ) est une différence de martingale stationnaire,
ergodique et de carré intégrable de variance
2
Var(ǫt Xt−1 ) = E(σt2 Xt−1
).
On voit que cette espérance existe en développant le produit
! ∞
!2
q
X
X
2
σt2 Xt−1
= ω0 +
ǫ2t−i
φi0 ǫt−1−i .
i=1
i=0
Par suite le TCL pour différence de martingale stationnaire implique
n
1 X
L
2
√
ǫt Xt−1 → N (0, E(σt2 Xt−1
))
n t=1
d’où
√
L
2
n(φ̂n − φ0 ) → N (0, {E(Xt2 )}−2 E(σt2 Xt−1
)).
Lorsque σt2 = ω0 la condition Eǫ2t < ∞ suffit pour avoir la normalité asymptotique.
3.7 Pour tout κ > 0, le processus (Xtκ ) est ergodique et admet une espérance,
comme (Xt ). Cette espérance est finie puisque Xtκ ≤ κ et (Xtκ )− = Xt− . On
a donc, par le théorème ergodique standard
n
n
1X
1X κ
Xt ≥
Xt → E(X1κ ),
n t=1
n t=1
3.8
p.s. quand n → ∞.
Lorsque κ → ∞, la variable X1κ tend en croissant vers X1 . Donc par le
théorème
de Beppo-Levi E(X1κ ) converge vers E(X1 ) = +∞. Par suite
P
n
n−1 t=1 Xt tend p.s. vers l’infini.
1. Les hypothèses sur f et Θ assurent que Yt = {inf θ∈Θ Xt (θ)} est une
fonction mesurable de ηt , ηt−1 , . . . Par suite (Yt ) est stationnaire et ergodique.
172
2. Si l’on supprime la condition (3.40), la propriété peut n’être plus
vérifiée. Soit par exemple Θ = {θ1 , θ2 } et supposons que le couple
(Xt (θ1 ), Xt (θ2 )) soit iid de loi normale centrée, chaque composante étant
de variance 1, mais avec une covariance entre ces composantes différente selon que t est pair ou impair. Chacun des processus (Xt (θ1 ))
et (Xt (θ2 )) est bien stationnaire et ergodique (comme processus iid).
Pourtant Yt = infθ (Xt (θ)) = min(Xt (θ1 ), Xt (θ2 )) n’est pas stationnaire
car sa loi dépend de la parité de t.
3.9
1. En utilisant notamment la compacité de Θ et en montrant que
sup σ̃t2 − σt2 ≤ Kρt ,
θ∈Θ
nous avons
sup Qn (θ) − Q̃n (θ)
θ∈Θ
n
X (2σt2 + σ̃t2 − σt2 )(σt2 − σ̃t2 ) − 2ǫ2t (σt2 − σ̃t2 ) (θ)
= sup n−1 θ∈Θ
t=1
n
X
−1
≤ sup Kn
θ∈Θ
t=1
(2σt2 + Kρt )ρt + 2ǫ2t ρt → 0
(B.2)
presque sûrement. En effet, sur un ensemble de probabilité un, on a
pour tout ι > 0
−1
lim sup sup Kn
n→∞
θ∈Θ
−1
≤ ι lim sup n
n→∞
= ι
n
X
2
(2σt + Kρt )ρt + 2ǫ2t ρt
(B.3)
t=1
n X
Eθ0 sup σt2
θ∈Θ
t=1
+
sup σt2
θ∈Θ
+
ǫ2t
.
Eθ0 σt2 (θ0 )
Remarquons que Eǫ2t < ∞ , et
σ̃ 2t = ct + Bct−1 + · · · + B t−q−1 cq+1 + B t−q c̃q + · · · + B t−1 c̃1 + B t σ̃ 20 ,
entraînent que Eθ0 supθ∈Θ σt2 (θ) < ∞. La limite supérieure (B.3) étant
inférieure à tout nombre positif, elle est nulle.
2. Remarquons que νt := ǫ2t −σt2 (θ0 ) = ǫ2t −Eθ0 (ǫ2t |ǫt−1 , . . . ) est l’innovation
forte de ǫ2t . On a donc orthogonalité entre νt et toute variable intégrable
173
et mesurable par rapport à la tribu engendrée par {ǫu , u < t}. On en
déduit que le critère asymptotique est minimisé en θ0 :
2
lim Qn (θ) = Eθ0 ǫ2t − σt2 (θ0 ) + σt2 (θ0 ) − σt2 (θ)
n→∞
2
= lim Qn (θ0 ) + Eθ0 σt2 (θ0 ) − σt2 (θ) + 2Eθ0 νt σt2 (θ0 ) − σt2 (θ)
n→∞
2
= lim Qn (θ0 ) + Eθ0 σt2 (θ0 ) − σt2 (θ) ≥ lim Qn (θ0 ),
n→∞
n→∞
avec égalité si et seulement si σt2 (θ) = σt2 (θ0 ) Pθ0 -presque sûrement,
c’est-à-dire θ = θ0 (d’après A3 et A4, voir la preuve du théorème 3.3).
3. On conclut à la convergence de θ̂n comme dans le d) du théorème 3.3, en
utilisant un argument de compacité et en montrant, grâce au théorème
ergodique, qu’il existe un voisinage V (θ1 ) de tout point θ1 tel que
si θ1 ∈ Θ,
θ1 6= θ0 ,
lim inf inf Q(θ) > lim Q(θ0 )
n→∞ θ∈V (θ1 )
n→∞
p.s.
4. Puisque tout ce qui vient d’être énoncé reste valable lorsque Θ est remplacé par n’importe quel compact plus petit contenant θ0 , par exemple
Θc , nous avons également convergence forte de θ̂nc vers θ0 .
3.10 On sait que θ̂n minimise sur Θ
−1
l̃n (θ) = n
n
X
ǫ2t
+ log σ̃t2 .
2
σ̃
t=1 t
Pour tout c > 0, il existe θ̂n∗ tel que σ̃t2 (θ̂n∗ ) = cσ̃t2 (θ̂n ) pour tout t ≥ 0.
Notons que θ̂n∗ 6= θ̂n si et seulement si c 6= 1. Par exemple, pour un modèle
GARCH(1,1), si θ̂n = (ω̂, α̂1 , β̂1 ) on a θ̂n∗ = (cω̂, cα̂1 , β̂1 ). Soit f (c) = l̃n (θ̂n∗ ).
Le minimum de f est obtenu en un seul point
−1
c=n
n
X
t=1
ǫ2t
σ̃t2 (θ̂n )
.
Pour cette valeur c, on a θ̂n∗ = θ̂n . Par suite c = 1 avec probabilité 1, ce qui
prouve le résultat.
3.11
1. Le premier résultat est direct, pour le second il suffit de montrer que
ǫ2t → ∞ p.s. lorsque γ > 0.
2. Le résultat s’obtient en appliquant le théorème central limite de Lindeberg.
174
3. En utilisant la convergence de ǫ2t−1 vers +∞,
n
n
1 X ∂2
1X 2
ℓ
(α
)
=
(2ηt − 1)
t
0
n t=1 ∂α2
n t=1
ǫ2t−1
1 + α0 ǫ2t−1
2
→
1
α02
p.s..
4. D’après le fait que ∂ 2 σt2 (α)/∂α2 = ∂ 3 σt2 (α)/∂α3 = 0, on a
3
3 2
2
2
∂
(1
+
α
ǫ
)η
ǫ
0
t−1 t
t−1
2
∂α3 ℓt (α) = 2 − 6 1 + αǫ2
1 + αǫt−1 t−1
n
α0 2 o 1
≤
2+6 1+
ηt
.
α
α3
5. La dérivée du critère s’annule en α̂nc . Un développement limité de cette
dérivée autour de α0 donne alors
n
n
√
1 X ∂
1 X ∂2
0 = √
ℓt (α0 ) +
ℓt (α0 ) n(α̂nc − α0 )
2
n t=1 ∂α
n t=1 ∂α
√
n
1 X ∂3
n(α̂nc − α0 )2
∗
+
ℓt (α )
n t=1 ∂α3
2
où α∗ est entre α̂nc et α0 . Le résultat se déduit facilement des questions
précédentes.
6. Lorsque ω0 6= 1, on a
∂
ℓt (α0 ) =
∂α
ǫ2t−1
ǫ2t
1 + α0 ǫ2t−1 1 + α0 ǫ2t−1
ǫ2t−1
1 − ηt2
+ dt ,
1 + α0 ǫ2t−1
1−
=
avec
dt =
ǫ2t−1 (1 − ω0 ) 2
η .
(1 + α0 ǫ2t−1 )2 t
Puisque dt → 0 p.s. quand t → ∞ la convergence en loi de la question
2 a toujours lieu. Par ailleurs
2
ǫ2t−1
∂2
ǫ2t
ℓt (α0 ) = (2
− 1)
∂α2
1 + α0 ǫ2t−1
1 + α0 ǫ2t−1
2
ǫ2t−1
2
= (2ηt − 1)
+ d∗t ,
1 + α0 ǫ2t−1
175
avec
d∗t
(ω0 − 1)ηt2
=2
(1 + α0 ǫ2t−1 )
ǫ2t−1
1 + α0 ǫ2t−1
2
= o(1) p.s.
ce qui implique que le résultat obtenu dans le 3) n’est pas changé. Il en
est de même pour la question 4) car
3
3 2
2
2
∂
(ω
+
α
ǫ
)η
ǫ
0
0
t−1 t
t−1
2
∂α3 ℓt (α) = 2 − 6 1 + αǫ2
1 + αǫt−1 t−1
n
α0 2 o 1
≤
2 + 6 ω0 +
ηt
.
α
α3
Finalement on peut facilement voir que le comportement asymptotique
de α̂nc (ω0 ) est le même que celui α̂nc (ω), quelle que soit la valeur fixée
pour ω.
7. En pratique ω0 n’est pas connu et il faut l’estimer, mais il n’est sans
doute pas possible d’estimer le paramètre (ω0 , α0 ) sans hypothèse de
stationnarité stricte. Par ailleurs, sous (3.42), le modèle ARCH(1) engendre des trajectoires explosives peu compatibles avec les séries financières couramment observées.
Chapitre 5
5.1 Les modèles estimés sur les séries de rendements {rt , t = 2, . . . 2122} et {rt , t =
2123, . . . 4245} ont les volatilités
(M1) :
σt2 =
2
2
0.098 + 0.087 rt−1
+ 0.84 σt−1
,
(0.015)
(0.012)
(0.02)
(M2) :
σt2 =
2
2
0.012 + 0.075 rt−1
+ 0.919 σt−1
.
(0.004
(0.009)
(0.009)
Notons θ(1) = (0.098, 0.087, 0.84)′ et θ(2) = (0.012, 0.075, 0.919)′ les paramètres des 2 modèles. Ces valeurs semblent très différentes pour les para(i)
mètres ω de β. Notons, par exemple, σβ la valeur estimée de l’écart-type
de l’estimateur de β pour le modèle Mi. On constate que les intervalles de
confiance
[ω (1) − 2σω(1) , ω (1) + 2σω(1) ] = [0.068, 0.129]
et
[ω (2) − 2σω(2) , ω (2) + 2σω(2) ] = [0.004, 0.020]
176
ne se recoupent pas. Il en est de même pour les intervalles
(1)
(1)
(2)
(2)
[β (1) − 2σβ , β (1) + 2σβ ] = [0.80, 0.88]
et
[β (2) − 2σβ , β (2) + 2σβ ] = [0.90, 0.94].
Sur le troisième graphique de la figure B.3 on a représenté, sous forme de
boîtes à moustaches, la distribution empirique des paramètres estimés θ̂(1)
de 100 simulations du modèle M1. L’écart θ(1) − θ(2) entre les paramètres
des modèles M1 et M2 est figuré sous forme d’un losange rouge, et apparaît
comme une valeur aberrante pour la distribution de θ̂(1) .
5.2 En utilisant la formule élémentaire Cdi = Cdi−1 (d − i + 1)/d + Cdi+1 (i + 1)/d,
on montre que IP′ π0 = π0 .
5.3 Soit i et j deux états distincts, et d(i) la période de l’état i. Si la chaîne
est irréductible il existe un entier m1 tel que p(m1 ) (i, j) > 0 et un entier
m2 tel que p(m2 ) (j, i) > 0. L’entier d(i) divise m1 + m2 car p(m1 +m2 ) (i, i) ≥
p(m1 ) (i, j)p(m2 ) (j, i) > 0. De même d(i) divise m1 +m+m2 pour tout m ∈ {m :
p(m) (j, j) > 0}. Alors m = m+m1 +m2 −(m1 +m2 ) = k1 d(i)−k2 d(i) = (k1 −
k2 )d(i), ce qui montre que d(i) divise m pour tout m ∈ {m : p(m) (j, j) > 0}.
Comme d(j) est le pgcd de {m : p(m) (j, j) > 0}, et que nous venons de
montrer que d(i) est un commun diviseur des éléments de cet ensemble, on
en déduit que d(i) ≤ d(j). Par symétrie, on a également d(j) ≤ d(i).
5.4 En partant de valeurs initiales pour les paramètres
π0 = {P (∆1 = 1), . . . , P (∆1 = d)}′ ,
p(i, j) = P (∆t = j | ∆t−1 = i)
ω = {ω(1), . . . , ω(d)}′ ,
l’algorithme consiste à
répéter jusqu’à convergence les étapes suivantes :
1. Poser π1|0 = π0 et
πt|t =
π
⊙ φ(ǫt )
t|t−1
,
1′ πt|t−1 ⊙ φ(ǫt )
πt+1|t = P′ πt|t ,
2. Calculer les probabilités lissées πt|n (i)
ǫ1 , . . . , ǫn ) en utilisant
πt−1|n (i) =
d
X
j=1
πt|t−1 (j)
for t = 1, . . . , n.
=
P (∆t
=
i
for t = n, n − 1, . . . , 2,
|
177
et πt−1,t|n (i, j) = P (∆t−1 = i, ∆t = j | ǫ1 , . . . , ǫn ) à partir de
πt−1,t|n (i, j) =
.
πt|t−1 (j)
3. Remplacer les précédentes valeurs des paramètres par π0
π1|n ,
Pn
Pn 2
ǫt πt|n (i)
t=2 πt−1,t|n (i, j)
p(i, j) = Pn
et ω(i) = Pt=1
.
n
t=2 πt−1|n (i)
t=1 πt|n (i)
5.5 La partie essentielle du code est la suivante :
# une iteration de l’algorithm EM
EM <- function(omega,pi0,p,y){
d<-length(omega)
n <- length(y) # y contient les n observations
vrais<-0
pit.t<-matrix(0,nrow=d,ncol=n)
pit.tm1<-matrix(0,nrow=d,ncol=n+1)
vecphi<-rep(0,d)
pit.tm1[,1]<-pi0
for (t in 1:n) {
for (j in 1:d) vecphi[j]<-{dnorm(y[t],
mean=0,sd=sqrt(abs(omega[j])))}
den<-sum(pit.tm1[,t]*vecphi)
if(den<=0)return(Inf)
pit.t[,t]<-(pit.tm1[,t]*vecphi)/den
pit.tm1[,t+1]<-t(p)%*%pit.t[,t]
vrais<-vrais+log(den)
}
pit.n<-matrix(0,nrow=d,ncol=n)
pit.n[,n]=pit.t[,n]
for (t in n:2) {
for (i in 1:d) {
pit.n[i,t-1]<- {pit.t[i,t-1]*sum(p[i,1:d]*
pit.n[1:d,t]/pit.tm1[1:d,t])}
} }
pitm1et.n<-array(0,dim=c(d,d,n))
for (t in 2:n) {
for (i in 1:d) {
for (j in 1:d) {
=
178
pitm1et.n[i,j,t]<-p[i,j]*pit.t[i,t-1]*pit.n[j,t]/pit.tm1[j,t]
} } }
omega.final<-omega
pi0.final<-pi0
p.final<-p
for (i in 1:d)
{
omega.final[i]<-sum((y[1:n]^2)*pit.n[i,1:n])/sum(pit.n[i,1:n])
pi0.final[i]<-pit.n[i,1]
for (j in 1:d) {
p.final[i,j]<-sum(pitm1et.n[i,j,2:n])/sum(pit.n[i,1:(n-1)])
} }
liss<-{list(probaliss=pit.n,probatransliss=pitm1et.n,vrais=vrais,
omega.final=omega.final,pi0.final=pi0.final,p.final=p.final)}
}
5.6 La dernière égalité du (2) de l’algorithme montre que πt−1,t|n (i0 , j0 ) = 0 pour
tout t. Le point (3) montre alors que p(i0 , j0 ) ≡ 0 dans toutes les étapes de
l’algorithme.
5.7 Considérons l’indice CAC 40 et l’indice SP 500 sur la période du 1 mars 1990
au 29 décembre 2006. Sur les rendements journaliers (en %), nous avons
ajusté le modèle HMM (5.2)-(5.3) avec d = 4 régimes, en utilisant le code
donné dans l’exercice 5.5. En prenant comme valeurs initiales des valeurs
proches de celles de la table 5.1 pour d = 4 et q = 0, mais en prenant garde
de ne mettre à zéro aucune probabilité de transition (voir l’exercice 5.6), on
obtient après environ 60 itérations EM les valeurs estimées pour le SP 500




0.981 0.019 0.000 0.000
0.26


 0.62 
 , P̂SP =  0.018 0.979 0.003 0.000 
ω̂SP = 
 0.000 0.003 0.986 0.011 
 1.28 
0.000 0.000 0.055 0.945
4.8
et pour le CAC 40

0.51
 1.19
ω̂SP = 
 2.45
8.4


,

P̂SP

0.993
 0.003
=
 0.000
0.004
Les probabilités estimées des régimes sont
π̂SP = (0.30, 0.32, 0.32, 0.06)′,
0.003
0.991
0.020
0.000
0.002
0.003
0.977
0.032

0.002
0.003 
.
0.003 
0.963
π̂CAC = (0.26, 0.49, 0.19, 0.06)′,
et les durées moyennes des 4 régimes - égales à 1/{1 − p(i, i)} - sont, en
arrondissant,
DSP = (53, 48, 71, 18)′,
DCAC = (140, 107, 43, 27)′.
179
Ainsi quand le CAC reste en moyenne 27 jours dans le régime le plus volatile,
à savoir le régime 4. La figure B.4 confirme que pour les 2 séries le régime
le plus volatile est toujours le moins persistent, avec cependant une longue
période de volatilité élevée entre le 27 juin 2002 et le 21 octobre 2002, soit
81 jours, pour le SP 500 et entre le 4 juin 2002 et le 8 novembre 2002, soit
113 jours, pour le CAC. Il est intéressant de constater que pour le modèle
du SP 500 les transitions se font systématiquement d’un régime à un régime
adjacent. Étant par exemple dans le régime 2, on peut soit rester dans ce
régime ou alors aller dans le régime 1 ou 3, mais la probabilité p(2, 4) d’aller
directement dans le régime 4 est nulle, approximativement. Le CAC peut par
contre transiter brutalement du régime 2 au régime 4.
5.8 La représentation (2.16), z t = bt + A0t z t−1 , reste valide en posant
2
)′ ∈ Rp+q ,
z t = (ǫ2t , . . . , ǫ2t−q+1 , σt2 , . . . , σt−p+1
bt = (ω(∆t )ηt2 , 0, . . . , ω, 0, . . . , 0)′ ∈ Rp+q ,

α1 (∆t )ηt2 · · · αq (∆t )ηt2 β1 (∆t )ηt2 · · · βp (∆t )ηt2

Iq−1
0
0
At = 
 α1 (∆t ) · · ·
αq (∆t )
β1 (∆t ) · · ·
βp (∆t )
0
Ip−1
0


.

La preuve du théorème 2.4 fonctionne parfaitement avec cette nouvelle suite
(At ), ce qui montre qu’il existe une solution strictement stationnaire ssi l’exposant de Lyapounov de (At ) est strictement négatif. La solution est alors
unique, non anticipative et ergodique, et prend la forme (2.18).
5.9 Le théorème 2.9 se généralise directement, et la condition nécessaire et suffisante de stricte stationnarité est
γ := E∆,η log
α(∆t )ηt2
+ β(∆t ) =
d
X
k=1
π(k)Eη log α(k)ηt2 + β(k) < 0.
Dans le cas ARCH(1) à d régimes, on obtient la CNS
d
X
k=1
π(k) log α(k) < −E log ηt2 .
5.10 Si (ǫt ) est une solution strictement stationnaire et non anticipative et si la
2
suite (∆t ) est iid alors α(∆t ) et β(∆t ) sont indépendants de ǫ2t−1 et de σt−1
.
2
2
Si en plus Eǫt < ∞ alors, en posant a(∆t , ηt ) = α(∆t )ηt + β(∆t ), on a
Eǫ2t = Eσt2 = Eω(∆t ) + {Ea(∆t , ηt )} Eσt2 .
180
Pour qu’il y ait une solution positive à cette équation il faut que
Ea(∆t , ηt ) = Eα(∆t ) + Eβ(∆t ) =
d
X
k=1
π(k) {α(k) + β(k)} < 1.
Inversement, sous cette condition le processus
(
)1/2
∞
X
ǫt = ω(∆t ) +
a(∆t−1 , ηt−1 ) . . . a(∆t−i , ηt−i )ω(∆t−i−1 )
ηt
i=1
est une solution strictement stationnaire et non anticipative qui vérifie
(
)
∞
X
i
Eǫ2t = Eω(∆t ) 1 +
{Ea(∆t , ηt )} < ∞.
i=1
5.11 Utilisant la relation élémentaire log x ≤ x − 1, on a
(k+1)
(k)
(k)
(k)
0 ≤ Q(θ(k+1) , π0
|θ(k) , π0 ) − Q(θ(k) , π0 |θ(k) , π0 )
Lθ(k+1) ,π(k+1) (ǫ1 , . . . , ǫn , e1 , . . . , en )
X
0
=
log
L
(k) (ǫ1 , . . . , ǫn , e1 , . . . , en )
n
θ (k) ,π
(e1 ,...,en )∈E
≤
×IPθ(k) ,π(k) (∆1 = e1 , . . . , ∆n = en | ǫ1 , . . . , ǫn )
0
(
Lθ(k+1) ,π(k+1) (ǫ1 , . . . , ǫn , e1 , . . . , en )
X
0
Lθ(k) ,π(k) (ǫ1 , . . . , ǫn , e1 , . . . , en )
(e1 ,...,en )∈E n
×
=
0
0
−1
)
Lθ(k) ,π(k) (ǫ1 , . . . , ǫn , e1 , . . . , en )
0
Lθ(k) ,π(k) (ǫ1 , . . . , ǫn )
0
Lθ(k+1) ,π(k+1) (ǫ1 , . . . , ǫn ) − Lθ(k) ,π(k) (ǫ1 , . . . , ǫn )
0
0
Lθ(k) ,π(k) (ǫ1 , . . . , ǫn )
,
0
d’où le résultat.
5.12 Il suffit de raisonner conditionnellement à des variables initiales ǫ20 , . . . , ǫ21−q ,
les équations (5.12), (5.9)-(5.10), (5.13)-(5.15), et (5.16)-(5.18) restent
valables
en remplaçant
φk(ǫt ) par la densité φk (ǫt |ǫt−1 , . . . , ǫt−q ) d’une
Pq
2
N 0, ω(k) + i=1 αi (k)ǫt−i (et en remplaçant la notation M(ǫt ) par
M(ǫt |ǫt−1 , . . . , ǫt−q )).
L’algorithme EM ne peut être généralisé simplement car la maximisation de
(5.19) est remplacée par celle de
a1 = a1 (ω, α, β) =
d X
n
X
i=1 t=1
log φi (ǫt |ǫt−1 , . . . , ǫt−q ) 1{∆t =i} ,
181
n’a pas de solution explicite de la forme (5.22), mais nécessite l’utilisation
d’un algorithme d’optimisation.
5.13 Il est utile de comparer les expressions de la volatilité en fonction du passé
infini des ǫt et de ∆t . On supposera que les conditions d’existence de ces
représentations sont vérifiées. Pour le modèle du cours (en notant ht la volatilité afin de la distinguer de celle de l’exercice) on a
ht = ht (∆t ) = ω(∆t ) + α(∆t )ǫ2t−1 + β(∆t )ht−1 (∆t−1 )
et par suite
ht = ω(∆t ) + α(∆t )ǫ2t−1 +
∞
X
i=0
β(∆t ) . . . β(∆t−i ){ω(∆t−i−1 ) + α(∆t−i−1 )ǫ2t−i−2 }
(c’est la variance de ǫt conditionnelle à son passé et à tout le passé (et présent)
de ∆t ). Pour le modèle de l’exercice,
2
σt2 = σt2 (∆t ) = ω(∆t ) + α(∆t )ǫ2t−1 + β(∆t )σt−1
(∆t )
d’où
σt2 (∆t ) = {1 − β(∆t )}−1 ω(∆t ) + α(∆t )
∞
X
β(∆t )i ǫ2t−i−1
i=0
(c’est la variance de ǫt conditionnelle à son passé et à ∆t ). Dans le deuxième
cas la volatilité ne dépend, conditionnellement au passé de ǫt , que des coefficients du régime où la chaîne se trouve à la date t.
Notons que dans le modèle du cours, la volatilité à la date t est reliée à celle
à la date précédente, ht−1 (∆t−1 ). Dans le nouveau modèle il n’en est rien car
2
σt−1
(∆t ) ne s’interprète pas comme une variance conditionnelle.
182
Première partie
5
−5
0
CAC 40
0
−5
5−Oct−92
28−Oct−97
26−Mar−93
(1)
distribution de θ^ et θ(2) − θ(1) (losange)
10
12
^ (1)
Distribution de β − β(1)et β(2) − β(1) (ligne verticale)
4
6
densité
8
0.05
0.00
0
2
−0.05
CAC 40
5
Seconde partie
^ (1) − ω(1)
ω
^ (1) − α(1)
α
^ (1)
β − β(1)
−0.10
−0.05
0.00
0.05
0.10
Fig. B.3 – Le paramètre θ (1) (respectivement θ (2) ) est celui d’un GARCH(1,1) ajusté à
la série des rendements de l’indice CAC 40 pour la période du 1 mars 1990 au 3 septembre
1998 (respectivement du 4 septembre 1998 au 29 décembre 2006). Les boîtes à moustaches
représentent la distribution empirique des paramètres estimés θ̂ (1) de 100 simulations du
modèle ajusté à la première partie du CAC.
183
0
−5
SP 500
5
Rendements du SP 500
15−Nov−91
27−Oct−97
4−Jan−00
19−Jul−02
0
−5
CAC 40
5
Rendements du CAC 40
19−Aug−91
17−Sep−98
11−Sep−01
Fig. B.4 – Rendements de l’indice CAC 40 et de l’indice SP 500 pour la période du 1
mars 1990 au 29 décembre 2006, avec ±2 fois l’écart-type du régime dont la probabilité
lissée est maximale.
Annexe C
Problèmes
ENSAE - 3ème année, DEA
Mars 2004
Examen
Durée : deux heures. Sans document.
Problème : Soit (ηt ) une suite de variables indépendantes de même loi (iid), telle
que E(ηt ) = 0, Var(ηt ) = 1, E(ηt4 ) = µ4 . Soit (at ) une suite de variables iid,
indépendante de la suite (ηt ), prenant les valeurs 0 et 1, telle que
P [at = 1] = p,
On considère le modèle :
P [at = 0] = 1 − p,
0 ≤ p ≤ 1.
∀t ∈ Z,
ǫt = {σ1t at + σ2t (1 − at )}ηt ,
2
2
σ1t
= ω1 + α1 ǫ2t−1 , σ2t
= ω2 + α2 ǫ2t−1 ,
(C.1)
(C.2)
αi ≥ 0,
(C.3)
où
ωi > 0,
i = 1, 2.
On appelle non anticipatives les solutions telles que ǫt soit indépendante des variables futures ηt+h et at+h , h > 0.
1. Remarquer que le modèle contient l’ARCH(1) standard pour divers choix des
paramètres que l’on précisera.
185
Quels types de trajectoires peut-on obtenir avec la spécification introduite ici ?
2. Afin d’obtenir une condition de stationnarité stricte écrire (C.2) sous la forme
2
2 σ1,t−1
σ1t
ω1
Zt :=
=
+ At−1
(C.4)
2
2
σ2,t−1
σ2t
ω2
où At−1 est une matrice fonction de ηt−1 , at−1 , α1 , α2 que l’on précisera.
3. En déduire une condition de stationnarité stricte du processus (Zt ), puis du
processus (ǫt ) en fonction du coefficient de Lyapounov
1
γ = lim p.s. log kAt At−1 . . . A1 k
t→∞
t
de la suite (At ) (on justifiera l’existence de γ et on rappellera brièvement les étapes
de la démonstration).
Remarquer que At s’écrit comme le produit d’un vecteur colonne par un vecteur
ligne. En déduire une expression simple de la condition de stationnarité stricte, en
fonction d’une constante c que l’on précisera :
α1p α21−p < c.
Comment s’interprète cette condition ?
4. Donner une condition nécessaire d’existence d’une solution stationnaire au second ordre et non anticipative. On pourra admettre que cette condition implique
la stationnarité stricte. En déduire que la condition nécessaire de stationnarité au
second ordre est suffisante. Calculer la variance de ǫt .
5. On souhaite prévoir les valeurs futures de ǫt et de son carré. Exprimer en fonction
de ǫt−1 les prévisions E(ǫt+h |ǫt−1 , ǫt−2 , . . .) et E(ǫ2t+h |ǫt−1 , ǫt−2 , . . .), pour h > 0.
6. Quel est le coefficient de kurtosis conditionnel de ǫt ? Existe-t-il un modèle
ARCH standard dont (ǫt ) soit solution ?
7. En supposant la loi de ηt normale standard, écrire la vraisemblance du modèle.
On décide d’estimer dans un premier temps un modèle ARCH(1) standard, puis
le modèle (C.1)-(C.2). La série comporte 2000 observations. On admettra que les
estimateurs sont asymptotiquement normaux. Les résultats sont présentés dans le
tableau suivant (les écarts-types estimés sont entre parenthèses, Ln (·) désigne la
vraisemblance) :
Commenter ces résultats. Peut-on accepter le modèle général ?
(on a P [χ2 (3) > 7.81] = 0.05).
8. Discuter l’estimation du modèle par MCO (facultatif).
186
Problèmes
ω̂1
α̂1
ω̂2
α̂2
p̂
log Ln (θ̂)
ARCH(1)
0.002
0.6
-1275.2
(0.001) (0.2)
modèle (C.1)-(C.2) 0.001
0.10
0.005
1.02
0.72
-1268.2
(0.001) (0.03) (0.000) (0.23) (0.12)
Eléments de corrigé
1. On obtient l’ARCH(1) standard pour α1 = α2 , ∀p, pour p = 0, ∀α1 , α2 et pour
p = 1, ∀α1 , α2 . Les trajectoires sont susceptibles de présenter de brusques
variations de volatilité (par exemple si ω1 et ω2 sont très différents).
2. On obtient l’équation (6) avec
2
2
α1 ηt−1
a2t−1 α1 ηt−1
(1 − a2t−1 )
At−1 =
2
2
α2 ηt−1
a2t−1 α2 ηt−1
(1 − a2t−1 )
3. L’existence de γ suppose que E log+ kAt k < ∞. Cette condition P
est réalisée
car EkAt k < ∞, par exemple pour la norme définie par kAk =
|aij |. La
condition de stationnarité stricte s’obtient en suivant les étapes du cours, non
reprises ici. On obtient γ < 0. Sous cette condition la solution strictement
stationnaire de (6) s’écrit
!
∞
X
ω1
Zt = I +
At At−1 . . . At−i
ω2
i=0
On remarque que
At =
Donc
At At−1 =
2
ηt2 ηt−1
(α1 a2t
At At−1 . . . A1 =
η12
t−2
Y
i=0
α1 ηt2
α2 ηt2
+ α2 (1 −
2
ηt−i
(α1 a2t−i
(a2t
a2t ))
(1 − a2t )).
+ α2 (1 −
α1 ηt2
α2 ηt2
(a2t−1
a2t−i ))
α1 ηt2
α2 ηt2
(1 − a2t−1 )),
(a20
(1 − a20 )),
187
kAt At−1 . . . A1 k =
η12
t−2
Y
i=0
α1 ηt2
(a20
α2 ηt2
2
ηt−i
(α1 a2t−i +α2 (1−a2t−i )) (1 −
a20 ))
,
car α1 et α2 sont positifs. Par suite, d’après la loi forte des grands nombres,
t−1
t−2
1X
1X
2
log ηt−i
+
log(α1 a2t−i + α2 (1 − a2t−i ))
t i=0
t i=0
α1 ηt2
1
2
2
+ log (a
(1
−
a
))
2
0
0
α2 ηt
t
→ E log ηt2 + E log(α1 a2t + α2 (1 − a2t ))
1
log kAt At−1 . . . A1 k =
t
presque sûrement quand t → ∞. La deuxième espérance vaut p log α1 + (1 −
p) log α2 = log α1p α21−p . Par suite
γ<0
⇐⇒
α1p α21−p < exp{−E(log ηt2 )}.
On constate que la condition est vérifiée même si l’un des coefficients, par
exemple α1 , est grand, pourvu que la probabilité correspondante, p, ne soit
pas trop grande.
4. Si (ǫt ) est stationnaire au second-ordre on a
Eǫ2t = p(ω1 + α1 E(ǫ2t )) + (1 − p)(ω2 + α2 E(ǫ2t )).
La condition nécessaire est donc
α := pα1 + (1 − p)α2 < 1
et
Var(ǫt ) =
pω1 + (1 − p)ω2
.
1 − pα1 − (1 − p)α2
Inversement, supposons que cette condition est vérifiée et qu’elle implique
γ < 0. On a
α1 p α1 (1 − p)
E(At ) =
.
α2 p α2 (1 − p)
Cette matrice est de rang 1, admet donc une valeur propre nulle et une
valeur propre non nulle égale à sa trace, c’est-à-dire à α. Ce coefficient,
inférieur à 1 par hypothèse, est également le rayon spectral de E(At ). Par
suite l’espérance de la solutionnaire stationnaire Zt définie plus haut est finie
car EAt At−1 . . . At−i = {E(At )}i+1 .
188
Problèmes
5. E(ǫt+h |ǫt−1 , ǫt−2 , . . .) = 0. En remarquant que at (1 − at ) = 0 on a
ǫ2t+h
2
= [{ω1 a2t+h + ω2 (1 − a2t+h )} + {α1 a2t+h + α2 (1 − a2t+h )}ǫ2t+h−1 ]ηt+h
:= ω̃t+h + α̃t+h ǫ2t+h−1
= ω̃t+h + α̃t+h ω̃t+h−1 + · · · + α̃t+h . . . α̃t+1 ω̃t + α̃t+h . . . α̃t ǫ2t−1 .
En posant ω = E ω̃t et puisque α = E α̃t on en déduit que
E(ǫ2t+h |ǫt−1 , . . .)) = ω(1 + α + · · · + αh ) + αh+1 ǫ2t−1
pour h > 0.
6. Le coefficient de Kurtosis conditionnel est égal à
4
4
E(ǫ4t |ǫt−1 , . . .)
E(ηt4 ) pσ1t
+ (1 − p)σ2t
=
.
2
2 2
{E(ǫ2t |ǫt−1 , . . .)}2
{E(ηt2 )}2 (pσ1t
+ (1 − p)σ2t
)
Il estdépendant de t en général, ce qui montre qu’il n’existe pas de GARCH
standard solution de ce modèle (sauf dans les cas mentionnés en question 1.)
7. La densité conditionnelle de ǫt s’écrit
ǫ2t
1
ǫ2t
1
exp − 2 + (1 − p) √
exp − 2
lt = p √
2σ1t
2σ2t
2πσ1t
2πσ2t
et la log-vraisemblance de l’échantillon est le produit des lt pour t allant de
1 à n.
Les résultats d’estimation font apparaître des coefficients α1 et α2 estimés très
différents. Par ailleurs le test du rapport de vraisemblance revient à comparer
la différence des log-vraisemblances au quantile d’ordre 1 − α d’une loi du
χ2 (3). On a 2 × (1275.2 − 1268.2) > 7.81 donc on ne peut rejeter le modèle
général au seuil 95%.
189
Mars 2005
Examen
Problème : Soit (ηt ) une suite de variables indépendantes de même loi (iid), telle
que E(ηt ) = 0. Quand E|ηt |m < ∞, on pose µm = Eηtm . Considérons le modèle
t ∈ Z.
ǫt = ηt + bηt ǫt−1 ,
(C.1)
1. Stationnarité stricte
(a) Soit
Zt,n = ηt +
n
X
i=1
bi ηt ηt−1 · · · ηt−i .
Montrer que si E ln |bηt | < 0 alors la suite (|Zt,n |)n≥1 converge presque
sûrement. On pose alors
Zt = ηt +
∞
X
i=1
bi ηt ηt−1 · · · ηt−i .
(b) Montrer que si E ln |bηt | < 0 alors l’équation (C.1) admet une solution
strictement stationnaire non anticipative et ergodique.
(c) On a
∞
2
1
x
ln |x| √ exp −
dx = −0.635181.
2
2π
−∞
Z
En déduire la condition de stationnarité stricte quand ηt ∼ N (0, µ2).
2. Stationnarité au second ordre
(a) A quelle condition (Zt,n )n est-elle une suite de Cauchy dans L2 ?
(b) Montrer que b2 µ2 < 1 entraîne E ln |bηt | < 0.
(c) Montrer que si b2 µ2 < 1 alors (ǫt ) = (Zt ) est la solution stationnaire au
second ordre de (C.1).
(d) On suppose que µ2 6= 0. Montrer que la condition b2 µ2 < 1 est également
nécessaire pour l’existence d’une solution nonanticipative stationnaire
au second ordre.
190
Problèmes
3. Propriétés des moments marginaux et conditionnels
On suppose que b2 µ2 < 1 et que (ǫt ) est la solution stationnaire au second
ordre de (C.1).
(a) Montrer que (ǫt ) est un processus GARCH faible dont on précisera les
ordres.
(b) Comparer la variance conditionnelle de (ǫt ), avec celle d’un ARCH(1)
fort. Le signe de ǫt−1 a-t-il un impact sur la volatilité à la date t ? Cette
propriété est-elle intéressante pour les séries financières ?
4. Estimation
On note b0 et µ02 la vraie valeur des paramètres b et µ2 . On suppose que
b20 µ02 < 1 et que ǫ1 , . . . , ǫn est une réalisation stationnaire au second ordre
du modèle (C.1). On pose
ht = ht (b, µ2 ) = µ2 (1 + bǫt−1 )2
et
h0t = ht (b0 , µ02 ).
(a) Quelle est l’interprétation de νt = ǫ2t − h0t = (ηt2 − µ02 )(1 + b0 ǫt−1 )2 ?
(b) On suppose que Eǫ4t < ∞. Montrer que, presque sûrement,
n
2X
νt (h0t − ht ) = 0.
lim
n→∞ n
t=2
(c) On suppose que la loi de ǫt n’est pas concentrée en 1 ou 2 points (en
particulier µ2 6= 0). Montrer que
E(h0t − ht )2 = 0
si et seulement si
b = b0 et µ2 = µ02 .
(d) Sous les hypothèses précédentes, on considère le critère
n
2
1 X 2
Qn (b, µ2 ) =
ǫt − ht .
n t=2
Montrer que, presque sûrement,
lim Qn (b, µ2 ) ≥ lim Qn (b0 , µ02 )
n→∞
n→∞
avec égalité si et seulement si b = b0 et µ2 = µ02 . En déduire une
méthode d’estimation des paramètres.
(e) Décrire la méthode du quasi-maximum de vraisemblance.
5. Extension
Sans rentrer dans le détail des démonstrations, étendre les résultats obtenus
concernant la stationnarité et l’estimation au modèle
ǫt = ηt + b1 ηt ǫt−1 + · · · + bq ηt ǫt−q , t ∈ Z.
191
Eléments de corrigé
1. (a) D’après la règle de Cauchy, il suffit de montrer que presque sûrement
lim |bi ηt · · · ηt−i |1/i < 1.
i→∞
Or d’après la loi des grands nombres, la limite précédente vaut
(
!)
i
1 X
lim exp
log |bηt−k | + log |ηt |
= exp{E log |bηt |},
i→∞
i k=1
ce qui montre le résultat.
(b) Pour tout n on a
Zt,n = ηt + bηt Zt−1,n−1 .
Par passage à la limite Zt = ηt + bηt Zt−1 , ce qui montre que (ǫt ) = (Zt )
est une solution non anticipative de (C.1). Comme Zt = f (ηt , ηt−1 , . . . ) (où
f : R∞ → R est mesurable) et (ηt ) est stationnaire ergodique, (Zt ) est
également stationnaire
et ergodique.
√ηt (c) On a E log µ2 = −0.635181. La condition de stationnarité s’écrit donc
ou encore
√
ηt ηt √
E log b µ2 √ = log |b µ2 | + E log √ < 0,
µ2
µ2
|b|
√
µ2 < exp {0.635181} = 1.88736.
2. (a) Pour n < m, on a
E
( m
X
i=n
bi ηt · · · ηt−i
)2
=
m
X
i=n
b2i µi+1
→0
2
quand n, m → ∞ (i.e. la suite est de Cauchy) si et seulement si
b2 µ2 < 1.
(b) Si b2 µ2 < 1 alors, en utilisant l’inégalité de Jensen, on a
1
1
1
E log |bηt | = E log b2 ηt2 ≤ log Eb2 ηt2 = log b2 µ2 < 0.
2
2
2
192
Problèmes
(c) Quand b2 µ2 < 1, on a vu que la suite (Zt,n )n était de Cauchy. Elle converge
donc dans L2 vers une limite Z̃t . Elle converge également presque sûrement
vers Zt . Donc Zt = Z̃t presque sûrement, et EZt2 < ∞.
Pour montrer l’unicité de la solution, supposons qu’il existe deux solutions
stationnaires au second ordre (Zt ) et (Zt∗ ). Alors, pour tout n ≥ 1,
∗
∗
Zt − Zt∗ = bηt (Zt−1 − Zt−1
) = bn ηt ηt−1 · · · ηt−n+1 (Zt−n − Zt−n
).
D’après l’inégalité de Cauchy-Schwarz et l’inégalité triangulaire
n/2
E|Zt − Zt∗ | ≤ |b|n µ2 {kZ1 k2 + kZ1∗ k2 } .
Ceci étant vrai pour tout n, la condition b2 µ2 < 1 entraîne E|Zt − Zt∗ | = 0,
ce qui implique Zt = Zt∗ presque sûrement.
(d) Si ǫt est une telle solution alors
Eǫ2t = µ2 + b2 µ2 Eǫ2t ,
c’est-à-dire
1 − b2 µ2 Eǫ2t = µ2 .
Si b2 µ2 était > 1, le terme de gauche de l’inégalité précédente serait négatif,
alors que le terme de droite est strictement positif.
3. (a) Une telle solution est nonanticipative et vérifie
Eǫt = Eηt + bEηt Eǫt−1 = 0,
µ2
Eǫ2t =
,
1 − b2 µ2
Cov (ǫt , ǫt−h ) = 0, ∀h > 0.
C’est donc un bruit blanc. Montrons que (ǫ2t ) est un ARMA. On a, pour
k > 0, en utilisant l’indépendance entre ηt et ǫt−k et E(ηt2 ) = µ2 ,
Cov(ǫ2t , ǫ2t−k ) = Cov(ηt2 + 2bηt2 ǫt−1 + b2 ηt2 ǫ2t−1 , ǫ2t−k )
= 2bCov(ηt2 ǫt−1 , ǫ2t−k ) + b2 Cov(ηt2 ǫ2t−1 , ǫ2t−k )
= 2bµ2 Cov(ǫt−1 , ǫ2t−k ) + b2 µ2 Cov(ǫ2t−1 , ǫ2t−k )
Pour k > 1,
Cov(ǫt−1 , ǫ2t−k ) = E(ǫt−1 ǫ2t−k ) = E(ηt−1 (1 + bǫt−2 )ǫ2t−k ) = 0.
Par suite, pour k > 1,
Cov(ǫ2t , ǫ2t−k ) = b2 µ2 Cov(ǫ2t−1 , ǫ2t−k ),
193
ce qui montre que (ǫ2t ) admet une représentation ARMA(1,1). Finalement,
(ǫt ) admet une représentation GARCH(1,1) faible.
(b) Pour notre modèle la volatilité est
µ2 (1 + bǫt−1 )2 = µ2 + b2 µ2 ǫ2t−1 + 2bµ2 ǫt−1
tandis qu’elle est de la forme
ω + αǫ2t−1
pour un ARCH(1). Le signe de ǫt−1 est donc important. Si b < 0, un
rendement ǫt−1 négatif fera plus augmenter la volatilité que le rendement
−ǫt−1 > 0. Une telle asymétrie des chocs est observée sur les séries réelles,
mais n’est pas prise en compte par un modèle GARCH standard.
4. (a)Puisque h0t est l’espérance conditionnelle de ǫ2t sachant le passé de ǫt , νt
est l’innovation forte de ǫ2t .
(b) Le processus {νt (h0t − ht )}t est stationnaire ergodique, d’après des arguments déjà utilisés. Le théorème ergodique entraîne
n
2X
νt (h0t − ht ) = E(ηt2 − µ02 )Eh0t (h0t − ht ) = 0 p.s.
n→∞ n
t=2
lim
car h0t (h0t − ht ) est indépendante de (ηt2 − µ02 ), comme fonction mesurable
de {ηu , u ≤ t − 1}.
(c) On a E(h0t − ht )2 = 0 si et seulement si
h0t − ht = (µ02 b20 − µ2 b2 )ǫ2t−1 + 2(µ02 b0 − µ2 b)ǫt−1 + (µ02 − µ2 ) = 0 p.s.
Cette équation du second degré en ǫt−1 (ou en ǫt par stationnarité) admet
une solution si et seulement si les coefficients sont nuls, c’est-à-dire ssi b = b0
et µ2 = µ02 .
(d) En utilisant les deux dernières questions, presque sûrement,
n
2
1 X 2
lim Qn (b, µ2 ) = lim
ǫt − h0t + h0t − ht
n→∞
n→∞ n
t=2
=
≥
lim Qn (b0 , µ02 ) + E(h0t − ht )2 + 0
n→∞
lim Qn (b0 , µ02 )
n→∞
avec égalité si et seulement si b = b0 et µ2 = µ02 . Ceci suggère de rechercher
une valeur de b, µ2 qui minimise le critère Qn (b, µ2 ). C’est la méthode des
moindres carrés.
194
Problèmes
(e) Si ηt est de loi normale N (0, µ02) alors la loi de ǫt sachant {ǫu , u < t}
est N (0, h0t ). Etant donnée la valeur initiale ǫ1 , la quasi-log vraisemblance
de ǫ2 , . . . , ǫn est donc
n n
1X
ǫ2t
Ln (b, µ2 ) = − log 2π −
log ht (b, µ2 ) +
.
2
2 t=2
ht (b, µ2 )
Un estimateur du quasi-maximum de vraisemblance (QMV) satisfait
(b̂, µ̂2 ) = arg max Ln (b, µ2 ),
(b,µ2 )∈Θ
où Θ ⊂ R×]0, ∞[ est l’espace des paramètres. Si Θ est supposé compact,
puisque le critère est continu, il existe toujours au moins un estimateur QMV.
195
Janvier 2006
Problème : On considère le modèle :
ǫt = σt ηt
2
σt2 = ω(ηt−1 ) + αǫ2t−1 + βσt−1
(C.1)
où (ηt ) est une suite de variables iid (indépendantes de même loi), centrées, de
variance 1 et admettant des moments à l’ordre 4 au moins ; ω(·) est une fonction
à valeurs strictement positives. On pose ω = E{ω(ηt )}. Pour tout processus (Xt ),
on note Xt−1 la tribu engendrée par les variables Xt−i , i > 0.
1. Expliquer brièvement en quoi le modèle diffère du GARCH(1, 1) classique et
quel peut être son intérêt pour la modélisation des séries financières. Un
exemple de trajectoire obtenue en simulant ce modèle est donnée en fin
d’énoncé.
2. Stationnarité stricte
(a) Montrer, de manière détaillée, que sous l’hypothèse
E log a(ηt ) < 0,
où a est une fonction que l’on précisera, le modèle admet une unique
solution strictement stationnaire non anticipative.
(b) Montrer que si E log a(ηt ) > 0, le modèle n’admet pas de solution strictement stationnaire.
3. Stationnarité au second-ordre, Kurtosis
(a) Etablir la condition nécessaire et suffisante de stationnarité au secondordre et calculer E(ǫ2t ). En déduire que le processus a les mêmes propriétés du second-ordre qu’un GARCH(1,1) standard (i.e. avec ω(·)
constante) que l’on précisera.
(b) En admettant que les moments d’ordre 4 existent, comparer les coefficients de Kurtosis de ces processus. Commenter.
4. Asymétries
Donner un exemple de spécification de ω permettant de prendre en compte
la propriété d’asymétrie usuelle pour les séries financières.
196
Problèmes
5. Représentation ARMA
(a) On note νt = ǫ2t − E[ǫ2t | ǫt−1 ] l’innovation de ǫ2t . Montrer, en précisant
les hypothèses nécessaires, que
ǫ2t = ω + (α + β)ǫ2t−1 + ut ,
où ut = νt − βνt−1 + ω(ηt−1 ) − ω.
(b) Montrer que (ut ) est un processus MA(1).
En déduire que ǫ2t admet une représentation ARMA(1,1).
Diffère-t-elle de celle obtenue pour le GARCH(1, 1) standard obtenu
pour ω(ηt−1 ) = ω (on pourra considérer le cas β = 0) ?
6. Estimation et tests
(a) Remarquer, à l’aide de la question 5, que la fonction d’autocorrélation
ρ(h) du processus (ǫ2t ) vérifie : ρ(h) = αρ(h − 1), pour h > 1. En déduire un estimateur simple de α quelle que soit la spécification de ω. Les
valeurs suivantes ont été obtenues pour les premières autocorrélations
empiriques de (ǫ2t ) :
ρ̂(1) = 0.445,
ρ̂(2) = 0.219,
ρ̂(3) = 0.110,
ρ̂(4) = 0.056.
Proposer une estimation de α. Un modèle ARCH(1) standard (β = 0
et ω constante) est-il plausible pour ces données ?
(b) On suppose la fonction ω(·) paramétrée à l’aide d’un paramètre γ : par
2
exemple ω(ηt−1 ) = 1 + γηt−1
avec γ > 0. Il s’agit d’estimer θ = (γ, α, β)′
à partir d’observations ǫ1 , . . . , ǫn . Ecrire le critère du quasi-maximum de
vraisemblance, à partir de valeurs initiales pour les variables antérieures
à la date 1.
7. Extension
Examiner, sans rentrer dans les détails, comment sont modifiés les résultats
des questions précédentes si l’on remplace ω(ηt−1 ) par ω(ηt−k ), avec k > 1,
dans le modèle (C.1).
197
5
5
20
-5
-10
40
60
80
100
20
40
60
80
100
-5
-10
Fig. C.1 – Simulations du modèle (C.1) avec α = 0.2, β = 0.5 et ω(ηt−1 ) =
4
4 (figure de gauche), ω(ηt−1 ) = 1 + ηt−1
(figure de droite), pour la même suite de
variables ηt ∼ N (0, 1).

Modèles GARCH et à volatilité stochastique

Transcription

Documents pareils

N. Lahouel

Plan du cours - Département de mathématiques et de statistique

Daniel HERLEMONT chemin du Guerrier, 31450 Deyme FRANCE +33

Transformateur de log

M1 - Signaux aléatoires TD 1

CONTROLE SUR LES FONCTIONS LOGARITHMES PROC SUJET 1

Économétrie des Marchés Financiers - Projet Phase II

Détermination de E°(Ox/Red) à partir d`autres potentiels rédox

Exercices de conduction thermique : corrigés. Barre non isolée