UN ESSAI DE PREVISION NON-PARAMETRIQUE DE L`ACTION

Transcription

UN ESSAI DE PREVISION NON-PARAMETRIQUE DE L`ACTION
UN ESSAI DE PREVISION NON-PARAMETRIQUE DE
L’ACTION FRANCE TELECOM
Mohamed CHIKHI1 et Michel TERRAZA2
Décembre, 2002
Résumé
Nous étudions la puissance en terme de prévision des processus basés sur la
méthode du noyau en utilisant la version non paramétrique du critère « Final
Prediction error » pour identifier un processus fonctionnel. Cette identification
nécessite une sélection rigoureuse des coefficients de Markov et du choix de la
fenêtre qui détermine le degré de lissage de l’estimateur. Cette approche est
comparée avec les résultats de l’estimation de modèles intégrés fractionnaires.
Mots-clé : sélection des retards, erreur de prédiction finale, noyau, fenêtre,
processus autorégressif fonctionnel, prévision.
Abstract
We study the forecast’s power of the nonparametric processes based on the
kernel method by using the nonparametric version of Final Prediction error
criterion to identify a functional process. This identification requires the
selection of the Markov coefficients and the choice of the bandwidth, which
determines the degree of the estimator’s smoothing. This approach is compared
with the estimation results of the fractional integrated models.
Keywords: lag selection, final prediction error, kernel, bandwidth, functional
autoregressive process, forecast.
1
Docteur en Sciences Economiques, Université Montpellier I, Espace Richter, Avenue
de la Mer, BP 9606, 34054 Montpellier cedex 1. e-mail : [email protected]
2
Professeur de Sciences Economiques LAMETA/CNRS, Faculté des Sciences
Economiques, Espace Richter, Avenue de la Mer, BP 9606, 34054 Montpellier cedex 1.
E-mail : [email protected]
1
1
Introduction
Avec la reconnaissance de la complexité de la dynamique de nombreuses séries
financières, il est apparu nécessaire de recourir à de nouvelles procédures
économétriques pour modéliser les processus générateurs. Il en est ainsi de l’existence
de phénomènes de non-linéarité mis en évidence dans diverses études récentes [voir par
exemple Kyrtsou et Terraza (2000)]. Cependant, l’utilisation des méthodes
paramétriques dans ces cas montre la faible puissance des tests qu’elles utilisent pour
sélectionner les modèles.
Ces dernières années, le développement des méthodes de régression non
paramétriques donne une base théorique solide à l’analyse non linéaire des séries
comme l’indique Robinson (1983) dans l’introduction de son ouvrage. Elles peuvent
donc être considérées comme une alternative au problème de la prise en compte de la
non-linéarité dans les séries temporelles.
Les méthodes non paramétriques ont connu un essor important depuis les travaux de
Bosq (1979), Collomb (1980) et Robinson (1983). Leur efficacité pratique a été
analysée par Bosq et Lecoutre (1992), Härdle (1990), Gannoun (1991), Rosa (1993) et
Matzner-Lober (1997). En 1990, Auestad et Tjostheim les ont appliquées pour estimer
la moyenne et la variance conditionnelles d’un processus autorégressif non linéaire. Ils
choisissent les critères de la variance résiduelle et du FPE « Final Prediction Error »
pour déterminer leurs coefficients de Markov. Cheng et Tong (1992) proposent un
critère de validation croisée et Vieu (1995) celui de la validation croisée pénalisée.
Cependant, ce n’est qu’en 1998 que Tschernig et Yang suggèrent d’utiliser le critère
FPE non paramétrique corrigé en introduisant un nouveau terme dans le critère FPE
retenu par Auestad et Tjostheim (1990).
Notre article s’insère dans la lignée de ces travaux et s’intéresse plus
particulièrement aux comparaisons des performances prévisionnelles issues de modèles
paramétriques et non paramétriques.
Nous présentons dans la section 2 l’estimateur non paramétrique de NadarayaWatson (1964) et l’estimateur linéaire local du processus autorégressif fonctionnel de
Doukhan (1994). Nous proposons alors une procédure de sélection d’un modèle non
paramétrique (section 3) et nous l’appliquons à l’action France Télécom pour comparer
ses résultats en prévision avec ceux obtenus à partir de modèles paramétriques (section
4).
2
2
Estimateurs non paramétriques et la méthode du noyau
Le processus autorégressif non linéaire univarié {Yt }t ≥0 avec erreurs ARCH ( NAR-
ARCH ) peut s’écrire sous la forme :
Yt = f ( X t ) + σ 1 / 2 ( X t )ε t
(1)
Où X t = (Yt −i1 ,......., Yt −ik ) Τ est le vecteur transposé des variables retardées,
i1 < ....... < ik et ε i ~ IID(0,1) . Nous supposons que tous les retards i1 ,....., ik sont
nécessaires pour spécifier la fonction des régresseurs f (.) .
Les hypothèses concernant le processus (1) sont donnés par Doukhan (1994) et
Tschernig et Yang (1998) :
Pour tout entier M ≥ ik , le processus
(H1)
X M ,t = (Yt −1 ,....., Yt − M ) Τ est
strictement stationnaire et β − mélangeant avec β (n) ≤ c0 n − ( 2+δ ) / δ , δ > 0, c0 > 0 :
{
β (n) = E sup P( A ℜ kM ) − P ( A) : A ∈ ℜ ∞n + k
}
'
Où : ℜ tt est une σ -algèbre de X M ,t , X M ,t +1 ,......, X M ,t ' .
(H2)
la
distribution
stationnaire
du
processus
X M ,t
a
une
densité
µ M ( x M ), x M ∈ R M , continue. Si l’estimateur de Nadaraya-Watson est utilisé, µ M (.)
doit être continûment différentiable.
(H3) La fonction f (.) est deux fois continûment différentiable et la fonction σ (.)
est continue et positive.
(H4) Les quatre premiers moments de {ε t }t ≥ik sont finis.
(H5) K : R → R est un noyau positif symétrique et h = hn est un nombre positif
avec h → 0, nh k → ∞ quand n → ∞ .
Notons : K
2
2
= ∫ K 2 (u )du , σ K2 = ∫ K (u )u 2 du . Pour tout x ∈ R k , nous avons :
K h ( x) =
1
hk
k
xj
∏ K( h )
j =1
L’estimation de la fonction de la moyenne conditionnelle f (.) et de la fonction de la
volatilité σ (.) peuvent être réalisées au moyen de deux techniques : l’estimateur de
Nadaraya-Watson fˆ1 ( x) et l’estimateur linéaire local fˆ2 ( x) .
Soient :
X t = (Yt −i1 , Yt −i2 ,...., Yt −ik ) Τ = ( X t1 , X t2 ,....., X tk ) Τ
3
Y = (Yik , Yik +1 ,......, Yn ) Τ
et
Pour tout x ∈ R k , les estimateurs non paramétriques peuvent s’écrire sous la forme :
fˆ1 ( x) = ( Z 1T WZ1 ) −1 Z 1T WZ
fˆ ( x) = e Τ ( Z T WZ ) −1 Z T WZ
2
2
2
2
Z 1 = (1,.....,1)1T×( n −ik +1)
Où :
. . .
1 
 1

Z 2 = 

X
x
.
.
.
X
x
−
−
i
n

 k
T
e = (1 01×k )
T
n
1

W = diag  ' K h ( X i − x)
n
 i = ik
avec : n ' = n − ik + 1
La convergence et la normalité asymptotiques de l’estimateur de Nadaraya-Watson
des modèles AR-ARCH ont été proposées par Masry et Tjostheim (1995). En effet,
Härdle, Tsybakov et Yang (1996) ont dérivé le biais, la variance et la normalité
asymptotiques
des
processus
VAR
non
linéaires
avec
l’hétéroscédasticité
conditionnelle. Dans le cas univarié, nous avons :
{
}
{fˆ ( x) − f ( x) − h b ( x)}→ N (0,V ( x))
D
n ' h k fˆ1 ( x) − f ( x) − h 2 (bc ( x) + bι ( x)) →
N (0,V ( x))
n'hk
2
2
D
ι
(2)
(3)
quand n → ∞ , avec le biais asymptotique :
bc ( x) =
σ K2  2∇f ( x) Τ ∇µ ( x) 


2 
µ ( x)

bι ( x) =
σ K2
2
[
Tr ∇ 2 f ( x)
]
(4)
(5)
et la variance asymptotique :
V ( x) =
Où : K
2
2
σ ( x)
K
µ ( x)
2k
2
(6)
= ∫ K 2 ( x j )dx j et σ K2 = ∫ x 2j K ( x j )dx j
Le biais asymptotique de l’estimateur Nadaraya-Watson est plus compliqué que
celui de l’estimateur linéaire local. Les dérivées secondes directes de la fonction f (x)
dépendent de la fonction de la densité conditionnelle µ (x) et de ses dérivées
premières. Si le processus générateur des données (PGD) est linéaire, l’estimateur
linéaire local n’a aucun biais alors que l’estimateur de Nadaraya-Watson n’est pas biaisé
4
si le processus générateur des données est constant. Cependant, les deux estimateurs ont
la même variance asymptotique. Cette dernière dépend de la fonction de la volatilité
conditionnelle σ (x) et de la densité de x. Des estimateurs similaires et leur
comportement asymptotique ont été introduits pour estimer σ (x) [voir Masry et
Tjostheim (1994), Härdle, Tsybakov et Yang (1996)]. Ces estimateurs dont le taux de
convergence dépend de la dimension de la matrice des régresseurs peuvent aussi être
utilisés pour construire les intervalles de confiance de fˆi ( x) , i = 1,2 .
3
Identification non paramétrique des processus et prévision
Afin d’appliquer l’estimateur linéaire local du modèle NAR-ARCH, nous devons
spécifier la fenêtre h et le vecteur des retards i1 ,......, ik . Le choix de la fenêtre est
important et par là la qualité de l’estimateur puisqu’il détermine le niveau de lissage de
la fonction estimée. Nous utilisons souvent la méthode de validation croisée dont les
propriétés asymptotiques ont été étudiées par Vieu (1994) et Yao et Tong (1994). Une
approche alternative basée sur le critère FPE linéaire a été proposée par Tjostheim et
Auestad (1994) pour étudier l’estimateur non paramétrique de Nadaraya-Watson dont la
consistance a été démontrée par Tschernig et Yang (1996) en tenant compte à la fois de
l’estimateur de Nadaraya-Watson et de l’estimateur linéaire local. Ces derniers ont
fourni l’estimateur d’une fenêtre optimale et les taux des probabilités asymptotiques de
surestimation et de sous-estimation. Tschernig et Yang (1998) ont noté que ce critère
asymptotique donne une meilleure vitesse de convergence que le critère de validation
croisée. L’estimateur de Nadaraya-Watson a été utilisé dans de nombreuses procédures
de sélection des retards qui possède un taux de convergence très faible si la densité de la
variable retardée, particulièrement dans les processus non linéaires, n’est pas
suffisamment lisse. En revanche, l’estimateur linéaire local a besoin seulement de la
continuité de la densité pour un taux de convergence optimal [voir, par exemple, Härdle
et Al (1998)]. Les simulations de Tschernig et Yang (1998) confirment ce résultat et
nous reprenons, dans cette section, le critère de sélection non paramétrique proposé par
ces deux auteurs pour déterminer la fenêtre optimale.
{~ } des séries ayant même distribution que {Y } mais indépendantes de {Y } .
Soit Yt
t
t
Le critère FPE d’un estimateur fˆ de f est défini par :
{
}
~
~ 2 ~
FPE ( fˆ ) = lim E  Yt − fˆ ( X t ) w( X M ,t )


t →∞
5
(7)
~ ~
~
Où l’espérance est donnée sur toutes les variables Y0 , Y1 ,....., Yn , Y0 , Y1 ,......, Yn .
(A6) w(.) est continue positive et son support est compact, nous supposons aussi
que µ ( x M ) > 0 pour tout x M ∈ supp(w).
Dans le cas où {Yt } est un processus autorégressif linéaire stationnaire, fˆ est un
{~ }
régresseur linéaire et le critère FPE est aussi linéaire. Si Yt
est un processus
autorégressif asymptotiquement non linéaire stationnaire et fˆ est un estimateur non
paramétrique, le critère FPE est non linéaire. Pour cet estimateur, nous avons :
FPE a (h) = AFPE a (h) + ο (h 4 +
1
)
n hk
'
(8)
Où :
AFPE a (h) = A + b(h) B + c(h)C a
avec :
A = ∫ σ ( x) w( x M ) µ ( x M )dx M , B = ∫ σ ( x) w( x M ) µ ( x M ) / µ ( x)dx M ,
C a = ∫ ra2 ( x) w( x M ) µ ( x M )dx M
{
r ( x) = Tr {∇
}
f ( x)}
r1 ( x) = Tr ∇ 2 f ( x) + 2∇ T µ ( x)∇f ( x) / µ ( x)
2
2
Où :
b( n) = K
2k
2
n '−1 h − k , c(h) = σ K4 h 4 / 4
L’indice a = 1,2 indique respectivement l’estimateur constant local et l’estimateur
linéaire local. La première partie de la formule (8) présente l’espérance de la variance
{~ }
du bruit blanc des processus {Yt } et Yt . Le deuxième terme B donne l’espérance de la
variance de l’estimateur non paramétrique fˆa alors que la troisième partie présente
l’espérance de son biais. Nous rappelons que les deux estimateurs sont seulement
différents au niveau de leur biais d’estimation et par conséquent, les deux FPE
asymptotiques sont différents dans le terme du biais, les valeurs prévues sont
indépendantes de la fenêtre h et sont seulement déterminées par les propriétés du
processus générateur des données (PGD). L’espérance de la variance et le terme du
biais deviennent négligeables et AFPE (h) tend vers son minimum asymptotique
E (σ ( x)) quand h → 0 et nh k → ∞ pour n → ∞ . Cependant, pour un échantillon
donné de taille n, nous obtenons une expression qui détermine une fenêtre optimale
ha ,opt en minimisant la somme du deuxième et du troisième terme :
6
{
ha ,opt = k K
2k
2
Bn '−1C a−1σ K− 4
}
1 /( k + 4 )
(9)
et le critère AFPE minimal est :
AFPE a ,opt = A + (k −k /( k + 4 ) +
{
1 4 /( k + 4 )
k
) K
4
8k
2
B 4 n '−1C ak σ K4 k
}
1 /( k + 4 )
L’équation (9) est nécessaire pour obtenir l’estimateur de ha ,opt et l’expression (8)
contient des valeurs inconnues A, B et C. Il est nécessaire d’estimer ces trois valeurs
afin d’estimer le critère AFPE ainsi que la fenêtre optimale associée. Nous avons :
n
{
}
2
Aˆ a = n '−1 ∑ Yi − fˆa ( X i ) w( X M ,i )
i = ik
n
{
(10)
}
2
Bˆ a = n '−1 ∑ Yi − fˆa ( X i ) w( X M ,i ) / µˆ ( X i )
i = ik
(11)
Les estimateurs fˆa utilisent des fenêtres d’ordre n '−1 /( k + 4) et µˆ ( X i ) est un
estimateur à noyau de la densité. Sous les hypothèses (A1)-(A6), pour a = 1,2 quand
n → ∞,
{
Aˆ a = A + K
2k
2
}
− 2 K (0) k n '−1 h − k B + C aσ K4 h 4 / 4 +
ο {h 4 + n '−1 h − k }+ Ο P {n '−1 / 2 }
(12)
Nous notons qu’avec une fenêtre h de la forme cn −1 /( k + 4 ) , l’estimateur non
paramétrique Âa converge vers A et sa convergence est de l’ordre de
{
n si k ≤ 4 .
}
Dans tous les cas, le deuxième et le troisième terme seront de l’ordre Ο n '−1 / 2 .
L’estimateur non paramétrique du FPE asymptotique est :
AFPEa = Aˆ a + 2 K (0) k n '−1 ha−,kopt Bˆ a
(13)
Âa est estimée en utilisant la fenêtre optimale ha ,opt alors que B̂a est estimée en
utilisant n’importe quelle fenêtre de l’ordre n ' −1 /( k + 4 ) .
Tschernig et Yang (1996) ont montré que ces estimateurs non paramétriques sont
consistants. Cependant, la probabilité pour que le modèle correct soit surestimé est plus
grande que la probabilité pour que le modèle soit sous-estimé. Par conséquent, ils
suggèrent d’introduire un facteur de correction dans le critère AFPE a :


k 

CAFPE a = AFPE a 1 + 4 
'


 n k +4 
7
(14)
Où la correction dépend du nombre des retards k et du nombre d’observations n. Il
{
}
s’agit donc de choisir le sous-ensemble iˆ1 ,......, iˆkˆ sous les hypothèses (H1)-(H6), tel
que3 :
{
}
P kˆ = k , iˆl = i, l = 1,......, k n
→1
→∞
Les prédicteurs non paramétriques d’horizon h pour le processus NAR-ARCH sont
définis par:
f h ( x) = E ( Z t + h −1 | X t −1 = x)
(15)
Z t + h −1 = f h ( X t −1 ) + σ h ( X t −1 ).ε t ,h
σ h2 ( x) = var(Z t + h −1 | X t −1 = x)
où:
L’estimateur linéaire local fˆh ( x) de la fonction de prédiction f h (x) peut s’écrire:
(
T
fˆh ( x) = e T Z 2 h Wh Z 2 h
{
(
σˆ h ( x) = e T Z 2 Th Wh Z 2 h
)
−1
)
−1
T
Z 2 h Wh Z h
(16)
}
T
Z 2 h Wh Z h2 − fˆh2 ( x)
1/ 2
(17)
e T = (1 01×k ) ,
T
où:
Z2h
1
. . .
1



= 
 X k −1 − x . . . X n − h − x 
T
Wh = diag {K h ( X i −1 − x) / n}i = k
n − h +1
Z h = (Z k + h −1 . . . Z n )
T
et
4
Analyse empirique
Nous voulons vérifier quel est le gain de prévision obtenu lorsque la nature de la
dynamique sous-jacente est inconnue. Nous appliquons les méthodes proposées sur la
série de l’action France Télécom qui couvre la période du 05/01/1998 à 29/02/2000.
Cette série est caractérisée par la présence d’une racine unitaire (voir tableau 2).
L’hypothèse de normalité des rendements est clairement rejetée (cf. FIG. 3).
L’asymétrie constatée peut être le signe de la présence de non-linéarités dans le
processus d’évolution des rendements, les modèles linéaires gaussiens ne pouvant
générer que des comportements symétriques de la série. Le diagramme de dispersion de
la série (FIG. 4) ne se présente pas sous la forme d’un ellipsoïde régulier et confirme la
non-linéarité de la série.
3
Cf. Tschernig et Yang (1998), p.7
8
4.1 Modélisation paramétrique des rendements de l’action France
Télécom
Divers auteurs se sont attachés à tester si les séries financières exhibent ou non une
structure de dépendance à long terme. Nous avons retenu dans cette application sur la
série des rendements de l’action France Télécom diverses valeurs pour les ordonnées du
périodogramme afin d’encadrer la racine carrée du nombre d’observations. Le choix de
ces valeurs a pour objet d’examiner la stabilité des estimateurs lorsque le nombre
d’ordonnées du périodogramme varie. Nous utilisons les tests du coefficient
d’intégration fractionnaire avec plusieurs fenêtres spectrales pour le calcul du
périodogramme.
L’estimation du paramètre d’intégration fractionnaire est peu affectée par la
variation de la valeur correspondant aux ordonnées du périodogramme. La valeur
estimée de d associée à un nombre d’ordonnées n 0.55 est inférieure à celle
correspondant à n 0.45 (cf. tableau 3). Quelle que soit la fenêtre et la valeur du paramètre
m employées, l’existence d’une composante à long terme dans la série des rendements
de l’action France Télécom est généralement acceptée par le test du coefficient
d’intégration fractionnaire. Les valeurs de la statistique de Student sont supérieures à la
valeur critique 1.96. Ainsi, les résultats présentés montrent que l’estimateur de GewekePorter-Hudak (GPH) n’est pas significatif au seuil de 5% car cette méthode est moins
robuste comparativement aux différentes fenêtres spectrales (cf. FIG. 5).
Pour identifier notre modèle, nous choisissons un ensemble de valeurs de d. Pour
ˆ
chaque valeur de d nous calculons la série (1 − L) d Yt et nous estimons, au moyen des
méthodes usuelles des séries temporelles, les paramètres ARMA ainsi que la variance
résiduelle. Nous retenons alors comme valeurs initiales celles associées au modèle qui
minimise la variance résiduelle. La routine d’optimisation sera mise en œuvre en
maximisant la log-vraissemblance par rapport à tous les paramètres de la représentation
ARFIMA( p, d , q) . Nous retenons comme ordres maxima p = q = 3 et nous
choisissons le modèle minimisant les critères AIC et SIC.
L’estimation par cette procédure fait ressortir la présence d’une mémoire de long
terme (voir tableau 4). Nous remarquons que les résidus (voir FIG. 6) ne sont pas
caractérisés par une distribution gaussienne (voir aussi FIG. 7). Cette distribution est
asymétrique. Il est probable que cette asymétrie est le signe de la présence des nonlinéarités dans le processus des résidus. Le diagramme de dispersion (FIG. 8) confirme
9
ces résultats. La forme obtenue n’est pas un ellipsoïde régulier et la distribution est
typiquement non gaussienne.
Au regard du tableau 5, nous constatons que l’hypothèse de marche aléatoire est
clairement rejetée, la statistique de Portemanteau est strictement supérieure à la valeur
critique de χ 2 . Ces résidus présentent donc une structure de dépendance où la
statistique de Mizrach (tableau 6) nous a conduit à rejeter l’hypothèse nulle générateur
iid pour certaines dimensions de prolongement. Les résidus peuvent être modélisés par
des modèles de type ARCH car les résultats des tests ARCH LM sur les résidus du
modèle confirment la présence de l’hétéroscédasticité ( nR 2 = 17.82 > χ 2 (2) ). Les
séries financières sont en général caractérisées par une volatilité variable et par des
phénomènes d’asymétrie qui ne peuvent être pris en compte par les modélisations de
l’espérance conditionnelle. Par conséquent, la variance conditionnelle n’est plus
constante au cours du temps et dépend de ses valeurs passées. Afin de rendre compte de
ce phénomène, il est nécessaire d’estimer la volatilité des rendements de l’action France
Télécom par les modèles de type GARCH. La routine d’optimisation sera mise en œuvre
en maximisant la log-vraissemblance par rapport à tous les paramètres de la
représentation ARFIMA( p, d , q ) - GARCH ( p, q ) .
Nous remarquons que les coefficients des modèles ARFIMA-GARCH sont
significativement différents de zéro (cf. tableau 7) et l’hypothèse de marche aléatoire
pour les résidus est clairement acceptée car la statistique de Mizrach (tableau 8) nous a
conduit à accepter l’hypothèse nulle générateur iid pour toutes les dimensions de
prolongement. De plus, les résultats des tests ARCH LM sur les résidus du modèle
confirment l’absence de l’hétéroscédasticité ( nR 2 = 4.45 < χ 2 (2) ).
4.2 Modélisation non paramétrique des rendements de l’action France
Télécom
L’estimation d’un modèle non paramétrique nécessite la sélection du nombre de
retards et la fenêtre. Nous utilisons pour cela le critère non paramétrique CAFPE.
Dans notre étude, le nombre maximal de retards est cinq et le retard le plus large
considéré est huit. Il s’agit donc d’examiner 1 +
5
8 
j =1
 
∑  j 
combinaisons différentes de
retards pour la procédure de recherche. Tjostheim et Auestad (1994) suggèrent
d’additionner des retards dans le modèle dans le but de réduire le critère de sélection.
Leur idée est de choisir des retards qui minimisent le critère FPE asymptotique.
10
Précisément, dans la première étape, le retard le plus important iˆ1 est déterminé en
sélectionnant i1 tel que le critère est minimal pour le modèle à un retard. Si le critère est
comparable à la variance de la série, aucun retard significatif est inclus. Sinon, nous
recherchons iˆ2 dans la prochaine étape en fixant iˆ1 et en choisissant i 2 tel que le critère
est minimisé pour le modèle à deux retards. Encore, iˆ2 est inclus et la procédure est
poursuivie si le critère sur deux retards est plus petit que la valeur du critère sur un
retard. Nous utilisons alors la même procédure pour calculer iˆ3 ,...., iˆd où d ≤ 5 .
Pour chaque calcul du critère CAFPE « Corrected Asymptotic Final Prediction
Error », nous spécifions une fenêtre qui détermine le degré de lissage de l’estimateur,
une fenêtre trop large surlisse. Si h augmente, la variance de la série décroît mais le
biais croît. Il faut donc trouver un compromis tout en minimisant le critère CAFPE.
Pour le modèle constant local, l’estimation de l’espérance du biais nécessite l’estimation
de la dérivée première de la densité dans bc ( X t ) (4). Cependant, la fenêtre optimale
(9) est seulement estimée pour le modèle linéaire local. Pour estimer E (bι ( X t )) , nous
calculons les dérivées secondes de (5). Ces dernières peuvent être estimées en utilisant
l’estimateur quadratique local [cf. Tschernig et Yang (1996)] avec la fenêtre :
1
1
 4  k +12 − k +12
h = 2 var(Z t )
n

 k + 10 
Pour calculer les résidus et la densité qui sont employés pour estimer l’espérance de
la variance de l’estimateur non paramétrique fˆa , nous utilisons la fenêtre de Silverman
[voir Silverman (1986), eq. (4.14), p.86] qui est définie par :
1
1
 4  k +4 − k +4
hS = var(Z t )
 n
 k + 2
(18)
De plus, la méthode de recherche de grille « grid search » pour estimer la fenêtre
optimale est utilisée pour tout CAFPE a , a = 1,2 où la grille couvre l’intervalle
[0,2hS , 2hS ]
dans 24 pas. Nous choisissons une fenêtre optimale qui minimise le
critère CAFPE a et qui appartient à cet intervalle.
Afin d’estimer la série des rendements de l’action France Télécom, nous allons
utiliser le noyau gaussien puisque comme l’a noté Matzner-Lober (1997), l’utilisation
des autres noyaux nécessite celle d’une fenêtre beaucoup plus grande. La fonction du
poids w() est spécifiée de la façon suivante :
11
1  µˆ ( X t ) ≥ c
w( X t ) =   si 
0 µˆ ( X t ) < c
Où la constante c est déterminée telle que n '' observations sont exclues et n '' est
notée le plus grand nombre entier prochain de 0,05n ' .
Le tableau 4 donne les résultats de l’identification du processus des rendements de
l’indice France Télécom. Il contient aussi les retards sélectionnés, les valeurs du critère
et de la fenêtre optimale estimées. Les retards sont sélectionnés par rapport à leur
contribution pour minimiser le critère. Utilisant ce modèle non paramétrique, le critère
estimé est 0.9392 et les retards sélectionnés sont : 2, 5 et 8. Notons que l’estimateur
utilisé est celui de l’estimateur linéaire local. Nous remarquons que les résidus (cf. FIG.
9) ne sont pas caractérisés par une distribution gaussienne (voir aussi FIG. 10). Le
diagramme de dispersion (FIG. 11) confirme ces résultats où la forme obtenue n’est pas
un ellipsoïde régulier.
Au regard du tableau 5, nous rejetons clairement l’hypothèse de marche aléatoire, la
statistique de Portemanteau est strictement supérieure à la valeur critique de χ 2 . Ces
résidus présentent une structure de dépendance car la statistique de Mizrach (voir aussi
tableau 6) nous a conduit à rejeter l’hypothèse nulle générateur iid pour certaines
dimensions de prolongement. Les résidus peuvent être modélisés par les modèles ARCH
car les résultats des tests ARCH LM sur les résidus du modèle confirment la présence
d’un effet ARCH ( nR 2 = 19.82 > χ 2 (2) ). Nous estimons la volatilité des rendements
de l’indice France Télécom par la méthode du noyau. Le tableau 7 présente les résultats
d’estimation de la volatilité des rendements de l’indice France Télécom. Il contient les
retards sélectionnés, la valeur du critère et la fenêtre optimale. Nous avons utilisé aussi
l’estimateur linéaire local pour identifier la volatilité conditionnelle. Les retards sont
alors 4, 6 et le critère estimé associé est 0.989508. Nous pouvons remarquer que les
résidus du modèle ARCH ne présentent aucune corrélation sérielle (cf. tableau 8).
4.3 Comparaison des qualités prédictives des méthodes d’estimation
Cette section compare les performances de prévision entre l’approche paramétrique
standard et celle non paramétrique à partir de deux critères : l’erreur absolue moyenne
(EAM) et l’erreur moyenne quadratique (EMQ):
H
EAM = H −1 ∑ Zˆ n − H + h − Z n − H + h
h =1
12
(19)
H
EMQ = H −1 ∑ ( Zˆ n − H + h − Z n − H + h ) 2
(20)
h =1
Où:
h est l’horizon de la prévision,
H est le nombre total de prévision correspondant à l’horizon h sur la période
prévisionnelle,
Zˆ n (h) est la valeur de la prévision faite en n pour la date n + h .
Afin de comparer les performances prévisionnelles du prédicteur non paramétrique
aux prévisions issues d’un modèle paramétrique, le modèle a été réestimé jusqu’au 12
Mars 1999. Les prévisions ont été menées sur divers horizons. Les prévisions à très
court terme (prévisions à un pas) correspondent à des prévisions statiques. Pour tous les
autres horizons, les prévisions sont dynamiques. Notre objectif ici est donc de
déterminer si la prise en compte du modèle non paramétrique permet d’améliorer les
résultats par rapport au modèle paramétrique de type ARFIMA-GARCH.
Au regard du tableau 9, nous constatons en général de bonnes capacités
prévisionnelles du processus non paramétrique. Ce prédicteur résiste à la comparaison
avec le prédicteur paramétrique. Si nous analysons les résultats figurant dans ce tableau,
nous noterons que les valeurs des critères EMQ et EAM ont tendance à décroître lorsque
l’horizon de prévision augmente. Ceci s’explique par le fait que cette série est
caractérisée par une présence de dynamique à long terme. En effet, les mouvements de
cours apparaissent comme le résultat de chocs exogènes durables venant affecter le
marché. Nous pouvons remarquer aussi que les prévisions fournies par l’approche non
paramétrique sont relativement meilleures que celles d’un modèle paramétrique. Pour
l’horizon h = 240 , nous constatons que le modèle paramétrique de ARFIMA-GARCH
donne la meilleure prévision. Nous pouvons conclure que la qualité prédictive de
l’approche paramétrique est meilleure lorsque la série est caractérisée par une mémoire
longue. Par contre, le prédicteur non paramétrique est robuste si la série ne possède
qu’une composante à court terme. Si nous rejetons l’hypothèse de nullité du coefficient
d’intégration fractionnaire, nous sommes dans le cas d’un processus ARFIMA. La
structure de ce processus est déjà connue et dans ce cas, nous utilisons les méthodes
paramétriques usuelles pour identifier notre série. Si la structure du processus
stochastique n’est pas connue, nous pouvons essayer d’approcher le problème de
l’identification à partir d’une approche non paramétrique.
13
5 Conclusion
Dans cet article, nous avons essayé d’évaluer la puissance de prévision non
paramétrique et de comparer sa qualité de prévision par rapport aux méthodes
paramétriques standards. Les processus non paramétriques apparaissent comme
particulièrement pertinents pour la modélisation des séries temporelles. Les résultats
montrent qu’il existe un gain théorique attendu par la modélisation explicite du
processus non paramétrique grâce à l’utilisation de la méthode du noyau. L’étude que
nous avons menée ici témoigne en outre de l’intérêt pratique des processus non
paramétriques. Cette méthode offre une alternative sérieuse à l’hypothèse de nonlinéarité.
Les résultats de prévision non paramétrique sont relativement similaires à ceux
obtenus avec les méthodes paramétriques. Les gains constatés sur les horizons les plus
longs, semblent indiquer que le prédicteur paramétrique est plus robuste que celui non
paramétrique. Si la structure du processus stochastique n’est pas connue, nous utilisons
l’approche non paramétrique pour identifier la série.
Références
Akaike, H. (1970), Statistical Predictor Identification. Annals of Institute of Statistical
Mathematics, 22, 203-217
Auestad, B. and Tjostheim, D. (1990), Identification of nonlinear time series: first
order characterization and order determination, Biometrika, 77, 4, 669-687.
Bosq, D et Lecoutre, J.P. (1992), Analyse et prévision des séries chronologiques .
Masson, Paris
Bosq, D. (1979), Sur la prédiction non paramétrique de variables aléatoires et mesures
aléatoires, Pub. Interne, UER de Mathématiques, Lilles.
Bosq, D. (1996), Nonparametric statistics for stochastic processes. Lecture Notes in
statistics, 110, Springer-verlag.
Box, G and Pierce, D. (1970), Distribution of residual autocorrelation in
autoregressive integrated moving average time series models, J, Ann., Statist., 6, 461464
Brockmann, M. (1993), Locally adaptive bandwidth choice for kernel regression
estimators. J. Amer. Statist. Assoc., 88, 1302-1309.
Cheng, B. and Tong, H. (1992), On consistent nonparametric order determination and
chaos, Journal of The Royal Statistical Society, Series B, 54, 427-449.
14
Chiu, S.T. (1989), Bandwidth selection for kernel estimates with correlated noise.
Statist. Probab. Lett., 8, 347-354.
Collomb, G. (1980), Estimation non paramétrique de probabilités conditionnelles , C.R
. Acad. sci . Paris Sér I Math . 291, 427-430
Doukhan, P. (1994), Mixing: Properties and examples, New York; Springer-Verlag
Engle, R.F. (1982), Autoregressive Conditional Heteroscedasticity with Estimates of
the Variance of United Kingdom Inflation, Econometrica, 50(4) 987-1007.
Gannoun, A . (1991), Prédiction non paramétrique : médianogramme et méthode du
noyau en estimation de la médiane conditionnelle, Statistique et Analyse des données,
16(23), 23-42
Geweke, J et Porter-Hudak, S. (1983), The Estimation and Application of Long
Memory Time Series Models, Journal of Time Series Analysis, 4(4), 221-238.
Gouriéroux, C. (1992), Modèles ARCH et applications financières. Economica, Paris
Härdle, W and Chen, R. (1996), Nonparametric Time Series Analysis, a selective
review with examples. Proceedings of the 50th session of the ISI, Peking.
Härdle, W and Yang, L. (1996), Nonparametric autoregression with Multiplicative
Volatility and additive Mean, Discussion paper 96-62, SFB 373, Humboldt Universität
zu Berlin.
Härdle, W, Lütkepohl, H and Chen, R. (1996), A review of Nonparametric Time
Series Analysis, Discussion Paper 96-48, SFB 373, Humboldt Universität zu Berlin.
Härdle, W, Tsybakov, A. B and Yang, L. (1998), Nonparametric vector
autoregression, Journal of Statistical Planning and Inference 68, 221-245.
Härdle, W. (1990), Applied nonparametric regression. Cambridge university press,
Cambridge
Masry, E and Tjostheim, D. (1995), Nonparametric estimation and identification of
non-linear ARCH time series: strong convergence and asymptotic normality,
Econometric Theory, 11, 258-289.
Matzner-Lober, E . (1997), Prévision non paramétrique des processus stochastiques,
Thèse de doctorat de l’université de Montpellier II
Mizrach, B. (1995), A Simple Nonparametric Test for Independence.
Nadaraya, E.A. (1964), On estimating regression, Theory probability and their
applications, 9, 134-137
Robinson, P.M. (1983), Nonparametric estimators for time series. Journal of Time
series analysis, 4, 185-207
Rosa, M. A. C. (1993), Prévision robuste sous une hypothèse ergodique. Thèse de
Doctorat de l’université de Toulouse I.
15
Schwarz, G. (1978), Estimating the dimension of a Model. Annals of Statistics,
6,461-464.
Silverman, B.W. (1986), Density estimation for Statistics and data analysis. Chapman
& Hall.
Sowell, F. (1992), Maximum Likelihood estimation of Stationary Univariate
Fractionally Integrated Time Series Models. Journal of Econometrics, 53, 165-188.
Stute, W. (1986), On almost sure convergence of conditional empirical distribution
function, Ann. of Prob. , 14, 891-901
Tjostheim, D. and Auestad, B. (1994b), Nonparametric identification of nonlinear
time series: selecting significant lags,Journal of American Statistical Association, 89,
1410-1419.
Tschernig, R and Yang, L. (1998), Nonparametric Lag Selection for Time Series,
Journal of Time Series Analysis, forthcoming.
Tschernig,
R.
(1996),
Nonlinearities
in
German
Unemployment
Rates:
A
Nonparametric Analysis, SFB 373 discussion paper 45.
Ullah, A. (1988), Nonparametric estimation and hypothesis testing in econometric
models, Empec, 13, 223-249.
Vieu, P . (1995), order choice in nonlinear autoregressive models, statistics OPA , 26,
307-328.
Watson, G.S. (1964), Smooth regression analysis, Sankhyä, A26, 359-372
Yang, L and Tschernig, R. (1999), Multivariate bandwidth selection for local linear
regression, Journal of the royal statistical Society, Series B, 61, 793-815
Yang, L and Tschernig, R. (2000), Non- and semiparametric identification of seasonal
nonlinear autoregression models, SFB 373.
16
Statistiques de P.P sur la série au niveau
Statistiques de P.P sur les rendements de
Le type de
l’action France Télécom
modèles
1%
5%
10%
1%
5%
10%
Modèle sans
-2.5695
-1.94
-1.6159
-2.5695
-1.94
-1.61
constante ni
(2.873)
(2.873)
(2.873)
(-21.085)
(-21.085)
(-21.085)
Modèle avec
-3.4448
-2.8672
-2.5698
-3.4448
-2.8672
-2.5698
constante
(1.406)
(1.406)
(1.406)
(-12.304)
(-12.304)
(-12.304)
Modèle avec
-3.9794
-3.4201
-3.1324
-3.9794
-3.4201
-3.1324
constante et
(-0.0789)
(-0.0789)
(-0.0789)
(-21.4015)
(-21.4015)
(-21.4015)
tendance
sans
tendance
tendance
déterministe
TAB. 2 – Tests non paramétriques de Phillips-Perron
Les ordonnées
n
GPH
Rectangul.
Bartlett
Daniell
Tukey
Parzen
B-priest
0.45
0.3196
(1.5230)
0.3050
(1.3184
0.3382
(2.5320)
0.3430
(2.0369)
0.3313
(2.2719)
0.3266
(2.7187)
0.3238
(1.8069)
n 0.5
n 0.55
0.1123
(0.6790)
0.1108
(0.6072)
0.1284
(1.2196)
0.1320
(1.0234)
0.1249
(1.0865)
0.1193
(1.2597)
0.1214
(0.8592)
0.2427
(1.7682)
0.1968
(1.3003
0.2429
(2.7801)
0.2448
(2.2876)
0.2333
(2.4449)
0.2387
3.0378)
0.2198
(1.8751)
TAB. 3 – Estimation ARFIMA sur les rendements de l’indice France Télécom
17
Paramétrique
SIC
AIC
Retards
sélectionnés
(2,0.22,2)
(2,0.23,1)
t d = 3.037
LV = 11547.3
t d = 2.271
LV = 11658.3
Non paramétrique
CAFPE
ĥ
0.93092
0.8080
2,5,8
TAB. 4 – Estimation de l’espérance conditionnelle
Paramétrique
Retards
100
116.38
50
62.070
Non paramétrique
Retards
50
100
150
57.05755
122.12192
194.36747
150
164.68
TAB. 5 – Résultats du test de Portemanteau
k
1
2
3
4
5
6
Paramétrique
Stat. de Mizrach
1.246
2.948
-4.550
-0.777
-0.982
-1.1758
k
1
2
3
4
5
6
Non paramétrique
Stat. de Mizrach
0.4258
1.01184
-5.1877
-3.0532
-0.4509
1.5690
TAB. 6 – Résultats du test non paramétrique de Mizrach sur les résidus
α̂
Paramétrique
0.0695
(2.3588)
β̂
0.8920
(19.1738)
Retards
sélectionnés
4, 6
Non paramétrique
CAFPE
ĥ
0.98950824
0.62876968
TAB. 7 – Estimation de la volatilité conditionnelle
18
k
1
2
3
4
5
6
Paramétrique
Stat. de Mizrach
0.187
0.678
-0.450
-0.682
-0.125
-0.278
k
1
2
3
4
5
6
Non paramétrique
Stat. de Mizrach
0.345
0.021
-0.867
-0.152
-0.129
0.160
TAB. 8 – Résultats du test non paramétrique de Mizrach sur les résidus standardisés
Horizon
1 jour
20 jour
60 jour
120 jour
240 jour
Critère
EMQ1/2
EAM
EMQ1/2
EAM
EMQ1/2
EAM
EMQ1/2
EAM
EMQ1/2
EAM
ARFIMA-GARCH
0.0287
0.0222
0.0286
0.0221
0.0277
0.0215
0.0273
0.0211
0.0262
0.0208
TAB. 9 – Comparaison des qualités prédictives
19
NAR-ARCH
0.0283
0.0211
0.0284
0.0219
0.0277
0.0214
0.0275
0.0211
0.0263
0.0210
7
5
5
0
2
5
0
0
7
5
5
0
2
5
5
01
0
10
5
20
0
20
5
30
0
30
5
40
0
40
5
50
0
0
FIG. 1 – Série de l’indice France Télécom
1
0
0
0
7
5
0
5
0
0
2
5
0
0
0
0
2
5
0
5
0
0
7
5
1
0
0
5
01
0
10
5
20
0
20
5
30
0
30
5
40
0
40
5
50
0
0
FIG. 2 – Série des rendements de l’indice France Télécom
60
50
40
30
20
10
0
-0.075 -0.050 -0.025 0.000 0.025 0.050 0.075
FIG. 3 – Histogramme de la série des rendements de l’action France Télécom
20
1
0
0
0
7
5
0
5
0
0
2
5
0
0
0
0
2
5
0
5
0
0
7
5
1
0
0
-
0
.
1
0
-
0
.
0
5
0
.
0
0
0
.
0
5
0
.
1
0
FIG. 4 – Diagramme de dispersion de la série des rendements
FIG. 5 – Simulations de Monte Carlo : Estimation non paramétrique des densités
par le noyau
21
1
0
0
0
7
5
0
5
0
0
2
5
0
0
0
0
2
5
0
5
0
0
7
5
1
0
0
5
01
0
10
5
20
0
20
5
30
0
30
5
40
0
40
5
50
0
0
FIG. 6 – Résidus du processus ARFIMA
60
50
40
30
20
10
0
-
-
0 .0 0
0 .0 5
FIG. 7 – Histogramme des résidus du processus ARFIMA
1
0
0
0
7
5
0
5
0
0
2
5
0
0
0
0
2
5
0
5
0
0
7
5
1
0
0
-
0
.
1
0
-
0
.
0
5
0
.
0
0
0
.
0
5
0
.
1
0
FIG. 8 – Diagramme de dispersion des résidus du modèle ARFIMA
22
3
2
1
0
-
1
-
2
-
3
5
01
0
1
0
5
2
0
0
2
0
5
3
0
0
3
0
5
4
0
0
4
0
5
5
0
0
0
FIG. 9 – Résidus du processus AR fonctionnel
80
60
40
20
0
-3
-2
-1
0
1
2
3
FIG. 10 – Histogramme des résidus
3
2
1
0
-
1
-
2
-
3
-
3
-
2
-
1
0
1
2
FIG. 11 – Diagramme de dispersion des résidus
23
3