UN ESSAI DE PREVISION NON-PARAMETRIQUE DE L`ACTION
Transcription
UN ESSAI DE PREVISION NON-PARAMETRIQUE DE L`ACTION
UN ESSAI DE PREVISION NON-PARAMETRIQUE DE L’ACTION FRANCE TELECOM Mohamed CHIKHI1 et Michel TERRAZA2 Décembre, 2002 Résumé Nous étudions la puissance en terme de prévision des processus basés sur la méthode du noyau en utilisant la version non paramétrique du critère « Final Prediction error » pour identifier un processus fonctionnel. Cette identification nécessite une sélection rigoureuse des coefficients de Markov et du choix de la fenêtre qui détermine le degré de lissage de l’estimateur. Cette approche est comparée avec les résultats de l’estimation de modèles intégrés fractionnaires. Mots-clé : sélection des retards, erreur de prédiction finale, noyau, fenêtre, processus autorégressif fonctionnel, prévision. Abstract We study the forecast’s power of the nonparametric processes based on the kernel method by using the nonparametric version of Final Prediction error criterion to identify a functional process. This identification requires the selection of the Markov coefficients and the choice of the bandwidth, which determines the degree of the estimator’s smoothing. This approach is compared with the estimation results of the fractional integrated models. Keywords: lag selection, final prediction error, kernel, bandwidth, functional autoregressive process, forecast. 1 Docteur en Sciences Economiques, Université Montpellier I, Espace Richter, Avenue de la Mer, BP 9606, 34054 Montpellier cedex 1. e-mail : [email protected] 2 Professeur de Sciences Economiques LAMETA/CNRS, Faculté des Sciences Economiques, Espace Richter, Avenue de la Mer, BP 9606, 34054 Montpellier cedex 1. E-mail : [email protected] 1 1 Introduction Avec la reconnaissance de la complexité de la dynamique de nombreuses séries financières, il est apparu nécessaire de recourir à de nouvelles procédures économétriques pour modéliser les processus générateurs. Il en est ainsi de l’existence de phénomènes de non-linéarité mis en évidence dans diverses études récentes [voir par exemple Kyrtsou et Terraza (2000)]. Cependant, l’utilisation des méthodes paramétriques dans ces cas montre la faible puissance des tests qu’elles utilisent pour sélectionner les modèles. Ces dernières années, le développement des méthodes de régression non paramétriques donne une base théorique solide à l’analyse non linéaire des séries comme l’indique Robinson (1983) dans l’introduction de son ouvrage. Elles peuvent donc être considérées comme une alternative au problème de la prise en compte de la non-linéarité dans les séries temporelles. Les méthodes non paramétriques ont connu un essor important depuis les travaux de Bosq (1979), Collomb (1980) et Robinson (1983). Leur efficacité pratique a été analysée par Bosq et Lecoutre (1992), Härdle (1990), Gannoun (1991), Rosa (1993) et Matzner-Lober (1997). En 1990, Auestad et Tjostheim les ont appliquées pour estimer la moyenne et la variance conditionnelles d’un processus autorégressif non linéaire. Ils choisissent les critères de la variance résiduelle et du FPE « Final Prediction Error » pour déterminer leurs coefficients de Markov. Cheng et Tong (1992) proposent un critère de validation croisée et Vieu (1995) celui de la validation croisée pénalisée. Cependant, ce n’est qu’en 1998 que Tschernig et Yang suggèrent d’utiliser le critère FPE non paramétrique corrigé en introduisant un nouveau terme dans le critère FPE retenu par Auestad et Tjostheim (1990). Notre article s’insère dans la lignée de ces travaux et s’intéresse plus particulièrement aux comparaisons des performances prévisionnelles issues de modèles paramétriques et non paramétriques. Nous présentons dans la section 2 l’estimateur non paramétrique de NadarayaWatson (1964) et l’estimateur linéaire local du processus autorégressif fonctionnel de Doukhan (1994). Nous proposons alors une procédure de sélection d’un modèle non paramétrique (section 3) et nous l’appliquons à l’action France Télécom pour comparer ses résultats en prévision avec ceux obtenus à partir de modèles paramétriques (section 4). 2 2 Estimateurs non paramétriques et la méthode du noyau Le processus autorégressif non linéaire univarié {Yt }t ≥0 avec erreurs ARCH ( NAR- ARCH ) peut s’écrire sous la forme : Yt = f ( X t ) + σ 1 / 2 ( X t )ε t (1) Où X t = (Yt −i1 ,......., Yt −ik ) Τ est le vecteur transposé des variables retardées, i1 < ....... < ik et ε i ~ IID(0,1) . Nous supposons que tous les retards i1 ,....., ik sont nécessaires pour spécifier la fonction des régresseurs f (.) . Les hypothèses concernant le processus (1) sont donnés par Doukhan (1994) et Tschernig et Yang (1998) : Pour tout entier M ≥ ik , le processus (H1) X M ,t = (Yt −1 ,....., Yt − M ) Τ est strictement stationnaire et β − mélangeant avec β (n) ≤ c0 n − ( 2+δ ) / δ , δ > 0, c0 > 0 : { β (n) = E sup P( A ℜ kM ) − P ( A) : A ∈ ℜ ∞n + k } ' Où : ℜ tt est une σ -algèbre de X M ,t , X M ,t +1 ,......, X M ,t ' . (H2) la distribution stationnaire du processus X M ,t a une densité µ M ( x M ), x M ∈ R M , continue. Si l’estimateur de Nadaraya-Watson est utilisé, µ M (.) doit être continûment différentiable. (H3) La fonction f (.) est deux fois continûment différentiable et la fonction σ (.) est continue et positive. (H4) Les quatre premiers moments de {ε t }t ≥ik sont finis. (H5) K : R → R est un noyau positif symétrique et h = hn est un nombre positif avec h → 0, nh k → ∞ quand n → ∞ . Notons : K 2 2 = ∫ K 2 (u )du , σ K2 = ∫ K (u )u 2 du . Pour tout x ∈ R k , nous avons : K h ( x) = 1 hk k xj ∏ K( h ) j =1 L’estimation de la fonction de la moyenne conditionnelle f (.) et de la fonction de la volatilité σ (.) peuvent être réalisées au moyen de deux techniques : l’estimateur de Nadaraya-Watson fˆ1 ( x) et l’estimateur linéaire local fˆ2 ( x) . Soient : X t = (Yt −i1 , Yt −i2 ,...., Yt −ik ) Τ = ( X t1 , X t2 ,....., X tk ) Τ 3 Y = (Yik , Yik +1 ,......, Yn ) Τ et Pour tout x ∈ R k , les estimateurs non paramétriques peuvent s’écrire sous la forme : fˆ1 ( x) = ( Z 1T WZ1 ) −1 Z 1T WZ fˆ ( x) = e Τ ( Z T WZ ) −1 Z T WZ 2 2 2 2 Z 1 = (1,.....,1)1T×( n −ik +1) Où : . . . 1 1 Z 2 = X x . . . X x − − i n k T e = (1 01×k ) T n 1 W = diag ' K h ( X i − x) n i = ik avec : n ' = n − ik + 1 La convergence et la normalité asymptotiques de l’estimateur de Nadaraya-Watson des modèles AR-ARCH ont été proposées par Masry et Tjostheim (1995). En effet, Härdle, Tsybakov et Yang (1996) ont dérivé le biais, la variance et la normalité asymptotiques des processus VAR non linéaires avec l’hétéroscédasticité conditionnelle. Dans le cas univarié, nous avons : { } {fˆ ( x) − f ( x) − h b ( x)}→ N (0,V ( x)) D n ' h k fˆ1 ( x) − f ( x) − h 2 (bc ( x) + bι ( x)) → N (0,V ( x)) n'hk 2 2 D ι (2) (3) quand n → ∞ , avec le biais asymptotique : bc ( x) = σ K2 2∇f ( x) Τ ∇µ ( x) 2 µ ( x) bι ( x) = σ K2 2 [ Tr ∇ 2 f ( x) ] (4) (5) et la variance asymptotique : V ( x) = Où : K 2 2 σ ( x) K µ ( x) 2k 2 (6) = ∫ K 2 ( x j )dx j et σ K2 = ∫ x 2j K ( x j )dx j Le biais asymptotique de l’estimateur Nadaraya-Watson est plus compliqué que celui de l’estimateur linéaire local. Les dérivées secondes directes de la fonction f (x) dépendent de la fonction de la densité conditionnelle µ (x) et de ses dérivées premières. Si le processus générateur des données (PGD) est linéaire, l’estimateur linéaire local n’a aucun biais alors que l’estimateur de Nadaraya-Watson n’est pas biaisé 4 si le processus générateur des données est constant. Cependant, les deux estimateurs ont la même variance asymptotique. Cette dernière dépend de la fonction de la volatilité conditionnelle σ (x) et de la densité de x. Des estimateurs similaires et leur comportement asymptotique ont été introduits pour estimer σ (x) [voir Masry et Tjostheim (1994), Härdle, Tsybakov et Yang (1996)]. Ces estimateurs dont le taux de convergence dépend de la dimension de la matrice des régresseurs peuvent aussi être utilisés pour construire les intervalles de confiance de fˆi ( x) , i = 1,2 . 3 Identification non paramétrique des processus et prévision Afin d’appliquer l’estimateur linéaire local du modèle NAR-ARCH, nous devons spécifier la fenêtre h et le vecteur des retards i1 ,......, ik . Le choix de la fenêtre est important et par là la qualité de l’estimateur puisqu’il détermine le niveau de lissage de la fonction estimée. Nous utilisons souvent la méthode de validation croisée dont les propriétés asymptotiques ont été étudiées par Vieu (1994) et Yao et Tong (1994). Une approche alternative basée sur le critère FPE linéaire a été proposée par Tjostheim et Auestad (1994) pour étudier l’estimateur non paramétrique de Nadaraya-Watson dont la consistance a été démontrée par Tschernig et Yang (1996) en tenant compte à la fois de l’estimateur de Nadaraya-Watson et de l’estimateur linéaire local. Ces derniers ont fourni l’estimateur d’une fenêtre optimale et les taux des probabilités asymptotiques de surestimation et de sous-estimation. Tschernig et Yang (1998) ont noté que ce critère asymptotique donne une meilleure vitesse de convergence que le critère de validation croisée. L’estimateur de Nadaraya-Watson a été utilisé dans de nombreuses procédures de sélection des retards qui possède un taux de convergence très faible si la densité de la variable retardée, particulièrement dans les processus non linéaires, n’est pas suffisamment lisse. En revanche, l’estimateur linéaire local a besoin seulement de la continuité de la densité pour un taux de convergence optimal [voir, par exemple, Härdle et Al (1998)]. Les simulations de Tschernig et Yang (1998) confirment ce résultat et nous reprenons, dans cette section, le critère de sélection non paramétrique proposé par ces deux auteurs pour déterminer la fenêtre optimale. {~ } des séries ayant même distribution que {Y } mais indépendantes de {Y } . Soit Yt t t Le critère FPE d’un estimateur fˆ de f est défini par : { } ~ ~ 2 ~ FPE ( fˆ ) = lim E Yt − fˆ ( X t ) w( X M ,t ) t →∞ 5 (7) ~ ~ ~ Où l’espérance est donnée sur toutes les variables Y0 , Y1 ,....., Yn , Y0 , Y1 ,......, Yn . (A6) w(.) est continue positive et son support est compact, nous supposons aussi que µ ( x M ) > 0 pour tout x M ∈ supp(w). Dans le cas où {Yt } est un processus autorégressif linéaire stationnaire, fˆ est un {~ } régresseur linéaire et le critère FPE est aussi linéaire. Si Yt est un processus autorégressif asymptotiquement non linéaire stationnaire et fˆ est un estimateur non paramétrique, le critère FPE est non linéaire. Pour cet estimateur, nous avons : FPE a (h) = AFPE a (h) + ο (h 4 + 1 ) n hk ' (8) Où : AFPE a (h) = A + b(h) B + c(h)C a avec : A = ∫ σ ( x) w( x M ) µ ( x M )dx M , B = ∫ σ ( x) w( x M ) µ ( x M ) / µ ( x)dx M , C a = ∫ ra2 ( x) w( x M ) µ ( x M )dx M { r ( x) = Tr {∇ } f ( x)} r1 ( x) = Tr ∇ 2 f ( x) + 2∇ T µ ( x)∇f ( x) / µ ( x) 2 2 Où : b( n) = K 2k 2 n '−1 h − k , c(h) = σ K4 h 4 / 4 L’indice a = 1,2 indique respectivement l’estimateur constant local et l’estimateur linéaire local. La première partie de la formule (8) présente l’espérance de la variance {~ } du bruit blanc des processus {Yt } et Yt . Le deuxième terme B donne l’espérance de la variance de l’estimateur non paramétrique fˆa alors que la troisième partie présente l’espérance de son biais. Nous rappelons que les deux estimateurs sont seulement différents au niveau de leur biais d’estimation et par conséquent, les deux FPE asymptotiques sont différents dans le terme du biais, les valeurs prévues sont indépendantes de la fenêtre h et sont seulement déterminées par les propriétés du processus générateur des données (PGD). L’espérance de la variance et le terme du biais deviennent négligeables et AFPE (h) tend vers son minimum asymptotique E (σ ( x)) quand h → 0 et nh k → ∞ pour n → ∞ . Cependant, pour un échantillon donné de taille n, nous obtenons une expression qui détermine une fenêtre optimale ha ,opt en minimisant la somme du deuxième et du troisième terme : 6 { ha ,opt = k K 2k 2 Bn '−1C a−1σ K− 4 } 1 /( k + 4 ) (9) et le critère AFPE minimal est : AFPE a ,opt = A + (k −k /( k + 4 ) + { 1 4 /( k + 4 ) k ) K 4 8k 2 B 4 n '−1C ak σ K4 k } 1 /( k + 4 ) L’équation (9) est nécessaire pour obtenir l’estimateur de ha ,opt et l’expression (8) contient des valeurs inconnues A, B et C. Il est nécessaire d’estimer ces trois valeurs afin d’estimer le critère AFPE ainsi que la fenêtre optimale associée. Nous avons : n { } 2 Aˆ a = n '−1 ∑ Yi − fˆa ( X i ) w( X M ,i ) i = ik n { (10) } 2 Bˆ a = n '−1 ∑ Yi − fˆa ( X i ) w( X M ,i ) / µˆ ( X i ) i = ik (11) Les estimateurs fˆa utilisent des fenêtres d’ordre n '−1 /( k + 4) et µˆ ( X i ) est un estimateur à noyau de la densité. Sous les hypothèses (A1)-(A6), pour a = 1,2 quand n → ∞, { Aˆ a = A + K 2k 2 } − 2 K (0) k n '−1 h − k B + C aσ K4 h 4 / 4 + ο {h 4 + n '−1 h − k }+ Ο P {n '−1 / 2 } (12) Nous notons qu’avec une fenêtre h de la forme cn −1 /( k + 4 ) , l’estimateur non paramétrique Âa converge vers A et sa convergence est de l’ordre de { n si k ≤ 4 . } Dans tous les cas, le deuxième et le troisième terme seront de l’ordre Ο n '−1 / 2 . L’estimateur non paramétrique du FPE asymptotique est : AFPEa = Aˆ a + 2 K (0) k n '−1 ha−,kopt Bˆ a (13) Âa est estimée en utilisant la fenêtre optimale ha ,opt alors que B̂a est estimée en utilisant n’importe quelle fenêtre de l’ordre n ' −1 /( k + 4 ) . Tschernig et Yang (1996) ont montré que ces estimateurs non paramétriques sont consistants. Cependant, la probabilité pour que le modèle correct soit surestimé est plus grande que la probabilité pour que le modèle soit sous-estimé. Par conséquent, ils suggèrent d’introduire un facteur de correction dans le critère AFPE a : k CAFPE a = AFPE a 1 + 4 ' n k +4 7 (14) Où la correction dépend du nombre des retards k et du nombre d’observations n. Il { } s’agit donc de choisir le sous-ensemble iˆ1 ,......, iˆkˆ sous les hypothèses (H1)-(H6), tel que3 : { } P kˆ = k , iˆl = i, l = 1,......, k n →1 →∞ Les prédicteurs non paramétriques d’horizon h pour le processus NAR-ARCH sont définis par: f h ( x) = E ( Z t + h −1 | X t −1 = x) (15) Z t + h −1 = f h ( X t −1 ) + σ h ( X t −1 ).ε t ,h σ h2 ( x) = var(Z t + h −1 | X t −1 = x) où: L’estimateur linéaire local fˆh ( x) de la fonction de prédiction f h (x) peut s’écrire: ( T fˆh ( x) = e T Z 2 h Wh Z 2 h { ( σˆ h ( x) = e T Z 2 Th Wh Z 2 h ) −1 ) −1 T Z 2 h Wh Z h (16) } T Z 2 h Wh Z h2 − fˆh2 ( x) 1/ 2 (17) e T = (1 01×k ) , T où: Z2h 1 . . . 1 = X k −1 − x . . . X n − h − x T Wh = diag {K h ( X i −1 − x) / n}i = k n − h +1 Z h = (Z k + h −1 . . . Z n ) T et 4 Analyse empirique Nous voulons vérifier quel est le gain de prévision obtenu lorsque la nature de la dynamique sous-jacente est inconnue. Nous appliquons les méthodes proposées sur la série de l’action France Télécom qui couvre la période du 05/01/1998 à 29/02/2000. Cette série est caractérisée par la présence d’une racine unitaire (voir tableau 2). L’hypothèse de normalité des rendements est clairement rejetée (cf. FIG. 3). L’asymétrie constatée peut être le signe de la présence de non-linéarités dans le processus d’évolution des rendements, les modèles linéaires gaussiens ne pouvant générer que des comportements symétriques de la série. Le diagramme de dispersion de la série (FIG. 4) ne se présente pas sous la forme d’un ellipsoïde régulier et confirme la non-linéarité de la série. 3 Cf. Tschernig et Yang (1998), p.7 8 4.1 Modélisation paramétrique des rendements de l’action France Télécom Divers auteurs se sont attachés à tester si les séries financières exhibent ou non une structure de dépendance à long terme. Nous avons retenu dans cette application sur la série des rendements de l’action France Télécom diverses valeurs pour les ordonnées du périodogramme afin d’encadrer la racine carrée du nombre d’observations. Le choix de ces valeurs a pour objet d’examiner la stabilité des estimateurs lorsque le nombre d’ordonnées du périodogramme varie. Nous utilisons les tests du coefficient d’intégration fractionnaire avec plusieurs fenêtres spectrales pour le calcul du périodogramme. L’estimation du paramètre d’intégration fractionnaire est peu affectée par la variation de la valeur correspondant aux ordonnées du périodogramme. La valeur estimée de d associée à un nombre d’ordonnées n 0.55 est inférieure à celle correspondant à n 0.45 (cf. tableau 3). Quelle que soit la fenêtre et la valeur du paramètre m employées, l’existence d’une composante à long terme dans la série des rendements de l’action France Télécom est généralement acceptée par le test du coefficient d’intégration fractionnaire. Les valeurs de la statistique de Student sont supérieures à la valeur critique 1.96. Ainsi, les résultats présentés montrent que l’estimateur de GewekePorter-Hudak (GPH) n’est pas significatif au seuil de 5% car cette méthode est moins robuste comparativement aux différentes fenêtres spectrales (cf. FIG. 5). Pour identifier notre modèle, nous choisissons un ensemble de valeurs de d. Pour ˆ chaque valeur de d nous calculons la série (1 − L) d Yt et nous estimons, au moyen des méthodes usuelles des séries temporelles, les paramètres ARMA ainsi que la variance résiduelle. Nous retenons alors comme valeurs initiales celles associées au modèle qui minimise la variance résiduelle. La routine d’optimisation sera mise en œuvre en maximisant la log-vraissemblance par rapport à tous les paramètres de la représentation ARFIMA( p, d , q) . Nous retenons comme ordres maxima p = q = 3 et nous choisissons le modèle minimisant les critères AIC et SIC. L’estimation par cette procédure fait ressortir la présence d’une mémoire de long terme (voir tableau 4). Nous remarquons que les résidus (voir FIG. 6) ne sont pas caractérisés par une distribution gaussienne (voir aussi FIG. 7). Cette distribution est asymétrique. Il est probable que cette asymétrie est le signe de la présence des nonlinéarités dans le processus des résidus. Le diagramme de dispersion (FIG. 8) confirme 9 ces résultats. La forme obtenue n’est pas un ellipsoïde régulier et la distribution est typiquement non gaussienne. Au regard du tableau 5, nous constatons que l’hypothèse de marche aléatoire est clairement rejetée, la statistique de Portemanteau est strictement supérieure à la valeur critique de χ 2 . Ces résidus présentent donc une structure de dépendance où la statistique de Mizrach (tableau 6) nous a conduit à rejeter l’hypothèse nulle générateur iid pour certaines dimensions de prolongement. Les résidus peuvent être modélisés par des modèles de type ARCH car les résultats des tests ARCH LM sur les résidus du modèle confirment la présence de l’hétéroscédasticité ( nR 2 = 17.82 > χ 2 (2) ). Les séries financières sont en général caractérisées par une volatilité variable et par des phénomènes d’asymétrie qui ne peuvent être pris en compte par les modélisations de l’espérance conditionnelle. Par conséquent, la variance conditionnelle n’est plus constante au cours du temps et dépend de ses valeurs passées. Afin de rendre compte de ce phénomène, il est nécessaire d’estimer la volatilité des rendements de l’action France Télécom par les modèles de type GARCH. La routine d’optimisation sera mise en œuvre en maximisant la log-vraissemblance par rapport à tous les paramètres de la représentation ARFIMA( p, d , q ) - GARCH ( p, q ) . Nous remarquons que les coefficients des modèles ARFIMA-GARCH sont significativement différents de zéro (cf. tableau 7) et l’hypothèse de marche aléatoire pour les résidus est clairement acceptée car la statistique de Mizrach (tableau 8) nous a conduit à accepter l’hypothèse nulle générateur iid pour toutes les dimensions de prolongement. De plus, les résultats des tests ARCH LM sur les résidus du modèle confirment l’absence de l’hétéroscédasticité ( nR 2 = 4.45 < χ 2 (2) ). 4.2 Modélisation non paramétrique des rendements de l’action France Télécom L’estimation d’un modèle non paramétrique nécessite la sélection du nombre de retards et la fenêtre. Nous utilisons pour cela le critère non paramétrique CAFPE. Dans notre étude, le nombre maximal de retards est cinq et le retard le plus large considéré est huit. Il s’agit donc d’examiner 1 + 5 8 j =1 ∑ j combinaisons différentes de retards pour la procédure de recherche. Tjostheim et Auestad (1994) suggèrent d’additionner des retards dans le modèle dans le but de réduire le critère de sélection. Leur idée est de choisir des retards qui minimisent le critère FPE asymptotique. 10 Précisément, dans la première étape, le retard le plus important iˆ1 est déterminé en sélectionnant i1 tel que le critère est minimal pour le modèle à un retard. Si le critère est comparable à la variance de la série, aucun retard significatif est inclus. Sinon, nous recherchons iˆ2 dans la prochaine étape en fixant iˆ1 et en choisissant i 2 tel que le critère est minimisé pour le modèle à deux retards. Encore, iˆ2 est inclus et la procédure est poursuivie si le critère sur deux retards est plus petit que la valeur du critère sur un retard. Nous utilisons alors la même procédure pour calculer iˆ3 ,...., iˆd où d ≤ 5 . Pour chaque calcul du critère CAFPE « Corrected Asymptotic Final Prediction Error », nous spécifions une fenêtre qui détermine le degré de lissage de l’estimateur, une fenêtre trop large surlisse. Si h augmente, la variance de la série décroît mais le biais croît. Il faut donc trouver un compromis tout en minimisant le critère CAFPE. Pour le modèle constant local, l’estimation de l’espérance du biais nécessite l’estimation de la dérivée première de la densité dans bc ( X t ) (4). Cependant, la fenêtre optimale (9) est seulement estimée pour le modèle linéaire local. Pour estimer E (bι ( X t )) , nous calculons les dérivées secondes de (5). Ces dernières peuvent être estimées en utilisant l’estimateur quadratique local [cf. Tschernig et Yang (1996)] avec la fenêtre : 1 1 4 k +12 − k +12 h = 2 var(Z t ) n k + 10 Pour calculer les résidus et la densité qui sont employés pour estimer l’espérance de la variance de l’estimateur non paramétrique fˆa , nous utilisons la fenêtre de Silverman [voir Silverman (1986), eq. (4.14), p.86] qui est définie par : 1 1 4 k +4 − k +4 hS = var(Z t ) n k + 2 (18) De plus, la méthode de recherche de grille « grid search » pour estimer la fenêtre optimale est utilisée pour tout CAFPE a , a = 1,2 où la grille couvre l’intervalle [0,2hS , 2hS ] dans 24 pas. Nous choisissons une fenêtre optimale qui minimise le critère CAFPE a et qui appartient à cet intervalle. Afin d’estimer la série des rendements de l’action France Télécom, nous allons utiliser le noyau gaussien puisque comme l’a noté Matzner-Lober (1997), l’utilisation des autres noyaux nécessite celle d’une fenêtre beaucoup plus grande. La fonction du poids w() est spécifiée de la façon suivante : 11 1 µˆ ( X t ) ≥ c w( X t ) = si 0 µˆ ( X t ) < c Où la constante c est déterminée telle que n '' observations sont exclues et n '' est notée le plus grand nombre entier prochain de 0,05n ' . Le tableau 4 donne les résultats de l’identification du processus des rendements de l’indice France Télécom. Il contient aussi les retards sélectionnés, les valeurs du critère et de la fenêtre optimale estimées. Les retards sont sélectionnés par rapport à leur contribution pour minimiser le critère. Utilisant ce modèle non paramétrique, le critère estimé est 0.9392 et les retards sélectionnés sont : 2, 5 et 8. Notons que l’estimateur utilisé est celui de l’estimateur linéaire local. Nous remarquons que les résidus (cf. FIG. 9) ne sont pas caractérisés par une distribution gaussienne (voir aussi FIG. 10). Le diagramme de dispersion (FIG. 11) confirme ces résultats où la forme obtenue n’est pas un ellipsoïde régulier. Au regard du tableau 5, nous rejetons clairement l’hypothèse de marche aléatoire, la statistique de Portemanteau est strictement supérieure à la valeur critique de χ 2 . Ces résidus présentent une structure de dépendance car la statistique de Mizrach (voir aussi tableau 6) nous a conduit à rejeter l’hypothèse nulle générateur iid pour certaines dimensions de prolongement. Les résidus peuvent être modélisés par les modèles ARCH car les résultats des tests ARCH LM sur les résidus du modèle confirment la présence d’un effet ARCH ( nR 2 = 19.82 > χ 2 (2) ). Nous estimons la volatilité des rendements de l’indice France Télécom par la méthode du noyau. Le tableau 7 présente les résultats d’estimation de la volatilité des rendements de l’indice France Télécom. Il contient les retards sélectionnés, la valeur du critère et la fenêtre optimale. Nous avons utilisé aussi l’estimateur linéaire local pour identifier la volatilité conditionnelle. Les retards sont alors 4, 6 et le critère estimé associé est 0.989508. Nous pouvons remarquer que les résidus du modèle ARCH ne présentent aucune corrélation sérielle (cf. tableau 8). 4.3 Comparaison des qualités prédictives des méthodes d’estimation Cette section compare les performances de prévision entre l’approche paramétrique standard et celle non paramétrique à partir de deux critères : l’erreur absolue moyenne (EAM) et l’erreur moyenne quadratique (EMQ): H EAM = H −1 ∑ Zˆ n − H + h − Z n − H + h h =1 12 (19) H EMQ = H −1 ∑ ( Zˆ n − H + h − Z n − H + h ) 2 (20) h =1 Où: h est l’horizon de la prévision, H est le nombre total de prévision correspondant à l’horizon h sur la période prévisionnelle, Zˆ n (h) est la valeur de la prévision faite en n pour la date n + h . Afin de comparer les performances prévisionnelles du prédicteur non paramétrique aux prévisions issues d’un modèle paramétrique, le modèle a été réestimé jusqu’au 12 Mars 1999. Les prévisions ont été menées sur divers horizons. Les prévisions à très court terme (prévisions à un pas) correspondent à des prévisions statiques. Pour tous les autres horizons, les prévisions sont dynamiques. Notre objectif ici est donc de déterminer si la prise en compte du modèle non paramétrique permet d’améliorer les résultats par rapport au modèle paramétrique de type ARFIMA-GARCH. Au regard du tableau 9, nous constatons en général de bonnes capacités prévisionnelles du processus non paramétrique. Ce prédicteur résiste à la comparaison avec le prédicteur paramétrique. Si nous analysons les résultats figurant dans ce tableau, nous noterons que les valeurs des critères EMQ et EAM ont tendance à décroître lorsque l’horizon de prévision augmente. Ceci s’explique par le fait que cette série est caractérisée par une présence de dynamique à long terme. En effet, les mouvements de cours apparaissent comme le résultat de chocs exogènes durables venant affecter le marché. Nous pouvons remarquer aussi que les prévisions fournies par l’approche non paramétrique sont relativement meilleures que celles d’un modèle paramétrique. Pour l’horizon h = 240 , nous constatons que le modèle paramétrique de ARFIMA-GARCH donne la meilleure prévision. Nous pouvons conclure que la qualité prédictive de l’approche paramétrique est meilleure lorsque la série est caractérisée par une mémoire longue. Par contre, le prédicteur non paramétrique est robuste si la série ne possède qu’une composante à court terme. Si nous rejetons l’hypothèse de nullité du coefficient d’intégration fractionnaire, nous sommes dans le cas d’un processus ARFIMA. La structure de ce processus est déjà connue et dans ce cas, nous utilisons les méthodes paramétriques usuelles pour identifier notre série. Si la structure du processus stochastique n’est pas connue, nous pouvons essayer d’approcher le problème de l’identification à partir d’une approche non paramétrique. 13 5 Conclusion Dans cet article, nous avons essayé d’évaluer la puissance de prévision non paramétrique et de comparer sa qualité de prévision par rapport aux méthodes paramétriques standards. Les processus non paramétriques apparaissent comme particulièrement pertinents pour la modélisation des séries temporelles. Les résultats montrent qu’il existe un gain théorique attendu par la modélisation explicite du processus non paramétrique grâce à l’utilisation de la méthode du noyau. L’étude que nous avons menée ici témoigne en outre de l’intérêt pratique des processus non paramétriques. Cette méthode offre une alternative sérieuse à l’hypothèse de nonlinéarité. Les résultats de prévision non paramétrique sont relativement similaires à ceux obtenus avec les méthodes paramétriques. Les gains constatés sur les horizons les plus longs, semblent indiquer que le prédicteur paramétrique est plus robuste que celui non paramétrique. Si la structure du processus stochastique n’est pas connue, nous utilisons l’approche non paramétrique pour identifier la série. Références Akaike, H. (1970), Statistical Predictor Identification. Annals of Institute of Statistical Mathematics, 22, 203-217 Auestad, B. and Tjostheim, D. (1990), Identification of nonlinear time series: first order characterization and order determination, Biometrika, 77, 4, 669-687. Bosq, D et Lecoutre, J.P. (1992), Analyse et prévision des séries chronologiques . Masson, Paris Bosq, D. (1979), Sur la prédiction non paramétrique de variables aléatoires et mesures aléatoires, Pub. Interne, UER de Mathématiques, Lilles. Bosq, D. (1996), Nonparametric statistics for stochastic processes. Lecture Notes in statistics, 110, Springer-verlag. Box, G and Pierce, D. (1970), Distribution of residual autocorrelation in autoregressive integrated moving average time series models, J, Ann., Statist., 6, 461464 Brockmann, M. (1993), Locally adaptive bandwidth choice for kernel regression estimators. J. Amer. Statist. Assoc., 88, 1302-1309. Cheng, B. and Tong, H. (1992), On consistent nonparametric order determination and chaos, Journal of The Royal Statistical Society, Series B, 54, 427-449. 14 Chiu, S.T. (1989), Bandwidth selection for kernel estimates with correlated noise. Statist. Probab. Lett., 8, 347-354. Collomb, G. (1980), Estimation non paramétrique de probabilités conditionnelles , C.R . Acad. sci . Paris Sér I Math . 291, 427-430 Doukhan, P. (1994), Mixing: Properties and examples, New York; Springer-Verlag Engle, R.F. (1982), Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation, Econometrica, 50(4) 987-1007. Gannoun, A . (1991), Prédiction non paramétrique : médianogramme et méthode du noyau en estimation de la médiane conditionnelle, Statistique et Analyse des données, 16(23), 23-42 Geweke, J et Porter-Hudak, S. (1983), The Estimation and Application of Long Memory Time Series Models, Journal of Time Series Analysis, 4(4), 221-238. Gouriéroux, C. (1992), Modèles ARCH et applications financières. Economica, Paris Härdle, W and Chen, R. (1996), Nonparametric Time Series Analysis, a selective review with examples. Proceedings of the 50th session of the ISI, Peking. Härdle, W and Yang, L. (1996), Nonparametric autoregression with Multiplicative Volatility and additive Mean, Discussion paper 96-62, SFB 373, Humboldt Universität zu Berlin. Härdle, W, Lütkepohl, H and Chen, R. (1996), A review of Nonparametric Time Series Analysis, Discussion Paper 96-48, SFB 373, Humboldt Universität zu Berlin. Härdle, W, Tsybakov, A. B and Yang, L. (1998), Nonparametric vector autoregression, Journal of Statistical Planning and Inference 68, 221-245. Härdle, W. (1990), Applied nonparametric regression. Cambridge university press, Cambridge Masry, E and Tjostheim, D. (1995), Nonparametric estimation and identification of non-linear ARCH time series: strong convergence and asymptotic normality, Econometric Theory, 11, 258-289. Matzner-Lober, E . (1997), Prévision non paramétrique des processus stochastiques, Thèse de doctorat de l’université de Montpellier II Mizrach, B. (1995), A Simple Nonparametric Test for Independence. Nadaraya, E.A. (1964), On estimating regression, Theory probability and their applications, 9, 134-137 Robinson, P.M. (1983), Nonparametric estimators for time series. Journal of Time series analysis, 4, 185-207 Rosa, M. A. C. (1993), Prévision robuste sous une hypothèse ergodique. Thèse de Doctorat de l’université de Toulouse I. 15 Schwarz, G. (1978), Estimating the dimension of a Model. Annals of Statistics, 6,461-464. Silverman, B.W. (1986), Density estimation for Statistics and data analysis. Chapman & Hall. Sowell, F. (1992), Maximum Likelihood estimation of Stationary Univariate Fractionally Integrated Time Series Models. Journal of Econometrics, 53, 165-188. Stute, W. (1986), On almost sure convergence of conditional empirical distribution function, Ann. of Prob. , 14, 891-901 Tjostheim, D. and Auestad, B. (1994b), Nonparametric identification of nonlinear time series: selecting significant lags,Journal of American Statistical Association, 89, 1410-1419. Tschernig, R and Yang, L. (1998), Nonparametric Lag Selection for Time Series, Journal of Time Series Analysis, forthcoming. Tschernig, R. (1996), Nonlinearities in German Unemployment Rates: A Nonparametric Analysis, SFB 373 discussion paper 45. Ullah, A. (1988), Nonparametric estimation and hypothesis testing in econometric models, Empec, 13, 223-249. Vieu, P . (1995), order choice in nonlinear autoregressive models, statistics OPA , 26, 307-328. Watson, G.S. (1964), Smooth regression analysis, Sankhyä, A26, 359-372 Yang, L and Tschernig, R. (1999), Multivariate bandwidth selection for local linear regression, Journal of the royal statistical Society, Series B, 61, 793-815 Yang, L and Tschernig, R. (2000), Non- and semiparametric identification of seasonal nonlinear autoregression models, SFB 373. 16 Statistiques de P.P sur la série au niveau Statistiques de P.P sur les rendements de Le type de l’action France Télécom modèles 1% 5% 10% 1% 5% 10% Modèle sans -2.5695 -1.94 -1.6159 -2.5695 -1.94 -1.61 constante ni (2.873) (2.873) (2.873) (-21.085) (-21.085) (-21.085) Modèle avec -3.4448 -2.8672 -2.5698 -3.4448 -2.8672 -2.5698 constante (1.406) (1.406) (1.406) (-12.304) (-12.304) (-12.304) Modèle avec -3.9794 -3.4201 -3.1324 -3.9794 -3.4201 -3.1324 constante et (-0.0789) (-0.0789) (-0.0789) (-21.4015) (-21.4015) (-21.4015) tendance sans tendance tendance déterministe TAB. 2 – Tests non paramétriques de Phillips-Perron Les ordonnées n GPH Rectangul. Bartlett Daniell Tukey Parzen B-priest 0.45 0.3196 (1.5230) 0.3050 (1.3184 0.3382 (2.5320) 0.3430 (2.0369) 0.3313 (2.2719) 0.3266 (2.7187) 0.3238 (1.8069) n 0.5 n 0.55 0.1123 (0.6790) 0.1108 (0.6072) 0.1284 (1.2196) 0.1320 (1.0234) 0.1249 (1.0865) 0.1193 (1.2597) 0.1214 (0.8592) 0.2427 (1.7682) 0.1968 (1.3003 0.2429 (2.7801) 0.2448 (2.2876) 0.2333 (2.4449) 0.2387 3.0378) 0.2198 (1.8751) TAB. 3 – Estimation ARFIMA sur les rendements de l’indice France Télécom 17 Paramétrique SIC AIC Retards sélectionnés (2,0.22,2) (2,0.23,1) t d = 3.037 LV = 11547.3 t d = 2.271 LV = 11658.3 Non paramétrique CAFPE ĥ 0.93092 0.8080 2,5,8 TAB. 4 – Estimation de l’espérance conditionnelle Paramétrique Retards 100 116.38 50 62.070 Non paramétrique Retards 50 100 150 57.05755 122.12192 194.36747 150 164.68 TAB. 5 – Résultats du test de Portemanteau k 1 2 3 4 5 6 Paramétrique Stat. de Mizrach 1.246 2.948 -4.550 -0.777 -0.982 -1.1758 k 1 2 3 4 5 6 Non paramétrique Stat. de Mizrach 0.4258 1.01184 -5.1877 -3.0532 -0.4509 1.5690 TAB. 6 – Résultats du test non paramétrique de Mizrach sur les résidus α̂ Paramétrique 0.0695 (2.3588) β̂ 0.8920 (19.1738) Retards sélectionnés 4, 6 Non paramétrique CAFPE ĥ 0.98950824 0.62876968 TAB. 7 – Estimation de la volatilité conditionnelle 18 k 1 2 3 4 5 6 Paramétrique Stat. de Mizrach 0.187 0.678 -0.450 -0.682 -0.125 -0.278 k 1 2 3 4 5 6 Non paramétrique Stat. de Mizrach 0.345 0.021 -0.867 -0.152 -0.129 0.160 TAB. 8 – Résultats du test non paramétrique de Mizrach sur les résidus standardisés Horizon 1 jour 20 jour 60 jour 120 jour 240 jour Critère EMQ1/2 EAM EMQ1/2 EAM EMQ1/2 EAM EMQ1/2 EAM EMQ1/2 EAM ARFIMA-GARCH 0.0287 0.0222 0.0286 0.0221 0.0277 0.0215 0.0273 0.0211 0.0262 0.0208 TAB. 9 – Comparaison des qualités prédictives 19 NAR-ARCH 0.0283 0.0211 0.0284 0.0219 0.0277 0.0214 0.0275 0.0211 0.0263 0.0210 7 5 5 0 2 5 0 0 7 5 5 0 2 5 5 01 0 10 5 20 0 20 5 30 0 30 5 40 0 40 5 50 0 0 FIG. 1 – Série de l’indice France Télécom 1 0 0 0 7 5 0 5 0 0 2 5 0 0 0 0 2 5 0 5 0 0 7 5 1 0 0 5 01 0 10 5 20 0 20 5 30 0 30 5 40 0 40 5 50 0 0 FIG. 2 – Série des rendements de l’indice France Télécom 60 50 40 30 20 10 0 -0.075 -0.050 -0.025 0.000 0.025 0.050 0.075 FIG. 3 – Histogramme de la série des rendements de l’action France Télécom 20 1 0 0 0 7 5 0 5 0 0 2 5 0 0 0 0 2 5 0 5 0 0 7 5 1 0 0 - 0 . 1 0 - 0 . 0 5 0 . 0 0 0 . 0 5 0 . 1 0 FIG. 4 – Diagramme de dispersion de la série des rendements FIG. 5 – Simulations de Monte Carlo : Estimation non paramétrique des densités par le noyau 21 1 0 0 0 7 5 0 5 0 0 2 5 0 0 0 0 2 5 0 5 0 0 7 5 1 0 0 5 01 0 10 5 20 0 20 5 30 0 30 5 40 0 40 5 50 0 0 FIG. 6 – Résidus du processus ARFIMA 60 50 40 30 20 10 0 - - 0 .0 0 0 .0 5 FIG. 7 – Histogramme des résidus du processus ARFIMA 1 0 0 0 7 5 0 5 0 0 2 5 0 0 0 0 2 5 0 5 0 0 7 5 1 0 0 - 0 . 1 0 - 0 . 0 5 0 . 0 0 0 . 0 5 0 . 1 0 FIG. 8 – Diagramme de dispersion des résidus du modèle ARFIMA 22 3 2 1 0 - 1 - 2 - 3 5 01 0 1 0 5 2 0 0 2 0 5 3 0 0 3 0 5 4 0 0 4 0 5 5 0 0 0 FIG. 9 – Résidus du processus AR fonctionnel 80 60 40 20 0 -3 -2 -1 0 1 2 3 FIG. 10 – Histogramme des résidus 3 2 1 0 - 1 - 2 - 3 - 3 - 2 - 1 0 1 2 FIG. 11 – Diagramme de dispersion des résidus 23 3