Chapitre 4 Estimation, Tests de Validation et Prévisions
Transcription
Chapitre 4 Estimation, Tests de Validation et Prévisions
Chapitre 4 Estimation, Tests de Validation et Prévisions des Processus ARMA Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 49 La procédure de modélisation de Box et Jenkins (1976) comporte les étapes suivantes : ² Stationnarisation et Dessaisonalisation ² Identi…cation ² Estimation ² Validation et Test ² Prévisions A la suite des chapitres précédents, reste à étudier les 3 derniers points. 1. Estimation L’estimation des paramètres d’un modèle ARMA(p; q) lorsque les ordres p et q sont supposés connus peut se réaliser par di¤érentes méthodes dans le domaine temporel : ² Moindres Carrés Ordinaires (modèle sans composante MA, q = 0). Dans ce cas, on retrouve les équations de Yule Walker. En remplaçant les autocorrélations théoriques par leurs estimateurs, on peut retrouver les estimateurs des M CO des paramètres du modèle par la résolution des équations de Yule Walker. ² Maximum de Vraisemblance approché (Box and Jenkins 1970) ² Maximum de Vraisemblance exacte (Newbold 1974, Harvey et Philips 1979, Harvey 1981) Nous allons présenter ici brièvement la démarche de l’estimation par le maximum de vraisemblance. Cette maximisation est réalisée à l’aide d’algorithmes d’optimisation non linéaire (Newton-Rahpson, méthode du simplex) que nous n’exposerons pas dans le cadre de ce chapitre. Nous nous contenterons ici de montrer comment s’écrit le programme de maximisation de la vraisemblance permettant d’estimer les paramètres d’un modèle ARM A(p; q). Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 50 1.1. Rappels : l’estimateur du maximum de vraisemblance De…nition 1.1. Soit X une variable aléatoire à valeur dans (X ; a) de loi Pµ : On note f (x; µ) la densité de Pµ et f (x1 ; :::; xn ; µ) la densité empirique correspondante. On appelle vraisemblance du paramètre µ l’application £ ! R+ dé…nie par : 8µ 2 £ ! L (x1 ; :::; xn ; µ) = n Y f (xi ; µ) (1.1) i=1 De…nition 1.2. Soit L (x; µ) la vraisemblance au point µ; µ 2 £. On appelle estimateur du maximum de vraisemblance pour µ la statistique: b µ : XT ! £ telle que : (x1 ; :::; xn ) ! b µ (x1 ; :::; xn ) ³ ´ 8µ 2 £ L x; b µ ¸ L (x; µ) Le principe de la vraisemblance revient à déterminer la valeur du paramètre µ; fonction des observations (x1 ; :::; xn ) ; qui assure la plus grande probabilité d’apparition de ces observations (x1 ; :::; xn ) : Corollary 1.3. Lorsque l’on suppose que (i) l’ensemble X est indépendant de µ et que (ii) la fonction de vraisemblance L (:) est deux fois continûment di¤érentiable par rapport à µ; 8µ 2 £ alors l’estimateur du maximum de vraisemblance b µ est solution du système: ¶ µ @L (x; µ) =0 (1.2) @µ µ=b µ ¶ µ 2 @ L (x; µ) <0 (1.3) @µ2 µ=b µ Theorem 1.4. S’il existe un estimateur e¢cace du paramètre µ (au sens de la borne de Cramer Rao), alors cet estimateur est identique à celui du maximum de vraisemblance b µ. 1.2. Application aux modèles ARMA On considère un processus stationnaire fxt g satisfaisant une représentation ARM A (p; q) telle que : © (L) xt = c + £ (L) "t (1.4) Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 51 P P avec c 2 R, £ (L) = qj=0 µj Lj ; © (L) = pj=0 Áj Lj où 8j < q µ j 2 R2 ; 8j < p Áj 2 R2 ; ¡ ¢ µ0 = Á0 = 1 et Áp ; µq 2 R2¤ : En plus de la dé…nition standard d’un processus ARMA; on fait l’hypothèse de la nor- malité des résidus a…n de spéci…er une forme fonctionnelle à la vraisemblance du modèle. Hypothèse H1 On suppose que la population des résidus f"t g peut être décrite par un processus bruit blanc gaussien N (0; ¾ 2" ) : Ecrivons alors la vraisemblance associée au vecteur de réalisation (x1 ; x2 ; :::; xT ) : ½ ¾ ¡ ¢ 1 0 ¡1 ¡ 21 2 ¡T =2 2¼¾ " det [- (µi ; Ái )] exp ¡ 2 x [- (µi ; Ái )] x 2¾ " 2. Tests de Validation 2.1. Tests de redondance Le but est de véri…er si les composantes AR et MA de l’ARM A n’ont pas de racines communes. Si tel est le cas, on peut alors se ramener à une représentation minimale excluant ces racines. Cette représentation sera préférable selon le principe de parcimonie. Exemple : On considère un processus stationnaire fxt ; t 2 Zg satisfaisant une représen- tation ARM A (p; q) telle que : © (L) xt = £ (L) "t Soient ¸i 2 C; i 2 [1; pe] ; pe · p les racines de © (L) = 0 et soient ¹i 2 C; i 2 [1; qe] ; qe · q les racines de £ (L) = 0. Supposons qu’il existe une racine commune à ces deux polynômes. 9j 2 [1; min (e p; qe)] tel que ¸j = ¹j Alors on peut réexprimer les deux polynômes sous la forme : ¶ µ ¶ Y µ ¶ pe µ pe Y L L L 1¡ © (L) = = 1¡ 1¡ ¸i ¸j i=1;i6=j ¸i i=1 ¶ µ ¶ Y µ ¶ qe µ qe Y L L L £ (L) = 1¡ = 1¡ 1¡ ¹i ¹j i=1;i6=j ¹i i=1 ¡ ¢ ¡ ¢ ¡1 Dès lors, en divisant les deux polynômes par 1 ¡ L¸¡1 = 1 ¡ L¹ ; le processus j j fxt ; t 2 Zg peut se réécrire sous la forme : e (L) xt = £ e (L) "t , © µ pe Y i=1;i6=j L 1¡ ¸i ¶ µ ¶ qe Y L xt = 1¡ "t ¹i i=1;i6=j (2.1) Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 52 La représentation (2.1) correspond à la représentation minimale du processus fxt ; t 2 Zg : Bien entendu, dans cette représentation les degrés de la représentation ARM A seront strictement inférieurs à ceux de la représentation initiale, d’où un gain de degré de liberté au moment de la phase d’estimation. 2.2. Tests de signi…cativité des coe¢cients Quelle que soit la méthode d’estimation employée, il est possible de calculer la matrice de variance covariance des p + q + 1 estimateurs des paramètres d’un modèle ARM A (p; q) ; ¡ ¢ notés Á1 ; :::; Áp ; µ1 ; ::; µq ; ¾ 2" . Supposons que ¾ 2" est connu. En particulier pour l’estimateur du maximum de vraisemblance on a le résultat suivant : Theorem 2.1. L’estimateur du ³maximum de vraisemblance du vecteur des paramètres du ´ b b b b b modèle ARM A (p; q) ; noté ¢ = Á1 ; :::; Áp ; µ1 ; ::; µq ; est asymptotiquement distribué suivant une loi normale de moyenne ¢ et de variance covariance ³ ´ b¢ b 0 = F ¡1 E ¢ (2.2) où F désigne la matrice d’information de Fischer F =¡E @ 2 L (x; ¢) @± i @± j (± i ; ± j ) 2 ¢2 (2.3) Partant de la matrice de variance covariance des estimateurs du maximum de vraisemblance, il est possible de reconstruire les statistiques de Student associées aux di¤érents paramètres du modèle ARMA: Sur le plan appliqué, lorsque le processus fxt ; t 2 Zg est sta- tionnaire, on peut montrer que la distribution asymptotique de ces statistiques de Student sont asymptotiquement distribuées selon une loi normale. Donc, on peut appliquer à ces estimateurs les méthodes d’inférence traditionnelles. Remark 1. Si l’on montre que l’un ou plusieurs paramètres du modèle ne sont pas signi…cativement di¤érents de 0, on estime à nouveau le modèle en excluant les variables correspondantes (erreur de spéci…cation). 2.3. Coe¢cient de détermination Tout comme dans le cas des modèles linéaires standard, le coe¢cient de détermination donne une information sur la part de la variance de la variable endogène (ici xt ) qui peut être expliquée par le modèle estimé. Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 53 Rappels On considère un processus stationnaire fxt ; t 2 Zg satisfaisant une représentation ARM A (p; q). On note b "t le résidu d’estimation du modèle. Les coe¢cients de déter2 mination R2 et R sont alors dé…nis par : R2 = 1 ¡ PT PT t=1 "t t=1 b (xt ¡ x)2 PT b "t T ¡1 R =1¡ PT t=1 T ¡ p ¡ q t=1 (xt ¡ x)2 2 2 On utilise de préférence le R puiqu’il permet de prendre en compte le nombre de variables explicatives, c’est à dire les p termes retardés de l’AR et les q retards de la composante M A: Bien entendu ces coe¢cients sont proches de 1 lorsque l’ajustement du modèle aux données P "t tend vers 0. est parfaite, c’est à dire si Tt=1 b 2.4. Test de Bruit Blanc Lorsque le processus est bien estimé, les résidus entre les valeurs observées et les valeurs estimées par le modèle doivent se comporter comme un bruit blanc. On notera par la suite b "t le résidu d’estimation du modèle. 2.4.1. Test de nullité de la moyenne des résidus Soit T le nombre de données disponibles (après avoir enlevé les retards correspondant aux termes AR et M A): Si le processus f"t ; t 2 Zg est i:i:d: (0; ¾ 2" ) ; on doit avoir: T 1X "t = b "t ¡! 0 T t=1 T !1 Par application du théorème central limite, on montre que : "t p L T ¡! N (0; 1) T !1 ¾ b "t Dès lors, on peut tester la nullité de la moyenne des résidus en construisant l’intervalle de con…ance sur "t au seuil standard de 95%. ½ · ¸¾ ¡1:96b ¾ "t 1:96b ¾ "t p P "t 2 ; p = 0:95 T T Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 54 2.4.2. Test d’autocorrélation des résidus Si les résidus f"t ; t 2 Zg obéissent à un bruit blanc, il ne doit pas exister d’autocorrélation dans la série. On peut alors utiliser les di¤érents tests suivants : 1. Test de Durbin Watson : test de l’autocorrélation d’ordre 1. 2. Etude de la FAC et de la FAP : on doit véri…er qu’il n’existe aucune autocorrélation ou autocorrélation partielle signi…cativement non nulle pour le processus étudié. Cette étude est prolongé par les tests du ”porte-manteau” 3. Tests du ”porte-manteau” ou tests d’adéquation globale du modèle. Ces tests reposent sur l’idée que la FAC d’un bruit blanc ne doit pas révéler d’autocorrélations non nulles. En pratique, on utilise deux tests : Test de Box et Pierce : On note rk l’autocorrélation d’ordre k du processus f"t ; t 2 Zg : Pour un ordre K, le test de Box et Pierce est le test de l’hypothèse H0 : r1 = ::: = rK = 0 contre H1 : 9j 2 [1; K] ; tel que rj 6= 0: Pour un processus ARM A (p; q), la statistique de ce test est : QBP = T K X k=1 L rk2 ¡! X 2 (K ¡ p ¡ q) T !1 L’hypothèse H0 est rejetée au seuil de 5% si QBP est supérieur au quantile 0.95 de la loi du X 2 correspondant. Test de Ljung-Box1 : Ces statistiques, dé…nies pour un ordre K; correspondent à l’hypothèse nulle H0 : rk = 0 8k · K et sont construites de la façon suivante : QK = T (T + 2) K X k=1 rk2 L ¡! X 2 (K ¡ p ¡ q) T ¡ k T !1 1. Test de Von Neumann’s : on range par ordre croissant les valeurs des résidus. Soit Ri la nouvelle chronique obtenue, le coe¢cient du Von Neumann’s ratio test est RV N = TP ¡1 (Rt ¡ Rt+1 )2 t=1 TP ¡1 ¡ t=1 1 Sous Eviews noté Q-stats Rt ¡ R ¢2 Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 55 où R est la moyenne des Ri : L’hypothèse H0 d’indépendance des valeurs des résidus, est rejetée si RV N > ¿ où ¿ est la valeur critique de Bartels (à 95%, ¿ = 1:67): 2. Test du ”CUSUM” : Ce test permet d’étudier la stabilité du modèle estimé au cours du temps. Il existe deux versions de ce test : le CUSUM fondé sur la somme cumulée des résidus récursifs et le CUSUM SQ fondé sur la somme cumulée du carré des résidus récursifs. On note e "t le résidu normalisé par son écart type, tel que e "t = b "t =¾b" : On note k le nombre de paramètre à estimer du modèle. Soit la statistique St du CUSUM 0 et la statistique St du CUSUM SQ, on a : St = (T ¡ k) t P j=k+1 t P j=k+1 0 St = t P j=k+1 T P j=k+1 e "2j e "j t = k + 1; :::; T e "2j t = k + 1; :::; T e "2j Si les coe¢cients sont stables au cours du temps, alors les résidus récursifs St doivent rester dans l’intervalle dé…ni par · ® (2t + T ¡ 3k) p § T ¡k ¸ où ® = 1:143; 0.948, 0.850 pour des seuils respectivement égaux à 1%, 5% et 10%. De 0 la même façon, les résidus St doivent être compris dans l’intervalle · ¸ (t ¡ T ) §C T ¡k où C est la statistique de Kolmogorov-Smirnov. 2.4.3. Test d’homoscédasticité Un bruit blanc est par dé…nition homoscédastique. Tous les tests d’hétéroscédasticité peuvent ici être employés. Test de Chow (comparaison des variances des résidus sur des sous périodes de la chronique), Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 56 2.5. Tests de normalité Pour véri…er si le processus des résidus f"t ; t 2 Zg est un bruit blanc gaussien, plusieurs tests peuvent être utilisés, mais le test le plus courant est celui de Jarque et Bera. Ce dernier est fondé sur la notion de skewness (moment d’ordre 3 et asymétrie) et de Kurtosis (moment d’ordre 4 et queue de distribution). Soit ¹k le moment empirique d’ordre k du processus f"t ; t 2 Zg : ¹k = t 1X (b "t ¡ "t )k T i=1 Les coe¢cients de la Skewness (Sk ) et de la Kurtosis (Ku ) est alors dé…nie par à r ! ¹ 6 L 3 (Sk )1=2 = 3=2 ¡! N 0; T ¹2 T !1 ¹ L Ku = 42 ¡! N ¹2 T !1 à r 3; 24 T ! 1=2 On construit alors les statistiques centrées réduites correspondantes à Sk et Ku que l’on compare aux seuils d’une loi normale centrée réduite. (Sk )1=2 L q ¡! N (0; 1) T !1 6 T Ku ¡ 3 L q ¡! N (0; 1) T !1 24 T 1=2 Si la statistique centrée réduite de Sk est inférieure au seuil 1:96 à 5%, on accepte l’hypothèse de symétrie et l’hypothèse de normalité. Si la statistique centrée réduite de Ku est inférieure au seuil 1:96 à 5%, on accepte l’hypothèse de queue de distributions plates et l’hypothèse de normalité. Le test de Jarque et Bera regroupe ces deux tests en un seul test. On construit la statistique : T T L Sk + (Ku ¡ 3)2 ¡! X 2 (2) T !1 6 24 2 Donc si s ¸ X1¡® (2) on rejette l’hypothèse H0 de normalité des résidus au seuil de ®%: s= Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 57 2.6. Critères de comparaison des modèles Au delà des critères standard (MSE, MAE, RMSE, FPE etc..), on étudiera les critères propres aux modèles autorégressifs. 1. Critère de Akaike ou AIC : Le meilleur des modèles ARM A (p; q) est le modèle qui minimise la statistique : ¡ ¢ AIC (p; q) = T log ¾b2"t + 2 (p + q) (2.4) 2. Le critère d’information bayésien (ou BIC) : ce critère présente l’avantage de plus pénaliser les modèles où les paramètres sont en surnombre comparativement à l’AIC ¸ · ¡ 2¢ (p + q) (2.5) BIC (p; q) = T log ¾b"t ¡ (n ¡ p ¡ q) log 1 ¡ T · µ ¶¸ ¾ 2xt ¡1 + (p + q) log (T ) + log (p + q) ¾b2"t ¡ 1 3. Le critère de Schwarz (1978) : ¡ ¢ SC (p; q) = T log ¾b2"t + (p + q) log (T ) 4. Le critère de Hannan-Quin (1979) : HQ (p; q) = log où c est une constante à spéci…er. ¡ ¾b2"t ¢ · log (T ) + (p + q) c log T ¸ 3. Prévision 3.1. Transformation de la série Lorsque pour identi…er le processus étudié à un processus ARM A; on a appliqué di¤érentes transformations (exemple di¤érenciation dans le cas d’une série I (1)); il est nécessaire lors de la phase de prévision de prendre en compte la transformation retenue et de ”recolorer la prévision”. Plusieurs cas sont possibles : ² Si le processus contient une tendance déterministe, on extrait cette dernière par régres- sion a…n d’obtenir une série stationnaire lors de la phase d’estimation. Ensuite, lors de la phase de prévision, on adjoint aux prévisions réalisées sur la composante ARMA stationnaire, la projection de la tendance. Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 58 ² Si la transformation résulte de l’application d’un …ltre linéaire (de type par exemple di¤érences premières), on réalise les prévisions sur la série …ltrée stationnaire et l’on reconstruit ensuite par inversion du …ltre les prévisions sur la série initiale. 3.2. Prédicteur pour un processus ARMA On considère un processus ARM A (p; q) tel que : xt = Á1 xt¡1 + ::: + Áp xt¡p + "t + µ 1 "t¡1 + :: + µq "t¡q ¡ ¢ avec Áp ; µq 2 R2¤ et "t i:i:d: (0; ¾ 2" ) : Appliquons le théorème de Wold au processus fxt ; t 2 Zg et considérons la forme M A (1) correspondante : xt = 1 X ¼ j "t¡j ¼ 0 = 1 (3.1) j=0 Il s’ensuit que la meilleure prévision que l’on peut faire de xt+1 compte tenu de toute l’information disponible jusqu’à la date t; notée x bt (1) ; est donnée par : x bt (1) = E (xt+1 / xt ; xt¡1 ; xt¡2 ; ::; x0 ) = E (xt+1 / "t ; "t¡1 ; "t¡2 ; ::; "0 ) 1 X = ¼ j "t+1¡j (3.2) j=1 Dès lors, l’erreur de prévison est donnée par la réalisation en t + 1 de l’innovation qui en t n’est pas connue : xt+1 ¡ x bt (1) = "t+1 (3.3) Plus générallement pour une prévision à un horizon k on a : x bt (k) = 1 X ¼ j "t+k¡j (3.4) j=k xt+k ¡ x bt (k) = k¡1 X ¼ j "t+k¡j (3.5) j=0 Déterminons un intervalle de con…ance sur la prévision x bt (k) ; sous l’hypothèse de nor- malité des résidus "t . On montre alors que : xt+k ¡ x bt (k) var [xt+k ¡ x bt L ¡! 1=2 T !1 (k)] N (0; 1) Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA Or on sait que : 2à !2 3 k¡1 k¡1 X X © ª E [xt+k ¡ x bt (k)]2 = E 4 ¼ j "t+k¡j 5 = ¼ 2j ¾ 2" j=0 D’où j=0 xt+k ¡ x bt (k) L N (0; 1) hP i1=2 T¡! !1 k¡1 2 ¾" j=0 ¼ j On peut donc construire un intervalle de con…ance sous la forme : 2 à k¡1 !1=2 3 X IC = 4x bt (k) § t®=2 ¼ 2j ¾ b" 5 j=0 59