SERIES CHRONOLOGIQUES
Transcription
SERIES CHRONOLOGIQUES
SERIES CHRONOLOGIQUES Cours Semestre 2 DUT STID – IUT Paris 5 PARTIE I : VOCABULAIRE DES SERIES CHRONOLOGIQUES 1. Définitions Une série chronologique T ={t 1, t 2, ... , t n } . { y t }t T est une suite d'observations indexées par un ensemble ordonné Remarque 1 : Une série chronologique se définit aussi comme une série statistique bidimensionnelle t , y t avec t T , où la première composante du couple t est le temps et la deuxième composante est une variable numérique y t prenant ses valeurs aux instants t . Les valeurs de la première t sont rangées dans l'ordre chronologique, ce qui confère à la série statistique t , y t des propriétés particulières. Pour indiquer cette chronologie, les points du nuage de points t , y t sont reliés composante entre eux par des segments de droite. Remarque 2 : Une série chronologique est encore appelée chronique ou série temporelle. Quelques exemples de séries évoluant en fonction du temps : En Economie : Evolution d'indices (INSEE, chambre de commerce, bourse, ...), consommation d'un bien, ... En Démographie : Population urbaine, rurale, d'un pays, comportement des familles : mariages, naissance. Naissances et Décès en Russie depuis 1959 En Epidémiologie : Syndromes grippaux, testsVIH. Météorologie : Pluie, température, débit des cours d'eaux, ... Activité humaine : Trafic routier, trafic téléphonique. On supposera dans toute la suite que les dates sont équidistantes (sauf mention du contraire) et donc nous adopterons la notation simplifiée pour l'ensemble d'indice T ={1, 2 , ... , n } et donc pour la série y t ={ y t }t=1, ... , n . En pratique, la série chronologique y t est donnée sous forme d'un tableau bidimensionnel où la date peut être remplacée par le numéro d'observation t : Nombre mensuel de tests VIH pratiqués en 1998 : t 1 2 3 4 5 6 7 8 9 10 11 12 date 01/98 02/98 03/98 04/98 05/98 06/98 07/98 08/98 09/98 10/98 11/98 12/98 yt 53888 41835 44224 51768 68655 71641 57772 73634 46192 51288 49238 36121 y t est la résultante de différentes composantes fondamentales : ● La tendance (ou trend) f t représente l'évolution à long terme de la série y t étudiée : elle On considère qu'une série traduit le comportement "moyen" de la série. ● La composante saisonnière ou saisonnalité st correspond à un phénomène qui se répète à intervalles de temps réguliers (périodique). En général, c'est un phénomène saisonnier d'où le terme de variations saisonnières. La composante saisonnière est donc périodique de période p et il suffit de connaître ses p premières valeurs s 1, s 2, ... , s p (par périodicité, on a s t =s t p pour tout t ). e t : ce sont des fluctuations irrégulières, en général de faible intensité mais de nature aléatoire. On parle aussi des aléas e t . ● La composante résiduelle ou bruit ou résidu 2. Modélisations 2.1. Modèles de Décomposition Déterministes 2.1.1. Additif (A) y t = f t s t e t avec t=1, ... , n. Dans le modèle additif, l'amplitude de la composante saisonnière et du bruit reste constante au cours du temps. Ceci se traduit graphiquement par des fluctuations autour de la tendance d'amplitude constante. Hypothèses : pour des raisons d'unicité d'écriture de la décomposition (A), on suppose que : p ∑ s j =0 et j=1 n ∑ e t =0 . t=1 ainsi, on est assuré que les composantes s t et e t sont centrées et donc toute l'information concernant la tendance c'.-à-d. le comportement "moyen" est uniquement contenu dans la composante f t . Modèle Additif : Ventes d'un produit P 120 110 Ventes (en milliers) 100 90 80 70 60 50 40 30 20 1 2 3 4 5 6 7 8 9 10 Trimestres de 1995 à 1999 11 12 13 14 15 16 2.1.2. Multiplicatif (B) y t = f t ×st ×e t avec t=1, ... , n. Dans ce modèle, l'amplitude de la composante saisonnière et du bruit n'est plus constante au cours du temps : elles varient au cours du temps proportionnellement à la tendance f t . Hypothèses : pour assurer la cohérence de l'écriture de la décomposition (B), on suppose que : p ∑ s j= p j=1 et n 1 ∑ e =1 . n t=1 t Par analogie avec le modèle additif, ces hypothèses induisent une autre écriture du modèle par un simple changement de variable : En posant s j =1 s j et e t =1 et , le modèle multiplicatif peut également être défini par : (B') y t = f t ×1 st ×1 et avec t=1, ... , n. avec les hypothèses p ∑ sj =0 et j=1 n ∑ et =0 . t=1 Ventes (en milliers) Modèle Multiplicatif : Ventes d'un produit Q 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Trimestres de 1995 à 1999 2.2 Modèles Stochastiques Ils ne seront pas envisagés dans ce cours, mais il est possible de modéliser la série des résidus e t par des modèles aléatoires. Une partie importante de l'analyse des séries chronologiques est consacrée aux modèles linéaires ARMA (Auto-Regressive Moving-Average) et de nombreux logiciels de statistique proposent des procédures basées sur ces méthodes (SAS, SPSS). Dans toute la suite de ce cours nous ne nous intéresserons pas à la modélisation des aléas. 3. Objectifs 3.1. La description Analyser, décrire un phénomène au cours du temps et en tirer les conséquences par exemple pour des prises de décision (marketing, ...). 3.2. Le contrôle pour la gestion de stocks, contrôle d'un processus chimique. 3.3. La détection de rupture Il arrive souvent qu'une série chronologique soit affectée par la survenue d'événements accidentels (grèves, changement de législation, catastrophe climatique). Ces «interventions » vont parfois modifier brutalement la tendance de la série se traduisant par des données aberrantes. 3.4. La prévision y 1, y 2, ... , y n , on veut prédire les valeurs futures y n1 , y n2 , ... Nous utiliserons Ayant observé essentiellement les modèles de décomposition pour faire de la prévision. Les méthodes de ce cours visent à faire des prévisions à court terme et à proposer des modélisations pour la tendance f t et la composante saisonnière st . On appelle alors prévision à l'horizon série à la date t=nh . h la valeur y nh qui fournit une évaluation de la valeur de la TP 1 : Simulations de modèles, décompositions additives et multiplicatives : à effectuer à partir du Mercredi 30/03/05. PARTIE II : AJUSTEMENT DE LA TENDANCE 1. Lissages Moyenne-Mobile Les moyennes mobiles permettent de lisser directement la série sans hypothèse a priori sur la forme du modèle sous-jacent. La méthode est donc valable quel que soit le modèle de décomposition. Pour cette raison, on peut classer ce type de lissage dans les méthodes non-paramétriques (par opposition aux méthodes paramétriques qui seront abordées dans la partie suivante). Avantages : Outil simple à mettre en oeuvre qui met en évidence l'allure de la tendance en supprimant la composante saisonnière et en atténuant le bruit. 1.1 Moyennes Mobiles Simples La série des moyennes mobiles d'ordre k , notée MM k t , est la série des moyennes de k observations consécutives et elle prend ses valeurs aux dates moyennes correspondantes. Plus précisément, on calcule les moyennes de k termes consécutifs pour les dates : t 1t 2...t k k puis t 2t 3...t k1 ... jusqu'à k t n−k t n−k1...t n . k et pour la variable d'intérêt : y 1 y 2... y k y 2 y 3... y k 1 y n−k y n−k 1... y n puis ...jusqu'à . k k k Remarque 1 : Si k est impair : k =2 m1 , la série moyenne mobile est calculée aux mêmes instants que les observations initiales t=2,3 ,4 ,5 . En revanche, lorsque k est pair k =2 m , la moyenne mobile est calculée entre les dates d'observations t=1,5 ; 2,5 ; 3,5 ; 4,5 ;5,5 . Remarque 2 : On perd k −1 observations avec une moyenne mobile d'ordre k . Pour la simplicité de la présentation, on considérera que les observations sont équidistantes. Ainsi, il est toujours possible de « recoder » les dates d'observations par t=1,2 ,... , n . Alors on a : Pour k =2 m1 : MM k t ' =MM k t = Pour y t−m... y t ... y tm avec t ' =t=m1, ... , n−m. 2 m1 k =2 m : y ... y t ... y tm avec t ' = MM k t ' = t−m1 2m tt1 2. Exemple : Calcul d'une Moyenne Mobile d'ordre 2 : Date yt t 1 5 2 3 3 4 4 5 5 4 6 4 Date de la moyenne mobile t ' MM 2t (1+2)/2=1,5 (5+3)/2=4 (2+3)/2=2,5 (3+4)/2=3,5 (3+4)/2=3,5 (4+3,5)/2=3,75 (4+5)/2=4,5 (3,5+4)/2=3,75 (5+6)/2=5,5 (4+4)/2=4 Exemple : Calcul d'une Moyenne Mobile d'ordre 3 : t Date 1 5 2 3 3 MM 3t Date de la moyenne mobile t ' yt (1+2+3)/3=2 (5+3+4)/3=3 (2+3+4)/3=3 (3+4+3,5)/3=3,5 (3+4+5)/3=4 (4+3,5+4)/3=3,83 (4+5+6)/3=5 (3,5+4+4)/3=3,83 4 4 3,5 5 4 6 4 yt Exercice 1 : Calculer les séries des moyennes-mobiles d'ordre 2, 3 et 4 de la série initiale suivante : t yt 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 30 15 5 30 36 18 9 36 45 15 10 60 48 16 8 72 1.2. Moyennes Mobiles Centrées On a vu qu'une moyenne mobile d'ordre pair se calcule à des dates qui ne coïncident pas avec les dates des observations. Si l'on veut comparer la série lissée avec la série initiale, on a besoin d'avoir les valeurs pour les mêmes dates d'observations. On définit les moyennes mobiles centrées pour pallier cet inconvénient des moyennes mobiles d'ordre pair. Avec les notations du paragraphe précédent, on définit la série des moyennes mobiles centrées d'ordre k =2 m , notée MMC k t , à partir de la moyenne mobile d'ordre pair MM k t par : MM k t ' MM k t ' 1 0,5 × y t−m... y t ...0,5 × y tm avec = 2 2m t=m1, ... , n−m. MMC k t = Exercice 2 : Reprendre la série centrées d'ordre 2 et 4. y t de l'exercice 1 et calculer les séries des moyennes-mobiles 1.3. Moyennes Mobiles Pondérées Les moyennes mobiles simples sont des moyennes équipondérées (chaque observation a le même poids). Les moyennes mobiles centrées accordent 2 fois moins de poids aux 2 valeurs extrêmes. De façon générale, on peut définir des moyennes mobiles pondérées par des poids i . Par exemple, si l'on veut accorder plus d'importance aux observations centrales. La série des moyennes mobiles pondérées est définie par : m MMP k t = ∑ i y ti avec i=−m m ∑ i =1 i=−m Notation : On adopte souvent la notation suivante pour désigner le type de moyenne mobile considéré où la valeur des pondérations apparaît entre crochet : MMC 4=[1/8 ;1/ 4 ; 1/ 4 ;1/ 4 ;1/8] ou MMC 12=[1/ 24 ; 11 ∗1/12 ;1/ 24] 1.4. Propriétés d'un lissage par moyennes mobiles ● Suppression de la composante saisonnière y t possède une composante saisonnière de période p alors l'application d'une moyenne mobile d'ordre p supprime cette saisonnalité . La série MM pt ou MMC pt ne possède plus de composante saisonnière de période p . Propriété : Si la série Elimination de la composante saisonnière de période p=12 par lissage moyenne mobile 130 Indice CA 120 CA MMC(12) MMC(6) 110 100 90 80 1 3 2 5 4 7 6 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 56 58 60 62 64 66 68 70 72 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 57 59 61 63 65 67 69 71 73 Mois ● Atténuation de la composante résiduelle Par construction, une moyenne mobile consiste à faire des moyennes partielles de proche en proche. On obtient donc un "lissage" de la série. L'effet de la composante irrégulière est d'autant atténué que l'ordre de la moyenne mobile est grand. Atténuation des fluctuations irrégulières par application de Moyennes Mobiles d'ordre élevé 125 120 115 110 105 100 95 90 Série initiale (Yt) MM(3) MM(5) MM(9) MM(15) MM(25) 85 Série 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 1 3 2 5 4 7 6 9 8 11 10 13 12 15 14 17 16 19 18 21 20 23 22 25 24 27 26 Mois 29 28 31 30 33 32 35 34 37 36 39 38 41 40 43 42 45 44 47 46 49 48 50 ● Conservation de la tendance Nous considérons des moyennes mobiles simples ou centrées. Propriété : ● L'application d'une moyenne mobile (d'ordre quelconque) ne modifie pas une tendance constante. ● L'application d'une moyenne mobile conserve une tendance linéaire. 1.5. Choix pratique de l'ordre d'une moyenne mobile Nous rappelons que le but d'un lissage par moyenne mobile est de faire apparaître l'allure de la tendance. On fait disparaître la composante saisonnière de période p avec une moyenne mobile d'ordre p .On gomme d'autant le bruit que l'ordre de la moyenne mobile est élevé. Mais, on perd les caractéristiques de la tendance avec une moyenne mobile d'ordre trop élevé (jusqu'à obtenir une tendance constante). En pratique on doit trouver le meilleur compromis pour le choix de l'ordre de lissage optimal. Remarque : Dans tout ce qui précède, on peut remplacer la moyenne par la médiane et on obtient alors un lissage par médianes mobiles : ce procédé a pour avantage d'être moins sensible aux valeurs aberrantes. TP 2 : Lissages Moyennes-Mobiles : à effectuer à partir du Mercredi 13/04/05. 2. Ajustements Paramétriques Nous supposerons dans ce paragraphe que le modèle ne comporte plus de saisonnalité : la série a été au préalable corrigée des variations saisonnières. Pour le modèle additif, on a donc y t = f t e t . Une famille importante de méthodes d'ajustements est constituée par les modèles paramétriques. On va f t de la série est une courbe d'équation f t = f t où est un supposer que la tendance paramètre. Ainsi, après examen graphique de la série, on doit choisir une forme de courbe dans un « catalogue » de fonctions données puis on ajuste la(les) courbe(s) retenue(s) aux données en cherchant une valeur de . 2.1. Quelques Modèles de tendance L'analyse graphique de la série doit permettre de se déterminer en faveur d'une courbe dont l'équation donnera un ajustement paramétrique de la tendance. Il est donc important de savoir caractériser le type de courbe en présence (cf. graphiques). 2.1.1 Droite On parle alors d'ajustement linéaire. La variation de y t est proportionnelle à celle de t . f t =a tb avec =a , b 2.1.2. Parabole f t =a t 2 b tc avec =a , b , c 2.1.3. Courbe polynômiale f t =a p t p a p−1 t p−1...a 1 ta 0 avec =a 0 , a 1 , ... , a p 2.1.4. Courbe exponentielle f t =a expbt c avec =a , b , c 2.1.5. Courbe logarithmique f t =a ln t b avec =a , b 2.1.6. Hyperbole f t =1/a tb avec =a , b 2.1.7. Courbe logistique f t =1/b exp−a t c avec =a , b , c 2.1.8. Courbe de Gompertz (ou Double Exponentielle) f t =exp {a e bt c } avec =a , b , c Linéaire 45 Parabole 850 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 40 35 30 25 20 15 10 5 0 1 1 2 3 4 5 6 7 8 9 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 10 11 12 13 14 15 16 17 18 19 20 tendance polynômiale 3500 Exponentielle 55000 3250 3000 50000 2750 45000 2500 40000 2250 35000 2000 1750 30000 1500 25000 1250 20000 1000 15000 750 500 10000 250 5000 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 2 Logarithmique 7,5 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Exponentielle négative (asymptote horizontale) 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 7 6,5 6 5,5 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 0 2,5 5 7,5 10 12,5 15 Dates 17,5 20 22,5 25 27,5 30 2.2. Ajustements Linéaires Revenons sur le modèle linéaire. On choisit d'ajuster une droite aux données. L'équation de la tendance est donc : f t =a tb avec =a , b En pratique, on cherche une méthode d'évaluation du paramètre =a , b à partir des données. L'idée est de minimiser un critère d'erreur donné. On peut envisager de minimiser : n ● la somme des erreurs en valeurs absolue : min a , b ∑ ∣ y t −at−b∣ t=1 n ● la somme des erreurs au carré : min a , b ∑ y t −at−b 2 t=1 2.2.1 La méthode des Moindres Carrés On démontre en minimisant la fonction de deux variables n est : ℊ a , b=∑ y t −at−b2 que le couple solution a , b t=1 a =Cov yt − a t t ; y t et b= 2 t avec n n 1 1 Cov t ; y t = ∑ t−t y t − yt = ∑ t y t −t × yt n t =1 n t=1 n n n et ; ; 1 1 1 t = ∑ t yt = ∑ y t t2=Var t = ∑ t−t 2 n t=1 n t=1 n t=1 Propriétés importantes : t ; yt appartient à la droite des moindres carrés. ● Le point moyen de coordonnées ● Le coefficient de corrélation linéaire est défini par : r=Cov t ; y t 2 t ×Var y t La corrélation linéaire entre la date t et la variable de 1. La variance de y t est d'autant plus importante que ∣r∣ est proche y t se décompose de la façon suivante (formule de décomposition de la variance) : Var y t =Var y t Var y t − y t totale expliquée résiduelle La proportion de variance expliquée par le modèle linéaire est donnée par : Var y t /Var y t 2.2.2 La Méthode des 2 points Cette méthode est empirique et ne repose sur aucun critère d'erreur à minimiser. Nous verrons cependant qu'elle peut s'avérer efficace en présence de valeurs aberrantes (cf. TP3). Principe : On va choisir deux points de coordonnées par ces deux points. Leurs coordonnées t I ; y I et vérifient : a , b t II ; y II et on fait passer la droite y I = a t I b soit y II = at II b y II − y I t II −t I y − yI y I − II b= t t II −t I I a = Choix des 2 points : On constitue deux sous-séries d'observations en général d'effectifs égaux (à 1 près). Puis on prend les points médians de chaque sous-série. On peut également prendre les points moyens ou choisir "à la main" des points judicieux. 2.2.3. Illustration des 2 méthodes : La série y t ci-dessous représente les montants rapportés par l'industrie automobile au Trésor public belge (en milliers de francs belges) : t yt 1970 1971 32 38 1972 48 1973 52 1974 61 1975 73 1976 80 1977 84 1978 95 Méthode des Moindres Carrés : a =Cov t ; y t 2 t ≃ et b= yt − a t ≃62,56 −7,92 ×1974 ≃−15 565 52,78 ≃7,92 6,67 avec Cov t ; y t =52,78 et t =1974 ; yt =62,56 ; 2=Var t =6,67 t Méthode des deux points médians : Les points médians des deux sous-séries sont : t I =1971,5 y I =43 d'où : t II =1976 y II − y I 80−43 = ≃8,22 t II −t I 1976−1971,5 y − yI 80−43 b = y I − II t =43− ×1971,5 ≃−16167 t II −t I I 1976−1971,5 y II =80 a = Montants (en milliers de francs belges) TP 3 : Méthode des MC et méthode des 2 points : à effectuer à partir du Mercredi 11/05/05. Recettes de l'automobile 110 100 90 80 70 60 50 Recettes Droite des Moindres Carrés Droite des 2 points médians 40 30 20 10 0 1970 1971 1972 1973 1974 1975 Années 1976 1977 1978 1979 1980 2.3. Ajustements Non- Linéaires 2.3.1. Changement de Variable Une façon simple consiste à se ramener à un ajustement linéaire après un changement de variable adéquat. Evidemment, ce procédé n'est pas toujours possible et on verra en deuxième année qu'il existe des méthodes d'ajustement non-linéaires directes. C'est la représentation graphique qui va nous guider pour le choix d'un changement de variable. (cf. T.P.4) y t =a t 2 b en posant z t =t 2 on se ramène à y t =a z t b et on peut faire un ajustement linéaire entre y t et z t . Si y t =b expat en posant z t =ln y t , on obtient z t =a tln b . On peut donc faire un ajustement linéaire entre z t et t . Exemples : Si 2.3.2. Erreurs de Prévision On définit la prévision paramétrique donnée par un y th= a th b . Exemple : modèle à l'horizon h par y th= f th . Pour juger de l'adéquation d'un modèle, on peut représenter les erreurs de prévisions et calculer la somme des erreurs de prévision au carré appelée MSE (de l'anglais Mean Squared Error). Les erreurs de prévisions sont définies par err t = y t − y t et on a : n n MSE=∑ err t =∑ y t − y t t=1 2 2 t=1 TP 4 : Changement de variables, prévisions, erreur de prévisions : à effectuer à partir du Mercredi 25/05/05.