SÉRIES CHRONOLOGIQUES
Transcription
SÉRIES CHRONOLOGIQUES
GEA1 – MATHÉMATIQUES POUR LA GESTION ET STATISTIQUES (M1205) SÉRIES CHRONOLOGIQUES Une série chronologique est une série statistique dont la première des deux variables est le temps. Dans les exemples traités dans ce chapitre, les modalités de cette variable temporelle sont distribuées uniformément (autrement formulé : elles sont régulières) ; nous les noterons 1, 2, 3, etc. (valeurs qui correspondent aux instants où sont effectuées la 1e mesure, la 2e mesure, la 3e mesure, etc.). Les séries chronologiques étudiées dans ce chapitre seront par conséquent notées (t ; y t ), avec 1 ¶ t ¶ N. Dans le terme y t , on met en évidence trois composantes : x la tendance générale g t (on emploie souvent le terme anglo-saxon trend), qui correspond à l’évolution à long terme de la série ; x la composante saisonnière corrigée s t∗ , qui correspond à des fluctuations périodiques qui se reproduisent de façon plus ou moins identique d’une période à l’autre — en général, la période considérée dans les différentes situations est l’année (d’où le qualificatif « saisonnier »), plus rarement la semaine — ; x la composante aléatoire a t (ou résiduelle, ou encore irrégulière ; on parle aussi de variation accidentelle), qui correspond à des fluctuations irrégulières et imprévisibles ; elles sont censées être de faible amplitude. 1 Modèle additif On peut considérer que le terme général y t est la somme des trois composantes mentionnées ci-dessus : c’est le modèle additif. On a alors : y t = g t + s t∗ + a t . Dans ce modèle, le nuage de points a une enveloppe d’épaisseur plus ou moins constante. Pour déterminer la tendance générale, plusieurs méthodes sont envisageables : x un ajustement, affine ou non, en fonction de la forme générale du nuage de points (dans le cas d’un ajustement affine, on peut déterminer la droite de Mayer du nuage ou appliquer la méthode des moindres carrés) ; x effectuer un lissage (c’est-à-dire éliminer certaines irrégularités) à l’aide de la méthode des moyennes mobiles, présentée ci-après. Les moyennes mobiles d’ordre k, k désignant un entier supérieur ou égal à 2, sont les moyennes (arithmétiques) : x des cycles de k observations consécutives, lorsque k est impair ; x des cycles de (k + 1) observations consécutives, lorsque k est pair, avec une pondération moitié pour les valeurs extrêmes. Séries chronologiques IUT Calais–Boulogne t yt 1 y1 2 y2 3 y3 4 moyenne mobile d’ordre 2 1 y1 2 2 1 y2 2 2 1 y3 y4 5 y5 6 y6 2 2 1 y4 2 2 + y2 + + y3 + + y4 + + y5 + moyenne mobile d’ordre 3 1 y3 2 y4 3 1 2 y5 3 1 2 y6 3 1 2 3 moyenne mobile d’ordre 4 y1 + y2 + y3 y2 + y3 + y4 1 y1 y3 + y4 + y5 4 y4 + y5 + y6 4 2 1 y2 2 + y2 + y3 + y4 + + y3 + y4 + y5 + y5 2 y6 2 Les différences y t − g t permettent de déterminer les coefficients saisonniers : la moyenne de ces données sans tendance en donne une première estimation. x EXEMPLE 1. Intéressons-nous au chiffre d’affaires mensuel, exprimé en milliers d’euros, d’un magasin, relevé durant trois chiffre d’affaires mensuel (en milliers d’euros) années consécutives. janv. fév. mars avr. mai juin juil. août sept. oct. nov. déc. 2007 312 315 291 307 305 303 320 328 298 309 310 334 2008 315 319 299 314 306 304 325 331 304 310 317 332 2009 320 324 302 318 309 308 330 333 309 315 319 339 340 330 320 310 300 290 280 série brute y t tendance générale g t = a t + b série CVS y t − s t = g t + a t 270 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 00 00 00 00 00 00 00 00 00 00 00 00 9 9 9 9 8 8 8 8 7 7 7 7 La tendance générale est ici déterminée par la méthode des moindres carrés. La droite de régression (de y en t ) a pour équation y = at + b , avec a ≈ 0,414 et b ≈ 307,2. Dans le tableau ci-dessous sont reportées les données sans tendance, c’est-à-dire les nombres y t − (0,414t + 307,2). janv. fév. mars avr. mai juin juil. 9,927 août sept. oct. nov. déc. 2007 4,410 6,996 −17,418 −1,832 −4,246 −6,660 2008 2,443 6,029 −14,385 0,201 2009 2,476 6,062 −16,351 −0,765 −10,179 −11,593 9,993 12,579 −11,835 −6,249 −2,663 16,923 st 3,110 6,363 −16,051 −0,799 −7,546 −9,626 15,212 −12,201 −4,949 −1,363 17,890 −8,212 −10,626 9,960 –2– 9,960 17,513 −12,901 −2,315 −1,729 21,857 15,546 −11,868 −6,282 0,304 14,890 Séries chronologiques IUT Calais–Boulogne Pour déterminer les coefficients saisonniers, on calcule la moyenne des données sans tendance pour chacun des 12 mois (ou chaque jour de la semaine si les observations sont quotidiennes, ou chacun des 4 trimestres si elles sont trimestrielles, etc.) : on obtient ainsi 12 coefficients saisonniers s1 , s2 , . . . , s12 : un pour chaque mois de l’année. Ainsi, le coefficient s1 est le même pour tous les mois de janvier des trois années, ce qui se traduit par les égalités s1 = s13 = s25 . On appelle série désaisonnalisée ou série corrigée des variations saisonnières (en abrégé : CVS) la série chronologique (t ; y t − s t ), ou (t ; y t − s t∗ ) si les coefficients saisonniers ne sont pas centrés. [Extrait du site insee.fr] La correction des variations saisonnières est une technique que les statisticiens emploient pour éliminer l’effet des fluctuations saisonnières normales sur les données, de manière à en faire ressortir les tendances fondamentales (tendance et composante irrégulière). Ainsi, par exemple, le taux de chômage désaisonnalisé supprime les variations dues au profil saisonnier habituel d’embauche pendant l’été et de mise à pied pendant l’hiver dans des secteurs d’activité comme l’agriculture et la construction. La série ajustée (t ; y t −a t ) s’obtient en éliminant la composante aléatoire de la série brute ; c’est donc la somme de la tendance générale et de la composante saisonnière. Elle correspond aux variations de la grandeur observée si les variations saisonnières étaient parfaitement périodiques. Sur le graphique suivant, on peut comparer, dans le cadre de l’exemple 1, la série ajustée chiffre d’affaires mensuel (en milliers d’euros) avec la série d’origine : la différence entre les deux correspond à l’action de la composante aléatoire. 340 330 320 310 300 290 280 série brute y t tendance générale g t = a t + b série ajustée y t − a t = g t + s t 270 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 00 00 00 00 00 00 00 00 00 00 00 00 9 9 9 9 8 8 8 8 7 7 7 7 –3– Séries chronologiques IUT Calais–Boulogne x EXEMPLE 2. Reprenons les données de l’exemple 1, et calculons, cette fois, la tendance générale à l’aide de moyennes mobiles chiffre d’affaires mensuel (en milliers d’euros) d’ordre 4. Il est à noter que ces moyennes mobiles n’existent pas pour les 2 premiers mois ni pour les 2 derniers. 340 330 320 310 300 290 280 série brute y t tendance générale g t série CVS (y t − s t∗ ) 270 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 00 00 00 00 00 00 00 00 00 00 00 00 9 9 9 9 août sept. oct. nov. déc. 6,875 15 −14,5 −3 −4,875 15,75 8,75 14,25 −12,5 −5,625 −0,75 10,5 8 8 8 8 7 7 7 7 juil. Dans le tableau ci-dessous, on a indiqué les valeurs sans tendance, c’est-à-dire les nombres yt − janv. fév. 2007 1 y t −2 4 mars avr. −14,375 4 2 + y t −1 + y t + y t +1 + mai juin −0,125 −8,375 y t +2 2 . 2008 −3,125 4,75 −11,625 6,375 2009 −1,375 6,25 −12,625 6,75 −3,75 −10,125 10 st −2,25 5,5 −12,875 5,708 −2,292 −9,625 8,542 13,792 −12,792 −4,458 −2,813 13,125 s t∗ −2,214 5,536 −12,839 5,745 −2,255 −9,589 8,578 13,828 −12,755 −4,422 −2,776 13,161 −3 −10,375 12,125 −11,375 −4,75 Chaque coefficient saisonnier est la moyenne des valeurs sans tendance figurant dans la même colonne. Ainsi, le coefficient s1 est le même pour tous les mois de janvier des trois années. Ces coefficients ne sont pas centrés. Habituellement, on les corrige pour que leur influence globale soit nulle sur une année entière. Pour ce faire, on leur soustrait leur moyenne s : s t∗ = s t − s = s t − 12 1 X 12 i =1 si (ici, s ≈ −0,036). Dans l’exemple 1, nous n’avons pas corrigé les coefficients saisonniers obtenus. En effet, c’était inutile : si la tendance a été obtenue par un ajustement affine (droite de Mayer ou droite des moindres carrés), alors les coefficients saisonniers non corrigés sont déjà centrés, donc s t∗ = s t . Cette correction n’est réellement pertinente que dans les autres cas de figure. –4– chiffre d’affaires mensuel (en milliers d’euros) Séries chronologiques IUT Calais–Boulogne 340 330 320 310 300 290 280 série brute y t tendance générale g t série ajustée y t − a t = g t + s t∗ 270 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 /2 10 /2 07 /2 04 /2 01 00 00 00 00 00 00 00 00 00 00 00 00 9 9 9 9 8 8 8 8 7 7 7 7 2 Modèle multiplicatif On emploie le modèle multiplicatif lorsque l’enveloppe du nuage de points « s’élargit » au fur et à mesure que la tendance générale croît (et est de plus en plus « resserrée » au fur et à mesure que le trend diminue — tout en restant positif !). Le terme y t est alors vu comme le produit de la tendance générale g t , de la composante saisonnière s t∗ et de la composante aléatoire a t : y t = g t × s t∗ × a t . x EXEMPLE 3. Le tableau ci-dessous indique le nombre de naissances par trimestre d’un Land allemand, au cours des dernières nombre trimestriel de naissances années. 2004 2005 2006 2007 2008 2009 2010 2011 trimestre 1 7 684 7 437 7 311 7 221 7 148 7 105 7 067 7 062 trimestre 2 7 899 7 705 7 616 7 471 7 336 7 189 7 146 7 128 trimestre 3 7 320 7 208 7 093 7 008 6 970 7 043 6 983 7 008 trimestre 4 7 683 7 450 7 298 7 184 7 231 7 206 7 185 7 088 7 900 7 800 7 700 7 600 7 500 7 400 7 300 7 200 7 100 7 000 20 20 20 20 20 20 20 20 11 10 09 08 07 06 05 04 –5– Séries chronologiques IUT Calais–Boulogne Au vu du nuage de points, la tendance est manifestement décroissante et l’enveloppe du nuage de points (représentée, sur le graphique ci-dessus, en pointillés rouges) est de moins en moins « épaisse » au fur et à mesure que le temps augmente. Le nombre trimestriel de naissances modèle multiplicatif est ici tout à fait approprié. 7 900 7 800 série brute y t tendance générale g t = a ln t + b série CVS y t /s t∗ = g t × a t 7 700 7 600 7 500 7 400 7 300 7 200 7 100 7 000 20 20 20 20 20 20 20 20 11 10 09 08 07 06 05 04 Compte tenu de la forme du nuage (décroissance de plus en plus lente), un ajustement logarithmique peut être envisagé. On applique la méthode des moindres carrés à la série (ln t ; y t ), où t vaut 1 pour le premier trimestre de 2004, 2 pour le second trimestre de 2004, etc., jusqu’à t = 32 pour le quatrième trimestre de 2011. On prouve alors que la droite de régression de y en z = ln t a pour équation y = −223,24z + 7 834,07 ; par conséquent, le nuage de points de coordonnées (t ; y t ) est réparti le long de la courbe d’équation y = −223,24 ln t + 7 834,07. C’est cette courbe qui nous donne la tendance générale de la série. Une fois le trend déterminé, on peut calculer les coefficients saisonniers. Il n’y en a que 4 : un pour les premiers trimestres de chaque année, un pour les seconds trimestres, etc. Dans le tableau suivant sont reportées les valeurs sans tendance, autrement dit les quotients y t / g t (on rappelle qu’ici g t = −223,24 ln t + 7 834,07) avec, en rouge, les valeurs de t : trimestre 1 trimestre 2 trimestre 3 trimestre 4 2004 t =1 0,980844 t =2 1,028606 t =3 0,964578 t =4 1,021053 2005 t =5 0,994947 t =6 1,036444 t =7 0,974099 t =8 1,010876 2006 t =9 0,995567 t = 10 1,040432 t = 11 0,971809 t = 12 1,002565 2007 t = 13 0,994428 t = 14 1,031205 t = 15 0,969359 t = 16 0,995688 2008 t = 17 0,992561 t = 18 1,020474 t = 19 0,971192 t = 20 1,009170 2009 t = 21 0,993095 t = 22 1,006297 t = 23 0,987231 t = 24 1,011426 2010 t = 25 0,993187 t = 26 1,005527 t = 27 0,983757 t = 28 1,013373 2011 t = 29 0,997127 t = 30 1,007523 t = 31 0,991587 t = 32 1,003913 st s t∗ 0,992708 0,992894 1,021977 1,022169 0,976661 0,976843 1,008482 1,008671 Ces coefficients saisonniers s’obtiennent en calculant la moyenne des valeurs sans tendance, mais, puisque les différentes composantes de la série se multiplient entre elles, on utilise une moyenne « multiplicative » : la moyenne géométrique moyg . De la même façon que la moyenne arithmétique des nombres x1 , . . . , xn est moya (x1 ; . . . ; xn ) = x1 + · · · + xn n (c’est ce que l’on a noté x ), leur moyenne géométrique est définie par moyg (x1 ; . . . ; xn ) = p n x1 × · · · × xn = x1 × · · · × xn 1/n (sous réserve que ceux-ci soient tous positifs). Dans le cas présent, le coefficient saisonnier associé aux premiers trimestres est la moyenne géométrique des données sans tendance (c’est-à-dire des quotients y t / g t ) correspondant à t = 1, t = 5, t = 9, etc., –6– Séries chronologiques IUT Calais–Boulogne jusqu’à t = 29 : s1 = moyg y1 y5 y9 y13 y17 y21 y25 y29 ; ; ; ; ; ; ; g1 g5 g9 g13 g17 g21 g25 g29 = y1 × y5 × y9 × y13 × y17 × y21 × y25 × y29 1 8 g1 g5 g9 g13 g17 g21 g25 g29 1 8 ≈ 0,980844 × 0,994947 × 0,995567 × 0,994428 × 0,992561 × 993095 × 0,993187 × 0,997127 ≈ 0,992708. Ce coefficient sera le même pour tous les premiers trimestres ; aurement dit, s1 = s5 = s9 = s13 = · · · = s29 . On procède de même pour les autres coefficients saisonniers, correspondant aux deuxièmes, troisièmes et quatrièmes trimestres. Comme pour le modèle additif, on corrige habituellement ces coefficients pour que leur impact, sur une année, soit nul, autrement dit de telle sorte que leur produit soit égal à 1 ; pour ce faire, on les divise par leur moyenne géométrique : s t∗ = st moyg (s1 ; s2 ; s3 ; s4 ) = st (s1 × s2 × s3 × s4 )1/4 . nombre trimestriel de naissances La série désaisonnalisée (CVS) est alors la série (t ; y t /s t∗ ) et la série ajustée (t ; g t × s t∗ ). 7 900 7 800 série brute y t tendance générale g t = a ln t + b série ajustée y t /a t = g t × s t∗ 7 700 7 600 7 500 7 400 7 300 7 200 7 100 7 000 20 20 20 20 20 20 20 20 11 10 09 08 07 06 05 04 3 Exercices EXERCICE 1 Le tableau suivant indique le chiffre d’affaires trimestriel (en millions d’euros) d’une entreprise. 2008 2009 2010 2011 Tr. 1 Tr. 2 Tr. 3 Tr. 4 Tr. 1 Tr. 2 Tr. 3 Tr. 4 Tr. 1 Tr. 2 Tr. 3 Tr. 4 Tr. 1 Tr. 2 Tr. 3 Tr. 4 120 181 71 119 128 190 73 124 140 196 84 133 145 206 96 142 On numérote les trimestres de 1 à 16. 1. Représenter graphiquement cette série ; on prendra comme unités 1 cm pour 1 trimestre, en abscisse, et, en ordonnée, 1 cm pour 10 millions d’euros. Pourquoi le modèle additif semble-t-il le plus approprié pour la décomposition de cette série chronologique ? 2. Déterminer la tendance générale de la série à l’aide des moyennes mobiles d’ordre 4. 3. Donner la série des valeurs sans tendance, puis calculer les coefficients saisonniers corrigés associés aux quatre trimestres de l’année. 4. Représenter la série CVS sur le même graphique qu’à la question 1. On arrondira les résultats au millier d’euros le plus proche. –7– Séries chronologiques IUT Calais–Boulogne EXERCICE 2 L’exploitant d’une autoroute a reporté, dans le tableau ci-dessous, le nombre quotidien de véhicules (exprimé en milliers d’unités) qui ont franchi son péage durant les six dernières semaines. lundi mardi mercredi jeudi vendredi samedi dimanche semaine 1 18,47 20,13 18,16 19,55 19,48 14,32 11,57 semaine 2 18,62 19,89 18,50 19,46 20,01 15,10 13,06 semaine 3 18,64 20,09 18,64 19,71 19,96 14,93 12,60 semaine 4 18,95 20,34 18,98 20,63 20,52 15,60 14,37 semaine 5 19,59 20,09 18,69 19,95 20,27 14,71 13,63 semaine 6 18,84 19,88 18,54 20,04 21,42 18,32 16,28 On numérote les jours de 1 à 42. 1. Représenter graphiquement cette série ; on prendra comme unités graphiques 1 cm pour 2 jours, en abscisse, et 1 cm pour 1000 véhicules, en ordonnée. 2. Déterminer la tendance générale g t par la méthode des moindres carrés ; on exprimera le résultat sous la forme g t = at + b . 3. Déterminer les coefficients saisonniers corrigés apparaissant dans la décomposition additive de cette série chronologique (on commencera par calculer les valeurs sans tendance). 4. Déterminer la série ajustée correspondante, puis la représenter sur le même graphique qu’à la question 1. 5. À l’aide de cette série ajustée, donner une estimation de la recette totale perçue à ce poste de péage au cours de la semaine 7, sachant que chaque véhicule doit payer 1,80 € pour le franchir. EXERCICE 3 Le responsable d’une plateforme de vente de musique en ligne a indiqué, dans la tableau ci-dessous, le nombre de milliers de ventes réalisés chaque trimestre entre 2010 et 2012. 2010 2011 2012 Tr. 1 Tr. 2 Tr. 3 Tr. 4 Tr. 1 Tr. 2 Tr. 3 Tr. 4 Tr. 1 Tr. 2 Tr. 3 Tr. 4 736 905 1278 1101 883 1054 1738 1329 1240 1625 2273 1644 Les trimestres sont paramétrés par la variable t , qui prend toutes les valeurs entières entre 1 et 12. y t désignera le nombre de milliers de ventes réalisés au cours du trimestre t . 1. Représenter graphiquement cette série ; on prendra comme unités graphiques 1 cm par trimestre, en abscisse, et 1 cm pour 200 CD, en ordonnée. Pourquoi le modèle multiplicatif est-il plus approprié que le modèle additif à la décomposition de cette série chronologique ? 2. a) Compte tenu de la forme du nuage de points, on choisit de procéder à un ajustement exponentiel, en posant z t = ln(y t ). Déterminer une équation de la droite de régression de z en t par la méthode des moindres carrés. b) En déduire une expression du trend sous la forme g t = αeβt , où les coefficients α et β sont à préciser (on en donnera des arrondis à 10−4 près). 3. Lisser la série en calculant les valeurs sans tendance. 4. Déterminer les coefficients saisonniers. On admettra que leur moyenne (géométrique) est égale à 1 et qu’ils ne nécessitent donc aucune correction. 5. Déterminer la série CVS, puis la représenter sur le même graphique qu’à la question 1. 6. Déterminer la série ajustée correpondante et en déduire une prévision des ventes réalisées par le site pour chacun des trimestres de 2013. –8–