SÉRIES CHRONOLOGIQUES

Transcription

SÉRIES CHRONOLOGIQUES
GEA1 – MATHÉMATIQUES POUR LA GESTION ET STATISTIQUES (M1205)
SÉRIES CHRONOLOGIQUES
Une série chronologique est une série statistique dont la première des deux variables est le temps. Dans les exemples traités
dans ce chapitre, les modalités de cette variable temporelle sont distribuées uniformément (autrement formulé : elles sont
régulières) ; nous les noterons 1, 2, 3, etc. (valeurs qui correspondent aux instants où sont effectuées la 1e mesure, la 2e mesure,
la 3e mesure, etc.). Les séries chronologiques étudiées dans ce chapitre seront par conséquent notées (t ; y t ), avec 1 ¶ t ¶ N.
Dans le terme y t , on met en évidence trois composantes :
x la tendance générale g t (on emploie souvent le terme anglo-saxon trend), qui correspond à l’évolution à long terme
de la série ;
x la composante saisonnière corrigée s t∗ , qui correspond à des fluctuations périodiques qui se reproduisent de façon plus
ou moins identique d’une période à l’autre — en général, la période considérée dans les différentes situations est l’année
(d’où le qualificatif « saisonnier »), plus rarement la semaine — ;
x la composante aléatoire a t (ou résiduelle, ou encore irrégulière ; on parle aussi de variation accidentelle), qui correspond à des fluctuations irrégulières et imprévisibles ; elles sont censées être de faible amplitude.
1 Modèle additif
On peut considérer que le terme général y t est la somme des trois composantes mentionnées ci-dessus : c’est le modèle
additif. On a alors :
y t = g t + s t∗ + a t .
Dans ce modèle, le nuage de points a une enveloppe d’épaisseur plus ou moins constante.
Pour déterminer la tendance générale, plusieurs méthodes sont envisageables :
x un ajustement, affine ou non, en fonction de la forme générale du nuage de points (dans le cas d’un ajustement affine,
on peut déterminer la droite de Mayer du nuage ou appliquer la méthode des moindres carrés) ;
x effectuer un lissage (c’est-à-dire éliminer certaines irrégularités) à l’aide de la méthode des moyennes mobiles, présentée
ci-après.
Les moyennes mobiles d’ordre k, k désignant un entier supérieur ou égal à 2, sont les moyennes (arithmétiques) :
x des cycles de k observations consécutives, lorsque k est impair ;
x des cycles de (k + 1) observations consécutives, lorsque k est pair, avec une pondération moitié pour les valeurs extrêmes.
Séries chronologiques
IUT Calais–Boulogne
t
yt
1
y1
2
y2
3
y3
4
moyenne mobile d’ordre 2
1 y1
2 2
1 y2
2 2
1 y3
y4
5
y5
6
y6
2 2
1 y4
2
2
+ y2 +
+ y3 +
+ y4 +
+ y5 +
moyenne mobile d’ordre 3
1
y3 2
y4 3
1
2
y5 3
1
2
y6 3
1
2
3
moyenne mobile d’ordre 4
y1 + y2 + y3
y2 + y3 + y4
1 y1
y3 + y4 + y5
4
y4 + y5 + y6
4 2
1 y2
2
+ y2 + y3 + y4 +
+ y3 + y4 + y5 +
y5 2
y6 2
Les différences y t − g t permettent de déterminer les coefficients saisonniers : la moyenne de ces données sans tendance en
donne une première estimation.
x EXEMPLE 1. Intéressons-nous au chiffre d’affaires mensuel, exprimé en milliers d’euros, d’un magasin, relevé durant trois
chiffre d’affaires mensuel (en milliers d’euros)
années consécutives.
janv.
fév.
mars
avr.
mai
juin
juil.
août
sept.
oct.
nov.
déc.
2007
312
315
291
307
305
303
320
328
298
309
310
334
2008
315
319
299
314
306
304
325
331
304
310
317
332
2009
320
324
302
318
309
308
330
333
309
315
319
339
340
330
320
310
300
290
280
série brute y t
tendance générale g t = a t + b
série CVS y t − s t = g t + a t
270
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
00
00
00
00
00
00
00
00
00
00
00
00
9
9
9
9
8
8
8
8
7
7
7
7
La tendance générale est ici déterminée par la méthode des moindres carrés. La droite de régression (de y en t ) a pour équation
y = at + b , avec a ≈ 0,414 et b ≈ 307,2. Dans le tableau ci-dessous sont reportées les données sans tendance, c’est-à-dire les
nombres y t − (0,414t + 307,2).
janv.
fév.
mars
avr.
mai
juin
juil.
9,927
août
sept.
oct.
nov.
déc.
2007
4,410
6,996 −17,418 −1,832 −4,246 −6,660
2008
2,443
6,029 −14,385 0,201
2009
2,476
6,062 −16,351 −0,765 −10,179 −11,593 9,993
12,579 −11,835 −6,249 −2,663 16,923
st
3,110
6,363 −16,051 −0,799 −7,546 −9,626
15,212 −12,201 −4,949 −1,363 17,890
−8,212 −10,626 9,960
–2–
9,960
17,513 −12,901 −2,315 −1,729 21,857
15,546 −11,868 −6,282
0,304
14,890
Séries chronologiques
IUT Calais–Boulogne
Pour déterminer les coefficients saisonniers, on calcule la moyenne des données sans tendance pour chacun des 12 mois (ou
chaque jour de la semaine si les observations sont quotidiennes, ou chacun des 4 trimestres si elles sont trimestrielles, etc.) :
on obtient ainsi 12 coefficients saisonniers s1 , s2 , . . . , s12 : un pour chaque mois de l’année. Ainsi, le coefficient s1 est le même
pour tous les mois de janvier des trois années, ce qui se traduit par les égalités s1 = s13 = s25 .
On appelle série désaisonnalisée ou série corrigée des variations saisonnières (en abrégé : CVS) la série chronologique
(t ; y t − s t ), ou (t ; y t − s t∗ ) si les coefficients saisonniers ne sont pas centrés.
[Extrait du site insee.fr]
La correction des variations saisonnières est une technique que les statisticiens emploient pour éliminer l’effet des fluctuations
saisonnières normales sur les données, de manière à en faire ressortir les tendances fondamentales (tendance et composante
irrégulière). Ainsi, par exemple, le taux de chômage désaisonnalisé supprime les variations dues au profil saisonnier habituel
d’embauche pendant l’été et de mise à pied pendant l’hiver dans des secteurs d’activité comme l’agriculture et la construction.
La série ajustée (t ; y t −a t ) s’obtient en éliminant la composante aléatoire de la série brute ; c’est donc la somme de la tendance
générale et de la composante saisonnière. Elle correspond aux variations de la grandeur observée si les variations saisonnières
étaient parfaitement périodiques. Sur le graphique suivant, on peut comparer, dans le cadre de l’exemple 1, la série ajustée
chiffre d’affaires mensuel (en milliers d’euros)
avec la série d’origine : la différence entre les deux correspond à l’action de la composante aléatoire.
340
330
320
310
300
290
280
série brute y t
tendance générale g t = a t + b
série ajustée y t − a t = g t + s t
270
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
00
00
00
00
00
00
00
00
00
00
00
00
9
9
9
9
8
8
8
8
7
7
7
7
–3–
Séries chronologiques
IUT Calais–Boulogne
x EXEMPLE 2. Reprenons les données de l’exemple 1, et calculons, cette fois, la tendance générale à l’aide de moyennes mobiles
chiffre d’affaires mensuel (en milliers d’euros)
d’ordre 4. Il est à noter que ces moyennes mobiles n’existent pas pour les 2 premiers mois ni pour les 2 derniers.
340
330
320
310
300
290
280
série brute y t
tendance générale g t
série CVS (y t − s t∗ )
270
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
00
00
00
00
00
00
00
00
00
00
00
00
9
9
9
9
août
sept.
oct.
nov.
déc.
6,875
15
−14,5
−3
−4,875
15,75
8,75
14,25
−12,5
−5,625
−0,75
10,5
8
8
8
8
7
7
7
7
juil.
Dans le tableau ci-dessous, on a indiqué les valeurs sans tendance, c’est-à-dire les nombres
yt −
janv.
fév.
2007
1 y t −2
4
mars
avr.
−14,375
4
2
+ y t −1 + y t + y t +1 +
mai
juin
−0,125 −8,375
y t +2 2
.
2008
−3,125
4,75
−11,625 6,375
2009
−1,375
6,25
−12,625
6,75
−3,75 −10,125
10
st
−2,25
5,5
−12,875 5,708
−2,292 −9,625
8,542
13,792 −12,792 −4,458 −2,813 13,125
s t∗
−2,214
5,536 −12,839 5,745
−2,255 −9,589
8,578
13,828 −12,755 −4,422 −2,776 13,161
−3
−10,375
12,125 −11,375 −4,75
Chaque coefficient saisonnier est la moyenne des valeurs sans tendance figurant dans la même colonne. Ainsi, le coefficient
s1 est le même pour tous les mois de janvier des trois années.
Ces coefficients ne sont pas centrés. Habituellement, on les corrige pour que leur influence globale soit nulle sur une année
entière. Pour ce faire, on leur soustrait leur moyenne s :
s t∗ = s t − s = s t −
12
1 X
12
i =1
si
(ici, s ≈ −0,036).
Dans l’exemple 1, nous n’avons pas corrigé les coefficients saisonniers obtenus. En effet, c’était inutile : si la tendance a
été obtenue par un ajustement affine (droite de Mayer ou droite des moindres carrés), alors les coefficients saisonniers non
corrigés sont déjà centrés, donc s t∗ = s t . Cette correction n’est réellement pertinente que dans les autres cas de figure.
–4–
chiffre d’affaires mensuel (en milliers d’euros)
Séries chronologiques
IUT Calais–Boulogne
340
330
320
310
300
290
280
série brute y t
tendance générale g t
série ajustée y t − a t = g t + s t∗
270
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
/2
10
/2
07
/2
04
/2
01
00
00
00
00
00
00
00
00
00
00
00
00
9
9
9
9
8
8
8
8
7
7
7
7
2 Modèle multiplicatif
On emploie le modèle multiplicatif lorsque l’enveloppe du nuage de points « s’élargit » au fur et à mesure que la tendance
générale croît (et est de plus en plus « resserrée » au fur et à mesure que le trend diminue — tout en restant positif !). Le terme
y t est alors vu comme le produit de la tendance générale g t , de la composante saisonnière s t∗ et de la composante aléatoire a t :
y t = g t × s t∗ × a t .
x EXEMPLE 3. Le tableau ci-dessous indique le nombre de naissances par trimestre d’un Land allemand, au cours des dernières
nombre trimestriel de naissances
années.
2004
2005
2006
2007
2008
2009
2010
2011
trimestre 1
7 684
7 437
7 311
7 221
7 148
7 105
7 067
7 062
trimestre 2
7 899
7 705
7 616
7 471
7 336
7 189
7 146
7 128
trimestre 3
7 320
7 208
7 093
7 008
6 970
7 043
6 983
7 008
trimestre 4
7 683
7 450
7 298
7 184
7 231
7 206
7 185
7 088
7 900
7 800
7 700
7 600
7 500
7 400
7 300
7 200
7 100
7 000
20
20
20
20
20
20
20
20
11
10
09
08
07
06
05
04
–5–
Séries chronologiques
IUT Calais–Boulogne
Au vu du nuage de points, la tendance est manifestement décroissante et l’enveloppe du nuage de points (représentée, sur
le graphique ci-dessus, en pointillés rouges) est de moins en moins « épaisse » au fur et à mesure que le temps augmente. Le
nombre trimestriel de naissances
modèle multiplicatif est ici tout à fait approprié.
7 900
7 800
série brute y t
tendance générale g t = a ln t + b
série CVS y t /s t∗ = g t × a t
7 700
7 600
7 500
7 400
7 300
7 200
7 100
7 000
20
20
20
20
20
20
20
20
11
10
09
08
07
06
05
04
Compte tenu de la forme du nuage (décroissance de plus en plus lente), un ajustement logarithmique peut être envisagé. On
applique la méthode des moindres carrés à la série (ln t ; y t ), où t vaut 1 pour le premier trimestre de 2004, 2 pour le second
trimestre de 2004, etc., jusqu’à t = 32 pour le quatrième trimestre de 2011. On prouve alors que la droite de régression de y
en z = ln t a pour équation y = −223,24z + 7 834,07 ; par conséquent, le nuage de points de coordonnées (t ; y t ) est réparti le
long de la courbe d’équation y = −223,24 ln t + 7 834,07. C’est cette courbe qui nous donne la tendance générale de la série.
Une fois le trend déterminé, on peut calculer les coefficients saisonniers. Il n’y en a que 4 : un pour les premiers trimestres de
chaque année, un pour les seconds trimestres, etc. Dans le tableau suivant sont reportées les valeurs sans tendance, autrement
dit les quotients y t / g t (on rappelle qu’ici g t = −223,24 ln t + 7 834,07) avec, en rouge, les valeurs de t :
trimestre 1
trimestre 2
trimestre 3
trimestre 4
2004
t =1
0,980844
t =2
1,028606
t =3
0,964578
t =4
1,021053
2005
t =5
0,994947
t =6
1,036444
t =7
0,974099
t =8
1,010876
2006
t =9
0,995567
t = 10
1,040432
t = 11
0,971809
t = 12
1,002565
2007
t = 13
0,994428
t = 14
1,031205
t = 15
0,969359
t = 16
0,995688
2008
t = 17
0,992561
t = 18
1,020474
t = 19
0,971192
t = 20
1,009170
2009
t = 21
0,993095
t = 22
1,006297
t = 23
0,987231
t = 24
1,011426
2010
t = 25
0,993187
t = 26
1,005527
t = 27
0,983757
t = 28
1,013373
2011
t = 29
0,997127
t = 30
1,007523
t = 31
0,991587
t = 32
1,003913
st
s t∗
0,992708 0,992894
1,021977 1,022169
0,976661 0,976843
1,008482 1,008671
Ces coefficients saisonniers s’obtiennent en calculant la moyenne des valeurs sans tendance, mais, puisque les différentes
composantes de la série se multiplient entre elles, on utilise une moyenne « multiplicative » : la moyenne géométrique moyg .
De la même façon que la moyenne arithmétique des nombres x1 , . . . , xn est
moya (x1 ; . . . ; xn ) =
x1 + · · · + xn
n
(c’est ce que l’on a noté x ), leur moyenne géométrique est définie par
moyg (x1 ; . . . ; xn ) =
p
n
x1 × · · · × xn = x1 × · · · × xn
1/n
(sous réserve que ceux-ci soient tous positifs). Dans le cas présent, le coefficient saisonnier associé aux premiers trimestres est
la moyenne géométrique des données sans tendance (c’est-à-dire des quotients y t / g t ) correspondant à t = 1, t = 5, t = 9, etc.,
–6–
Séries chronologiques
IUT Calais–Boulogne
jusqu’à t = 29 :
s1 = moyg
y1 y5 y9 y13 y17 y21 y25 y29
; ; ;
;
;
;
;
g1 g5 g9 g13 g17 g21 g25 g29
=
y1
×
y5
×
y9
×
y13
×
y17
×
y21
×
y25
×
y29
1
8
g1 g5 g9 g13 g17 g21 g25 g29
1
8
≈ 0,980844 × 0,994947 × 0,995567 × 0,994428 × 0,992561 × 993095 × 0,993187 × 0,997127 ≈ 0,992708.
Ce coefficient sera le même pour tous les premiers trimestres ; aurement dit, s1 = s5 = s9 = s13 = · · · = s29 . On procède de
même pour les autres coefficients saisonniers, correspondant aux deuxièmes, troisièmes et quatrièmes trimestres.
Comme pour le modèle additif, on corrige habituellement ces coefficients pour que leur impact, sur une année, soit nul,
autrement dit de telle sorte que leur produit soit égal à 1 ; pour ce faire, on les divise par leur moyenne géométrique :
s t∗ =
st
moyg (s1 ; s2 ; s3 ; s4 )
=
st
(s1 × s2 × s3 × s4 )1/4
.
nombre trimestriel de naissances
La série désaisonnalisée (CVS) est alors la série (t ; y t /s t∗ ) et la série ajustée (t ; g t × s t∗ ).
7 900
7 800
série brute y t
tendance générale g t = a ln t + b
série ajustée y t /a t = g t × s t∗
7 700
7 600
7 500
7 400
7 300
7 200
7 100
7 000
20
20
20
20
20
20
20
20
11
10
09
08
07
06
05
04
3 Exercices
EXERCICE 1
Le tableau suivant indique le chiffre d’affaires trimestriel (en millions d’euros) d’une entreprise.
2008
2009
2010
2011
Tr. 1
Tr. 2
Tr. 3
Tr. 4
Tr. 1
Tr. 2
Tr. 3
Tr. 4
Tr. 1
Tr. 2
Tr. 3
Tr. 4
Tr. 1
Tr. 2
Tr. 3
Tr. 4
120
181
71
119
128
190
73
124
140
196
84
133
145
206
96
142
On numérote les trimestres de 1 à 16.
1. Représenter graphiquement cette série ; on prendra comme unités 1 cm pour 1 trimestre, en abscisse, et, en ordonnée,
1 cm pour 10 millions d’euros.
Pourquoi le modèle additif semble-t-il le plus approprié pour la décomposition de cette série chronologique ?
2. Déterminer la tendance générale de la série à l’aide des moyennes mobiles d’ordre 4.
3. Donner la série des valeurs sans tendance, puis calculer les coefficients saisonniers corrigés associés aux quatre trimestres
de l’année.
4. Représenter la série CVS sur le même graphique qu’à la question 1.
On arrondira les résultats au millier d’euros le plus proche.
–7–
Séries chronologiques
IUT Calais–Boulogne
EXERCICE 2
L’exploitant d’une autoroute a reporté, dans le tableau ci-dessous, le nombre quotidien de véhicules (exprimé en milliers
d’unités) qui ont franchi son péage durant les six dernières semaines.
lundi
mardi
mercredi
jeudi
vendredi
samedi
dimanche
semaine 1
18,47
20,13
18,16
19,55
19,48
14,32
11,57
semaine 2
18,62
19,89
18,50
19,46
20,01
15,10
13,06
semaine 3
18,64
20,09
18,64
19,71
19,96
14,93
12,60
semaine 4
18,95
20,34
18,98
20,63
20,52
15,60
14,37
semaine 5
19,59
20,09
18,69
19,95
20,27
14,71
13,63
semaine 6
18,84
19,88
18,54
20,04
21,42
18,32
16,28
On numérote les jours de 1 à 42.
1. Représenter graphiquement cette série ; on prendra comme unités graphiques 1 cm pour 2 jours, en abscisse, et 1 cm
pour 1000 véhicules, en ordonnée.
2. Déterminer la tendance générale g t par la méthode des moindres carrés ; on exprimera le résultat sous la forme g t =
at + b .
3. Déterminer les coefficients saisonniers corrigés apparaissant dans la décomposition additive de cette série chronologique (on commencera par calculer les valeurs sans tendance).
4. Déterminer la série ajustée correspondante, puis la représenter sur le même graphique qu’à la question 1.
5. À l’aide de cette série ajustée, donner une estimation de la recette totale perçue à ce poste de péage au cours de la
semaine 7, sachant que chaque véhicule doit payer 1,80 € pour le franchir.
EXERCICE 3
Le responsable d’une plateforme de vente de musique en ligne a indiqué, dans la tableau ci-dessous, le nombre de milliers de
ventes réalisés chaque trimestre entre 2010 et 2012.
2010
2011
2012
Tr. 1
Tr. 2
Tr. 3
Tr. 4
Tr. 1
Tr. 2
Tr. 3
Tr. 4
Tr. 1
Tr. 2
Tr. 3
Tr. 4
736
905
1278
1101
883
1054
1738
1329
1240
1625
2273
1644
Les trimestres sont paramétrés par la variable t , qui prend toutes les valeurs entières entre 1 et 12. y t désignera le nombre de
milliers de ventes réalisés au cours du trimestre t .
1. Représenter graphiquement cette série ; on prendra comme unités graphiques 1 cm par trimestre, en abscisse, et 1 cm
pour 200 CD, en ordonnée.
Pourquoi le modèle multiplicatif est-il plus approprié que le modèle additif à la décomposition de cette série chronologique ?
2.
a) Compte tenu de la forme du nuage de points, on choisit de procéder à un ajustement exponentiel, en posant
z t = ln(y t ). Déterminer une équation de la droite de régression de z en t par la méthode des moindres carrés.
b) En déduire une expression du trend sous la forme g t = αeβt , où les coefficients α et β sont à préciser (on en
donnera des arrondis à 10−4 près).
3. Lisser la série en calculant les valeurs sans tendance.
4. Déterminer les coefficients saisonniers. On admettra que leur moyenne (géométrique) est égale à 1 et qu’ils ne nécessitent donc aucune correction.
5. Déterminer la série CVS, puis la représenter sur le même graphique qu’à la question 1.
6. Déterminer la série ajustée correpondante et en déduire une prévision des ventes réalisées par le site pour chacun des
trimestres de 2013.
–8–

Documents pareils