Emploi d`un tableur dans un cours d`analyse de séries temporelles

Transcription

Emploi d`un tableur dans un cours d`analyse de séries temporelles
Emploi d'un tableur dans un cours
d'analyse de séries temporelles
Atika Cohen *,** — Guy Mélard *,*** — Adelhamid Ouakasse *
* Université Libre de Bruxelles (U.L.B.), ISRO CP210, Campus Plaine ULB, Bd du
Triomphe, B-1050 Bruxelles, Belgique
[email protected]
** Infodoc, Faculté de Philosophie et Lettres, U.L.B.
*** ECARES, Faculté des Sciences sociales, politiques et économiques, U.L.B.
RÉSUMÉ.
Cet article décrit l'emploi d'un tableur, en l'occurrence Excel, dans le cadre d'un
cours d'analyse de séries temporelles en insistant sur les avantages de l'approche mais aussi
sur ses limitations.
ABSTRACT.
In this paper the use of a spreadsheet program, more especially Microsoft Excel, in
the framework of a time series analysis course is described. We insist on the advantages of
that approach but also on its limitations.
MOTS-CLÉS :
KEYWORDS:
tableur, cours, analyse de séries temporelles.
spreadsheet, course, time series analysis.
1. Introduction
Cet article se situe dans la continuation de Cohen et al. (2002) où nous avons
décrit un cours d'analyse de séries temporelles en autoapprentissage réalisé pour les
besoins de la Banque Nationale de Belgique (BNB) et basé sur Mélard (1990). Nous
insistons ici sur un aspect particulier à savoir l'emploi d'un tableur, en l'occurrence
Excel de Microsoft. Un tableur comporte des fonctionnalités multiples qui le rendent
utile pour l'enseignement de la statistique, comme en atteste le grand nombre de
livres parus récemment à ce sujet. Mélard (1990) a utilisé une approche similaire
avec Lotus 1-2-3 mais sans la décrire explicitement. Les développements nouveaux
paraissent mériter une étude approfondie spécifique. Rappelons qu'Excel n'est pas un
logiciel statistique et souffre de plusieurs défauts (McCullough et Wilson, 1999).
2. Objectifs et moyens du cours
L'analyse des séries temporelles est caractérisée par des aspects de calcul non
négligeables. Le cours pour la BNB devait être orienté vers la pratique et comporter
2
Journées de Statistique 2003
des études de cas et être réalisé en français et en néerlandais (nous avons aussi
considéré l'anglais pour exploiter le matériel dans des séminaires internationaux).
Une contrainte de la BNB était d'employer les logiciels disponibles, parmi lesquels
la suite Office de Microsoft, ou des logiciels gratuits. Une autre exigence était que le
cours devait couvrir les méthodes modernes de décomposition saisonnière parmi
lesquelles X-12-ARIMA et TRAMO/SEATS. Excel a donc été considéré avec
d'autres logiciels en complément (Time Series Expert et Demetra).
3. Fonctionnalités d'Excel employées
L'examen des formules permet d'illustrer et de renforcer les formules
mathématiques données dans le cours. Beaucoup de formules sont obtenues par
copie et certaines d'entre elles sont employées dans des récurrence (comme pour le
lissage exponentiel). D'autres formules emploient des fonctions, notamment les
fonctions statistique (probabilités de lois classiques, médiane et quantiles, estimation
au sens des moindres carrés) et la génération de nombres pseudo-aléatoires (avec les
réserves mentionnées au paragraphe 1). Les fonctions de type tableau ("array"),
notamment le produit matriciel et l'inverse d'une matrice, sont utiles pour montrer la
colinéarité en régression linéaire multiple. Les fonctions permettant les opérations
sur les nombres complexes servent à produire la densité spectrale de processus
déterminés. On profite fréquemment de la fonctionnalité de calcul automatique
quand le contenu d'une cellule est modifiée, notamment pour examiner l'effet d'une
donnée aberrante sur les résultats d'une analyse. Un calcul peut aussi être relancé
auquel cas Excel recalcule les formules contenant une génération de données
pseudo-aléatoires et remet à jour l'ensemble des résultats. On peut employer cette
possibilité pour des simulations même pendant l'examen d'un graphique ce qui rend
certaines parties du cours très attractives.
Les tableaux d'hypothèse permettent d'examiner l'effet de changements de valeur
de paramètres (par exemple la constante de lissage pour le lissage exponentiel) ou
pour examiner empiriquement la distribution d'échantillonnage d'un estimateur. Des
outils d'analyse comme ceux de régression multiple et d'histogramme sont aussi
employés mais pas les moyennes mobiles ou le lissage exponentiel, trop sommaires.
Les tableurs disposent de possibilités graphiques qui sont essentielles pour un
cours de statistique et encore plus pour l'analyse de données temporelles, notamment
la possibilité de représenter plusieurs séries en fonction du temps, identifié par des
dates. On emploie aussi la possibilité d'ajustement simple sur la base d'un graphique
de données et des diagrammes de dispersion pour illustrer la corrélation avec retard.
Les tableurs modernes permettent de répartir un classeur en plusieurs feuilles
contenant des tableaux ou des graphiques. Le déplacement d'une feuille à l'autre se
fait en cliquant sur l'onglet de la feuille. Les classeurs du cours emploient
abondamment les hyperliens, surtout dans le coin supérieur gauche, pour faciliter les
déplacements à l'intérieur d'un tableau. La version multimédia du cours décrit par
Emploi d'un tableur dans un cours
3
Cohen et al (2002) permet d'accéder directement et en parallèle à l'énoncé de
l'exercice au format PDF d'Adobe Acrobat et au classeur Excel concerné. Les
classeurs du cours sont multilingues, actuellement en français, néerlandais et anglais.
Ceci est réalisé grâce à une feuille particulière de chaque classeur appelée
« languages ». Tous les textes sont en fait des formules qui se réfèrent à une cellule
de cette feuille qui correspond à la langue choisie. On change de langue en modifiant
une seule cellule du classeur.
Les cellules où il faut entrer des paramètres sont libres d'accès. Un message
indique le type de nombre à saisir et les contraintes éventuelles. Les autres cellules
sont protégées pour éviter des erreurs. Un fond de couleur différent permet de
distinguer aisément les en-têtes des tableaux, les données, les résultats finals, etc.
Les scénarios sont employés souvent en connexion avec le module Solver qui
permet d'estimer (souvent avec un succès relatif il faut l'avouer) les paramètres de
modèles non linéaires comme ceux des courbes de croissance ou du lissage
exponentiel de Holt-Winters.
On recourt modérément aux macro-instructions du Visual Basic pour
Applications essentiellement pour restaurer les données initiales après modification
par l'apprenant mais plus fondamentalement pour commander l'une ou l'autre
animation. On a ainsi pu montrer l'obtention des moyennes mobiles successives en
ajoutant une donnée l'une après l'autre.
4. Apports d'Excel au cours d'analyse des séries temporelles
Excel est employé pour la plupart des exercices des chapitres 1 à 8, et 13
(TRAMO/SEARS), et notamment :
– l'illustration des critères (MSE, MAPE, …) et l'obtention des intervalles de
prévision au moyen de la distribution empirique des résidus (chapitre 1)
– la régression linéaire simple au sens des moindres carrés et les méthodes
résistantes (méthode des trois points, méthode de Theil) (chapitre 2)
– les courbes de croissance (régression non linéaire, méthode des trois points)
(chapitre 3)
– le lissage par moyenne mobile et ses propriétés (en particulier la prévision
d'horizon supérieur à 1 et les moyennes mobiles de Spencer et de Henderson)
(chapitre 4)
– la décomposition saisonnière par les méthodes élémentaires notamment sur des
séries artificielles avec tendance, cycle, saisonnalité et erreurs ; détail des premières
étapes de la méthode Census X-11 (chapitre 5)
–lissage exponentiel simple, y compris avec correction saisonnière, double, de
Holt ou de Winters (chapitre 6)
– régression linéaire multiple, en particulier la colinéarité, l'effet de données
aberrantes, les diagramme de résidus (chapitre 7)
4
Journées de Statistique 2003
– concept de corrélation avec retard et d'autocorrélation y compris la distribution
échantillonnée dans le cas d'un bruit blanc (chapitre 8)
– analyse spectrale et introduction au filtrage optimal et à l'extraction du signal
dans la méthode TRAMO/SEATS par le filtre de Wiener-Kolmogorov (chapitre 13).
5. Limitations d'Excel pour les besoins du cours
Il n'y a pas que les aspects positifs mentionnés aux paragraphes 3 et 4. Nous ne
revenons pas sur les aspects déjà mentionnés dans le paragraphe 1 qui rendent Excel
impropre à l'utilisation scientifique en statistique. Nous n'avons pas essayé
d'employer Excel pour les chapitres 9 (modèles ARIMA), 10 (méthode de Box et
Jenkins) et 11 (régression à erreurs autocorrélées) à cause des limitations du module
Solver et de la complexité de l'estimation par maximum de vraisemblance. La
génération de séries temporelles artificielles à partir de modèles ARIMA a été plutôt
réalisée en employant Time Series Expert (Mélard et Pasteels, 1997). Il en est de
même pour l'estimation des paramètres de modèles ARIMA sur des séries réelles.
Plus généralement, nous avons employé Time Series Expert pour les illustrations
sur des données réelles dans chacun des chapitres parce que la démarche est ainsi
plus proche de l'utilisation en production, à l'aide d'un logiciel statistique. Pour les
chapitres 11 à 13, nous avons recouru essentiellement à Demetra, Excel ne servant
qu'à traiter un exemple simple de la décomposition en signal et bruit déduite d'un
modèle ARIMA(0,1,1) ou à réaliser l'estimation spectrale par la méthode
d'estimation autorégressive et encore restreinte à un modèle AR(16) à cause de la
limitation de la régression multiple d'Excel à un nombre de variables explicatives
inférieur ou égal à 16.
6. Bibliographie
Cohen A., Lotfi S., Mélard G., Ouakasse A. et Wouters A., « Formation en analyse des séries
temporelles », Actes des XXXIVes Journées de Statistique, Bruxelles et Louvain-laNeuve, 13-17 mai 2002, Paris, Société Française de Statistique, p. 296-297.
McCullough B. D., Wilson B., « On the accuracy of statistical procedures in Microsoft Excel
97 », Computational Statistics and Data Analysis, vol. 31, n° 1, 1999, p. 27-37.
Mélard G., Méthodes de prévision à court terme, Bruxelles, Editions de l'Université de
Bruxelles, et Paris, Editions Ellipses, 1990.
Mélard G., Pasteels J.-M., « Manuel d'utilisateur de Time Series Expert (TSE version 2.3) »,
3e édition, Institut de Statistique et de Recherche Opérationnelle, Université Libre de
Bruxelles, Bruxelles, 1997.