Emploi d`un tableur dans un cours d`analyse de séries temporelles
Transcription
Emploi d`un tableur dans un cours d`analyse de séries temporelles
Emploi d'un tableur dans un cours d'analyse de séries temporelles Atika Cohen *,** — Guy Mélard *,*** — Adelhamid Ouakasse * * Université Libre de Bruxelles (U.L.B.), ISRO CP210, Campus Plaine ULB, Bd du Triomphe, B-1050 Bruxelles, Belgique [email protected] ** Infodoc, Faculté de Philosophie et Lettres, U.L.B. *** ECARES, Faculté des Sciences sociales, politiques et économiques, U.L.B. RÉSUMÉ. Cet article décrit l'emploi d'un tableur, en l'occurrence Excel, dans le cadre d'un cours d'analyse de séries temporelles en insistant sur les avantages de l'approche mais aussi sur ses limitations. ABSTRACT. In this paper the use of a spreadsheet program, more especially Microsoft Excel, in the framework of a time series analysis course is described. We insist on the advantages of that approach but also on its limitations. MOTS-CLÉS : KEYWORDS: tableur, cours, analyse de séries temporelles. spreadsheet, course, time series analysis. 1. Introduction Cet article se situe dans la continuation de Cohen et al. (2002) où nous avons décrit un cours d'analyse de séries temporelles en autoapprentissage réalisé pour les besoins de la Banque Nationale de Belgique (BNB) et basé sur Mélard (1990). Nous insistons ici sur un aspect particulier à savoir l'emploi d'un tableur, en l'occurrence Excel de Microsoft. Un tableur comporte des fonctionnalités multiples qui le rendent utile pour l'enseignement de la statistique, comme en atteste le grand nombre de livres parus récemment à ce sujet. Mélard (1990) a utilisé une approche similaire avec Lotus 1-2-3 mais sans la décrire explicitement. Les développements nouveaux paraissent mériter une étude approfondie spécifique. Rappelons qu'Excel n'est pas un logiciel statistique et souffre de plusieurs défauts (McCullough et Wilson, 1999). 2. Objectifs et moyens du cours L'analyse des séries temporelles est caractérisée par des aspects de calcul non négligeables. Le cours pour la BNB devait être orienté vers la pratique et comporter 2 Journées de Statistique 2003 des études de cas et être réalisé en français et en néerlandais (nous avons aussi considéré l'anglais pour exploiter le matériel dans des séminaires internationaux). Une contrainte de la BNB était d'employer les logiciels disponibles, parmi lesquels la suite Office de Microsoft, ou des logiciels gratuits. Une autre exigence était que le cours devait couvrir les méthodes modernes de décomposition saisonnière parmi lesquelles X-12-ARIMA et TRAMO/SEATS. Excel a donc été considéré avec d'autres logiciels en complément (Time Series Expert et Demetra). 3. Fonctionnalités d'Excel employées L'examen des formules permet d'illustrer et de renforcer les formules mathématiques données dans le cours. Beaucoup de formules sont obtenues par copie et certaines d'entre elles sont employées dans des récurrence (comme pour le lissage exponentiel). D'autres formules emploient des fonctions, notamment les fonctions statistique (probabilités de lois classiques, médiane et quantiles, estimation au sens des moindres carrés) et la génération de nombres pseudo-aléatoires (avec les réserves mentionnées au paragraphe 1). Les fonctions de type tableau ("array"), notamment le produit matriciel et l'inverse d'une matrice, sont utiles pour montrer la colinéarité en régression linéaire multiple. Les fonctions permettant les opérations sur les nombres complexes servent à produire la densité spectrale de processus déterminés. On profite fréquemment de la fonctionnalité de calcul automatique quand le contenu d'une cellule est modifiée, notamment pour examiner l'effet d'une donnée aberrante sur les résultats d'une analyse. Un calcul peut aussi être relancé auquel cas Excel recalcule les formules contenant une génération de données pseudo-aléatoires et remet à jour l'ensemble des résultats. On peut employer cette possibilité pour des simulations même pendant l'examen d'un graphique ce qui rend certaines parties du cours très attractives. Les tableaux d'hypothèse permettent d'examiner l'effet de changements de valeur de paramètres (par exemple la constante de lissage pour le lissage exponentiel) ou pour examiner empiriquement la distribution d'échantillonnage d'un estimateur. Des outils d'analyse comme ceux de régression multiple et d'histogramme sont aussi employés mais pas les moyennes mobiles ou le lissage exponentiel, trop sommaires. Les tableurs disposent de possibilités graphiques qui sont essentielles pour un cours de statistique et encore plus pour l'analyse de données temporelles, notamment la possibilité de représenter plusieurs séries en fonction du temps, identifié par des dates. On emploie aussi la possibilité d'ajustement simple sur la base d'un graphique de données et des diagrammes de dispersion pour illustrer la corrélation avec retard. Les tableurs modernes permettent de répartir un classeur en plusieurs feuilles contenant des tableaux ou des graphiques. Le déplacement d'une feuille à l'autre se fait en cliquant sur l'onglet de la feuille. Les classeurs du cours emploient abondamment les hyperliens, surtout dans le coin supérieur gauche, pour faciliter les déplacements à l'intérieur d'un tableau. La version multimédia du cours décrit par Emploi d'un tableur dans un cours 3 Cohen et al (2002) permet d'accéder directement et en parallèle à l'énoncé de l'exercice au format PDF d'Adobe Acrobat et au classeur Excel concerné. Les classeurs du cours sont multilingues, actuellement en français, néerlandais et anglais. Ceci est réalisé grâce à une feuille particulière de chaque classeur appelée « languages ». Tous les textes sont en fait des formules qui se réfèrent à une cellule de cette feuille qui correspond à la langue choisie. On change de langue en modifiant une seule cellule du classeur. Les cellules où il faut entrer des paramètres sont libres d'accès. Un message indique le type de nombre à saisir et les contraintes éventuelles. Les autres cellules sont protégées pour éviter des erreurs. Un fond de couleur différent permet de distinguer aisément les en-têtes des tableaux, les données, les résultats finals, etc. Les scénarios sont employés souvent en connexion avec le module Solver qui permet d'estimer (souvent avec un succès relatif il faut l'avouer) les paramètres de modèles non linéaires comme ceux des courbes de croissance ou du lissage exponentiel de Holt-Winters. On recourt modérément aux macro-instructions du Visual Basic pour Applications essentiellement pour restaurer les données initiales après modification par l'apprenant mais plus fondamentalement pour commander l'une ou l'autre animation. On a ainsi pu montrer l'obtention des moyennes mobiles successives en ajoutant une donnée l'une après l'autre. 4. Apports d'Excel au cours d'analyse des séries temporelles Excel est employé pour la plupart des exercices des chapitres 1 à 8, et 13 (TRAMO/SEARS), et notamment : – l'illustration des critères (MSE, MAPE, …) et l'obtention des intervalles de prévision au moyen de la distribution empirique des résidus (chapitre 1) – la régression linéaire simple au sens des moindres carrés et les méthodes résistantes (méthode des trois points, méthode de Theil) (chapitre 2) – les courbes de croissance (régression non linéaire, méthode des trois points) (chapitre 3) – le lissage par moyenne mobile et ses propriétés (en particulier la prévision d'horizon supérieur à 1 et les moyennes mobiles de Spencer et de Henderson) (chapitre 4) – la décomposition saisonnière par les méthodes élémentaires notamment sur des séries artificielles avec tendance, cycle, saisonnalité et erreurs ; détail des premières étapes de la méthode Census X-11 (chapitre 5) –lissage exponentiel simple, y compris avec correction saisonnière, double, de Holt ou de Winters (chapitre 6) – régression linéaire multiple, en particulier la colinéarité, l'effet de données aberrantes, les diagramme de résidus (chapitre 7) 4 Journées de Statistique 2003 – concept de corrélation avec retard et d'autocorrélation y compris la distribution échantillonnée dans le cas d'un bruit blanc (chapitre 8) – analyse spectrale et introduction au filtrage optimal et à l'extraction du signal dans la méthode TRAMO/SEATS par le filtre de Wiener-Kolmogorov (chapitre 13). 5. Limitations d'Excel pour les besoins du cours Il n'y a pas que les aspects positifs mentionnés aux paragraphes 3 et 4. Nous ne revenons pas sur les aspects déjà mentionnés dans le paragraphe 1 qui rendent Excel impropre à l'utilisation scientifique en statistique. Nous n'avons pas essayé d'employer Excel pour les chapitres 9 (modèles ARIMA), 10 (méthode de Box et Jenkins) et 11 (régression à erreurs autocorrélées) à cause des limitations du module Solver et de la complexité de l'estimation par maximum de vraisemblance. La génération de séries temporelles artificielles à partir de modèles ARIMA a été plutôt réalisée en employant Time Series Expert (Mélard et Pasteels, 1997). Il en est de même pour l'estimation des paramètres de modèles ARIMA sur des séries réelles. Plus généralement, nous avons employé Time Series Expert pour les illustrations sur des données réelles dans chacun des chapitres parce que la démarche est ainsi plus proche de l'utilisation en production, à l'aide d'un logiciel statistique. Pour les chapitres 11 à 13, nous avons recouru essentiellement à Demetra, Excel ne servant qu'à traiter un exemple simple de la décomposition en signal et bruit déduite d'un modèle ARIMA(0,1,1) ou à réaliser l'estimation spectrale par la méthode d'estimation autorégressive et encore restreinte à un modèle AR(16) à cause de la limitation de la régression multiple d'Excel à un nombre de variables explicatives inférieur ou égal à 16. 6. Bibliographie Cohen A., Lotfi S., Mélard G., Ouakasse A. et Wouters A., « Formation en analyse des séries temporelles », Actes des XXXIVes Journées de Statistique, Bruxelles et Louvain-laNeuve, 13-17 mai 2002, Paris, Société Française de Statistique, p. 296-297. McCullough B. D., Wilson B., « On the accuracy of statistical procedures in Microsoft Excel 97 », Computational Statistics and Data Analysis, vol. 31, n° 1, 1999, p. 27-37. Mélard G., Méthodes de prévision à court terme, Bruxelles, Editions de l'Université de Bruxelles, et Paris, Editions Ellipses, 1990. Mélard G., Pasteels J.-M., « Manuel d'utilisateur de Time Series Expert (TSE version 2.3) », 3e édition, Institut de Statistique et de Recherche Opérationnelle, Université Libre de Bruxelles, Bruxelles, 1997.