Tests exacts d`indépendance sérielle dans les cas de distributions
Transcription
Tests exacts d`indépendance sérielle dans les cas de distributions
Tests exacts d’indépendance sérielle dans les cas de distributions continues et discrètes ∗ Jean-Marie Dufour † Université de Montréal Abdeljelil Farhat ‡ Université de Montréal Abdelwahed Trabelsi Université de Tunis § First version: August 2001 This version: March 2004 ABSTRACT In this paper, we study the problem of testing the nonparametric hypothesis of randomness (independent identically distributed variables), with both continuous and discrete distributions, against serial dependence alternatives. We consider tests based on sample autocorrelations, goodness-of-fit statistics [Kolmogorov-Smirnov, Cramér-von Mises], and measures of distance between kernel-based density estimators. In view of controlling size, many of these tests raise difficult distributional problems, in both finite and large samples. We show that these problems can easily be solved by using permutational versions of the procedures jointly with the method of Monte Carlo tests (randomized permutation Monte Carlo tests), so exact tests with known size can be obtained, irrespective whether the distribution of the observations is continuous or discrete. This makes existing procedures more reliable and provides a simple way of implementing new procedures. We show that various test procedures can also be combined to obtain tests with better overall power properties. The performance of the proposed procedures is studied in a simulation experiment where randomness is tested against a variety of alternatives: autoregressive-moving average (ARMA), ∗ This work was supported by the Canada Research Chair Program, the Canadian Network of Centres of Excellence [program on Mathematics of Information Technology and Complex Systems (MITACS)], the Canada Council for the Arts (Killam Fellowship), the Natural Sciences and Engineering Research Council of Canada, the Social Sciences and Humanities Research Council of Canada, and the Fonds FCAR (Government of Québec). † Canada Research Chair Holder (Econometrics). Centre de recherche et développement en économique (C.R.D.E.), Centre interuniversitaire de recherche en analyse des organisations (CIRANO), and Département de sciences économiques, Université de Montréal. Mailing address: Département de sciences économiques, Université de Montréal, C.P. 6128 succursale Centre-ville, Montréal, Québec, Canada H3C 3J7. TEL: 1 514 343 2400; FAX: 1 514 343 5831; e-mail: [email protected]. Web page: http://www.fas.umontreal.ca/SCECO/Dufour . ‡ CIRANO and C.R.D.E, Université de Montréal. Mailing address: C.R.D.E, Université de Montréal, C.P. 6128, succursale Centre-ville, Montréal, Québec, Canada H3C 3J7. TEL: (514) 343 6557; FAX (514) 343 5831; e-mail: [email protected]. § Institut Supérieur de Gestion, Université de Tunis. Mailing address: ISG, 41 Av. de la liberté 2000 Le Bardo, Tunis, Tunisie. TEL: (216-1) 560 378; FAX (216-1) 568 767; e-mail: [email protected]. nonlinear moving average, autoregressive with heteroskedastic errors, autoregressive conditional heteroskedastic (ARCH), generalized autoregressive conditional heteroskedastic (GARCH), bilinear, and threshold autoregressive models. Both Gaussian and non-Gaussian (e.g., Cauchy) noises are considered. We show that the randomized permutation Monte Carlo tests always have the correct size, while usual asymptotic approximations are unreliable from that viewpoint. Furthermore, the proposed combined test procedures perform very well against all the alternatives considered. Keywords: randomness; serial dependence; nonparametric methods; distribution-free; permutation test; autocorrelations; Kolmogorov-Smirnov, Cramér-von Mises; kernel density estimator; Monte Carlo test; ; test combination; autoregressive process; moving average; ARCH; GARCH; bilinear model; threshold autoregression. RÉSUMÉ Dans ce texte, nous étudions le problème qui consiste à tester le caractère aléatoire (variables indépendantes identiquement distribuées), dans le cadre d’un modèle non paramétrique où la distribution des observations peut être continue ou discrète, en vue de détecter une dépendance sérielle. Nous considérons des tests basés sur les autocorrélations usuelles, la fonction de répartition (Kolmogorov-Smirnov, Cramèr-von Mises), ainsi des estimateurs à noyau de la densité des observations. Du point du contrôle du niveau, plusieurs de ces tests soulèvent des problèmes distributionnels difficiles à résoudre dans les échantillons finis. Nous montrons que ces problèmes peuvent être facilement résolus en utilisant des versions permutationelles de ces tests conjointement avec la méthode des tests de Monte Carlo (MC), i.e. un test de permutation randomisé de manière appropriée. On peut alors construire des tests exacts, i.e. des tests dont le niveau est connu, tant pour des lois discrètes que continues. Ceci permet de rendre les procédures existantes beaucoup plus fiables et de facilement mettre en oeuvre de nouveaux tests. En particulier, nous montrons que différents tests que peuvent être combinées par cette approche de manière à obtenir une meilleure puissance. Nous étudions la performance des procédures proposées dans une expérience de simulation où l’hypothèse nulle est confrontée à plusieurs contre-hypothèses importantes: modèles autorégressifs moyenne mobile (ARMA), moyenne mobile non linéaire (NLMA), moyenne mobile non linéaire généralisée (ENLMA), autorégressifs avec hétéroscédasticité conditionnelle (ARCH), autorégressifs généralisés avec hétéroscédasticité conditionnelle (GARCH), bilinéaires (BL) et autorégressifs à seuil (TAR). Des bruits blancs gaussiens et non gaussiens (de Cauchy, par exemple) sont considérés. Ces simulations montrent que les tests randomisés de Monte Carlo ont bien le niveau affiché, alors que les approximations asymptotiques habituelles sont très incertaines de ce point de vue. De plus, les tests combinés ont une excellente puissance par rapport à toutes les contre-hypothèses considérées. Mots clés: indépendance; dépendance sérielle; modèles non-paramétriques; auto corrélations; estimateur à noyau pour une densité; test exact; test de permutations; test de Monte Carlo; test combiné; modèles autorégressifs; moyenne mobile; ARCH; GARCH; modèles bilinéaires; modèles autorégressifs à seuil (TAR). 2 Introduction et sommaire L’importance de l’hypothèse d’indépendance pour l’inférence statistique a incité de nombreux auteurs à mesurer la dépendance et à construire des tests d’indépendance entre variables aléatoires. En particulier, il existe une littérature abondante sur les tests de l’hypothèse d’indépendance d’une série d’observations issues de variables aléatoires ayant une même fonction de densité de probabilité (f.d.p.) continue. A cet égard, nous citerons les procédures suivantes: les tests de Blum, Kiefer et Rosenblatt (1961) fondés sur des mesures de l’écart entre la fonction de répartition conjointe et le produit des fonctions de répartition marginales; le test populaire de Box et Pierce (1970) basé sur la mesure de l’autocorrélation dans un processus gaussien; les modifications de la statistique de Box et Pierce suggérées par Ljung et Box (1978) ainsi que Dufour et Roy (1986) ; les tests de Dufour (1981) basés sur les rangs; plus récemment, le test de Delgado (1996) fondé sur une statistique de Blum et al. (1961); les tests basés sur des estimateurs de la f.d.p. parmi lesquels nous citons le test de Robinson (1991) fondé sur le critère d’information de Kullback-Leibler; le test de Chan et Tran (1992) basé sur des histogrammes; les tests de Skaug et Tjφstheim (1993, 1995) et de Tjφstheim (1996) fondés soit sur le critère d’information de Kullback-Leibler soit sur la distance de Hellinger. Skaug et Tjφstheim (1995) et Tjφstheim (1996) ont effectué des excellentes études de synthèse des tests d’indépendance dans un contexte de séries chronologiques. Toutefois, sous l’hypothèse nulle d’indépendance, un grand nombre des statistiques de test proposées ont des distributions compliquées qui sont difficiles à calculer de façon explicite. Pour cette raison, leurs auteurs ont habituellement recours à des approximations asymptotiques. Les approximations des lois des statistiques de test ou des valeurs critiques engendrent généralement des distorsions de niveau et ne permettent pas des comparaisons valides de puissance. C’est pourquoi nous proposons ici d’utiliser la technique des tests de Monte Carlo (MC)[voir Dwass (1957), Barnard (1963), Birnbaum (1974), Dufour (1995), Dufour et al. (1998), Kiviet and Dufour (1997), Dufour and Kiviet (1998) et Dufour and Farhat (2002)] qui permet de contrôler parfaitement le niveau. Dans cette étude, nous nous référons à un contexte de séries chronologiques. Soient (X t , 0 t=1, ... , T) une série temporelle de variables aléatoires, ε = (ε 1 , ... , εT ) un vecteur T×1 de perturbations aléatoires indépendantes et identiquement distribuées (i.i.d.). Soit p un entier tel que 1 ≤ p ≤ T ; dénotons pour t = p + 1, ... , T , Wt = (Xt , Xt−1 , ..., Xt−p ). La fonction de répartition (f.r.) de W t peut être continue ou discrète. Nous rappelons que, par définition, les variables Xt , Xt−1 , ..., Xt−p (t = p + 1, ..., T ) 3 sont indépendantes si et seulement si leur f.r. conjointe est égale au produit de leurs f.r. marginales. Pour un processus Gaussien, l’hypothèse d’indépendance est équivalente à l’hypothèse d’absence de corrélation. Afin de de confronter les hypothèses H0 : Xt , Xt−1 , ..., Xt−p sont mutuellement indépendantes et H1 : il existe une dépendance (positive ou négative) entre les variables X t , Xt−1 , ..., Xt−p , nous considérons les deux statistiques de test traditionnelles qui mesurent la distance entre les fonctions de répartition: la statistique de Kolmogorov-Smirnov et celle de Cramér-von Mises. Nous étudions aussi les tests de Dufour (1981) basés sur les rangs et le test d’autocorrélation de Box-Pierce (1970). Afin d’explorer les propriétés des tests de MC, nous proposons des procédures de combinaison pour obtenir des tests plus performants. Nous porterons une attention particulière à la dépendance dans les cas de modèles de séries chronologiques de types ARMA, ARCH, GARCH, moyenne mobile non linéaire (NLMA), bilinéaire (BL) et autoregressifs à seuil (Threshold) (TAR). Nous étudions le cas de la dépendance sérielle dans le cas des séries chronologiques univariées mais les procédures adoptées pourraient être généralisées. En résumé, les principaux objectifs de ce travail sont les suivants: (i) étendre l’utilisation des tests de MC pour effectuer des tests d’indépendance; (ii) montrer que les tests de MC ont toujours un niveau exact, tandis que les tests originaux ont souvent un niveau biaisé; (iii) proposer des procédures de combinaison fondées sur les propriétés des tests de MC pour obtenir des tests plus performants dans le cas où la nature de dépendance est inconnue; (iv) effectuer la comparaison des performances du point de vue de la puissance pour différents tests afin de sélectionner les meilleurs selon plusieurs contre-hypothèses courantes. Nous avons montré dans ce travail que l’on peut facilement appliquer la méthode des tests de MC à différents tests d’indépendance dans un contexte très vaste de séries chronologiques et d’obtenir des résultats intéressants. En explorant la propriété indiquant qu’avec la méthode de randomisation de Dufour (1995), les tests de MC sont exacts, nous avons mis l’accent sur le cas d’échantillons finis. Cette excellente propriété nous a permis d’introduire des tests combinés d’indépendance qui améliorent sensiblement la puissance. Nous terminons par les suggestions suivantes pour des recherches futures dans ce domaine: (1) comparer les tests d’indépendance sérielle étudiés dans ce papier avec des tests fondés sur des mesures de distance entre les fonctions de densité de probabilité; (2) confectionner des procédures d’inférence à partir des combinaisons de tests basés sur des mesures de distance entre les fonction de densité de probabilité et des tests basés sur des mesures de distance entre les fonctions de répartition; 4 (3) étendre l’utilisation des tests de MC d’indépendance à un contexte de séries chronologiques multivariés. (4) appliquer les tests de MC d’indépendance aux résidus de régression; (5) étendre la procédure des tests de MC aux matrices de corrélation de Pearson, de Spearman et de Kendall puis aux mesures d’association vectorielle, pour l’étude de la structure de liaison entre deux ou plusieurs vecteurs aléatoires. References Barnard, G. A. (1963), ‘Comment on ‘The spectral analysis of point processes’ by M. S. Bartlett’, Journal of the Royal Statistical Society, Series B 25, 294. Birnbaum, Z. W. (1974), Computers and unconventional test-statistics, in F. Proschan and R. J. Serfling, eds, ‘Reliability and Biometry’, SIAM, Philadelphia, PA, pp. 441–458. Blum, J. R., Kiefer, J. and Rosenblatt, M. (1961), ‘Distribution free tests of independence based on the sample distribution function’, Annals of Mathematical Statistics 32, 485–498. Box, G. E. P. and Pierce, D. A. (1970), ‘Distribution of residual autocorrelations in autoregressive-integrated moving average time series models’, Journal of the American Statistical Association 65, 1509–1526. Chan, N. H. and Tran, L. T. (1992), ‘Non parametric test for serial dependence’, Journal of Time Series Analysis 13, 19–28. Delgado, M. A. (1996), ‘Testing serial independence using the sample distribution function’, Journal of Time Series Analysis 17-3, 271–285. Dufour, J.-M. (1981), ‘Rank tests for serial dependence’, Journal of Time Series Analysis 2, 117– 128. Dufour, J.-M. (1995), Monte Carlo tests with nuisance parameters: A general approach to finitesample inference and nonstandard asymptotics in econometrics, Technical report, C.R.D.E., Université de Montréal. Dufour, J.-M. and Farhat, A. (2002), Exact nonparametric two-sample homogeneity tests, in C. Huber-Carol, N. Balakhrishnan, M. Nikulin and M. Mesbah, eds, ‘Proceedings of the 2000 International Workshop on “Goodness-of-fit Tests and Validity of Models” ’, Birkhaüser, Boston, Massachusetts, chapter 33, pp. 435–448. Dufour, J.-M., Farhat, A., Gardiol, L. and Khalaf, L. (1998), ‘Simulation-based finite sample normality tests in linear regressions’, The Econometrics Journal 1, 154–173. Dufour, J.-M. and Kiviet, J. F. (1998), ‘Exact inference methods for first-order autoregressive distributed lag models’, Econometrica 66, 79–104. 5 Dufour, J.-M. and Roy, R. (1986), ‘Generalized portmanteau statistics and tests of randomness’, Communications in Statistics, Theory and Methods 15, 2953–2972. Dwass, M. (1957), ‘Modified randomization tests for nonparametric hypotheses’, Annals of Mathematical Statistics 28, 181–187. Kiviet, J. and Dufour, J.-M. (1997), ‘Exact tests in single equation autoregressive distributed lag models’, Journal of Econometrics 80, 325–353. Ljung, G. M. and Box, G. E. P. (1978), ‘On a measure of lack of fit in time series models’, Biometrika 65, 297–303. Robinson, P. M. (1991), ‘Consistent nonparametric entropy-based testing’, Review of Economic Studies 58, 437–453. Skaug, H. J. and Tjøstheim, D. (1993), ‘A nonparametric test of serial independence based on the empirical distribution function’, Biometrika 80, 591–602. Skaug, H. J. and Tjøstheim, D. (1995), Testing for serial independence using measures of distance between densities, in P. M. Robinson and M. Rosenblatt, eds, ‘Athens Conference on Applied Probability and Time Series Analysis. Volume II: Time Series Analysis in Memory of E.J. Hannan’, number 115 in ‘Lecture Notes in Statistics’, Springer-Verlag, New York, pp. 363– 377. Tjøstheim, D. (1996), ‘Mesures of dependence and tests of independence’, Statistics 28-3, 249– 284. 6