Tests exacts d`indépendance sérielle dans les cas de distributions

Transcription

Tests exacts d`indépendance sérielle dans les cas de distributions
Tests exacts d’indépendance sérielle dans les cas de
distributions continues et discrètes ∗
Jean-Marie Dufour †
Université de Montréal
Abdeljelil Farhat ‡
Université de Montréal
Abdelwahed Trabelsi
Université de Tunis
§
First version: August 2001
This version: March 2004
ABSTRACT
In this paper, we study the problem of testing the nonparametric hypothesis of randomness
(independent identically distributed variables), with both continuous and discrete distributions,
against serial dependence alternatives. We consider tests based on sample autocorrelations,
goodness-of-fit statistics [Kolmogorov-Smirnov, Cramér-von Mises], and measures of distance
between kernel-based density estimators. In view of controlling size, many of these tests raise
difficult distributional problems, in both finite and large samples. We show that these problems
can easily be solved by using permutational versions of the procedures jointly with the method
of Monte Carlo tests (randomized permutation Monte Carlo tests), so exact tests with known
size can be obtained, irrespective whether the distribution of the observations is continuous or
discrete. This makes existing procedures more reliable and provides a simple way of implementing
new procedures. We show that various test procedures can also be combined to obtain tests with
better overall power properties.
The performance of the proposed procedures is studied in a simulation experiment where randomness is tested against a variety of alternatives: autoregressive-moving average (ARMA),
∗
This work was supported by the Canada Research Chair Program, the Canadian Network of Centres of
Excellence [program on Mathematics of Information Technology and Complex Systems (MITACS)], the Canada
Council for the Arts (Killam Fellowship), the Natural Sciences and Engineering Research Council of Canada, the
Social Sciences and Humanities Research Council of Canada, and the Fonds FCAR (Government of Québec).
†
Canada Research Chair Holder (Econometrics). Centre de recherche et développement en économique
(C.R.D.E.), Centre interuniversitaire de recherche en analyse des organisations (CIRANO), and Département de
sciences économiques, Université de Montréal. Mailing address: Département de sciences économiques, Université
de Montréal, C.P. 6128 succursale Centre-ville, Montréal, Québec, Canada H3C 3J7. TEL: 1 514 343 2400; FAX: 1
514 343 5831; e-mail: [email protected]. Web page: http://www.fas.umontreal.ca/SCECO/Dufour
.
‡
CIRANO and C.R.D.E, Université de Montréal. Mailing address: C.R.D.E, Université de Montréal, C.P.
6128, succursale Centre-ville, Montréal, Québec, Canada H3C 3J7. TEL: (514) 343 6557; FAX (514) 343 5831;
e-mail: [email protected].
§
Institut Supérieur de Gestion, Université de Tunis. Mailing address: ISG, 41 Av. de la liberté 2000 Le
Bardo, Tunis, Tunisie. TEL: (216-1) 560 378; FAX (216-1) 568 767; e-mail: [email protected].
nonlinear moving average, autoregressive with heteroskedastic errors, autoregressive conditional
heteroskedastic (ARCH), generalized autoregressive conditional heteroskedastic (GARCH), bilinear, and threshold autoregressive models. Both Gaussian and non-Gaussian (e.g., Cauchy)
noises are considered. We show that the randomized permutation Monte Carlo tests always have
the correct size, while usual asymptotic approximations are unreliable from that viewpoint. Furthermore, the proposed combined test procedures perform very well against all the alternatives
considered.
Keywords: randomness; serial dependence; nonparametric methods; distribution-free; permutation test; autocorrelations; Kolmogorov-Smirnov, Cramér-von Mises; kernel density estimator;
Monte Carlo test; ; test combination; autoregressive process; moving average; ARCH; GARCH;
bilinear model; threshold autoregression.
RÉSUMÉ
Dans ce texte, nous étudions le problème qui consiste à tester le caractère aléatoire (variables
indépendantes identiquement distribuées), dans le cadre d’un modèle non paramétrique où la
distribution des observations peut être continue ou discrète, en vue de détecter une dépendance
sérielle. Nous considérons des tests basés sur les autocorrélations usuelles, la fonction de répartition (Kolmogorov-Smirnov, Cramèr-von Mises), ainsi des estimateurs à noyau de la densité des
observations. Du point du contrôle du niveau, plusieurs de ces tests soulèvent des problèmes
distributionnels difficiles à résoudre dans les échantillons finis. Nous montrons que ces problèmes
peuvent être facilement résolus en utilisant des versions permutationelles de ces tests conjointement avec la méthode des tests de Monte Carlo (MC), i.e. un test de permutation randomisé
de manière appropriée. On peut alors construire des tests exacts, i.e. des tests dont le niveau
est connu, tant pour des lois discrètes que continues. Ceci permet de rendre les procédures existantes beaucoup plus fiables et de facilement mettre en oeuvre de nouveaux tests. En particulier,
nous montrons que différents tests que peuvent être combinées par cette approche de manière à
obtenir une meilleure puissance.
Nous étudions la performance des procédures proposées dans une expérience de simulation où
l’hypothèse nulle est confrontée à plusieurs contre-hypothèses importantes: modèles autorégressifs moyenne mobile (ARMA), moyenne mobile non linéaire (NLMA), moyenne mobile non
linéaire généralisée (ENLMA), autorégressifs avec hétéroscédasticité conditionnelle (ARCH), autorégressifs généralisés avec hétéroscédasticité conditionnelle (GARCH), bilinéaires (BL) et autorégressifs à seuil (TAR). Des bruits blancs gaussiens et non gaussiens (de Cauchy, par exemple)
sont considérés. Ces simulations montrent que les tests randomisés de Monte Carlo ont bien le
niveau affiché, alors que les approximations asymptotiques habituelles sont très incertaines de ce
point de vue. De plus, les tests combinés ont une excellente puissance par rapport à toutes les
contre-hypothèses considérées.
Mots clés: indépendance; dépendance sérielle; modèles non-paramétriques; auto corrélations;
estimateur à noyau pour une densité; test exact; test de permutations; test de Monte Carlo; test
combiné; modèles autorégressifs; moyenne mobile; ARCH; GARCH; modèles bilinéaires; modèles
autorégressifs à seuil (TAR).
2
Introduction et sommaire
L’importance de l’hypothèse d’indépendance pour l’inférence statistique a incité de nombreux auteurs à mesurer la dépendance et à construire des tests d’indépendance entre variables
aléatoires. En particulier, il existe une littérature abondante sur les tests de l’hypothèse
d’indépendance d’une série d’observations issues de variables aléatoires ayant une même fonction
de densité de probabilité (f.d.p.) continue. A cet égard, nous citerons les procédures suivantes:
les tests de Blum, Kiefer et Rosenblatt (1961) fondés sur des mesures de l’écart entre la fonction
de répartition conjointe et le produit des fonctions de répartition marginales; le test populaire
de Box et Pierce (1970) basé sur la mesure de l’autocorrélation dans un processus gaussien;
les modifications de la statistique de Box et Pierce suggérées par Ljung et Box (1978) ainsi
que Dufour et Roy (1986) ; les tests de Dufour (1981) basés sur les rangs; plus récemment, le
test de Delgado (1996) fondé sur une statistique de Blum et al. (1961); les tests basés sur des
estimateurs de la f.d.p. parmi lesquels nous citons le test de Robinson (1991) fondé sur le critère
d’information de Kullback-Leibler; le test de Chan et Tran (1992) basé sur des histogrammes;
les tests de Skaug et Tjφstheim (1993, 1995) et de Tjφstheim (1996) fondés soit sur le critère
d’information de Kullback-Leibler soit sur la distance de Hellinger. Skaug et Tjφstheim (1995)
et Tjφstheim (1996) ont effectué des excellentes études de synthèse des tests d’indépendance
dans un contexte de séries chronologiques.
Toutefois, sous l’hypothèse nulle d’indépendance, un grand nombre des statistiques de test
proposées ont des distributions compliquées qui sont difficiles à calculer de façon explicite. Pour
cette raison, leurs auteurs ont habituellement recours à des approximations asymptotiques. Les
approximations des lois des statistiques de test ou des valeurs critiques engendrent généralement
des distorsions de niveau et ne permettent pas des comparaisons valides de puissance. C’est
pourquoi nous proposons ici d’utiliser la technique des tests de Monte Carlo (MC)[voir Dwass
(1957), Barnard (1963), Birnbaum (1974), Dufour (1995), Dufour et al. (1998), Kiviet and
Dufour (1997), Dufour and Kiviet (1998) et Dufour and Farhat (2002)] qui permet de contrôler
parfaitement le niveau.
Dans cette étude, nous nous référons à un contexte de séries chronologiques. Soient (X t ,
0
t=1, ... , T) une série temporelle de variables aléatoires, ε = (ε 1 , ... , εT ) un vecteur T×1 de
perturbations aléatoires indépendantes et identiquement distribuées (i.i.d.). Soit p un entier tel
que 1 ≤ p ≤ T ; dénotons pour t = p + 1, ... , T ,
Wt = (Xt , Xt−1 , ..., Xt−p ).
La fonction de répartition (f.r.) de W t peut être continue ou discrète. Nous rappelons que, par
définition, les variables
Xt , Xt−1 , ..., Xt−p (t = p + 1, ..., T )
3
sont indépendantes si et seulement si leur f.r. conjointe est égale au produit de leurs f.r.
marginales.
Pour un processus Gaussien, l’hypothèse d’indépendance est équivalente à
l’hypothèse d’absence de corrélation.
Afin de de confronter les hypothèses
H0 : Xt , Xt−1 , ..., Xt−p sont mutuellement indépendantes
et
H1 : il existe une dépendance (positive ou négative) entre les variables X t , Xt−1 , ..., Xt−p ,
nous considérons les deux statistiques de test traditionnelles qui mesurent la distance entre les
fonctions de répartition: la statistique de Kolmogorov-Smirnov et celle de Cramér-von Mises.
Nous étudions aussi les tests de Dufour (1981) basés sur les rangs et le test d’autocorrélation
de Box-Pierce (1970). Afin d’explorer les propriétés des tests de MC, nous proposons des
procédures de combinaison pour obtenir des tests plus performants. Nous porterons une
attention particulière à la dépendance dans les cas de modèles de séries chronologiques de
types ARMA, ARCH, GARCH, moyenne mobile non linéaire (NLMA), bilinéaire (BL) et
autoregressifs à seuil (Threshold) (TAR). Nous étudions le cas de la dépendance sérielle dans le
cas des séries chronologiques univariées mais les procédures adoptées pourraient être généralisées.
En résumé, les principaux objectifs de ce travail sont les suivants:
(i) étendre l’utilisation des tests de MC pour effectuer des tests d’indépendance;
(ii) montrer que les tests de MC ont toujours un niveau exact, tandis que les tests originaux ont
souvent un niveau biaisé;
(iii) proposer des procédures de combinaison fondées sur les propriétés des tests de MC pour
obtenir des tests plus performants dans le cas où la nature de dépendance est inconnue;
(iv) effectuer la comparaison des performances du point de vue de la puissance pour différents
tests afin de sélectionner les meilleurs selon plusieurs contre-hypothèses courantes.
Nous avons montré dans ce travail que l’on peut facilement appliquer la méthode des tests
de MC à différents tests d’indépendance dans un contexte très vaste de séries chronologiques
et d’obtenir des résultats intéressants. En explorant la propriété indiquant qu’avec la méthode
de randomisation de Dufour (1995), les tests de MC sont exacts, nous avons mis l’accent sur le
cas d’échantillons finis. Cette excellente propriété nous a permis d’introduire des tests combinés
d’indépendance qui améliorent sensiblement la puissance.
Nous terminons par les suggestions suivantes pour des recherches futures dans ce domaine:
(1) comparer les tests d’indépendance sérielle étudiés dans ce papier avec des tests fondés sur
des mesures de distance entre les fonctions de densité de probabilité;
(2) confectionner des procédures d’inférence à partir des combinaisons de tests basés sur des
mesures de distance entre les fonction de densité de probabilité et des tests basés sur des mesures
de distance entre les fonctions de répartition;
4
(3) étendre l’utilisation des tests de MC d’indépendance à un contexte de séries chronologiques
multivariés.
(4) appliquer les tests de MC d’indépendance aux résidus de régression;
(5) étendre la procédure des tests de MC aux matrices de corrélation de Pearson, de Spearman
et de Kendall puis aux mesures d’association vectorielle, pour l’étude de la structure de liaison
entre deux ou plusieurs vecteurs aléatoires.
References
Barnard, G. A. (1963), ‘Comment on ‘The spectral analysis of point processes’ by M. S. Bartlett’,
Journal of the Royal Statistical Society, Series B 25, 294.
Birnbaum, Z. W. (1974), Computers and unconventional test-statistics, in F. Proschan and R. J.
Serfling, eds, ‘Reliability and Biometry’, SIAM, Philadelphia, PA, pp. 441–458.
Blum, J. R., Kiefer, J. and Rosenblatt, M. (1961), ‘Distribution free tests of independence based
on the sample distribution function’, Annals of Mathematical Statistics 32, 485–498.
Box, G. E. P. and Pierce, D. A. (1970), ‘Distribution of residual autocorrelations in
autoregressive-integrated moving average time series models’, Journal of the American Statistical Association 65, 1509–1526.
Chan, N. H. and Tran, L. T. (1992), ‘Non parametric test for serial dependence’, Journal of
Time Series Analysis 13, 19–28.
Delgado, M. A. (1996), ‘Testing serial independence using the sample distribution function’,
Journal of Time Series Analysis 17-3, 271–285.
Dufour, J.-M. (1981), ‘Rank tests for serial dependence’, Journal of Time Series Analysis 2, 117–
128.
Dufour, J.-M. (1995), Monte Carlo tests with nuisance parameters: A general approach to finitesample inference and nonstandard asymptotics in econometrics, Technical report, C.R.D.E.,
Université de Montréal.
Dufour, J.-M. and Farhat, A. (2002), Exact nonparametric two-sample homogeneity tests, in
C. Huber-Carol, N. Balakhrishnan, M. Nikulin and M. Mesbah, eds, ‘Proceedings of the
2000 International Workshop on “Goodness-of-fit Tests and Validity of Models” ’, Birkhaüser,
Boston, Massachusetts, chapter 33, pp. 435–448.
Dufour, J.-M., Farhat, A., Gardiol, L. and Khalaf, L. (1998), ‘Simulation-based finite sample
normality tests in linear regressions’, The Econometrics Journal 1, 154–173.
Dufour, J.-M. and Kiviet, J. F. (1998), ‘Exact inference methods for first-order autoregressive
distributed lag models’, Econometrica 66, 79–104.
5
Dufour, J.-M. and Roy, R. (1986), ‘Generalized portmanteau statistics and tests of randomness’,
Communications in Statistics, Theory and Methods 15, 2953–2972.
Dwass, M. (1957), ‘Modified randomization tests for nonparametric hypotheses’, Annals of Mathematical Statistics 28, 181–187.
Kiviet, J. and Dufour, J.-M. (1997), ‘Exact tests in single equation autoregressive distributed
lag models’, Journal of Econometrics 80, 325–353.
Ljung, G. M. and Box, G. E. P. (1978), ‘On a measure of lack of fit in time series models’,
Biometrika 65, 297–303.
Robinson, P. M. (1991), ‘Consistent nonparametric entropy-based testing’, Review of Economic
Studies 58, 437–453.
Skaug, H. J. and Tjøstheim, D. (1993), ‘A nonparametric test of serial independence based on
the empirical distribution function’, Biometrika 80, 591–602.
Skaug, H. J. and Tjøstheim, D. (1995), Testing for serial independence using measures of distance
between densities, in P. M. Robinson and M. Rosenblatt, eds, ‘Athens Conference on Applied
Probability and Time Series Analysis. Volume II: Time Series Analysis in Memory of E.J.
Hannan’, number 115 in ‘Lecture Notes in Statistics’, Springer-Verlag, New York, pp. 363–
377.
Tjøstheim, D. (1996), ‘Mesures of dependence and tests of independence’, Statistics 28-3, 249–
284.
6