Tests non paramétriques de comparaison de moyennes `a k
Transcription
Tests non paramétriques de comparaison de moyennes `a k
Tests non paramétriques de comparaison de moyennes à k−échantillons Amor KEZIOU L.S.T.A-Université Paris VI et Institut Galilée Université Paris 13, 175, rue du Chevaleret, 75013 Paris, FRANCE, e-mail: [email protected], [email protected] RÉSUMÉ. Soit P une loi de probabilité d’un vecteur de variables aléatoires (v.a.) X := (X1 , . . . , Xk )T sur un espace produit mesurable (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Pour tout i ∈ {1, . . . , k}, notons PXi la loi marginale de Xi . Supposons que X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) := (X1,n , .R. . , Xk,n )T soit un échantillon de X. Nous considérons le problème de test suivant: R H : g (X ) dP = · · · = g (X 0 1 1 X k k ) dPXk contre H1 : ∃i1 6= i2 ∈ {1, . . . , k} tels que 1 R R gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , où g1 , . . . , gk sont des fonctions vectorielles spécifiées à valeurs dans Rd . Dans le cas non apparié, pour tester une hypothèse d’égalité de moyennes, Jing (1995) et Adimari (1995) présentent un test par application de la méthode de vraisemblance empirique, introduite par Owen (1988) (1990); ils utilisent la vraisemblance empirique des v.a. indépendantes X1,1 , . . . , Xk,1 , . . . , X1,n , . . . , Xk,n . Il est à noter que ce test ne s’applique pas dans le cas apparié. Le but de cette communication est de donner une classe de tests non paramétriques de l’hypothèse H0 qui s’appliquent dans le cas apparié. Les tests, notés Tφ , que nous proposons sont basés sur des estimateurs des φ-divergences entre l’ensemble de toutes les lois de probabilité Q vérifiant H0 et la loi P. Nous montrons, sous certaines conditions, que le test TKLm associé à la divergence de Kullback-Leibler modifiée (KLm ) est le meilleur parmi tous les tests Tφ , et est optimal au sens de l’efficacité de Bahadur. Cependant, le choix d’une divergence φ autre que KLm peut conduire à un test plus robuste, dans le cas des données contaminées. Mots clés: Vraisemblance empirique; Test non paramétrique; Problème à k-échantillons; Efficacité de Bahadur; Robustesse; φ-divergence; Dualité. ABSTRACT. Suppose that P is the distribution of a random vector X := (X1 , . . . , Xk )T on a measurable product space (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Let X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) := (X1,n , . . . , Xk,n )T to be iid random vectors, paired or not, with joint distribution P and marginal distributions PX1 , . . . , PXRk . We consider the following test problem : test of the R hypothesis H : g (X ) dP gk (Xk ) dPXk against H1 : ∃i1 6= i2 ∈ {1, . . . , k} such 0 1 1 R X1 = · · · = R that gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , where g1 , . . . , gk are specified vector-valued functions of dimension d. We introduce a class of nonparametric tests based on estimation of φ-divergences between the set of all probability measures satisfying H0 and the probability measure P. We show that the test associated to the modified Kullback-Leibler divergence is optimal in the Bahadur sense. Key words: Empirical likelihood; nonparametric test; k-sample problem; Bahadur efficiency; Robustness; φ-divergence; Duality. 1 1 Introduction Soit P une loi de probabilité d’un vecteur de variables aléatoires (v.a.) X := (X1 , . . . , Xk )T sur un espace produit mesurable (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Pour tout i ∈ {1, . . . , k}, notons PXi la loi marginale de Xi . Les v.a. Xi peuvent être indépendantes ou non. Notons X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) := (X1,n , . . . , Xk,n )T un échantillon R de X. Nous considérons le problème de test suivant: test de l’hypothèse nulle H : g1 (X1 ) dPX1 = 0 R ·R· · = gk (Xk ) dPXRk contre l’hypothèse alternative H1 : ∃i1 6= i2 ∈ {1, . . . , k} tels que gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , où g1 , . . . , gk sont des fonctions vectorielles spécifiées à valeurs dans Rd . Notons que si H0 est une hypothèse d’égalité de deux moyennes, si X1 et X2 sont indépendantes et si PX1 et PX2 sont toutes les deux gaussiennes de variances égales connues ou inconnues, ce problème de test et le problème bien connu de Behren-Fisher; dans ce cas, le test souvent utilisé est le t−test. D’autre part, dans le cas d’un modèle de position, il existe dans la littérature des tests à 2-échantillons (c.f. e.g. Robinson (1982), Davison et Hinkley (1988)). Comme les lois PX1 , . . ., PXk sont généralement inconnues, nous allons considérer une approche non paramétrique. Dans le cas non apparié, pour tester l’hypothèse d’égalité de deux moyennes (de X1 et X2 ), Jing (1995) et Adimari (1995) présentent un test par application de la méthode de vraisemblance empirique, introduite par Owen (1988) (1990); ils utilisent la vraisemblance empirique des v.a. indépendantes X1,1 , . . . , Xk,1 , . . . , X1,n , . . . , Xk,n . Il est à noter que ce test ne s’applique pas dans le cas apparié. Le but de cette communication est de donner une classe de tests non paramétriques de l’hypothèse H0 qui s’appliquent dans le cas apparié. Les tests, notés Tφ , que nous proposons sont basés sur des estimateurs des φ-divergences entre l’ensemble de toutes les lois de probabilité Q vérifiant H0 et la loi P de X. Nous montrons que TKLm , le test associé à la divergence de Kullback-Leibler modifiée (KLm ), peut être obtenu par application de la méthode de vraisemblance empirique de Owen (1998) (1990) (2001) en utilisant la LP des n vecteurs ¡ ¢ X(1) , . . ., X(n) de dimension k, i.e., ¡ vraisemblance ¢ ¡ emipirique ¢ Qn n L = j=1 Q X(j) , avec Q X(j) ≥ 0 et j=1 Q X(j) = 1. Récemment, Broniatowski et Keziou (2004) montrent que la reformulation de la méthode de vraisemblance empirique (MVE) dans le contexte des divergences permet d’introduire de nouvelles méthodes généralisant la MVE, en particulier, elle permet d’étudier ces méthodes (y compris la MVE) sous les hypothèses de mauvaises spécifications. Nous allons présenter les tests Tφ , en premier lieu dans le cas de 2-échantions, en suite le cas de k-échantillons, k > 2. Sous certaines conditions, nous montrons que le test TKLm associé à la divergence de Kullback-Leibler modifiée (KLm ) est le meilleur parmi tous les tests Tφ et est optimal au sens de l’efficacité de Bahadur. Cependant, le choix d’une divergence φ autre que la KLm -divergence peut conduire à un test plus robuste, dans le cas des données contaminées. Ce papier est organisé comme suit: Dans la deuxième partie, après un rappel sur les φ-divergences entre lois de probabilité, nous présentons les tests Tφ à 2-échantillons; nous donnons les estimateurs des φ-divergences et nous étudions leurs comportement sous H0 et sous H1 . Dans la troisième partie, sous certaines conditions, nous calculons les pentes de Bahadur des tests Tφ en utilisant un résultat de grandes déviations et les limites en probabilité des estimateurs sous H1 . Dans la quatrième partie, nous présentons les tests Tφ dans le cas de k-échantillons, k > 2. 2 2 Tests non paramétriques à 2-échantillons Avant de définir les estimateurs, rappelons les définitions et les proprietés des φ-divergences entre deux lois de probabilité. Soit (X , B) un espace mesurable et P une loi de probabilité définie sur (X , B). Soit ϕ une fonction convexe définie sur [0, +∞] à valeurs dans [0, +∞] vérifiant ϕ(1) = 0. La φ−divergence entre deux lois Q et P est définie par ¶ Z µ dQ φ(Q, P ) = ϕ dP si Q est absolument continue par rapport à P, dP et φ(Q, P ) = +∞ sinon. Les φ-divergences ont été introduites par Csiszar (1963), voir aussi Rüschendorf (1984) et Leise et Vajda (1987). Les divergences de Kullback-Leibler (KL) et Kullback-Leibler modifiée (KLm ) sont associées, respectivement, aux fonctions convexes ϕ(x) = x log x − x + 1 et ϕ(x) = − log x + x − 1. Les divergences de χ2 et χ2 modifiée (χ2m ) sont as2 sociées aux fonctions convexes ϕ(x) = 12 (x − 1)2 et ϕ(x) = 21 (x−1) . La divergence de Hellinger x √ 2 est associée à ϕ(x) = 2 ( x − 1) . Toutes ces divergences font partie de la classe des divergences de puissance de Cressie et Read (1984), notées {φγ , γ ∈ R}, et qui sont associées aux γ si γ ∈ R\{0, 1}, ϕ0 (x) = − log x + x − 1 et fonctions convexes définies par ϕγ (x) := x −γx+γ−1 γ(γ−1) ϕ1 (x) = x log x − x + 1. Pour toute mesure de probabilité P , les fonctions Q → φ(Q, P ) sont convexes et positives. Lorsque Q = P , on a φ(Q, P ) = 0. De plus, si ϕ est strictement convexe sur un voisinage de x = 1, alors la propriété fondamentale suivante est vérifiée: φ(Q, P ) = 0 si et seulement si Q = P . Soit Ω un ensemble de lois de probabilité. La φ-divergence entre Ω et une loi de probabilité P , notée φ (Ω, P ), est définie par : φ (Ω, P ) = inf Q∈Ω φ(Q, P ). On appelle projection (ou φ-projection) de P sur Ω, toute loi Q∗ vérifiant φ(Q∗ , P ) ≤ φ(Q, P ), pour tout Q ∈ Ω. Si ϕ est strictement convexe sur un voisinage de x = 1 et si P admet une projection sur Ω, alors la propriété fondamentale suivante est vérifiée: φ(Ω, P ) est positive, et φ (Ω, P ) = 0 si et seulement si P ∈ Ω. (1) On généralise la définition des φ-divergences entre une mesure signée finie Q et une loi de probabilité P via l’extension de la définition des fonctions convexes ϕ sur R. Considérons l’ensemble de mesures signées finies que l’on note M comme suit ½ ¾ Z Z M := Q ¿ P / dQ(x) = 1 et g1 (x1 ) − g2 (x2 ) dQ(x) = 0 . (2) Le problème de test considéré dans l’introduction peut s’écrire donc comme suit : H0 : P ∈ M contre H1 : P 6∈ M. Notons Pn la mesure empirique associée à l’échantion X(1) , . . . , X(n) , P i.e., Pn := n1 nj=1 δX(j) , où δx désigne la mesure de Dirac au point x, pour tout x ∈ X1 × X2 . En conséquence de la propriété (1), nous utilisons les estimateurs des φ−divergences entre l’ensemble M et la loi P, pour construire des tests de l’hypothèse nulle H0 , en rejetant celle-ci lorsque les estimateurs des φ (M, P) prennent de grandes valeurs. Les φ-divergences φ (M, P) peuvent être estimées par injection de la mesure empirique Pn ; on obtient donc les estimateurs φb (M, P) := φ (M, Pn ) = inf φ(Q, Pn ). Q∈M 3 (3) Définissons l’ensemble de mesures n n X X ¡ ¢ Q X(j) = 1 et (g1 (X1,j ) − g2 (X2,j )) Q(X(j) ) = 0 . Mn := Q ¿ Pn / j=1 j=1 L’infimum dans (3) peut être restreint au sous ensemble Mn ; on obtient donc φb (M, P) = inf Q∈Mn n ¡ ¢¢ 1X ¡ ϕ nQ X(j) . n (4) j=1 Sous certaines conditions permettant le passage au problème dual, nous obtenons ½ ¾ Z ¡T ¢ b φ (M, P) = sup t0 − ψ t g(x) dPn (x) , (5) t∈R(d+1) où g est la fonction vectorielle (1, g)T définie sur X1 × X2 à valeurs dans Rd+1 et g est la fonction définie par x ∈ X1 × X2 → g(x) := g1 (x1 ) − g2 (x2 ) à valeurs dans Rd . La fonction ψ est la transformée de Fenchel-Legendre de ϕ, i.e., ψ(t) := supx∈R {tx − ϕ(x)}, ∀t ∈ R. De même, pour les quantités estimées φ (M, P), sous des conditions d’existence de la φ-projection de P sur M, nous obtenons ½ ¾ Z ¡T ¢ t0 − ψ t g(x) dP(x) . φ (M, P) = sup (6) t∈R(d+1) En utilisant les représentations duales (5) des estimateurs φb (M, P) et les représentations duales (6) des quantités estimées φ (M, P), sous certaines conditions supplémentaires, nous obtenons les résultats de convergence suivants: THÉORÈME 1: (a) Sous H0 , la statistique ϕ002n(1) φb (M, P) converge en loi vers une loi de χ2 à d degrés de liberté. ´ √ ³ (b) Sous H1 , on a n φb (M, P) − φ (M, P) converge vers une loi normale N (0, σ). Pour toute divergence φ, notons Tφ le test dont la région critique, que l’on note RCφ , est définie comme suit ½ ¾ 2n b RCφ := φ (M, P) > q(1−α) , (7) ϕ00 (1) où q(1−α) est le quantile d’ordre (1 − α) d’une loi de χ2 (d). En conséquence du Théorème 1, les tests Tφ , asymptotiquement au niveau α, sont asymptotiquement puissants. 3 L’efficacité de Bahadur des tests Tφ Dans cette partie, nous montrons que le test TKLm est optimal au sens de l’efficacité de Bahadur et que le choix d’une divergence φ autre que la KLm -divergence mène à un test Tφ d’efficacité de 4 Bahadur inférieure. Nous renvoyons à Nikitin (1995) pour une présentation détaillée de la notion de l’efficacité de Bahadur des tests. Le Théorème de Bahadur (1967) (1971) (voir Théorème 1.2.2 dans Nikitin (1995)) donne une méthode pour calculer la pente de Bahadur d’un test, utilisant la convergence en probabilité de la statistique de test sous H1 et un résultat de grandes déviations sous H0 . Le Théorème 1 partie (b), montre que les estimateurs φb (M, P) converge en probabilité vers φ (M, P). D’autre part, sous certaines conditions, par application d’une version uniforme du Théorème de Sanov (voir Théorème 1.6.9 dans Nikitin (1995)), nous montrons que lim n−1 ln sup P {φ (M, Pn ) ≥ φ (M, P)} =: n→∞ P ∈M = lim n−1 ln sup P {Pn ∈ Aφ } n→∞ P ∈M − inf KL (Aφ , P ) , P ∈M (8) où Aφ est l’ensemble de lois de probabilité défini par Aφ := {Q telles que φ (M, Q) ≥ φ (M, P)} . D’après le Théorème de Bahadur (1967) (1971) (voir Théorème 1.2.2 dans Nikitin (1995)), la pente de Bahadur, notée cTφ (P), du test Tφ est cTφ (P) = 2 inf P ∈M KL (Aφ , P ) . En utilisant le fait que KLm (Q, P ) = KL(P, Q) pour toutes lois Q et P , on calcule la pente de Bahadur cTKLm (P) du test TKLm et on obtient cTKLm (P) = 2KL (P, M) . Le test TKLm est donc optimal au sens de l’efficacité de Bahadur. D’autre part, pour un test Tφ autre que TKLm , comme l’ensemble Aφ contient la loi P, la pente de Bahadur cTφ (P) du test Tφ est inférieure à celle du test TKLm . 4 Tests de comparaison à k−échantillons Dans ce cas, les ensembles M et Mn sont définis, respectivement comme suit ½ ¾ Z Z Z M := Q ¿ P / dQ(x) = 1 et g1 (x1 ) dQ(x) = · · · = gk (xk ) dQ(x) , et Mn := Q ¿ Pn / n X j=1 n n X X ¡ ¢ Q X(j) = 1 et g1 (X1,j )Q(X(j) ) = · · · = gk (Xk,j )Q(X(j) ) . j=1 j=1 Pour calculer les estimateurs φb (M, P) := φ (M, Pn ), on introduit un paramètre θ ∈ Rd et nous définissons les ensembles Mθ comme suit ½ ¾ Z Z Mθ := Q ¿ P / dQ(x) = 1 et gi (xi ) − θ dQ(x) = 0, pour tout i = 1, . . . , k . On obtient donc φ (M, P) = inf θ φ (M, P) et φb (M, P) = inf θ φ (M, Pn ). Sous certaines conditions permettant le passage au problème dual, nous obtenons les représentations duales suivantes des estimateurs et des quantités estimées ½ ¾ Z ¡T ¢ b φ (M, P) = inf sup t0 − ψ t g(x, θ) dPn , θ∈Θ t∈Rdk+1 5 φ (M, P) = inf ½ ¾ Z ¡T ¢ sup t0 − ψ t g(x, θ) dP , θ∈Θ t∈Rdk+1 où g est la fonction vectorielle (1, g)T à valeurs dans Rdk+1 et g est définie par x ∈ X1 × · · · Xk → g(x, θ) := (g1 (x1 ) − θ, . . . , gk (xk ) − θ)T à valeurs dans Rdk . En utilisant ces représentations, nous obtenons les résultats de convergence suivants: THÉORÈME 2: (a) Sous H0 , la statistique ϕ002n(1) φb (M, P) converge en loi vers une loi de χ2 à (dk − d) degrés de liberté. ´ √ ³ (b) Sous H1 , on a n φb (M, P) − φ (M, P) converge vers une loi normale N (0, σ). Bibliographie [1] Adimari, G. (1995) Empirical likelihood confidence intervals for the difference between means, Statistica (Bologna), (1) 87–94. [2] Bahadur, R. R. (1971) Some limit theorems in statistics, Society for Industrial and Applied Mathematics,v+42,47 #4369. [3] Bahadur, R. R. (1967) An optimal property of the likelihood ratio statistic, Proc. Fifth Berkeley Sympos. Math. Statist. and Probability, Vol. I: Statistics, 13–26, [4] Broniatowski, M. et Keziou, A. (2004) Estimation and tests for models satisfying linear constraints with unknown parameter, Prépublication 2004-2, LSTA-Université Paris 6. Submitted. [5] Csiszar, I. (1963) Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizität von Markoffschen Ketten, Magyar Tud. Akad. Mat. Kutató Int. Közl., (8) 85–108. [6] Davison, Anthony C. et Hinkley, David V. (1988) Saddlepoint approximations in resampling methods, Biometrika, (75,3) 417–431. [7] Jing, B.Y. (1995) Two-sample empirical likelihood method, Statistics & Probability Letters, (4) 315–319. [8] Liese, F. et Vajda, I. (1987) Convex statistical distances, Teubner-Texte zur Mathematik. [9] Nikitin, Y. (1995) Asymptotic efficiency of nonparametric tests, Cambridge University Press. [10] Owen, A (1988) Empirical likelihood ratio confidence intervals for a single functional, Biometrika, 237–249. [11] Owen, A (1990) Empirical likelihood ratio confidence regions, Ann. Statist., (1) 90–120. [12] Owen, A (2001) Empirical Likelihood, Chapman and Hall, New York. [13] Robinson, J. (1982) Saddlepoint approximations for permutation tests and confidence intervals, J. Roy. Statist. Soc. Ser. B, 44 (1) 91–101. [14] Rüschendorf, L. (1984) On the minimum discrimination information theorem, Statist. Decisions, 263–283. 6