Tests non paramétriques de comparaison de moyennes `a k

Transcription

Tests non paramétriques de comparaison de moyennes `a k
Tests non paramétriques de comparaison de moyennes à
k−échantillons
Amor KEZIOU
L.S.T.A-Université Paris VI et Institut Galilée Université Paris 13, 175, rue du Chevaleret,
75013 Paris, FRANCE, e-mail: [email protected], [email protected]
RÉSUMÉ. Soit P une loi de probabilité d’un vecteur de variables aléatoires (v.a.) X := (X1 , . . . ,
Xk )T sur un espace produit mesurable (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Pour tout i ∈ {1, . . . , k},
notons PXi la loi marginale de Xi . Supposons que X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) :=
(X1,n , .R. . , Xk,n )T soit un échantillon
de X. Nous considérons le problème de test suivant:
R
H
:
g
(X
)
dP
=
·
·
·
=
g
(X
0
1
1
X
k
k ) dPXk contre H1 : ∃i1 6= i2 ∈ {1, . . . , k} tels que
1
R
R
gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , où g1 , . . . , gk sont des fonctions vectorielles spécifiées à
valeurs dans Rd . Dans le cas non apparié, pour tester une hypothèse d’égalité de moyennes,
Jing (1995) et Adimari (1995) présentent un test par application de la méthode de vraisemblance empirique, introduite par Owen (1988) (1990); ils utilisent la vraisemblance empirique
des v.a. indépendantes X1,1 , . . . , Xk,1 , . . . , X1,n , . . . , Xk,n . Il est à noter que ce test ne s’applique
pas dans le cas apparié. Le but de cette communication est de donner une classe de tests non
paramétriques de l’hypothèse H0 qui s’appliquent dans le cas apparié. Les tests, notés Tφ , que
nous proposons sont basés sur des estimateurs des φ-divergences entre l’ensemble de toutes les
lois de probabilité Q vérifiant H0 et la loi P. Nous montrons, sous certaines conditions, que
le test TKLm associé à la divergence de Kullback-Leibler modifiée (KLm ) est le meilleur parmi
tous les tests Tφ , et est optimal au sens de l’efficacité de Bahadur. Cependant, le choix d’une
divergence φ autre que KLm peut conduire à un test plus robuste, dans le cas des données
contaminées.
Mots clés: Vraisemblance empirique; Test non paramétrique; Problème à k-échantillons; Efficacité de Bahadur; Robustesse; φ-divergence; Dualité.
ABSTRACT. Suppose that P is the distribution of a random vector X := (X1 , . . . , Xk )T on
a measurable product space (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Let X(1) := (X1,1 , . . . , Xk,1 )T , . . .,
X(n) := (X1,n , . . . , Xk,n )T to be iid random vectors, paired or not, with joint distribution P
and marginal distributions
PX1 , . . . , PXRk . We consider the following test problem : test of the
R
hypothesis
H
:
g
(X
)
dP
gk (Xk ) dPXk against H1 : ∃i1 6= i2 ∈ {1, . . . , k} such
0
1
1 R X1 = · · · =
R
that gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , where g1 , . . . , gk are specified vector-valued functions
of dimension d. We introduce a class of nonparametric tests based on estimation of φ-divergences
between the set of all probability measures satisfying H0 and the probability measure P. We
show that the test associated to the modified Kullback-Leibler divergence is optimal in the Bahadur sense.
Key words: Empirical likelihood; nonparametric test; k-sample problem; Bahadur efficiency;
Robustness; φ-divergence; Duality.
1
1
Introduction
Soit P une loi de probabilité d’un vecteur de variables aléatoires (v.a.) X := (X1 , . . . , Xk )T
sur un espace produit mesurable (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Pour tout i ∈ {1, . . . , k},
notons PXi la loi marginale de Xi . Les v.a. Xi peuvent être indépendantes ou non. Notons X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) := (X1,n , . . . , Xk,n )T un échantillon
R de X. Nous
considérons
le
problème
de
test
suivant:
test
de
l’hypothèse
nulle
H
:
g1 (X1 ) dPX1 =
0
R
·R· · = gk (Xk ) dPXRk contre l’hypothèse alternative H1 : ∃i1 6= i2 ∈ {1, . . . , k} tels que
gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , où g1 , . . . , gk sont des fonctions vectorielles spécifiées à
valeurs dans Rd . Notons que si H0 est une hypothèse d’égalité de deux moyennes, si X1 et
X2 sont indépendantes et si PX1 et PX2 sont toutes les deux gaussiennes de variances égales
connues ou inconnues, ce problème de test et le problème bien connu de Behren-Fisher; dans ce
cas, le test souvent utilisé est le t−test. D’autre part, dans le cas d’un modèle de position, il
existe dans la littérature des tests à 2-échantillons (c.f. e.g. Robinson (1982), Davison et Hinkley (1988)). Comme les lois PX1 , . . ., PXk sont généralement inconnues, nous allons considérer
une approche non paramétrique. Dans le cas non apparié, pour tester l’hypothèse d’égalité de
deux moyennes (de X1 et X2 ), Jing (1995) et Adimari (1995) présentent un test par application de la méthode de vraisemblance empirique, introduite par Owen (1988) (1990); ils utilisent
la vraisemblance empirique des v.a. indépendantes X1,1 , . . . , Xk,1 , . . . , X1,n , . . . , Xk,n . Il est à
noter que ce test ne s’applique pas dans le cas apparié. Le but de cette communication est de
donner une classe de tests non paramétriques de l’hypothèse H0 qui s’appliquent dans le cas apparié. Les tests, notés Tφ , que nous proposons sont basés sur des estimateurs des φ-divergences
entre l’ensemble de toutes les lois de probabilité Q vérifiant H0 et la loi P de X. Nous montrons que TKLm , le test associé à la divergence de Kullback-Leibler modifiée (KLm ), peut être
obtenu par application de la méthode de vraisemblance empirique de Owen (1998) (1990) (2001)
en utilisant
la
LP
des n vecteurs
¡
¢ X(1) , . . ., X(n) de dimension k, i.e.,
¡ vraisemblance
¢
¡ emipirique
¢
Qn
n
L = j=1 Q X(j) , avec Q X(j) ≥ 0 et
j=1 Q X(j) = 1.
Récemment, Broniatowski et Keziou (2004) montrent que la reformulation de la méthode de
vraisemblance empirique (MVE) dans le contexte des divergences permet d’introduire de nouvelles méthodes généralisant la MVE, en particulier, elle permet d’étudier ces méthodes (y compris la MVE) sous les hypothèses de mauvaises spécifications. Nous allons présenter les tests
Tφ , en premier lieu dans le cas de 2-échantions, en suite le cas de k-échantillons, k > 2. Sous
certaines conditions, nous montrons que le test TKLm associé à la divergence de Kullback-Leibler
modifiée (KLm ) est le meilleur parmi tous les tests Tφ et est optimal au sens de l’efficacité de
Bahadur. Cependant, le choix d’une divergence φ autre que la KLm -divergence peut conduire
à un test plus robuste, dans le cas des données contaminées. Ce papier est organisé comme
suit: Dans la deuxième partie, après un rappel sur les φ-divergences entre lois de probabilité,
nous présentons les tests Tφ à 2-échantillons; nous donnons les estimateurs des φ-divergences et
nous étudions leurs comportement sous H0 et sous H1 . Dans la troisième partie, sous certaines
conditions, nous calculons les pentes de Bahadur des tests Tφ en utilisant un résultat de grandes
déviations et les limites en probabilité des estimateurs sous H1 . Dans la quatrième partie, nous
présentons les tests Tφ dans le cas de k-échantillons, k > 2.
2
2
Tests non paramétriques à 2-échantillons
Avant de définir les estimateurs, rappelons les définitions et les proprietés des φ-divergences entre
deux lois de probabilité. Soit (X , B) un espace mesurable et P une loi de probabilité définie
sur (X , B). Soit ϕ une fonction convexe définie sur [0, +∞] à valeurs dans [0, +∞] vérifiant
ϕ(1) = 0. La φ−divergence entre deux lois Q et P est définie par
¶
Z µ
dQ
φ(Q, P ) = ϕ
dP si Q est absolument continue par rapport à P,
dP
et φ(Q, P ) = +∞ sinon. Les φ-divergences ont été introduites par Csiszar (1963), voir aussi
Rüschendorf (1984) et Leise et Vajda (1987). Les divergences de Kullback-Leibler (KL) et
Kullback-Leibler modifiée (KLm ) sont associées, respectivement, aux fonctions convexes ϕ(x) =
x log x − x + 1 et ϕ(x) = − log x + x − 1. Les divergences de χ2 et χ2 modifiée (χ2m ) sont as2
sociées aux fonctions convexes ϕ(x) = 12 (x − 1)2 et ϕ(x) = 21 (x−1)
. La divergence de Hellinger
x
√
2
est associée à ϕ(x) = 2 ( x − 1) . Toutes ces divergences font partie de la classe des divergences de puissance de Cressie et Read (1984), notées {φγ , γ ∈ R}, et qui sont associées aux
γ
si γ ∈ R\{0, 1}, ϕ0 (x) = − log x + x − 1 et
fonctions convexes définies par ϕγ (x) := x −γx+γ−1
γ(γ−1)
ϕ1 (x) = x log x − x + 1. Pour toute mesure de probabilité P , les fonctions Q → φ(Q, P ) sont
convexes et positives. Lorsque Q = P , on a φ(Q, P ) = 0. De plus, si ϕ est strictement convexe
sur un voisinage de x = 1, alors la propriété fondamentale suivante est vérifiée: φ(Q, P ) =
0 si et seulement si Q = P . Soit Ω un ensemble de lois de probabilité. La φ-divergence entre
Ω et une loi de probabilité P , notée φ (Ω, P ), est définie par : φ (Ω, P ) = inf Q∈Ω φ(Q, P ). On
appelle projection (ou φ-projection) de P sur Ω, toute loi Q∗ vérifiant φ(Q∗ , P ) ≤ φ(Q, P ), pour
tout Q ∈ Ω. Si ϕ est strictement convexe sur un voisinage de x = 1 et si P admet une projection
sur Ω, alors la propriété fondamentale suivante est vérifiée:
φ(Ω, P ) est positive, et φ (Ω, P ) = 0 si et seulement si P ∈ Ω.
(1)
On généralise la définition des φ-divergences entre une mesure signée finie Q et une loi de
probabilité P via l’extension de la définition des fonctions convexes ϕ sur R. Considérons
l’ensemble de mesures signées finies que l’on note M comme suit
½
¾
Z
Z
M := Q ¿ P /
dQ(x) = 1 et
g1 (x1 ) − g2 (x2 ) dQ(x) = 0 .
(2)
Le problème de test considéré dans l’introduction peut s’écrire donc comme suit : H0 : P ∈
M contre H1 : P 6∈ M. Notons Pn la mesure empirique associée à l’échantion X(1) , . . . , X(n) ,
P
i.e., Pn := n1 nj=1 δX(j) , où δx désigne la mesure de Dirac au point x, pour tout x ∈ X1 × X2 .
En conséquence de la propriété (1), nous utilisons les estimateurs des φ−divergences entre
l’ensemble M et la loi P, pour construire des tests de l’hypothèse nulle H0 , en rejetant celle-ci
lorsque les estimateurs des φ (M, P) prennent de grandes valeurs. Les φ-divergences φ (M, P)
peuvent être estimées par injection de la mesure empirique Pn ; on obtient donc les estimateurs
φb (M, P) := φ (M, Pn ) = inf φ(Q, Pn ).
Q∈M
3
(3)
Définissons l’ensemble de mesures


n
n


X
X
¡
¢
Q X(j) = 1 et
(g1 (X1,j ) − g2 (X2,j )) Q(X(j) ) = 0 .
Mn := Q ¿ Pn /


j=1
j=1
L’infimum dans (3) peut être restreint au sous ensemble Mn ; on obtient donc
φb (M, P) = inf
Q∈Mn
n
¡
¢¢
1X ¡
ϕ nQ X(j) .
n
(4)
j=1
Sous certaines conditions permettant le passage au problème dual, nous obtenons
½
¾
Z
¡T
¢
b
φ (M, P) = sup
t0 − ψ t g(x) dPn (x) ,
(5)
t∈R(d+1)
où g est la fonction vectorielle (1, g)T définie sur X1 × X2 à valeurs dans Rd+1 et g est la fonction
définie par x ∈ X1 × X2 → g(x) := g1 (x1 ) − g2 (x2 ) à valeurs dans Rd . La fonction ψ est la
transformée de Fenchel-Legendre de ϕ, i.e., ψ(t) := supx∈R {tx − ϕ(x)}, ∀t ∈ R. De même, pour
les quantités estimées φ (M, P), sous des conditions d’existence de la φ-projection de P sur M,
nous obtenons
½
¾
Z
¡T
¢
t0 − ψ t g(x) dP(x) .
φ (M, P) = sup
(6)
t∈R(d+1)
En utilisant les représentations duales (5) des estimateurs φb (M, P) et les représentations duales
(6) des quantités estimées φ (M, P), sous certaines conditions supplémentaires, nous obtenons
les résultats de convergence suivants:
THÉORÈME 1:
(a) Sous H0 , la statistique ϕ002n(1) φb (M, P) converge en loi vers une loi de χ2 à d degrés de
liberté.
´
√ ³
(b) Sous H1 , on a n φb (M, P) − φ (M, P) converge vers une loi normale N (0, σ).
Pour toute divergence φ, notons Tφ le test dont la région critique, que l’on note RCφ , est définie
comme suit
½
¾
2n b
RCφ :=
φ (M, P) > q(1−α) ,
(7)
ϕ00 (1)
où q(1−α) est le quantile d’ordre (1 − α) d’une loi de χ2 (d). En conséquence du Théorème 1, les
tests Tφ , asymptotiquement au niveau α, sont asymptotiquement puissants.
3
L’efficacité de Bahadur des tests Tφ
Dans cette partie, nous montrons que le test TKLm est optimal au sens de l’efficacité de Bahadur
et que le choix d’une divergence φ autre que la KLm -divergence mène à un test Tφ d’efficacité de
4
Bahadur inférieure. Nous renvoyons à Nikitin (1995) pour une présentation détaillée de la notion
de l’efficacité de Bahadur des tests. Le Théorème de Bahadur (1967) (1971) (voir Théorème
1.2.2 dans Nikitin (1995)) donne une méthode pour calculer la pente de Bahadur d’un test,
utilisant la convergence en probabilité de la statistique de test sous H1 et un résultat de grandes
déviations sous H0 . Le Théorème 1 partie (b), montre que les estimateurs φb (M, P) converge en
probabilité vers φ (M, P). D’autre part, sous certaines conditions, par application d’une version
uniforme du Théorème de Sanov (voir Théorème 1.6.9 dans Nikitin (1995)), nous montrons que
lim n−1 ln sup P {φ (M, Pn ) ≥ φ (M, P)} =:
n→∞
P ∈M
=
lim n−1 ln sup P {Pn ∈ Aφ }
n→∞
P ∈M
− inf KL (Aφ , P ) ,
P ∈M
(8)
où Aφ est l’ensemble de lois de probabilité défini par
Aφ := {Q telles que φ (M, Q) ≥ φ (M, P)} .
D’après le Théorème de Bahadur (1967) (1971) (voir Théorème 1.2.2 dans Nikitin (1995)), la
pente de Bahadur, notée cTφ (P), du test Tφ est cTφ (P) = 2 inf P ∈M KL (Aφ , P ) . En utilisant
le fait que KLm (Q, P ) = KL(P, Q) pour toutes lois Q et P , on calcule la pente de Bahadur
cTKLm (P) du test TKLm et on obtient cTKLm (P) = 2KL (P, M) . Le test TKLm est donc optimal
au sens de l’efficacité de Bahadur. D’autre part, pour un test Tφ autre que TKLm , comme
l’ensemble Aφ contient la loi P, la pente de Bahadur cTφ (P) du test Tφ est inférieure à celle du
test TKLm .
4
Tests de comparaison à k−échantillons
Dans ce cas, les ensembles M et Mn sont définis, respectivement comme suit
½
¾
Z
Z
Z
M := Q ¿ P /
dQ(x) = 1 et
g1 (x1 ) dQ(x) = · · · = gk (xk ) dQ(x) , et


Mn :=

Q ¿ Pn /
n
X
j=1

n
n

X
X
¡
¢
Q X(j) = 1 et
g1 (X1,j )Q(X(j) ) = · · · =
gk (Xk,j )Q(X(j) ) .

j=1
j=1
Pour calculer les estimateurs φb (M, P) := φ (M, Pn ), on introduit un paramètre θ ∈ Rd et nous
définissons les ensembles Mθ comme suit
½
¾
Z
Z
Mθ := Q ¿ P /
dQ(x) = 1 et
gi (xi ) − θ dQ(x) = 0, pour tout i = 1, . . . , k .
On obtient donc φ (M, P) = inf θ φ (M, P) et φb (M, P) = inf θ φ (M, Pn ). Sous certaines conditions permettant le passage au problème dual, nous obtenons les représentations duales suivantes
des estimateurs et des quantités estimées
½
¾
Z
¡T
¢
b
φ (M, P) = inf sup
t0 − ψ t g(x, θ) dPn ,
θ∈Θ t∈Rdk+1
5
φ (M, P) = inf
½
¾
Z
¡T
¢
sup
t0 − ψ t g(x, θ) dP ,
θ∈Θ t∈Rdk+1
où g est la fonction vectorielle (1, g)T à valeurs dans Rdk+1 et g est définie par x ∈ X1 × · · · Xk →
g(x, θ) := (g1 (x1 ) − θ, . . . , gk (xk ) − θ)T à valeurs dans Rdk . En utilisant ces représentations, nous
obtenons les résultats de convergence suivants:
THÉORÈME 2:
(a) Sous H0 , la statistique ϕ002n(1) φb (M, P) converge en loi vers une loi de χ2 à (dk − d) degrés
de liberté.
´
√ ³
(b) Sous H1 , on a n φb (M, P) − φ (M, P) converge vers une loi normale N (0, σ).
Bibliographie
[1] Adimari, G. (1995) Empirical likelihood confidence intervals for the difference between means,
Statistica (Bologna), (1) 87–94.
[2] Bahadur, R. R. (1971) Some limit theorems in statistics, Society for Industrial and Applied
Mathematics,v+42,47 #4369.
[3] Bahadur, R. R. (1967) An optimal property of the likelihood ratio statistic, Proc. Fifth
Berkeley Sympos. Math. Statist. and Probability, Vol. I: Statistics, 13–26,
[4] Broniatowski, M. et Keziou, A. (2004) Estimation and tests for models satisfying linear constraints with unknown parameter, Prépublication 2004-2, LSTA-Université Paris 6. Submitted.
[5] Csiszar, I. (1963) Eine informationstheoretische Ungleichung und ihre Anwendung auf den
Beweis der Ergodizität von Markoffschen Ketten, Magyar Tud. Akad. Mat. Kutató Int. Közl.,
(8) 85–108.
[6] Davison, Anthony C. et Hinkley, David V. (1988) Saddlepoint approximations in resampling
methods, Biometrika, (75,3) 417–431.
[7] Jing, B.Y. (1995) Two-sample empirical likelihood method, Statistics & Probability Letters,
(4) 315–319.
[8] Liese, F. et Vajda, I. (1987) Convex statistical distances, Teubner-Texte zur Mathematik.
[9] Nikitin, Y. (1995) Asymptotic efficiency of nonparametric tests, Cambridge University Press.
[10] Owen, A (1988) Empirical likelihood ratio confidence intervals for a single functional,
Biometrika, 237–249.
[11] Owen, A (1990) Empirical likelihood ratio confidence regions, Ann. Statist., (1) 90–120.
[12] Owen, A (2001) Empirical Likelihood, Chapman and Hall, New York.
[13] Robinson, J. (1982) Saddlepoint approximations for permutation tests and confidence intervals, J. Roy. Statist. Soc. Ser. B, 44 (1) 91–101.
[14] Rüschendorf, L. (1984) On the minimum discrimination information theorem, Statist. Decisions, 263–283.
6