Tests non paramétriques de comparaison de moyennes `a k

Transcription

Tests non paramétriques de comparaison de moyennes à
k−échantillons
Amor KEZIOU
L.S.T.A-Université Paris VI et Institut Galilée Université Paris 13, 175, rue du Chevaleret,
75013 Paris, FRANCE, e-mail: [email protected], [email protected]
RÉSUMÉ. Soit P une loi de probabilité d’un vecteur de variables aléatoires (v.a.) X := (X1 , . . . ,
Xk )T sur un espace produit mesurable (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Pour tout i ∈ {1, . . . , k},
notons PXi la loi marginale de Xi . Supposons que X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) :=
(X1,n , .R. . , Xk,n )T soit un échantillon
de X. Nous considérons le problème de test suivant:
R
H
:
g
(X
)
dP
=
·
·
·
=
g
(X
0
1
1
X
k
k ) dPXk contre H1 : ∃i1 6= i2 ∈ {1, . . . , k} tels que
1
R
R
gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , où g1 , . . . , gk sont des fonctions vectorielles spécifiées à
valeurs dans Rd . Dans le cas non apparié, pour tester une hypothèse d’égalité de moyennes,
Jing (1995) et Adimari (1995) présentent un test par application de la méthode de vraisemblance empirique, introduite par Owen (1988) (1990); ils utilisent la vraisemblance empirique
des v.a. indépendantes X1,1 , . . . , Xk,1 , . . . , X1,n , . . . , Xk,n . Il est à noter que ce test ne s’applique
pas dans le cas apparié. Le but de cette communication est de donner une classe de tests non
paramétriques de l’hypothèse H0 qui s’appliquent dans le cas apparié. Les tests, notés Tφ , que
nous proposons sont basés sur des estimateurs des φ-divergences entre l’ensemble de toutes les
lois de probabilité Q vérifiant H0 et la loi P. Nous montrons, sous certaines conditions, que
le test TKLm associé à la divergence de Kullback-Leibler modifiée (KLm ) est le meilleur parmi
tous les tests Tφ , et est optimal au sens de l’efficacité de Bahadur. Cependant, le choix d’une
divergence φ autre que KLm peut conduire à un test plus robuste, dans le cas des données
contaminées.
Mots clés: Vraisemblance empirique; Test non paramétrique; Problème à k-échantillons; Efficacité de Bahadur; Robustesse; φ-divergence; Dualité.
ABSTRACT. Suppose that P is the distribution of a random vector X := (X1 , . . . , Xk )T on
a measurable product space (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Let X(1) := (X1,1 , . . . , Xk,1 )T , . . .,
X(n) := (X1,n , . . . , Xk,n )T to be iid random vectors, paired or not, with joint distribution P
and marginal distributions
PX1 , . . . , PXRk . We consider the following test problem : test of the
R
hypothesis
H
:
g
(X
)
dP
gk (Xk ) dPXk against H1 : ∃i1 6= i2 ∈ {1, . . . , k} such
0
1
1 R X1 = · · · =
R
that gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , where g1 , . . . , gk are specified vector-valued functions
of dimension d. We introduce a class of nonparametric tests based on estimation of φ-divergences
between the set of all probability measures satisfying H0 and the probability measure P. We
show that the test associated to the modified Kullback-Leibler divergence is optimal in the Bahadur sense.
Key words: Empirical likelihood; nonparametric test; k-sample problem; Bahadur efficiency;
Robustness; φ-divergence; Duality.
1
1
Introduction
Soit P une loi de probabilité d’un vecteur de variables aléatoires (v.a.) X := (X1 , . . . , Xk )T
sur un espace produit mesurable (X1 × · · · × Xk ; B1 ⊗ · · · ⊗ Bk ). Pour tout i ∈ {1, . . . , k},
notons PXi la loi marginale de Xi . Les v.a. Xi peuvent être indépendantes ou non. Notons X(1) := (X1,1 , . . . , Xk,1 )T , . . ., X(n) := (X1,n , . . . , Xk,n )T un échantillon
R de X. Nous
considérons
le
problème
de
test
suivant:
test
de
l’hypothèse
nulle
H
:
g1 (X1 ) dPX1 =
0
R
·R· · = gk (Xk ) dPXRk contre l’hypothèse alternative H1 : ∃i1 6= i2 ∈ {1, . . . , k} tels que
gi1 (Xi1 ) dPXi1 6= gi2 (Xi2 ) dPXi2 , où g1 , . . . , gk sont des fonctions vectorielles spécifiées à
valeurs dans Rd . Notons que si H0 est une hypothèse d’égalité de deux moyennes, si X1 et
X2 sont indépendantes et si PX1 et PX2 sont toutes les deux gaussiennes de variances égales
connues ou inconnues, ce problème de test et le problème bien connu de Behren-Fisher; dans ce
cas, le test souvent utilisé est le t−test. D’autre part, dans le cas d’un modèle de position, il
existe dans la littérature des tests à 2-échantillons (c.f. e.g. Robinson (1982), Davison et Hinkley (1988)). Comme les lois PX1 , . . ., PXk sont généralement inconnues, nous allons considérer
une approche non paramétrique. Dans le cas non apparié, pour tester l’hypothèse d’égalité de
deux moyennes (de X1 et X2 ), Jing (1995) et Adimari (1995) présentent un test par application de la méthode de vraisemblance empirique, introduite par Owen (1988) (1990); ils utilisent
la vraisemblance empirique des v.a. indépendantes X1,1 , . . . , Xk,1 , . . . , X1,n , . . . , Xk,n . Il est à
noter que ce test ne s’applique pas dans le cas apparié. Le but de cette communication est de
donner une classe de tests non paramétriques de l’hypothèse H0 qui s’appliquent dans le cas apparié. Les tests, notés Tφ , que nous proposons sont basés sur des estimateurs des φ-divergences
entre l’ensemble de toutes les lois de probabilité Q vérifiant H0 et la loi P de X. Nous montrons que TKLm , le test associé à la divergence de Kullback-Leibler modifiée (KLm ), peut être
obtenu par application de la méthode de vraisemblance empirique de Owen (1998) (1990) (2001)
en utilisant
la
LP
des n vecteurs
¡
¢ X(1) , . . ., X(n) de dimension k, i.e.,
¡ vraisemblance
¢
¡ emipirique
¢
Qn
n
L = j=1 Q X(j) , avec Q X(j) ≥ 0 et
j=1 Q X(j) = 1.
Récemment, Broniatowski et Keziou (2004) montrent que la reformulation de la méthode de
vraisemblance empirique (MVE) dans le contexte des divergences permet d’introduire de nouvelles méthodes généralisant la MVE, en particulier, elle permet d’étudier ces méthodes (y compris la MVE) sous les hypothèses de mauvaises spécifications. Nous allons présenter les tests
Tφ , en premier lieu dans le cas de 2-échantions, en suite le cas de k-échantillons, k > 2. Sous
certaines conditions, nous montrons que le test TKLm associé à la divergence de Kullback-Leibler
modifiée (KLm ) est le meilleur parmi tous les tests Tφ et est optimal au sens de l’efficacité de
Bahadur. Cependant, le choix d’une divergence φ autre que la KLm -divergence peut conduire
à un test plus robuste, dans le cas des données contaminées. Ce papier est organisé comme
suit: Dans la deuxième partie, après un rappel sur les φ-divergences entre lois de probabilité,
nous présentons les tests Tφ à 2-échantillons; nous donnons les estimateurs des φ-divergences et
nous étudions leurs comportement sous H0 et sous H1 . Dans la troisième partie, sous certaines
conditions, nous calculons les pentes de Bahadur des tests Tφ en utilisant un résultat de grandes
déviations et les limites en probabilité des estimateurs sous H1 . Dans la quatrième partie, nous
présentons les tests Tφ dans le cas de k-échantillons, k > 2.
2
2
Tests non paramétriques à 2-échantillons
Avant de définir les estimateurs, rappelons les définitions et les proprietés des φ-divergences entre
deux lois de probabilité. Soit (X , B) un espace mesurable et P une loi de probabilité définie
sur (X , B). Soit ϕ une fonction convexe définie sur [0, +∞] à valeurs dans [0, +∞] vérifiant
ϕ(1) = 0. La φ−divergence entre deux lois Q et P est définie par
¶
Z µ
dQ
φ(Q, P ) = ϕ
dP si Q est absolument continue par rapport à P,
dP
et φ(Q, P ) = +∞ sinon. Les φ-divergences ont été introduites par Csiszar (1963), voir aussi
Rüschendorf (1984) et Leise et Vajda (1987). Les divergences de Kullback-Leibler (KL) et
Kullback-Leibler modifiée (KLm ) sont associées, respectivement, aux fonctions convexes ϕ(x) =
x log x − x + 1 et ϕ(x) = − log x + x − 1. Les divergences de χ2 et χ2 modifiée (χ2m ) sont as2
sociées aux fonctions convexes ϕ(x) = 12 (x − 1)2 et ϕ(x) = 21 (x−1)
. La divergence de Hellinger
x
√
2
est associée à ϕ(x) = 2 ( x − 1) . Toutes ces divergences font partie de la classe des divergences de puissance de Cressie et Read (1984), notées {φγ , γ ∈ R}, et qui sont associées aux
γ
si γ ∈ R\{0, 1}, ϕ0 (x) = − log x + x − 1 et
fonctions convexes définies par ϕγ (x) := x −γx+γ−1
γ(γ−1)
ϕ1 (x) = x log x − x + 1. Pour toute mesure de probabilité P , les fonctions Q → φ(Q, P ) sont
convexes et positives. Lorsque Q = P , on a φ(Q, P ) = 0. De plus, si ϕ est strictement convexe
sur un voisinage de x = 1, alors la propriété fondamentale suivante est vérifiée: φ(Q, P ) =
0 si et seulement si Q = P . Soit Ω un ensemble de lois de probabilité. La φ-divergence entre
Ω et une loi de probabilité P , notée φ (Ω, P ), est définie par : φ (Ω, P ) = inf Q∈Ω φ(Q, P ). On
appelle projection (ou φ-projection) de P sur Ω, toute loi Q∗ vérifiant φ(Q∗ , P ) ≤ φ(Q, P ), pour
tout Q ∈ Ω. Si ϕ est strictement convexe sur un voisinage de x = 1 et si P admet une projection
sur Ω, alors la propriété fondamentale suivante est vérifiée:
φ(Ω, P ) est positive, et φ (Ω, P ) = 0 si et seulement si P ∈ Ω.
(1)
On généralise la définition des φ-divergences entre une mesure signée finie Q et une loi de
probabilité P via l’extension de la définition des fonctions convexes ϕ sur R. Considérons
l’ensemble de mesures signées finies que l’on note M comme suit
½
¾
Z
Z
M := Q ¿ P /
dQ(x) = 1 et
g1 (x1 ) − g2 (x2 ) dQ(x) = 0 .
(2)
Le problème de test considéré dans l’introduction peut s’écrire donc comme suit : H0 : P ∈
M contre H1 : P 6∈ M. Notons Pn la mesure empirique associée à l’échantion X(1) , . . . , X(n) ,
P
i.e., Pn := n1 nj=1 δX(j) , où δx désigne la mesure de Dirac au point x, pour tout x ∈ X1 × X2 .
En conséquence de la propriété (1), nous utilisons les estimateurs des φ−divergences entre
l’ensemble M et la loi P, pour construire des tests de l’hypothèse nulle H0 , en rejetant celle-ci
lorsque les estimateurs des φ (M, P) prennent de grandes valeurs. Les φ-divergences φ (M, P)
peuvent être estimées par injection de la mesure empirique Pn ; on obtient donc les estimateurs
φb (M, P) := φ (M, Pn ) = inf φ(Q, Pn ).
Q∈M
3
(3)
Définissons l’ensemble de mesures


n
n


X
X
¡
¢
Q X(j) = 1 et
(g1 (X1,j ) − g2 (X2,j )) Q(X(j) ) = 0 .
Mn := Q ¿ Pn /


j=1
j=1
L’infimum dans (3) peut être restreint au sous ensemble Mn ; on obtient donc
φb (M, P) = inf
Q∈Mn
n
¡
¢¢
1X ¡
ϕ nQ X(j) .
n
(4)
j=1
Sous certaines conditions permettant le passage au problème dual, nous obtenons
½
¾
Z
¡T
¢
b
φ (M, P) = sup
t0 − ψ t g(x) dPn (x) ,
(5)
t∈R(d+1)
où g est la fonction vectorielle (1, g)T définie sur X1 × X2 à valeurs dans Rd+1 et g est la fonction
définie par x ∈ X1 × X2 → g(x) := g1 (x1 ) − g2 (x2 ) à valeurs dans Rd . La fonction ψ est la
transformée de Fenchel-Legendre de ϕ, i.e., ψ(t) := supx∈R {tx − ϕ(x)}, ∀t ∈ R. De même, pour
les quantités estimées φ (M, P), sous des conditions d’existence de la φ-projection de P sur M,
nous obtenons
½
¾
Z
¡T
¢
t0 − ψ t g(x) dP(x) .
φ (M, P) = sup
(6)
t∈R(d+1)
En utilisant les représentations duales (5) des estimateurs φb (M, P) et les représentations duales
(6) des quantités estimées φ (M, P), sous certaines conditions supplémentaires, nous obtenons
les résultats de convergence suivants:
THÉORÈME 1:
(a) Sous H0 , la statistique ϕ002n(1) φb (M, P) converge en loi vers une loi de χ2 à d degrés de
liberté.
´
√ ³
(b) Sous H1 , on a n φb (M, P) − φ (M, P) converge vers une loi normale N (0, σ).
Pour toute divergence φ, notons Tφ le test dont la région critique, que l’on note RCφ , est définie
comme suit
½
¾
2n b
RCφ :=
φ (M, P) > q(1−α) ,
(7)
ϕ00 (1)
où q(1−α) est le quantile d’ordre (1 − α) d’une loi de χ2 (d). En conséquence du Théorème 1, les
tests Tφ , asymptotiquement au niveau α, sont asymptotiquement puissants.
3
L’efficacité de Bahadur des tests Tφ
Dans cette partie, nous montrons que le test TKLm est optimal au sens de l’efficacité de Bahadur
et que le choix d’une divergence φ autre que la KLm -divergence mène à un test Tφ d’efficacité de
4
Bahadur inférieure. Nous renvoyons à Nikitin (1995) pour une présentation détaillée de la notion
de l’efficacité de Bahadur des tests. Le Théorème de Bahadur (1967) (1971) (voir Théorème
1.2.2 dans Nikitin (1995)) donne une méthode pour calculer la pente de Bahadur d’un test,
utilisant la convergence en probabilité de la statistique de test sous H1 et un résultat de grandes
déviations sous H0 . Le Théorème 1 partie (b), montre que les estimateurs φb (M, P) converge en
probabilité vers φ (M, P). D’autre part, sous certaines conditions, par application d’une version
uniforme du Théorème de Sanov (voir Théorème 1.6.9 dans Nikitin (1995)), nous montrons que
lim n−1 ln sup P {φ (M, Pn ) ≥ φ (M, P)} =:
n→∞
P ∈M
=
lim n−1 ln sup P {Pn ∈ Aφ }
n→∞
P ∈M
− inf KL (Aφ , P ) ,
P ∈M
(8)
où Aφ est l’ensemble de lois de probabilité défini par
Aφ := {Q telles que φ (M, Q) ≥ φ (M, P)} .
D’après le Théorème de Bahadur (1967) (1971) (voir Théorème 1.2.2 dans Nikitin (1995)), la
pente de Bahadur, notée cTφ (P), du test Tφ est cTφ (P) = 2 inf P ∈M KL (Aφ , P ) . En utilisant
le fait que KLm (Q, P ) = KL(P, Q) pour toutes lois Q et P , on calcule la pente de Bahadur
cTKLm (P) du test TKLm et on obtient cTKLm (P) = 2KL (P, M) . Le test TKLm est donc optimal
au sens de l’efficacité de Bahadur. D’autre part, pour un test Tφ autre que TKLm , comme
l’ensemble Aφ contient la loi P, la pente de Bahadur cTφ (P) du test Tφ est inférieure à celle du
test TKLm .
4
Tests de comparaison à k−échantillons
Dans ce cas, les ensembles M et Mn sont définis, respectivement comme suit
½
¾
Z
Z
Z
M := Q ¿ P /
dQ(x) = 1 et
g1 (x1 ) dQ(x) = · · · = gk (xk ) dQ(x) , et


Mn :=

Q ¿ Pn /
n
X
j=1

n
n

X
X
¡
¢
Q X(j) = 1 et
g1 (X1,j )Q(X(j) ) = · · · =
gk (Xk,j )Q(X(j) ) .

j=1
j=1
Pour calculer les estimateurs φb (M, P) := φ (M, Pn ), on introduit un paramètre θ ∈ Rd et nous
définissons les ensembles Mθ comme suit
½
¾
Z
Z
Mθ := Q ¿ P /
dQ(x) = 1 et
gi (xi ) − θ dQ(x) = 0, pour tout i = 1, . . . , k .
On obtient donc φ (M, P) = inf θ φ (M, P) et φb (M, P) = inf θ φ (M, Pn ). Sous certaines conditions permettant le passage au problème dual, nous obtenons les représentations duales suivantes
des estimateurs et des quantités estimées
½
¾
Z
¡T
¢
b
φ (M, P) = inf sup
t0 − ψ t g(x, θ) dPn ,
θ∈Θ t∈Rdk+1
5
φ (M, P) = inf
½
¾
Z
¡T
¢
sup
t0 − ψ t g(x, θ) dP ,
θ∈Θ t∈Rdk+1
où g est la fonction vectorielle (1, g)T à valeurs dans Rdk+1 et g est définie par x ∈ X1 × · · · Xk →
g(x, θ) := (g1 (x1 ) − θ, . . . , gk (xk ) − θ)T à valeurs dans Rdk . En utilisant ces représentations, nous
obtenons les résultats de convergence suivants:
THÉORÈME 2:
(a) Sous H0 , la statistique ϕ002n(1) φb (M, P) converge en loi vers une loi de χ2 à (dk − d) degrés
de liberté.
´
√ ³
(b) Sous H1 , on a n φb (M, P) − φ (M, P) converge vers une loi normale N (0, σ).
Bibliographie
[1] Adimari, G. (1995) Empirical likelihood confidence intervals for the difference between means,
Statistica (Bologna), (1) 87–94.
[2] Bahadur, R. R. (1971) Some limit theorems in statistics, Society for Industrial and Applied
Mathematics,v+42,47 #4369.
[3] Bahadur, R. R. (1967) An optimal property of the likelihood ratio statistic, Proc. Fifth
Berkeley Sympos. Math. Statist. and Probability, Vol. I: Statistics, 13–26,
[4] Broniatowski, M. et Keziou, A. (2004) Estimation and tests for models satisfying linear constraints with unknown parameter, Prépublication 2004-2, LSTA-Université Paris 6. Submitted.
[5] Csiszar, I. (1963) Eine informationstheoretische Ungleichung und ihre Anwendung auf den
Beweis der Ergodizität von Markoffschen Ketten, Magyar Tud. Akad. Mat. Kutató Int. Közl.,
(8) 85–108.
[6] Davison, Anthony C. et Hinkley, David V. (1988) Saddlepoint approximations in resampling
methods, Biometrika, (75,3) 417–431.
[7] Jing, B.Y. (1995) Two-sample empirical likelihood method, Statistics & Probability Letters,
(4) 315–319.
[8] Liese, F. et Vajda, I. (1987) Convex statistical distances, Teubner-Texte zur Mathematik.
[9] Nikitin, Y. (1995) Asymptotic efficiency of nonparametric tests, Cambridge University Press.
[10] Owen, A (1988) Empirical likelihood ratio confidence intervals for a single functional,
Biometrika, 237–249.
[11] Owen, A (1990) Empirical likelihood ratio confidence regions, Ann. Statist., (1) 90–120.
[12] Owen, A (2001) Empirical Likelihood, Chapman and Hall, New York.
[13] Robinson, J. (1982) Saddlepoint approximations for permutation tests and confidence intervals, J. Roy. Statist. Soc. Ser. B, 44 (1) 91–101.
[14] Rüschendorf, L. (1984) On the minimum discrimination information theorem, Statist. Decisions, 263–283.
6

Tests non paramétriques de comparaison de moyennes `a k

Transcription

Documents pareils

4 points - Ceremade

4M018. Statistique Appliquée (12 ECTS) (1er semestre) Professeurs

Enoncé

TES PROBABILITE CONDITIONNELLE 1) RAPPELS 2

Programme de khôlle N˚7 - Mathématiques

TD no2 : Le bandit manchot

Exercice I Exercice II Exercice III Exercice IV

exercice 1 exercice 2

Fiche TD 2 - L2´Economie

EXERCICES 9 1) On consid`ere un centre service avec file d`attente