Tests non-paramétriques

Transcription

Tests non-paramétriques
.
.
Tests non-paramétriques
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
[email protected]
Plan
1.
Introduction
2.
Comparaison de K = 2 échantillons indépendants
3.
Comparaison de K = 2 échantillons appariés
4.
Corrélation de rangs
5.
Comparaison de K > 2 échantillons indépendants
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
1 / 66
Introduction
Motivations
Motivations - I
Tests paramétriques nécessitent des conditions de validité :
Hypothèses sur la distribution des observations (ex : X ∼ N (µ, σ))
Distributions caractérisées par des paramètres (moyenne, variance, . . . )
Ces paramètres sont estimés
.
.Question : Que faire lorsque les conditions de validité ne sont pas respectées ?
⇒ Tests non-paramétriques
Distribution free : pas d’hypothèse sur la distribution des observations
Tests adaptés aux variables quantitatives et qualitatives (nominales et
ordinales)
La plupart du temps : tests basés sur la notion de rangs
Michaël Genin (Université de Lille 2)
Valeur
4
7
8
1
3
5
Rang
3
5
6
1
2
4
Tests non-paramétriques
Version - 25 mars 2015
4 / 66
Introduction
Motivations
Motivations - II
AVANTAGES
Pas d’hypothèse sur la distribution ⇒ champ d’application a priori plus large
Tests adaptés aux variables ordinales (ex : degré de satisfaction)
Robustesse par rapport aux données atypiques
Exemple :
4
5
8
7
3
38
x̄1 = 10.8
4
5
8
7
3
6
x̄2 = 5.5
Différence due à une seule observation !! La transformation en rangs permet de
”gommer” cette différence
Tests adaptés aux petits échantillons (n < 30)
Si pas d’hypothèse sur la loi, les tests paramétriques deviennent inopérants !
INCONVENIENTS
Lorsque les conditions d’applications sont vérifiées :
Tests NP moins puissants que les tests paramétriques
Diffcultés d’interprétation : on ne compare plus des paramètres (moyenne,
proportion, variance, . . . )
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
5 / 66
Introduction
Notion de rangs
Définition
Considérons 2 groupes G1 et G2 de taille n1 et n2 sur lesquels est mesuré un
caractère X
{
G1 : {x11 , x12 , . . . , x1n1 }
G2 : {x21 , x22 , . . . , x2n2 }
Principe du rang : substituer aux valeurs leur numéro d’ordre (rang r ) dans
l’ensemble des données (G1 ∪ G2 )
Exemple :
{
G1 : {10, 14, 22, 8, 5}
G2 : {6, 9, 4, 23, 7}
Groupe 1
Groupe 2
Valeur
10
14
22
8
5
6
9
4
23
7
ri
7
8
9
5
2
3
6
1
10
4
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
8 / 66
Introduction
Notion de rangs
Conséquences de la transformation en rangs
La distribution des rangs est symétrique
Rôle des valeurs atypiques amoindri
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
9 / 66
Introduction
Notion de rangs
Traitement des ex-aequo → Méthode des rangs moyens
Idée : les observations présentant des valeurs identiques se voient attribuer la
moyenne de leur rangs
→ Fréquent avec des variables ordinales (Peu de modalités)
Exemple
{
G1 : {11, 12, 12, 9, 13, 4, 17, 19}
G2 : {12, 4, 5, 15, 22, 18, 25}
Valeurs
4
4
5
9
11
12
12
12
13
15
17
18
19
22
25
Rangs bruts
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Rangs moyens
1.5
1.5
3
4
5
7
7
7
9
10
11
12
13
14
15
Calculs
(1 + 2)/2
-
(6 + 7 + 8)/3
-
Remarque : Impact sur la variance des statistiques de test → Correction (Logiciels)
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
11 / 66
Comparaison de K = 2 échantillons indépendants
Objectif du test
Test de Mann-Whitney-Wilcoxon - Objectif
Objectif : comparaison de K = 2 échantillons indépendants par rapport à une
variable X de nature :
Quantitative
Qualitative ordinale
Ce test regroupe 2 tests équivalents :
Test U de Mann-Whitney
Test W de Wilcoxon
→ se déduisent l’un de l’autre
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
14 / 66
Comparaison de K = 2 échantillons indépendants
Hypothèses
Test de Mann-Whitney-Wilcoxon - Hypothèses
Soient
F1 (X ) la fonction de répartition de X dans la population 1
F2 (X ) la fonction de répartition de X dans la population 2
Les hypothèses de test sont :
.
{
H0 : F1 (X ) = F2 (X + θ) ; θ = 0
H1 : F1 (X ) = F2 (X + θ) ; θ =
̸ 0
.
Distributions identiques
Distributions différentes
θ paramètre de translation : décalage entre les fonctions de répartition
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
16 / 66
Comparaison de K = 2 échantillons indépendants
Hypothèses
Test de Mann-Whitney-Wilcoxon - Hypothèses
0.4
1
2
1
2
0.0
0.0
0.2
0.1
0.4
0.2
0.6
0.3
0.8
1.0
Exemple de décalage θ ̸= 0
−4
−2
0
Michaël Genin (Université de Lille 2)
2
4
−4
Tests non-paramétriques
−2
0
2
4
Version - 25 mars 2015
17 / 66
Comparaison de K = 2 échantillons indépendants
Hypothèses
Test de Mann-Whitney-Wilcoxon - Hypothèses
Idée :
G1 : {x11 , x12 , . . . , x1n1 }
G2 : {x21 , x22 , . . . , x2n2 }
}
= Transformation en rangs (G1 ∪ G2 )
Soient
R(X1 ) = x les rangs des valeurs du groupe 1
R(X2 ) = o les rangs des valeurs du groupe 2
2 configurations extrêmes :
xoxoxoxoxoxoxo
→
H0 vraie (mélange total)
xxxxxxxooooooo
→
H0 ”totalement” fausse
−−−−−−−−−−−−−−−→rangs (1)
−−−−−−−−−−−−−−−→rangs (2)
Ecart par rapport à la configuration (1) → Rejet de H0
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
18 / 66
Comparaison de K = 2 échantillons indépendants
Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Rappel : Somme de n premiers entiers
1 + 2 + ... + n =
n(n + 1)
2
Posons S1 la somme des rangs des observations du groupe 1
Posons U1 le nombre de couples {(x1i , x2j ) / x1i > x2j }
n1 (n1 + 1)
2
Posons S2 la somme des rangs des observations du groupe 2
Posons U2 le nombre de couples {(x1i , x2j ) / x1i < x2j }
U1 = S1 −
U2 = S2 −
n2 (n2 + 1)
2
Statistique de test :
.
U = min (U1 , U2 )
.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
20 / 66
Comparaison de K = 2 échantillons indépendants
Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Interprétation de la statistique de test → H0 ”totalement fausse” :
xxxxxxxooooooo
−−−−−−−−−−−−−−−→rangs
oooooooxxxxxxx
−−−−−−−−−−−−−−−→rangs
Michaël Genin (Université de Lille 2)

 U1 =
n1 (n1 +1)
2

∑n1 +n2
−
n1 (n1 +1)
2


=0

i=n1 +1 ri −
n2 (n2 +1)
2
= n1 n2

∑n1 +n2
r −
 U1 = i=n
2 +1 i
n1 (n1 +1)
2

= n1 n2 

U2 =
U2 =
n2 (n2 +1)
2
−
n2 (n2 +1)
2
Tests non-paramétriques
=0

U = U1 = 0
U = U2 = 0
Version - 25 mars 2015
21 / 66
Comparaison de K = 2 échantillons indépendants
Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Interprétation de la statistique de test → H0 ”Vraie” (mélange total) :
Sp (n) = Somme des n premiers entiers pairs
Si (n) = Somme des n premiers entiers impairs
{
U1
xoxoxoxoxoxoxo
(1) −−−−−−−−−−−−−−−
→rangs
U2
{
U1
oxoxoxoxoxoxox
(2) −−−−−−−−−−−−−−−→rangs
U2
= Si (n1 ) − n1 (n21 +1)
= Sp (n2 ) − n2 (n22 +1)
= Sp (n1 ) −
= Sp (n2 ) −
n1 (n1 +1)
2
n2 (n2 +1)
2
On peut en déduire que → Propriété : U ≤
Sous H0 , on montre que
.
E[U] =
.
Michaël Genin (Université de Lille 2)
n1 n2
2
n1 n2
2
2 +1
V[U] = n1 n2 n1 +n
12
Tests non-paramétriques
Version - 25 mars 2015
22 / 66
Comparaison de K = 2 échantillons indépendants
Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Distribution sous H0 de la statistique de test
Distribution non connue mais tabulée (probabilités exactes et quantiles)
.
→ Table des valeurs critiques de U
.
Cas particulier si n1 et n2 > 10 :
.
U − E[U]
Z= √
∼ N (0, 1)
V[U]
.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
23 / 66
Comparaison de K = 2 échantillons indépendants
Région critique
Test de Mann-Whitney-Wilcoxon - Région critique
n1 ou n2 < 10
Valeurs de U
n1 n2
2
Ulim
0
Rejet de H0
Non - rejet de H0
Valeur de Ulim lue dans la table
Cas particulier si n1 et n2 > 10
Z=√
U−
n1 n2
2
n1 n2 (n1 +n2 +1)
12
N (0, 1)
∼ N (0, 1)
R.C . : |Z | ≥ z1−α/2
2.5%
95%
−z0.975
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
0
2.5%
z0.975
Version - 25 mars 2015
25 / 66
Comparaison de K = 2 échantillons indépendants
Exemple
Exemple
G1 : n1 = 7 : {11, 21, 21, 25, 52, 71, 79}
G2 : n2 = 5 : {22, 43, 72, 91, 100}
. Passage aux rangs
1
Valeurs
11
21
21
22
25
43
52
71
72
79
91
100
Rangs
1
2.5
2.5
4
5
6
7
8
9
10
11
12
Groupe
1
1
1
2
1
2
1
1
2
1
2
2
7(7+1)
2
=8
. Calcul de U1 et U2
2
U1 =
U1 =
S1 − n1 (n21 +1)
1 + 2.5 + 2.5 + 5 + 7 + 8 + 10 −
U2 =
U2 =
S2 − n2 (n22 +1)
4 + 6 + 9 + 11 + 12 −
5(5+1)
2
= 27
. U = min(U1 , U2 ) = U1 = 8
4. U
lim = 5 (Table) et U > Ulim donc non rejet de H0
3
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
27 / 66
Comparaison de K = 2 échantillons indépendants
Remarques
Remarques - I
. Equivalence entre les tests de Mann-Whitney et Wilcoxon
1
Test de Wilcoxon → basé sur la somme des rangs S
S = S1 si n1 < n2 sinon S = S2
si n1 = n2 alors S = S1 si S1 < S2 sinon S = S2
Les deux tests sont équivalents :
n(n + 1)
U = n1 n2 +
−S
|
{z 2 }
Non aléatoire
. Test Mann-Whitney-Wilcoxon plus puissant que test de Student si les
distributions ne sont pas gaussiennes
2
Si les distributions sont gaussiennes → Test de MWW présente une puissance
proche de celle du test de Student (efficacité relative = 3/π ≈ 0.95)
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
29 / 66
Comparaison de K = 2 échantillons indépendants
Remarques
Remarques - II
3. Problème de Behrens - Fisher
1
2
0.0
0.1
0.2
0.3
0.4
H1 stipule un décalage de tendance centrale entre les distributions (θ ̸= 0)
Cela sous-tend l’hypothèse que les dispersions des distributions sont
relativement homogènes
−4
−2
0
2
4
Analogie au test paramétrique de Student (σ12 = σ22 )
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
30 / 66
Comparaison de K = 2 échantillons indépendants
Remarques
Remarques - III
Problème de Behrens - Fisher
0.4
0.2
0.1
0.2
0.0
0.0
0.1
0.2
0.1
0.0
−4
−2
0
2
4
1
2
0.3
0.4
1
2
0.3
1
2
0.3
0.4
Si cette hypothèse n’est plus assumée → rejet de H0 n’est plus uniquement
imputable à un écart de tendance centrale
−4
−2
0
2
4
−4
−2
0
2
4
Dans ce cas de figure le test de MWW n’est plus applicable
⇒ Solution : test de rang robuste de Fligner-Policello
Equivalent non-paramétrique du test d’Aspin-Welsh.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
31 / 66
Comparaison de K = 2 échantillons appariés
Objectif du test
Test des rangs signés de Wilcoxon
Objectif : Comparaison de 2 échantillons appariés par rapport à une variable
Quantitative
Qualitative ordinale
Exemple :
X1
X2
Avant
Après
Temps
Remarque : Equivalent non-paramétrique du test de Student pour échantillons
appariés.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
34 / 66
Comparaison de K = 2 échantillons appariés
Hypothèses
Test des rangs signés de Wilcoxon
Soient
F (X1 ) la fonction de répartition de X1 (mesure avant)
F (X2 ) la fonction de répartition de X2 (mesure après)
Les hypothèses de test sont :
.{
H0 : F (X1 ) = F (X2 + θ) ; θ = 0
H : F (X1 ) = F (X2 + θ) ; θ ̸= 0
. 1
Distributions identiques (AVANT/APRES)
Distributions différentes (AVANT/APRES)
θ paramètre de translation : décalage entre les fonctions de répartition
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
36 / 66
Comparaison de K = 2 échantillons appariés
Hypothèses
Test des rangs signés de Wilcoxon
Idée
G1 : {x11 , x12 , . . . , x1n }
G2 : {x21 , x22 , . . . , x2n }
}
= Transformation en rangs (G1 ∪ G2 )
Posons
|D| = |X1 − X2 |.
. Calcul des |di | = |x1i − x2i |, ∀i ∈ {1, . . . , n}
2. Elimination des observations telles que |d | = 0
i
3. Prise en compte du signe de chaque |d |
i
4. Transformation en rang des |d | (r (min |d |) = 1, r (max |d |) = n)
i
i
i
i
i
1
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
37 / 66
Comparaison de K = 2 échantillons appariés
Hypothèses
Test des rangs signés de Wilcoxon
Exemple : n = 10
Avant
Après
|D|
signe
2
4
7
8
9
10
12
15
16
14
1
6
3
7
11
8
13
14
16
14
1
2
4
1
2
2
1
1
0
0
+
+
+
+
+
+
?
?
Calcul des rangs de |D| et du signe :
Valeurs
1
1
1
1
2
2
2
4
Rangs bruts
1
2
3
4
5
6
7
8
Rangs finaux
2.5
2.5
2.5
2.5
6
6
6
8
Signes
+
+
-
+
-
-
+
+
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
38 / 66
Comparaison de K = 2 échantillons appariés
Hypothèses
Test des rangs signés de Wilcoxon
Exemple : n = 10
2 configurations extrêmes :
+−+−+−+−+−+−+−
H0 vraie (mélange total)
+++++++−−−−−−−
H0 ”totalement” fausse
−−−−−−−−−−−−−−−−−−−→rangs |D| (1) →
−−−−−−−−−−−−−−−−−−−→rangs |D| (2) →
Ecart par rapport à la configuration (1) → Rejet de H0
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
39 / 66
Comparaison de K = 2 échantillons appariés
Statistique de test
Test des rangs signés de Wilcoxon
Statistique de test
Soit T + la somme des rangs des observations pour lesquelles di > 0 :
∑
T+ =
ri
i:di >0
Soit T − la somme des rangs des observations pour lesquelles di < 0 :
∑
T− =
ri
i:di <0
Remarque : On peut déduire T − grâce à T + :
T− =
Michaël Genin (Université de Lille 2)
n(n + 1)
− T+
2
Tests non-paramétriques
Version - 25 mars 2015
41 / 66
Comparaison de K = 2 échantillons appariés
Statistique de test
Test des rangs signés de Wilcoxon
Statistique de test
T + grand par rapport à T − → Les valeurs de X1 sont stochastiquement plus
élevées que celles de X2
T − grand par rapport à T + → Les valeurs de X1 sont stochastiquement plus
faibles que celles de X2
Si H0 est vraie alors T + = T − = 12 ( n(n+1)
)
2
Aussi, la statistique de test a pour expression
.
(
)
T = min T − ; T +
.
n(n + 1)
4
n(n + 1)(2n + 1)
V[T ] =
24
E[T ] =
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
42 / 66
Comparaison de K = 2 échantillons appariés
Statistique de test
Test des rangs signés de Wilcoxon
Distribution de la statistique de test sous H0
Distribution non connue mais tabulée (probabilités exactes et quantiles)
.
→ Table des valeurs critiques de T
.
Cas particulier si n > 20 :
.
.
Michaël Genin (Université de Lille 2)
T − E[T ]
Z= √
∼ N (0, 1)
V[T ]
Tests non-paramétriques
Version - 25 mars 2015
43 / 66
Comparaison de K = 2 échantillons appariés
Région critique
Test des rangs signés de Wilcoxon - Région critique
n ≤ 20
Valeurs de T
n1 n2
4
Tlim
0
Rejet de H0
Non - rejet de H0
Valeur de Tlim lue dans la table
Cas particulier si n > 20
Z=√
U−
n1 n2
4
n(n+1)(2n+1)
24
N (0, 1)
∼ N (0, 1)
R.C . : |Z | ≥ z1−α/2
2.5%
95%
−z0.975
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
0
2.5%
z0.975
Version - 25 mars 2015
45 / 66
Comparaison de K = 2 échantillons appariés
Région critique
Test des rangs signés de Wilcoxon - Région critique
Retour à l’exemple
Valeurs
1
1
1
1
2
2
2
4
Rangs bruts
1
2
3
4
5
6
7
8
Rangs finaux
2.5
2.5
2.5
2.5
6
6
6
8
Signes
+
+
-
+
-
-
+
+
T + = 2.5 + 2.5 + 2.5 + 6 + 8 = 21.5
T − = 2.5 + 6 + 6 = 14.5
(
)
T = min T − ; T + = 14.5
Lecture dans la table : Tlim = 4 → N.S.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
46 / 66
Corrélation de rangs
Rappel sur le coefficient de corrélation linéaire de Pearson
Rappel - I
Soient X et Y deux variables quantitatives.
Coefficient de corrélation théorique
ρ(X , Y ) =
σXY
E[XY ] − E[X ]E[Y ]
=
∈ [−1, 1]
σX σY
σX σY
Si ρ(X , Y ) = |1| alors lien linéaire parfait entre X et Y
Si X et Y indépendantes alors ρ(X , Y ) = 0.
Estimé par le coefficient de Bravais-Pearson :
∑n
(xi − x̄)(yi − ȳ )
sxy
= √∑ i=1
r=
∑n
n
sx sy
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ )
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
49 / 66
Corrélation de rangs
Rappel sur le coefficient de corrélation linéaire de Pearson
Rappel - II
Test de nullité de ρ.
{
H0 : ρ = 0
H1 : ρ ̸= 0
Sous H0
Pas de corrélation linéaire entre X et Y
Corrélation linéaire entre X et Y
√
R n−2
T = √
∼ Tn−2
1 − R2
Conditions d’application :
X et Y distribuées selon une loi normale
ou
n > 30 et V.A. continues
L’absence de lien linéaire n’implique pas l’absence de lien fonctionnel !!
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
50 / 66
Corrélation de rangs
Coefficient de Spearman
Coefficient de corrélation de Spearman
⇒ Pas d’hypothèse de loi
Indications
Petits échantillons (si on ne peut pas supposer X et Y distribuées
normalement)
Variables avec peu de valeurs différentes
Présence de valeurs extrêmes
Variables ordinales
La relation n’est pas forcément linéaire (exponentiel, puissance,. . . )
Utile lorsque la distribution des variables est asymétrique
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
52 / 66
Corrélation de rangs
Coefficient de Spearman
Coefficient de corrélation de Spearman - Principe
. Transformation des données de X et Y en rangs, séparément
Soient R = (r1 , . . . , rn ), S = (s1 , . . . , sn ) respectivement les rangs de X et Y .
Remarque importante : Le coefficient de corrélation de Spearman calculé
entre X et Y est égal au coefficient de corrélation de Pearson calculé entre R
et S.
2. Calcul du coefficient de Spearman en utilisant le coefficient de corrélation de
Bravais-Pearson entre R et S
1
.
.
∑n
(ri − r̄ )(si − s̄)
srs
rs =
= √∑ i=1
∑n
n
sr ss
2
2
i=1 (ri − r̄ )
i=1 (si − s̄)
Expression simplifiée :
.
∑n
12 i=1 Ri Si
3n + 1
rs =
−
n(n2 − 1)
n−1
.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
53 / 66
Corrélation de rangs
Coefficient de Spearman
Coefficient de corrélation de Spearman - Principe
. Test de la nullité de ρ
3
Sous H0
.
√
Rs n − 2
T = √
∼ Tn−2
1 − Rs2
.
. Interprétation :
4
Si
Si
Si
Si
rs
rs
rs
X
= 1 les classements sont identiques
= −1 les classements sont opposés
̸= 0 (statistiquement significatif) les classements sont liés
et Y sont indépendantes alors ρ = 0
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
54 / 66
Corrélation de rangs
Exemple
Coefficient de corrélation de Spearman - Exemple
Relation Poids - Taille (n = 15)
Taille(cm)
Poids(cm)
R
S
1.697
1.539
1.629
1.633
1.500
1.679
1.643
1.626
1.543
1.542
1.621
1.577
1.557
1.496
1.637
77.564
55.000
76.657
62.596
58.068
72.575
82.000
76.667
58.060
71.668
68.039
70.060
61.689
67.585
59.874
15
3
10
11
2
14
13
9
5
4
8
7
6
1
12
14
1
12
6
3
11
15
13
2
10
8
9
5
7
4
Calcul du coefficient de Bravais-Pearson entre R et S : rs = 0.61786
Statistique de test : t = 2.83320, p = 0.01410
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
56 / 66
Comparaison de K > 2 échantillons indépendants
Objectif et hypothèses du test
Test de Kruskal-Wallis
Objectif : comparer la distribution d’une variable quantitative X entre K groupes
indépendants (Extension à plus de 2 groupes du test de Mann-Whitney-Wilcoxon).
Equivalent non paramétrique de l’ANOVA à un facteur.
Hypothèses du test
Soit Fi (X ) la fonction de répartition de X dans la population i, 1 ≤ i ≤ K
Les hypothèses de test sont :
.{
H0 : F1 (X ) = F2 (X + θ) = . . . = FK (X + θ) ; θ = 0 Distributions identiques
H1 : ∃i ̸= j/Fi (X ) = Fj (X + θ); θ ̸= 0 Distributions différentes
.
θ paramètre de translation : décalage entre les fonctions de répartition
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
59 / 66
Comparaison de K > 2 échantillons indépendants
Statistique de test et région critique
Test de Kruskal-Wallis - Statistique de test et région critique
. Transformation en rangs (rij rang de l’observation xij parmi les n
observations)

G1 : {x11 , x12 , . . . , x1n1 } 


G2 : {x21 , x22 , . . . , x2n2 } 
= Transformation en rangs (G1 ∪G2 ∪. . .∪GK )
..

.



GK : {xK 1 , xK 2 , . . . , xKnK }
1
. Calcul de la moyenne des rangs pour chaque groupe :
2
w̄i =
ni
1 ∑
rij
ni
j=1
. Calcul de la moyenne globale des rangs :
3
w̄ =
K
1 ∑
w̄i
K
i=1
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
61 / 66
Comparaison de K > 2 échantillons indépendants
Statistique de test et région critique
Test de Kruskal-Wallis - Statistique de test
Statistique de test sous H0 :
.
∑
12
ni (w̄i − w̄ )2 ∼ χ2k−1
n(n + 1)
K
KW =
.
i=1
Remarque : approximation du χ2 valable si ni ≥ 5, ∀i ∈ {1, . . . , K }
Si H0 vraie alors les w̄i sont proches de w̄ → KW tend vers 0
Plus KW s’écarte de 0, plus on aura tendance à rejeter H0
Région critique : kw > χ2 k−1 au seuil 1 − α
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
62 / 66
Comparaison de K > 2 échantillons indépendants
Exemple
Test de Kruskal-Wallis - Exemple
Mesure de la teneur en calcium de l’eau de 3 zones géographiques.
n1 = 6, n2 = 5, n3 = 6 ; n = n1 + n2 + n3 .
Zone 1
Zone 2
Zone 3
18
20
22
25
23
19
15
16
17
21
20
15
20
21
25
16
19
. Transformation en rangs sur n
1
Valeurs
15
15
16
16
17
18
19
19
20
20
20
21
21
22
23
25
Rgs bruts
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Rgs finaux
1.5
1.5
3.5
3.5
5
6
7.5
7.5
10
10
10
12.5
12.5
14
15
16.5
16.5
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
25
64 / 66
Comparaison de K > 2 échantillons indépendants
Exemple
Test de Kruskal-Wallis - Exemple
1. Transformation en rangs sur n
Zone 1
(Rang)
Zone 2
(Rang)
Zone 3
(Rang)
18
20
22
25
23
19
(6)
(10)
(14)
(16.5)
(15)
(7.5)
15
16
17
21
20
(1.5)
(3.5)
(5)
(12.5)
(10)
15
20
21
25
16
19
(1.5)
(10)
(12.5)
(16.5)
(3.5)
(7.5)
. Calcul des moyennes des rangs par zones et moyenne globale des rangs
2
w¯1 = 11.5 w¯2 = 6.5 w¯3 = 8.58
w̄ = 9
. Calcul de la statistique de test
3
∑
12
ni (w̄i − w̄ )2
n(n + 1)
K
KW =
i=1
KW =
12
17(18)
[
]
6 × (11.5 − 9)2 + 5 × (6.5 − 9)2 + 6 × (8.58 − 9)2 = 2.74
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
65 / 66
Comparaison de K > 2 échantillons indépendants
Exemple
Test de Kruskal-Wallis - Exemple
4. Région critique et conclusion
Les ni ≥ 5, 1 ≤ i ≤ 3, donc
KW ∼ χ2K −1
Le quantile de la loi du χ22ddl = 5.99.
2.74 < 5.99 donc on ne rejette pas H0 .
→ Les teneurs en calcium sont distribuées de la même manière parmi les 3 zones
géographiques.
Michaël Genin (Université de Lille 2)
Tests non-paramétriques
Version - 25 mars 2015
66 / 66