Tests non-paramétriques
Transcription
Tests non-paramétriques
. . Tests non-paramétriques Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected] Plan 1. Introduction 2. Comparaison de K = 2 échantillons indépendants 3. Comparaison de K = 2 échantillons appariés 4. Corrélation de rangs 5. Comparaison de K > 2 échantillons indépendants Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 1 / 66 Introduction Motivations Motivations - I Tests paramétriques nécessitent des conditions de validité : Hypothèses sur la distribution des observations (ex : X ∼ N (µ, σ)) Distributions caractérisées par des paramètres (moyenne, variance, . . . ) Ces paramètres sont estimés . .Question : Que faire lorsque les conditions de validité ne sont pas respectées ? ⇒ Tests non-paramétriques Distribution free : pas d’hypothèse sur la distribution des observations Tests adaptés aux variables quantitatives et qualitatives (nominales et ordinales) La plupart du temps : tests basés sur la notion de rangs Michaël Genin (Université de Lille 2) Valeur 4 7 8 1 3 5 Rang 3 5 6 1 2 4 Tests non-paramétriques Version - 25 mars 2015 4 / 66 Introduction Motivations Motivations - II AVANTAGES Pas d’hypothèse sur la distribution ⇒ champ d’application a priori plus large Tests adaptés aux variables ordinales (ex : degré de satisfaction) Robustesse par rapport aux données atypiques Exemple : 4 5 8 7 3 38 x̄1 = 10.8 4 5 8 7 3 6 x̄2 = 5.5 Différence due à une seule observation !! La transformation en rangs permet de ”gommer” cette différence Tests adaptés aux petits échantillons (n < 30) Si pas d’hypothèse sur la loi, les tests paramétriques deviennent inopérants ! INCONVENIENTS Lorsque les conditions d’applications sont vérifiées : Tests NP moins puissants que les tests paramétriques Diffcultés d’interprétation : on ne compare plus des paramètres (moyenne, proportion, variance, . . . ) Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 5 / 66 Introduction Notion de rangs Définition Considérons 2 groupes G1 et G2 de taille n1 et n2 sur lesquels est mesuré un caractère X { G1 : {x11 , x12 , . . . , x1n1 } G2 : {x21 , x22 , . . . , x2n2 } Principe du rang : substituer aux valeurs leur numéro d’ordre (rang r ) dans l’ensemble des données (G1 ∪ G2 ) Exemple : { G1 : {10, 14, 22, 8, 5} G2 : {6, 9, 4, 23, 7} Groupe 1 Groupe 2 Valeur 10 14 22 8 5 6 9 4 23 7 ri 7 8 9 5 2 3 6 1 10 4 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 8 / 66 Introduction Notion de rangs Conséquences de la transformation en rangs La distribution des rangs est symétrique Rôle des valeurs atypiques amoindri Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 9 / 66 Introduction Notion de rangs Traitement des ex-aequo → Méthode des rangs moyens Idée : les observations présentant des valeurs identiques se voient attribuer la moyenne de leur rangs → Fréquent avec des variables ordinales (Peu de modalités) Exemple { G1 : {11, 12, 12, 9, 13, 4, 17, 19} G2 : {12, 4, 5, 15, 22, 18, 25} Valeurs 4 4 5 9 11 12 12 12 13 15 17 18 19 22 25 Rangs bruts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Rangs moyens 1.5 1.5 3 4 5 7 7 7 9 10 11 12 13 14 15 Calculs (1 + 2)/2 - (6 + 7 + 8)/3 - Remarque : Impact sur la variance des statistiques de test → Correction (Logiciels) Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 11 / 66 Comparaison de K = 2 échantillons indépendants Objectif du test Test de Mann-Whitney-Wilcoxon - Objectif Objectif : comparaison de K = 2 échantillons indépendants par rapport à une variable X de nature : Quantitative Qualitative ordinale Ce test regroupe 2 tests équivalents : Test U de Mann-Whitney Test W de Wilcoxon → se déduisent l’un de l’autre Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 14 / 66 Comparaison de K = 2 échantillons indépendants Hypothèses Test de Mann-Whitney-Wilcoxon - Hypothèses Soient F1 (X ) la fonction de répartition de X dans la population 1 F2 (X ) la fonction de répartition de X dans la population 2 Les hypothèses de test sont : . { H0 : F1 (X ) = F2 (X + θ) ; θ = 0 H1 : F1 (X ) = F2 (X + θ) ; θ = ̸ 0 . Distributions identiques Distributions différentes θ paramètre de translation : décalage entre les fonctions de répartition Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 16 / 66 Comparaison de K = 2 échantillons indépendants Hypothèses Test de Mann-Whitney-Wilcoxon - Hypothèses 0.4 1 2 1 2 0.0 0.0 0.2 0.1 0.4 0.2 0.6 0.3 0.8 1.0 Exemple de décalage θ ̸= 0 −4 −2 0 Michaël Genin (Université de Lille 2) 2 4 −4 Tests non-paramétriques −2 0 2 4 Version - 25 mars 2015 17 / 66 Comparaison de K = 2 échantillons indépendants Hypothèses Test de Mann-Whitney-Wilcoxon - Hypothèses Idée : G1 : {x11 , x12 , . . . , x1n1 } G2 : {x21 , x22 , . . . , x2n2 } } = Transformation en rangs (G1 ∪ G2 ) Soient R(X1 ) = x les rangs des valeurs du groupe 1 R(X2 ) = o les rangs des valeurs du groupe 2 2 configurations extrêmes : xoxoxoxoxoxoxo → H0 vraie (mélange total) xxxxxxxooooooo → H0 ”totalement” fausse −−−−−−−−−−−−−−−→rangs (1) −−−−−−−−−−−−−−−→rangs (2) Ecart par rapport à la configuration (1) → Rejet de H0 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 18 / 66 Comparaison de K = 2 échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Rappel : Somme de n premiers entiers 1 + 2 + ... + n = n(n + 1) 2 Posons S1 la somme des rangs des observations du groupe 1 Posons U1 le nombre de couples {(x1i , x2j ) / x1i > x2j } n1 (n1 + 1) 2 Posons S2 la somme des rangs des observations du groupe 2 Posons U2 le nombre de couples {(x1i , x2j ) / x1i < x2j } U1 = S1 − U2 = S2 − n2 (n2 + 1) 2 Statistique de test : . U = min (U1 , U2 ) . Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 20 / 66 Comparaison de K = 2 échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Interprétation de la statistique de test → H0 ”totalement fausse” : xxxxxxxooooooo −−−−−−−−−−−−−−−→rangs oooooooxxxxxxx −−−−−−−−−−−−−−−→rangs Michaël Genin (Université de Lille 2) U1 = n1 (n1 +1) 2 ∑n1 +n2 − n1 (n1 +1) 2 =0 i=n1 +1 ri − n2 (n2 +1) 2 = n1 n2 ∑n1 +n2 r − U1 = i=n 2 +1 i n1 (n1 +1) 2 = n1 n2 U2 = U2 = n2 (n2 +1) 2 − n2 (n2 +1) 2 Tests non-paramétriques =0 U = U1 = 0 U = U2 = 0 Version - 25 mars 2015 21 / 66 Comparaison de K = 2 échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Interprétation de la statistique de test → H0 ”Vraie” (mélange total) : Sp (n) = Somme des n premiers entiers pairs Si (n) = Somme des n premiers entiers impairs { U1 xoxoxoxoxoxoxo (1) −−−−−−−−−−−−−−− →rangs U2 { U1 oxoxoxoxoxoxox (2) −−−−−−−−−−−−−−−→rangs U2 = Si (n1 ) − n1 (n21 +1) = Sp (n2 ) − n2 (n22 +1) = Sp (n1 ) − = Sp (n2 ) − n1 (n1 +1) 2 n2 (n2 +1) 2 On peut en déduire que → Propriété : U ≤ Sous H0 , on montre que . E[U] = . Michaël Genin (Université de Lille 2) n1 n2 2 n1 n2 2 2 +1 V[U] = n1 n2 n1 +n 12 Tests non-paramétriques Version - 25 mars 2015 22 / 66 Comparaison de K = 2 échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Distribution sous H0 de la statistique de test Distribution non connue mais tabulée (probabilités exactes et quantiles) . → Table des valeurs critiques de U . Cas particulier si n1 et n2 > 10 : . U − E[U] Z= √ ∼ N (0, 1) V[U] . Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 23 / 66 Comparaison de K = 2 échantillons indépendants Région critique Test de Mann-Whitney-Wilcoxon - Région critique n1 ou n2 < 10 Valeurs de U n1 n2 2 Ulim 0 Rejet de H0 Non - rejet de H0 Valeur de Ulim lue dans la table Cas particulier si n1 et n2 > 10 Z=√ U− n1 n2 2 n1 n2 (n1 +n2 +1) 12 N (0, 1) ∼ N (0, 1) R.C . : |Z | ≥ z1−α/2 2.5% 95% −z0.975 Michaël Genin (Université de Lille 2) Tests non-paramétriques 0 2.5% z0.975 Version - 25 mars 2015 25 / 66 Comparaison de K = 2 échantillons indépendants Exemple Exemple G1 : n1 = 7 : {11, 21, 21, 25, 52, 71, 79} G2 : n2 = 5 : {22, 43, 72, 91, 100} . Passage aux rangs 1 Valeurs 11 21 21 22 25 43 52 71 72 79 91 100 Rangs 1 2.5 2.5 4 5 6 7 8 9 10 11 12 Groupe 1 1 1 2 1 2 1 1 2 1 2 2 7(7+1) 2 =8 . Calcul de U1 et U2 2 U1 = U1 = S1 − n1 (n21 +1) 1 + 2.5 + 2.5 + 5 + 7 + 8 + 10 − U2 = U2 = S2 − n2 (n22 +1) 4 + 6 + 9 + 11 + 12 − 5(5+1) 2 = 27 . U = min(U1 , U2 ) = U1 = 8 4. U lim = 5 (Table) et U > Ulim donc non rejet de H0 3 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 27 / 66 Comparaison de K = 2 échantillons indépendants Remarques Remarques - I . Equivalence entre les tests de Mann-Whitney et Wilcoxon 1 Test de Wilcoxon → basé sur la somme des rangs S S = S1 si n1 < n2 sinon S = S2 si n1 = n2 alors S = S1 si S1 < S2 sinon S = S2 Les deux tests sont équivalents : n(n + 1) U = n1 n2 + −S | {z 2 } Non aléatoire . Test Mann-Whitney-Wilcoxon plus puissant que test de Student si les distributions ne sont pas gaussiennes 2 Si les distributions sont gaussiennes → Test de MWW présente une puissance proche de celle du test de Student (efficacité relative = 3/π ≈ 0.95) Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 29 / 66 Comparaison de K = 2 échantillons indépendants Remarques Remarques - II 3. Problème de Behrens - Fisher 1 2 0.0 0.1 0.2 0.3 0.4 H1 stipule un décalage de tendance centrale entre les distributions (θ ̸= 0) Cela sous-tend l’hypothèse que les dispersions des distributions sont relativement homogènes −4 −2 0 2 4 Analogie au test paramétrique de Student (σ12 = σ22 ) Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 30 / 66 Comparaison de K = 2 échantillons indépendants Remarques Remarques - III Problème de Behrens - Fisher 0.4 0.2 0.1 0.2 0.0 0.0 0.1 0.2 0.1 0.0 −4 −2 0 2 4 1 2 0.3 0.4 1 2 0.3 1 2 0.3 0.4 Si cette hypothèse n’est plus assumée → rejet de H0 n’est plus uniquement imputable à un écart de tendance centrale −4 −2 0 2 4 −4 −2 0 2 4 Dans ce cas de figure le test de MWW n’est plus applicable ⇒ Solution : test de rang robuste de Fligner-Policello Equivalent non-paramétrique du test d’Aspin-Welsh. Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 31 / 66 Comparaison de K = 2 échantillons appariés Objectif du test Test des rangs signés de Wilcoxon Objectif : Comparaison de 2 échantillons appariés par rapport à une variable Quantitative Qualitative ordinale Exemple : X1 X2 Avant Après Temps Remarque : Equivalent non-paramétrique du test de Student pour échantillons appariés. Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 34 / 66 Comparaison de K = 2 échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Soient F (X1 ) la fonction de répartition de X1 (mesure avant) F (X2 ) la fonction de répartition de X2 (mesure après) Les hypothèses de test sont : .{ H0 : F (X1 ) = F (X2 + θ) ; θ = 0 H : F (X1 ) = F (X2 + θ) ; θ ̸= 0 . 1 Distributions identiques (AVANT/APRES) Distributions différentes (AVANT/APRES) θ paramètre de translation : décalage entre les fonctions de répartition Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 36 / 66 Comparaison de K = 2 échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Idée G1 : {x11 , x12 , . . . , x1n } G2 : {x21 , x22 , . . . , x2n } } = Transformation en rangs (G1 ∪ G2 ) Posons |D| = |X1 − X2 |. . Calcul des |di | = |x1i − x2i |, ∀i ∈ {1, . . . , n} 2. Elimination des observations telles que |d | = 0 i 3. Prise en compte du signe de chaque |d | i 4. Transformation en rang des |d | (r (min |d |) = 1, r (max |d |) = n) i i i i i 1 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 37 / 66 Comparaison de K = 2 échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Exemple : n = 10 Avant Après |D| signe 2 4 7 8 9 10 12 15 16 14 1 6 3 7 11 8 13 14 16 14 1 2 4 1 2 2 1 1 0 0 + + + + + + ? ? Calcul des rangs de |D| et du signe : Valeurs 1 1 1 1 2 2 2 4 Rangs bruts 1 2 3 4 5 6 7 8 Rangs finaux 2.5 2.5 2.5 2.5 6 6 6 8 Signes + + - + - - + + Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 38 / 66 Comparaison de K = 2 échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Exemple : n = 10 2 configurations extrêmes : +−+−+−+−+−+−+− H0 vraie (mélange total) +++++++−−−−−−− H0 ”totalement” fausse −−−−−−−−−−−−−−−−−−−→rangs |D| (1) → −−−−−−−−−−−−−−−−−−−→rangs |D| (2) → Ecart par rapport à la configuration (1) → Rejet de H0 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 39 / 66 Comparaison de K = 2 échantillons appariés Statistique de test Test des rangs signés de Wilcoxon Statistique de test Soit T + la somme des rangs des observations pour lesquelles di > 0 : ∑ T+ = ri i:di >0 Soit T − la somme des rangs des observations pour lesquelles di < 0 : ∑ T− = ri i:di <0 Remarque : On peut déduire T − grâce à T + : T− = Michaël Genin (Université de Lille 2) n(n + 1) − T+ 2 Tests non-paramétriques Version - 25 mars 2015 41 / 66 Comparaison de K = 2 échantillons appariés Statistique de test Test des rangs signés de Wilcoxon Statistique de test T + grand par rapport à T − → Les valeurs de X1 sont stochastiquement plus élevées que celles de X2 T − grand par rapport à T + → Les valeurs de X1 sont stochastiquement plus faibles que celles de X2 Si H0 est vraie alors T + = T − = 12 ( n(n+1) ) 2 Aussi, la statistique de test a pour expression . ( ) T = min T − ; T + . n(n + 1) 4 n(n + 1)(2n + 1) V[T ] = 24 E[T ] = Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 42 / 66 Comparaison de K = 2 échantillons appariés Statistique de test Test des rangs signés de Wilcoxon Distribution de la statistique de test sous H0 Distribution non connue mais tabulée (probabilités exactes et quantiles) . → Table des valeurs critiques de T . Cas particulier si n > 20 : . . Michaël Genin (Université de Lille 2) T − E[T ] Z= √ ∼ N (0, 1) V[T ] Tests non-paramétriques Version - 25 mars 2015 43 / 66 Comparaison de K = 2 échantillons appariés Région critique Test des rangs signés de Wilcoxon - Région critique n ≤ 20 Valeurs de T n1 n2 4 Tlim 0 Rejet de H0 Non - rejet de H0 Valeur de Tlim lue dans la table Cas particulier si n > 20 Z=√ U− n1 n2 4 n(n+1)(2n+1) 24 N (0, 1) ∼ N (0, 1) R.C . : |Z | ≥ z1−α/2 2.5% 95% −z0.975 Michaël Genin (Université de Lille 2) Tests non-paramétriques 0 2.5% z0.975 Version - 25 mars 2015 45 / 66 Comparaison de K = 2 échantillons appariés Région critique Test des rangs signés de Wilcoxon - Région critique Retour à l’exemple Valeurs 1 1 1 1 2 2 2 4 Rangs bruts 1 2 3 4 5 6 7 8 Rangs finaux 2.5 2.5 2.5 2.5 6 6 6 8 Signes + + - + - - + + T + = 2.5 + 2.5 + 2.5 + 6 + 8 = 21.5 T − = 2.5 + 6 + 6 = 14.5 ( ) T = min T − ; T + = 14.5 Lecture dans la table : Tlim = 4 → N.S. Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 46 / 66 Corrélation de rangs Rappel sur le coefficient de corrélation linéaire de Pearson Rappel - I Soient X et Y deux variables quantitatives. Coefficient de corrélation théorique ρ(X , Y ) = σXY E[XY ] − E[X ]E[Y ] = ∈ [−1, 1] σX σY σX σY Si ρ(X , Y ) = |1| alors lien linéaire parfait entre X et Y Si X et Y indépendantes alors ρ(X , Y ) = 0. Estimé par le coefficient de Bravais-Pearson : ∑n (xi − x̄)(yi − ȳ ) sxy = √∑ i=1 r= ∑n n sx sy 2 2 i=1 (xi − x̄) i=1 (yi − ȳ ) Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 49 / 66 Corrélation de rangs Rappel sur le coefficient de corrélation linéaire de Pearson Rappel - II Test de nullité de ρ. { H0 : ρ = 0 H1 : ρ ̸= 0 Sous H0 Pas de corrélation linéaire entre X et Y Corrélation linéaire entre X et Y √ R n−2 T = √ ∼ Tn−2 1 − R2 Conditions d’application : X et Y distribuées selon une loi normale ou n > 30 et V.A. continues L’absence de lien linéaire n’implique pas l’absence de lien fonctionnel !! Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 50 / 66 Corrélation de rangs Coefficient de Spearman Coefficient de corrélation de Spearman ⇒ Pas d’hypothèse de loi Indications Petits échantillons (si on ne peut pas supposer X et Y distribuées normalement) Variables avec peu de valeurs différentes Présence de valeurs extrêmes Variables ordinales La relation n’est pas forcément linéaire (exponentiel, puissance,. . . ) Utile lorsque la distribution des variables est asymétrique Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 52 / 66 Corrélation de rangs Coefficient de Spearman Coefficient de corrélation de Spearman - Principe . Transformation des données de X et Y en rangs, séparément Soient R = (r1 , . . . , rn ), S = (s1 , . . . , sn ) respectivement les rangs de X et Y . Remarque importante : Le coefficient de corrélation de Spearman calculé entre X et Y est égal au coefficient de corrélation de Pearson calculé entre R et S. 2. Calcul du coefficient de Spearman en utilisant le coefficient de corrélation de Bravais-Pearson entre R et S 1 . . ∑n (ri − r̄ )(si − s̄) srs rs = = √∑ i=1 ∑n n sr ss 2 2 i=1 (ri − r̄ ) i=1 (si − s̄) Expression simplifiée : . ∑n 12 i=1 Ri Si 3n + 1 rs = − n(n2 − 1) n−1 . Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 53 / 66 Corrélation de rangs Coefficient de Spearman Coefficient de corrélation de Spearman - Principe . Test de la nullité de ρ 3 Sous H0 . √ Rs n − 2 T = √ ∼ Tn−2 1 − Rs2 . . Interprétation : 4 Si Si Si Si rs rs rs X = 1 les classements sont identiques = −1 les classements sont opposés ̸= 0 (statistiquement significatif) les classements sont liés et Y sont indépendantes alors ρ = 0 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 54 / 66 Corrélation de rangs Exemple Coefficient de corrélation de Spearman - Exemple Relation Poids - Taille (n = 15) Taille(cm) Poids(cm) R S 1.697 1.539 1.629 1.633 1.500 1.679 1.643 1.626 1.543 1.542 1.621 1.577 1.557 1.496 1.637 77.564 55.000 76.657 62.596 58.068 72.575 82.000 76.667 58.060 71.668 68.039 70.060 61.689 67.585 59.874 15 3 10 11 2 14 13 9 5 4 8 7 6 1 12 14 1 12 6 3 11 15 13 2 10 8 9 5 7 4 Calcul du coefficient de Bravais-Pearson entre R et S : rs = 0.61786 Statistique de test : t = 2.83320, p = 0.01410 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 56 / 66 Comparaison de K > 2 échantillons indépendants Objectif et hypothèses du test Test de Kruskal-Wallis Objectif : comparer la distribution d’une variable quantitative X entre K groupes indépendants (Extension à plus de 2 groupes du test de Mann-Whitney-Wilcoxon). Equivalent non paramétrique de l’ANOVA à un facteur. Hypothèses du test Soit Fi (X ) la fonction de répartition de X dans la population i, 1 ≤ i ≤ K Les hypothèses de test sont : .{ H0 : F1 (X ) = F2 (X + θ) = . . . = FK (X + θ) ; θ = 0 Distributions identiques H1 : ∃i ̸= j/Fi (X ) = Fj (X + θ); θ ̸= 0 Distributions différentes . θ paramètre de translation : décalage entre les fonctions de répartition Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 59 / 66 Comparaison de K > 2 échantillons indépendants Statistique de test et région critique Test de Kruskal-Wallis - Statistique de test et région critique . Transformation en rangs (rij rang de l’observation xij parmi les n observations) G1 : {x11 , x12 , . . . , x1n1 } G2 : {x21 , x22 , . . . , x2n2 } = Transformation en rangs (G1 ∪G2 ∪. . .∪GK ) .. . GK : {xK 1 , xK 2 , . . . , xKnK } 1 . Calcul de la moyenne des rangs pour chaque groupe : 2 w̄i = ni 1 ∑ rij ni j=1 . Calcul de la moyenne globale des rangs : 3 w̄ = K 1 ∑ w̄i K i=1 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 61 / 66 Comparaison de K > 2 échantillons indépendants Statistique de test et région critique Test de Kruskal-Wallis - Statistique de test Statistique de test sous H0 : . ∑ 12 ni (w̄i − w̄ )2 ∼ χ2k−1 n(n + 1) K KW = . i=1 Remarque : approximation du χ2 valable si ni ≥ 5, ∀i ∈ {1, . . . , K } Si H0 vraie alors les w̄i sont proches de w̄ → KW tend vers 0 Plus KW s’écarte de 0, plus on aura tendance à rejeter H0 Région critique : kw > χ2 k−1 au seuil 1 − α Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 62 / 66 Comparaison de K > 2 échantillons indépendants Exemple Test de Kruskal-Wallis - Exemple Mesure de la teneur en calcium de l’eau de 3 zones géographiques. n1 = 6, n2 = 5, n3 = 6 ; n = n1 + n2 + n3 . Zone 1 Zone 2 Zone 3 18 20 22 25 23 19 15 16 17 21 20 15 20 21 25 16 19 . Transformation en rangs sur n 1 Valeurs 15 15 16 16 17 18 19 19 20 20 20 21 21 22 23 25 Rgs bruts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Rgs finaux 1.5 1.5 3.5 3.5 5 6 7.5 7.5 10 10 10 12.5 12.5 14 15 16.5 16.5 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 25 64 / 66 Comparaison de K > 2 échantillons indépendants Exemple Test de Kruskal-Wallis - Exemple 1. Transformation en rangs sur n Zone 1 (Rang) Zone 2 (Rang) Zone 3 (Rang) 18 20 22 25 23 19 (6) (10) (14) (16.5) (15) (7.5) 15 16 17 21 20 (1.5) (3.5) (5) (12.5) (10) 15 20 21 25 16 19 (1.5) (10) (12.5) (16.5) (3.5) (7.5) . Calcul des moyennes des rangs par zones et moyenne globale des rangs 2 w¯1 = 11.5 w¯2 = 6.5 w¯3 = 8.58 w̄ = 9 . Calcul de la statistique de test 3 ∑ 12 ni (w̄i − w̄ )2 n(n + 1) K KW = i=1 KW = 12 17(18) [ ] 6 × (11.5 − 9)2 + 5 × (6.5 − 9)2 + 6 × (8.58 − 9)2 = 2.74 Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 65 / 66 Comparaison de K > 2 échantillons indépendants Exemple Test de Kruskal-Wallis - Exemple 4. Région critique et conclusion Les ni ≥ 5, 1 ≤ i ≤ 3, donc KW ∼ χ2K −1 Le quantile de la loi du χ22ddl = 5.99. 2.74 < 5.99 donc on ne rejette pas H0 . → Les teneurs en calcium sont distribuées de la même manière parmi les 3 zones géographiques. Michaël Genin (Université de Lille 2) Tests non-paramétriques Version - 25 mars 2015 66 / 66