STAT-I301 Chapitre VI: Méthodes non paramétriques
Transcription
STAT-I301 Chapitre VI: Méthodes non paramétriques
STAT-I301 Chapitre VI: Méthodes non paramétriques Caroline Verhoeven Table des matières 1 Test de Mann-Whitney 2 Test de rangs de Wilcoxon pour 2 échantillons appariés 3 Coefficient de corrélation de rangs de Spearman Calcul du coefficient de corrélation Test de significativité pour rs Caroline Verhoeven STAT-I301 2 / 39 1. Test de Mann-Whitney Test de Mann-Whitney : Exemple I Exemple 1 Chez le grillon des sauges (Cyphoderris strepitans), durant l’accouplement, la femelle grignote les extrémités des ailes du mâle. En 1999, Johnson et al. se sont demandé si une femelle affamée aura plus facilement tendance à s’accoupler. Ils ont pris 24 grillons et ont choisi un groupe de N1 = 11 au hasard qu’ils ont affamé, l’autre groupe de N2 = 13 a été nourri. Apres quoi chaque femelle a été mise dans une cage avec 1 mâle, et on a enregistré le temps d’attente pour l’accouplement Les mesures se trouvent sur le slide suivant Caroline Verhoeven STAT-I301 3 / 39 1. Test de Mann-Whitney Test de Mann-Whitney : Exemple II Exemple 1 faim 1,9 2,1 3,8 9,0 9,6 13,0 14,7 17,9 21,7 29,0 72,3 Caroline Verhoeven nourri 1,5 1,7 2,4 3,6 5,7 22,6 22,8 39,0 54,4 72,1 73,6 79,5 88,9 STAT-I301 4 / 39 1. Test de Mann-Whitney Mann-Whitney : Exemple III Femelles nouries 8 8 6 6 nombre nombre Femelles affamées 4 2 2 0 4 0 0 20 40 60 temps 80 100 0 20 40 60 temps 80 100 Clairement non normal Caroline Verhoeven STAT-I301 5 / 39 1. Test de Mann-Whitney Test de Mann-Whitney : Principes Egalement appelé test de rangs de Wilcoxon pour 2 échantillons indépendants équivalent non-paramétrique du test t pour 2 échantillons indépendants Formulation des hypothèses H0 : µ̃1 = µ̃2 médianes ! Ha : µ̃1 6= µ̃2 Caroline Verhoeven STAT-I301 6 / 39 1. Test de Mann-Whitney Mann-Whitney : Calcul et résolution de l’exemple I 1 Classer les mesures de la plus petite à la plus grande, tous groupes confondus Exemple 1 groupe 2 2 1 1 2 2 1 2 1 1 1 1 temps 1,5 1,7 1,9 2,1 2,4 3,6 3,8 5,7 9,0 9,6 13,0 14,7 classement 1 2 3 4 5 6 7 8 9 10 11 12 Caroline Verhoeven groupe 1 1 2 2 1 2 2 2 1 2 2 2 STAT-I301 temps 17,9 21,7 22,6 22,8 29,0 39,0 54,4 72,1 72,3 73,6 79,5 88,9 classement 13 14 15 16 17 18 19 20 21 22 23 24 7 / 39 1. Test de Mann-Whitney Mann-Whitney : Calcul et résolution de l’exemple II 2 Calculer la somme des classements du plus petit groupe : Exemple 1 r1 = 3 + 4 + 7 + 9 + 10 + 11 + 12 + 13 + 14 + 17 + 21 = 121. 3 Calcul de la statistique : r1 Caroline Verhoeven STAT-I301 8 / 39 1. Test de Mann-Whitney Mann-Whitney : Calcul et résolution de l’exemple III 4 Comparer la statistique avec la table de Wilcoxon Exemple 1 Ici on regarde un test bilatéral et on veut savoir si il y a une différence à α = 0, 05. On regarde dans la table pour α = 0, 05 et N1 = 11, N2 = 13 et on voit 2 nombres : w0,025 = 103 w0,975 = 172 Si r1 ≤ w0,025 ou r1 ≥ w0,975 ⇒ On rejette H0 Si w0,025 < r1 < w0,975 ⇒ On ne rejette pas H0 Ici : w0,025 = 103 < r1 = 121 < w0,975 = 172 ⇒ On ne rejette pas H0 Caroline Verhoeven STAT-I301 9 / 39 1. Test de Mann-Whitney Valeur attendue pour R1 I On sait que n X i = 1 + 2 + ··· + n = i=1 n(n + 1) 2 Si on additionne tous le classements, on a 1 + 2 + · · · + (N1 + N2 ) = (N1 + N2 )(N1 + N2 + 1) 2 La moyenne des classements est donnée par N1 + N2 + 1 1 (1 + 2 + · · · + (N1 + N2 )) = N1 + N2 2 Caroline Verhoeven STAT-I301 10 / 39 1. Test de Mann-Whitney Valeur attendue pour R1 II La valeur attendue E(R1 ), si H0 est vraie, est proportionnelle : au nombre de sujets dans le groupe 1 : N1 N1 + N2 + 1 à la moyenne des classements 2 Et donc : E(R1 ) = N1 Caroline Verhoeven N1 + N2 + 1 2 STAT-I301 11 / 39 1. Test de Mann-Whitney Si les échantillons sont grands ? Si N1 et N2 sont trop grands, ils ne sont plus dans les tables. Alors, on calcule r r1 − E(R1 ) N1 N2 (N1 + N2 + 1) z= , s(R1 ) = s(R1 ) 12 Z ∼ N (0, 1) Si on regarde un test bilatéral à un taux α = 0, 05 : On rejette H0 si z < −1, 96 ou z > 1, 96 On ne rejette pas H0 si −1, 96 < z < 1, 96 Caroline Verhoeven STAT-I301 12 / 39 1. Test de Mann-Whitney Classement avec mesures égales Comment classe-t-on si on a plusieurs fois la même mesure ? Exemple 2 Considérons les mesures fictives groupe 2 2 1 1 2 1 2 1 xi 12 14 17 19 19 24 27 28 classement 1 2 3 4,5 4,5 6 7 8 Classement des mesures égales : moyenne des places qu’elles prennent Caroline Verhoeven STAT-I301 13 / 39 1. Test de Mann-Whitney Test de Mann-Whitney : conditions Il n’y a pas de conditions sur la distribution de la population Les distributions de 2 populations doivent avoir la même forme Les 2 échantillons sont aléatoires simples Les 2 échantillons sont indépendants Caroline Verhoeven STAT-I301 14 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Exemple I Exemple 3 En 2002, Haguenauer a étudié le pas de base de la danse sur glace. Il a étudié l’impact de la position de la jambe d’appui en phase de repositionnement après une poussée. La jambe peut être en flexion ou en extension. La différence des position a-t-elle un impact sur la vitesse du patineur ? On a demandé de faire le même pas, 1 fois avec la jambe en extension et 1 fois avec la jambe en flexion à N = 7 patineurs. La vélocité de poussée a été enregistrée. Caroline Verhoeven STAT-I301 15 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Exemple II Exemple 3 patineur 1 2 3 4 5 6 7 Caroline Verhoeven E 2,13 1,77 1,68 2,04 2,12 1,92 2,08 F 1,90 1,55 1,62 1,89 2,01 1,91 2,10 STAT-I301 16 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Principes Egalement appelé test de Wilcoxon des rangs signés Equivalent non-paramétrique du test t pour 2 échantillons appariés Hypothèse sur la médiane δ̃ des différence entre les 2 mesures d’1 paire Formulation des hypothèses H0 : δ̃ = 0 Ha : δ̃ 6= 0 Caroline Verhoeven STAT-I301 17 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Calcul et résolution de l’exemple I 1 Calcul des différences di = xi1 − xi2 entre les 2 mesures 2 Calcul des valeurs absolues |di | Exemple 3 i 1 2 3 4 5 6 7 xi1 2,13 1,77 1,68 2,04 2,12 1,92 2,08 xi2 1,90 1,55 1,62 1,89 2,01 1,91 2,10 Caroline Verhoeven di 0,23 0,22 0,06 0,15 0,11 0,01 -0,02 STAT-I301 |di | 0,23 0,22 0,06 0,15 0,11 0,01 0,02 18 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Calcul et résolution de l’exemple II 3 Classement des |di | de la plus petite à la plus grande. Si di = 0, on élimine la donnée de l’analyse. (Il nous reste n données) Si 2 différences sont identiques, on prend la moyenne de leur place Exemple 3 i 1 2 3 4 5 6 7 xi1 2,13 1,77 1,68 2,04 2,12 1,92 2,08 xi2 1,90 1,55 1,62 1,89 2,01 1,91 2,10 di 0,23 0,22 0,06 0,15 0,11 0,01 -0,02 Caroline Verhoeven |di | 0,23 0,22 0,06 0,15 0,11 0,01 0,02 STAT-I301 classement 7 6 3 5 4 1 2 19 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Calcul et résolution de l’exemple II 4 On regarde les classement des différences positives et négatives 5 On prend la somme des c+ et la somme des c- Exemple 3 i 1 2 3 4 5 6 7 xi1 2,13 1,77 1,68 2,04 2,12 1,92 2,08 xi2 1,90 1,55 1,62 1,89 2,01 1,91 2,10 di 0,23 0,22 0,06 0,15 0,11 0,01 -0,02 |di | 0,23 0,22 0,06 0,15 0,11 0,01 0,02 classement 7 6 3 5 4 1 2 c+ 7 6 3 5 4 1 t + = 26 Caroline Verhoeven STAT-I301 c- 2 t− = 2 20 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Calcul et résolution de l’exemple II 6 Prendre le plus petit entre les t + et t − , on le nomme t Exemple 3 Dans notre example, on a t = t − = 2 Caroline Verhoeven STAT-I301 21 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Calcul et résolution de l’exemple III 6 On compare t avec la table de Wilcoxon pour 2 échantillons appariés Exemple 3 Ici on regarde un test bilatéral et on veut savoir si il y a une différence à α = 0, 05. On regarde dans la table pour α = 0, 05 et n = 7 et on voit le nombres : t0,025 = 3 Caroline Verhoeven STAT-I301 22 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Calcul et résolution de l’exemple IV Exemple 3 Si t ≤ t0,025 ou t ≥ t0,975 ⇒ On rejette H0 Si t0,025 < t < t0,975 ⇒ On ne rejette pas H0 Ici : t = 2 < t0,025 = 3 ⇒ On rejette H0 Caroline Verhoeven STAT-I301 23 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Valeur attendue pour T Si H0 est vrai, on s’attend à ce que la somme des classements de différence négative soit la même que celle des classements des différences positives : E(T − ) = E(T + ) On sait que la somme totale des classements est : t+ + t− = 1 + 2 + · · · + n = n(n + 1) 2 En combinant les 2 infos, on obtient : E(T − ) = E(T + ) = 1 n(n + 1) n(n + 1) = 2 2 4 La distribution T de Wilcoxon est symétrique autour de n(n + 1)/4 Caroline Verhoeven STAT-I301 24 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Si les échantillons sont grands Si n est trop grand pour le trouver dans les tables, on calcule r n(n + 1)(2n + 1) t − E(T ) s(T ) = z= s(T ) 24 Z ∼ N (0, 1) Si on regarde un test bilatéral à un taux α = 0, 05 : On rejette H0 si z < −1, 96 ou z > 1, 96 On ne rejette pas H0 si −1, 96 < z < 1, 96 Caroline Verhoeven STAT-I301 25 / 39 2. Test de rangs de Wilcoxon pour 2 échantillons appariés Test de rangs de Wilcoxon pour 2 échantillons appariés : conditions La distribution ne doit pas être trop asymétrique Les données ne peuvent pas être biaisées Les sujets doivent être indépendants Caroline Verhoeven STAT-I301 26 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Exemple I Exemple 4 En 1986, Woloschuk a étudié le lien entre la performance d’une équipe de basket-ball et sa volonté de gagner. Durant un tournoi, il a donné un questionnaire mesurant la volonté de gagner aux joueuses de 18 équipes, On a enregistré le score moyen pour la volonté de vaincre par équipe et le nombre de points moyen de cette équipe pour le tournoi ? Le score pour la volonté de vaincre est-il relié au nombre de points moyen obtenus par l’équipe ? Les données se trouvent sur le slide suivant Caroline Verhoeven STAT-I301 27 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Exemple II Exemple 4 équipe 1 2 3 4 5 6 7 8 9 vaincre 9,50 9,46 9,00 8,90 8,55 8,22 8,18 8,09 7,80 points 46,25 40,50 41,20 48,75 45,00 43,00 28,50 46,20 27,66 Caroline Verhoeven équipe 10 11 12 13 14 15 16 17 18 STAT-I301 vaincre 7,71 7,64 7,56 7,17 7,00 7,00 6,50 6,29 5,75 points 30,33 22,00 40,75 39,50 42,75 28,50 42,50 25,33 41,00 28 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Exemple II Exemple 4 points Nuage de points pour cet exemple 50 45 40 35 30 25 20 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 volonté de vaincre Caroline Verhoeven STAT-I301 29 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Calcul et résolution de l’exemple I 1 Déterminer le classement des mesures x et des mesures y. Si 2 mesures sont identiques, on prend la moyenne de leur place. Exemple 4 i 1 2 3 4 5 6 7 8 .. . xi 9,50 9,46 9,00 8,90 8,55 8,22 8,18 8,09 .. . yi 46,25 40,50 41,20 48,75 45,00 43,00 28,50 46,20 .. . cx,i 18 17 16 15 14 13 12 11 .. . cy,i 17 8 11 18 15 14 4 16 .. . 18 5,75 41,00 1 10 Caroline Verhoeven STAT-I301 30 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Calcul et résolution de l’exemple II 2 3 Prendre la différence entre les 2 classements di = cx,i − cyi Calculer di2 Exemple 4 i 1 2 3 4 5 6 7 8 .. . xi 9,50 9,46 9,00 8,90 8,55 8,22 8,18 8,09 .. . yi 46,25 40,50 41,20 48,75 45,00 43,00 28,50 46,20 .. . cx,i 18 17 16 15 14 13 12 11 .. . cy,i 17 8 11 18 15 14 4 16 .. . di 1 9 5 -3 -1 -1 8 -5 di2 1 81 25 9 1 1 64 25 18 5,75 41,00 1 10 -9 81 Caroline Verhoeven STAT-I301 31 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Calcul et résolution de l’exemple II 4 Calculer le total des di2 Exemple 4 i 1 2 3 4 5 6 7 8 .. . xi 9,50 9,46 9,00 8,90 8,55 8,22 8,18 8,09 .. . yi 46,25 40,50 41,20 48,75 45,00 43,00 28,50 46,20 .. . cx,i 18 17 16 15 14 13 12 11 .. . cy,i 17 8 11 18 15 14 4 16 .. . di 1 9 5 -3 -1 -1 8 -5 di2 1 81 25 9 1 1 64 25 18 5,75 41,00 1 10 -9 81 663,5 Caroline Verhoeven STAT-I301 32 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Coefficient de corrélation de Spearman : Calcul et résolution de l’exemple III 5 Calculer le coefficient de corrélation de Spearman rs P 2 6 N i=1 di rs = 1 − N(N 2 − 1) Exemple 4 Dans notre exemple : rs = 1 − 6 · 663, 5 = 0, 315 18(182 − 1) Remarque 5 −1 ≤ rs ≤ 1 Caroline Verhoeven STAT-I301 33 / 39 3. Coefficient de corrélation de rangs de Spearman 1. Calcul du coefficient de corrélation Formule et ex aequo La formule P 2 6 N i=1 di rs = 1 − N(N 2 − 1) n’est exacte que si il n’y a pas d’ex aequos dans les mesures ! Si il y a des ex aequos, on utilise la formule c x et c y : moyenne des classePN ments pour x et y : i=1 (cx,i − c x )(cy ,i − c y ) qP rs = qP N N N +1 2 2 cx = cy = i=1 (cx,i − c x ) i=1 (cy ,i − c y ) 2 Caroline Verhoeven STAT-I301 34 / 39 3. Coefficient de corrélation de rangs de Spearman 2. Test de significativité pour rs Test de significativité pour rs : Exemple Exemple 4 Dans l’exemple de basket, nous avons obtenu un coefficient de corrélation de rangs de Spearman rs = 0, 315. Peut-on conclure à partir de cet exemple, que la performance d’une équipe est relié à sa volonté de vaincre, avec un taux α = 0, 05 ? Caroline Verhoeven STAT-I301 35 / 39 3. Coefficient de corrélation de rangs de Spearman 2. Test de significativité pour rs Test de significativité pour rs : Principe ρs : Coefficient de corrélation de Spearman pour la population Formulation d’hypothèses H0 : ρs = 0 Ha : ρs 6= 0 Calcul de la statistique : rs On regarde dans la table de distribution du coefficient de corrélation du Spearman le nombre rN,1−α/2 rs ≤ −rN;1−α/2 ou rs ≥ rN;1−α/2 ⇒ on rejette H0 −rN;1−α/2 < rs < rN;1−α/2 ⇒ on ne rejette pas H0 Caroline Verhoeven STAT-I301 36 / 39 3. Coefficient de corrélation de rangs de Spearman 2. Test de significativité pour rs Test de significativité pour rs : Résolution de l’exemple Exemple 4 Formulation d’hypothèses H0 : ρs = 0 Ha : ρs 6= 0 Calcul de la statistique : rs = 0, 315 On regarde dans la table de distribution du coefficient de corrélation du Spearman : r18;0,975 = 0, 472 rs = 0, 315 < r18;0,975 = 0, 472 ⇒ On ne rejette pas H0 Caroline Verhoeven STAT-I301 37 / 39 3. Coefficient de corrélation de rangs de Spearman 2. Test de significativité pour rs Si les échantillons sont grands Si N est trop grand pour le trouver dans les tables, on calcule s 1 − rs2 rs t= , srs = srs N −2 T ∼ t(df = N − 2) Caroline Verhoeven STAT-I301 38 / 39 3. Coefficient de corrélation de rangs de Spearman 2. Test de significativité pour rs Corrélation de Spearman : Conditions Les échantillons sont aléatoires simples La relation entre les 2 classements doit être linéaire Caroline Verhoeven STAT-I301 39 / 39