Test de Student - Moodle INSA Rouen
Transcription
Test de Student - Moodle INSA Rouen
Test de Student Stéphane Canu [email protected] M8 - Principes du traitement de l’information June 14, 2012 Plan 1 Comparaisons d’une variable quantitative et d’une variables qualitative : le test de Student L’exemple de l’effet d’un médicament Si la variance est connue Si la variance est inconnue La loi de Student Définition Propriétés et approximation Le cas de la moyenne d’un échantillon gaussien Le cas de deux échantillons gaussien Le test de Student (t-test) 2 Comparaisons de deux variables quantitatives : le test de Student 3 Conclusion Stéphane Canu (INSA Rouen - ASI) Test de Student June 14, 2012 2 / 33 L’exemple de l’effet d’un médicament patient t1 t2 t3 t4 t5 t6 t7 t8 t9 p10 p11 p12 p13 p14 p15 p16 p17 Groupe traitement traitement traitement traitement traitement traitement traitement traitement traitement placebo placebo placebo placebo placebo placebo placebo placebo qualitative Pression sanguine 88 83 82 101 99 85 87 89 88 88 82 101 106 96 92 112 97 quantitative Question : le traitement fait-il diminuer significativement la pression sanguine ? les hypothèses : H0 : le traitement est inefficace H1 : le traitement la fait baisser Réponse : comparer les deux échantillons à travers la différence entre leurs moyennes x t − x p = 90, 2 − 96, 7 = −6, 5 La question posée se résume ainsi cette valeur de -6,5 peut elle s’expliquer par un hasard raisonnable ? Un hasard raisonnable x t − x p = −6, 5 peut elle s’expliquer par un hasard raisonnable ? nt =9 1 X xt = xti nt i=1 np 1 X xp = xpi np i=1 Figure: Illustration des eux cas de figure. Dans le premier cas (à gauche) la variance est grande et donc la distance de 6.5 est petite et due au hasard. Dans le second cas (à droite) la variance est petite et la distance de 6,5 est grande. pour répondre... ...il faut prendre en compte la variance Prendre en compte la variance : le modèle Les trois hypothèses 1 l’hypothèse gaussiènne : I I 2 mesure des patients avec traitement : Xt ∼ N µt , σ 2 mesure des patients sous placébo : Xp ∼ N µp , σ 2 même variance : σt2 = σp2 = σ 2 avec la variance connue donc par exemple : σ 2 = 60. H0 : inefficace µ t = µp les hypothèses : H1 : la pression baisse µt < µp 3 Nous savons que les moyennes des échantillons suivent une loi normale 2 moyenne avec traitement : X t ∼ N µt , σnt 2 moyenne sous placébo : X p ∼ N µp , σnp IE(X ) car Pn = IE(Pn1 i=1 Xi ) n = n1 Pi=1 IE(Xi ) n 1 = n i=1 µ =µ V (X ) Pn 1 = V (P i=1 Xi ) n n = n12 i=1 V (Xi ) Pn = n12 i=1 σ 2 = σ2 n Prendre en compte la variance : le modèle Les trois hypothèses 1 l’hypothèse gaussiènne : I I 2 mesure des patients avec traitement : Xt ∼ N µt , σ 2 mesure des patients sous placébo : Xp ∼ N µp , σ 2 même variance : σt2 = σp2 = σ 2 avec la variance connue donc par exemple : σ 2 = 60. H0 : inefficace µ t = µp les hypothèses : H1 : la pression baisse µt < µp 3 Nous savons que les moyennes des échantillons suivent une loi normale 2 moyenne avec traitement : X t ∼ N µt , σnt 2 moyenne sous placébo : X p ∼ N µp , σnp La différence des moyennes suit aussi une loi normale : Xt − Xp ∼ N 1 1 µt − µp , σ 2 + nt np Le test 1(variance connue) Le modèle : X t − X p ∼ N µt − µp , σ 2 1 nt + 1 np Le test se rapporte aux deux hypothèses suivantes : H0 : le traitement n’a pas d’effet µt − µp = 0 H1 : le traitement est efficace µ t − µp < 0 Maintenant nous faisons l’hypothèse que le traitement n’a pas d’effet. Xt − Xp sous H0 : U=q ∼ N 0, 1 σ 2 n1t + n1p Avec les données dont nous disposons nous pouvons calculer 90, 2 − 96, 7 u=q = −1.73 60 19 + 18 -1,73 est-ce grand ou petit ? Le test 2 (variance connue) sous H0 : Xt − Xp U=q ∼ N 0, 1 σ 2 n1t + n1p Avec les données dont nous disposons nous pouvons calculer 90, 2 − 96, 7 u=q = −1.73 60 19 + 18 En prenant les tables de la loi normale nous constatons que IP(U ≤ −1.7343) = 0, 041 Il y a donc moins de 5% de chances d’observer un tel résultat. Il ne nous apparait donc pas raisonnable d’expliquer cette différence entre le moyennes par le hasard seul. Nous concluons dans ce cas en rejetant cette hypothèse. Il nous semble plus raisonnable d’admettre que le traitement à un effet. Récapitulons : le test de comparaison des moyennes 1 la question : les deux groupes sont ils des réalisation de la même loi 2 le modèle : gaussien 3 les hypothèses : même variance σ 2 connue 4 caclul de u=q 5 xt − xp σ2 1 nt + 1 np x t moyenne avec traitement x p moyenne sans traitement nt nombre de cas avec traitement np nombre de cas sans traitement calcul de la p-valeur U ∼ N 0, 1 (ou lecture sur les tables) pval = IP(U ≤ u) 6 on décide qu’on ne peut pas conclure à l’efficacité du traitement si la p-valeur est supérieure à 0,05, si pval ≥ 0, 05 Les trois variantes : la pression : diminue H0 : µt − µp = 0 H1 : µt − µp < 0 augmente varie H0 : µt − µp = 0 H1 : µt − µp > 0 H0 : µ t − µp = 0 H1 : µt − µp 6= 0 pval = IP(U ≤ u) IP(U ≥ u) IP(U ≤ −|u|) + IP(U ≥ |u|) quand la question change... le calcul de la pval change Exemple : pour u = −1, 73, pval = dim : IP(U ≤ −1, 73) = 0, 041 aug : var : IP(U ≥ −1, 73) = 1 − 0, 041 = 0, 959 IP(U ≤ −1, 73) + IP(U ≥ 1, 73) = 0, 041 + 0, 041 = 0, 082 . une interprétation de la statistique u = = = signal bruit écart entre les moyennes des deux groupes variabilité des observations x −x p r t σ 2 n1 + n1 t p Plan 1 Comparaisons d’une variable quantitative et d’une variables qualitative : le test de Student L’exemple de l’effet d’un médicament Si la variance est connue Si la variance est inconnue La loi de Student Définition Propriétés et approximation Le cas de la moyenne d’un échantillon gaussien Le cas de deux échantillons gaussien Le test de Student (t-test) 2 Comparaisons de deux variables quantitatives : le test de Student 3 Conclusion Stéphane Canu (INSA Rouen - ASI) Test de Student June 14, 2012 11 / 33 Si la variance est inconnue Dans ce cas on remplace la variance inconnue σ 2 par sont estimateur σ b2 . En conséquence la nouvelle variable aléatoire ainsi construire n’est plus distribué selon une loi normale mais suit une loi et Student à nt + np − 2 degrés de liberté. Xt − Xp Tnt +np −2 = q ∼ Tnt +np −2 σ b2 n1t + n1p avec σ b2 = 1 nt +np −2 P nt i =1 (Xti − X t )2 + Pnp i =1 (Xpi − X p )2 . 90, 2 − 96, 7 t=q = −1.68 63, 4 91 + 18 En prenant les tables de la loi de Student nous constatons que pval = IP(Tnt +np −2 ≤ −1.68) = 0, 056 Il y a dans ce cas plus de 5% de chances d’observer un tel résultat. Il nous apparait donc plausible d’expliquer cette différence entre le moyennes par le seul effet du hasard. Nous concluons dans ce cas en gardant cette hypothèse. Il n’y a pas assez d’évidence expérimentale pour nous convaincre que le traitement a vraiment un effet. Si le médecin souhaite poursuivre, il lui faut refaire une expérience sur plus de sujets. Récapitulons : le test de comparaison des moyennes 1 la question : les deux groupes sont ils des réalisation de la même loi 2 le modèle : gaussien 3 les hypothèses : même variance σ 2 inconnue 4 caclul de xt − xp t=q σ b2 n1t + n1p 5 x t moyenne avec traitement x p moyenne sans traitement np nt X X σ b2 = nt +n1p −2 (xti − x t )2 + (xpi − x p )2 i=1 i=1 nt nombre de cas avec traitement np nombre de cas sans traitement calcul de la p-valeur T ∼ Tnt +np −2 (ou lecture sur les tables) pval = IP(T ≤ t) 6 on décide qu’on ne peut pas conclure à l’efficacité du traitement si la p-valeur est supérieure à 0,05, si pval ≥ 0, 05 Plan 1 Comparaisons d’une variable quantitative et d’une variables qualitative : le test de Student L’exemple de l’effet d’un médicament Si la variance est connue Si la variance est inconnue La loi de Student Définition Propriétés et approximation Le cas de la moyenne d’un échantillon gaussien Le cas de deux échantillons gaussien Le test de Student (t-test) 2 Comparaisons de deux variables quantitatives : le test de Student 3 Conclusion Stéphane Canu (INSA Rouen - ASI) Test de Student June 14, 2012 14 / 33 La loi de Student : définition Soit N ∼ N (0, 1) une variable aléatoire normale centrée réduite. Soit Xn la variable aléatoire distribuée suivant une loi du χ2 à n ddl I C’est le cas par exemple, si N1 , N2 , ..., Nn un échantillon de n réalisation n X i.i.d. une variable aléatoire normale centrée réduite quand Xn = Ni2 i=1 supposons que N et Xn sont indépendantes (i.e. cov (Y , Xn ) = 0) Definition (La loi de student) On appelle loi de student à n degrés de libertés la loi de la variable aléatoire Tn N ∼ N (0, 1) N Tn = q Xn Xn ∼ χ2n n La loi de Student : Tn = √NXn n Figure: Exemples de loi de student pour 1 (bleu), 2 (rouge), 5 (vert), 10 (violet) et 20 (bleu ciel) degrés de liberté. La courbe en pointillés noir est la courbe de Gauss donnée comme référence. La figure de droite montre un zoom sur la « queue » de la distribution. Loi de Student et loi normale Tn −−−−→ N (0, 1) n→+∞ Propriétés et approximation Publiée pour la première fois en 1908 par William Sealy Gosset qui travaillait chez Guinness (la brasserie de Dublin). Pour des raisons commerciales, il a du utiliser le pseudonyme de Student, qui restera attaché à cette loi. tend vers une loi normale n > 30 attention la différence est plus importante dans les « queue » de la distribution : I I I I N T T T ∼ ∼ ∼ ∼ U ∼ N (0, σ 2 ) N (0, 1) : IP(N > 2) = 0, 023 T1 : IP(T > 2) = 0, 148 T2 : IP(T > 2) = 0, 092 T10 : IP(T > 2) = 0, 038 N= U ∼ N (0, 1) σ p1 = 1-cdf(’norm’,2,0,1) p2 = 1-cdf(’t’,2,1) p2 = 1-cdf(’t’,2,2) p2 = 1-cdf(’t’,2,10) T = N N = q 2 2 ∼ T2 σ b N1 +N2 2 Le cas de la moyenne d’un échantillon gaussien Soit X ∼ N (µ, σ 2 ) une variable aléatoire normale d’espérance µ et de variance σ 2 . Soit X1 , X2 , ..., Xn un échantillon de n réalisation i.i.d. de 1 Pn cette variable aléatoire. La moyenne X = n i=1 Xi de cet échantillon suit aussi une loi normale σ2 X ∼ N µ, n car IE(X ) = µ et V (X ) = σ2 n : P IE(X ) = IE(Pn1 ni=1 Xi ) = n1 Pni=1 IE(Xi ) = n1 ni=1 µ =µ 1 Pn V (X ) = V (P i=1 Xi ) n n 1 = n2 i=1 V (Xi ) P = n12 ni=1 σ 2 = σ2 n Le cas de la moyenne d’un échantillon gaussien Soit X ∼ N (µ, σ 2 ) une variable aléatoire normale d’espérance µ et de variance σ 2 . Soit X1 , X2 , ..., Xn un échantillon P de n réalisation i.i.d. de cette variable aléatoire. La moyenne X = n1 ni=1 Xi de cet échantillon suit aussi une loi normale σ2 X ∼ N µ, n On peut donc construire la variable normale centrée réduite P )2 X −µ Y =q ∼ N (0, 1). Or Zn−1 = ni=1 (Xi σ−X ∼ χ2n−1 2 2 σ n On peut construire une variable aléatoire suivant une loi de Student Tn−1 = q 2 avec Sn−1 = X −µ q Y Zn−1 n−1 1 n−1 =r σ2 n (Xi −X )2 i =1 σ2 Pn n−1 Pn i=1 (Xi − X̄ )2 . =q X −µ 1 n−1 Pn i =1 (Xi n −X )2 = X −µ Sn−1 √ n Le test de Student (t-test) : deux échantillons gaussien Soit X ∼ N (µx , σ 2 ) et Y ∼ N (µy , σ 2 ) deux loi de même variance. On tire deux échantillons suivant ces deux loi. Soient X1 , ..., Xnx et Y1 , ..., Yny ces deux échantillons. P x P x Xi et Sx2 = ni=1 Les variables suivantes X = n1 ni=1 (Xi − X )2 sont caractérisées par les lois : σ2 X ∼ N µx , ; nx Y ∼ N µy , σ2 ; ny Sx2 ∼ χ2nx −1 ; σ2 Sy2 ∼ χ2ny −1 σ2 et donc 1 1 2 X − Y ∼ N µx − µy , + σ ; nx ny Sx2 Sy2 + 2 ∼ χ2nx +ny −2 σ2 σ Le test de Student (t-test) 1 1 2 + X − Y ∼ N µx − µy , σ ; nx ny Sx2 Sy2 + 2 ∼ χ2nx +ny −2 σ2 σ On définit alors la variable de Student suivante : Tnx +ny −2 = 2 avec Sxy = Sx2 + Sy2 = p X − Y − (µx − µy ) nx + ny − 2 r 1 1 2 nx + ny Sxy ny nx X X (Xi − X )2 + (Yi − Y )2 i=1 i=1 Si l’on fait l’hypothèse que µx = µy T = p X −Y nx + ny − 2 r 1 1 2 + nx ny Sxy suit une loi de Student à nx + ny − 2 degrés de liberté. Plan 1 Comparaisons d’une variable quantitative et d’une variables qualitative : le test de Student L’exemple de l’effet d’un médicament Si la variance est connue Si la variance est inconnue La loi de Student Définition Propriétés et approximation Le cas de la moyenne d’un échantillon gaussien Le cas de deux échantillons gaussien Le test de Student (t-test) 2 Comparaisons de deux variables quantitatives : le test de Student 3 Conclusion Stéphane Canu (INSA Rouen - ASI) Test de Student June 14, 2012 21 / 33 Le test de Student (t-test) les deux échantilons : Xt1 , ..., Xti , ..., Xtnt , Xp1 , ..., Xpi , ..., Xpnp i.i.d Les deux hypothèses 1 l’hypothèse gaussiènne : I I 2 soit Xti ∼ N µt , σ 2 et Xpi ∼ N µp , σ 2 même variance : σt2 = σp2 = σ 2 la question : les deux échantillons que nous observons sont-ils des réalisations d’une même variable aléatoire ? H0 : échantillons de même loi µt = µ p les hypothèses : H1 : de lois différentes µt > µp la statistique : Xt − Xp T =q ∼ Tnt +np −2 σ b2 n1t + n1p avec σ b2 = 1 nt +np −2 np nt X X (Xpi − X p )2 (Xti − X t )2 + i=1 i=1 Mise en œuvre du test de student 1 caclul de nt 1 X xti xt = nt i=1 np 1 X xp = xpi np moyenne avec traitement moyenne sans traitement i=1 2 caclul de 3 caclul de σ b2 = 1 nt +np −2 np nt X X (xti − x t )2 + (xpi − x p )2 i=1 4 5 t=q i=1 xt − xp σ b2 1 nt + 1 np nt nombre de cas avec traitement np nombre de cas sans traitement calcul du nombre de degrés de liberté d = nt + np − 2 calcul de la p-valeur T ∼ Td (ou lecture sur les tables) pval = IP(T ≤ t) 6 on décide qu’on ne peut pas conclure à l’efficacité du traitement si la p-valeur est supérieure à 0,05, si pval ≥ 0, 05 Exemple de mise en œuvre du test de student groupe avec traitement (t) 30.02 29.99 30.11 groupe sans traitement (p) 29.89 29.93 29.72 Question : le traitement augmente-t-il la mesure ? 29.97 29.98 30.01 30.02 29.99 29.98 Exemple de mise en œuvre du test de student groupe avec traitement (t) 30.02 29.99 30.11 groupe sans traitement (p) 29.89 29.93 29.72 Question : le traitement augmente-t-il la mesure ? 29.97 29.98 30.01 30.02 29.99 29.98 Réponse : on effectue le test de student : 1 2 x t = 30.015, x p = 29.92 x t − x p = 0.095 6 6 X X 1 σ b2 = 10 (xti − 30.015)2 + (xpi − 29.92)2 ≈ 0.0071 i=1 i=1 3 t=q xt − xp σ b2 1 nt + 1 np ≈q 0.095 0.0071 1 6 = 1.959 + 1 6 d = nt + np − 2 = 10 4 calcul du nombre de degrés de liberté 5 calcul de la p-valeur T ∼ Td (ou lecture sur les tables) pval = IP(T ≥ 1.959) = 1-cdf(’t’,1.959,10) = 0.0393 6 on décide qu’on peut conclure à l’efficacité du traitement car la p-valeur est inférieure à 0,05. Plan 1 Comparaisons d’une variable quantitative et d’une variables qualitative : le test de Student L’exemple de l’effet d’un médicament Si la variance est connue Si la variance est inconnue La loi de Student Définition Propriétés et approximation Le cas de la moyenne d’un échantillon gaussien Le cas de deux échantillons gaussien Le test de Student (t-test) 2 Comparaisons de deux variables quantitatives : le test de Student 3 Conclusion Stéphane Canu (INSA Rouen - ASI) Test de Student June 14, 2012 25 / 33 L’exemple de la relation entre oxygène dissout et pression patient p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 p16 p17 O2 0,31 0,30 0,29 0,35 0,33 0,31 0,30 0,34 0,32 0,28 0,30 0,33 0,31 0,32 0,30 0,35 0,31 quantitative Pression sanguine 88 83 82 101 99 85 87 89 88 88 82 101 106 96 92 112 97 quantitative Question : Il y a t’il une relation entre ces deux variables ? H0 : indépendance les hypothèses H1 : dépendance Réponse : tester la pente de la droite pression = aO2 + b + ε les hypothèses H0 : a = 0 H1 : a 6= 0 la regression donne b a = 0, 12 Cette valeur peut elle s’expliquer par un hasard raisonnable ? un hasard raisonnable... 1 supposons qu’il y a indépendance a = 0 2 générons plein (m = 1000, 1000000, +∞) d’échantillons (xi , yij = axi + b + εij ), i = 1, n j = 1, m 3 pour chacun de ces échantillon calculons b aj 4 regardons la probabilité IP(|b a| > 0, 12) 5 si cette probabilité est trop petite, il n’est pas « raisonnable » de considérer que l’hypothèse d’indépendance est exacte. Comparaisons de deux variables quantitatives et régression εi ∼ N (0, σ 2 ) indépendance des εi yi = axi + b + εi Pn (x − x)(yi − y ) Pn i b a = i=1 2 i=1 (xi − x) b a ∼ N a, σ 2 Pn 1 2 i =1 (xi −x) b a−a q 2 Pn σ 2 (x i =1 i −x) ∼ N (0, 1) εbi = yi − (b axi + b b) εi ∼ N (0, 1) σ ⇒ n 1 X 2 εi ∼ χ2n σ2 i=1 n 1 X 2 εbi ∼ χ2n−2 σ2 i=1 Pente de la droite de régression et loi de student b a−a q or qN χ2 n n 2 Pn σ 2 (x i =1 i −x) n 1 X 2 εbi ∼ χ2n−2 σ2 ∼ N (0, 1) i=1 ∼ Tn2 suit une loi de student à n degrés de libertés r q avec σ b2 = b a−a 2 Pn σ (x −x)2 i =1 i 1 σ 2 (n−2) 1 n−2 n X i=1 Pn b2i i=1 ε ∼ Tn−2 =⇒ b a−a q ∼ Tn−2 2 σ b Sx2 n X 2 yi − (b axi + b b) et Sx2 = (xi − x)2 i=1 Mise en œuvre du test sur la pente de la régression 1 les hypothèses : 2 caclul de 3 H0 : indépendance H1 : dépendance Pn (x − x)(yi − y ) i=1 Pn i 2 i=1 (xi − x) n n X X 2 1 2 2 b calcul de σ b = n−2 (xi − x)2 yi − (b axi + b) et de Sx = b a= i=1 4 a=0 a 6= 0 caclul de i=1 b a t=q 2 σ b Sx2 d =n−2 5 calcul du nombre de degrés de liberté 6 calcul de la p-valeur T ∼ Td (ou lecture sur les tables) pval = IP(|T | ≥ t) 7 on décide qu’on ne peut pas conclure à l’efficacité du traitement si la p-valeur est supérieure à 0,05, si pval ≥ 0, 05 Plan 1 Comparaisons d’une variable quantitative et d’une variables qualitative : le test de Student L’exemple de l’effet d’un médicament Si la variance est connue Si la variance est inconnue La loi de Student Définition Propriétés et approximation Le cas de la moyenne d’un échantillon gaussien Le cas de deux échantillons gaussien Le test de Student (t-test) 2 Comparaisons de deux variables quantitatives : le test de Student 3 Conclusion Stéphane Canu (INSA Rouen - ASI) Test de Student June 14, 2012 31 / 33 Conclusion La question I I cette variable quantitative est elle indépendantes de cette variable qualitative ? comparaison de deux échantillons quantitatifs il vérifier les hypothèses avant d’effectuer un test de student I I distribution normale (par exemple un test du χ2 adapté) égalité de variances (test de Fisher) sinon il faut faire un autre test comme celui de Wilcoxon ou de Mann et Whitney il existes plusieurs variations du test de student... I un échantillon (test d’une valeur de l’espérance) puisque I deux échantillons appariés test de la pente de la régression simple I Il existe une théorie et des théorèmes pour définir les test I théorème de Neyman Pearson X −µ Sn−1 √ n ∼ Tn−1 Repéres bibliographiques http://en.wikipedia.org/wiki/Student’s_t-test http://www.iumsp.ch/Enseignement/pregradue/Student.pdf http://www.socialresearchmethods.net/kb/stat_t.php http: //nte-serveur.univ-lyon1.fr/immediato/Math/Enseignement/ 07%20Statistiques/19.%20Comparaison%20de%20deux% 20moyennes%20-%20test%20de%20Student/chapitre_19.htm