Test de Student - Moodle INSA Rouen

Transcription

Test de Student - Moodle INSA Rouen
Test de Student
Stéphane Canu
[email protected]
M8 - Principes du traitement de l’information
June 14, 2012
Plan
1
Comparaisons d’une variable quantitative et d’une variables qualitative :
le test de Student
L’exemple de l’effet d’un médicament
Si la variance est connue
Si la variance est inconnue
La loi de Student
Définition
Propriétés et approximation
Le cas de la moyenne d’un échantillon gaussien
Le cas de deux échantillons gaussien
Le test de Student (t-test)
2
Comparaisons de deux variables quantitatives : le test de Student
3
Conclusion
Stéphane Canu (INSA Rouen - ASI)
Test de Student
June 14, 2012
2 / 33
L’exemple de l’effet d’un médicament
patient
t1
t2
t3
t4
t5
t6
t7
t8
t9
p10
p11
p12
p13
p14
p15
p16
p17
Groupe
traitement
traitement
traitement
traitement
traitement
traitement
traitement
traitement
traitement
placebo
placebo
placebo
placebo
placebo
placebo
placebo
placebo
qualitative
Pression sanguine
88
83
82
101
99
85
87
89
88
88
82
101
106
96
92
112
97
quantitative
Question : le traitement fait-il
diminuer significativement la pression
sanguine ?
les
hypothèses :
H0 : le traitement est inefficace
H1 : le traitement la fait baisser
Réponse : comparer les deux
échantillons à travers la différence
entre leurs moyennes
x t − x p = 90, 2 − 96, 7 = −6, 5
La question posée se résume ainsi
cette valeur de -6,5 peut elle s’expliquer par un hasard raisonnable ?
Un hasard raisonnable
x t − x p = −6, 5 peut elle s’expliquer par un hasard raisonnable ?
nt =9
1 X
xt =
xti
nt
i=1
np
1 X
xp =
xpi
np
i=1
Figure: Illustration des eux cas de figure. Dans le premier cas (à gauche) la variance est
grande et donc la distance de 6.5 est petite et due au hasard. Dans le second cas (à droite) la
variance est petite et la distance de 6,5 est grande.
pour répondre...
...il faut prendre en compte la variance
Prendre en compte la variance : le modèle
Les trois hypothèses
1
l’hypothèse gaussiènne :
I
I
2
mesure des patients avec traitement : Xt ∼ N µt , σ 2
mesure des patients sous placébo : Xp ∼ N µp , σ 2
même variance : σt2 = σp2 = σ 2
avec la variance connue donc par exemple : σ 2 = 60.
H0 : inefficace
µ t = µp
les hypothèses :
H1 : la pression baisse µt < µp
3
Nous savons que les moyennes des échantillons suivent une loi normale
2
moyenne avec traitement : X t ∼ N µt , σnt
2
moyenne sous placébo : X p ∼ N µp , σnp
IE(X )
car
Pn
= IE(Pn1 i=1 Xi )
n
= n1 Pi=1 IE(Xi )
n
1
= n i=1 µ
=µ
V (X )
Pn
1
= V (P
i=1 Xi )
n
n
= n12 i=1 V (Xi )
Pn
= n12 i=1 σ 2
=
σ2
n
Prendre en compte la variance : le modèle
Les trois hypothèses
1
l’hypothèse gaussiènne :
I
I
2
mesure des patients avec traitement : Xt ∼ N µt , σ 2
mesure des patients sous placébo : Xp ∼ N µp , σ 2
même variance : σt2 = σp2 = σ 2
avec la variance connue donc par exemple : σ 2 = 60.
H0 : inefficace
µ t = µp
les hypothèses :
H1 : la pression baisse µt < µp
3
Nous savons que les moyennes des échantillons suivent une loi normale
2
moyenne avec traitement : X t ∼ N µt , σnt
2
moyenne sous placébo : X p ∼ N µp , σnp
La différence des moyennes suit aussi une loi normale :
Xt − Xp ∼ N
1
1
µt − µp , σ 2
+
nt
np
Le test 1(variance connue)
Le modèle :
X t − X p ∼ N µt − µp , σ 2
1
nt
+
1
np
Le test se rapporte aux deux hypothèses suivantes :
H0 : le traitement n’a pas d’effet µt − µp = 0
H1 : le traitement est efficace
µ t − µp < 0
Maintenant nous faisons l’hypothèse que le traitement n’a pas d’effet.
Xt − Xp
sous H0 :
U=q
∼ N 0, 1
σ 2 n1t + n1p
Avec les données dont nous disposons nous pouvons calculer
90, 2 − 96, 7
u=q
= −1.73
60 19 + 18
-1,73 est-ce grand ou petit ?
Le test 2 (variance connue)
sous H0 :
Xt − Xp
U=q
∼ N 0, 1
σ 2 n1t + n1p
Avec les données dont nous disposons nous pouvons calculer
90, 2 − 96, 7
u=q
= −1.73
60 19 + 18
En prenant les tables de la loi normale nous constatons que
IP(U ≤ −1.7343) = 0, 041
Il y a donc moins de 5% de chances d’observer un tel résultat. Il ne nous
apparait donc pas raisonnable d’expliquer cette différence entre le moyennes
par le hasard seul. Nous concluons dans ce cas en rejetant cette hypothèse.
Il nous semble plus raisonnable d’admettre que le traitement à un effet.
Récapitulons : le test de comparaison des moyennes
1
la question : les deux groupes sont ils des réalisation de la même loi
2
le modèle : gaussien
3
les hypothèses : même variance σ 2 connue
4
caclul de
u=q
5
xt − xp
σ2
1
nt
+
1
np
x t moyenne avec traitement
x p moyenne sans traitement
nt nombre de cas avec traitement
np nombre de cas sans traitement
calcul de la p-valeur U ∼ N 0, 1 (ou lecture sur les tables)
pval = IP(U ≤ u)
6
on décide qu’on ne peut pas conclure à l’efficacité du traitement si la
p-valeur est supérieure à 0,05, si pval ≥ 0, 05
Les trois variantes :
la pression :
diminue
H0 : µt − µp = 0
H1 : µt − µp < 0
augmente
varie
H0 : µt − µp = 0
H1 : µt − µp > 0
H0 : µ t − µp = 0
H1 : µt − µp 6= 0
pval =
IP(U ≤ u)
IP(U ≥ u)
IP(U ≤ −|u|) + IP(U ≥ |u|)
quand la question change...
le calcul de la pval change
Exemple : pour u = −1, 73, pval =
dim : IP(U ≤ −1, 73) = 0, 041
aug :
var :
IP(U ≥ −1, 73) = 1 − 0, 041 = 0, 959
IP(U ≤ −1, 73) + IP(U ≥ 1, 73) = 0, 041 + 0, 041 = 0, 082
.
une interprétation de la statistique
u =
=
=
signal
bruit
écart entre les moyennes des deux groupes
variabilité des observations
x −x p
r t
σ 2 n1 + n1
t
p
Plan
1
Comparaisons d’une variable quantitative et d’une variables qualitative :
le test de Student
L’exemple de l’effet d’un médicament
Si la variance est connue
Si la variance est inconnue
La loi de Student
Définition
Propriétés et approximation
Le cas de la moyenne d’un échantillon gaussien
Le cas de deux échantillons gaussien
Le test de Student (t-test)
2
Comparaisons de deux variables quantitatives : le test de Student
3
Conclusion
Stéphane Canu (INSA Rouen - ASI)
Test de Student
June 14, 2012
11 / 33
Si la variance est inconnue
Dans ce cas on remplace la variance inconnue σ 2 par sont estimateur σ
b2 .
En conséquence la nouvelle variable aléatoire ainsi construire n’est plus
distribué selon une loi normale mais suit une loi et Student à nt + np − 2
degrés de liberté.
Xt − Xp
Tnt +np −2 = q
∼ Tnt +np −2
σ
b2 n1t + n1p
avec σ
b2 =
1
nt +np −2
P
nt
i =1 (Xti
− X t )2 +
Pnp
i =1 (Xpi
− X p )2 .
90, 2 − 96, 7
t=q
= −1.68
63, 4 91 + 18
En prenant les tables de la loi de Student nous constatons que
pval = IP(Tnt +np −2 ≤ −1.68) = 0, 056
Il y a dans ce cas plus de 5% de chances d’observer un tel résultat. Il nous apparait donc
plausible d’expliquer cette différence entre le moyennes par le seul effet du hasard. Nous
concluons dans ce cas en gardant cette hypothèse. Il n’y a pas assez d’évidence expérimentale
pour nous convaincre que le traitement a vraiment un effet. Si le médecin souhaite poursuivre, il
lui faut refaire une expérience sur plus de sujets.
Récapitulons : le test de comparaison des moyennes
1
la question : les deux groupes sont ils des réalisation de la même loi
2
le modèle : gaussien
3
les hypothèses : même variance σ 2 inconnue
4
caclul de
xt − xp
t=q
σ
b2 n1t + n1p
5
x t moyenne avec traitement
x p moyenne sans traitement
np
nt
X
X
σ
b2 = nt +n1p −2
(xti − x t )2 +
(xpi − x p )2
i=1
i=1
nt nombre de cas avec traitement
np nombre de cas sans traitement
calcul de la p-valeur T ∼ Tnt +np −2 (ou lecture sur les tables)
pval = IP(T ≤ t)
6
on décide qu’on ne peut pas conclure à l’efficacité du traitement si la
p-valeur est supérieure à 0,05, si pval ≥ 0, 05
Plan
1
Comparaisons d’une variable quantitative et d’une variables qualitative :
le test de Student
L’exemple de l’effet d’un médicament
Si la variance est connue
Si la variance est inconnue
La loi de Student
Définition
Propriétés et approximation
Le cas de la moyenne d’un échantillon gaussien
Le cas de deux échantillons gaussien
Le test de Student (t-test)
2
Comparaisons de deux variables quantitatives : le test de Student
3
Conclusion
Stéphane Canu (INSA Rouen - ASI)
Test de Student
June 14, 2012
14 / 33
La loi de Student : définition
Soit N ∼ N (0, 1) une variable aléatoire normale centrée réduite.
Soit Xn la variable aléatoire distribuée suivant une loi du χ2 à n ddl
I
C’est le cas par exemple, si N1 , N2 , ..., Nn un échantillon de n réalisation
n
X
i.i.d. une variable aléatoire normale centrée réduite quand Xn =
Ni2
i=1
supposons que N et Xn sont indépendantes (i.e.
cov (Y , Xn ) = 0)
Definition (La loi de student)
On appelle loi de student à n degrés de libertés la loi de la variable
aléatoire Tn
N ∼ N (0, 1)
N
Tn = q
Xn
Xn ∼ χ2n
n
La loi de Student : Tn = √NXn
n
Figure: Exemples de loi de student pour 1 (bleu), 2 (rouge), 5 (vert), 10 (violet) et 20 (bleu
ciel) degrés de liberté. La courbe en pointillés noir est la courbe de Gauss donnée comme
référence. La figure de droite montre un zoom sur la « queue » de la distribution.
Loi de Student et loi normale
Tn −−−−→ N (0, 1)
n→+∞
Propriétés et approximation
Publiée pour la première fois en 1908 par William Sealy Gosset qui
travaillait chez Guinness (la brasserie de Dublin). Pour des raisons
commerciales, il a du utiliser le pseudonyme de Student, qui restera
attaché à cette loi.
tend vers une loi normale n > 30
attention la différence est plus importante dans les « queue » de la
distribution :
I
I
I
I
N
T
T
T
∼
∼
∼
∼
U ∼ N (0, σ 2 )
N (0, 1) : IP(N > 2) = 0, 023
T1 :
IP(T > 2) = 0, 148
T2 :
IP(T > 2) = 0, 092
T10 :
IP(T > 2) = 0, 038
N=
U
∼ N (0, 1)
σ
p1 = 1-cdf(’norm’,2,0,1)
p2 = 1-cdf(’t’,2,1)
p2 = 1-cdf(’t’,2,2)
p2 = 1-cdf(’t’,2,10)
T =
N
N
= q 2 2 ∼ T2
σ
b
N1 +N2
2
Le cas de la moyenne d’un échantillon gaussien
Soit X ∼ N (µ, σ 2 ) une variable aléatoire normale d’espérance µ et de
variance σ 2 . Soit X1 , X2 , ..., Xn un échantillon
de n réalisation i.i.d. de
1 Pn
cette variable aléatoire. La moyenne X = n i=1 Xi de cet échantillon suit
aussi une loi normale
σ2
X ∼ N µ,
n
car IE(X ) = µ et V (X ) =
σ2
n
:
P
IE(X ) = IE(Pn1 ni=1 Xi )
= n1 Pni=1 IE(Xi )
= n1 ni=1 µ
=µ
1 Pn
V (X ) = V (P
i=1 Xi )
n
n
1
= n2 i=1 V (Xi )
P
= n12 ni=1 σ 2
=
σ2
n
Le cas de la moyenne d’un échantillon gaussien
Soit X ∼ N (µ, σ 2 ) une variable aléatoire normale d’espérance µ et de
variance σ 2 . Soit X1 , X2 , ..., Xn un échantillon
P de n réalisation i.i.d. de
cette variable aléatoire. La moyenne X = n1 ni=1 Xi de cet échantillon suit
aussi une loi normale
σ2
X ∼ N µ,
n
On peut donc construire la variable normale centrée réduite
P
)2
X −µ
Y =q
∼ N (0, 1). Or Zn−1 = ni=1 (Xi σ−X
∼ χ2n−1
2
2
σ
n
On peut construire une variable aléatoire suivant une loi de Student
Tn−1 = q
2
avec Sn−1
=
X −µ
q
Y
Zn−1
n−1
1
n−1
=r
σ2
n
(Xi −X )2
i =1
σ2
Pn
n−1
Pn
i=1 (Xi
− X̄ )2 .
=q
X −µ
1
n−1
Pn
i =1 (Xi
n
−X )2
=
X −µ
Sn−1
√
n
Le test de Student (t-test) : deux échantillons gaussien
Soit X ∼ N (µx , σ 2 ) et Y ∼ N (µy , σ 2 ) deux loi de même variance.
On tire deux échantillons suivant ces deux loi.
Soient X1 , ..., Xnx et Y1 , ..., Yny ces deux échantillons.
P x
P x
Xi et Sx2 = ni=1
Les variables suivantes X = n1 ni=1
(Xi − X )2 sont
caractérisées par les lois :
σ2 X ∼ N µx ,
;
nx
Y ∼ N µy ,
σ2 ;
ny
Sx2
∼ χ2nx −1 ;
σ2
Sy2
∼ χ2ny −1
σ2
et donc
1
1 2
X − Y ∼ N µx − µy ,
+
σ
;
nx
ny
Sx2 Sy2
+ 2 ∼ χ2nx +ny −2
σ2
σ
Le test de Student (t-test)
1
1 2
+
X − Y ∼ N µx − µy ,
σ
;
nx
ny
Sx2 Sy2
+ 2 ∼ χ2nx +ny −2
σ2
σ
On définit alors la variable de Student suivante :
Tnx +ny −2 =
2
avec Sxy
= Sx2 + Sy2 =
p
X − Y − (µx − µy )
nx + ny − 2 r
1
1
2
nx + ny Sxy
ny
nx
X
X
(Xi − X )2 +
(Yi − Y )2
i=1
i=1
Si l’on fait l’hypothèse que µx = µy
T =
p
X −Y
nx + ny − 2 r
1
1
2
+
nx
ny Sxy
suit une loi de Student à nx + ny − 2 degrés de liberté.
Plan
1
Comparaisons d’une variable quantitative et d’une variables qualitative :
le test de Student
L’exemple de l’effet d’un médicament
Si la variance est connue
Si la variance est inconnue
La loi de Student
Définition
Propriétés et approximation
Le cas de la moyenne d’un échantillon gaussien
Le cas de deux échantillons gaussien
Le test de Student (t-test)
2
Comparaisons de deux variables quantitatives : le test de Student
3
Conclusion
Stéphane Canu (INSA Rouen - ASI)
Test de Student
June 14, 2012
21 / 33
Le test de Student (t-test)
les deux échantilons : Xt1 , ..., Xti , ..., Xtnt , Xp1 , ..., Xpi , ..., Xpnp i.i.d
Les deux hypothèses
1
l’hypothèse gaussiènne :
I
I
2
soit Xti ∼ N µt , σ 2 et Xpi ∼ N µp , σ 2
même variance : σt2 = σp2 = σ 2
la question : les deux échantillons que nous observons sont-ils des
réalisations d’une même variable aléatoire ?
H0 : échantillons de même loi
µt = µ p
les hypothèses :
H1 : de lois différentes
µt > µp
la statistique :
Xt − Xp
T =q
∼ Tnt +np −2
σ
b2 n1t + n1p
avec σ
b2 =
1
nt +np −2
np
nt
X
X
(Xpi − X p )2
(Xti − X t )2 +
i=1
i=1
Mise en œuvre du test de student
1
caclul de
nt
1 X
xti
xt =
nt
i=1
np
1 X
xp =
xpi
np
moyenne avec traitement
moyenne sans traitement
i=1
2
caclul de
3
caclul de
σ
b2 =
1
nt +np −2
np
nt
X
X
(xti − x t )2 +
(xpi − x p )2
i=1
4
5
t=q
i=1
xt − xp
σ
b2
1
nt
+
1
np
nt nombre de cas avec traitement
np nombre de cas sans traitement
calcul du nombre de degrés de liberté d = nt + np − 2
calcul de la p-valeur T ∼ Td (ou lecture sur les tables)
pval = IP(T ≤ t)
6
on décide qu’on ne peut pas conclure à l’efficacité du traitement si la
p-valeur est supérieure à 0,05, si pval ≥ 0, 05
Exemple de mise en œuvre du test de student
groupe avec traitement (t) 30.02 29.99 30.11
groupe sans traitement (p) 29.89 29.93 29.72
Question : le traitement augmente-t-il la mesure ?
29.97
29.98
30.01
30.02
29.99
29.98
Exemple de mise en œuvre du test de student
groupe avec traitement (t) 30.02 29.99 30.11
groupe sans traitement (p) 29.89 29.93 29.72
Question : le traitement augmente-t-il la mesure ?
29.97
29.98
30.01
30.02
29.99
29.98
Réponse : on effectue le test de student :
1
2
x t = 30.015, x p = 29.92
x t − x p = 0.095
6
6
X
X
1
σ
b2 = 10
(xti − 30.015)2 +
(xpi − 29.92)2 ≈ 0.0071
i=1
i=1
3
t=q
xt − xp
σ
b2
1
nt
+
1
np
≈q
0.095
0.0071
1
6
= 1.959
+
1
6
d = nt + np − 2 = 10
4
calcul du nombre de degrés de liberté
5
calcul de la p-valeur T ∼ Td (ou lecture sur les tables)
pval = IP(T ≥ 1.959) = 1-cdf(’t’,1.959,10) = 0.0393
6
on décide qu’on peut conclure à l’efficacité du traitement car la p-valeur est
inférieure à 0,05.
Plan
1
Comparaisons d’une variable quantitative et d’une variables qualitative :
le test de Student
L’exemple de l’effet d’un médicament
Si la variance est connue
Si la variance est inconnue
La loi de Student
Définition
Propriétés et approximation
Le cas de la moyenne d’un échantillon gaussien
Le cas de deux échantillons gaussien
Le test de Student (t-test)
2
Comparaisons de deux variables quantitatives : le test de Student
3
Conclusion
Stéphane Canu (INSA Rouen - ASI)
Test de Student
June 14, 2012
25 / 33
L’exemple de la relation entre oxygène dissout et pression
patient
p1
p2
p3
p4
p5
p6
p7
p8
p9
p10
p11
p12
p13
p14
p15
p16
p17
O2
0,31
0,30
0,29
0,35
0,33
0,31
0,30
0,34
0,32
0,28
0,30
0,33
0,31
0,32
0,30
0,35
0,31
quantitative
Pression sanguine
88
83
82
101
99
85
87
89
88
88
82
101
106
96
92
112
97
quantitative
Question : Il y a t’il une relation entre
ces deux variables ?
H0 : indépendance
les hypothèses
H1 : dépendance
Réponse : tester la pente de la droite
pression = aO2 + b + ε
les hypothèses
H0 : a = 0
H1 : a 6= 0
la regression donne b
a = 0, 12
Cette valeur peut elle s’expliquer par un hasard raisonnable ?
un hasard raisonnable...
1
supposons qu’il y a indépendance a = 0
2
générons plein (m = 1000, 1000000, +∞) d’échantillons
(xi , yij = axi + b + εij ),
i = 1, n j = 1, m
3
pour chacun de ces échantillon calculons b
aj
4
regardons la probabilité IP(|b
a| > 0, 12)
5
si cette probabilité est trop petite, il n’est pas « raisonnable » de
considérer que l’hypothèse d’indépendance est exacte.
Comparaisons de deux variables quantitatives et régression
εi ∼ N (0, σ 2 )
indépendance des εi
yi = axi + b + εi
Pn
(x − x)(yi − y )
Pn i
b
a = i=1
2
i=1 (xi − x)
b
a ∼ N a, σ 2 Pn
1
2
i =1 (xi −x)
b
a−a
q
2
Pn σ
2
(x
i =1 i −x)
∼ N (0, 1)
εbi = yi − (b
axi + b
b)
εi
∼ N (0, 1)
σ
⇒
n
1 X 2
εi ∼ χ2n
σ2
i=1
n
1 X 2
εbi ∼ χ2n−2
σ2
i=1
Pente de la droite de régression et loi de student
b
a−a
q
or
qN
χ2
n
n
2
Pn σ
2
(x
i =1 i −x)
n
1 X 2
εbi ∼ χ2n−2
σ2
∼ N (0, 1)
i=1
∼ Tn2 suit une loi de student à n degrés de libertés
r
q
avec σ
b2 =
b
a−a
2
Pn σ
(x −x)2
i =1 i
1
σ 2 (n−2)
1
n−2
n
X
i=1
Pn
b2i
i=1 ε
∼ Tn−2
=⇒
b
a−a
q
∼ Tn−2
2
σ
b
Sx2
n
X
2
yi − (b
axi + b
b) et Sx2 =
(xi − x)2
i=1
Mise en œuvre du test sur la pente de la régression
1
les hypothèses :
2
caclul de
3
H0 : indépendance
H1 : dépendance
Pn
(x − x)(yi − y )
i=1
Pn i
2
i=1 (xi − x)
n
n
X
X
2
1
2
2
b
calcul de σ
b = n−2
(xi − x)2
yi − (b
axi + b) et de Sx =
b
a=
i=1
4
a=0
a 6= 0
caclul de
i=1
b
a
t=q 2
σ
b
Sx2
d =n−2
5
calcul du nombre de degrés de liberté
6
calcul de la p-valeur T ∼ Td (ou lecture sur les tables)
pval = IP(|T | ≥ t)
7
on décide qu’on ne peut pas conclure à l’efficacité du traitement si la
p-valeur est supérieure à 0,05, si pval ≥ 0, 05
Plan
1
Comparaisons d’une variable quantitative et d’une variables qualitative :
le test de Student
L’exemple de l’effet d’un médicament
Si la variance est connue
Si la variance est inconnue
La loi de Student
Définition
Propriétés et approximation
Le cas de la moyenne d’un échantillon gaussien
Le cas de deux échantillons gaussien
Le test de Student (t-test)
2
Comparaisons de deux variables quantitatives : le test de Student
3
Conclusion
Stéphane Canu (INSA Rouen - ASI)
Test de Student
June 14, 2012
31 / 33
Conclusion
La question
I
I
cette variable quantitative est elle indépendantes de cette variable
qualitative ?
comparaison de deux échantillons quantitatifs
il vérifier les hypothèses avant d’effectuer un test de student
I
I
distribution normale (par exemple un test du χ2 adapté)
égalité de variances (test de Fisher)
sinon il faut faire un autre test comme celui de Wilcoxon ou de Mann
et Whitney
il existes plusieurs variations du test de student...
I
un échantillon (test d’une valeur de l’espérance) puisque
I
deux échantillons appariés
test de la pente de la régression simple
I
Il existe une théorie et des théorèmes pour définir les test
I
théorème de Neyman Pearson
X −µ
Sn−1
√
n
∼ Tn−1
Repéres bibliographiques
http://en.wikipedia.org/wiki/Student’s_t-test
http://www.iumsp.ch/Enseignement/pregradue/Student.pdf
http://www.socialresearchmethods.net/kb/stat_t.php
http:
//nte-serveur.univ-lyon1.fr/immediato/Math/Enseignement/
07%20Statistiques/19.%20Comparaison%20de%20deux%
20moyennes%20-%20test%20de%20Student/chapitre_19.htm