Méthodologie expérimentale : quelques tests statistiques

Transcription

Méthodologie expérimentale : quelques tests statistiques
Méthodologie expérimentale : quelques tests statistiques
Audrey Dussutour, Christian Jost
2 janvier 2005
1
Test de Student sur un ou deux échantillons
On dispose de deux échantillons x = (x1 , x2, . . . , xnx) et y = (y1 , . . . , yny ) d’effectifs nx et ny et de
moyennes x̄ et ȳ, prélevés au hasard. Pour décrire les échantillons on utilise la moyenne et la variance
empirique s2x ,
nx
xi
x1 + x2 + . . . + xnx
= i=1
x̄ =
nx
nx nx
2
2
−
x̄)
+
.
.
.
+
(x
−
x̄)
(xi − x̄)2
(x
1
nx
s2x =
= i=1
(nx − 1)
(nx − 1)
L’erreur standard est l’écartype de la moyenne x̄,
sx̄ = s2x /nx
1.1
Test sur un échantillon
On se demande si la différence d entre la moyenne x̄ et une valeur théorique µ0 connue peut être
attribuée uniquement à des fluctuations dues au hasard (l’échantillon appartient à une population de
moyenne µ0 ), ou si, au contraire, elle est trop importante pour qu’on puisse admettre que l’échantillon
appartient à une population de cette moyenne. C’est-à-dire, on a l’hypothèse nulle (H0 ) selon laquelle
µx = µ0 (µx est la moyenne (inconnue) de la population dont provient l’échantillon x, et x̄ est une
estimation de ce µx ), et l’hypothèse alternative (HA ) selon laquelle µx = µ0 .
A partir de x̄ (on dit aussi que c’est un estimateur de µx ) et de sx on calcule une statistique tobs ,
tobs =
x̄ − µ0
.
sx̄
La théorie statistique nous dit que tobs est observé selon une distribution de Student1 avec νx = nx −1
degrés de liberté, on cherche donc dans le tableau 1 le t théorique pour α = 0.05 et νx degré de liberté,
tα(2),νx (le α(2) veut dire que dans HA la moyenne peut être plus grande ou plus petite que la moyenne
théorique, c’est donc un test bilatéral).
Si |tobs | > tα(2),νx on peut rejeter H0 avec un risque α de l’avoir rejeté à tort, si |tobs | < tα(2),νx on
accepte H0 . Voir exemple Fig 1 pour un calcul explicite.
1.2
Test sur deux échantillons
On a deux échantillons x et y, indépendant l’un de l’autre, avec moyennes x̄ et ȳ. On se demande
si la différence d entre les deux moyennes peut être attribuée uniquement à des fluctuations dues
au hasard (les deux échantillons appartiennent à la même population), ou si, au contraire, elle est
trop importante pour qu’on puisse admettre que les deux échantillons appartiennent à une population
unique. L’hypothèse nulle est donc que µx = µy . On calcule la statistique2
tobs =
x̄ − ȳ
.
sx̄−ȳ
Le terme sx̄−ȳ désigne un estimateur de l’erreur standard de la difference x̄ − ȳ. Pour cet estimateur
on calcule d’abord la variance totale des deux échantillons
ny
nx
(xi − x̄)2 + i=1 (yi − ȳ)2
SCx + SCy
= i=1
s2p =
νx + νy
(nx − 1) + (ny − 1)
1 Pour
2 Pour
être rigoureux il faudrait aussi exiger que les données soient distribuées selon une loi normale.
être rigoureux on devrait exiger, en plus de la normalité des données, que les deux échantillons aient la même
variance.
1
On a 25 mesures des températures à l’intérieur d’une espèce de crabe, x =(25.8, 24.6, 26.1, 22.9, 25.1,
27.3, 24.0, 24.5, 23.9, 26.2, 24.3, 24.6, 23.3, 25.5, 28.1, 24.8, 23.5, 26.3, 25.4, 25.5, 23.9, 27.0, 24.8, 22.9,
25.4), prises à une température ambiante de 24.3◦C. On se demande si les crabes peuvent influencer
leur température.
H0 : µ = 24.3◦C, HA : µ = 24.3◦C
nx
x̄
tobs
= 25, νx = nx − 1 = 25 − 1 = 24, α = 0.05
1.80
= 25.03, s2x = 1.80, sx̄ =
= 0.27
25
x̄ − µ
25.03 − 24.3
=
=
= 2.704
sx̄
0.27
t0.05(2),24 Š t0.05(2),20 = 2.09
On a donc tobs > tα(2),νx , on rejète H0 (les crabes ne peuvent pas influencer leur température intérieure)
avec un risque de α = 5% d’avoir rejeté H0 à tort.
† Comme
le tableau 1 ne contient pas la valeur seuil pour ν = 24 on prend la valeur pour le ν au-dessous de 24, 20 dans
notre cas.
Fig. 1 – Exemple : comparaison d’un échantillon à une moyenne connue.
(on appelle SC la Somme de Carrés des écarts) et ensuite on estime
s2p
s2p
+
sx̄−ȳ =
nx ny
Le degré de liberté total est de ν = νx + νy = nx + ny − 2. Si |tobs | > tα(2),ν on peut rejeter H0 avec
un risque α de l’avoir rejeté à tort, si |tobs | < tα(2),ν on accepte H0 . Voir exemple 2 pour un calcul
explicite.
Deux groupes d’élèves d’effectifs nx = 35 et ny = 35, ont obtenu à une
même épreuve les notes dans le tableau à droite. On a ainsi
x̄ = 9.9, ȳ = 15.2
Cette différence entre les deux groupes peut-elle être attribuée au hasard,
ou le groupe y doit-il être considéré comme différent du groupe x ? On
pose les deux hypothèses :
H0 : les deux échantillons x et y appartiennent à la même population,
la différence d entre x̄ et ȳ est due au hasard.
HA : les deux échantillons x et y n’appartiennent pas à la même population, la différence d entre x̄ et ȳ n’est pas due au hasard.
νx = 34, νy = 34, ν = 68, α = 0.05
154.3 + 175.6
= 4.85
SCx = 154.3, SCy = 175.6, s2p =
35 − 1 + 35 − 1
4.85
4.85
sx̄−ȳ =
+
= 0.53
35 − 1 35 − 1
tobs =
tα(2),ν
9.9 − 15.2
= −10.1
0.53
= t0.05(2),68 = 1.995
|tobs | > t0.05(2),68, on rejette H0 ( les moyennes x̄ et ȳ sont significativement différentes, les échantillons x et y n’appartiennent pas à la même
population) le groupe y doit être considéré comme différent du groupe x
(avec un risque de 5% de se tromper).
groupe 1 (x)
11
12
10
9
8
6
12
14
10
11
9
8
6
7
10
12
11
13
12
6
9
8
10
11
7
11
12
9
8
13
10
11
12
8
9
Fig. 2 – Exemple : comparaison entre deux échantillons.
2
groupe 2 (y)
14
15
13
16
17
18
19
12
15
14
16
13
17
18
19
15
14
12
13
16
15
18
19
12
14
17
13
15
16
18
17
14
15
12
11
1.3
Deux échantillons appariés
Si votre échantillon x n’est pas indépendant de l’échantillon y les tests ci-dessus ne sont pas permis.
L’exemple le plus courant est les données appariées : on utilise les mêmes individus pour mesurer x
et y, par exemple le poids d’un animal avant et après un régime. Dans ce cas on travaille sur les
différences
di = xi − yi
(di est donc la différence de poids pour le même individu avant et après le régime) et on applique le
test de la section 1.1 avec H0 : µd = 0.
2
Comparaison de plusieurs échantillons : ANOVA
La méthode utilisée pour tester l’homogénéité d’un ensemble d’échantillons (ex. : lot de poules de
lignées différentes) en ce qui concerne un caractère quantitatif (ex. : nombre d’œufs) est l’ANOVA
(« ANalysis Of Variance »). Il s’agit de savoir si le caractère étudié (le nombre d’œufs) réagit différemment vis à vis du facteur que l’on fait varier selon les groupes (la lignée des poules), c’est à dire
si l’on doit ou non rejeter l’hypothèse que ces échantillons peuvent être considérés comme provenant
d’une même population. On peut estimer de deux façons différentes la variance de cette population
unique : l’une des estimations est faite de façon à éliminer les influences du facteur (la lignée des
poules) agissant sur les différents lots et dont on étudie précisément l’action, l’autre estimation est telle
qu’elle mettrait, au contraire, en évidence les influences éventuelles de ce même facteur. Si ces deux
estimations, confrontées, montrent une divergence significative, l’hypothèse de la même population
d’origine de l’ensemble des échantillons ne doit pas être maintenue (les différents échantillons étudiés
sont hétérogènes). Voir l’exemple dans la Figure 3 pour un calcul explicite.
Comparaison de fréquences : test du χ2
3
Quand on dispose de données qui désignent un trait qualitatif au lieu d’une quantité mesurable
(par exemple, la couleur des yeux, le phénotype d’une plante) on peut compter l’effectif de ces traits
dans un échantillon (notez qu’il faut toujours prendre les effectifs (et ne pas les fréquences), c’est-à-dire
le nombre de fois que le trait a été compté3 ). Pour comparer ces effectifs à des effectifs théoriques
connues ou pour voir comment ils varient en fonction d’un autre trait on se sert du test du χ2 (ou
test du meilleur ajustement). Soit fi l’effectif d’individus avec le trait i et fˆi la fréquence attendue,
on calcule alors
k
(fi − fˆi )2
χ2 =
(1)
fˆi
i=1
(k est le nombre de traits qu’on distingue). Si les différences entre fi et fˆi sont seulement dues au
hasard la quantité χ2 suivra une distribution de χ2ν avec ν = k − 1 degrés de libertés. H0 est donc
que fi = fˆi ∀i (le signe ∀ veut dire « pour chaque . . . »). On compare alors χ2 à une valeur seuil χ2α,ν
(voir tableau 2), si χ2 > χ2α,ν on rejette H0 avec un risque α. Voir l’exemple dans la Fig 4 pour un
calcul explicite.
3.1
Les tableaux de contingences
Souvent on observe 2 ou plus de traits sur chaque individu et on se demande si les effectifs de
certains traits sont liées à un autre trait. Par exemple, est-ce que les fréquences des cheveux de
couleurs noir, marron, blond et roux sont liées au sexe ? Dans ce cas on peut répondre par un tableau
de contingences, en calculant les effectifs attendus à partir des données. Ensuite on applique le test
du χ2 comme ci-dessus. Voir l’exemple dans la Figure 5 pour un calcul explicite.
4
Coefficient de corrélation
Reportons nous à un diagramme de dispersion, où les points ont pour coordonnées les couples
de valeurs des deux variables x et y dont on étudie les relations, chaque point représentant donc un
couple de mesure. Nous nous proposons de définir un paramètre aussi simple que possible indiquant
dans quelle mesure les variations des deux grandeurs étudiées sont liées entre elles.
3 Attention
: en anglais ‘effectif’ se traduit par
< total frequency > et ‘fréquence’ par < relative frequency > !
3
On a constitué 3 lots renfermant 10, 10 et 12 poules appartenant à 3 lignées différentes A1, A2 et A3,
soumises exactement aux même conditions. Le nombre d’œufs pondus par chaque poule durant une
année a été noté.
La moyenne générale annuelle des œufs pondus par l’ensemble des
32 poules est :
lignée
A1
A2
A3
180
199
191
177
203
194
1790 + 2010 + 2376
i
j Aij
Ā =
=
= 193
175
200
201
n1 + n2 + n3
10 + 10 + 12
(j = 1, . . . , 3 est la lignée, i = 1, . . . , nj est la i-ème poule dans
la lignée j). Doit-on voir entre les moyennes de ponte ainsi observées dans les trois échantillons de simples écarts dus au hasard
de l’échantillonnage, ou existe t-il une différence réelle entre les
trois lignées en ce qui concerne la ponte ?
La dispersion totale des résultats autour de la moyenne générale
Ā est
SCtot =
(Aij −Ā)2 = (
Aij )2 +nĀ2 = 3448, νtot = n−1 = 31
ij
somme
ni
Āi
170
182
181
177
180
183
185
194
195
204
206
207
202
200
1790
10
179
2010
10
201
193
197
195
203
199
199
201
206
197
2376
12
198
ij
Cette dispersion totale est due à la fois aux fluctuations de l’échantillonnage et aux autres cause de
diversité, en particulier une différence éventuelle d’aptitude à la ponte des trois lignées. SCtot est donc
la somme de deux termes :
SCgroupe : somme des carrés des écarts entre les moyennes des lignées et la moyenne générale, chaque
terme étant multiplié par l’effectif du lot. SCgroupe représente la dispersion attribuable à la
diversité de la ponte (dispersion factorielle).
SCgroupe =
k
nj (Āj − Ā)2 = 10(179 − 193)2 + 10(201 − 193)2 − 12(198 − 193)2 = 2900
j=1
avec degré de liberté νgroupe = k − 1 = 2 (k = 3 est le nombre de lignées).
SCerreur : somme des carrés des écarts des résultats individuels aux moyennes respectives des lignées,
c’est la différence entre Stot , dispersion totale, et Sgroupe , dispersion factorielle ; SCerreur est
imputable seulement aux fluctuations fortuites, on l’appelle dispersion résiduelle.
SCerreur =
k ni
k
2
(Aij − Āj ) = (
Aij ) −
nj Ā2j = 548
2
j=1 i=1
ij
j=1
avec degré de liberté νerreur = n − k = 32 − 3 = 29.
Dans l’hypothèse que les trois lignées sont équivalentes en ce qui concerne la ponte, c’est à dire que
les différences entre les pontes des trois lots ne sont que le résultat du hasard, les lignées ne forment
en définitive qu’une seule population unique. Nous pouvons alors estimer de deux façons différentes
la variance de cette population unique :
à partir de la dispersion factorielle, CMgroupe =
à partir de la dispersion résiduelle CMerreur =
SCgroupe
νgroupe
SCerreur
νerreur
=
=
2900
2
548
29
= 1450
= 18.9
(CM veut dire ‘carré moyen’). Ces deux estimations sont indépendantes, et si notre hypothèse est
exacte, elles ne devraient donc différer que dans la mesure permise par l’échantillonnage. On forme
pour cela le rapport F = CMerreur /CMgroupe = 1450/18.9 = 77.
Cette valeur est très élevée par rapport à 1 (ce qu’on attendrait sous H0 ), et supérieure aux valeurs de
la table de Snédécor (Tableau 3) correspondants aux degré de liberté (ddl) 2 et 29, la valeur théorique
étant 3.33 pour une sécurité de 95% (α = 0.05). On rejète donc H0 , on admet qu’il existe une différence
réelle entre les trois lignées comparées.
Fig. 3 – Exemple : ANOVA (analyse de variance).
4
On a deux gènes de type dominant récéssif, et on croise des individues homozygotes dominants avec
des individues homozygotes récessifs. En recroisant les individues de la F1 entre eux on attend dans la
F2 les quatres phénotypes possibles (AB, aB, Ab et ab) dans les proportions 9:3:3:1. Chaque déviation
de ces proportions indique que la génétique du cas qu’on étudie ne suit probablement pas ces règles
simples (par ex., les deux gènes sont sur le même chromosome, les homozygotes récessifs ont une
mortalité accrue etc.).
Dans une expérience de ce type avec des petits pois on a compté 152 pois jaunes lisses, 39 jaunes ridés,
53 verts lisses et 6 verts ridés. H0 : l’échantillon vient d’une population qui a les proportions 9:3:3:1.
Sur un total de n = 250 pois on attend alors les effectifs 140.63:46.88:46.88:15.63. Le degré de liberté
est ν = 4 − 1 = 3. D’après l’équations (1) on calcule
χ2 =
11.372
7.882
6.132
9.632
+
+
+
= 8.972
140.63 46.88 46.88 15.63
La valeur seuil est χ20.05.3 = 7.815 (voir tableau 4), qui est plus petit que χ2 , on peut donc rejeter H0 .
Fig. 4 – Exemple : Test du χ2 .
Une mesure de ce lien est le coefficient de corrélation de Pearson
n
cov
(xi − x̄)(yi − ȳ)
n
r=√
= n i=1
2
SC1 · SC2
(x
−
x̄)2
i=1 i
i=1 (yi − ȳ)
(on appelle cov la covariance) qui représente la covariance lorsque les deux séries de variables sont
rapportés à leurs écart-types respectifs.
Tel qu’il est défini le coefficient de corrélation r ne peut prendre qu’une valeur entre –1 et +1.
Lorsqu’il est nul (r = 0) la covariance cov est alors également nulle, il n’y a pas de corrélation
entre les deux variables, c’est-à-dire qu’à une valeur d’une des variables peut correspondre une valeur
quelconque de l’autre.
Lorsque r = −1 ou r = +1, on a, pour tous les points du diagramme, une relation stricte, c’est-àdire que tous les points sont alignés.
La corrélation est positive lorsque r est proche de +1 (aux plus grandes valeurs de y correspondent
les plus grandes valeurs de x) et négative lorsque r est proche de –1 (aux plus grandes valeurs de x
correspondent les plus petites valeurs de y). 2
L’erreur standard de r est définit par sr = 1−r
n−2 , et pour tester si une corrélation est significative
(H0 : r = 0) on se sert à nouveau de la distribution de Student,
tobs =
r
,
sr
et on rejete H0 si |tobs | ≤ tα(2),ν avec ν = n − 2 degré de liberté. Voir l’exemple 6 pour un calcul
explicite.
On observe le sexe et quatre couleurs de cheveux comme indiqué.
H0 : la couleur des cheveux est indépendant du sexe dans la population échantillonnée.
Ri , 1 ≤ i ≤ r = 2, est le nombre d’obsercouleurs
vations dans chaque ligne (sexe), Cj , 1 ≤
Sexe
Noir
Marron
Blond
Roux
Total
j ≤ c = 4, le nombre dans chaque coMasculin
32
43
16
9
100 (=R1 )
lonne (couleur). On désigne par fij l’ef(29.0)
(36.0)
(26.7)
(8.3)
Féminin
55
65
64
16
200 (=R2 )
fectif de sexe i et de couleur j, par ex.
(58.0)
(72.0)
(53.3)
(16.7)
f23 = 64. Entre parenthèse sont les effecR C
C
Total
87
108
80
25
300 (=n)
tifs attendus, fˆij = Rni nj n = in j (ex :
(=C2 )
(=C3 )
(=C4 )
(=C1 )
200·80
fˆ23 = 300 = 53.3).
2
2
2
2 4 (f −fˆ )2
On calcule χ2 = i=1 j=1 ij fˆ ij = (32−29.0)
+ (43−36.0)
+ . . . + (16−16.7)
= 8.987 avec ν =
29.0
36.0
16.7
ij
(r − 1)(c − 1) = 3 degrés de liberté. La valeur seuil est χ20.05,3 = 7.815, on peut donc rejeter H0 .
Fig. 5 – Exemple : Tableaux de contingences.
5
Un exemple légendaire est la corrélation entre l’abondance des cigognes est les nouveaux nés. Dans
les années 1965, 1970, 1975 et 1980 on a compté 1900, 1400, 1050 et 900 (xi ) couples de cigognes et
1.1, 0.88, 0.65 et 0.65 (yi ) millions nouveaux nés en allemagne occidentale. On calcule ainsi
r
=
sr
=
tobs
=
cov
284.5
√
= 0.989
= √
SC1 · SC2
591875 · 0.1398
1 − 0.9892
= 0.104, ν = 4 − 2 = 2
4−2
0.989
= 9.47
0.104
qu’on compare à t0.05(2),2 = 4.303. On rejette alors H0 , il y a une corrélation significative entre le
déclin des cigognes et le déclin des naissances. Je vous laisse interpréter.
Fig. 6 – Exemple : Coefficient de corrélation de Pearson.
Tab. 1 – Valeurs seuil du paramètre t de
la distribution de student, pour des risques
α = 0.05 et α = 0.01. Pour ν = ∞ le t de
Student devient le z de la distribution normale
standardisée N (0, 1).
ν =n−1
1
2
3
4
5
6
7
8
9
10
12
14
16
18
20
25
30
...
∞
α = 0.05
12.71
4.30
3.18
2.78
2.57
2.45
2.36
2.31
2.26
2.23
2.18
2.14
2.12
2.10
2.09
2.06
2.05
...
1.96
Tab. 2 – Valeurs seuil du paramètre χ2 , pour
des risques α = 0.05 et α = 0.01.
ν =n−1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
α = 0.01
63.66
9.92
5.84
4.60
4.03
3.70
3.50
3.35
3.25
3.17
3.05
2.92
2.92
2.88
2.84
2.79
2.75
...
2.58
α = 0.05
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
α = 0.01
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
Tab. 3 – Tableau de Fisher-Snédécor (valeurs seuil de F )
α(1)† = 0.05, ν du numérateur
α(1) = 0.01, ν du numératuer
ν dénomin.
1
2
3
4
5
6
1
2
3
4
5
1
161
200
216
225
230 2.34
4050 5000 5400 5620 5760
2
18.5 19.0 19.2 19.2 19.3 19.3
98.5
99.0
99.2
99.2
99.3
3
10.1 9.55 9.28 9.12 9.01 8.94
34.1
30.8
29.5
28.7
28.2
4
7.71 6.94 6.59 6.39 6.26 6.16
21.2
18.0
16.7
16.0
15.5
5
6.61 5.79 5.41 5.19 5.05 4.95
16.3
13.3
12.1
11.4
11.0
6
5.99 5.14 4.76 4.53 4.39 4.28
13.7
10.9
9.78
9.15
8.75
7
5.59 4.74 4.35 4.12 3.97 3.87
12.2
9.55
8.45
7.85
7.46
8
5.32 4.46 4.07 3.84 3.69 3.58
11.3
8.56
7.59
7.01
6.63
9
5.12 4.26 3.86 3.63 3.48 3.37
10.6
8.02
6.99
6.42
6.06
10
4.96 4.10 3.71 3.48 3.33 3.22
10.0
7.56
6.55
5.99
5.64
15
4.54 3.68 3.29 3.06 2.90 2.79
8.68
6.36
5.42
4.89
4.56
20
4.35 3.49 3.10 2.87 2.71 2.60
8.10
5.85
4.94
4.43
4.10
30
4.17 3.32 2.92 2.69 2.53 2.42
7.56
5.39
4.51
4.02
3.70
40
4.08 3.23 2.84 2.61 2.45 2.34
7.31
5.18
4.31
3.83
3.51
50
4.03 3.18 2.79 2.56 2.40 2.29
7.17
5.06
4.20
3.72
3.41
100
3.94 3.09 2.70 2.46 2.31 2.19
6.90
4.82
3.98
3.51
3.21
∞
3.84 3.00 2.61 2.37 2.21 2.10
6.64
4.61
3.78
3.32
3.02
†
par construction on a Fobs > 1 et on utilise une distribution unilatérale de F ; les valeurs
correspondent à un α(2) = 0.1.
6
6
5860
99.3
27.9
15.2
10.7
8.47
7.19
6.37
5.80
5.39
4.32
3.87
3.47
3.29
3.19
2.99
2.80