Méthodologie expérimentale : quelques tests statistiques
Transcription
Méthodologie expérimentale : quelques tests statistiques
Méthodologie expérimentale : quelques tests statistiques Audrey Dussutour, Christian Jost 2 janvier 2005 1 Test de Student sur un ou deux échantillons On dispose de deux échantillons x = (x1 , x2, . . . , xnx) et y = (y1 , . . . , yny ) d’effectifs nx et ny et de moyennes x̄ et ȳ, prélevés au hasard. Pour décrire les échantillons on utilise la moyenne et la variance empirique s2x , nx xi x1 + x2 + . . . + xnx = i=1 x̄ = nx nx nx 2 2 − x̄) + . . . + (x − x̄) (xi − x̄)2 (x 1 nx s2x = = i=1 (nx − 1) (nx − 1) L’erreur standard est l’écartype de la moyenne x̄, sx̄ = s2x /nx 1.1 Test sur un échantillon On se demande si la différence d entre la moyenne x̄ et une valeur théorique µ0 connue peut être attribuée uniquement à des fluctuations dues au hasard (l’échantillon appartient à une population de moyenne µ0 ), ou si, au contraire, elle est trop importante pour qu’on puisse admettre que l’échantillon appartient à une population de cette moyenne. C’est-à-dire, on a l’hypothèse nulle (H0 ) selon laquelle µx = µ0 (µx est la moyenne (inconnue) de la population dont provient l’échantillon x, et x̄ est une estimation de ce µx ), et l’hypothèse alternative (HA ) selon laquelle µx = µ0 . A partir de x̄ (on dit aussi que c’est un estimateur de µx ) et de sx on calcule une statistique tobs , tobs = x̄ − µ0 . sx̄ La théorie statistique nous dit que tobs est observé selon une distribution de Student1 avec νx = nx −1 degrés de liberté, on cherche donc dans le tableau 1 le t théorique pour α = 0.05 et νx degré de liberté, tα(2),νx (le α(2) veut dire que dans HA la moyenne peut être plus grande ou plus petite que la moyenne théorique, c’est donc un test bilatéral). Si |tobs | > tα(2),νx on peut rejeter H0 avec un risque α de l’avoir rejeté à tort, si |tobs | < tα(2),νx on accepte H0 . Voir exemple Fig 1 pour un calcul explicite. 1.2 Test sur deux échantillons On a deux échantillons x et y, indépendant l’un de l’autre, avec moyennes x̄ et ȳ. On se demande si la différence d entre les deux moyennes peut être attribuée uniquement à des fluctuations dues au hasard (les deux échantillons appartiennent à la même population), ou si, au contraire, elle est trop importante pour qu’on puisse admettre que les deux échantillons appartiennent à une population unique. L’hypothèse nulle est donc que µx = µy . On calcule la statistique2 tobs = x̄ − ȳ . sx̄−ȳ Le terme sx̄−ȳ désigne un estimateur de l’erreur standard de la difference x̄ − ȳ. Pour cet estimateur on calcule d’abord la variance totale des deux échantillons ny nx (xi − x̄)2 + i=1 (yi − ȳ)2 SCx + SCy = i=1 s2p = νx + νy (nx − 1) + (ny − 1) 1 Pour 2 Pour être rigoureux il faudrait aussi exiger que les données soient distribuées selon une loi normale. être rigoureux on devrait exiger, en plus de la normalité des données, que les deux échantillons aient la même variance. 1 On a 25 mesures des températures à l’intérieur d’une espèce de crabe, x =(25.8, 24.6, 26.1, 22.9, 25.1, 27.3, 24.0, 24.5, 23.9, 26.2, 24.3, 24.6, 23.3, 25.5, 28.1, 24.8, 23.5, 26.3, 25.4, 25.5, 23.9, 27.0, 24.8, 22.9, 25.4), prises à une température ambiante de 24.3◦C. On se demande si les crabes peuvent influencer leur température. H0 : µ = 24.3◦C, HA : µ = 24.3◦C nx x̄ tobs = 25, νx = nx − 1 = 25 − 1 = 24, α = 0.05 1.80 = 25.03, s2x = 1.80, sx̄ = = 0.27 25 x̄ − µ 25.03 − 24.3 = = = 2.704 sx̄ 0.27 t0.05(2),24 ≈† t0.05(2),20 = 2.09 On a donc tobs > tα(2),νx , on rejète H0 (les crabes ne peuvent pas influencer leur température intérieure) avec un risque de α = 5% d’avoir rejeté H0 à tort. † Comme le tableau 1 ne contient pas la valeur seuil pour ν = 24 on prend la valeur pour le ν au-dessous de 24, 20 dans notre cas. Fig. 1 – Exemple : comparaison d’un échantillon à une moyenne connue. (on appelle SC la Somme de Carrés des écarts) et ensuite on estime s2p s2p + sx̄−ȳ = nx ny Le degré de liberté total est de ν = νx + νy = nx + ny − 2. Si |tobs | > tα(2),ν on peut rejeter H0 avec un risque α de l’avoir rejeté à tort, si |tobs | < tα(2),ν on accepte H0 . Voir exemple 2 pour un calcul explicite. Deux groupes d’élèves d’effectifs nx = 35 et ny = 35, ont obtenu à une même épreuve les notes dans le tableau à droite. On a ainsi x̄ = 9.9, ȳ = 15.2 Cette différence entre les deux groupes peut-elle être attribuée au hasard, ou le groupe y doit-il être considéré comme différent du groupe x ? On pose les deux hypothèses : H0 : les deux échantillons x et y appartiennent à la même population, la différence d entre x̄ et ȳ est due au hasard. HA : les deux échantillons x et y n’appartiennent pas à la même population, la différence d entre x̄ et ȳ n’est pas due au hasard. νx = 34, νy = 34, ν = 68, α = 0.05 154.3 + 175.6 = 4.85 SCx = 154.3, SCy = 175.6, s2p = 35 − 1 + 35 − 1 4.85 4.85 sx̄−ȳ = + = 0.53 35 − 1 35 − 1 tobs = tα(2),ν 9.9 − 15.2 = −10.1 0.53 = t0.05(2),68 = 1.995 |tobs | > t0.05(2),68, on rejette H0 ( les moyennes x̄ et ȳ sont significativement différentes, les échantillons x et y n’appartiennent pas à la même population) le groupe y doit être considéré comme différent du groupe x (avec un risque de 5% de se tromper). groupe 1 (x) 11 12 10 9 8 6 12 14 10 11 9 8 6 7 10 12 11 13 12 6 9 8 10 11 7 11 12 9 8 13 10 11 12 8 9 Fig. 2 – Exemple : comparaison entre deux échantillons. 2 groupe 2 (y) 14 15 13 16 17 18 19 12 15 14 16 13 17 18 19 15 14 12 13 16 15 18 19 12 14 17 13 15 16 18 17 14 15 12 11 1.3 Deux échantillons appariés Si votre échantillon x n’est pas indépendant de l’échantillon y les tests ci-dessus ne sont pas permis. L’exemple le plus courant est les données appariées : on utilise les mêmes individus pour mesurer x et y, par exemple le poids d’un animal avant et après un régime. Dans ce cas on travaille sur les différences di = xi − yi (di est donc la différence de poids pour le même individu avant et après le régime) et on applique le test de la section 1.1 avec H0 : µd = 0. 2 Comparaison de plusieurs échantillons : ANOVA La méthode utilisée pour tester l’homogénéité d’un ensemble d’échantillons (ex. : lot de poules de lignées différentes) en ce qui concerne un caractère quantitatif (ex. : nombre d’œufs) est l’ANOVA (« ANalysis Of Variance »). Il s’agit de savoir si le caractère étudié (le nombre d’œufs) réagit différemment vis à vis du facteur que l’on fait varier selon les groupes (la lignée des poules), c’est à dire si l’on doit ou non rejeter l’hypothèse que ces échantillons peuvent être considérés comme provenant d’une même population. On peut estimer de deux façons différentes la variance de cette population unique : l’une des estimations est faite de façon à éliminer les influences du facteur (la lignée des poules) agissant sur les différents lots et dont on étudie précisément l’action, l’autre estimation est telle qu’elle mettrait, au contraire, en évidence les influences éventuelles de ce même facteur. Si ces deux estimations, confrontées, montrent une divergence significative, l’hypothèse de la même population d’origine de l’ensemble des échantillons ne doit pas être maintenue (les différents échantillons étudiés sont hétérogènes). Voir l’exemple dans la Figure 3 pour un calcul explicite. Comparaison de fréquences : test du χ2 3 Quand on dispose de données qui désignent un trait qualitatif au lieu d’une quantité mesurable (par exemple, la couleur des yeux, le phénotype d’une plante) on peut compter l’effectif de ces traits dans un échantillon (notez qu’il faut toujours prendre les effectifs (et ne pas les fréquences), c’est-à-dire le nombre de fois que le trait a été compté3 ). Pour comparer ces effectifs à des effectifs théoriques connues ou pour voir comment ils varient en fonction d’un autre trait on se sert du test du χ2 (ou test du meilleur ajustement). Soit fi l’effectif d’individus avec le trait i et fˆi la fréquence attendue, on calcule alors k (fi − fˆi )2 χ2 = (1) fˆi i=1 (k est le nombre de traits qu’on distingue). Si les différences entre fi et fˆi sont seulement dues au hasard la quantité χ2 suivra une distribution de χ2ν avec ν = k − 1 degrés de libertés. H0 est donc que fi = fˆi ∀i (le signe ∀ veut dire « pour chaque . . . »). On compare alors χ2 à une valeur seuil χ2α,ν (voir tableau 2), si χ2 > χ2α,ν on rejette H0 avec un risque α. Voir l’exemple dans la Fig 4 pour un calcul explicite. 3.1 Les tableaux de contingences Souvent on observe 2 ou plus de traits sur chaque individu et on se demande si les effectifs de certains traits sont liées à un autre trait. Par exemple, est-ce que les fréquences des cheveux de couleurs noir, marron, blond et roux sont liées au sexe ? Dans ce cas on peut répondre par un tableau de contingences, en calculant les effectifs attendus à partir des données. Ensuite on applique le test du χ2 comme ci-dessus. Voir l’exemple dans la Figure 5 pour un calcul explicite. 4 Coefficient de corrélation Reportons nous à un diagramme de dispersion, où les points ont pour coordonnées les couples de valeurs des deux variables x et y dont on étudie les relations, chaque point représentant donc un couple de mesure. Nous nous proposons de définir un paramètre aussi simple que possible indiquant dans quelle mesure les variations des deux grandeurs étudiées sont liées entre elles. 3 Attention : en anglais ‘effectif’ se traduit par < total frequency > et ‘fréquence’ par < relative frequency > ! 3 On a constitué 3 lots renfermant 10, 10 et 12 poules appartenant à 3 lignées différentes A1, A2 et A3, soumises exactement aux même conditions. Le nombre d’œufs pondus par chaque poule durant une année a été noté. La moyenne générale annuelle des œufs pondus par l’ensemble des 32 poules est : lignée A1 A2 A3 180 199 191 177 203 194 1790 + 2010 + 2376 i j Aij Ā = = = 193 175 200 201 n1 + n2 + n3 10 + 10 + 12 (j = 1, . . . , 3 est la lignée, i = 1, . . . , nj est la i-ème poule dans la lignée j). Doit-on voir entre les moyennes de ponte ainsi observées dans les trois échantillons de simples écarts dus au hasard de l’échantillonnage, ou existe t-il une différence réelle entre les trois lignées en ce qui concerne la ponte ? La dispersion totale des résultats autour de la moyenne générale Ā est SCtot = (Aij −Ā)2 = ( Aij )2 +nĀ2 = 3448, νtot = n−1 = 31 ij somme ni Āi 170 182 181 177 180 183 185 194 195 204 206 207 202 200 1790 10 179 2010 10 201 193 197 195 203 199 199 201 206 197 2376 12 198 ij Cette dispersion totale est due à la fois aux fluctuations de l’échantillonnage et aux autres cause de diversité, en particulier une différence éventuelle d’aptitude à la ponte des trois lignées. SCtot est donc la somme de deux termes : SCgroupe : somme des carrés des écarts entre les moyennes des lignées et la moyenne générale, chaque terme étant multiplié par l’effectif du lot. SCgroupe représente la dispersion attribuable à la diversité de la ponte (dispersion factorielle). SCgroupe = k nj (Āj − Ā)2 = 10(179 − 193)2 + 10(201 − 193)2 − 12(198 − 193)2 = 2900 j=1 avec degré de liberté νgroupe = k − 1 = 2 (k = 3 est le nombre de lignées). SCerreur : somme des carrés des écarts des résultats individuels aux moyennes respectives des lignées, c’est la différence entre Stot , dispersion totale, et Sgroupe , dispersion factorielle ; SCerreur est imputable seulement aux fluctuations fortuites, on l’appelle dispersion résiduelle. SCerreur = k ni k 2 (Aij − Āj ) = ( Aij ) − nj Ā2j = 548 2 j=1 i=1 ij j=1 avec degré de liberté νerreur = n − k = 32 − 3 = 29. Dans l’hypothèse que les trois lignées sont équivalentes en ce qui concerne la ponte, c’est à dire que les différences entre les pontes des trois lots ne sont que le résultat du hasard, les lignées ne forment en définitive qu’une seule population unique. Nous pouvons alors estimer de deux façons différentes la variance de cette population unique : à partir de la dispersion factorielle, CMgroupe = à partir de la dispersion résiduelle CMerreur = SCgroupe νgroupe SCerreur νerreur = = 2900 2 548 29 = 1450 = 18.9 (CM veut dire ‘carré moyen’). Ces deux estimations sont indépendantes, et si notre hypothèse est exacte, elles ne devraient donc différer que dans la mesure permise par l’échantillonnage. On forme pour cela le rapport F = CMerreur /CMgroupe = 1450/18.9 = 77. Cette valeur est très élevée par rapport à 1 (ce qu’on attendrait sous H0 ), et supérieure aux valeurs de la table de Snédécor (Tableau 3) correspondants aux degré de liberté (ddl) 2 et 29, la valeur théorique étant 3.33 pour une sécurité de 95% (α = 0.05). On rejète donc H0 , on admet qu’il existe une différence réelle entre les trois lignées comparées. Fig. 3 – Exemple : ANOVA (analyse de variance). 4 On a deux gènes de type dominant récéssif, et on croise des individues homozygotes dominants avec des individues homozygotes récessifs. En recroisant les individues de la F1 entre eux on attend dans la F2 les quatres phénotypes possibles (AB, aB, Ab et ab) dans les proportions 9:3:3:1. Chaque déviation de ces proportions indique que la génétique du cas qu’on étudie ne suit probablement pas ces règles simples (par ex., les deux gènes sont sur le même chromosome, les homozygotes récessifs ont une mortalité accrue etc.). Dans une expérience de ce type avec des petits pois on a compté 152 pois jaunes lisses, 39 jaunes ridés, 53 verts lisses et 6 verts ridés. H0 : l’échantillon vient d’une population qui a les proportions 9:3:3:1. Sur un total de n = 250 pois on attend alors les effectifs 140.63:46.88:46.88:15.63. Le degré de liberté est ν = 4 − 1 = 3. D’après l’équations (1) on calcule χ2 = 11.372 7.882 6.132 9.632 + + + = 8.972 140.63 46.88 46.88 15.63 La valeur seuil est χ20.05.3 = 7.815 (voir tableau 4), qui est plus petit que χ2 , on peut donc rejeter H0 . Fig. 4 – Exemple : Test du χ2 . Une mesure de ce lien est le coefficient de corrélation de Pearson n cov (xi − x̄)(yi − ȳ) n r=√ = n i=1 2 SC1 · SC2 (x − x̄)2 i=1 i i=1 (yi − ȳ) (on appelle cov la covariance) qui représente la covariance lorsque les deux séries de variables sont rapportés à leurs écart-types respectifs. Tel qu’il est défini le coefficient de corrélation r ne peut prendre qu’une valeur entre –1 et +1. Lorsqu’il est nul (r = 0) la covariance cov est alors également nulle, il n’y a pas de corrélation entre les deux variables, c’est-à-dire qu’à une valeur d’une des variables peut correspondre une valeur quelconque de l’autre. Lorsque r = −1 ou r = +1, on a, pour tous les points du diagramme, une relation stricte, c’est-àdire que tous les points sont alignés. La corrélation est positive lorsque r est proche de +1 (aux plus grandes valeurs de y correspondent les plus grandes valeurs de x) et négative lorsque r est proche de –1 (aux plus grandes valeurs de x correspondent les plus petites valeurs de y). 2 L’erreur standard de r est définit par sr = 1−r n−2 , et pour tester si une corrélation est significative (H0 : r = 0) on se sert à nouveau de la distribution de Student, tobs = r , sr et on rejete H0 si |tobs | ≤ tα(2),ν avec ν = n − 2 degré de liberté. Voir l’exemple 6 pour un calcul explicite. On observe le sexe et quatre couleurs de cheveux comme indiqué. H0 : la couleur des cheveux est indépendant du sexe dans la population échantillonnée. Ri , 1 ≤ i ≤ r = 2, est le nombre d’obsercouleurs vations dans chaque ligne (sexe), Cj , 1 ≤ Sexe Noir Marron Blond Roux Total j ≤ c = 4, le nombre dans chaque coMasculin 32 43 16 9 100 (=R1 ) lonne (couleur). On désigne par fij l’ef(29.0) (36.0) (26.7) (8.3) Féminin 55 65 64 16 200 (=R2 ) fectif de sexe i et de couleur j, par ex. (58.0) (72.0) (53.3) (16.7) f23 = 64. Entre parenthèse sont les effecR C C Total 87 108 80 25 300 (=n) tifs attendus, fˆij = Rni nj n = in j (ex : (=C2 ) (=C3 ) (=C4 ) (=C1 ) 200·80 fˆ23 = 300 = 53.3). 2 2 2 2 4 (f −fˆ )2 On calcule χ2 = i=1 j=1 ij fˆ ij = (32−29.0) + (43−36.0) + . . . + (16−16.7) = 8.987 avec ν = 29.0 36.0 16.7 ij (r − 1)(c − 1) = 3 degrés de liberté. La valeur seuil est χ20.05,3 = 7.815, on peut donc rejeter H0 . Fig. 5 – Exemple : Tableaux de contingences. 5 Un exemple légendaire est la corrélation entre l’abondance des cigognes est les nouveaux nés. Dans les années 1965, 1970, 1975 et 1980 on a compté 1900, 1400, 1050 et 900 (xi ) couples de cigognes et 1.1, 0.88, 0.65 et 0.65 (yi ) millions nouveaux nés en allemagne occidentale. On calcule ainsi r = sr = tobs = cov 284.5 √ = 0.989 = √ SC1 · SC2 591875 · 0.1398 1 − 0.9892 = 0.104, ν = 4 − 2 = 2 4−2 0.989 = 9.47 0.104 qu’on compare à t0.05(2),2 = 4.303. On rejette alors H0 , il y a une corrélation significative entre le déclin des cigognes et le déclin des naissances. Je vous laisse interpréter. Fig. 6 – Exemple : Coefficient de corrélation de Pearson. Tab. 1 – Valeurs seuil du paramètre t de la distribution de student, pour des risques α = 0.05 et α = 0.01. Pour ν = ∞ le t de Student devient le z de la distribution normale standardisée N (0, 1). ν =n−1 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 25 30 ... ∞ α = 0.05 12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.18 2.14 2.12 2.10 2.09 2.06 2.05 ... 1.96 Tab. 2 – Valeurs seuil du paramètre χ2 , pour des risques α = 0.05 et α = 0.01. ν =n−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 α = 0.01 63.66 9.92 5.84 4.60 4.03 3.70 3.50 3.35 3.25 3.17 3.05 2.92 2.92 2.88 2.84 2.79 2.75 ... 2.58 α = 0.05 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 α = 0.01 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 Tab. 3 – Tableau de Fisher-Snédécor (valeurs seuil de F ) α(1)† = 0.05, ν du numérateur α(1) = 0.01, ν du numératuer ν dénomin. 1 2 3 4 5 6 1 2 3 4 5 1 161 200 216 225 230 2.34 4050 5000 5400 5620 5760 2 18.5 19.0 19.2 19.2 19.3 19.3 98.5 99.0 99.2 99.2 99.3 3 10.1 9.55 9.28 9.12 9.01 8.94 34.1 30.8 29.5 28.7 28.2 4 7.71 6.94 6.59 6.39 6.26 6.16 21.2 18.0 16.7 16.0 15.5 5 6.61 5.79 5.41 5.19 5.05 4.95 16.3 13.3 12.1 11.4 11.0 6 5.99 5.14 4.76 4.53 4.39 4.28 13.7 10.9 9.78 9.15 8.75 7 5.59 4.74 4.35 4.12 3.97 3.87 12.2 9.55 8.45 7.85 7.46 8 5.32 4.46 4.07 3.84 3.69 3.58 11.3 8.56 7.59 7.01 6.63 9 5.12 4.26 3.86 3.63 3.48 3.37 10.6 8.02 6.99 6.42 6.06 10 4.96 4.10 3.71 3.48 3.33 3.22 10.0 7.56 6.55 5.99 5.64 15 4.54 3.68 3.29 3.06 2.90 2.79 8.68 6.36 5.42 4.89 4.56 20 4.35 3.49 3.10 2.87 2.71 2.60 8.10 5.85 4.94 4.43 4.10 30 4.17 3.32 2.92 2.69 2.53 2.42 7.56 5.39 4.51 4.02 3.70 40 4.08 3.23 2.84 2.61 2.45 2.34 7.31 5.18 4.31 3.83 3.51 50 4.03 3.18 2.79 2.56 2.40 2.29 7.17 5.06 4.20 3.72 3.41 100 3.94 3.09 2.70 2.46 2.31 2.19 6.90 4.82 3.98 3.51 3.21 ∞ 3.84 3.00 2.61 2.37 2.21 2.10 6.64 4.61 3.78 3.32 3.02 † par construction on a Fobs > 1 et on utilise une distribution unilatérale de F ; les valeurs correspondent à un α(2) = 0.1. 6 6 5860 99.3 27.9 15.2 10.7 8.47 7.19 6.37 5.80 5.39 4.32 3.87 3.47 3.29 3.19 2.99 2.80