L`essentiel sur les tests statistiques
Transcription
L`essentiel sur les tests statistiques
L’essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d’ADN et on se demande si elle est significativement enrichie en cytosines et guanine par rapport à un modèle simple où chaque nucléotide apparaı̂t à la même fréquence. Influence d’un médicament : On considère deux séries de personnes soumises les unes à un médicament, les autres à un placebo. On mesure les tensions artérielles dans les deux groupes est on cherche à déterminer si le médicament a un effet, soit sur la valeur moyenne, soit sur la variance de la tension. 1.1 1.1.1 Définitions Hypothèses nulle et alternative Un test paramétrique est une procédure de décision entre deux hypothèses concernant la valeur des paramètres d’un modèle probabiliste. L’hypothèse nulle notée H0 est celle que l’on considère vraie à priori. Le but du test est de décider si cet à priori est crédible. L’hypothèse alternative notée H1 est l’hypothèse complémentaire de H0 . Abondance en C,G : Le paramètre d’interêt est la proportion π de cytosines et de guanines. La question posée s’écrit H0 : π ≤ 0.5 H1 : π > 0.5 3 4 CHAPITRE 1. TESTS STATISTIQUES Influence d’un médicament : Les paramètres d’interêts sont l’espérance µ1 et l’écart-type σ1 de la tension dans le groupe traité ainsi que l’espérance µ2 et l’écart-type σ2 de la tension dans le groupe témoin. La question posée s’écrit H0 : µ1 = µ2 H1 : µ1 6= µ2 Remarques: – Les signes =, 6=, > et ≤ ne correspondent pas à l’égalité ou aux inégalités au sens mathématique du terme. Il s’agit d’un façon succinte d’écrire : H0 : Il est crédible de penser que µ1 = µ2 H1 : µ1 est significativement différent de µ2 – H0 et H1 ne jouent pas le même rôle. En fait, on fait tout le raisonnement sous H0 et H1 n’est choisi que par défaut si H0 ne convient pas. 1.1.2 Statistique - Région de rejet - Latéralité La statistique de test est une fonction qui résume l’information sur l’échantillon (ou la valeur) qu’on veut tester. On la choisit de façon à pouvoir calculer sa loi sous H0 . On peut alors définir une région de rejet dont dépendra la décision d’accepter ou de rejeter H0 : on rejette H0 si la valeur observée de la statistique, calculée à partir des données, appartient à la région de rejet. Suivant le problème posé, il faut choisir la latéralité du test, qui définit la forme de la région de rejet : test multilatéral : On veut savoir si le paramètre étudié est trop grand ou trop petit, sans à priori. La région de rejet est alors de la forme ] − ∞, a] ∪ [b, +∞[. test unilatéral : On veut savoir si le paramètre est trop petit, ou si le paramètre est trop grand, sans se soucier de l’autre côté. Le région de rejet est alors de la forme ] − ∞, a] ou [a, +∞[. Abondance en C, G : La statistique dans ce cas est π − 0.5 S=p √ 0.5 ∗ (1 − 0.5/ n où n désigne la longueur de la séquence. On sait d’après le TCL que, pour n suffisamment grand, S suit sous H0 une loi normale centrée réduite. Le test est unilatéral, H0 est rejeté uniquement si la statistique est supérieure à un certain seuil S∗. 1.1. DÉFINITIONS 5 Influence d’un médicament : La statistique est dans ce cas plus complexe (cf chapitre suivant) mais dépend essentiellement de la différence entre les moyennes ou entre les variances des deux échantillons. Le test est bilatéral, c’est-à-dire que H0 est rejeté si cet écart est trop grand dans un sens ou dans l’autre. 1.1.3 Probabilité critique La probabilité critique (ou p-valeur) est la probabilité, sous H0 , que la statistique soit au moins aussi éloignée de son espérance que la valeur observée. En d’autres termes, c’est la probabilité d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe. Si le test est unilatéral à droite (région de rejet de la forme [a, +∞[), la probabilité critique est P(S > Sobs ). Si le test est unilatéral à gauche (région de rejet de la forme ] − ∞, a]), la probabilité critique est P(S < Sobs ). Si le test est bilatéral et que la loi de la statistique est symétrique par rapport à 0 (région de rejet de la forme ] − ∞, −a] ∪ [a, +∞[), la probabilité critique est P(|S| > |Sobs |). Abondance en G, C : Supposons qu’une séquence de longueur 100 contient 62 nucléotides G ou C. La valeur observée de la statistique est alors Sobs = .62−.5 .5/10 = 1.2. La probabilité critique de l’observation est alors la PH0 (S > 1.2) = 0.008 Si H0 est la vérité, il y a donc une probabilité de 8 pour 1000 d’obtenir une tel résultat par hasard. 1.1.4 Risque de première espèce ou confiance On appelle risque de première espèce et on note α le seuil au-dessous duquel un évènement sous H0 est jugé exceptionnel. La quantité 1 − α est la confiance du test. Ce seuil est celui auquel on va comparer la p-valeur : – si la p-valeur est supérieure à α, il n’est pas exceptionnel sous H0 d’observer la valeur effectivement observée. Par conséquent, H0 n’est pas rejeté. – si la p-valeur est inférieure à α, la valeur observée est jugée exceptionnelle sous H0 . On décide alors de rejeter H0 et de valider H1 . Remarques: – Hormis dans des cas de tests multiples non abordés dans ce cours, α varie généralement entre 0, 01 et 0, 05. – Ce seuil est appelé risque car il représente la probabilité de rejeter H0 alors que H0 est la vérité. 6 CHAPITRE 1. TESTS STATISTIQUES 1.1.5 Risque de deuxième espèce ou puissance On appelle risque de deuxième espèce et on note β la probabilité d’accepter H0 alors que la vérité est H1 . La quantité 1 − β est la puissance du test. Décision H0 H1 Vérité H0 H1 1-α β α 1-β Exemple 1.1. Dans un test médical, les hypothèses sont : H0 : le patient est malade H1 : le patient n’est pas malade Le risque de première espèce représente la probabilité de déclarer malades des patients sains (ou faux positifs). En d’autres termes, la confiance est la proportion de patients sains bien classés. Le risque de deuxième espèce représente la probabilité de déclarer sains des patients malades (ou faux négatifs). En d’autres termes, la puissance est la proportion de malades bien detectés. Remarque: Si l’échantillon reste inchangé, une diminution de α entraı̂ne une augmentation de β et inversement. Autrement dit, si on décide de réduire le nombre de faux positifs, on augmente forcément le nombre de faux négatifs. La seule manière d’améliorer les deux critères est d’augmenter la taille de l’échantillon. 1.1.6 Principe du test Les étapes d’un test sont toujours réalisées dans l’ordre suivant : 1) Choix du risque α 2) Choix du type de test et de sa latéralité si besoin 3) Calcul de la statistique de test 4) Calcul de la p-valeur 5) Conclusion En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier des partie 3) et 4). Par contre, les choix liées aux étapes 1) et 2) ainsi que l’interprétation finale ne peuvent être faits par le logiciel. Remarques: – Le résultat d’un test comprend toujours une dose d’incertitude : ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION ! 1.1. DÉFINITIONS 7 – La probabilité critique permet d’avoir une vision plus fine que sa simple comparaison avec α. En effet, plus elle est petite, plus l’évènement observé est surprenant sous H0 . Ainsi, pour α = 0.5, des probabilités critiques de 10−6 et de 0.35 impliquent le rejet de H0 mais avec des degrés de certitude différent concernant la décision. Cela est souvent résumé par le signe * pour une p-valeur inférieure à 0.1, ** pour une p-valeur inférieure à 0.01 et *** pour une p-valeur inférieure à 0.001. 8 CHAPITRE 1. TESTS STATISTIQUES Chapitre 2 Quel test pour quelle question ? 2.1 Tests paramétriques vs non-paramétriques Hypothèses non-paramétriques Les tests non-paramétriques sont semblables aux tests paramétriques présentés au chapitre précédent. Cependant, l’énoncé des hypothèses et l’expression de la statistique ne contiennent pas de référence à des paramètres. Elle sont plus générales, par exemple dans les cas de deux séries de mesures avec ou sans prise de médicament, les hypothèses seront : H0 : Les deux échantillons sont semblables H1 : Il y a une différence signifactive entre les deux échantillons De même, la statistique sera une statistique dite de rang, c’est-à-dire qu’elle ne va pas prendre en compte les valeurs des échantillons mais uniquement à quel point les deux échantillons se retrouvent mélangés si on les réunit et ordonne le tout. L’idée étant que sous H0 , les deux échantillons devraient être fortement mélangés, et que si la plupart des valeurs de l’un sont inférieures à la plupart des valeurs de la’autre, il y a une différence significative. Paramétrique ou non-paramétrique En général, les tests paramétriques ont une puissance (cf 1.1.5 supérieure aux tests non-paramétriques. Cependant, leur théorie repose sur des théorèmes asymptotiques tel le théorème centrale limite, et n’est donc valable que pour les grands échantillons. En pratique : – Pour des échantillons de plus d’une trentaine de sujets, on applique des test paramétriques si possible 9 10 CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ? – Pour des échantillons plus petits, on préfèrera des tests non-paramétriques à moins d’avoir vérifié au préalable que les distributions empiriques permettent d’utiliser un test paramétrique. 2.2 2.2.1 Tests d’adéquation Adéquation de l’espérance Hypothèses On considère un échantillon de données de taille n, de moyenne µ̂ et d’écart-type σ̂, et une moyenne à priori µ0 . On veut savoir s’il est crédible de penser que l’échantillon a été tiré dans une population de moyenne µ0 ou si la moyenne de l’échantillon est significativement différente de µ0 . Statistique H0 : µ = µ0 H1 : µ 6= µ0 Sous H0 , on connaı̂t la loi de la statistique de Student définie par t= µ̂ − µ0 √ σ̂/ n Il s’agit de la loi de Student à n − 1 degrés de liberté. Dans le cas où la variance σ0 sous H0 est connue, on peut remplacer la σ̂ par σ0 dans la statistique, qui suit alors une loi centrée réduite. Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral. Sous R t.test}en utilisant les paramètres x}pour l’échantillon et mu}pour la valeur de µ0 . Version non paramétrique 2.2.2 Test de Wilcoxon (wilcox.test}) Adéquation d’un échantillon à une loi Hypothèses Soit (x1 , . . . , xn ) un échantillon tiré suivant une loi L inconnue et L∗ une loi fixée par l’utilisateur. H0 : L = L∗ H1 : L 6= L∗ 2.3. TESTS DE COMPARAISONS D’ESPÉRANCE ET DE VARIANCE 11 Statistique A partir de l’échantillon, on construit un histogramme en fréquence de k classes Ci . On note Oi le nombre d’observations de X faites dans la classe Ci . Si L = L∗ , l’effectif théorique Ei de la classe Ci est donné par Ei = np∗i où p∗i est la probabilité pour que la v.a. X suivant la loi L∗ prenne une valeur sur le domaine définissant la classe Ci . L’écart entre la réalité issue de l’échantillon et la théorie issue de l’hypothèse H0 est mesurée par la statistique S= k X (np∗ − Oi )2 i i=1 np∗i k X Oi2 = −n np∗i i=1 Sous H0 , la loi de S tend vers une loi du chi-deux. Remarque: En pratique, il faut que les effectifs 0i soit supérieurs à 5 pour que l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, il faut fusionner des classes Ci (ce qui fera perdre de la puissance). Latéralité - Région de rejet La région de rejet est de la forme {RC > a}. Sous R chisq.test Version non paramétrique Test de Kolmogorov-Smirnov (ks.test}),qui peut aussi être utilisé pour tester l’adéquation de loi entre deux échantillons. 2.3 Tests de comparaisons d’espérance et de variance Dans la plupart des cas, on ne compare pas un échantillon à une loi particulière mais plutôt plusieurs échantillons entre eux afin de déterminer si leur moyennes/variances sont significativement différentes. 2.3.1 Comparaison de la variance de deux échantillons Ce test est appelé test de Fisher. Hypothèses On dispose de deux échantillons d’écart-types respectifs σ1 et σ2 . On se demande s’il est raisonnable de penser que les deux échantillons ont été tirés suivant des lois de même écart-type ou si ils sont significativement différents. Statistique H0 : σ1 = σ2 H1 : σ1 6= σ2 12 CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ? Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral. Sous R var.test Version non paramétrique 2.3.2 Comparaison de la moyenne de deux échantillons Ce test est sans doute le plus couramment utilisé est est nommé t-test ou test de Student. Hypothèses On dispose de deux échantillons de moyennes respectives µ1 et µ2 et d’écart-type respectifs σ1 et σ2 . On se demande s’il est raisonnable de penser que les deux échantillons ont été tirés suivant des lois de même espérance ou si leurs moyennes sont significativement différentes. H0 : µ1 = µ2 H1 : µ1 6= µ2 Statistique La valeur de la statistique peut prendre quatre expression différentes suivants les critères suivants : appariement les échantillons sont appariés si ils sont correspondent à différentes mesures prises sur les mêmes individus. égalité des variances les variances sont significativement différentes ou pas (cf test de Fisher). Toutes ces statistiques reposent en fait sur le même princip qui est de dépendre essentiellement de la différence µ1 − µ2 , normalisée par une quantité permettant d’obtenir une variable de loi de Student sous H0 . Par exemple, dans le cas d’échantillons non appariés, de variance non significativement différentes, et de taille respectives n et m, t= µ1 − µ2 q 1 σ n1 + m où s σ= (n − 1)σˆ1 2 + (m − 1)σˆ2 2 n+m−2 Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral. 2.3. TESTS DE COMPARAISONS D’ESPÉRANCE ET DE VARIANCE 13 Sous R t.test en utilisant les paramètres x et y pour les deux échantillons, alternative pour le latéralité, paired pour l’appariement ou non des échantillons et var.equal pour l’égalité des variances. Version non paramétrique sous R). 2.3.3 Test de Wilcoxon ou de Mann-Whitney (wilcox.test Comparaison de la moyenne de plus de deux échantillons Ce test est appelé analyse de la variance ou ANOVA. Hypothèses On dispose de plusieurs échantillons dont on se demande si ils ont été tirés selon des lois de même espérance. L’idée est de décomposer la variance totale de l’échantillon en variance totale = variance intra-échantillons + variance entre les échantillons Si la variance entre les échantillons est très faibles comparée à la variance à l’intérieur des échantillons, l’appartenance à un échantillon n’influe pas suffisamment pour être significative. Afin de mesurer la variance entre les échantillons, on crée un nouveau jeu de données de même taille que le jeu initial dans lequel on donne à chaque individu la valeur moyenne dans son échantillon. La variance à l’intérieur d’un même échantillon est alors nulle : on peut considérer que la variance du nouveau jeu de données est la variance entre échantillons. On définit alors le rapport de corrélation par : RC = variance de l’échantillon des moyennes variance de l’échantillon initial RC donne le pourcentage de la variabilité due à l’effet étudié par rapport à la variabilité totale. Les hypothèses deviennent alors Statistique statistique H0 : RC = 0 H1 : RC > 0 Soit n la taille de l’échantillon et g le nombre d’échantillons. La Z = RC n−g g−1 Sous H0 , Z suit une loi de Fisher de paramètres (g − 1, n − g). Latéralité - Région de rejet La région de rejet est de la forme {RC > a}. 14 CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ? Sous R aov avec pour argument une table à deux colonnes contenant dans la première colonne la concaténation de tous les échantillons et dans la seconde l’appartenance aux échantillons. Version non paramétrique Test de Kruskal-Wallis (échantillons non appariés) ou test de Friedman (échantillons appariés). 2.4 Couples de variables On considère deux variables X et Y dont on veut déterminer si elles sont indépendantes. 2.4.1 Indépendance Le test paramétrique pour tester l’indépendance de deux variables est le test du chi-deux. Hypothèses H0 : X et Y sont indépendantes H1 : X et Y ne sont pas indépendantes Statistique On dispose les comptages observés dans une table de contingence à deux dimensions (une ligne/colonne par valeur possible pour les variables discrètes, séparation en intervalles à choisir pour les variables continues)qu’on normalise pour obtenir une table A dont la somme des coefficients fait 1. On peut alors déterminer une table de contingence A0 correspondant à la situation d’indépendance avec les mêmes lois marginales. L’indépendance se traduit alors par le fait que A est proche de A0 . Plus précisément, S= X (Aij − A0ij )2 suit une loi du chi-deux à (n − 1)(m − 1) de grés de liberté. Latéralité - Région de rejet {S > a}. La région de rejet est toujours de da forme Sous R chisq.test avec pour argument x la table de contingence réalise le test du chi-deux. Version non paramétrique commande fisher.test. Le test de Fisher est disponible dans R avec la 2.4. COUPLES DE VARIABLES 15 Type de variables : Dans le cas où X et/ou Y est une variable quantitative, dresser une table de contingence oblige à séparer osn univers en intervalle et à réduire l’information à des comptages par intervalles. On perd ainsi de l’information. Il est possible pour éviter cela d’utiliser – l’ANOVA si X est quantitative, Y qualitative et que ce sont en fait les moyennes de X suivant la condition que l’on cherche à comparer ; – le test de corrélation (cf paragraphe suivant) si les deux variables sont quantitatives. 2.4.2 Corrélation entre variables quantitatives Hypothèses On dispose de deux échantillons appariés mesurant deux variables X et Y . On cherche à d{eterminer si X et Y sont significativement corrélés. Soit r le coefficient de corrélation correspondant. Statistique H0 : r=0 H1 : r 6= 0 Sous l’hypothèse H0 , S = (n − 2) √ r 1 − r2 suit une loi de Student à n − 1 degrés de liberté. Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral. Sous R cor.test Version non paramétrique grâce à cor.test. Test rho de Spearman, également disponible