L`essentiel sur les tests statistiques

Transcription

L`essentiel sur les tests statistiques
L’essentiel sur les tests statistiques
21 septembre 2014
2
Chapitre 1
Tests statistiques
Nous considérerons deux exemples au long de ce chapitre.
Abondance en C, G : On considère une séquence d’ADN et on se demande
si elle est significativement enrichie en cytosines et guanine par rapport à un
modèle simple où chaque nucléotide apparaı̂t à la même fréquence.
Influence d’un médicament : On considère deux séries de personnes soumises les unes à un médicament, les autres à un placebo. On mesure les tensions
artérielles dans les deux groupes est on cherche à déterminer si le médicament
a un effet, soit sur la valeur moyenne, soit sur la variance de la tension.
1.1
1.1.1
Définitions
Hypothèses nulle et alternative
Un test paramétrique est une procédure de décision entre deux hypothèses
concernant la valeur des paramètres d’un modèle probabiliste.
L’hypothèse nulle notée H0 est celle que l’on considère vraie à priori. Le but
du test est de décider si cet à priori est crédible.
L’hypothèse alternative notée H1 est l’hypothèse complémentaire de H0 .
Abondance en C,G : Le paramètre d’interêt est la proportion π de cytosines
et de guanines. La question posée s’écrit
H0 :
π ≤ 0.5
H1 :
π > 0.5
3
4
CHAPITRE 1. TESTS STATISTIQUES
Influence d’un médicament : Les paramètres d’interêts sont l’espérance µ1
et l’écart-type σ1 de la tension dans le groupe traité ainsi que l’espérance µ2 et
l’écart-type σ2 de la tension dans le groupe témoin. La question posée s’écrit
H0 :
µ1 = µ2
H1 :
µ1 6= µ2
Remarques:
– Les signes =, 6=, > et ≤ ne correspondent pas à l’égalité ou aux inégalités
au sens mathématique du terme. Il s’agit d’un façon succinte d’écrire :
H0 :
Il est crédible de penser que µ1 = µ2
H1 :
µ1 est significativement différent de µ2
– H0 et H1 ne jouent pas le même rôle. En fait, on fait tout le raisonnement
sous H0 et H1 n’est choisi que par défaut si H0 ne convient pas.
1.1.2
Statistique - Région de rejet - Latéralité
La statistique de test est une fonction qui résume l’information sur l’échantillon (ou la valeur) qu’on veut tester. On la choisit de façon à pouvoir calculer
sa loi sous H0 .
On peut alors définir une région de rejet dont dépendra la décision d’accepter
ou de rejeter H0 : on rejette H0 si la valeur observée de la statistique, calculée
à partir des données, appartient à la région de rejet.
Suivant le problème posé, il faut choisir la latéralité du test, qui définit la
forme de la région de rejet :
test multilatéral : On veut savoir si le paramètre étudié est trop grand ou trop
petit, sans à priori. La région de rejet est alors de la forme ] − ∞, a] ∪
[b, +∞[.
test unilatéral : On veut savoir si le paramètre est trop petit, ou si le paramètre
est trop grand, sans se soucier de l’autre côté. Le région de rejet est alors
de la forme ] − ∞, a] ou [a, +∞[.
Abondance en C, G : La statistique dans ce cas est
π − 0.5
S=p
√
0.5 ∗ (1 − 0.5/ n
où n désigne la longueur de la séquence. On sait d’après le TCL que, pour n
suffisamment grand, S suit sous H0 une loi normale centrée réduite. Le test est
unilatéral, H0 est rejeté uniquement si la statistique est supérieure à un certain
seuil S∗.
1.1. DÉFINITIONS
5
Influence d’un médicament : La statistique est dans ce cas plus complexe (cf chapitre suivant) mais dépend essentiellement de la différence entre
les moyennes ou entre les variances des deux échantillons. Le test est bilatéral,
c’est-à-dire que H0 est rejeté si cet écart est trop grand dans un sens ou dans
l’autre.
1.1.3
Probabilité critique
La probabilité critique (ou p-valeur) est la probabilité, sous H0 , que la statistique soit au moins aussi éloignée de son espérance que la valeur observée. En
d’autres termes, c’est la probabilité d’observer quelque chose d’au moins aussi
surprenant que ce que l’on observe.
Si le test est unilatéral à droite (région de rejet de la forme [a, +∞[), la
probabilité critique est P(S > Sobs ).
Si le test est unilatéral à gauche (région de rejet de la forme ] − ∞, a]), la
probabilité critique est P(S < Sobs ).
Si le test est bilatéral et que la loi de la statistique est symétrique par rapport
à 0 (région de rejet de la forme ] − ∞, −a] ∪ [a, +∞[), la probabilité critique est
P(|S| > |Sobs |).
Abondance en G, C : Supposons qu’une séquence de longueur 100 contient
62 nucléotides G ou C. La valeur observée de la statistique est alors Sobs =
.62−.5
.5/10 = 1.2. La probabilité critique de l’observation est alors la
PH0 (S > 1.2) = 0.008
Si H0 est la vérité, il y a donc une probabilité de 8 pour 1000 d’obtenir une tel
résultat par hasard.
1.1.4
Risque de première espèce ou confiance
On appelle risque de première espèce et on note α le seuil au-dessous duquel
un évènement sous H0 est jugé exceptionnel. La quantité 1 − α est la confiance
du test.
Ce seuil est celui auquel on va comparer la p-valeur :
– si la p-valeur est supérieure à α, il n’est pas exceptionnel sous H0 d’observer la valeur effectivement observée. Par conséquent, H0 n’est pas rejeté.
– si la p-valeur est inférieure à α, la valeur observée est jugée exceptionnelle
sous H0 . On décide alors de rejeter H0 et de valider H1 .
Remarques:
– Hormis dans des cas de tests multiples non abordés dans ce cours, α varie
généralement entre 0, 01 et 0, 05.
– Ce seuil est appelé risque car il représente la probabilité de rejeter H0
alors que H0 est la vérité.
6
CHAPITRE 1. TESTS STATISTIQUES
1.1.5
Risque de deuxième espèce ou puissance
On appelle risque de deuxième espèce et on note β la probabilité d’accepter
H0 alors que la vérité est H1 . La quantité 1 − β est la puissance du test.
Décision
H0
H1
Vérité
H0 H1
1-α
β
α
1-β
Exemple 1.1. Dans un test médical, les hypothèses sont :
H0 : le patient est malade
H1 : le patient n’est pas malade
Le risque de première espèce représente la probabilité de déclarer malades
des patients sains (ou faux positifs). En d’autres termes, la confiance est la
proportion de patients sains bien classés.
Le risque de deuxième espèce représente la probabilité de déclarer sains des
patients malades (ou faux négatifs). En d’autres termes, la puissance est la
proportion de malades bien detectés.
Remarque: Si l’échantillon reste inchangé, une diminution de α entraı̂ne
une augmentation de β et inversement. Autrement dit, si on décide de réduire
le nombre de faux positifs, on augmente forcément le nombre de faux négatifs. La seule manière d’améliorer les deux critères est d’augmenter la taille de
l’échantillon.
1.1.6
Principe du test
Les étapes d’un test sont toujours réalisées dans l’ordre suivant :
1) Choix du risque α
2) Choix du type de test et de sa latéralité si besoin
3) Calcul de la statistique de test
4) Calcul de la p-valeur
5) Conclusion
En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier
des partie 3) et 4). Par contre, les choix liées aux étapes 1) et 2) ainsi que
l’interprétation finale ne peuvent être faits par le logiciel.
Remarques:
– Le résultat d’un test comprend toujours une dose d’incertitude :
ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !
1.1. DÉFINITIONS
7
– La probabilité critique permet d’avoir une vision plus fine que sa simple
comparaison avec α. En effet, plus elle est petite, plus l’évènement observé
est surprenant sous H0 . Ainsi, pour α = 0.5, des probabilités critiques de
10−6 et de 0.35 impliquent le rejet de H0 mais avec des degrés de certitude
différent concernant la décision.
Cela est souvent résumé par le signe * pour une p-valeur inférieure à 0.1,
** pour une p-valeur inférieure à 0.01 et *** pour une p-valeur inférieure
à 0.001.
8
CHAPITRE 1. TESTS STATISTIQUES
Chapitre 2
Quel test pour quelle
question ?
2.1
Tests paramétriques vs non-paramétriques
Hypothèses non-paramétriques
Les tests non-paramétriques sont semblables aux tests paramétriques présentés au chapitre précédent. Cependant, l’énoncé des hypothèses et l’expression de
la statistique ne contiennent pas de référence à des paramètres. Elle sont plus
générales, par exemple dans les cas de deux séries de mesures avec ou sans prise
de médicament, les hypothèses seront :
H0 :
Les deux échantillons sont semblables
H1 :
Il y a une différence signifactive entre les deux échantillons
De même, la statistique sera une statistique dite de rang, c’est-à-dire qu’elle
ne va pas prendre en compte les valeurs des échantillons mais uniquement à quel
point les deux échantillons se retrouvent mélangés si on les réunit et ordonne le
tout. L’idée étant que sous H0 , les deux échantillons devraient être fortement
mélangés, et que si la plupart des valeurs de l’un sont inférieures à la plupart
des valeurs de la’autre, il y a une différence significative.
Paramétrique ou non-paramétrique
En général, les tests paramétriques ont une puissance (cf 1.1.5 supérieure
aux tests non-paramétriques. Cependant, leur théorie repose sur des théorèmes
asymptotiques tel le théorème centrale limite, et n’est donc valable que pour les
grands échantillons.
En pratique :
– Pour des échantillons de plus d’une trentaine de sujets, on applique des
test paramétriques si possible
9
10
CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ?
– Pour des échantillons plus petits, on préfèrera des tests non-paramétriques
à moins d’avoir vérifié au préalable que les distributions empiriques permettent d’utiliser un test paramétrique.
2.2
2.2.1
Tests d’adéquation
Adéquation de l’espérance
Hypothèses On considère un échantillon de données de taille n, de moyenne
µ̂ et d’écart-type σ̂, et une moyenne à priori µ0 . On veut savoir s’il est crédible
de penser que l’échantillon a été tiré dans une population de moyenne µ0 ou si
la moyenne de l’échantillon est significativement différente de µ0 .
Statistique
H0 :
µ = µ0
H1 :
µ 6= µ0
Sous H0 , on connaı̂t la loi de la statistique de Student définie par
t=
µ̂ − µ0
√
σ̂/ n
Il s’agit de la loi de Student à n − 1 degrés de liberté.
Dans le cas où la variance σ0 sous H0 est connue, on peut remplacer la σ̂
par σ0 dans la statistique, qui suit alors une loi centrée réduite.
Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral.
Sous R t.test}en utilisant les paramètres x}pour l’échantillon et mu}pour la
valeur de µ0 .
Version non paramétrique
2.2.2
Test de Wilcoxon (wilcox.test})
Adéquation d’un échantillon à une loi
Hypothèses Soit (x1 , . . . , xn ) un échantillon tiré suivant une loi L inconnue
et L∗ une loi fixée par l’utilisateur.
H0 :
L = L∗
H1 :
L 6= L∗
2.3. TESTS DE COMPARAISONS D’ESPÉRANCE ET DE VARIANCE 11
Statistique A partir de l’échantillon, on construit un histogramme en fréquence de k classes Ci . On note Oi le nombre d’observations de X faites dans
la classe Ci . Si L = L∗ , l’effectif théorique Ei de la classe Ci est donné par
Ei = np∗i où p∗i est la probabilité pour que la v.a. X suivant la loi L∗ prenne
une valeur sur le domaine définissant la classe Ci .
L’écart entre la réalité issue de l’échantillon et la théorie issue de l’hypothèse
H0 est mesurée par la statistique
S=
k
X
(np∗ − Oi )2
i
i=1
np∗i
k
X
Oi2
=
−n
np∗i
i=1
Sous H0 , la loi de S tend vers une loi du chi-deux.
Remarque: En pratique, il faut que les effectifs 0i soit supérieurs à 5 pour
que l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, il
faut fusionner des classes Ci (ce qui fera perdre de la puissance).
Latéralité - Région de rejet La région de rejet est de la forme {RC > a}.
Sous R chisq.test
Version non paramétrique Test de Kolmogorov-Smirnov (ks.test}),qui
peut aussi être utilisé pour tester l’adéquation de loi entre deux échantillons.
2.3
Tests de comparaisons d’espérance et de variance
Dans la plupart des cas, on ne compare pas un échantillon à une loi particulière mais plutôt plusieurs échantillons entre eux afin de déterminer si leur
moyennes/variances sont significativement différentes.
2.3.1
Comparaison de la variance de deux échantillons
Ce test est appelé test de Fisher.
Hypothèses On dispose de deux échantillons d’écart-types respectifs σ1 et
σ2 . On se demande s’il est raisonnable de penser que les deux échantillons ont
été tirés suivant des lois de même écart-type ou si ils sont significativement
différents.
Statistique
H0 :
σ1 = σ2
H1 :
σ1 6= σ2
12
CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ?
Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral.
Sous R var.test
Version non paramétrique
2.3.2
Comparaison de la moyenne de deux échantillons
Ce test est sans doute le plus couramment utilisé est est nommé t-test ou
test de Student.
Hypothèses On dispose de deux échantillons de moyennes respectives µ1 et
µ2 et d’écart-type respectifs σ1 et σ2 . On se demande s’il est raisonnable de
penser que les deux échantillons ont été tirés suivant des lois de même espérance
ou si leurs moyennes sont significativement différentes.
H0 :
µ1 = µ2
H1 :
µ1 6= µ2
Statistique La valeur de la statistique peut prendre quatre expression différentes suivants les critères suivants :
appariement les échantillons sont appariés si ils sont correspondent à différentes mesures prises sur les mêmes individus.
égalité des variances les variances sont significativement différentes ou pas
(cf test de Fisher).
Toutes ces statistiques reposent en fait sur le même princip qui est de dépendre essentiellement de la différence µ1 − µ2 , normalisée par une quantité
permettant d’obtenir une variable de loi de Student sous H0 .
Par exemple, dans le cas d’échantillons non appariés, de variance non significativement différentes, et de taille respectives n et m,
t=
µ1 − µ2
q
1
σ n1 + m
où
s
σ=
(n − 1)σˆ1 2 + (m − 1)σˆ2 2
n+m−2
Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral.
2.3. TESTS DE COMPARAISONS D’ESPÉRANCE ET DE VARIANCE 13
Sous R t.test en utilisant les paramètres x et y pour les deux échantillons,
alternative pour le latéralité, paired pour l’appariement ou non des échantillons et var.equal pour l’égalité des variances.
Version non paramétrique
sous R).
2.3.3
Test de Wilcoxon ou de Mann-Whitney (wilcox.test
Comparaison de la moyenne de plus de deux échantillons
Ce test est appelé analyse de la variance ou ANOVA.
Hypothèses On dispose de plusieurs échantillons dont on se demande si ils
ont été tirés selon des lois de même espérance.
L’idée est de décomposer la variance totale de l’échantillon en
variance totale = variance intra-échantillons + variance entre les échantillons
Si la variance entre les échantillons est très faibles comparée à la variance
à l’intérieur des échantillons, l’appartenance à un échantillon n’influe pas suffisamment pour être significative.
Afin de mesurer la variance entre les échantillons, on crée un nouveau jeu de
données de même taille que le jeu initial dans lequel on donne à chaque individu
la valeur moyenne dans son échantillon. La variance à l’intérieur d’un même
échantillon est alors nulle : on peut considérer que la variance du nouveau jeu
de données est la variance entre échantillons.
On définit alors le rapport de corrélation par :
RC =
variance de l’échantillon des moyennes
variance de l’échantillon initial
RC donne le pourcentage de la variabilité due à l’effet étudié par rapport à
la variabilité totale.
Les hypothèses deviennent alors
Statistique
statistique
H0 :
RC = 0
H1 :
RC > 0
Soit n la taille de l’échantillon et g le nombre d’échantillons. La
Z = RC
n−g
g−1
Sous H0 , Z suit une loi de Fisher de paramètres (g − 1, n − g).
Latéralité - Région de rejet La région de rejet est de la forme {RC > a}.
14
CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ?
Sous R aov avec pour argument une table à deux colonnes contenant dans
la première colonne la concaténation de tous les échantillons et dans la seconde
l’appartenance aux échantillons.
Version non paramétrique Test de Kruskal-Wallis (échantillons non appariés) ou test de Friedman (échantillons appariés).
2.4
Couples de variables
On considère deux variables X et Y dont on veut déterminer si elles sont
indépendantes.
2.4.1
Indépendance
Le test paramétrique pour tester l’indépendance de deux variables est le test
du chi-deux.
Hypothèses
H0 :
X et Y sont indépendantes
H1 :
X et Y ne sont pas indépendantes
Statistique On dispose les comptages observés dans une table de contingence
à deux dimensions (une ligne/colonne par valeur possible pour les variables
discrètes, séparation en intervalles à choisir pour les variables continues)qu’on
normalise pour obtenir une table A dont la somme des coefficients fait 1. On
peut alors déterminer une table de contingence A0 correspondant à la situation
d’indépendance avec les mêmes lois marginales. L’indépendance se traduit alors
par le fait que A est proche de A0 . Plus précisément,
S=
X
(Aij − A0ij )2
suit une loi du chi-deux à (n − 1)(m − 1) de grés de liberté.
Latéralité - Région de rejet
{S > a}.
La région de rejet est toujours de da forme
Sous R chisq.test avec pour argument x la table de contingence réalise le
test du chi-deux.
Version non paramétrique
commande fisher.test.
Le test de Fisher est disponible dans R avec la
2.4. COUPLES DE VARIABLES
15
Type de variables : Dans le cas où X et/ou Y est une variable quantitative, dresser une table de contingence oblige à séparer osn univers en intervalle
et à réduire l’information à des comptages par intervalles. On perd ainsi de
l’information. Il est possible pour éviter cela d’utiliser
– l’ANOVA si X est quantitative, Y qualitative et que ce sont en fait les
moyennes de X suivant la condition que l’on cherche à comparer ;
– le test de corrélation (cf paragraphe suivant) si les deux variables sont
quantitatives.
2.4.2
Corrélation entre variables quantitatives
Hypothèses On dispose de deux échantillons appariés mesurant deux variables X et Y . On cherche à d{eterminer si X et Y sont significativement
corrélés. Soit r le coefficient de corrélation correspondant.
Statistique
H0 :
r=0
H1 :
r 6= 0
Sous l’hypothèse H0 ,
S = (n − 2) √
r
1 − r2
suit une loi de Student à n − 1 degrés de liberté.
Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral.
Sous R cor.test
Version non paramétrique
grâce à cor.test.
Test rho de Spearman, également disponible

Documents pareils