L`essentiel sur les tests statistiques

Transcription

L’essentiel sur les tests statistiques
21 septembre 2014
2
Chapitre 1
Tests statistiques
Nous considérerons deux exemples au long de ce chapitre.
Abondance en C, G : On considère une séquence d’ADN et on se demande
si elle est significativement enrichie en cytosines et guanine par rapport à un
modèle simple où chaque nucléotide apparaı̂t à la même fréquence.
Influence d’un médicament : On considère deux séries de personnes soumises les unes à un médicament, les autres à un placebo. On mesure les tensions
artérielles dans les deux groupes est on cherche à déterminer si le médicament
a un effet, soit sur la valeur moyenne, soit sur la variance de la tension.
1.1
1.1.1
Définitions
Hypothèses nulle et alternative
Un test paramétrique est une procédure de décision entre deux hypothèses
concernant la valeur des paramètres d’un modèle probabiliste.
L’hypothèse nulle notée H0 est celle que l’on considère vraie à priori. Le but
du test est de décider si cet à priori est crédible.
L’hypothèse alternative notée H1 est l’hypothèse complémentaire de H0 .
Abondance en C,G : Le paramètre d’interêt est la proportion π de cytosines
et de guanines. La question posée s’écrit
H0 :
π ≤ 0.5
H1 :
π > 0.5
3
4
CHAPITRE 1. TESTS STATISTIQUES
Influence d’un médicament : Les paramètres d’interêts sont l’espérance µ1
et l’écart-type σ1 de la tension dans le groupe traité ainsi que l’espérance µ2 et
l’écart-type σ2 de la tension dans le groupe témoin. La question posée s’écrit
H0 :
µ1 = µ2
H1 :
µ1 6= µ2
Remarques:
– Les signes =, 6=, > et ≤ ne correspondent pas à l’égalité ou aux inégalités
au sens mathématique du terme. Il s’agit d’un façon succinte d’écrire :
H0 :
Il est crédible de penser que µ1 = µ2
H1 :
µ1 est significativement différent de µ2
– H0 et H1 ne jouent pas le même rôle. En fait, on fait tout le raisonnement
sous H0 et H1 n’est choisi que par défaut si H0 ne convient pas.
1.1.2
Statistique - Région de rejet - Latéralité
La statistique de test est une fonction qui résume l’information sur l’échantillon (ou la valeur) qu’on veut tester. On la choisit de façon à pouvoir calculer
sa loi sous H0 .
On peut alors définir une région de rejet dont dépendra la décision d’accepter
ou de rejeter H0 : on rejette H0 si la valeur observée de la statistique, calculée
à partir des données, appartient à la région de rejet.
Suivant le problème posé, il faut choisir la latéralité du test, qui définit la
forme de la région de rejet :
test multilatéral : On veut savoir si le paramètre étudié est trop grand ou trop
petit, sans à priori. La région de rejet est alors de la forme ] − ∞, a] ∪
[b, +∞[.
test unilatéral : On veut savoir si le paramètre est trop petit, ou si le paramètre
est trop grand, sans se soucier de l’autre côté. Le région de rejet est alors
de la forme ] − ∞, a] ou [a, +∞[.
Abondance en C, G : La statistique dans ce cas est
π − 0.5
S=p
√
0.5 ∗ (1 − 0.5/ n
où n désigne la longueur de la séquence. On sait d’après le TCL que, pour n
suffisamment grand, S suit sous H0 une loi normale centrée réduite. Le test est
unilatéral, H0 est rejeté uniquement si la statistique est supérieure à un certain
seuil S∗.
1.1. DÉFINITIONS
5
Influence d’un médicament : La statistique est dans ce cas plus complexe (cf chapitre suivant) mais dépend essentiellement de la différence entre
les moyennes ou entre les variances des deux échantillons. Le test est bilatéral,
c’est-à-dire que H0 est rejeté si cet écart est trop grand dans un sens ou dans
l’autre.
1.1.3
Probabilité critique
La probabilité critique (ou p-valeur) est la probabilité, sous H0 , que la statistique soit au moins aussi éloignée de son espérance que la valeur observée. En
d’autres termes, c’est la probabilité d’observer quelque chose d’au moins aussi
surprenant que ce que l’on observe.
Si le test est unilatéral à droite (région de rejet de la forme [a, +∞[), la
probabilité critique est P(S > Sobs ).
Si le test est unilatéral à gauche (région de rejet de la forme ] − ∞, a]), la
probabilité critique est P(S < Sobs ).
Si le test est bilatéral et que la loi de la statistique est symétrique par rapport
à 0 (région de rejet de la forme ] − ∞, −a] ∪ [a, +∞[), la probabilité critique est
P(|S| > |Sobs |).
Abondance en G, C : Supposons qu’une séquence de longueur 100 contient
62 nucléotides G ou C. La valeur observée de la statistique est alors Sobs =
.62−.5
.5/10 = 1.2. La probabilité critique de l’observation est alors la
PH0 (S > 1.2) = 0.008
Si H0 est la vérité, il y a donc une probabilité de 8 pour 1000 d’obtenir une tel
résultat par hasard.
1.1.4
Risque de première espèce ou confiance
On appelle risque de première espèce et on note α le seuil au-dessous duquel
un évènement sous H0 est jugé exceptionnel. La quantité 1 − α est la confiance
du test.
Ce seuil est celui auquel on va comparer la p-valeur :
– si la p-valeur est supérieure à α, il n’est pas exceptionnel sous H0 d’observer la valeur effectivement observée. Par conséquent, H0 n’est pas rejeté.
– si la p-valeur est inférieure à α, la valeur observée est jugée exceptionnelle
sous H0 . On décide alors de rejeter H0 et de valider H1 .
Remarques:
– Hormis dans des cas de tests multiples non abordés dans ce cours, α varie
généralement entre 0, 01 et 0, 05.
– Ce seuil est appelé risque car il représente la probabilité de rejeter H0
alors que H0 est la vérité.
6
1.1.5
Risque de deuxième espèce ou puissance
On appelle risque de deuxième espèce et on note β la probabilité d’accepter
H0 alors que la vérité est H1 . La quantité 1 − β est la puissance du test.
Décision
H0
H1
Vérité
H0 H1
1-α
β
α
1-β
Exemple 1.1. Dans un test médical, les hypothèses sont :
H0 : le patient est malade
H1 : le patient n’est pas malade
Le risque de première espèce représente la probabilité de déclarer malades
des patients sains (ou faux positifs). En d’autres termes, la confiance est la
proportion de patients sains bien classés.
Le risque de deuxième espèce représente la probabilité de déclarer sains des
patients malades (ou faux négatifs). En d’autres termes, la puissance est la
proportion de malades bien detectés.
Remarque: Si l’échantillon reste inchangé, une diminution de α entraı̂ne
une augmentation de β et inversement. Autrement dit, si on décide de réduire
le nombre de faux positifs, on augmente forcément le nombre de faux négatifs. La seule manière d’améliorer les deux critères est d’augmenter la taille de
l’échantillon.
1.1.6
Principe du test
Les étapes d’un test sont toujours réalisées dans l’ordre suivant :
1) Choix du risque α
2) Choix du type de test et de sa latéralité si besoin
3) Calcul de la statistique de test
4) Calcul de la p-valeur
5) Conclusion
En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier
des partie 3) et 4). Par contre, les choix liées aux étapes 1) et 2) ainsi que
l’interprétation finale ne peuvent être faits par le logiciel.
Remarques:
– Le résultat d’un test comprend toujours une dose d’incertitude :
ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !
1.1. DÉFINITIONS
7
– La probabilité critique permet d’avoir une vision plus fine que sa simple
comparaison avec α. En effet, plus elle est petite, plus l’évènement observé
est surprenant sous H0 . Ainsi, pour α = 0.5, des probabilités critiques de
10−6 et de 0.35 impliquent le rejet de H0 mais avec des degrés de certitude
différent concernant la décision.
Cela est souvent résumé par le signe * pour une p-valeur inférieure à 0.1,
** pour une p-valeur inférieure à 0.01 et *** pour une p-valeur inférieure
à 0.001.
8
Chapitre 2
Quel test pour quelle
question ?
2.1
Tests paramétriques vs non-paramétriques
Hypothèses non-paramétriques
Les tests non-paramétriques sont semblables aux tests paramétriques présentés au chapitre précédent. Cependant, l’énoncé des hypothèses et l’expression de
la statistique ne contiennent pas de référence à des paramètres. Elle sont plus
générales, par exemple dans les cas de deux séries de mesures avec ou sans prise
de médicament, les hypothèses seront :
H0 :
Les deux échantillons sont semblables
H1 :
Il y a une différence signifactive entre les deux échantillons
De même, la statistique sera une statistique dite de rang, c’est-à-dire qu’elle
ne va pas prendre en compte les valeurs des échantillons mais uniquement à quel
point les deux échantillons se retrouvent mélangés si on les réunit et ordonne le
tout. L’idée étant que sous H0 , les deux échantillons devraient être fortement
mélangés, et que si la plupart des valeurs de l’un sont inférieures à la plupart
des valeurs de la’autre, il y a une différence significative.
Paramétrique ou non-paramétrique
En général, les tests paramétriques ont une puissance (cf 1.1.5 supérieure
aux tests non-paramétriques. Cependant, leur théorie repose sur des théorèmes
asymptotiques tel le théorème centrale limite, et n’est donc valable que pour les
grands échantillons.
En pratique :
– Pour des échantillons de plus d’une trentaine de sujets, on applique des
test paramétriques si possible
9
10
CHAPITRE 2. QUEL TEST POUR QUELLE QUESTION ?
– Pour des échantillons plus petits, on préfèrera des tests non-paramétriques
à moins d’avoir vérifié au préalable que les distributions empiriques permettent d’utiliser un test paramétrique.
2.2
2.2.1
Tests d’adéquation
Adéquation de l’espérance
Hypothèses On considère un échantillon de données de taille n, de moyenne
µ̂ et d’écart-type σ̂, et une moyenne à priori µ0 . On veut savoir s’il est crédible
de penser que l’échantillon a été tiré dans une population de moyenne µ0 ou si
la moyenne de l’échantillon est significativement différente de µ0 .
Statistique
H0 :
µ = µ0
H1 :
µ 6= µ0
Sous H0 , on connaı̂t la loi de la statistique de Student définie par
t=
µ̂ − µ0
√
σ̂/ n
Il s’agit de la loi de Student à n − 1 degrés de liberté.
Dans le cas où la variance σ0 sous H0 est connue, on peut remplacer la σ̂
par σ0 dans la statistique, qui suit alors une loi centrée réduite.
Latéralité - Région de rejet Les trois options énoncées au chapitre précédent sont possibles : rejet unilatéral à droite, à gauche ou bilatéral.
Sous R t.test}en utilisant les paramètres x}pour l’échantillon et mu}pour la
valeur de µ0 .
Version non paramétrique
2.2.2
Test de Wilcoxon (wilcox.test})
Adéquation d’un échantillon à une loi
Hypothèses Soit (x1 , . . . , xn ) un échantillon tiré suivant une loi L inconnue
et L∗ une loi fixée par l’utilisateur.
H0 :
L = L∗
H1 :
L 6= L∗
2.3. TESTS DE COMPARAISONS D’ESPÉRANCE ET DE VARIANCE 11
Statistique A partir de l’échantillon, on construit un histogramme en fréquence de k classes Ci . On note Oi le nombre d’observations de X faites dans
la classe Ci . Si L = L∗ , l’effectif théorique Ei de la classe Ci est donné par
Ei = np∗i où p∗i est la probabilité pour que la v.a. X suivant la loi L∗ prenne
une valeur sur le domaine définissant la classe Ci .
L’écart entre la réalité issue de l’échantillon et la théorie issue de l’hypothèse
H0 est mesurée par la statistique
S=
k
X
(np∗ − Oi )2
i
i=1
np∗i
k
X
Oi2
=
−n
np∗i
i=1
Sous H0 , la loi de S tend vers une loi du chi-deux.
Remarque: En pratique, il faut que les effectifs 0i soit supérieurs à 5 pour
que l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, il
faut fusionner des classes Ci (ce qui fera perdre de la puissance).
Latéralité - Région de rejet La région de rejet est de la forme {RC > a}.
Sous R chisq.test
Version non paramétrique Test de Kolmogorov-Smirnov (ks.test}),qui
peut aussi être utilisé pour tester l’adéquation de loi entre deux échantillons.
2.3
Tests de comparaisons d’espérance et de variance
Dans la plupart des cas, on ne compare pas un échantillon à une loi particulière mais plutôt plusieurs échantillons entre eux afin de déterminer si leur
moyennes/variances sont significativement différentes.
2.3.1
Comparaison de la variance de deux échantillons
Ce test est appelé test de Fisher.
Hypothèses On dispose de deux échantillons d’écart-types respectifs σ1 et
σ2 . On se demande s’il est raisonnable de penser que les deux échantillons ont
été tirés suivant des lois de même écart-type ou si ils sont significativement
différents.
Statistique
H0 :
σ1 = σ2
H1 :
σ1 6= σ2
12
Sous R var.test
2.3.2
Comparaison de la moyenne de deux échantillons
Ce test est sans doute le plus couramment utilisé est est nommé t-test ou
test de Student.
Hypothèses On dispose de deux échantillons de moyennes respectives µ1 et
µ2 et d’écart-type respectifs σ1 et σ2 . On se demande s’il est raisonnable de
penser que les deux échantillons ont été tirés suivant des lois de même espérance
ou si leurs moyennes sont significativement différentes.
H0 :
µ1 = µ2
H1 :
µ1 6= µ2
Statistique La valeur de la statistique peut prendre quatre expression différentes suivants les critères suivants :
appariement les échantillons sont appariés si ils sont correspondent à différentes mesures prises sur les mêmes individus.
égalité des variances les variances sont significativement différentes ou pas
(cf test de Fisher).
Toutes ces statistiques reposent en fait sur le même princip qui est de dépendre essentiellement de la différence µ1 − µ2 , normalisée par une quantité
permettant d’obtenir une variable de loi de Student sous H0 .
Par exemple, dans le cas d’échantillons non appariés, de variance non significativement différentes, et de taille respectives n et m,
t=
µ1 − µ2
q
1
σ n1 + m
où
s
σ=
(n − 1)σˆ1 2 + (m − 1)σˆ2 2
n+m−2
2.3. TESTS DE COMPARAISONS D’ESPÉRANCE ET DE VARIANCE 13
Sous R t.test en utilisant les paramètres x et y pour les deux échantillons,
alternative pour le latéralité, paired pour l’appariement ou non des échantillons et var.equal pour l’égalité des variances.
sous R).
2.3.3
Test de Wilcoxon ou de Mann-Whitney (wilcox.test
Comparaison de la moyenne de plus de deux échantillons
Ce test est appelé analyse de la variance ou ANOVA.
Hypothèses On dispose de plusieurs échantillons dont on se demande si ils
ont été tirés selon des lois de même espérance.
L’idée est de décomposer la variance totale de l’échantillon en
variance totale = variance intra-échantillons + variance entre les échantillons
Si la variance entre les échantillons est très faibles comparée à la variance
à l’intérieur des échantillons, l’appartenance à un échantillon n’influe pas suffisamment pour être significative.
Afin de mesurer la variance entre les échantillons, on crée un nouveau jeu de
données de même taille que le jeu initial dans lequel on donne à chaque individu
la valeur moyenne dans son échantillon. La variance à l’intérieur d’un même
échantillon est alors nulle : on peut considérer que la variance du nouveau jeu
de données est la variance entre échantillons.
On définit alors le rapport de corrélation par :
RC =
variance de l’échantillon des moyennes
variance de l’échantillon initial
RC donne le pourcentage de la variabilité due à l’effet étudié par rapport à
la variabilité totale.
Les hypothèses deviennent alors
Statistique
statistique
H0 :
RC = 0
H1 :
RC > 0
Soit n la taille de l’échantillon et g le nombre d’échantillons. La
Z = RC
n−g
g−1
Sous H0 , Z suit une loi de Fisher de paramètres (g − 1, n − g).
Latéralité - Région de rejet La région de rejet est de la forme {RC > a}.
14
Sous R aov avec pour argument une table à deux colonnes contenant dans
la première colonne la concaténation de tous les échantillons et dans la seconde
l’appartenance aux échantillons.
Version non paramétrique Test de Kruskal-Wallis (échantillons non appariés) ou test de Friedman (échantillons appariés).
2.4
Couples de variables
On considère deux variables X et Y dont on veut déterminer si elles sont
indépendantes.
2.4.1
Indépendance
Le test paramétrique pour tester l’indépendance de deux variables est le test
du chi-deux.
Hypothèses
H0 :
X et Y sont indépendantes
H1 :
X et Y ne sont pas indépendantes
Statistique On dispose les comptages observés dans une table de contingence
à deux dimensions (une ligne/colonne par valeur possible pour les variables
discrètes, séparation en intervalles à choisir pour les variables continues)qu’on
normalise pour obtenir une table A dont la somme des coefficients fait 1. On
peut alors déterminer une table de contingence A0 correspondant à la situation
d’indépendance avec les mêmes lois marginales. L’indépendance se traduit alors
par le fait que A est proche de A0 . Plus précisément,
S=
X
(Aij − A0ij )2
suit une loi du chi-deux à (n − 1)(m − 1) de grés de liberté.
Latéralité - Région de rejet
{S > a}.
La région de rejet est toujours de da forme
Sous R chisq.test avec pour argument x la table de contingence réalise le
test du chi-deux.
commande fisher.test.
Le test de Fisher est disponible dans R avec la
2.4. COUPLES DE VARIABLES
15
Type de variables : Dans le cas où X et/ou Y est une variable quantitative, dresser une table de contingence oblige à séparer osn univers en intervalle
et à réduire l’information à des comptages par intervalles. On perd ainsi de
l’information. Il est possible pour éviter cela d’utiliser
– l’ANOVA si X est quantitative, Y qualitative et que ce sont en fait les
moyennes de X suivant la condition que l’on cherche à comparer ;
– le test de corrélation (cf paragraphe suivant) si les deux variables sont
quantitatives.
2.4.2
Corrélation entre variables quantitatives
Hypothèses On dispose de deux échantillons appariés mesurant deux variables X et Y . On cherche à d{eterminer si X et Y sont significativement
corrélés. Soit r le coefficient de corrélation correspondant.
Statistique
H0 :
r=0
H1 :
r 6= 0
Sous l’hypothèse H0 ,
S = (n − 2) √
r
1 − r2
suit une loi de Student à n − 1 degrés de liberté.
Sous R cor.test
grâce à cor.test.
Test rho de Spearman, également disponible

L`essentiel sur les tests statistiques

Transcription

Documents pareils

Enoncé

4 points - Ceremade

4M018. Statistique Appliquée (12 ECTS) (1er semestre) Professeurs

TD5 Tests de comparaison d`échantillons

Introduction aux effets audio

TP sur les test de Kolmogorov.

Intervalles de confiance

Exercice 1 Exercice 2 Exercice 3

∑ ∑

1 Test d`homogénéité