Biostatistiques : Petits effectifs

Transcription

Biostatistiques :
Petits effectifs
Master Recherche Biologie et Santé
P. Devos – DRCI CHRU de Lille – EA2694
[email protected]
20/09/2012
Plan
Données Générales :
Définition des statistiques
Principe de l’échantillonnage
Principe du test statistique – Tailles d’échantillons
Analyse descriptive / Test de Normalité.
Petits échantillons :
Petits / Grands échantillons.
Comparaison de deux ou plusieurs échantillons.
Tests non-paramétriques
Mesure de l'association entre plusieurs variables.
20/09/2012
La Statistique et les Biostatistiques
La STATISTIQUE : discipline traitant du recueil (plans d’expérience,
sondages, …), du traitement et de l’interprétation de données
caractérisées par une grande variabilité.
Partie des mathématiques appliquées, utilisant la théorie des probabilités.
Beaucoup de domaines d’applications
Sondages : enquêtes d’opinion
Industrie : contrôle de qualité
Marketing : scoring, profil de consommateurs
Médecine : épidémiologie, recherche clinique
……..
Statistiques appliquées à la Médecine = BIOSTATISTIQUES
Données spécifiques : variabilité inter et intra, données interprétées, …
Méthodes spécifiques : survie, courbes ROC, plans d’expérience…
20/09/2012
Méthodologie statistique
Employer bien sûr la "bonne" procédure statistique pendant l’analyse !!!
MAIS cela ne suffit pas …
Choisir le bon type d’étude
Choisir le bon plan d’expérience
Choisir les bons critères de jugement
Définir les variables recueillies
Qualité des données recueillies
Avant l ’étude !!!
Analyse statistique rigoureuse (tests, modèles, …)
Bonne interprétation des résultats
Fin d’étude
20/09/2012
L’Échantillonnage
20/09/2012
L’inférence statistique
On désire étudier une population P
Principe :
On tire un échantillon E de taille n issu de P
On analyse les caractéristiques de E
On généralise à P
Attention !!
E doit être un échantillon représentatif de P (même probabilité pour chaque individu
de se retrouver dans E)
E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats
Définir très précisément la population que l’on désire étudier !!
20/09/2012
Les fluctuations d’échantillonnage
Quand on tire aléatoirement un échantillon, on a des fluctuations.
Exemple : on s’intéresse aux 10 premiers étudiants entrant dans l’amphi. On
comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants
qui assisteront au cours sont des femmes ? NON !!!
On considère que dans la population
totale, les proportions d’hommes et de
femmes sont les mêmes P(H)=P(F)=1/2
0.3
0.25
P(X=k)
0.2
0.15
Soit X le nombre de femmes parmi les
10 étudiants. On peut montrer que X
suit une loi binomiale de taille 10 et de
paramètre 0.5 et calculer la probabilité
d’observer 0,1,2,…,10 femmes.
0.1
0.05
0
0
1
2
3
4
5
6
7
8
9
10
20/09/2012
Les prendre en compte
Comment prendre en compte les fluctuations d’échantillonnage ?
1) En vérifiant que l’échantillon est représentatif (tests d’adéquation par exemple)
2) En donnant la marge d’erreur que l’on commet en raisonnant sur un échantillon
(Intervalles de confiance)
3) En maîtrisant les risques d’erreurs (puissance dans le cas de comparaisons)
20/09/2012
Principe du test statistique
20/09/2012
Le test statistique
Un travail de recherche est bâti pour répondre à une question
Le test statistique est basé sur 3 principes généraux :
Le test statistique sert à répondre à une question
Le test statistique est un test d’hypothèse : à la question on associe une
hypothèse (H0)
Le test statistique ne peut conclure de manière certaine : preuve
expérimentale donc il faut prendre un risque (première espèce)
Conclusion fondée sur un test statistique
20/09/2012
Question : une pièce de monnaie est-elle pipée?
Étape 1 : on cherche à prouver qu’elle est pipée
Étape 2 : confrontation expérimentale : on jette 50 fois la pièce.
Étape 3 : test d’hypothèse
Si pièce non pipée : P(Face)=P(Pile)=1/2
Choix de l’hypothèse à tester notée H0 : :« la pièce de monnaie n’est pas pipée »
Soit X : nombre de « Pile » (ou Face)
Si H0 est vraie, la loi de X est connue (binomiale)
P(X=k)= CkN p k (1 − p ) N-k
20/09/2012
Principe du test statistique : Notion de risque
Si H0 vraie, toutes les configurations sont possibles, y compris
P(0P)=(0,5)50 8.8 10-16 !!
0.12
0.1
0.06
0.04
0.02
50
48
46
44
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
0
P (X=k)
0.08
k
20/09/2012
Principe du test statistique : Notion de risque
Il faut décider : on choisit un risque raisonnable = 5%
On partage l’ensemble des possibilités en 2 zones, selon le risque 5% :
18P
25P
32P
0P
50P
Compatible H0 = 95%
Très improbable sous H0 = 5% de
chance =REJET DE H0
Limites de la zone compatible avec H0 se déterminent grâce au calcul des
probabilités. Ici 18 - 32
20/09/2012
Principe du test statistique : Règle de décision
Zone compatible avec H0 = probabilité de 95% de se produire si H0 vraie
Zone de rejet de H0 =
probabilité de 5% de se produire si H0 est vraie !!! (risque)
Règle de décision : on fixe a priori la règle suivante :
- Si le résultat de l’expérience se trouve dans la zone compatible avec H0
(exemple 22P), on ne décide rien (« non significatif »)
- Si il se situe dans le zone « rejet de H0» on déclare H0 FAUSSE, donc on
déclare H1 vraie, mais au risque 5%.
- Exemple : 15P, on décide que la pièce est truquée
Risque de première espèce = Probabilité de rejeter H0 à tort = 5%
20/09/2012
Notion de Puissance d’un test
Vérité
H0
H1
Décision
β
Compatible H0
Rejet de H0 =
on décide H1
α
1-β
α = Proba (décider H1 / H0 est vraie) = risque de première espèce
β = Proba ( décider « compatible avec H0 » / H1 est vraie) = risque de deuxième espèce
Puissance = 1-β = Proba ( décider H1 / H1 est vraie)
α = Risque d'affirmer qu'il y a une différence significative alors qu'elle n'existe pas réellement.
β = Risque d'affirmer qu'il n'y a pas de différence significative alors qu'elle existe réellement.
Puissance = Probabilité de détecter une différence si elle existe réellement
20/09/2012
Notion de puissance d’un test
Puissance dépend de la différence
mais aussi de la variabilité
Puissance dépend du risque de
première espèce α , mais inutile en
pratique car α fixé à 5%
Puissance = F(∆,N,DS)
En pratique, on estime ∆ et DS
et on déduit N
∆
20/09/2012
En pratique…
Dépend du plan d’expérience :
Nombre de groupes
Indépendant / Apparié (patient propre témoin)
Dépend du critère de jugement principal
Numérique
Binaire
Survie
…
Des 2 risques :
α : risque de première espèce : généralement 5%
β : risque de seconde espèce : inférieur à 20%
20/09/2012
Application : Taille des échantillons
Comparaison de 2 moyennes (groupes indépendants)
n = 2( z 1−α + z 1− β )
2
σ²
∆²
=K
Test bilatéral
σ²
∆²
Test unilatéral
Alpha
Beta
Zalpha
Zbéta
K
Alpha
Beta
Zalpha
Zbéta
K
0.05
0.05
1.96
1.64
25.99
0.05
0.05
1.64
1.64
21.64
0.05
0.1
1.96
1.28
21.01
0.05
0.1
1.64
1.28
17.13
0.05
0.2
1.96
0.84
15.70
0.05
0.2
1.64
0.84
12.37
(Formules approchées)
20/09/2012
Exemple
Différence attendue (∆) : 5mm de mercure
Ecart-type (DS): 10 mm
Risque de première espèce (α ): 5%
Puissance (1-β ): 90%
2
 10 
N = 21.01*   = 84
 5
( par groupe )
1
0.8
Puissance
0.6
0.4
0.2
0
0
50
100
150
200
Nombre de Patients par Groupe
20/09/2012
Application : Taille des échantillons
Comparaison de 2 fréquences (groupes indépendants)
PA (1 − PA ) + PB (1 − PB )
PA (1 − PA ) + PB (1 − PB )
2
n=
( z 1−α + z 1− β ) = K
( PA − PB )²
( PA − PB )²
Test bilatéral
Test unilatéral
Alpha
Beta
Z1
Z2
K
Alpha
Beta
Z1
Z2
K
0.05
0.05
1.96
1.64
12.99
0.05
0.05
1.64
1.64
10.82
0.05
0.1
1.96
1.28
10.51
0.05
0.1
1.64
1.28
8.56
0.05
0.2
1.96
0.84
7.85
0.05
0.2
1.64
0.84
6.18
(Formules approchées)
20/09/2012
Exemple
PA = 0.1, PB = 0.2
Puissance (1-β ): 90%
N = 10.51* 25 = 263
( par groupe )
1
0.9
0.8
Puissance
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
50
100
150
200
250
300
350
400
450
500
Effectif par Groupe
20/09/2012
Puissance d’un test et Taille d’échantillon
Comparaison de deux antihypertenseurs avec :
∆ : 5mm de mercure
Ecart-type (DS): 10 mm
1- β = 0.9 N1=N2=86
L’étude a été réalisée sans calcul de puissance préalable sur 2 groupes de 30
sujets.
Puissance = 1-β
β = 0.48 !!!
Ne pas confondre :
Conditions d’application du test et Puissance du test
20/09/2012
Traitement statistique
des données
20/09/2012
Méthodes Statistiques : définitions générales
INDIVIDU : « Objet » sur lequel un ou plusieurs caractères peuvent être observés.
POPULATION : Ensemble des individus pris en considération.
VARIABLE : peut être qualitative (attribut) ou quantitative (numérique).
DISCRETES (Nombre limité de valeurs)
QUANTITATIVES
CONTINUES (prend ses valeurs dans un intervalle
VARIABLES
BINAIRES ( Présent / Absent )
QUALITATIVES
NOMINALES (SEXE, Couleur des Yeux, CSP, …)
ORDINALES = SCORE (Notion d’ordre)
20/09/2012
Les méthodes statistiques
Univariée (moyenne, DS, …)
Descriptive
Multivariée (ACP, …)
La statistique
Univariée (tests, …)
Inférentielle
Multivariée (modèles, …)
20/09/2012
La Statistique Descriptive
BUTS :
Contrôle de qualité des données, descriptifs simples (moyennes, …).
Synthétiser, résumer, structurer l'information contenue dans les données.
Mettre en évidence des propriétés de l'échantillon.
Suggérer des hypothèses.
Analyses univariées : moyennes, histogramme, box-plot, fréquences, …
Analyses multivariées =Analyse des Données. Permet de traiter des
données multidimensionnelles.
Principales méthodes multivariées:
Méthodes de classification : déterminer des sous-groupes homogènes
Méthodes factorielles : réduire le nombre de variables par construction d'axes
synthétiques (ACP, AFC, ACM, ...), mais aussi sous-groupes d’individus
2 classes de méthodes souvent complémentaires
Cours N° 2
20/09/2012
La Statistique Inférentielle Univariée
BUT : Valider ou infirmer des hypothèses a priori ou formulées après
une phase exploratoire.
Utilisation de tests statistiques se référant à des modèles probabilistes.
EXEMPLES :
Comparaison de moyennes (test T, Wilcoxon, …)
ANOVA (+ + + !!!) / Modèle mixte
Comparaison de fréquences (Khi², Fisher exact)
Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)
...
20/09/2012
STATISTIQUE DESCRIPTIVE
UNIVARIEE
20/09/2012
Analyse descriptive univariée
3 Objectifs :
Contrôle des données : Fréquences et Box-plots
Calcul des statistiques descriptives : moyenne, ….
Présentation des résultats :
Moyenne et Déviation standard ou Médiane et Quartiles
Fréquence avec Intervalle de confiance
20/09/2012
Paramètres statistiques de base
Moyenne :
x
1 n
= ∑ xi
n i =1
2
1 n
xi − x )
Variance estimée: s ² =
(
∑
n − 1 i =1
Déviation standard : racine carrée de la variance
Min, Max, Médiane, Quartiles, Centiles
20/09/2012
Le Box-Plot ( Boîte à Moustaches )
X max
0
1,5 (Q3-Q1)
Q3
+
Médiane
II=Q3-Q1
0 : valeur comprise entre
1.5 et 3 interquartiles
* : valeur supérieure à 3 interquartiles
Q1
1,5 (Q3-Q1)
X min
20/09/2012
Représentations graphiques
VARIABLES DISCRETES
Femme
45%
Homme
55%
VARIABLES CONTINUES
Homme
Femme
VARIABLES QUALITATIVES
20/09/2012
Distribution d’un paramètre (loi)
Différentes formes observables
D
e
n
s
i
t
y
0. 04
0. 02
0
- 2 2 6 10 14 18 22 26 30 34 38
X
Modélisation de la distribution : Hypothèse de loi
20/09/2012
Tests de Normalité
Hypothèses de normalité requise pour
• test T, ANOVA
• régression,
• Intervalles de confiance (valeurs normales)
-4
-3
-2
-1
0
1
2
3
4
•…
SHAPIRO-WILK ( N< 50 )
KOLMOGOROV-SMIRNOV ( N> 50 )
20/09/2012
Présentation des résultats
Toujours rappeler la population étudiée, les patients inclus ou exclus, …
Préciser les méthodes statistiques utilisées
Faire des tableaux de synthèse
Utiliser des graphiques
Existence de recommandations ( http://www.consort-statement.org/ )
Suivre scrupuleusement les guidelines si article scientifique !!!
20/09/2012
Présentation des résultats
Utilisation de la moyenne si distribution symétrique, de la médiane si distribution
asymétrique
0.5
0.45
0.4
0.35
0.3
0.25
médiane
0.2
0.15
moyenne
0.1
0.05
-4
-3
-2
-1
0
1
2
3
4
0
0
Pas de moyenne sans déviation standard
Pas de médiane sans quartiles
Pas de fréquence sans Intervalle de confiance
2
4
6
8
10
12
20/09/2012
Intervalles de confiance à 95%
d’un paramètre numérique :
si X suit une loi normale
d’une moyenne :
quelque soit la loi de X, si n > 30
d’une fréquence
si np , nq > 10
x ± 1 . 96 DS
1 . 96 DS
x ±
n
p ± 1.96
p(1 - p)
n
20/09/2012
Normalité d’un paramètre
20/09/2012
La droite de Henry
Normalité : très important car condition de nombreux tests
Méthode graphique qui permet de vérifier la normalité d’une distribution
Exemple :
Soit X, une variable aléatoire N(m,σ²)
φ : ]-∞,+∞[ → [0,1]
x
→ φ (x) = P(X<x)
p
-3
-2
-1
0
1
2
3
z
On définit la fonction réciproque :
φ-1:
[0,1] → ]-∞,+∞[
p → φ-1(p)
p
z
0.01
0.025
0.05
0.5
0.95
0.975
0.99
-2.326
-1.96
-1.64
0
1.64
1.96
2.326
20/09/2012
En pratique
Ri 
Soit (X1, ... , Xn) un échantillon issu de X, R1, ..., Rn les rangs associés, Yi = φ −1 

n
+
1


Si X suit une loi normale, alors les points (Xi,Yi) sont alignés
Cas particulier des diagrammes P-P
2
2
R = 0.9775
1.5
1
0.5
0
15
17
19
21
23
25
27
29
31
33
-0.5
-1
-1.5
-2
Droite de pente 1/σ coupant l’axe des abscisses en m.
20/09/2012
Le test de Shapiro-Wilk
Test implémenté dans de nombreux logiciels et utilisé pour des petits échantillons
Basé sur le calcul des
différences symétriques :
d1 = Xn - X1
d2 = Xn-1 - X2
.........
dk = Xn-k+1 - Xk
k
Puis on calcule :
b = ∑ ai di
i =1
On obtient k=n/2 ou k=(n-1)/2
différences selon la parité de n
n
, S ² = ∑ ( xi − x )2
puis
i =1
W=
b²
S²
Les ai sont des coefficients dépendants de i et n
Utilisation d’une table qui permet de conclure.
20/09/2012
Exemple
Xi
16.3
16.8
19.6
19.8
20.6
21.0
22.4
23.0
23.4
23.9
24.4
25.0
27.0
27.4
31.0
di
ai
ai*di
31.0-16.3=14.7
0.5150
7.5705
27.4-16.8=10.6
0.3306
3.50436
27.0-19.6=7.4
0.2495
1.8463
25.0-19.8=5.2
0.1878
0.97656
k
b = ∑ ai di = 14.71
i =1
n
24.4-20.6=3.8
0.1353
0.51414
23.9-21.0=2.9
0.0880
0.2552
23.4-22.4=1
0.0433
0.0433
S ² = ∑ ( xi − x ) = 220.77
W = 0.9803
2
i =1
23
H0 : le paramètre suit une loi normale
α = 0.05
Lecture de la table :
W > C(α,n)
n = 15
C(α,n) = 0.881
On ne rejette pas H0
20/09/2012
Comparaisons de groupes
20/09/2012
Comparaisons de groupes
Dépend du type de variable :
Qualitatitives : Khi² ou Fisher Exact
Quantitatives
Comparaison Quantitatives – 2 approches:
Tests paramétriques : Student par exemple
• Paramétrique = on fait une hypothèse sur la loi du paramètre
• on compare des moyennes : interprétation facile
• Hypothèse forte : normalité !!!
Tests non paramétriques :
• Basé sur des rangs
• On compare des distributions : interprétation délicate
• Mais pas d’hypothèse de loi mais conditions d’application
20/09/2012
Comparaisons de fréquence : le test du Khi²
EXEMPLE : On veut savoir s’il existe une relation de cause à effet
entre un pneumococque et le décès.
On dispose d’un échantillon
se résumant ainsi :
V (vivant)
D (décés)
Pneumocoque G1
33
15
48
Autre G2
314
55
369
347
70
N=417
La mortalité est-elle plus élevée chez les pneumocoques ?
Soit H0 : Les 2 caractères sont indépendants
Calcul des effectifs théoriques Tij=( Li * Cj) / N (tous supérieurs à 5)
1 degré de liberté
Calcul de D² = 8,11 ⇒ on rejette l’indépendance
20/09/2012
χ² d ’Indépendance : généralisation
On souhaite savoir si deux paramètres A et B sont indépendants
B1
B2
........
Bi
........
Bp
On construit le
tableau de
contingence
croisant A et B
A2
........
........
........
........
........
........
C2
Sous l’hypothèse d’indépendance, Tij =
Calcul de :D ² =
p
k
∑∑
i =1
A1
O11
O21
........
........
........
Op1
C1
j =1
(Tij − Oij ) ²
........
........
........
........
........
........
........
........
Aj
........
........
........
Oij
........
........
Cj
........
........
........
........
........
........
........
........
Ak
O1k
O2k
........
........
........
Opk
Ck
L1
L2
........
Li
........
Lp
N
Cj * Li
N
Tij
Attention à Tij < 5
Degrés de liberté : ν = (k-1) * (p-1)
Utilisation de la table pour déterminer une valeur limite z
Conclusion du test : si D² > z alors rejet de H0, donc il existe une liaison entre
les caractères A et B
20/09/2012
Cas particuliers : Fisher exact
Test pouvant remplacer le χ² dans le cas d’effectifs théoriques inférieurs à 5.
Basé sur la combinatoire
Valide quelque soient les effectifs théoriques
Valide quelque soit le nombre de lignes et de colonnes
Attention, temps de calcul prohibitif si le nombre de cases du tableau est
élevé
20/09/2012
Cas particuliers : Khi² apparié
3 Modalités
2 Modalités
a
b
c
d
b − c) ²
(
χ² =
si b+c ≥ 10
b+c
Approximation par la loi normale
χ² à 1 ddl
χ² =
( b − c − 1) ² si b+c <10
b+c
Test exact
Test de Mac Nemar
a
b
c
L1
d
e
f
L2
g
h
i
L3
C1
C2
C3
2
2
2
 f +h
c+g 
b+d 
*
C
1
−
L
1
+
*
C
2
−
L
2
+
(
)
(
)





 * ( C 3 − L3)
2 
 2 
 2 
χ² = 
 b + d   c + g   b + d   f + h   c + g   f + h  
2* 
 *
+
*
+
*

2
2
2
2
2
 
 
 
 
  2 

χ² à 2 ddl
FLEISS : Statistical methods for rates and proportions
20/09/2012
Comparaisons de moyennes
20/09/2012
Tests paramétriques
Chaque fois que possible, utiliser des tests paramétriques car
plus faciles à interpréter et utilisent l’information totale (pas
de perte d’information) et donc a priori plus puissants.
Attention : des conditions à vérifier :
Normalité de la distribution (population totale ou par sous-groupe)
L’équilibre des groupes (même effectif dans chaque groupe)
L’égalité des variances (test de Fisher ou de Levene)
En fonction de la compatibilité avec certaines de ces
conditions, possibilité d’utiliser un test paramétrique
20/09/2012
Comparaison de 2 groupes
X ~ N(m,σ) ?
OUI
NON
N1, N2 > 30 ?
Égalité des
Variances ?
OUI
NON
Loi
symétrique ?
OUI
NON
OUI
Test de Student
Approximation
de Satterthwaite
Test de
Student
NON
Wilcoxon
(non-paramétrique)
20/09/2012
Comparaison de k groupes
Paramétrique : ANOVA (pas au programme)
Non paramétrique : test de Kruskal-Wallis
H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mêmes dans les k
groupes
Cas 1 : on ne rejette pas H0
Cas 2 : on rejette H0
Pas de différence
Où sont les différences ?
STOP
Post-hocs
Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 à 2)
20/09/2012
Le modèle linéaire
Permet de modéliser de nombreux plans d’expérience, simples ou
complexes, en indépendant ou apparié, à un ou plusieurs facteurs.
Hypothèse préalable de normalité sur « l’erreur » (les résidus)
En fait, comme tout modèle linéaire, validation a posteriori :
Analyse des résidus
Analyse des individus influents
20/09/2012
20/09/2012
Définition - Impact
Utilisé en général sur de petits échantillons (taille inférieure à 30 individus).
Pas de statistiques en dessous de 8 par groupe
Attention : les théorèmes statistiques (Th Central limite, par exemple) ne
s’appliquent plus Nécessité de disposer de tests spécifiques
Interprétation plus compliquée : on ne compare pas des moyennes.
Problème de l’estimation :
Dans les statistiques standard : moyenne, déviation standard
Dans les modèles
20/09/2012
« Distribution-free » tests : tests ne faisant aucune hypothèse a priori sur
la distribution des variables analysées (pas d’hypothèse de normalité).
Généralement basés sur l’analyse des rangs.
soit (X1, X2,…, Xn) n valeurs numériques d’une même variable
RANG(Xi) : Position de la valeur Xi dans la série classée par ordre croissant
-2
3
3
8
2
7
1
6
0
5
-1
4
-3
2
4
9
5
10
-4
1
On obtient une nouvelle variable Rx qui varie de 1 à n
Attention aux ex-aequo (individus ayant la même valeur Xi)
Problèmes :
On « gomme » les différences
Tests moins puissants
20/09/2012
Le test de Wilcoxon ou Mann-Withney
Utilisé pour comparer les distributions de 2 groupes indépendants
H0 : Fa(X) <> Fb(X) (les fonctions de répartition sont différentes)
On classe les observations par ordre croissant et on calcule la somme des rangs dans
chaque groupe.
On obtient une variable de décision qui suit une N(0,1) si au moins 8 individus dans
chaque groupe
X
Si distribution identiques, alors mélange parfait entre le groupe A (ronds rouges) et
le groupe B (triangles verts).
Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes
20/09/2012
Le test de Wilcoxon
Soit n et m les effectifs des groupe 1 et 2,
Wx la somme des rangs du groupe A (ou B)
Sous H0 : « les distributions sont identiques », on peut calculer E(Wx) et V(Wx)
n(n + m + 1)
E (Wx) =
2
et
nm(n + m + 1)
V (Wx) =
12
Wx − E (Wx)
Si n et m > 8, alors Z =
suit une loi N(0,1)
V (Wx)
(Formules valides sans ex-aequo)
20/09/2012
Le test de Kruskal-Wallis
Utilisé pour comparer les distributions de plus de 2 groupes indépendants
H0 : les distributions (fonctions de répartition) sont égales
Basé sur la différence de la moyenne des rangs dans chaque groupe à la
moyenne des rangs sur la population globale
Si Ni≥ 5, on obtient une variable de décision H qui suit un χ² à k-1 ddl
1  k Ri
(N+1) 2 
H = 2 ∑
-N

S  i =1 ni
4 
(Formule sans ex-aequo)
( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )
20/09/2012
Kruskal-Wallis : différences 2 à 2 ?
Exemple : 3 groupes G1, G2 et G3 – Test global significatif
On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!
Attention : Nécessité d’une correction du risque α
2 options possibles :
Option 1 : Utiliser les procédures implémentées dans certains logiciels (SAS,
SPSS, …) et qui permettent une correction :
Procédure de Dwass-Steel
Procédure de Conover-Inman
Option 2 : on effectue 3 tests de Wilcoxon au risque α/3
20/09/2012
La méthode de Conover
On transforme la variable X en variable R en calculant les rangs (en
faisant attention aux ex-aequo).
On réalise une ANOVA « normale » sur la variable R (en utilisant les
corrections du risque a telles que Bonferroni ou Tukey)
Méthode simple mais pas forcément optimale (simulations) et qui a été
critiquée (préservation du risque alpha et puissance)
Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conover
and Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129
20/09/2012
Quelques exemples
20/09/2012
Exemple 1 : comparaison de 2 groupes
Comparaison du BMI dans 2 groupes
Gr 1
Gr 2
N1
20
25
N2
22
26
N3
23
26
N4
23
27
N5
23
27
N6
23
27
N7
24
28
N8
24
28
N9
25
29
N10
25
30
N11
26
N12
27
Question 1 : le BMI suit-il une loi normale dans cet échantillon ?
Test de Shapiro-Wilk :
W=0.978 et p = 0.891
On ne rejette pas H0
Le BMI suit une loi normale !
20/09/2012
Utilisation d’un test paramétrique : le test de Student
Égalité des
Variances ?
Cas 1 : Variances égales
Cas 2 : Variances inégales
Test de Fisher (ou Levene)
F=1.56 , p=0.5155
Test de Student sur
variances poolées
T = - 4.85
DF = 20
p < 0.0001
Test de Student avec
corr Satterthwaite
T = - 4.96
DF = 19.98
p < 0.0001
20/09/2012
Si le BMI n’avait pas suivi une loi normale, alors utilisation
du test de Wilcoxon.
Somme des Rangs du Groupe 1 : 85.5
Somme des Rangs du Groupe 2 : 167.5
Z = 3.4582
p = 0.005
Les distributions du BMI sont statistiquement
différentes dans les 2 groupes.
20/09/2012
Exemple 2 : le test de Kruskal-Wallis
3 groupes de 10 individus – Réponse cotée de 0 à 20
Gr 1
Gr 2
Gr 3
N1
7
9
13
N2
8
12
12
N3
6
11
14
N4
5
11
15
N5
6
10
15
N6
7
12
16
N7
9
12
14
N8
10
11
15
N9
9
13
16
N10
8
12
13
Somme Ri
57.5
156.5
251
Test de KW :
• Khi² = 24.3885
• DDL = 2
• P < 0.0001
20/09/2012
Kruskal-Wallis : différences 2 à 2 ?
2 options possibles :
On aimerait comparer G1/G2, G2/G3
et G1/G3 : 3 tests post-hoc !!!
Attention à la correction du
risque α !!
Option 1 : correction disponible
dans le logiciel
Option 2 : on effectue 3 tests de
Wilcoxon au risque α/3
G1-G2 : p=0.00004
G2-G3 : p=0.00013
G1-G3 : p=0.00001
< 0.0166
G1#G2 , G1#G3 et G2#G3
20/09/2012
Méthode de Conover
On transforme la variable en rang
On réalise l’ANOVA sur les rangs
Si rejet de H0, comparaisons post-hoc
Test global : p < 0.0001
Tests post-hocs significatifs
Mêmes conclusions qu’avec le test de Kruskal-Wallis
20/09/2012
Exemple 2 : Modèle linéaire
Et si la loi était normale ??? Test de Shapiro-Wilk
p=0.3541 !
La distribution suit une loi normale
Utilisation du modèle linéaire
Test de l’effet global
Vérification de l’influence et des résidus
Si modèle OK et effet global significatif, alors calcul des tests post-hoc
20/09/2012
Exemple 2 : Modèle linéaire
3
Résidus aléatoires et normalement
distribués
2
Residual
1
0
0
5
10
15
20
25
30
0.16
-1
0.14
-2
0.12
0.1
Cook's D
-3
Obs Number
2 individus ayant une Distance de
Cook (influence) supérieure à 4/n
mais inférieure à 1.
0.08
0.06
0.04
0.02
0
0
5
10
15
20
25
30
35
Obs Number
Vérification du modèle sans les 2 individus
Modèle paramétrique parfaitement valide !!!
20/09/2012
1 groupe –Mesures répétées
20/09/2012
2 mesures
Problématique : même paramètre X mesuré 2 fois sur le même individu :
Mesure Avant / Après traitement par exemple.
Plusieurs méthodes possibles
Cas 1 : X suit une loi normale
Test paramétrique
Test T apparié
Test des signes
Cas 2 : X ne suit pas une loi
normale
Tests non
paramétriques
Wilcoxon apparié
20/09/2012
Test de Student pour données appariés
On suppose que le paramètre X suit une loi normale, X mesuré 2 fois :
X1 et X2
H0 : m1=m2
On calcule, pour chaque individu, la différence d, puis la moyenne et la
déviation standard de la différence.
alors
t=
d
σd
suit une loi de Student à n-1 ddl
n
20/09/2012
Le test des signes
On dispose de n différences
Soit K le nombre de différences positives (ou négatives)
Sous H0 : m1=m2, il y a une chance sur 2 qu’une différence soit positive
On peut établir la loi de K qui suit une loi binomiale
K ~ B(n,1/2)
20/09/2012
Le test de Wilcoxon pour données appariées
On dispose de n différences en valeur absolue
On ordonne par ordre croissant et on calcule les rangs
Soit Wx la somme des rangs des différences positives
Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)
n(n + 1)
E (Wx) =
4
Si n > 10, alors
et
V (Wx) =
n(n + 1)(2n + 1)
24
Wx − E (Wx)
Z=
suit une loi N(0,1)
V (Wx)
(Formules valides sans ex-aequo)
20/09/2012
Exemple
10 vins notés par 2 experts
Num
1
2
3
4
5
6
7
8
9
10
X1
62
73
66
69
61
69
64
76
61
65
X2
79
69
84
83
72
71
62
83
73
80
D
17
-4
18
14
11
2
-2
7
12
15
Moyenne
66.6
75.6
9
1) Normalité ?
Ri
9
1
10
7
5
3
2
4
6
8
Différence de notation ?
OUI : D suit une loi normale
2) Utilisation du T apparié
md=9
σd=7.90
n=10
t=3.60
ddl=9
p=0.0057 Très significatif !
20/09/2012
Exemple
Si la loi n’avait pas été normale , utilisation de tests non paramétriques
1) Test des signes : K=2 différences négatives - K suit une B(10,1/2)
2
p = ∑ C10k ( 0.5 ) = 0.0547 en unilatéral, 0.109 en bilatéral
10
NS !!
k =0
2) Wilcoxon apparié : Wx=50.5 (sommes des rangs des diff >0)
E (Wx) =
n(n + 1)
= 27.5
4
V (Wx) =
n(n + 1)(2n + 1) 10*11* 21
=
= 96.25
24
24
Wx − E (Wx) 50.5 − 27.5
=
= 2.3444
Z=
V (Wx)
96.25
?
p=0.019
20/09/2012
3 mesures ou plus
Problématique : même paramètre X mesuré k fois sur le même individu :
Test de plusieurs traitements / Mesures répétées dans le temps.
Plusieurs méthodes possibles
Cas 1 : X suit une loi normale
Paramétrique
Modèle linéaire
Cas 2 : X ne suit pas une loi
normale
Test non
paramétriques
Test de Friedman
20/09/2012
Le test de Friedman
Un échantillon de n individus, k mesures répétées
On calcule le rang de chaque variable pour chaque individu
Test basé sur la dispersion des rangs moyens de chaque mesure
12n
k +1

Q=
∑
 Ri −

k (k + 1) i =1 
2 
k
2
(Formule valide sans
ex-aequo)
Q suit une loi de Khi² à k-1 ddl
20/09/2012
Exemple
10 souris – Hormone mesurée à M0, M6, M12
Obs
1
2
3
4
5
6
7
8
9
10
X1
7.7
9.2
5.5
8.8
8.3
7.9
7.2
8.5
9.4
8.9
X2
7
8.3
4.8
8.1
7.2
7.5
7.1
7.3
8.4
8.2
X3
5.1
7.9
5.3
7.7
5.5
5.3
4.9
8
8
7.9
8.14
7.39
6.56
Rangs
Obs
1
2
3
4
5
6
7
8
9
10
Q=16.8 – Suit un Khi² à 2 ddl – p=0.0002245
R1
3
3
3
3
3
3
3
3
3
3
R2
2
2
1
2
2
2
2
1
2
2
R3
1
1
2
1
1
1
1
2
1
1
3
1.8
1.2
Très significatif !!
Problème des tests post-hocs : pas simple !!!
Alternative : Wilcoxon appariés 2 à 2 avec correction du risque α
20/09/2012
Associations entre paramètres
20/09/2012
Le coefficient de Corrélation : Introduction
Utilisé pour étudier la liaison (ou l’indépendance) entre 2
paramètres numériques.
EXEMPLES :
Rapport entre la taille et le poids
Rapport entre un prix de vente et une superficie
Interaction entre des paramètres biologiques
etc ...
On considère donc un couple de variables (X,Y)
N couples (Xi,Yi) , réalisations du couple de variables aléatoires (X,Y)
20/09/2012
Le coefficient théorique
Soit (X,Y) un couple de variables aléatoires
Le coefficient de corrélation linéaire entre X et Y est défini par :
ρ=
COV(X,Y)
σ σ
2
2
X
Y
=
E(XY)-E(X)E(Y)
σ σ
2
2
X
Y
REMARQUES :
ρ est toujours compris entre -1 et 1
Si X et Y sont indépendantes, alors E(XY)=E(X)E(Y) et donc ρ = 0
S‘il existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors |ρ| = 1
20/09/2012
Le coefficient observé
On dispose d ’un échantillon de taille N (N>30)
(X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn)
On définit le coefficient de corrélation de BRAVAIS-PEARSON par :
r=
1n
∑ (xi-x)(yi-y)
n1
SxSy
n
n
1
1
2
2
avec S 2x = ∑ (xi-x) et S 2y = ∑ (yi-y)
n1
n1
De même que pour le coefficient théorique :
r est compris entre -1 et 1
r = 0 : pas de liaison
r proche de 1 : liaison fonctionnelle
ATTENTION : absence de liaison n’est pas équivalent à indépendance
20/09/2012
Du bon usage de r !!!
r mesure le caractère LINEAIRE d’une liaison
Usage réservé à des nuages de points où les points sont répartis de part et
d’autre d’une tendance
R est très sensible aux individus extrêmes.
Attention aux valeurs aberrantes.
Utilité de la représentation graphique.
20/09/2012
Le coefficient de corrélation de Spearman
Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn),
(R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associés.
Le coefficient de corrélation de Spearman calculé entre (X1,...,Xi,...Xn)
et (Y1,...,Yi,...Yn) est égal au coefficient de corrélation de Pearson
calculé entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn).
Utilisé en non paramétrique si N<30
20/09/2012
Exemple
2 paramètres numériques mesurés chez 10 patients
140
120
100
Y
80
60
40
20
0
0
5
10
15
20
25
30
35
40
45
50
X
Mesure de l’association : calcul du coefficient de Spearman
R=0.973
p<0.0001
20/09/2012
Des questions ???
Alain Duhamel – Pôle de Santé Publique - [email protected]
Patrick Devos – Délégation à la Recherche - [email protected]
Julia Salleron – Pôle de Santé Publique – [email protected]
Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire)
Mme Brigitte Bonneau
Contact :
Pôle de Santé Publique
03 – 20 – 44 – 55 – 18
20/09/2012

Biostatistiques : Petits effectifs

Transcription

Documents pareils

à la recherche clinique et à l`épidémiologie

LICENCE 3 Licence Ingénierie de la santé «Sciences Sanitaires et

PHc santé publique Bichat APHP - Banque de données en santé

Exporter la page en pdf

Exporter la page en pdf

ANNÉE DE PRÉPARATION MÉDECINE / PHARMACIE

laboratoires - la gazette du laboratoire AFRIQUE

MASTER BIOLOGIE SANTE

DU Biostatistiques appliquées à la recherche clinique

Liste des enseignants Pharmacie de l`UFR SMP