Biostatistiques : Petits effectifs
Transcription
Biostatistiques : Petits effectifs
Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos – DRCI CHRU de Lille – EA2694 [email protected] Biostatistiques : Petits effectifs 20/09/2012 Plan Données Générales : Définition des statistiques Principe de l’échantillonnage Principe du test statistique – Tailles d’échantillons Analyse descriptive / Test de Normalité. Petits échantillons : Petits / Grands échantillons. Comparaison de deux ou plusieurs échantillons. Tests non-paramétriques Mesure de l'association entre plusieurs variables. Biostatistiques : Petits effectifs 20/09/2012 La Statistique et les Biostatistiques La STATISTIQUE : discipline traitant du recueil (plans d’expérience, sondages, …), du traitement et de l’interprétation de données caractérisées par une grande variabilité. Partie des mathématiques appliquées, utilisant la théorie des probabilités. Beaucoup de domaines d’applications Sondages : enquêtes d’opinion Industrie : contrôle de qualité Marketing : scoring, profil de consommateurs Médecine : épidémiologie, recherche clinique …….. Statistiques appliquées à la Médecine = BIOSTATISTIQUES Données spécifiques : variabilité inter et intra, données interprétées, … Méthodes spécifiques : survie, courbes ROC, plans d’expérience… Biostatistiques : Petits effectifs 20/09/2012 Méthodologie statistique Employer bien sûr la "bonne" procédure statistique pendant l’analyse !!! MAIS cela ne suffit pas … Choisir le bon type d’étude Choisir le bon plan d’expérience Choisir les bons critères de jugement Définir les variables recueillies Qualité des données recueillies Avant l ’étude !!! Analyse statistique rigoureuse (tests, modèles, …) Bonne interprétation des résultats Biostatistiques : Petits effectifs Fin d’étude 20/09/2012 L’Échantillonnage Biostatistiques : Petits effectifs 20/09/2012 L’inférence statistique On désire étudier une population P Principe : On tire un échantillon E de taille n issu de P On analyse les caractéristiques de E On généralise à P Attention !! E doit être un échantillon représentatif de P (même probabilité pour chaque individu de se retrouver dans E) E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats Définir très précisément la population que l’on désire étudier !! Biostatistiques : Petits effectifs 20/09/2012 Les fluctuations d’échantillonnage Quand on tire aléatoirement un échantillon, on a des fluctuations. Exemple : on s’intéresse aux 10 premiers étudiants entrant dans l’amphi. On comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants qui assisteront au cours sont des femmes ? NON !!! On considère que dans la population totale, les proportions d’hommes et de femmes sont les mêmes P(H)=P(F)=1/2 0.3 0.25 P(X=k) 0.2 0.15 Soit X le nombre de femmes parmi les 10 étudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramètre 0.5 et calculer la probabilité d’observer 0,1,2,…,10 femmes. 0.1 0.05 0 Biostatistiques : Petits effectifs 0 1 2 3 4 5 6 7 8 9 10 20/09/2012 Les prendre en compte Comment prendre en compte les fluctuations d’échantillonnage ? 1) En vérifiant que l’échantillon est représentatif (tests d’adéquation par exemple) 2) En donnant la marge d’erreur que l’on commet en raisonnant sur un échantillon (Intervalles de confiance) 3) En maîtrisant les risques d’erreurs (puissance dans le cas de comparaisons) Biostatistiques : Petits effectifs 20/09/2012 Principe du test statistique Biostatistiques : Petits effectifs 20/09/2012 Le test statistique Un travail de recherche est bâti pour répondre à une question Le test statistique est basé sur 3 principes généraux : Le test statistique sert à répondre à une question Le test statistique est un test d’hypothèse : à la question on associe une hypothèse (H0) Le test statistique ne peut conclure de manière certaine : preuve expérimentale donc il faut prendre un risque (première espèce) Conclusion fondée sur un test statistique Principe du test statistique Biostatistiques : Petits effectifs 20/09/2012 Principe du test statistique Question : une pièce de monnaie est-elle pipée? Étape 1 : on cherche à prouver qu’elle est pipée Étape 2 : confrontation expérimentale : on jette 50 fois la pièce. Étape 3 : test d’hypothèse Si pièce non pipée : P(Face)=P(Pile)=1/2 Choix de l’hypothèse à tester notée H0 : :« la pièce de monnaie n’est pas pipée » Soit X : nombre de « Pile » (ou Face) Si H0 est vraie, la loi de X est connue (binomiale) P(X=k)= CkN p k (1 − p ) N-k Biostatistiques : Petits effectifs 20/09/2012 Principe du test statistique : Notion de risque Si H0 vraie, toutes les configurations sont possibles, y compris P(0P)=(0,5)50 8.8 10-16 !! 0.12 0.1 0.06 0.04 0.02 50 48 46 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 P (X=k) 0.08 k Biostatistiques : Petits effectifs 20/09/2012 Principe du test statistique : Notion de risque Il faut décider : on choisit un risque raisonnable = 5% On partage l’ensemble des possibilités en 2 zones, selon le risque 5% : 18P 25P 32P 0P 50P Compatible H0 = 95% Très improbable sous H0 = 5% de chance =REJET DE H0 Limites de la zone compatible avec H0 se déterminent grâce au calcul des probabilités. Ici 18 - 32 Biostatistiques : Petits effectifs 20/09/2012 Principe du test statistique : Règle de décision Zone compatible avec H0 = probabilité de 95% de se produire si H0 vraie Zone de rejet de H0 = probabilité de 5% de se produire si H0 est vraie !!! (risque) Règle de décision : on fixe a priori la règle suivante : - Si le résultat de l’expérience se trouve dans la zone compatible avec H0 (exemple 22P), on ne décide rien (« non significatif ») - Si il se situe dans le zone « rejet de H0» on déclare H0 FAUSSE, donc on déclare H1 vraie, mais au risque 5%. - Exemple : 15P, on décide que la pièce est truquée Risque de première espèce = Probabilité de rejeter H0 à tort = 5% Biostatistiques : Petits effectifs 20/09/2012 Notion de Puissance d’un test Vérité H0 H1 Décision β Compatible H0 Rejet de H0 = on décide H1 α 1-β α = Proba (décider H1 / H0 est vraie) = risque de première espèce β = Proba ( décider « compatible avec H0 » / H1 est vraie) = risque de deuxième espèce Puissance = 1-β = Proba ( décider H1 / H1 est vraie) α = Risque d'affirmer qu'il y a une différence significative alors qu'elle n'existe pas réellement. β = Risque d'affirmer qu'il n'y a pas de différence significative alors qu'elle existe réellement. Puissance = Probabilité de détecter une différence si elle existe réellement Biostatistiques : Petits effectifs 20/09/2012 Notion de puissance d’un test Puissance dépend de la différence mais aussi de la variabilité Puissance dépend du risque de première espèce α , mais inutile en pratique car α fixé à 5% Puissance = F(∆,N,DS) En pratique, on estime ∆ et DS et on déduit N ∆ Biostatistiques : Petits effectifs 20/09/2012 En pratique… Dépend du plan d’expérience : Nombre de groupes Indépendant / Apparié (patient propre témoin) Dépend du critère de jugement principal Numérique Binaire Survie … Des 2 risques : α : risque de première espèce : généralement 5% β : risque de seconde espèce : inférieur à 20% Biostatistiques : Petits effectifs 20/09/2012 Application : Taille des échantillons Comparaison de 2 moyennes (groupes indépendants) n = 2( z 1−α + z 1− β ) 2 σ² ∆² =K Test bilatéral σ² ∆² Test unilatéral Alpha Beta Zalpha Zbéta K Alpha Beta Zalpha Zbéta K 0.05 0.05 1.96 1.64 25.99 0.05 0.05 1.64 1.64 21.64 0.05 0.1 1.96 1.28 21.01 0.05 0.1 1.64 1.28 17.13 0.05 0.2 1.96 0.84 15.70 0.05 0.2 1.64 0.84 12.37 (Formules approchées) Biostatistiques : Petits effectifs 20/09/2012 Exemple Différence attendue (∆) : 5mm de mercure Ecart-type (DS): 10 mm Risque de première espèce (α ): 5% Puissance (1-β ): 90% 2 10 N = 21.01* = 84 5 ( par groupe ) 1 0.8 Puissance 0.6 0.4 0.2 0 0 50 100 150 200 Nombre de Patients par Groupe Biostatistiques : Petits effectifs 20/09/2012 Application : Taille des échantillons Comparaison de 2 fréquences (groupes indépendants) PA (1 − PA ) + PB (1 − PB ) PA (1 − PA ) + PB (1 − PB ) 2 n= ( z 1−α + z 1− β ) = K ( PA − PB )² ( PA − PB )² Test bilatéral Test unilatéral Alpha Beta Z1 Z2 K Alpha Beta Z1 Z2 K 0.05 0.05 1.96 1.64 12.99 0.05 0.05 1.64 1.64 10.82 0.05 0.1 1.96 1.28 10.51 0.05 0.1 1.64 1.28 8.56 0.05 0.2 1.96 0.84 7.85 0.05 0.2 1.64 0.84 6.18 (Formules approchées) Biostatistiques : Petits effectifs 20/09/2012 Exemple PA = 0.1, PB = 0.2 Risque de première espèce (α ): 5% Puissance (1-β ): 90% N = 10.51* 25 = 263 ( par groupe ) 1 0.9 0.8 Puissance 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 300 350 400 450 500 Effectif par Groupe Biostatistiques : Petits effectifs 20/09/2012 Puissance d’un test et Taille d’échantillon Comparaison de deux antihypertenseurs avec : ∆ : 5mm de mercure Ecart-type (DS): 10 mm Risque de première espèce (α ): 5% 1- β = 0.9 N1=N2=86 L’étude a été réalisée sans calcul de puissance préalable sur 2 groupes de 30 sujets. Puissance = 1-β β = 0.48 !!! Ne pas confondre : Conditions d’application du test et Puissance du test Biostatistiques : Petits effectifs 20/09/2012 Traitement statistique des données Biostatistiques : Petits effectifs 20/09/2012 Méthodes Statistiques : définitions générales INDIVIDU : « Objet » sur lequel un ou plusieurs caractères peuvent être observés. POPULATION : Ensemble des individus pris en considération. VARIABLE : peut être qualitative (attribut) ou quantitative (numérique). DISCRETES (Nombre limité de valeurs) QUANTITATIVES CONTINUES (prend ses valeurs dans un intervalle VARIABLES BINAIRES ( Présent / Absent ) QUALITATIVES NOMINALES (SEXE, Couleur des Yeux, CSP, …) ORDINALES = SCORE (Notion d’ordre) Biostatistiques : Petits effectifs 20/09/2012 Les méthodes statistiques Univariée (moyenne, DS, …) Descriptive Multivariée (ACP, …) La statistique Univariée (tests, …) Inférentielle Multivariée (modèles, …) Biostatistiques : Petits effectifs 20/09/2012 La Statistique Descriptive BUTS : Contrôle de qualité des données, descriptifs simples (moyennes, …). Synthétiser, résumer, structurer l'information contenue dans les données. Mettre en évidence des propriétés de l'échantillon. Suggérer des hypothèses. Analyses univariées : moyennes, histogramme, box-plot, fréquences, … Analyses multivariées =Analyse des Données. Permet de traiter des données multidimensionnelles. Principales méthodes multivariées: Méthodes de classification : déterminer des sous-groupes homogènes Méthodes factorielles : réduire le nombre de variables par construction d'axes synthétiques (ACP, AFC, ACM, ...), mais aussi sous-groupes d’individus 2 classes de méthodes souvent complémentaires Cours N° 2 Biostatistiques : Petits effectifs 20/09/2012 La Statistique Inférentielle Univariée BUT : Valider ou infirmer des hypothèses a priori ou formulées après une phase exploratoire. Utilisation de tests statistiques se référant à des modèles probabilistes. EXEMPLES : Comparaison de moyennes (test T, Wilcoxon, …) ANOVA (+ + + !!!) / Modèle mixte Comparaison de fréquences (Khi², Fisher exact) Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov) ... Biostatistiques : Petits effectifs 20/09/2012 STATISTIQUE DESCRIPTIVE UNIVARIEE Biostatistiques : Petits effectifs 20/09/2012 Analyse descriptive univariée 3 Objectifs : Contrôle des données : Fréquences et Box-plots Calcul des statistiques descriptives : moyenne, …. Présentation des résultats : Moyenne et Déviation standard ou Médiane et Quartiles Fréquence avec Intervalle de confiance Biostatistiques : Petits effectifs 20/09/2012 Paramètres statistiques de base Moyenne : x 1 n = ∑ xi n i =1 2 1 n xi − x ) Variance estimée: s ² = ( ∑ n − 1 i =1 Déviation standard : racine carrée de la variance Min, Max, Médiane, Quartiles, Centiles Biostatistiques : Petits effectifs 20/09/2012 Le Box-Plot ( Boîte à Moustaches ) X max 0 1,5 (Q3-Q1) Q3 + Médiane II=Q3-Q1 0 : valeur comprise entre 1.5 et 3 interquartiles * : valeur supérieure à 3 interquartiles Q1 1,5 (Q3-Q1) X min Biostatistiques : Petits effectifs 20/09/2012 Représentations graphiques VARIABLES DISCRETES Femme 45% Homme 55% VARIABLES CONTINUES Homme Femme VARIABLES QUALITATIVES Biostatistiques : Petits effectifs 20/09/2012 Distribution d’un paramètre (loi) Différentes formes observables D e n s i t y 0. 04 0. 02 0 - 2 2 6 10 14 18 22 26 30 34 38 X Modélisation de la distribution : Hypothèse de loi Biostatistiques : Petits effectifs 20/09/2012 Tests de Normalité Hypothèses de normalité requise pour • test T, ANOVA • régression, • Intervalles de confiance (valeurs normales) -4 -3 -2 -1 0 1 2 3 4 •… SHAPIRO-WILK ( N< 50 ) KOLMOGOROV-SMIRNOV ( N> 50 ) Biostatistiques : Petits effectifs 20/09/2012 Présentation des résultats Toujours rappeler la population étudiée, les patients inclus ou exclus, … Préciser les méthodes statistiques utilisées Faire des tableaux de synthèse Utiliser des graphiques Existence de recommandations ( http://www.consort-statement.org/ ) Suivre scrupuleusement les guidelines si article scientifique !!! Biostatistiques : Petits effectifs 20/09/2012 Présentation des résultats Utilisation de la moyenne si distribution symétrique, de la médiane si distribution asymétrique 0.5 0.45 0.4 0.35 0.3 0.25 médiane 0.2 0.15 moyenne 0.1 0.05 -4 -3 -2 -1 0 1 2 3 4 0 0 Pas de moyenne sans déviation standard Pas de médiane sans quartiles Pas de fréquence sans Intervalle de confiance Biostatistiques : Petits effectifs 2 4 6 8 10 12 20/09/2012 Intervalles de confiance à 95% d’un paramètre numérique : si X suit une loi normale d’une moyenne : quelque soit la loi de X, si n > 30 d’une fréquence si np , nq > 10 x ± 1 . 96 DS 1 . 96 DS x ± n p ± 1.96 Biostatistiques : Petits effectifs p(1 - p) n 20/09/2012 Normalité d’un paramètre Biostatistiques : Petits effectifs 20/09/2012 La droite de Henry Normalité : très important car condition de nombreux tests Méthode graphique qui permet de vérifier la normalité d’une distribution Exemple : Soit X, une variable aléatoire N(m,σ²) φ : ]-∞,+∞[ → [0,1] x → φ (x) = P(X<x) p -3 -2 -1 0 1 2 3 z On définit la fonction réciproque : φ-1: [0,1] → ]-∞,+∞[ p → φ-1(p) Biostatistiques : Petits effectifs p z 0.01 0.025 0.05 0.5 0.95 0.975 0.99 -2.326 -1.96 -1.64 0 1.64 1.96 2.326 20/09/2012 En pratique Ri Soit (X1, ... , Xn) un échantillon issu de X, R1, ..., Rn les rangs associés, Yi = φ −1 n + 1 Si X suit une loi normale, alors les points (Xi,Yi) sont alignés Cas particulier des diagrammes P-P 2 2 R = 0.9775 1.5 1 0.5 0 15 17 19 21 23 25 27 29 31 33 -0.5 -1 -1.5 -2 Droite de pente 1/σ coupant l’axe des abscisses en m. Biostatistiques : Petits effectifs 20/09/2012 Le test de Shapiro-Wilk Test implémenté dans de nombreux logiciels et utilisé pour des petits échantillons Basé sur le calcul des différences symétriques : d1 = Xn - X1 d2 = Xn-1 - X2 ......... dk = Xn-k+1 - Xk k Puis on calcule : b = ∑ ai di i =1 On obtient k=n/2 ou k=(n-1)/2 différences selon la parité de n n , S ² = ∑ ( xi − x )2 puis i =1 W= b² S² Les ai sont des coefficients dépendants de i et n Utilisation d’une table qui permet de conclure. Biostatistiques : Petits effectifs 20/09/2012 Exemple Xi 16.3 16.8 19.6 19.8 20.6 21.0 22.4 23.0 23.4 23.9 24.4 25.0 27.0 27.4 31.0 di ai ai*di 31.0-16.3=14.7 0.5150 7.5705 27.4-16.8=10.6 0.3306 3.50436 27.0-19.6=7.4 0.2495 1.8463 25.0-19.8=5.2 0.1878 0.97656 k b = ∑ ai di = 14.71 i =1 n 24.4-20.6=3.8 0.1353 0.51414 23.9-21.0=2.9 0.0880 0.2552 23.4-22.4=1 0.0433 0.0433 S ² = ∑ ( xi − x ) = 220.77 W = 0.9803 2 i =1 23 H0 : le paramètre suit une loi normale α = 0.05 Lecture de la table : W > C(α,n) n = 15 C(α,n) = 0.881 Biostatistiques : Petits effectifs On ne rejette pas H0 20/09/2012 Comparaisons de groupes Biostatistiques : Petits effectifs 20/09/2012 Comparaisons de groupes Dépend du type de variable : Qualitatitives : Khi² ou Fisher Exact Quantitatives Comparaison Quantitatives – 2 approches: Tests paramétriques : Student par exemple • Paramétrique = on fait une hypothèse sur la loi du paramètre • on compare des moyennes : interprétation facile • Hypothèse forte : normalité !!! Tests non paramétriques : • Basé sur des rangs • On compare des distributions : interprétation délicate • Mais pas d’hypothèse de loi mais conditions d’application Biostatistiques : Petits effectifs 20/09/2012 Comparaisons de fréquence : le test du Khi² EXEMPLE : On veut savoir s’il existe une relation de cause à effet entre un pneumococque et le décès. On dispose d’un échantillon se résumant ainsi : V (vivant) D (décés) Pneumocoque G1 33 15 48 Autre G2 314 55 369 347 70 N=417 La mortalité est-elle plus élevée chez les pneumocoques ? Soit H0 : Les 2 caractères sont indépendants Calcul des effectifs théoriques Tij=( Li * Cj) / N (tous supérieurs à 5) 1 degré de liberté Calcul de D² = 8,11 ⇒ on rejette l’indépendance Biostatistiques : Petits effectifs 20/09/2012 χ² d ’Indépendance : généralisation On souhaite savoir si deux paramètres A et B sont indépendants B1 B2 ........ Bi ........ Bp On construit le tableau de contingence croisant A et B A2 ........ ........ ........ ........ ........ ........ C2 Sous l’hypothèse d’indépendance, Tij = Calcul de :D ² = p k ∑∑ i =1 A1 O11 O21 ........ ........ ........ Op1 C1 j =1 (Tij − Oij ) ² ........ ........ ........ ........ ........ ........ ........ ........ Aj ........ ........ ........ Oij ........ ........ Cj ........ ........ ........ ........ ........ ........ ........ ........ Ak O1k O2k ........ ........ ........ Opk Ck L1 L2 ........ Li ........ Lp N Cj * Li N Tij Attention à Tij < 5 Degrés de liberté : ν = (k-1) * (p-1) Utilisation de la table pour déterminer une valeur limite z Conclusion du test : si D² > z alors rejet de H0, donc il existe une liaison entre les caractères A et B Biostatistiques : Petits effectifs 20/09/2012 Cas particuliers : Fisher exact Test pouvant remplacer le χ² dans le cas d’effectifs théoriques inférieurs à 5. Basé sur la combinatoire Valide quelque soient les effectifs théoriques Valide quelque soit le nombre de lignes et de colonnes Attention, temps de calcul prohibitif si le nombre de cases du tableau est élevé Biostatistiques : Petits effectifs 20/09/2012 Cas particuliers : Khi² apparié 3 Modalités 2 Modalités a b c d b − c) ² ( χ² = si b+c ≥ 10 b+c Approximation par la loi normale χ² à 1 ddl χ² = ( b − c − 1) ² si b+c <10 b+c Test exact Test de Mac Nemar a b c L1 d e f L2 g h i L3 C1 C2 C3 2 2 2 f +h c+g b+d * C 1 − L 1 + * C 2 − L 2 + ( ) ( ) * ( C 3 − L3) 2 2 2 χ² = b + d c + g b + d f + h c + g f + h 2* * + * + * 2 2 2 2 2 2 χ² à 2 ddl FLEISS : Statistical methods for rates and proportions Biostatistiques : Petits effectifs 20/09/2012 Comparaisons de moyennes Biostatistiques : Petits effectifs 20/09/2012 Tests paramétriques Chaque fois que possible, utiliser des tests paramétriques car plus faciles à interpréter et utilisent l’information totale (pas de perte d’information) et donc a priori plus puissants. Attention : des conditions à vérifier : Normalité de la distribution (population totale ou par sous-groupe) L’équilibre des groupes (même effectif dans chaque groupe) L’égalité des variances (test de Fisher ou de Levene) En fonction de la compatibilité avec certaines de ces conditions, possibilité d’utiliser un test paramétrique Biostatistiques : Petits effectifs 20/09/2012 Comparaison de 2 groupes X ~ N(m,σ) ? OUI NON N1, N2 > 30 ? Égalité des Variances ? OUI NON Loi symétrique ? OUI NON OUI Test de Student Approximation de Satterthwaite Test de Student Biostatistiques : Petits effectifs NON Wilcoxon (non-paramétrique) 20/09/2012 Comparaison de k groupes Paramétrique : ANOVA (pas au programme) Non paramétrique : test de Kruskal-Wallis H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mêmes dans les k groupes Cas 1 : on ne rejette pas H0 Cas 2 : on rejette H0 Pas de différence Où sont les différences ? STOP Post-hocs Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 à 2) Biostatistiques : Petits effectifs 20/09/2012 Le modèle linéaire Permet de modéliser de nombreux plans d’expérience, simples ou complexes, en indépendant ou apparié, à un ou plusieurs facteurs. Hypothèse préalable de normalité sur « l’erreur » (les résidus) En fait, comme tout modèle linéaire, validation a posteriori : Analyse des résidus Analyse des individus influents Biostatistiques : Petits effectifs 20/09/2012 Tests non-paramétriques Biostatistiques : Petits effectifs 20/09/2012 Définition - Impact Utilisé en général sur de petits échantillons (taille inférieure à 30 individus). Pas de statistiques en dessous de 8 par groupe Attention : les théorèmes statistiques (Th Central limite, par exemple) ne s’appliquent plus Nécessité de disposer de tests spécifiques Interprétation plus compliquée : on ne compare pas des moyennes. Problème de l’estimation : Dans les statistiques standard : moyenne, déviation standard Dans les modèles Biostatistiques : Petits effectifs 20/09/2012 Tests non-paramétriques « Distribution-free » tests : tests ne faisant aucune hypothèse a priori sur la distribution des variables analysées (pas d’hypothèse de normalité). Généralement basés sur l’analyse des rangs. soit (X1, X2,…, Xn) n valeurs numériques d’une même variable RANG(Xi) : Position de la valeur Xi dans la série classée par ordre croissant -2 3 3 8 2 7 1 6 0 5 -1 4 -3 2 4 9 5 10 -4 1 On obtient une nouvelle variable Rx qui varie de 1 à n Attention aux ex-aequo (individus ayant la même valeur Xi) Problèmes : On « gomme » les différences Tests moins puissants Biostatistiques : Petits effectifs 20/09/2012 Le test de Wilcoxon ou Mann-Withney Utilisé pour comparer les distributions de 2 groupes indépendants H0 : Fa(X) <> Fb(X) (les fonctions de répartition sont différentes) On classe les observations par ordre croissant et on calcule la somme des rangs dans chaque groupe. On obtient une variable de décision qui suit une N(0,1) si au moins 8 individus dans chaque groupe X Si distribution identiques, alors mélange parfait entre le groupe A (ronds rouges) et le groupe B (triangles verts). Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes Biostatistiques : Petits effectifs 20/09/2012 Le test de Wilcoxon Soit n et m les effectifs des groupe 1 et 2, Wx la somme des rangs du groupe A (ou B) Sous H0 : « les distributions sont identiques », on peut calculer E(Wx) et V(Wx) n(n + m + 1) E (Wx) = 2 et nm(n + m + 1) V (Wx) = 12 Wx − E (Wx) Si n et m > 8, alors Z = suit une loi N(0,1) V (Wx) (Formules valides sans ex-aequo) Biostatistiques : Petits effectifs 20/09/2012 Le test de Kruskal-Wallis Utilisé pour comparer les distributions de plus de 2 groupes indépendants H0 : les distributions (fonctions de répartition) sont égales Basé sur la différence de la moyenne des rangs dans chaque groupe à la moyenne des rangs sur la population globale Si Ni≥ 5, on obtient une variable de décision H qui suit un χ² à k-1 ddl 1 k Ri (N+1) 2 H = 2 ∑ -N S i =1 ni 4 (Formule sans ex-aequo) ( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i ) Biostatistiques : Petits effectifs 20/09/2012 Kruskal-Wallis : différences 2 à 2 ? Exemple : 3 groupes G1, G2 et G3 – Test global significatif On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!! Attention : Nécessité d’une correction du risque α 2 options possibles : Option 1 : Utiliser les procédures implémentées dans certains logiciels (SAS, SPSS, …) et qui permettent une correction : Procédure de Dwass-Steel Procédure de Conover-Inman Option 2 : on effectue 3 tests de Wilcoxon au risque α/3 Biostatistiques : Petits effectifs 20/09/2012 La méthode de Conover On transforme la variable X en variable R en calculant les rangs (en faisant attention aux ex-aequo). On réalise une ANOVA « normale » sur la variable R (en utilisant les corrections du risque a telles que Bonferroni ou Tukey) Méthode simple mais pas forcément optimale (simulations) et qui a été critiquée (préservation du risque alpha et puissance) Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conover and Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129 Biostatistiques : Petits effectifs 20/09/2012 Quelques exemples Biostatistiques : Petits effectifs 20/09/2012 Exemple 1 : comparaison de 2 groupes Comparaison du BMI dans 2 groupes Gr 1 Gr 2 N1 20 25 N2 22 26 N3 23 26 N4 23 27 N5 23 27 N6 23 27 N7 24 28 N8 24 28 N9 25 29 N10 25 30 N11 26 N12 27 Question 1 : le BMI suit-il une loi normale dans cet échantillon ? Test de Shapiro-Wilk : W=0.978 et p = 0.891 On ne rejette pas H0 Le BMI suit une loi normale ! Biostatistiques : Petits effectifs 20/09/2012 Exemple 1 : comparaison de 2 groupes Utilisation d’un test paramétrique : le test de Student Égalité des Variances ? Cas 1 : Variances égales Cas 2 : Variances inégales Test de Fisher (ou Levene) F=1.56 , p=0.5155 Test de Student sur variances poolées T = - 4.85 DF = 20 p < 0.0001 Test de Student avec corr Satterthwaite T = - 4.96 DF = 19.98 p < 0.0001 Biostatistiques : Petits effectifs 20/09/2012 Exemple 1 : comparaison de 2 groupes Si le BMI n’avait pas suivi une loi normale, alors utilisation du test de Wilcoxon. Somme des Rangs du Groupe 1 : 85.5 Somme des Rangs du Groupe 2 : 167.5 Z = 3.4582 p = 0.005 Les distributions du BMI sont statistiquement différentes dans les 2 groupes. Biostatistiques : Petits effectifs 20/09/2012 Exemple 2 : le test de Kruskal-Wallis 3 groupes de 10 individus – Réponse cotée de 0 à 20 Gr 1 Gr 2 Gr 3 N1 7 9 13 N2 8 12 12 N3 6 11 14 N4 5 11 15 N5 6 10 15 N6 7 12 16 N7 9 12 14 N8 10 11 15 N9 9 13 16 N10 8 12 13 Somme Ri 57.5 156.5 251 Test de KW : • Khi² = 24.3885 • DDL = 2 • P < 0.0001 Biostatistiques : Petits effectifs 20/09/2012 Kruskal-Wallis : différences 2 à 2 ? 2 options possibles : On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!! Attention à la correction du risque α !! Option 1 : correction disponible dans le logiciel Option 2 : on effectue 3 tests de Wilcoxon au risque α/3 G1-G2 : p=0.00004 G2-G3 : p=0.00013 G1-G3 : p=0.00001 < 0.0166 G1#G2 , G1#G3 et G2#G3 Biostatistiques : Petits effectifs 20/09/2012 Méthode de Conover On transforme la variable en rang On réalise l’ANOVA sur les rangs Si rejet de H0, comparaisons post-hoc Test global : p < 0.0001 Tests post-hocs significatifs Mêmes conclusions qu’avec le test de Kruskal-Wallis Biostatistiques : Petits effectifs 20/09/2012 Exemple 2 : Modèle linéaire Et si la loi était normale ??? Test de Shapiro-Wilk p=0.3541 ! La distribution suit une loi normale Utilisation du modèle linéaire Test de l’effet global Vérification de l’influence et des résidus Si modèle OK et effet global significatif, alors calcul des tests post-hoc Biostatistiques : Petits effectifs 20/09/2012 Exemple 2 : Modèle linéaire 3 Résidus aléatoires et normalement distribués 2 Residual 1 0 0 5 10 15 20 25 30 0.16 -1 0.14 -2 0.12 0.1 Cook's D -3 Obs Number 2 individus ayant une Distance de Cook (influence) supérieure à 4/n mais inférieure à 1. 0.08 0.06 0.04 0.02 0 0 5 10 15 20 25 30 35 Obs Number Vérification du modèle sans les 2 individus Modèle paramétrique parfaitement valide !!! Biostatistiques : Petits effectifs 20/09/2012 1 groupe –Mesures répétées Biostatistiques : Petits effectifs 20/09/2012 2 mesures Problématique : même paramètre X mesuré 2 fois sur le même individu : Mesure Avant / Après traitement par exemple. Plusieurs méthodes possibles Cas 1 : X suit une loi normale Test paramétrique Test T apparié Test des signes Cas 2 : X ne suit pas une loi normale Tests non paramétriques Biostatistiques : Petits effectifs Wilcoxon apparié 20/09/2012 Test de Student pour données appariés On suppose que le paramètre X suit une loi normale, X mesuré 2 fois : X1 et X2 H0 : m1=m2 On calcule, pour chaque individu, la différence d, puis la moyenne et la déviation standard de la différence. alors t= d σd suit une loi de Student à n-1 ddl n Biostatistiques : Petits effectifs 20/09/2012 Le test des signes On dispose de n différences Soit K le nombre de différences positives (ou négatives) Sous H0 : m1=m2, il y a une chance sur 2 qu’une différence soit positive On peut établir la loi de K qui suit une loi binomiale K ~ B(n,1/2) Biostatistiques : Petits effectifs 20/09/2012 Le test de Wilcoxon pour données appariées On dispose de n différences en valeur absolue On ordonne par ordre croissant et on calcule les rangs Soit Wx la somme des rangs des différences positives Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx) n(n + 1) E (Wx) = 4 Si n > 10, alors et V (Wx) = n(n + 1)(2n + 1) 24 Wx − E (Wx) Z= suit une loi N(0,1) V (Wx) (Formules valides sans ex-aequo) Biostatistiques : Petits effectifs 20/09/2012 Exemple 10 vins notés par 2 experts Num 1 2 3 4 5 6 7 8 9 10 X1 62 73 66 69 61 69 64 76 61 65 X2 79 69 84 83 72 71 62 83 73 80 D 17 -4 18 14 11 2 -2 7 12 15 Moyenne 66.6 75.6 9 1) Normalité ? Ri 9 1 10 7 5 3 2 4 6 8 Différence de notation ? OUI : D suit une loi normale 2) Utilisation du T apparié md=9 σd=7.90 n=10 t=3.60 ddl=9 p=0.0057 Très significatif ! Biostatistiques : Petits effectifs 20/09/2012 Exemple Si la loi n’avait pas été normale , utilisation de tests non paramétriques 1) Test des signes : K=2 différences négatives - K suit une B(10,1/2) 2 p = ∑ C10k ( 0.5 ) = 0.0547 en unilatéral, 0.109 en bilatéral 10 NS !! k =0 2) Wilcoxon apparié : Wx=50.5 (sommes des rangs des diff >0) E (Wx) = n(n + 1) = 27.5 4 V (Wx) = n(n + 1)(2n + 1) 10*11* 21 = = 96.25 24 24 Wx − E (Wx) 50.5 − 27.5 = = 2.3444 Z= V (Wx) 96.25 Biostatistiques : Petits effectifs ? p=0.019 20/09/2012 3 mesures ou plus Problématique : même paramètre X mesuré k fois sur le même individu : Test de plusieurs traitements / Mesures répétées dans le temps. Plusieurs méthodes possibles Cas 1 : X suit une loi normale Paramétrique Modèle linéaire Cas 2 : X ne suit pas une loi normale Test non paramétriques Test de Friedman Biostatistiques : Petits effectifs 20/09/2012 Le test de Friedman Un échantillon de n individus, k mesures répétées On calcule le rang de chaque variable pour chaque individu Test basé sur la dispersion des rangs moyens de chaque mesure 12n k +1 Q= ∑ Ri − k (k + 1) i =1 2 k 2 (Formule valide sans ex-aequo) Q suit une loi de Khi² à k-1 ddl Biostatistiques : Petits effectifs 20/09/2012 Exemple 10 souris – Hormone mesurée à M0, M6, M12 Obs 1 2 3 4 5 6 7 8 9 10 X1 7.7 9.2 5.5 8.8 8.3 7.9 7.2 8.5 9.4 8.9 X2 7 8.3 4.8 8.1 7.2 7.5 7.1 7.3 8.4 8.2 X3 5.1 7.9 5.3 7.7 5.5 5.3 4.9 8 8 7.9 8.14 7.39 6.56 Rangs Obs 1 2 3 4 5 6 7 8 9 10 Q=16.8 – Suit un Khi² à 2 ddl – p=0.0002245 R1 3 3 3 3 3 3 3 3 3 3 R2 2 2 1 2 2 2 2 1 2 2 R3 1 1 2 1 1 1 1 2 1 1 3 1.8 1.2 Très significatif !! Problème des tests post-hocs : pas simple !!! Alternative : Wilcoxon appariés 2 à 2 avec correction du risque α Biostatistiques : Petits effectifs 20/09/2012 Associations entre paramètres Biostatistiques : Petits effectifs 20/09/2012 Le coefficient de Corrélation : Introduction Utilisé pour étudier la liaison (ou l’indépendance) entre 2 paramètres numériques. EXEMPLES : Rapport entre la taille et le poids Rapport entre un prix de vente et une superficie Interaction entre des paramètres biologiques etc ... On considère donc un couple de variables (X,Y) N couples (Xi,Yi) , réalisations du couple de variables aléatoires (X,Y) Biostatistiques : Petits effectifs 20/09/2012 Le coefficient théorique Soit (X,Y) un couple de variables aléatoires Le coefficient de corrélation linéaire entre X et Y est défini par : ρ= COV(X,Y) σ σ 2 2 X Y = E(XY)-E(X)E(Y) σ σ 2 2 X Y REMARQUES : ρ est toujours compris entre -1 et 1 Si X et Y sont indépendantes, alors E(XY)=E(X)E(Y) et donc ρ = 0 S‘il existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors |ρ| = 1 Biostatistiques : Petits effectifs 20/09/2012 Le coefficient observé On dispose d ’un échantillon de taille N (N>30) (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) On définit le coefficient de corrélation de BRAVAIS-PEARSON par : r= 1n ∑ (xi-x)(yi-y) n1 SxSy n n 1 1 2 2 avec S 2x = ∑ (xi-x) et S 2y = ∑ (yi-y) n1 n1 De même que pour le coefficient théorique : r est compris entre -1 et 1 r = 0 : pas de liaison r proche de 1 : liaison fonctionnelle ATTENTION : absence de liaison n’est pas équivalent à indépendance Biostatistiques : Petits effectifs 20/09/2012 Du bon usage de r !!! r mesure le caractère LINEAIRE d’une liaison Usage réservé à des nuages de points où les points sont répartis de part et d’autre d’une tendance R est très sensible aux individus extrêmes. Attention aux valeurs aberrantes. Utilité de la représentation graphique. Biostatistiques : Petits effectifs 20/09/2012 Le coefficient de corrélation de Spearman Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn), (R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associés. Le coefficient de corrélation de Spearman calculé entre (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) est égal au coefficient de corrélation de Pearson calculé entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn). Utilisé en non paramétrique si N<30 Biostatistiques : Petits effectifs 20/09/2012 Exemple 2 paramètres numériques mesurés chez 10 patients 140 120 100 Y 80 60 40 20 0 0 5 10 15 20 25 30 35 40 45 50 X Mesure de l’association : calcul du coefficient de Spearman R=0.973 p<0.0001 Biostatistiques : Petits effectifs 20/09/2012 Des questions ??? Alain Duhamel – Pôle de Santé Publique - [email protected] Patrick Devos – Délégation à la Recherche - [email protected] Julia Salleron – Pôle de Santé Publique – [email protected] Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire) Mme Brigitte Bonneau Contact : Pôle de Santé Publique 03 – 20 – 44 – 55 – 18 Biostatistiques : Petits effectifs 20/09/2012