PLACE DU STATISTICIEN DANS LES ESSAIS CLINIQUES
Transcription
PLACE DU STATISTICIEN DANS LES ESSAIS CLINIQUES
PLACE DES STATISTIQUES DANS LA RECHERCHE MEDICALE Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé PLAN Définition des statistiques Échantillonnage Mise en place d’une étude Interprétation des résultats Analyse des bases de données Méthodes multivariées Exemples Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Petits échantillons Grands échantillons Master Recherche Biologie et Santé INTRODUCTION Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé La Statistique et les Biostatistiques La STATISTIQUE : discipline traitant du recueil (plans d’expérience, sondages, …), du traitement et de l’interprétation de données caractérisées par une grande variabilité. Partie des mathématiques appliquées, utilisant la théorie des probabilités. Beaucoup de domaines d’applications • • • • • Sondages : enquêtes d’opinion Industrie : contrôle de qualité Marketing : scoring, profil de consommateurs Médecine : épidémiologie, recherche clinique …….. Statistiques appliquées à la Médecine = BIOSTATISTIQUES • • Données spécifiques : variabilité inter et intra, données interprétées, … Méthodes spécifiques : survie, courbes ROC, plans d’expérience… Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Problématique actuelle Révolution Informatique Nouveaux enjeux Multiplication des sources de données ( SIH, Internet, ….) Explosion des moyens de calculs (PC 4GHz) Mise à disposition de plus en plus de logiciels de plus en plus évolués (SPSS, STATVIEW, S+, STATISTICA, R ….) Politique de Recherche et de Publication Rigueur exigée Besoin de méthodes exploratoires efficaces (grandes bases de données) Nécessité d’une méthodologie statistique rigoureuse Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Méthodologie statistique Employer bien sûr la " bonne" procédure statistique pendant l’analyse MAIS cela ne suffit pas … Choisir le bon type d’étude Choisir le bon plan d’expérience Choisir les bons critères de jugement Qualité des données recueillies Avant l ’étude Analyse statistique rigoureuse (tests, modèles, …) Bonne interprétation des résultats Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Fin d’étude Master Recherche Biologie et Santé Schéma général d’une étude Projet : Objectifs, Bibliographie Plan d’analyse … Echantillon Recueil des données Analyse Descriptive Analyse Inférentielle Interprétation Rapport Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé L’Échantillonnage Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé L’inférence statistique On désire étudier une population P Principe : • • • On tire un échantillon E de taille n issu de P On analyse les caractéristiques de E On généralise à P Attention !! • • E doit être un échantillon représentatif de P E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats Définir très précisément la population que l’on désire étudier !! Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les fluctuations d’échantillonnage Quand on tire aléatoirement un échantillon, on a des fluctuations. Exemple : on s’intéresse aux 10 premiers étudiants entrant dans l’amphi. On comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants sont des femmes ? NON !!! Soit X le nombre de femmes parmi les 10 étudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramètre 0.5 (on considère que dans la population totale, les proportions d’hommes et de femmes sont les mêmes) et calculer la probabilité d’observer 0,1,2,…,10 femmes. Statistiques et Recherche Biomédicale 0.3 0.25 P(X=k) 0.2 0.15 0.1 0.05 0 P. Devos – CERIM – Sept 2005 0 1 2 3 4 5 6 7 8 9 10 Master Recherche Biologie et Santé Les prendre en compte Comment prendre en compte les fluctuations d’échantillonnage ? 1) En vérifiant que l’échantillon est représentatif (tests d’adéquation par exemple) 2) En donnant la marge d’erreur que l’on commet en raisonnant sur un échantillon (Intervalles de confiance) 3) En maîtrisant les risques d’erreurs (puissance) Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Mise en Place d’une Étude Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les différents types d’études Étude rétrospective : Étude la plus fréquente + • • • Pas d’inclusion de patients Collecte de données à partir des dossiers Rapide et simple à mettre en œuvre - • • Comparabilité des groupes Qualité des données recueillies Étude prospective pilote + • • • En général, peu de patients Qualité des données Sert à déterminer des caractéristiques pour une étude comparative contrôlée. - • • Pas de comparaisons Résultats limités Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les différents types d’études Étude prospective contrôlée (essai contrôlé) : Cas le plus complexe + • • • Résultats fiables (Puissance calculée au début de l’étude) Critères d’inclusion + Randomisation / Comparabilité des groupes Critères de jugement définis au début - • • Étude longue ( en général, 3 ans minimum). Peut être coûteuse + - Étude épidémiologique, Cohorte, … • Résultats fiables (Puissance statistique) • • • Grand nombre de sujets Suivi au cours du temps (10,15 ans !!) Multicentrique Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Mise en Place d’une Étude Dans tous les cas, rédaction d’un protocole !! Protocole Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Conseils pour la Rédaction du Protocole L'introduction : ce paragraphe a pour objectifs : • de décrire l'état actuel des connaissances sur le sujet • d'expliquer le problème scientifique Les objectifs de l'étude : il s'agit de décrire en quelques phrases l'objectif principal de l'étude et les objectifs secondaires. Ces objectifs doivent être précis et déduits du paragraphe précédent. La sélection des patients : ce paragraphe a pour objectifs : • de décrire la méthode de recrutement, • de définir des groupes éventuels, • de préciser les critères d'inclusion et de non-inclusion. Les critères de jugement : définir précisément le critère de jugement principal et éventuellement les critères secondaires : pourcentage de guérison, mesure d'un paramètre biologique, score, durée de vie,… Ce critère conditionne le type d'analyse statistique. Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Conseils pour la Rédaction du Protocole Plan d'expérience : • expliciter le plan d'expérience envisagé : groupes parallèles, plan 2x2, crossover, … • nombre de sujets recrutés : s'il est basé sur un calcul de nombre de sujets nécessaires, indiquer les éléments du calcul, sinon justifier le nombre choisi (données bibliographiques, étude exploratoire...). • durée prévue de l'étude. Information recueillie : description des paramètres enregistrés, mode de recueil. Analyses statistiques : décrire brièvement le type d'analyses statistiques envisagées. Documents annexes : lettre d'information, consentement éclairé, références bibliographiques, cahier d'observation, CV des investigateurs. Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Quelques aspects statistiques Détermination du plan d’expérience • • • groupes parallèles, plans factoriels appariement, stratification cross-over, carré latin Discussion sur les variables analysées : • • critères de jugement (principal et secondaires), dans le cas d’un essai clinique Attention, la multiplication des hypothèses et des tests rend la conclusion de l’étude très difficile : l’étude doit être bâti autour de quelques questions précises Type d’analyses statistiques prévues Détermination de la taille des échantillons Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Que veut-on montrer ?? Efficacité ou Équivalence ? • • Les essais d’efficacité : on suppose l’égalité des traitements et on cherche à rejeter l ’hypothèse Les essais d’équivalence : on considère que deux traitements sont équivalents si la différence entre-eux ne dépasse pas ∆. Comparaison de moyennes, de fréquences, de courbes ? Test Unilatéral ou Bilatéral ? Plan d’Expérience ? • • • Nombre de groupes ? Indépendant / Apparié ? Stratification, facteur de confusion, … ? Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les plans d’expérience De nombreux types de plan d'expérience. • • • • Groupes parallèles +++ comparaisons intra-individuelles Mesures répétées …. Le choix entre plusieurs plans doit être fait en tenant compte de leurs avantages et de leurs inconvénients. Le choix du plan détermine : • • la méthodologie statistique à employer pour l'analyse le nombre de patients à inclure dans l'étude Un plan d'expérience est choisi de manière à optimiser la puissance des tests statistiques tout en minimisant le nombre de patients à inclure dans l'étude. Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les Groupes Parallèles Certainement le plan le plus simple et le plus utilisé. • L'ensemble des patients est divisé en plusieurs groupes homogènes, de même taille en général, de manière à avoir une comparaison statistique la plus "efficace" possible. • Chaque patient reçoit un traitement et un seul. • Méthodologie statistique d'analyse simple.(ANOVA 1Facteur) Attention à la comparabilité des groupes de traitements. La variabilité entre les sujets peut être importante. Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les comparaisons intra-individuelles Dans ce type d'essai, le sujet est son propre témoin et reçoit donc successivement deux ou plusieurs traitements, dans un ordre aléatoire. Tailles d'échantillon plus faibles, chaque patient étant "utilisé" plusieurs fois Permet de minimiser la variance inter-sujet dans les différents stades de l'expérimentation (efficace si Variance Intra < Variance Inter). Suppose que le sujet soit dans les mêmes conditions dans les différentes phases d'expérimentation Aucun des traitements administrés au cours d'une phase ne doit influencer les résultats de la phase suivante Î WASH-OUT Statistiques et Recherche Biomédicale (période de "sevrage" ) P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Plans Intra-Individuels : 2 Traitements L'essai croisé (cross-over): on compare deux traitements A et B • Chaque patient reçoit soit A puis B, ou B puis A. • Indispensable d'étudier simultanément l'effet des traitements mais également l'ordre d'administration. • Si plus de deux traitements, le cross-over est trop compliqué et l'on utilise alors le carré latin T0 A X0 Baseline B X1 WASH-OUT X2 Contrôle X3 T0 B X0 Baseline Statistiques et Recherche Biomédicale A X1 WASH-OUT P. Devos – CERIM – Sept 2005 X2 Contrôle X3 Master Recherche Biologie et Santé Mesures Répétées 2 Groupes : A et B 1 variable numérique X mesurée k fois (T1, T2, …, Tk) 55 55 50 A 45 B 50 A 45 B 55 A 50 B 45 40 40 40 35 35 35 30 30 30 25 25 1 3 5 25 1 3 5 1 3 5 Très utilisé !!!! Méthodologie statistique relativement simple (ANOVA en Mesures Répétées) Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Nombre de cas à inclure dans l’étude ? On a déterminé le problème clinique On a déterminé le(s) critère(s) de jugement On a défini le plan d’expérience adapté Pb : combien, doit-on inclure de patients pour répondre correctement à l’hypothèse posée ? On utilise un test statistique Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Notion de puissance Master Recherche Biologie et Santé Notion de puissance d’un test Puissance = F(∆,N, variabilité = DS) • La variabilité peut masquer la différence (2) Puissance dépend du risque de première espèce α , mais inutile en pratique car α fixé à 5% Puissance = F(∆,N,DS) En pratique, on estime ∆ et DS et on déduit N ∆ Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Notion de puissance d’un test Les deux risques sont antagonistes α = 0 → β=1 et β=0 →α=1 En pratique : • • • • • on fixe α=5% on se donne ∆ sur critères cliniques on estime σ (étude pilote) on a donc « la main » que sur N : on calcule N pour assurer β = 10% ou 20% (puissance > 80%) Formules, tables, logiciels Exemple, pour 2 moyennes : Statistiques et Recherche Biomédicale n = 2( z1−α + z1− β ) 2 P. Devos – CERIM – Sept 2005 σ² ∆² Master Recherche Biologie et Santé Puissance d’un test et Taille d’échantillon Comparaison de deux antihypertenseurs avec : • • • Différence à mettre en évidence (∆) : 5mm de mercure Ecart-type (DS): 10 mm Risque de première espèce (α ): 5% 1- β = 0.9 Ö N1=N2=86 1 Puissance 0.8 Si N1=N2=30 Ö 1-β = 0.48 0.6 (1- β = puissance) 0.4 0.2 0 0 50 100 150 200 Nombre de Patients par Groupe Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Ne pas confondre : Conditions d’application du test et Puissance du test Master Recherche Biologie et Santé Traitement statistique des données Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Le recueil des données (Data Management) Les résultats statistiques sont fonction des données - Problème de la qualité des données Problème des données manquantes (analyses multivariées) !! Pour certains essais, nécessité de suivre des guidelines (FDA, AMM) 2 approches : • • Maximaliste : Guidelines ( double saisie, confrontation et gel de la base) Minimaliste : logiciel permettant le contrôle à la saisie (bornes, valeurs autorisées …) Approche 1 : Complexe, longue et coûteuse - A éviter si possible Approche 2 : Approche minimale, quelque soit l’essai. Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Méthodes Statistiques : définitions générales INDIVIDU : Objet sur lequel un ou plusieurs caractères peuvent être observés. POPULATION : Ensemble des individus pris en considération. VARIABLE : Propriété servant à distinguer les individus d'une population. Un caractère peut être qualitatif (attribut) ou quantitatif. DISCRETES (Nombre limité de valeurs) QUANTITATIVES CONTINUES (prend ses valeurs dans un intervalle VARIABLES BINAIRES ( Présent / Absent ) QUALITATIVES NOMINALES (SEXE, Couleur des Yeux, CSP, …) ORDINALES = SCORE (Notion d’ordre) Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Les méthodes statistiques Univariée (moyenne, DS, …) Descriptive Multivariée (ACP, …) La statistique Univariée (tests, …) Inférentielle Multivariée (modèles, …) Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé La Statistique Descriptive BUTS : • • • • Contrôle de qualité des données, descriptifs simples (moyennes, …). Synthétiser, résumer, structurer l'information contenue dans les données. Mettre en évidence des propriétés de l'échantillon. Suggérer des hypothèses. Analyses univariées : moyennes, histogramme, box-plot, fréquences, … Analyses multivariées =Analyse des Données. Permet de traiter des données multidimensionnelles. Principales méthodes multivariées: • • • Méthodes de classification : déterminer des sous-groupes homogènes Méthodes factorielles : réduire le nombre de variables par construction d'axes synthétiques (ACP, AFC, ACM, ...), mais aussi sous-groupes d’individus 2 classes de méthodes souvent complémentaires Cours N° 2 Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé La Statistique Inférentielle Univariée BUT : Valider ou infirmer des hypothèses a priori ou formulées après une phase exploratoire. Utilisation de tests statistiques se référant à des modèles probabilistes. EXEMPLES : • • • • • Comparaison de moyennes ANOVA (+ + + !!!) Comparaison de fréquences Tests de lois ... Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé STATISTIQUE DESCRIPTIVE UNIVARIEE Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Analyse descriptive univariée 3 Objectifs : Contrôle des données : Fréquences et Box-plots Calcul des statistiques descriptives : moyenne, …. Présentation des résultats : • Moyenne ± Déviation standard • Fréquence avec Intervalle de confiance Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Paramètres statistiques de base Moyenne : x 1 n = ∑ xi n i =1 2 1 n xi − x ) Variance estimée: s ² = ( ∑ n − 1 i =1 Déviation standard : racine carrée de la variance Min, Max, Médiane, Quartiles, Centiles Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Le Box-Plot ( Boîte à Moustaches ) X max 0 1,5 (Q3-Q1) Q3 + Médiane II=Q3-Q1 0 : valeur comprise entre 1.5 et 3 interquartiles * : valeur supérieure à 3 interquartiles Q1 1,5 (Q3-Q1) X min Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Représentations graphiques VARIABLES DISCRETES Femme 45% Homme 55% VARIABLES CONTINUES Homme Femme VARIABLES QUALITATIVES Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Intervalles de confiance à 95% d’un paramètre numérique : si X suit une loi normale d’une moyenne : quelque soit la loi de X, si n > 30 d’une fréquence si np , nq > 10 Statistiques et Recherche Biomédicale x ± 1 . 96 DS 1 . 96 DS x ± n p ± 1.96 P. Devos – CERIM – Sept 2005 p(1 - p) n Master Recherche Biologie et Santé Distribution d’un paramètre (loi) Différentes formes observables D e n s i t y 0. 04 0. 02 0 - 2 2 6 10 14 18 22 26 30 34 38 X Modélisation de la distribution : Hypothèse de loi Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Tests de Normalité Hypothèses de normalité requise pour • test T, ANOVA • régression, • Intervalles de confiance (valeurs normales) -4 -3 -2 -1 0 1 2 3 4 •… SHAPIRO-WILK ( N< 50 ) ou KOLMOGOROV-SMIRNOV ( N> 50 ) TEST D'ADEQUATION DU χ² Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé 4 Lois principalement rencontrées Loi normale : modélise des phénomènes observés (poids des bébés) ou loi limite Loi Log-normale : équivaut à LnX~ N(m,s) (paramètres biologiques) Loi de Weibull : utilisée en fiabilité des matériels ou survie Loi exponentielle : cas simple de loi de Weibull (survie des ampoules) Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé 4 Lois principalement rencontrées 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3 -2 -1 0 1 2 0 3 2 Loi Normale (Laplace-Gauss) 4 6 8 10 12 Loi Log-Normale 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 0.5 1 1.5 2 2.5 3 0 Loi de Weibull Statistiques et Recherche Biomédicale 1 2 3 4 5 6 Loi Exponentielle P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Comparaison de groupes, quel(s) test(s) utiliser ? Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Comparaison de Groupes Choix du test statistique – Dépend de : • La nature de la variable • Du nombre de groupes • De la taille des groupes Cas des variables binaires ou qualitatives : Test du χ² ou Fisher exact Variables numériques : plusieurs cas : • <5 valeurs différentes : variables nominales. On utilise des tests de rang (nonparamétriques) tels que les tests de Wilcoxon ou Kruskal-Wallis. • > 5 valeurs différentes : on considère que la variable est continue. Choix du test fait en fonction de plusieurs critères (algorithme suivant) Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé Comparaison de groupes : variable numérique Variable continue 2 groupes ∃ ni < 30 n1 ou n2 < 30 n1 et n2 > 30 Ecart-réduit >2 groupes X ~ N(m,σ) (biblio) OUI ni > 30 2 parmi les 3 : 1) groupes équilibrés 2) variances égales 3) distributions similaires NON Tester variances homogénéité Student Non homogénéité Wilcoxon Statistiques et Recherche Biomédicale OUI ANOVA P. Devos – CERIM – Sept 2005 NON Kruskal-Wallis Master Recherche Biologie et Santé Des Questions ? Patrick Devos Délégation à la Recherche Direction Générale CHRU de Lille CERIM Faculté de Médecine Université de Lille 2 [email protected] Statistiques et Recherche Biomédicale P. Devos – CERIM – Sept 2005 Master Recherche Biologie et Santé