3. Généralités - Université Lyon 1
Transcription
3. Généralités - Université Lyon 1
3. Généralités Contrairement à d’autres sciences, comme la physique, que l’on peut qualifier d’exactes et où les lois sont strictement déterministes, les sciences biomédicales étudient des systèmes qui se caractérisent par une grande variabilité. Leur étude scientifique n’a été permise qu’après l’émergence de l’outil statistique et l’établissement du paradigme probabiliste. Du fait de cette variabilité irréductible et imprévisible, les travaux de recherche biomédicale ne peuvent bien souvent conduire à des faits scientifiques qu’au travers d’un test statistique. Ainsi toute conclusion d’un essai clinique fait courir le risque d’un certain degré d’erreur (risques ® et ¯) qui est toutefois contrôlé. Dans cette situation, une donnée expérimentale ne peut être considérée comme réelle et devenir un fait scientifique que si elle a été confirmée dans des réplications de l’expérience initiale. En recherche clinique, la redondance des expériences s’impose, et les faits que l’on considérera comme définitivement acquis ne peuvent être issus que de la synthèse de plusieurs travaux. La nécessité d’une méthode de synthèse des données de la science s’impose donc. Alors que la méthodologie de l’expérimentation randomisée a été codifiée depuis longtemps à partir des premiers travaux de Fisher (« hypothesis-testing model »), la synthèse des travaux scientifiques est restée jusqu’à une date récente sans méthodologie précise et sans règle préétablie [26]. La démarche habituelle passait par des revues générales « d’experts » et l’acceptation d’un nouveau fait scientifique qui allait renforcer un paradigme en place se faisait sur la base d’un consensus des scientifiques du domaine [27]. Cette démarche dépend plus de la sociologie des sciences que d’une méthodologie scientifique. 3.1. La revue de la littérature La synthèse des données actuelles de la science est un acte traditionnel de la pratique scientifique. Elle s’effectue à l’occasion d’articles qui lui sont dédiés (les revues de la littérature) ou en introduction à de nouveaux travaux originaux. Paradoxalement cette synthèse échappe à toute méthode et aucune règle n’est établie. Sa forme est purement discursive et consiste en la présentation d’un certain nombre de travaux antérieurs, en leur opposition ou rapprochement, qui débouchent sur une conclusion synthétique et/ou une génération d’une nouvelle hypothèse à tester. Cet exercice 14 Généralités d’exégèse ne peut être considéré, la plupart du temps, que comme l’expression d’une opinion personnelle. La première critique que l’on peut faire à la revue de la littérature est l’absence de recherche de l’exhaustivité dans les données qu’elle exploite [28]. Il est fréquent que seuls les essais favorables à la thèse défendue soient retenus. Par exemple, les essais favorables à l’effet d’un nouveau traitement sont plus souvent cités que ceux qui sont en défaveur, sans qu’il y ait pour autant de malhonnêteté intellectuelle dans la démarche. Il apparaît tout simplement plus « excitant » à l’esprit humain de rapporter un fait positif. De plus, l’auteur de la revue de la littérature cherche principalement à montrer des arguments en faveur de l’idée qu’il défend. Ceci a été mis en évidence, par exemple, par U. Ravnskov, dans une analyse de la fréquence de citation en fonction de leurs résultats, de 22 essais d’interventions hypocholestérolémiantes en prévention des maladies cardiaques [29]. Comme nous l’avons vu précédemment, les résultats des essais sont variables, 14 essais supportent l’hypothèse d’une réduction de fréquence des événements coronariens pouvant éventuellement augmenter la survie (essais favorables) tandis que 10 autres la réfutent (essais non favorables). En utilisant la base de données Science Citation Index , Ravnskov a calculé la fréquence annuelle moyenne de citation pour ces deux catégories d’essais. Les essais favorables sont cités en moyenne 40 fois par an, tandis que les essais non favorables ne le sont que 7,4 fois. Cette différence flagrante ne peut être reliée ni à la taille des essais, ni à la renommée des revues dans lesquelles ils ont été publiés. L’essai des Lipids Research clinics et celui de Miettinen ont tous les deux été publiés dans le JAMA [13, 30]. Le premier est « favorable » et sera cité 109, 121, et 202 fois dans les trois années suivant sa publication. Par contre, pour le second, « non favorable » , les fréquences de citation ne sont que de 6, 5 et 3 fois. Cet exemple illustre le fait que la majorité des revues classiques ne rapportent que des résultats bien sélectionnés et ne présentent pas de façon balancée « le pour et le contre » . Un autre problème de la revue de la littérature est la façon dont la décision finale sur l’existence d’un effet du traitement est prise. Au mieux, même si les arguments pour et contre étaient présentés de façon exhaustive, le jugement final ne pourrait être que fondé sur la règle de la majorité ou sur une impression subjective. Or ce serait sans tenir compte de la nature probabiliste des conclusions individuelles des essais et du risque de conclusions erronées uniquement dues au hasard (voir la méthode des votes, section 3.4.A). De plus, la problématique de la quantification de l’effet traitement n’est pas abordée par la revue de la littérature. La méta-analyse se dote d’une méthode et de techniques statistiques qui lui permettent d’apporter une réponse fiable à ces trois problèmes [31]. Sa méthode conduit à une démarche argumentée et reproductible, les calculs statistiques permettent de Principe fondamental de la méta-analyse 15 tenir compte de la nature probabiliste des résultats d’essais et offrent la possibilité d’estimer la taille de l’effet du traitement [32, 33]. Cependant, la méta-analyse peut parfois apparaître sous un aspect réducteur, en agrégeant les données et en ne raisonnant qu’en terme de moyenne, s’opposant ainsi à la possibilité d’analyse fine qu’offre la revue de la littérature. Ceci n’est cependant pas exact. La méta-analyse et certaines techniques connexes permettent des analyses en détail des données disponibles : analyses en sous-groupes, modèle d’effet, modélisation. La méta-analyse sur données individuelles (traitées dans le chapitre 28) permet d’aller encore plus loin avec l’utilisation de techniques multivariées. Plusieurs voies existent pour faire la synthèse d’un ensemble de connaissances. Elles seront présentées dans la section 3.4. Leur informativité est variable, et seule la technique dite de la méta-analyse répond à la problématique soulevée ci-dessus. Les grands principes de la méta-analyse Exhaustivité des essais analysés Sélection argumentée des essais Quantification de l’effet du traitement 3.2. Principe fondamental de la méta-analyse Pour résoudre le problème posé par la synthèse des résultats de plusieurs essais, la première idée qui vient à l’esprit est de combiner directement les effectifs et les nombres d’événements de tous les essais, par sommation (parfois appelé en anglais « pooling »). Les effectifs des groupes sont additionnés, ainsi que les nombres d’événements. A partir de ces totaux, un risque relatif (ou tout autre mesure d’effet) est calculé, qui est censé représenter globalement l’effet du traitement. Exemple 3.1 Considérons deux essais thérapeutiques évaluant chacun le même traitement, avec comme critère de jugement la mortalité. Individuellement, les essais montrent une augmentation de la mortalité dans le groupe traité (groupe T) par rapport au groupe contrôle (groupe C). Les deux risques relatifs sont très proches 1,04 et 1,05, donnant ainsi une forte cohérence à ces deux résultats. La synthèse que l’on fait intuitivement est de conclure à un effet délétère du traitement. 16 Généralités Effectif Nombre de décès Risque relatif Essai 1 groupe T groupe C 160 240 9 13 1,04 Essai 2 groupe T groupe C 300 200 11 7 1,05 Somme groupe T groupe C 460 440 20 20 0,96 Cependant, contre toute attente, la combinaison par sommation de ces deux résultats conduit à une estimation inverse, avec un risque relatif combiné de 0,96, en faveur d’un effet bénéfique du traitement 1 . Un autre exemple est donné par les tables 2£2 suivantes où le résultat de la sommation est totalement opposé aux résultats des deux essais. Dans les deux essais, le traitement semble nettement réduire la fréquence des complications. Pourtant le résultat combiné par sommation conclut exactement à l’inverse2 . Effectif Nombre de complications Risque relatif Rapport des cotes Essai 1 groupe T groupe C 112 61 68 43 0,86 0,65 Essai 2 groupe T groupe C 52 119 11 35 0,72 0,64 Somme groupe T groupe C 164 180 79 78 1,11 1,22 Cette situation (connue sous le nom de paradoxe de Simpson) illustre bien l’inefficacité de cette méthode et ses dangers [34, 35]. 1 Une méthode appropriée de méta-analyse donne un risque relatif combiné de 1,04, beaucoup plus satisfaisant. 2 Une méthode appropriée de méta-analyse donne un rapport des cotes combiné de 0,65 ou un risque relatif combiné de 0,84, beaucoup plus satisfaisant. Les différents types de méta-analyse 17 Le problème illustré dans cet exemple provient à la fois du déséquilibre entre les deux groupes et de la différence des risques de base. Avec des effectifs similaires entre les deux groupes (ce qui est généralement le cas avec les essais thérapeutiques), le résultat de la sommation serait moins contradictoire, mais l’existence de contreexemples de ce type est suffisante pour invalider définitivement cette méthode. De plus, cette méthode pose des problèmes conceptuels. La sommation des effectifs conduit à considérer que les patients de tous les essais sont similaires et que l’on peut ainsi les regrouper. Cette hypothèse est forte. Les techniques de méta-analyse évitent de faire cette hypothèse et combinent les effets traitements et non pas les patients, en faisant seulement l’hypothèse de la constance de l’effet traitement d’un essai à l’autre. En d’autres termes, elles décomposent l’information apportée par un essai en une partie commune à tous les essais et en une partie spécifique de cet essai. Les techniques statistiques employées estiment en fait cette partie commune (ce point sera développé dans la section 17.2 consacrée aux généralités statistiques). 3.3. Les différents types de méta-analyse Une classification classique distingue trois types de méta-analyse en fonction du type des données utilisées : la « méta-analyse » des données de la littérature, la méta-analyse exhaustive sur données résumées et la méta-analyse sur données individuelles [36, 37]. « Méta-analyse » des données résumées de la littérature Les données utilisées pour ce type de méta-analyse sont représentées exclusivement par les données résumées des essais publiés, à l’exclusion de toute autre source d’information, en particulier les essais non publiés. Ainsi, seuls les essais publiés sont pris en considération. De ce fait, ce type de travail déroge à l’un des principes énoncés ci-dessus qui est celui de l’exhaustivité des informations synthétisées dans la méta-analyse. Cette approche expose au problème du biais de publication (cf. chapitre 6). Malgré ce risque, ce type de travaux est relativement fréquent. Cook et coll. n’ont dénombré, parmi 150 « méta-analyses » publiées entre 1989 et 1991, que seulement 30% de travaux qui avaient recherché des données non publiées [38]. Il s’agit en fait de méta-analyse que l’on peut rapprocher des analyses conjointes, c’est-à-dire de synthèses quantitatives de plusieurs essais sélectionnés. Méta-analyse exhaustive sur données résumées La méta-analyse exhaustive sur données résumées est le type de méta-analyse qui sera principalement décrite dans cet ouvrage. Elle utilise des données résumées, mais 18 Généralités les sources d’information ne se limitent pas aux essais publiés et comprennent aussi les travaux non publiés. Ainsi ce type d’approche suit tous les principes énoncés précédemment. Méta-analyse sur données individuelles La méta-analyse sur données individuelles se base sur les données de tous les patients inclus dans les essais pris en considération par la méta-analyse. Ces données sont en général contenues dans les fichiers d’analyse des essais. Ce type de méta-analyse présente une lourdeur sans commune mesure avec la méta-analyse sur données résumées. Néanmoins, il est raisonnable d’avancer qu’il s’agira, à l’avenir, de la méthode de référence [39]. Sa méthode et ses avantages seront développés dans le chapitre 28. 3.4. Les autres types de synthèse des connaissances Plusieurs autres méthodes de synthèse des résultats d’expériences (données actuelles de la science) ont été développées à côté de la méta-analyse. Elles sont de complexité et de précision variables et utilisent des données de natures différentes. Il s’agit, de la plus rudimentaire à la plus fine, des méthodes suivantes : – la méthode des votes, – la combinaison des degrés de signification statistique, – la combinaison des effets traitement (classiquement appelée « méta-analyse »), – la modélisation de l’effet traitement. A) La méthode des votes La méthode des votes 3 , introduite par Light et Smith, est relativement simple. Les essais sont classés en trois catégories suivant le résultat qualitatif du test statistique : les essais qui ont montré un effet bénéfique statistiquement significatif (« résultat positif »); ceux qui n’ont pas atteint la signification statistique (« résultat nul ») et ceux qui ont montré un effet délétère significatif (« résultat négatif ») [40]. La catégorie qui contient plus du tiers de l’ensemble des essais est alors considérée comme représentative de ce qu’est réellement l’effet du traitement. D’autres critères que cette proportion d’un tiers sont possibles, la moitié ou les quatre cinquièmes ont été utilisés par certains, le choix de ce seuil étant arbitraire. Cette méthode présente deux intérêts : 3 En anglais « vote-counting » ou « box-score ». Les autres types de synthèse des connaissances 19 1. elle permet de combiner des résultats obtenus avec des critères de jugements ou des procédures statistiques très différentes les unes des autres, 2. elle demande très peu d’informations sur les essais, seulement le résultat qualitatif du test qui est très fréquemment rapporté dans les comptes rendus d’essais. Du fait de son extrême simplicité et du caractère très réducteur du paramètre sur lequel elle se base, cette technique échoue très fréquemment et conduit à des résultats erronés. Si les essais ont été insuffisamment puissants, leurs résultats seront à tort nuls (erreur de seconde espèce) et cette catégorie l’emportera sur les autres. La technique conclura elle aussi, à tort, à une absence d’effet traitement. Paradoxalement, l’augmentation de la quantité d’information disponible par augmentation du nombre d’essais rend la méthode de moins en moins efficace. Des adaptations qui conduisent à un test statistique ont été développées. Hedges et Olkin propose une adaptation qui permet d’intégrer la puissance des essais et d’estimer un effet standardisé 4 (« effect size ») [41]. La section 25.1 présente les techniques statistiques permettant de réaliser ce type de synthèse. B) Combinaison des degrés de signification Les degrés de signification (valeur de p, « p-value » en anglais) peuvent être combinés entre eux. Le degré de signification combiné obtenu permet de tester l’hypothèse nulle globale : le traitement n’a pas d’effet à partir de la totalité de l’information apportée par l’ensemble des essais. Ces procédures statistiques sont anciennes [42–44]. Cette technique ne permet d’obtenir qu’un résultat qualitatif (résultat significatif ou non). Les bases statistiques de cette approche de la synthèse des résultats d’essais et quelques techniques de combinaison sont décrites dans la section 25.2. C) Addition des effectifs Par le terme de « pooling » emprunté à l’anglais, on désigne la technique qui consiste à faire de simples additions pour regrouper les essais. Les effectifs des groupes seront additionnés entre eux ainsi que les nombres d’événements. La comparaison globale et l’estimation de l’effet traitement combiné se basent sur ces totaux. L’exemple présenté page 16 montre le danger que fait courir cette technique qui ne doit pas être utilisée. 4 La notion d’effet réduit sera envisagée dans le chapitre consacré aux critères continus (chapitre 21). 20 Utilisation de la méta-analyse D) Méta-analyse Par rapport aux méthodes précédentes, la méta-analyse manipule l’information directement dans la métrique de la variable d’intérêt. Elle autorise la démonstration de l’effet et la quantification de l’effet traitement sans transformation ou artifice. Par contre son raisonnement se fait en terme moyen. Une analyse plus fine, prenant en compte les facteurs de variation de l’effet, est permise par la technique suivante. E) Modélisation de l’effet traitement La modélisation de l’effet traitement consiste à essayer d’expliquer, à partir des caractéristiques de base des patients ou à partir des modalités thérapeutiques, les différences de niveau d’effet observées entre différents essais. Avec la modélisation de l’effet, la variabilité est considérée d’une façon radicalement différente de celle qui est en vigueur avec les techniques de méta-analyse. Avec ces dernières, la variabilité est un paramètre de nuisance (l’hétérogénéité) qui contredit l’hypothèse de l’existence d’un effet traitement commun à tous les essais. Au contraire, la modélisation de l’effet va considérer la variabilité comme informative car témoignant de l’existence de facteurs de modulation de la réponse thérapeutique. Ceci débouche sur une recherche des facteurs expliquant les variations observées dans les essais. La connaissance de ces facteurs devrait entraîner une meilleure utilisation des traitements (administration à bon escient, aux sujets potentiellement répondeurs, ou abstention chez des sujets particulièrement à risque d’effets indésirables). Les techniques employées pour cette modélisation seront développées dans la section 24.3.