3. Généralités - Université Lyon 1

Transcription

3. Généralités - Université Lyon 1
3.
Généralités
Contrairement à d’autres sciences, comme la physique, que l’on peut qualifier d’exactes et où les lois sont strictement déterministes, les sciences biomédicales étudient
des systèmes qui se caractérisent par une grande variabilité. Leur étude scientifique
n’a été permise qu’après l’émergence de l’outil statistique et l’établissement du paradigme probabiliste. Du fait de cette variabilité irréductible et imprévisible, les travaux de recherche biomédicale ne peuvent bien souvent conduire à des faits scientifiques qu’au travers d’un test statistique. Ainsi toute conclusion d’un essai clinique
fait courir le risque d’un certain degré d’erreur (risques ® et ¯) qui est toutefois
contrôlé. Dans cette situation, une donnée expérimentale ne peut être considérée
comme réelle et devenir un fait scientifique que si elle a été confirmée dans des
réplications de l’expérience initiale. En recherche clinique, la redondance des expériences s’impose, et les faits que l’on considérera comme définitivement acquis ne
peuvent être issus que de la synthèse de plusieurs travaux. La nécessité d’une méthode de synthèse des données de la science s’impose donc. Alors que la méthodologie de l’expérimentation randomisée a été codifiée depuis longtemps à partir
des premiers travaux de Fisher (« hypothesis-testing model »), la synthèse des travaux scientifiques est restée jusqu’à une date récente sans méthodologie précise et
sans règle préétablie [26]. La démarche habituelle passait par des revues générales
« d’experts » et l’acceptation d’un nouveau fait scientifique qui allait renforcer un
paradigme en place se faisait sur la base d’un consensus des scientifiques du domaine [27]. Cette démarche dépend plus de la sociologie des sciences que d’une
méthodologie scientifique.
3.1. La revue de la littérature
La synthèse des données actuelles de la science est un acte traditionnel de la pratique
scientifique. Elle s’effectue à l’occasion d’articles qui lui sont dédiés (les revues de
la littérature) ou en introduction à de nouveaux travaux originaux. Paradoxalement
cette synthèse échappe à toute méthode et aucune règle n’est établie. Sa forme est
purement discursive et consiste en la présentation d’un certain nombre de travaux
antérieurs, en leur opposition ou rapprochement, qui débouchent sur une conclusion
synthétique et/ou une génération d’une nouvelle hypothèse à tester. Cet exercice
14
Généralités
d’exégèse ne peut être considéré, la plupart du temps, que comme l’expression d’une
opinion personnelle.
La première critique que l’on peut faire à la revue de la littérature est l’absence de
recherche de l’exhaustivité dans les données qu’elle exploite [28]. Il est fréquent que
seuls les essais favorables à la thèse défendue soient retenus. Par exemple, les essais
favorables à l’effet d’un nouveau traitement sont plus souvent cités que ceux qui
sont en défaveur, sans qu’il y ait pour autant de malhonnêteté intellectuelle dans la
démarche. Il apparaît tout simplement plus « excitant » à l’esprit humain de rapporter
un fait positif. De plus, l’auteur de la revue de la littérature cherche principalement
à montrer des arguments en faveur de l’idée qu’il défend.
Ceci a été mis en évidence, par exemple, par U. Ravnskov, dans une analyse de
la fréquence de citation en fonction de leurs résultats, de 22 essais d’interventions
hypocholestérolémiantes en prévention des maladies cardiaques [29]. Comme nous
l’avons vu précédemment, les résultats des essais sont variables, 14 essais supportent l’hypothèse d’une réduction de fréquence des événements coronariens pouvant
éventuellement augmenter la survie (essais favorables) tandis que 10 autres la réfutent (essais non favorables). En utilisant la base de données Science Citation Index ,
Ravnskov a calculé la fréquence annuelle moyenne de citation pour ces deux catégories d’essais. Les essais favorables sont cités en moyenne 40 fois par an, tandis
que les essais non favorables ne le sont que 7,4 fois. Cette différence flagrante ne
peut être reliée ni à la taille des essais, ni à la renommée des revues dans lesquelles
ils ont été publiés. L’essai des Lipids Research clinics et celui de Miettinen ont tous
les deux été publiés dans le JAMA [13, 30]. Le premier est « favorable » et sera cité
109, 121, et 202 fois dans les trois années suivant sa publication. Par contre, pour le
second, « non favorable » , les fréquences de citation ne sont que de 6, 5 et 3 fois.
Cet exemple illustre le fait que la majorité des revues classiques ne rapportent que
des résultats bien sélectionnés et ne présentent pas de façon balancée « le pour et le
contre » .
Un autre problème de la revue de la littérature est la façon dont la décision finale
sur l’existence d’un effet du traitement est prise. Au mieux, même si les arguments
pour et contre étaient présentés de façon exhaustive, le jugement final ne pourrait être
que fondé sur la règle de la majorité ou sur une impression subjective. Or ce serait
sans tenir compte de la nature probabiliste des conclusions individuelles des essais
et du risque de conclusions erronées uniquement dues au hasard (voir la méthode
des votes, section 3.4.A).
De plus, la problématique de la quantification de l’effet traitement n’est pas
abordée par la revue de la littérature.
La méta-analyse se dote d’une méthode et de techniques statistiques qui lui permettent d’apporter une réponse fiable à ces trois problèmes [31]. Sa méthode conduit
à une démarche argumentée et reproductible, les calculs statistiques permettent de
Principe fondamental de la méta-analyse
15
tenir compte de la nature probabiliste des résultats d’essais et offrent la possibilité
d’estimer la taille de l’effet du traitement [32, 33].
Cependant, la méta-analyse peut parfois apparaître sous un aspect réducteur, en
agrégeant les données et en ne raisonnant qu’en terme de moyenne, s’opposant ainsi
à la possibilité d’analyse fine qu’offre la revue de la littérature. Ceci n’est cependant
pas exact. La méta-analyse et certaines techniques connexes permettent des analyses en détail des données disponibles : analyses en sous-groupes, modèle d’effet,
modélisation. La méta-analyse sur données individuelles (traitées dans le chapitre
28) permet d’aller encore plus loin avec l’utilisation de techniques multivariées.
Plusieurs voies existent pour faire la synthèse d’un ensemble de connaissances.
Elles seront présentées dans la section 3.4. Leur informativité est variable, et seule
la technique dite de la méta-analyse répond à la problématique soulevée ci-dessus.
Les grands principes de la méta-analyse
Exhaustivité des essais analysés
Sélection argumentée des essais
Quantification de l’effet du traitement
3.2. Principe fondamental de la méta-analyse
Pour résoudre le problème posé par la synthèse des résultats de plusieurs essais,
la première idée qui vient à l’esprit est de combiner directement les effectifs et les
nombres d’événements de tous les essais, par sommation (parfois appelé en anglais
« pooling »). Les effectifs des groupes sont additionnés, ainsi que les nombres d’événements. A partir de ces totaux, un risque relatif (ou tout autre mesure d’effet) est
calculé, qui est censé représenter globalement l’effet du traitement.
Exemple 3.1 Considérons deux essais thérapeutiques évaluant chacun le même
traitement, avec comme critère de jugement la mortalité. Individuellement, les essais
montrent une augmentation de la mortalité dans le groupe traité (groupe T) par
rapport au groupe contrôle (groupe C). Les deux risques relatifs sont très proches
1,04 et 1,05, donnant ainsi une forte cohérence à ces deux résultats. La synthèse que
l’on fait intuitivement est de conclure à un effet délétère du traitement.
16
Généralités
Effectif
Nombre de
décès
Risque
relatif
Essai 1
groupe T
groupe C
160
240
9
13
1,04
Essai 2
groupe T
groupe C
300
200
11
7
1,05
Somme
groupe T
groupe C
460
440
20
20
0,96
Cependant, contre toute attente, la combinaison par sommation de ces deux résultats conduit à une estimation inverse, avec un risque relatif combiné de 0,96, en
faveur d’un effet bénéfique du traitement 1 .
Un autre exemple est donné par les tables 2£2 suivantes où le résultat de la
sommation est totalement opposé aux résultats des deux essais. Dans les deux essais,
le traitement semble nettement réduire la fréquence des complications. Pourtant le
résultat combiné par sommation conclut exactement à l’inverse2 .
Effectif
Nombre de
complications
Risque
relatif
Rapport
des cotes
Essai 1
groupe T
groupe C
112
61
68
43
0,86
0,65
Essai 2
groupe T
groupe C
52
119
11
35
0,72
0,64
Somme
groupe T
groupe C
164
180
79
78
1,11
1,22
Cette situation (connue sous le nom de paradoxe de Simpson) illustre bien l’inefficacité de cette méthode et ses dangers [34, 35].
1
Une méthode appropriée de méta-analyse donne un risque relatif combiné de 1,04, beaucoup
plus satisfaisant.
2
Une méthode appropriée de méta-analyse donne un rapport des cotes combiné de 0,65 ou un
risque relatif combiné de 0,84, beaucoup plus satisfaisant.
Les différents types de méta-analyse
17
Le problème illustré dans cet exemple provient à la fois du déséquilibre entre
les deux groupes et de la différence des risques de base. Avec des effectifs similaires
entre les deux groupes (ce qui est généralement le cas avec les essais thérapeutiques),
le résultat de la sommation serait moins contradictoire, mais l’existence de contreexemples de ce type est suffisante pour invalider définitivement cette méthode.
De plus, cette méthode pose des problèmes conceptuels. La sommation des effectifs conduit à considérer que les patients de tous les essais sont similaires et que l’on
peut ainsi les regrouper. Cette hypothèse est forte. Les techniques de méta-analyse
évitent de faire cette hypothèse et combinent les effets traitements et non pas les
patients, en faisant seulement l’hypothèse de la constance de l’effet traitement d’un
essai à l’autre. En d’autres termes, elles décomposent l’information apportée par un
essai en une partie commune à tous les essais et en une partie spécifique de cet essai. Les techniques statistiques employées estiment en fait cette partie commune (ce
point sera développé dans la section 17.2 consacrée aux généralités statistiques).
3.3. Les différents types de méta-analyse
Une classification classique distingue trois types de méta-analyse en fonction du
type des données utilisées : la « méta-analyse » des données de la littérature, la
méta-analyse exhaustive sur données résumées et la méta-analyse sur données individuelles [36, 37].
« Méta-analyse » des données résumées de la littérature
Les données utilisées pour ce type de méta-analyse sont représentées exclusivement
par les données résumées des essais publiés, à l’exclusion de toute autre source
d’information, en particulier les essais non publiés. Ainsi, seuls les essais publiés
sont pris en considération. De ce fait, ce type de travail déroge à l’un des principes
énoncés ci-dessus qui est celui de l’exhaustivité des informations synthétisées dans
la méta-analyse. Cette approche expose au problème du biais de publication (cf.
chapitre 6).
Malgré ce risque, ce type de travaux est relativement fréquent. Cook et coll. n’ont
dénombré, parmi 150 « méta-analyses » publiées entre 1989 et 1991, que seulement
30% de travaux qui avaient recherché des données non publiées [38].
Il s’agit en fait de méta-analyse que l’on peut rapprocher des analyses conjointes,
c’est-à-dire de synthèses quantitatives de plusieurs essais sélectionnés.
Méta-analyse exhaustive sur données résumées
La méta-analyse exhaustive sur données résumées est le type de méta-analyse qui
sera principalement décrite dans cet ouvrage. Elle utilise des données résumées, mais
18
Généralités
les sources d’information ne se limitent pas aux essais publiés et comprennent aussi
les travaux non publiés. Ainsi ce type d’approche suit tous les principes énoncés
précédemment.
Méta-analyse sur données individuelles
La méta-analyse sur données individuelles se base sur les données de tous les patients
inclus dans les essais pris en considération par la méta-analyse. Ces données sont
en général contenues dans les fichiers d’analyse des essais. Ce type de méta-analyse
présente une lourdeur sans commune mesure avec la méta-analyse sur données résumées. Néanmoins, il est raisonnable d’avancer qu’il s’agira, à l’avenir, de la méthode de référence [39]. Sa méthode et ses avantages seront développés dans le
chapitre 28.
3.4. Les autres types de synthèse des connaissances
Plusieurs autres méthodes de synthèse des résultats d’expériences (données actuelles
de la science) ont été développées à côté de la méta-analyse. Elles sont de complexité
et de précision variables et utilisent des données de natures différentes. Il s’agit, de
la plus rudimentaire à la plus fine, des méthodes suivantes :
– la méthode des votes,
– la combinaison des degrés de signification statistique,
– la combinaison des effets traitement (classiquement appelée « méta-analyse »),
– la modélisation de l’effet traitement.
A) La méthode des votes
La méthode des votes 3 , introduite par Light et Smith, est relativement simple. Les
essais sont classés en trois catégories suivant le résultat qualitatif du test statistique :
les essais qui ont montré un effet bénéfique statistiquement significatif (« résultat
positif »); ceux qui n’ont pas atteint la signification statistique (« résultat nul ») et
ceux qui ont montré un effet délétère significatif (« résultat négatif ») [40].
La catégorie qui contient plus du tiers de l’ensemble des essais est alors considérée
comme représentative de ce qu’est réellement l’effet du traitement. D’autres critères
que cette proportion d’un tiers sont possibles, la moitié ou les quatre cinquièmes ont
été utilisés par certains, le choix de ce seuil étant arbitraire.
Cette méthode présente deux intérêts :
3
En anglais « vote-counting » ou « box-score ».
Les autres types de synthèse des connaissances
19
1. elle permet de combiner des résultats obtenus avec des critères de jugements ou
des procédures statistiques très différentes les unes des autres,
2. elle demande très peu d’informations sur les essais, seulement le résultat
qualitatif du test qui est très fréquemment rapporté dans les comptes rendus
d’essais.
Du fait de son extrême simplicité et du caractère très réducteur du paramètre sur
lequel elle se base, cette technique échoue très fréquemment et conduit à des résultats erronés. Si les essais ont été insuffisamment puissants, leurs résultats seront à
tort nuls (erreur de seconde espèce) et cette catégorie l’emportera sur les autres. La
technique conclura elle aussi, à tort, à une absence d’effet traitement. Paradoxalement, l’augmentation de la quantité d’information disponible par augmentation du
nombre d’essais rend la méthode de moins en moins efficace.
Des adaptations qui conduisent à un test statistique ont été développées. Hedges
et Olkin propose une adaptation qui permet d’intégrer la puissance des essais et
d’estimer un effet standardisé 4 (« effect size ») [41]. La section 25.1 présente les
techniques statistiques permettant de réaliser ce type de synthèse.
B) Combinaison des degrés de signification
Les degrés de signification (valeur de p, « p-value » en anglais) peuvent être combinés entre eux. Le degré de signification combiné obtenu permet de tester l’hypothèse nulle globale : le traitement n’a pas d’effet à partir de la totalité de l’information apportée par l’ensemble des essais. Ces procédures statistiques sont anciennes
[42–44]. Cette technique ne permet d’obtenir qu’un résultat qualitatif (résultat significatif ou non). Les bases statistiques de cette approche de la synthèse des résultats
d’essais et quelques techniques de combinaison sont décrites dans la section 25.2.
C) Addition des effectifs
Par le terme de « pooling » emprunté à l’anglais, on désigne la technique qui consiste
à faire de simples additions pour regrouper les essais. Les effectifs des groupes seront
additionnés entre eux ainsi que les nombres d’événements. La comparaison globale
et l’estimation de l’effet traitement combiné se basent sur ces totaux. L’exemple
présenté page 16 montre le danger que fait courir cette technique qui ne doit pas être
utilisée.
4
La notion d’effet réduit sera envisagée dans le chapitre consacré aux critères continus (chapitre
21).
20
Utilisation de la méta-analyse
D) Méta-analyse
Par rapport aux méthodes précédentes, la méta-analyse manipule l’information directement dans la métrique de la variable d’intérêt. Elle autorise la démonstration de
l’effet et la quantification de l’effet traitement sans transformation ou artifice. Par
contre son raisonnement se fait en terme moyen. Une analyse plus fine, prenant en
compte les facteurs de variation de l’effet, est permise par la technique suivante.
E) Modélisation de l’effet traitement
La modélisation de l’effet traitement consiste à essayer d’expliquer, à partir des caractéristiques de base des patients ou à partir des modalités thérapeutiques, les différences de niveau d’effet observées entre différents essais.
Avec la modélisation de l’effet, la variabilité est considérée d’une façon radicalement différente de celle qui est en vigueur avec les techniques de méta-analyse.
Avec ces dernières, la variabilité est un paramètre de nuisance (l’hétérogénéité) qui
contredit l’hypothèse de l’existence d’un effet traitement commun à tous les essais.
Au contraire, la modélisation de l’effet va considérer la variabilité comme informative car témoignant de l’existence de facteurs de modulation de la réponse thérapeutique. Ceci débouche sur une recherche des facteurs expliquant les variations
observées dans les essais. La connaissance de ces facteurs devrait entraîner une meilleure utilisation des traitements (administration à bon escient, aux sujets potentiellement répondeurs, ou abstention chez des sujets particulièrement à risque d’effets
indésirables).
Les techniques employées pour cette modélisation seront développées dans la
section 24.3.

Documents pareils