11. Evaluation de la qualité des essais

Transcription

11. Evaluation de la qualité des essais
11.
Evaluation de la qualité des essais
L’évaluation de la qualité méthodologique d’un essai thérapeutique est une tâche
difficile [117]. L’essai thérapeutique contrôlé randomisé est considéré comme étant
le moyen le plus fiable pour évaluer l’effet d’un traitement. Cependant, en pratique,
tous les essais réalisés ne suivent pas au mieux les contraintes méthodologiques et
leurs défauts plus ou moins importants réduisent la fiabilité du résultat. Ainsi, il
serait commode de pouvoir mesurer la qualité méthodologique des essais afin de
distinguer les plus fiables de ceux dont la moindre qualité fait courir le risque de
résultats biaisés. Dans ce but, de nombreuses échelles ont été développées afin de
synthétiser en un indice la qualité méthodologique des essais. En pratique elles sont
cependant d’un maniement délicat.
Dans une méta-analyse, le problème de l’évaluation de la qualité méthodologique apparaît à trois ou quatre niveaux :
– lors du processus d’inclusion-exclusion des essais,
– lors de la description des caractéristiques des essais, qui comprend une
description des facteurs de qualité des essais,
– dans des analyses stratifiées (en sous-groupe) et des analyses de sensibilité pour
dépister d’éventuelles modifications des résultats, en fonction de la qualité des
essais,
– éventuellement, une analyse peut être réalisée utilisant un indice de qualité
comme pondération .
Avant d’envisager les modalités pratiques de ces approches, nous allons passer
en revue les éléments qui permettent d’évaluer la qualité méthodologique d’un essai
thérapeutique.
11.1. Les marqueurs de qualité
Les éléments discutés dans ce chapitre le sont de façon relativement succincte, car
une présentation détaillée de ce sujet dépasserait largement le cadre de cet ouvrage.
Le lecteur désireux d’aller plus loin sur ce point peut se référer à un ouvrage de
méthodologie des essais contrôlés.
106
Evaluation de la qualité des essais
Il est important de rappeler qu’une publication ne permet pas d’apprécier directement la qualité d’un essai, mais plutôt la qualité du couple essai-publication [118].
L’image d’un essai correct peut être altérée par une publication médiocre. D’autre
part, la taille restreinte des textes demandée par les éditeurs font que des informations
importantes pour l’évaluation de la qualité n’apparaissent pas dans les publications,
ce qui gêne le processus d’évaluation de la qualité.
Les marqueurs de qualité ne sont rien de plus que les impératifs méthodologiques
minimisant le risque de biais dans l’essai.
A) Allocation aléatoire des traitements
L’allocation aléatoire des traitements (ou randomisation) permet d’obtenir deux groupes de patients initialement comparables en tout point (en fait cette comparabilité
est obtenue en moyenne, et comme dans tout phénomène statistique il est possible,
avec une faible probabilité, que l’allocation aléatoire des traitements conduise à des
groupes dissemblables). Cette randomisation permet non seulement l’égale répartition des facteurs pronostiques connus entre les deux groupes, mais aussi celle de tous
les facteurs inconnus. Après administration du traitement étudié, ces deux groupes
ne se différencieront que par la nature du traitement reçu.
B) Absence de facteur de confusion dans le suivi et l’évaluation des
résultats
La randomisation produit deux groupes comparables (en moyenne). Il est important
que durant la phase de suivi cette comparabilité soit maintenue. Agissent à ce niveau
l’évaluation objective des critères de jugement et l’utilisation de traitements concomitants, identiques quel que soit le groupe. Ces points sont obtenus par le suivi en
double insu d’une part et par analyse en intention de traiter d’autre part.
Ainsi, en cas de différence observée, celle-ci pourra être reliée de façon forte à
la seule différence existant entre ces deux groupes : le traitement. Il devient alors
possible de conclure à la relation de causalité (probabiliste) entre l’administration
du traitement et le résultat observé.
C) Absence de perdus de vue et analyse en intention de traiter
Toutes les unités informatives (patients) incluses dans l’essai, c’est à dire soumises
au processus d’allocation aléatoire, doivent être analysées en les prenant en considération dans le groupe où elles ont été allouées par la randomisation. Par exemple,
l’arrêt du traitement de l’étude pour un patient recevant le traitement étudié peut
être lié à un échec de la thérapeutique. Ne pas considérer ce patient dans l’analyse
entraîne une perte d’information, biaisant éventuellement le résultat. L’intention de
L’évaluation de la qualité pour la sélection
107
traiter évite ce problème et de plus corrige le biais entraîné par les changements de
groupes intentionnels.
11.2. L’évaluation de la qualité pour la sélection
Le but est d’exclure les essais dont la mauvaise qualité méthodologique fait courir le
risque de résultats biaisés, l’inclusion de ces essais pouvant entraîner à son tour un
biais dans le résultat de la méta-analyse. L’objet de cette étape est donc de définir les
critères qui garantissent raisonnablement l’absence de biais trop importants. Cette
sélection ne devra cependant pas être trop sévère au risque d’éliminer beaucoup
trop d’informations pertinentes (cf. chapitre 10). Néanmoins, s’il s’avère a posteriori
que les résultats de la méta-analyse sont variables en fonction de l’inclusion ou de
l’exclusion des essais de plus faible qualité (cf. 11.4), il sera difficile d’exploiter
les conclusions de la méta-analyse (cf. 11.4.D). Un choix rigoureux des critères de
qualité méthodologique des essais à inclure dans une méta-analyse réalisé a priori
lors de la définition du protocole est le meilleur garant contre ce problème.
Pour faire cette sélection, une façon de procéder est de classer les essais en fonction de leur qualité méthodologique, par exemple, en trois classes [119] :
– essais de bonne qualité,
– essais de qualité moyenne,
– essais de qualité insuffisante.
Les essais dont la qualité est insuffisante sont exclus. Les essais des deux premières classes sont pris en considération pour la méta-analyse et une analyse de sensibilité teste les conséquences de l’éventuelle inclusion d’essais de qualité moyenne
aux cotés de ceux de bonne qualité (cf 11.4.B).
Pour effectuer cette classification en trois classes, le respect de chaque principe
méthodologique (cf. 11.1) est noté de la façon suivante :
Note A
Note B
Note C
Principe entièrement respecté et réalisation satisfaisante
Principe partiellement respecté ou description insuffisante
Principe non appliqué ou réalisation érronée
Les principes méthodologiques qui pourront être ainsi notés sont entre autres :
– allocation aléatoire des traitements,
– contrôle des facteurs de confusion dans le suivi et l’évaluation des résultats
(double ou simple aveugle),
– absence de perdu de vue et disponibilité des données pour réaliser une analyse
en intention de traiter,
108
Evaluation de la qualité des essais
– absence d’autres biais (en fonction de la situation).
C’est le protocole qui définit précisément les points sur lesquels portera cette
analyse (cf. chapitre 14).
Les classes sont ensuite constituées en fonction des critères suivants :
Classe
Bonne qualité
Qualité moyenne
Qualité insuffisante
Critère
Tous les principes sont notés A
Au moins un principe est noté B
Au moins un principe est noté C
La qualité de l’allocation aléatoire garantissant l’impossibilité de découvrir la
nature du traitement que devrait recevoir un patient, apparaît être le point le plus
important pour garantir l’absence de biais. Schulz et coll. ont montré que les essais,
dans lesquels ce point méthodologique n’était pas respecté ou non suffisamment décrit, conduisaient à une surestimation de la taille de l’effet de 30 à 40% par rapport
à celle obtenue avec des essais où la qualité de l’allocation aléatoire était irréprochables [120]. Dans cette étude, les moyens suivants d’allocation aléatoire étaient
retenus comme satisfaisants : randomisation centralisée, boite de traitement numérotée (de façon continue ou non), traitement fabriqué par la pharmacie, enveloppes
scellées et opaques. Les moyens jugés inadéquates furent : allocation en alternance,
en fonction du numéro de dossier ou de la date de naissance.
Il convient donc d’être particulièrement attentif sur la qualité de l’allocation des
traitements et de facilement noter ce point « C » en cas de doute.
Cette démarche conduit à exclure un essai, lorsqu’il existe de façon claire au
moins une des conditions suivantes :
– allocation non aléatoire (ou allocation aléatoire incorrecte),
– biais majeur dans le suivi,
– données en intention de traiter non disponibles ou non reconstituables.
11.3. Description de la qualité
Cette étape est la moins problématique de toutes celles impliquant l’évaluation de la
qualité méthodologique. Bien que l’on puisse simplement rapporter un indice synthétique de qualité, il est préférable de détailler dans un tableau les diverses composantes vues précédemment (cf. 11.1). Cette description doit être faite pour les essais
inclus mais aussi pour ceux qui ont été exclus.
Analyse en fonction de la qualité
109
Ces tableaux pourront, par exemple, comporter les éléments suivants :
– type de l’allocation aléatoire : allocation centralisée, par enveloppe, par boites
numérotées, etc.,
– type de l’insu : en double insu, en simple insu,
– type de l’évaluation des critères de jugement : en insu ou non de la nature du
traitement reçu,
– analyse en intention de traiter,
– nombre de perdus de vue,
– utilisation des traitements concomitants identiques,
Si une grille de cotation (cf. 11.5) a été utilisée, l’indice de qualité de chaque
étude est aussi rapporté en plus de ces éléments.
11.4. Analyse en fonction de la qualité
Il est possible de montrer qu’une relation existe entre la qualité des essais et la taille
de l’effet traitement qu’ils montrent [120–123]. En général, plus l’essai est de qualité médiocre plus il montrera un effet traitement important. Les causes de cette observation empirique sont certainement multiples. Mais il est facile d’imaginer que
lorsqu’il existe un manque de rigueur, l’évaluation des critères de jugement peut favoriser le groupe expérimental et qu’un suivi trop laxiste conduise à l’élimination
des mauvais résultats dans le groupe du traitement testé.
A) Sous-groupes
Le regroupement des essais en fonction de leur qualité méthodologique permet de
vérifier si la taille de l’effet du traitement varie en fonction de la qualité des essais. Ces analyses en sous groupes, basées sur le test d’hétérogénéité, apportent des
renseignements complémentaires à ceux des analyses de sensibilité.
B) Analyses de sensibilité
Les analyses de sensibilité ont pour but de s’assurer de la stabilité des résultats,
suivant que l’on inclut ou non les études de qualité moyenne. Cela revient à réaliser plusieurs fois les calculs de méta-analyse : tout d’abord en incluant toutes les
études, celles de bonne et de moins bonne qualité, ensuite en refaisant les calculs
sans prendre en compte les études de moins bonne qualité. La séparation des essais
suivant leur qualité peut se faire en deux groupes ou plus. Cependant, lorsque ce
110
Evaluation de la qualité des essais
nombre dépasse trois il est difficile d’obtenir une discrimination suffisante entre les
niveaux de qualité pour garantir la constitution de groupes homogènes.
Fig. 11.1. — Analyse en sous-groupes et analyse de sensibilité.
En outre, ces analyses de sensibilité permettent de s’assurer que le fait d’éliminer une part de l’information, même si celle-ci n’est pas très fiable, n’entraîne pas
de modification importante du résultat de la méta-analyse, surtout en terme qualitatif : changement de la signification statistique. En cas de différence avec et sans les
études de moins bonne qualité, se pose le problème d’identifier son origine parmi
les deux cas possibles :
– les essais de moins bonne qualité sont biaisés et leur introduction dans la
méta-analyse biaise son résultat. La bonne estimation de l’effet traitement est
celle obtenue en les excluant. Les essais de faible qualité surestimant l’effet
du traitement, l’analyse restreinte aux essais de bonne qualité ne met pas en
évidence l’effet du traitement, tandis que celle incluant tous les essais montre un
effet à tort.
– l’exclusion des essais de moins bonne qualité est trop sévère et prive la
méta-analyse d’une quantité d’information pertinente. La méta-analyse sur
l’ensemble des essais atteint une puissance suffisante pour conclure à un effet du
traitement tandis que l’analyse restreinte aux essais de meilleure qualité manque
de puissance.
C) Pondération en fonction de la qualité
Il a été proposé d’utiliser un indice de qualité comme coefficient de pondération (cf.
18.4) [124]. Cette pondération s’ajoute à la pondération standard par l’inverse de
la variance (cf. chapitre 18). Ainsi, meilleure est la qualité d’un essai, plus impor-
111
Les échelles de mesure
tante est sa contribution à l’estimation de l’effet traitement commun. Ce principe
est séduisant mais se heurte à une difficulté théorique. Pour que ce système soit entièrement satisfaisant, il conviendrait que l’on dispose d’une véritable métrique de
la qualité, c’est à dire que tout le long de l’échelle un changement d’une unité corresponde au même changement dans le risque d’existence d’un biais. Or une telle
métrique n’existe pas. Avec les échelles actuelles (cf. infra), rien ne permet de dire, si
un essai obtient un score deux fois supérieur à celui d’un autre, qu’il doit contribuer
deux fois plus à l’estimation globale. En outre il n’existe pas de standard.
D) Analyse cumulative
Une analyse cumulative20 en fonction de la qualité méthodologique peut apporter
des renseignements sur l’inf luence des essais de faible qualité sur l’estimation de
l’effet commun. Pour cela, les essais sont classés suivant une échelle de qualité (cf.
11.5) par ordre croissant ou décroissant. L’ordre décroissant donne cependant des
résultats plus faciles à interpréter.
Si les résultats de faible qualité ne sont pas biaisés, l’estimation de l’effet traitement commun sera stable et aucune évolution en fonction de la qualité des essais ne
sera notée. Dans le cas contraire où les essais de faible qualité sont biaisés, l’analyse
cumulative montrera une tendance à la dérive de l’estimation de l’effet traitement
commun en fonction de la qualité. Par exemple, la taille de cet effet commun augmentera au fur et à mesure où les essais de faible qualité seront ajoutés. Dans cette
situation, l’analyse cumulative mettra donc en évidence le fait que des résultats variables peuvent être obtenus en fonction de l’inclusion ou du rejet de certaines études
de faible qualité.
En fait, l’analyse cumulative est un moyen élégant de réaliser toutes les analyses
possibles de sensibilité, de façon séquentielle, en rajoutant à chaque fois un nouvel
essai.
Il est cependant dangereux de déterminer a posteriori les essais à retenir dans la
méta-analyse à partir du résultat que l’on obtient. Dans les situations où existent des
grandes différences dans les résultats, il est conseillé de présenter l’analyse cumulative telle quelle, puis de discuter l’influence de la qualité des essais sur le résultat.
11.5. Les échelles de mesure
De nombreuse échelles mesurant la qualité méthodologique d’un essai ont été développées [125]. Dans une récente revue de la littérature, D. Moher et coll. ont retrouvé
25 échelles et 9 listes de contrôle (« check-list ») [126]. Les échelles débouchent
20
La méta-analyse cumulative est décrite au chapitre
27.
112
Extraction des données
sur un score global, tandis que les listes de contrôle aident seulement à identifier des
lacunes méthodologiques. Une telle profusion de propositions pour un même point
laisse présager qu’aucune solution entièrement satisfaisante n’a été trouvée.
Les limites de ces échelles sont les suivantes :
– les coefficients utilisés pour noter chaque item méthodologique sont choisis de
façon arbitraire car il est impossible de prévoir les conséquences du respect ou
non d’un impératif méthodologique en terme de degré de biais,
– ces échelles ont été construites sans faire appel à des techniques de construction
d’échelle de mesure. Un certain nombre d’entre elles ref lètent simplement les
convictions de leurs auteurs ou sont le résultat d’une démarche empirique [126],
– suivant les échelles, certains domaines sont plus ou moins privilégiés, par
exemple l’analyse statistique dans l’échelle de Chalmers [127],
– les échelles conduisent pour la plupart à un indice unique, facile à manipuler, mais
qui fait disparaître les différentes composantes de la qualité méthodologique,
sauf pour certaines méthodes qui utilisent des sous-notes pour chaque grande
composante.
Il est à noter que ces échelles font presque toutes intervenir la qualité de l’analyse statistique (test approprié, nombre de sujets garantissant une puissance correcte,
etc.). Cependant, en méta-analyse la qualité de cette phase de l’essai thérapeutique
n’a que très peu de retentissement direct sur la qualité de la méta-analyse. En effet,
la méta-analyse prélève ses données en amont du processus d’analyse. Une analyse
médiocre ne perturbera pas le résultat de la méta-analyse, sauf pour la méthode des
votes ou celle de combinaison des degrés de signification. Néanmoins, un défaut de
qualité à ce niveau laisse planer un doute sur tout l’essai.