Concordance sur series mesures v9.0 CA

Transcription

Concordance sur series mesures v9.0 CA
Répétabilité, reproductibilité,
et concordance de méthodes
de mesure
Loïc Desquilbet
Département des Sciences Biologiques et Pharmaceutiques
Ecole nationale vétérinaire d’Alfort
Version 9
05/11/2015
Document accessible ici :
http://eve.vet-alfort.fr/course/view.php?id=353
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
1
Table des matières
I.
Préambule........................................................................................................................................ 3
II.
Définitions préliminaires (norme AFNOR NF X 07-001) .................................................................. 3
A.
Répétabilité (de résultats d’une mesure).................................................................................... 3
B.
Reproductibilité (de résultats d’une mesure) ............................................................................. 3
III. Introduction ..................................................................................................................................... 3
IV. Concordance entre deux séries de mesures binaires ...................................................................... 5
A.
Présentation d’un exemple ......................................................................................................... 5
B.
Calcul du coefficient Kappa ......................................................................................................... 6
C.
Interprétation .............................................................................................................................. 6
D.
Coefficient Kappa versus sensibilité et spécificité d’un test ....................................................... 7
E.
Coefficient Kappa et degré de signification ................................................................................ 7
V.
Concordance entre deux séries de mesures qualitatives ................................................................ 7
VI. Concordance entre deux séries de mesures quantitatives ........................................................... 10
A.
Introduction............................................................................................................................... 10
B.
Coefficient de concordance de Lin ............................................................................................ 10
C.
Graphique de Bland et Altman .................................................................................................. 13
D.
Confrontation coefficient de concordance de Lin versus graphique de Bland et Altman ........ 19
E.
Coefficient de concordance de Lin et degré de signification .................................................... 19
VII. Protocole à mettre en place pour évaluer la répétabilité, reproductibilité, ou concordance de
méthodes de mesure. ........................................................................................................................... 20
VIII. Remerciements .............................................................................................................................. 21
IX. Références ..................................................................................................................................... 21
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
2
I.
Préambule
Ce tutoriel est voué à évoluer afin qu’à terme, il soit le plus complet possible, et bien entendu, le plus
clair possible. Par conséquent, si vous trouvez qu’un passage n’est pas clair, et/ou si vous souhaitez
que soit traité ou développé un thème autour de la répétabilité, de la reproductibilité, et/ou de la
concordance, faites-le moi savoir par email ([email protected]). Par ailleurs, les versions
mises à jour de ce tutoriel sont placées sur EVE ici : Espace Collaboratif → Tutoriels → Supports
d’apprentissage et tutoriels logiciels, section 2 « Documents pdf (hors formation initiale, articles,
tutos logiciels) ». De plus, tous les articles cités dans ce tutoriel sont accessibles en pdf sur EVE ici :
Espace Collaboratif → Tutoriels → Supports d’apprentissage et tutoriels logiciels, section 3 « Articles
divers ».
II.
Définitions préliminaires (normes ISO 3534-1 & 5725-1)
A.
Fidélité
La fidélité est l’étroitesse de l’accord entre des résultats indépendants obtenus sous des conditions
stipulées.
B.
Répétabilité
La répétabilité est la fidélité dans les conditions où les résultats d’essais indépendants sont obtenus
par la même méthode, sur des individus d’essais identiques, dans le même laboratoire, par le même
opérateur utilisant le même équipement et pendant un court intervalle de temps.
C.
Reproductibilité
La reproductibilité est la fidélité dans les conditions où les résultats d’essais sont obtenus par la
même méthode, sur des individus d’essais identiques, dans différents laboratoires, avec différents
opérateurs et utilisant des équipements différents.
III.
Introduction
Le mot « accord » dans la définition ISO de la fidélité est très important : pour quantifier les
répétabilité et reproductibilité, il est donc nécessaire de quantifier un « accord », « agreement » en
anglais. Il existe de nombreuses méthodes pour quantifier l’ « agreement », mais toutes celles dont
je vais parler dans ce document vont faire appel à une même méthodologie générale de calcul : le
calcul de la « concordance » entre séries de mesures (Lin et al., 2007).
Comme vous allez le voir plus loin, je vais distinguer deux types de reproductibilité : la
reproductibilité inter-opérateurs et la reproductibilité spatio-temporelle. Par ailleurs, plutôt que de
parler de « reproductibilité entre méthodes de mesure », je vais plutôt parler de « concordance entre
méthodes de mesure ». Le tableau 1 résume les différentes conditions de mesures lors de
l’évaluation lorsque l’on souhaite évaluer la répétabilité/reproductibilité/concordance de méthodes
de mesure sont décrits dans le tableau 1.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
3
Tableau 1. Récapitulatif des cas de figure d’évaluation de la répétabilité/reproductibilité/concordance de
méthodes de mesure.
Opérateur(s)
Identique Différents
X
Méthode(s) de mesure
Identique
Différentes
X
X
X
X
X
X
(X)
X
Conditions de mesures
Identiques
Différentes
X
(X)
X
X
Cas de figure n°
1
X
2
(X)
3
4
Le cas de figure n°1 correspond à la situation où l’on souhaite savoir si deux opérateurs, lorsqu’ils
évaluent avec la même méthode de mesure la même chose, donnent un même avis (si le critère est
binaire ou qualitatif à ≥ 3 classes), ou quantifient de la même quantité ce qu’ils viennent d’évaluer.
On parlera dans ce cas-là de reproductibilité inter-opérateur de la méthode de mesure. A noter que
dans ce cas de figure, on préfèrerait que les conditions de mesures soient identiques, mais en
pratique, elles peuvent ne pas l’être, et il faudra alors considérer que les différences de conditions de
mesures ne vont pas avoir d’impact dans l’évaluation de la reproductibilité inter-opérateurs de la
méthode de mesure.
Le cas de figure n°2 correspond à la situation où l’on souhaite savoir si une même méthode de
mesure, utilisée par un même opérateur est reproductible lorsque les conditions de mesures varient
(ou bien lorsque les mesures sont espacées par un intervalle de temps jugé a priori non négligeable).
Pour distinguer cette situation de la première situation, je vais l’appeler reproductibilité spatiotemporelle de la méthode de mesure.
Le cas de figure n°3 correspond à la situation où l’on souhaite savoir si une même méthode de
mesure, utilisée par un même opérateur est reproductible lorsque les conditions de mesures ne
varient quasiment pas (lorsque les mesures sont espacées par un intervalle de temps jugé a priori
négligeable). On parlera alors de répétabilité de la méthode de mesure (Barnhart et al., 2007).
La différence entre les cas de figure n°2 et n°3 (c’est-à-dire la différence entre la reproductibilité
spatio-temporelle et la répétabilité d’une méthode de mesure) est uniquement l’intervalle de temps
entre les deux séries de mesures sur le même mesurande1 : s’il est (jugé comme) très court, on
parlera de répétabilité, s’il est jugé comme suffisamment long pour avoir potentiellement un impact,
on parlera de reproductibilité. On peut le voir aussi de façon inverse : pour quantifier la répétabilité
d’une méthode de mesure, l’intervalle de temps doit être (jugé comme) très court, c’est-à-dire trop
court pour penser que cet intervalle de temps puisse avoir un impact ; pour quantifier la
reproductibilité spacio-temporelle d’une méthode de mesure, l’intervalle de temps ou la différence
d’espace doit être celui/celle dont on veut tester la reproductibilité (par exemple, « est-ce que ma
méthode de mesure va me donner le même résultat si j’évalue ce que je veux évaluer à une semaine
d’intervalle ? » ou bien « est-ce que ma méthode de mesure va me donner le même résultat si
j’évalue ce que je veux évaluer à deux endroits ou conditions différent(e)s ? »).
Le cas de figure n°4 correspond à la situation où l’on souhaite savoir si deux méthodes de mesure
fournissent les mêmes résultats lorsqu’elles mesurent la même chose dans les mêmes conditions. On
parlera alors de concordance entre deux méthodes de mesure. Dans ce cas de figure, il n’y a en
général qu’un seul opérateur. Mais si l’on peut considérer qu’il n’y a pas d’ « effet » opérateur, alors
ce cas de figure peut s’appliquer à la situation où les opérateurs sont différents. A noter que, là
encore dans ce cas de figure, on préfèrerait que les conditions de mesures des deux méthodes soient
identiques, mais en pratique, elles peuvent ne pas l’être, et il faudra considérer que les différences
de conditions de mesures ne vont pas avoir d’impact dans l’évaluation de la concordance entre les
deux méthodes de mesure.
1
Grandeur particulière soumise à mesurage (Vocabulaire International de Métrologie)
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
4
La situation où les deux séries de mesures quantitatives ne sont pas exprimées dans la même unité
et/ou ne sont a priori pas censées fournir les mêmes valeurs (par exemple, la concentration en
cortisol en nmol/l, entre la concentration salivaire et la concentration plasmatique) ne sera pas
traitée dans ce tutoriel. En effet, cette situation ne correspond pas au cadre strict de la
répétabilité/reproductibilité/concordance de méthodes de mesure.
Pour quantifier la répétabilité/reproductibilité/concordance de méthodes de mesure, les indicateurs
numériques et graphiques que l’on va voir ensemble ne vont nécessiter que de deux séries de
mesures : deux opérateurs, deux méthodes de mesure, ou deux conditions de mesures différentes
(rapprochées dans le temps et l’espace, ou non). Je présenterai dans ce tutoriel le coefficient de
concordance Kappa lorsque le mesurande est binaire ou qualitatif à 3 classes ou plus, et le coefficient
de concordance de Lin ainsi que le graphique de Bland et Altman lorsque le mesurande est
quantitatif. Ce sont en effet les principaux indicateurs de répétabilité/reproductibilité/concordance
de deux séries de mesures (Lin et al., 2007; Ludbrook, 2002), utilisés en particulier en recherche
clinique vétérinaire (Bergknut et al., 2013; Durando et al., 2008; Gibbons-Burgener et al., 2001; Giori
et al., 2011; Norton et al., 2011; Perkins et al., 2009; Tennent-Brown et al., 2011; Voyvoda and
Erdogan, 2010).
Il existe d’autres indicateurs de répétabilité tels que le coefficient de variation ou le coefficient de
répétabilité (Patton et al., 2006). Mais, comme Barnhart et al. l’indiquent dans leur article (Barnhart
et al., 2007), la répétabilité peut aussi se quantifier par un coefficient de concordance (Barnhart et
al., 2007), et s’apprécier cliniquement à l’aide des courbes de Bland et Altman (Bakker et al., 1999;
Barnhart et al., 2007).
Dans toute la suite de ce tutoriel, dans la mesure où pour évaluer la répétabilité ou la reproductibilité
d’une méthode de mesure, je vais présenter des « coefficients de concordance », je ne parlerai plus
que de « concordance » de deux séries de mesures. Le mode de mesure de ces deux séries de
mesures, présenté dans le tableau 1 ci-dessus et explicité ci-dessus, va conduire au fait que vous allez
évaluer la concordance de deux séries de mesures pour évaluer soir la reproductibilité interopérateur, soit de reproductibilité spatio-temporelle, soit la répétabilité d’une même méthode de
mesure, soit enfin la concordance entre deux méthodes de mesure.
Vous trouverez sur EVE (Espace Collaboratif → Tutoriels → Supports d’apprentissage et tutoriels
logiciels, section 5 « Fichiers Excel ») deux fichiers Excel qui permettent de calculer les différents
coefficients de concordance cités dans ce tutoriel et de dresser le graphique de Bland et Altman.
IV.
Concordance entre deux séries de mesures binaires
A.
Présentation d’un exemple
Supposons que pour évaluer si une vache est atteinte de réticulo-péritonite traumatique (RPT), on
appuie fortement sur le thorax de la vache, et si la vache exprime de la douleur, le vétérinaire va
conclure qu’il y a présence de RPT. Dans cet exemple, on peut imaginer que, pour une même vache
(qu’elle ait ou non réellement une RPT), deux vétérinaires peuvent conclure différemment quant à la
présence ou l’absence de RPT (l’évaluation de la douleur de la vache peut être considérée comme
subjective). Supposons une étude dont l’objectif est de quantifier la reproductibilité inter-opérateurs
de la méthode de diagnostic de RPT « appuyer fortement sur le thorax de la vache et si la vache
exprime de la douleur, c’est que la vache présente une RPT ». Le protocole de cette étude est le
suivante : 64 vaches ont été examinées par deux vétérinaires qui ont tous les deux appliqué la
méthode testée. Le tableau 2 présente le nombre de diagnostics de présence de RPT et le nombre de
diagnostics d’absence de RPT posés par les deux vétérinaires.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
5
Tableau 2. Répartition des diagnostics de réticulo-péritonite traumatique (RPT) selon 2 vétérinaires parmi 64
vaches examinées.
Diagnostic vét. 2
B.
RPT présente
RPT absente
Total
Diagnostic vét. 1
RPT présente
RPT absente
17
4
8
35
25
39
Total
21
43
64
Calcul du coefficient Kappa
L’accord observé entre les deux vétérinaires jugeant la présence (ou l’absence) de la RPT à partir des
64 vaches qu’ils auront tous les deux examinées résulte de la somme d’une composante d’accord
« aléatoire » (accord dû simplement au hasard) et d’une composante d’accord « véritable ». Pour
prendre en compte le phénomène d’accord aléatoire, le coefficient Kappa (K) propose de quantifier
l’intensité de l’accord véritable (Cohen, 1960; Kraemer et al., 2002). C’est un indice qui vise à
« enlever » la portion de hasard dans l’accord observé entre les deux vétérinaires.
Le tableau 2 montre que la méthode de diagnostic de RPT donne des diagnostics concordants pour
52 (81%) vaches examinées (17 vaches diagnostiquées avec RPT présente et 35 vaches
diagnostiquées avec RPT absente par les deux vétérinaires), mais discordants pour 12 (19%) vaches.
La formule du coefficient Kappa est la suivante :
K=
Proportion d’ accords observés − proportion d’ accords dus au hasard Cobs − Cal
=
1 − proportion d’ accords dus au hasard
1 - C al
Avec :
Cobs = Concordance observée = (17+35)/64 = 0,81
La concordance aléatoire est égale à la somme des effectifs théoriques des 2 cases concordantes
(c’est-à-dire dans l’exemple ci-dessus, les effectifs théoriques des deux cases où il y a les nombre 17
et 35), divisée par la taille de l’échantillon (N=64) :
Cal = Concordance aléatoire = [(25*21)/64+(39*43)/64] / 64 = 0,54
D’où, K = +0,59.
C.
Interprétation
Le coefficient Kappa est un nombre réel, sans dimension, compris entre -1 et +1. L’accord est
d’autant plus élevé que la valeur de Kappa est proche de +1. Une valeur de Kappa est égale à -1
lorsqu’il n’y a aucune réponse concordante entre les deux vétérinaires (désaccord parfait). Lorsqu’il y
a indépendance des jugements, le coefficient Kappa est égal à zéro (Cobs = Cal).
Suivant le classement de Landis et Koch (Landis and Koch, 1977) qui est fréquemment utilisé en
biologie (tableau 3), le Kappa de l’exemple (K=+0,59) aurait conduit à penser que la méthode de
diagnostic de RPT (frapper le thorax d’une vache et évaluer s’il y a douleurs ou pas) est « moyenne ».
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
6
Tableau 3. Interprétation des valeurs du Kappa.
Kappa
<0
0-0,20
0,21-0,40
0,41-0,60
0,61-0,80
0,81-1,00
D.
Interprétation
Très mauvais (Poor)
Mauvais (Slight)
Passable (Fair)
Moyenne (Moderate)
Bonne (Substantial)
Très bonne (Almost perfect)
Coefficient Kappa versus sensibilité et spécificité d’un test
Le coefficient Kappa est indispensable lorsque l’on n’a pas accès à un test de diagnostic de référence,
ou bien quand le test de diagnostic de référence n’existe pas. Si ce test de diagnostic de référence
existe et qu’il est accessible, alors le coefficient Kappa n’est plus indispensable, mais il reste
informatif.
E.
Coefficient Kappa et degré de signification
Il est possible d’associer au coefficient Kappa un degré de signification p. L’hypothèse nulle H0
associée à ce degré de signification est l’absence de concordance réelle dans la population entre
deux séries de mesures2. Ceci signifie que si p < 5%, on conclut au fait qu’il y a de grandes chances
pour que, réellement, il existe une concordance entre les deux séries de mesures ; si p > 5%, on
conclut au fait qu’il y a des chances pour que, réellement, il n’existe pas de concordance entre les
deux séries de mesures. A première vue, il semble intéressant de tester le coefficient Kappa.
Cependant, quand on veut quantifier la concordance entre deux séries de mesures, très souvent, il
existe déjà une concordance – on ne veut donc pas savoir si elle existe dans la population
(évidemment qu’il n’y a pas indépendance, puisque l’on mesure deux fois la même chose), mais
plutôt savoir si cette concordance est excellente, très bonne, ou moyenne. Ainsi, le fait qu’un test
nous dise qu’il existe très vraisemblablement une concordance réelle (car le p < 5%) ne nous importe
finalement pas !
V.
Concordance entre deux séries de mesures qualitatives
Deux types de mesures qualitatives peuvent se retrouver. Des mesures qualitatives nominales (c'està-dire, dont les classes ne sont pas ordonnées) et des mesures qualitatives ordinales (c'est-à-dire,
dont les classes sont ordonnées). Un exemple de « mesure qualitative nominale » serait les différents
diagnostics que l’on pourrait établir à partir d’un tableau clinique évoquant la fièvre aphteuse chez la
vache : « fièvre aphteuse », « maladie des muqueuses », « coryza gangréneux », « fièvre catarrhale
ovine », et « autre diagnostic ». Un exemple de « mesure qualitative ordinale » serait le pronostic
vital d’un animal après une opération chirurgicale, en 4 classes : « très bon », « bon », « mauvais », et
« très mauvais ».
Le calcul de coefficient Kappa classique s’étend tout à fait au cas des variables qualitatives
nominales. Dans ce cas-là, et pour reprendre l’exemple du tableau clinique évoquant la fièvre
2
Dans l’exemple présenté dans le tableau 2, l’échantillon était constitué de 64 mesures (une par vache)
effectuées par le vétérinaire n°1 et 64 mesures (une par vache – les mêmes vaches que celles utilisées par le
vétérinaire n°1) effectuées par le vétérinaire n°2. La concordance réelle dans la population serait la
concordance qui aurait été calculée à partir de mesures effectuées sur toutes les vaches de France par les
vétérinaires n°1 et n°2.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
7
aphteuse, la discordance est identique entre la situation (A) où un vétérinaire pose le diagnostic
« fièvre aphteuse » et un autre pose le diagnostic « coryza gangréneux » et la situation (B) où un
vétérinaire pose le diagnostic « fièvre aphteuse » et un autre pose le diagnostic « maladie des
muqueuses ».
Le calcul de coefficient Kappa classique peut s’étendre au cas des variables qualitatives ordinales.
Cependant, si l’on calcule un coefficient Kappa de façon classique (comme cela a été présenté dans le
paragraphe « calcul du coefficient Kappa ») avec une mesure qualitative ordinale, elle sera
considérée comme qualitative nominale dans les calculs, et l’interprétation devra en tenir compte !
L’exemple qui suit va le montrer.
Par exemple, supposons la variable qualitative ordinale « degré de sédation après prémédication »
en 4 classes : « sédation absente ou quasi absente », « sédation légère », « sédation modérée », et
« sédation importante ». Supposons que deux vétérinaires évaluent le degré de sédation de 56 chats
après prémédication avec de la méthadone. Supposons maintenant deux situations qui auraient pu
se produire : la situation n°1 et la situation n°2 (les deux ne peuvent pas se produire en même temps,
il faut donc imaginer que l’une ou l’autre se soit effectivement produite). Les tableaux 4.1 et 4.2
présentent la répartition des degrés de sédation dans chacune de ces deux situations parallèles. Ces
tableaux montrent clairement que la situation n°1 correspond à une concordance du degré de
sédation plus grande que dans la situation n°2. En effet, les seules différences entre les deux
tableaux, exprimées en gras et soulignées, sont les suivantes. Dans la situation n°1, 8 sédations sont
jugées « modérée » par le vétérinaire 1 et « importante » par le vétérinaire 2 (ce qui n’est pas très
discordant), et 1 seule sédation est jugée « légère » par le vétérinaire 1 et « importante » par le
vétérinaire 2 (ce qui est très discordant) ; dans la situation n°2, 8 sédations sont jugées « légère » par
le vétérinaire 1 et « importante » par le vétérinaire 2 (ce qui est très discordant), et 1 sédation est
jugée « modérée » par le vétérinaire 1 et « importante » par le vétérinaire 2 (ce qui n’est pas très
discordant). Par conséquent, d’un point de vue clinique, la situation n°2 présente beaucoup plus de
degrés de sédation très discordants que la situation n°1 (8 versus 1, respectivement). Mais dans la
mesure où la variable est considérée comme nominale avec le calcul du Kappa classique, il n’y a pas
de gradation dans la discordance ; ces deux situations sont de la même façon non concordantes, et
fournissent par conséquent des valeurs quasi identiques du Kappa (respectivement de +0,53 et
+0,51, pour les situations n°1 et n°2).
Tableau 4.1. Variable qualitative ordinale, situation n°1.
Degré de
sédation,
vét. 2
Absente
Légère
Modérée
Importante
Total
Absente
6
1
0
0
7
Degré de sédation, vét. 1
Légère
Modérée
2
0
14
4
1
2
1
8
18
14
Importante
0
0
2
15
17
Total
8
19
5
21
56
Importante
0
0
2
15
17
Total
8
19
5
24
56
Tableau 4.2. Variable qualitative ordinale, situation n°2.
Degré de
sédation,
vét. 2
Absente
Légère
Modérée
Importante
Total
Absente
6
1
0
0
7
Degré de sédation, vét. 1
Légère
Modérée
2
0
14
4
1
2
8
1
25
7
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
8
Une solution face à ce « paradoxe » (qui n’en est pas un dès lors que l’on considère que le degré de
sédation est une variable qualitative nominale) est de regrouper, par exemple, les sédations
« absentes » et « légères » ensemble, puis les « modérées » et « importantes » ensemble.
Les tableaux 5.1 et 5.2 fournissent les nouvelles répartitions, pour respectivement les situations n°1
et n°2.
Tableau 5.1. Variable qualitative ordinale du tableau 4.1 rendue binaire.
Degré de
sédation, vét. 2
Absente, légère
Modérée, importante
Total
Degré de sédation, vét. 1
Absente, légère
Modérée, importante
23
4
2
27
25
31
Total
27
29
56
Tableau 5.2. Variable qualitative ordinale du tableau 4.2 rendue binaire.
Degré de
sédation, vét. 2
Absente, légère
Modérée, importante
Total
Degré de sédation, vét. 1
Absente, légère
Modérée, importante
23
4
9
20
32
24
Total
27
29
56
Dans la situation n°1 en regroupant les degrés de sédation (tableau 5.1), la valeur de Kappa est de
+0,78. Dans la situation n°2 en regroupant les degrés de sédation (tableau 5.2), la valeur de Kappa est
de +0,54, valeur bien inférieure à celle de la situation n°1 après avoir regroupé les degrés de
sédation, ce qui redevient cohérent avec les observations cliniques.
Une autre solution consiste à calculer un coefficient Kappa pondéré qui permet de prendre en
compte l’ordre des classes dans les calculs (Cohen, 1968; Sim and Wright, 2005) (des limites dans
l’utilisation du coefficient Kappa pondéré ont cependant été décrites dans l’article et Graham et
Jackson de 1993 (Graham and Jackson, 1993)). Deux types de pondérations sont les plus
fréquemment utilisés : la pondération linéaire et la pondération quadratique. La pondération
consiste à affecter un poids aux éléments hors de la diagonale (représentant la concordance parfaite)
d’autant plus faible (linéairement ou quadratiquement, en fonction du type de pondération) que l’on
s’éloigne de cette diagonale. Compte tenu du fait que la valeur du coefficient Kappa pondéré dépend
du nombre de catégories davantage avec une pondération quadratique qu’avec une pondération
linéaire (Brenner and Kliebsch, 1996), la pondération linéaire doit être préférentiellement utilisée,
surtout si le nombre de catégories est important.
En reprenant les situations précédentes, les valeurs du coefficient Kappa pondéré linéairement sont
+0,70 et +0,60 respectivement pour les situations n°1 et n°2 ; elles sont de +0,83 et +0,68 en utilisant
la pondération quadratique respectivement pour les situations n°1 et n°2. Que ce soit en utilisant la
pondération linéaire ou quadratique, les résultats sont cohérents avec les observations cliniques
(coefficients Kappa supérieurs pour la situation n°1 par rapport à la situation n°2).
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
9
VI.
Concordance entre deux séries de mesures quantitatives
A.
Introduction
Pour évaluer la répétabilité/reproductibilité d’une méthode de mesure, ou la concordance entre
deux méthodes de mesure, lorsque ce que l’on mesure est quantitatif, des méthodes numériques et
des méthodes graphiques existent. La méthode numérique présentée ici est le coefficient de
concordance de Lin. Les méthodes graphiques quant à elles représentent graphiquement la
concordance. Ces méthodes permettent d’interpréter cliniquement la concordance de deux séries de
mesures. Elles peuvent ainsi nuancer, infirmer, ou bien au contraire confirmer le niveau de
concordance quantifié par les méthodes numériques. La méthode graphique présentée ici est la
méthode de Bland et Altman.
Dans les paragraphes de ce chapitre, j’utiliserai le même exemple, à savoir évaluer la concordance
entre deux méthodes de mesure de la concentration plasmatique en créatinine (Ccreat) chez le chien,
à partir de 15 prélèvements sanguins (1 prélèvement par chien). Mais le raisonnement est bien
évidemment identique si l’on devait calculer la reproductibilité ou la répétabilité d’une même
méthode de mesure, à partir de deux séries de mesures (deux opérateurs, ou deux temps de mesure
différents).
B.
Coefficient de concordance de Lin
Les méthodes numériques que l’on rencontre dans la littérature permettant a priori de quantifier la
concordance entre deux séries de mesures quantitatives sont nombreuses, et peuvent être scindées
en deux familles : les méthodes paramétriques, et les méthodes non paramétriques.
Les méthodes paramétriques les plus connues sont les suivantes : le coefficient de corrélation de
Pearson, les comparaisons de séries appariées avec le test de Student, l’analyse des moindres carrés
en traçant une droite d’équation y = a.x + b (en testant a et b), le coefficient de corrélation intraclasse, et le coefficient de concordance de Lin (Lin, 1989).
Parmi les méthodes non paramétriques, on peut citer le coefficient de corrélation de Spearman, qui
consiste à quantifier la corrélation sur les rangs de mesures entre les deux séries de mesures.
Autrement dit, ce coefficient de corrélation est proche de 1 si les mesures de la série de mesures n°1
les plus faibles sont aussi les mesures de la série n°2 les plus faibles, si les mesures de la série de
mesures n°1 intermédiaires sont aussi les mesures de la série n°2 intermédiaires, et si les mesures de
la série de mesures n°1 les plus élevées sont aussi les mesures de la série n°2 les plus élevées. Ce
coefficient est intéressant lorsque les deux séries de mesures n’ont pas la même unité (ce qui sort du
cadre de ce tutoriel).
Le coefficient de concordance de Lin (tout comme les coefficients de corrélation de Pearson et de
Spearman) est un coefficient allant de -1 à +1, où les valeurs de -1, 0, et +1 signifient respectivement
une discordance parfaite, une concordance nulle, et une concordance parfaite.
La formule du coefficient de concordance de Lin est la suivante :
CC Lin =
2.Covar1,2
s + s 22 + (m1 - m 2 )
2
1
2
Avec :
Covar1,2 la valeur de la covariance du caractère mesuré entre les séries de mesures n°1 et n°2, s21 et
s22 respectivement les variances du caractère mesuré dans les séries n°1 et n°2, et m1 et m2
respectivement les moyennes du caractère mesuré dans les séries n°1 et n°2.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
10
Le calcul de la variance de CCLin est clairement décrit dans l’article de Crawford et al. (Crawford et al.,
2007). Ce coefficient de concordance de Lin possède des propriétés telles qu’il est à préférer parmi
toutes les méthodes paramétriques citées ci-dessus pour quantifier la concordance (Barnhart et al.,
2002; Lin, 1989). Pour illustrer le fait qu’il soit fortement recommandé de calculer le coefficient de
concordance de Lin plutôt que le coefficient de corrélation de Pearson, pour quantifier la
concordance de deux séries de mesures quantitatives, supposons que l’on ait 3 méthodes de
mesure pour mesurer Ccreat : une méthode de référence (M_REF) et deux méthodes (M1 et M2) dont
on voudrait savoir si elles donnent des résultats concordants avec la méthode de référence.
Supposons maintenant que la méthode M1 surestime systématiquement (mais avec cependant une
erreur de mesure très faible) de 0,3 mg/dl la valeur de Ccreat mesurée avec la méthode de référence,
et que la méthode M2 surestime la valeur de Ccreat d’autant plus que la concentration est élevée. Le
tableau 6 présente les valeurs de Ccreat mesurées par les 3 méthodes sur les 15 prélèvements
sanguins.
La figure 1.a représente les mesures de Ccreat effectuées sur les 15 prélèvements sanguins, avec en
abscisse la valeur de Ccreat mesurée par la méthode de référence, et en ordonnée la valeur de Ccreat
pour les mêmes prélèvements mesurée par M1 et M2. La droite à 45° représente le fait que si les
méthodes M1 et M2 donnaient des valeurs de Ccreat identiques à la méthode de référence, alors les
cercles pleins et les cercles vides devraient se trouver sur cette droite.
Tableau 6. Valeurs de la concentration plasmatique en créatinine (en mg/dl) mesurées par 3 méthodes de
mesure (la méthode de référence M_REF, M1, et M2) à partir de 15 prélèvements sanguins de chiens.
N° du chien
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
M_REF
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
1,05
1,10
1,15
1,20
M1
0,81
0,81
0,92
0,99
0,99
1,09
1,09
1,12
1,23
1,23
1,27
1,35
1,39
1,43
1,49
M2
0,47
0,62
0,75
0,84
0,98
1,02
1,19
1,24
1,36
1,48
1,57
1,71
1,77
1,95
2,02
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
11
2.2
2
(a)
Droite à 45°
(b)
1.5
Droite à 45°
M2
M3
Concentrat° créat. avec M3 ou M4
Concentrat° créat. avec M1 ou M2
M1
1.8
1.6
1.4
1.2
1
0.8
M4
1.3
1.1
0.9
0.7
0.5
0.6
0.3
0.4
0.4
0.6
0.8
1
1.2
Concentrat° créat. avec M_Ref
1.4
0.4
0.6
0.8
1
1.2
Concentrat° créat. avec M_Ref
Figure 1. Représentation graphique des concentrations plasmatiques en créatinine (Ccreat, en mg/dl)
mesurées sur 15 prélèvements sanguins de chiens, avec en abscisse la valeur de Ccreat mesurée par la
méthode de référence. En ordonnée se trouve la valeur de Ccreat mesurée par les méthodes M1 et M2 (a), ou
par les méthodes M3 et M4 (b). La droite à 45° représente la concordance parfaite avec la méthode de
référence.
A l’aide de la figure 1.a, on se rend aisément compte que les deux méthodes ne fournissent pas des
résultats concordants avec la méthode de référence (les points sont loin de la droite « de
concordance » à 45°). Pourtant, si l’on calcule le coefficient de corrélation de Pearson quantifiant la
corrélation entre les mesures effectuées avec la méthode de référence et celles avec M1, on obtient
une valeur de 0,99 ; le coefficient de corrélation de Pearson est égal à 1,00 pour la corrélation entre
les mesures effectuées avec M2 et celles effectuées avec la méthode de référence. Par conséquent,
si l’on se limitait au calcul du coefficient de corrélation de Pearson, on conclurait totalement à tort
que, dans la mesure où la corrélation entre mesures est (presque) parfaite, les méthodes M1 et
M_REF ou les méthodes M2 et M_REF sont totalement équivalentes, et donc parfaitement
interchangeables ! Les valeurs des coefficients de concordance de Lin, respectivement 0,49 et 0,44
pour la confrontation avec les méthodes M1 et M2, sont bien inférieures à 1, et correspondent à une
concordance « inacceptable » (tableau 7, (Partik et al., 2002)), ce qui est cohérent avec ce que
montre la figure 1.a ci-dessus. La raison pour laquelle il peut exister un grand écart entre le
coefficient de corrélation de Pearson et celui de concordance de Lin est la suivante. Le coefficient de
corrélation de Pearson quantifie la relation linéaire qui existe entre les deux séries de mesures. Si les
mesures observées s’éloignent de la droite de régression estimée à partir des deux séries de mesures
(par exemple à l’aide de la méthode des moindres carrés), il y a un manque de « précision » autour
de cette droite de régression (manque de précision de la concordance) ; dans ce cas, le coefficient de
Pearson se rapproche de 0. En plus de quantifier la précision de la concordance, le coefficient de
concordance de Lin quantifie aussi l’écart systématique entre les deux séries de mesures (déviation
systématique par rapport à la droite de concordance à 45°), ce qui représente l’exactitude de la
concordance. Les coefficients de corrélation de Pearson et de Spearman ne prennent pas en compte
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
12
l’exactitude de la concordance. En ce sens, ce ne sont pas des coefficients de concordance, mais de
« simples » coefficients de corrélation.
Tableau 7. Interprétation des valeurs du coefficient de concordance de Lin (CC Lin).
CC Lin
< 0,50
0,51-0,60
0,61-0,70
0,71-0,80
0,81-0,90
0,91-0,95
> 0,95
Interprétation
Inacceptable
Mauvais (Poor)
Passable (Mediocre)
Moyennement satisfaisant
Plutôt bon (fairly good)
Très bonne (very good)
Excellente
En conclusion, il n’est pas du tout recommandé d’utiliser le coefficient de corrélation de Pearson
pour quantifier la concordance entre deux méthodes de mesure pour des mesures quantitatives. Il
faut plutôt utiliser le coefficient de concordance de Lin.
C.
Graphique de Bland et Altman
Comme nous venons de le voir dans l’illustration de partie précédente « Coefficient de concordance
de Lin » (mesure de Ccreat à l’aide de 3 méthodes de mesure), deux valeurs de coefficient de
concordance de Lin similaires peuvent traduire des situations de non concordance assez différentes :
la méthode de mesure M1 sur-estimait systématiquement la Ccreat de 0,3 mg/dl, tandis que la
méthode de mesure M2 sur-estimait la Ccreat de façon proportionnelle à la valeur réelle de Ccreat
(figure 1.a), bien que conduisant à des valeurs de coefficient de concordance de Lin assez proches
(0,49 et 0,44). Le graphique de Bland et Altman permet de fournir une indication (clinique) de la
façon dont les données sont peu ou pas concordantes.
La méthode graphique de Bland et Altman, les calculs impliqués, et ses interprétations sont très bien
décrits par leurs auteurs dans leur article de 1999 (Bland and Altman, 1999) – la méthode étant pour
la première fois décrite par ces mêmes auteurs en 1986 (Bland and Altman, 1986). Le graphique de
Bland et Altman comporte (1) les mesures effectuées par les deux méthodes de mesure dont on
souhaite savoir si elles sont concordantes ou pas (1 point sur la courbe représente 1 prélèvement à
partir duquel on a effectué la mesure à l’aide des deux méthodes), (2) 3 droites horizontales, et (3)
les intervalles de confiance à 95% de ces 3 droites (sous forme de droites aussi). L’axe des abscisses
du graphique correspond à la moyenne de la valeur de Ccreat à partir des valeurs issues des deux
méthodes de mesure à comparer ; l’axe des ordonnées correspond à la différence entre la valeur de
Creat issue d’une des deux méthodes et celle issue de l’autre méthode.
Avant d’utiliser la méthode graphique de Bland et Altman, il est absolument indispensable d’avoir
une idée des valeurs X et Y dans la phrase suivante en fonction des 4 situations présentées au tout
début de ce tutoriel.
Situation n°1 (reproductibilité inter-opérateur d’une méthode de mesure) : « je considère que mes
deux opérateurs donnent des valeurs concordantes si (1) l’un ne sur-estime ou ne sous-estime les
valeurs par rapport à l’autre opérateur de plus de X, et si (2) la très grande majorité des écarts entre
les deux opérateurs est inférieure à Y (en valeur absolue) ».
Situation n°2 (reproductibilité spacio-temporelle d’une méthode de mesure) : « je considère que ma
méthode de mesure est reproductible si (1) la deuxième série de mesures ne sur-estime ou ne sousestime les valeurs par rapport à la première série de mesure de plus de X, et si (2) la très grande
majorité des écarts entre les deux séries de mesures est inférieure à Y (en valeur absolue) ».
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
13
Situation n°3 (répétabilité d’une méthode de mesure) : « je considère que ma méthode de mesure
est répétable si (1) la deuxième série de mesures ne sur-estime ou ne sous-estime les valeurs par
rapport à la première série de mesure de plus de X, et si (2) la très grande majorité des écarts entre
les deux séries de mesures est inférieure à Y (en valeur absolue) ». Dans cette situation n°3, il est
possible que vous ne jugiez pas important le critère X. En revanche, le critère Y est le critère qui doit
être vérifié pour garantir la répétabilité de votre méthode de mesure.
Situation n°4 (concordance entre deux méthodes de mesure) : « je considère que mes deux
méthodes de mesure sont concordantes si (1) la deuxième méthode de mesure ne sur-estime ou ne
sous-estime les valeurs par rapport à la première méthode de mesure de plus de X, et si (2) la très
grande majorité des écarts entre les deux séries de mesures provenant des deux méthodes de
mesure est inférieure à Y (en valeur absolue) ».
Par la suite, la valeur X correspond à la valeur seuil du 1er critère, et Y celle du 2nd critère. De plus, la
notion de « très grande majorité [des écarts] » dans la méthode de Bland et Altman correspond à
95% [des écarts]. Cela dit, vous pourriez tout à fait modifier cette proportion d’écarts, en vous fixant
une valeur de Y telle que T% (et non plus 95%) des écarts sont inférieurs à Y. Cette valeur de T%
définie ce que l’on appelle la zone d’agrément. Dans la suite de ce tutoriel, je fixerai cette zone
d’agrément à 95%, comme le recommandent Bland et Altman (Bland and Altman, 1999).
En reprenant notre exemple sur la concentration plasmatique en créatinine (Ccreat) mesurée par une
méthode de référence et par une nouvelle méthode (situation n°4), on considèrera que les deux
méthodes sont concordantes si (1) la nouvelle méthode ne sur-estime pas ou ne sous-estime pas la
méthode de référence de plus de 0,10 mg/dl, et si (2) 95% des écarts entre la nouvelle méthode et la
méthode de référence est inférieure à 0,30 mg/dl (en valeur absolue).
Supposons deux autres méthodes de mesure M3 et M4 dont on voudrait savoir si elles fournissent
des valeurs de Ccreat concordantes avec la méthode de référence (M_REF). Le tableau 8 présente les
valeurs de Ccreat mesurées par la méthode de référence (M_REF) ainsi que par les deux autres
méthodes, M3 et M4.
Tableau 8. Valeurs de la concentration plasmatique en créatinine (Ccreat, en mg/dl) mesurées par 3 méthodes
de mesure (la méthode de référence M_REF, M3, et M4) à partir de 15 prélèvements sanguins de chiens,
moyennes, et différences de Ccreat entre méthodes de mesure.
N° du chien
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ccreat mesurées
M_REF M3 M4
0,50 0,61 0,39
0,55 0,73 0,61
0,60 0,81 0,35
0,65 0,77 0,84
0,70 0,76 0,52
0,75 0,95 0,97
0,80 0,97 0,83
0,85 0,97 1,13
0,90 1,01 0,86
0,95 1,14 1,08
1,00 1,20 0,76
1,05 1,33 0,97
1,10 1,29 1,35
1,15 1,26 1,14
1,20 1,34 1,13
Moyennes de Ccreat
(M_REF+M3)/2 (M_REF+M4)/2
0,56
0,45
0,64
0,58
0,71
0,48
0,71
0,75
0,73
0,61
0,85
0,86
0,89
0,82
0,91
0,99
0,96
0,88
1,05
1,02
1,10
0,88
1,19
1,01
1,20
1,23
1,21
1,15
1,27
1,17
Différences de Ccreat
M3-M_REF M4-M_REF
0,11
-0,11
0,18
0,06
0,21
-0,25
0,12
0,19
0,06
-0,18
0,20
0,22
0,17
0,03
0,12
0,28
0,11
-0,04
0,19
0,13
0,20
-0,24
0,28
-0,08
0,19
0,25
0,11
-0,01
0,14
-0,07
La figure 1.b représente les mesures de Ccreat effectuées sur les 15 prélèvements sanguins, avec en
abscisse la valeur de Ccreat mesurée par la méthode de référence, et en ordonnée la valeur de Ccreat
pour les mêmes chiens mesurée par M3 et M4. La droite à 45° représente le fait que si les méthodes
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
14
M3 et M4 donnaient des valeurs de Ccreat identiques à la méthode de référence, alors les cercles
pleins et les cercles vides devraient se trouver sur cette droite.
Voici les commentaires que l’on peut faire de cette figure 1.b. La méthode M3 sur-estime les valeurs
de Ccreat (car les points sont au-dessus de la droite à 45°, qui représente la concordance parfaite avec
la méthode de référence) avec une relativement faible erreur de mesure. La méthode M4 ne semble
ni sur-estimer, ni sous-estimer les valeurs de Ccreat, mais l’erreur (aléatoire) de mesure semble
importante. Pour information, le coefficient de concordance de Lin est de 0,73 entre la méthode de
référence et la méthode M3 ; il est aussi de 0,73 entre la méthode de référence et la méthode M4.
Les figures 2.1 et 3 correspondent au graphique de Bland et Altman évaluant la concordance des
mesures entre la méthode de référence et respectivement les méthodes M3 et M4. Les figures 2.2,
2.3, et 2.4 représentent à chaque fois une partie du graphique total de la figure 2.1 pour faciliter
l’interprétation des informations fournies.
0.4
Différences de concentrat° créat. (M4 - M_REF)
0.35
Borne sup IC95% de limite
sup agrément
0.3
Limite sup agrément
Borne inf IC95% de limite sup
agrément
0.25
0.2
Borne sup IC95% du biais
Biais moyen
0.15
Borne inf IC95% du biais
0.1
Borne sup IC95% de limite inf
agrément
0.05
Limite inf agrément
0
0.5
0.7
0.9
1.1
1.3
Borne inf IC95% de limite inf
agrément
-0.05
Moyennes de concentrat° créat. entre M_REF et M4
Figure 2.1. Graphique de Bland et Altman représentant la concordance des mesures des concentrations
plasmatiques en créatinine (Ccreat, en mg/dl) effectuées avec les méthodes de référence (M_REF) et M3, sur
15 prélèvements sanguins de chiens. Chaque point représente 1 prélèvement, avec en abscisse la valeur de la
moyenne de Ccreat mesurée par la méthode de référence et la méthode M3 (colonne « Moyennes » dans le
tableau 8), et en ordonnée la différence de Ccreat entre la Ccreat mesurée par la méthode M3 et celle mesurée
par la méthode de référence (colonne « Différences » dans le tableau 8).
La figure 2.1 est le graphique de Bland et Altman pour les méthodes de mesure M_REF et M3 ; il
permet de représenter graphiquement la concordance entre les deux méthodes de mesure. Comme
vous pouvez le voir sur la figure 2.1, ce graphique contient beaucoup d’information, et nous allons
par conséquent scinder ce graphique en plusieurs autres, afin d’interpréter « par morceau » les
informations fournies.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
15
Différences de concentrat° créat. (M3 - M_REF)
0.35
0.3
0.25
0.2
Borne sup IC95% du biais
Biais moyen
0.15
Borne inf IC95% du biais
0.1
0.05
0
0.5
0.7
0.9
1.1
1.3
-0.05
Moyennes de concentrat° créat. entre M_REF et M3
Figure 2.2. Figure 2.1 avec seulement les prélèvements, le biais moyen, et l’intervalle de confiance à 95% de
ce biais moyen.
Le biais moyen, ici valant 0,16 (ordonnée de la droite correspondant au biais moyen, figure 2.2), est
la moyenne des différences de valeurs de Ccreat lorsqu’elles ont été mesurées avec les méthodes de
référence et M3 (colonne « Différences » dans le tableau 8). En fait, bien que certains auteurs parlent
de « biais », cette valeur doit être davantage vue comme un écart systématique moyen entre la
méthode M3 et la méthode de référence. Or, nous avions considéré qu’un écart systématique de
plus de 0,10 mg/dl n’était pas acceptable (valeur seuil du 1er critère de concordance). On considère
par conséquent que le 1er critère de concordance entre les méthodes de mesure n’est pas respecté.
Pour cependant nuancer ou au contraire confirmer cette considération, on peut maintenant regarder
l’intervalle de confiance à 95% du biais moyen, ici valant [0,13 ; 0,19] (Figure 2.2). La borne inférieure
de l’intervalle de confiance étant elle aussi supérieure à 0,10 mg/dl, il y a donc de grandes chances
pour que, en vrai, l’écart systématique entre la méthode de mesure de référence et la méthode de
mesure M3 soit supérieur à 0,10 mg/dl en valeur absolue. Nous avons par conséquent encore plus de
raisons de considérer que les deux méthodes de mesure M3 et M_REF ne sont pas concordantes (et
ce, indépendamment du fait que le 2nd critère de concordance sera ou non vérifié).
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
16
Différences de concentrat° créat. (M3 - M_REF)
0.35
0.3
Limite sup agrément
0.25
0.2
Biais moyen
0.15
0.1
0.05
Limite inf agrément
0
0.5
0.7
0.9
1.1
1.3
-0.05
Moyennes de concentrat° créat. entre M_REF et M3
Figure 2.3. Figure 2.1 avec seulement les prélèvements, le biais moyen, et les limites d’agrément.
Les limites d’agrément représentent une zone (ici comprise entre +0,04 et +0,28 mg/dl, figure 2.3)
dans laquelle se trouvent en moyenne 95% des écarts entre la Ccreat mesurée par la méthode M3 et
celle mesurée par la méthode de référence. Nous voyons donc que le 2nd critère de concordance que
nous avions fixé (« […] 95% des écarts entre la nouvelle méthode et la méthode de référence est
inférieure à 0,30 mg/dl (en valeur absolue) ») est respecté.
Différences de concentrat° créat. (M3 - M_REF)
0.35
Borne sup IC95% de limite
sup agrément
0.3
Limite sup agrément
Borne inf IC95% de limite sup
agrément
0.25
0.2
0.15
0.1
Borne sup IC95% de limite inf
agrément
0.05
Limite inf agrément
0
0.5
0.7
0.9
1.1
1.3
Borne inf IC95% de limite inf
agrément
-0.05
Moyennes de concentrat° créat. entre M_REF et M3
Figure 2.4. Figure 2.3 avec en plus les intervalles de confiance à 95% des limites d’agrément.
La limite supérieure d’agrément est de +0,28 mg/dl, inférieure, mais quoique proche de la limite que
l’on s’était fixée pour le 2nd critère de concordance (0,30 mg/dl en valeur absolue). L’intervalle de
confiance à 95% de cette limite supérieure d’agrément est de [0,23 ; 0,34] (Figure 2.4), indiquant
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
17
qu’il y a 95% de chances pour que la vraie limite supérieure de l’agrément dans la population3 soit
comprise entre 0,23 et 0,34 mg/dl. Comme la borne supérieure de l’intervalle de confiance (0,34) de
la limite supérieure d’agrément (+0,28) est plus grande que la valeur que nous avions fixée de 0,30,
cela veut donc dire qu’il y a malheureusement des chances pour que la vraie limite supérieure
d’agrément dans la population soit plus grande que 0,30. Par conséquent, il y a des chances pour que
dans la population, le critère « […] 95% des écarts entre la nouvelle méthode et la méthode de
référence est inférieure à 0,30 mg/dl (en valeur absolue) » ne soit finalement pas respecté. Pour être
totalement en confiance dans le respect de ce 2nd critère de concordance, il aurait fallu que4 la borne
supérieure de l’intervalle de confiance de la limite supérieure de l’agrément soit inférieure à 0,30
mg/dl (elle est ici, je le rappelle, de 0,34 mg/dl – cf. Figure 2.4).
Différences de concentrat° créat. (M4 - M_REF)
0.8
0.6
Borne sup IC95% de limite
sup agrément
Limite sup agrément
Borne inf IC95% de limite sup
agrément
0.4
0.2
Borne sup IC95% du biais
Biais moyen
0
0.4
0.6
0.8
1
-0.2
1.2
Borne inf IC95% du biais
Borne sup IC95% de limite inf
agrément
Limite inf agrément
-0.4
Borne inf IC95% de limite inf
agrément
-0.6
Moyennes de concentrat° créat. entre M_REF et M4
Figure 3. Graphique de Bland et Altman représentant la concordance des mesures des concentrations
plasmatiques en créatinine (Ccreat, en mg/dl) effectuées avec les méthodes de référence (M_REF) et M4, sur
15 prélèvements sanguins de chiens. Chaque point représente 1 prélèvement, avec en abscisse la valeur de la
moyenne de Ccreat mesurée par la méthode de référence et la méthode M4 (colonne « Moyennes » dans le
tableau 8), et en ordonnée la différence de Ccreat entre la Ccreat mesurée par la méthode M4 et celle mesurée
par la méthode de référence (colonne « Différences » dans le tableau 8).
La figure 3 est le graphique de Bland et Altman pour les méthodes de mesure M_REF et M4. Le biais
moyen est de +0,01 mg/dl, et son intervalle de confiance à 95% est [-0,08 ; +0,11] (Figure 3). Par
conséquent, le 1er critère de concordance « la nouvelle méthode ne sur-estime pas ou ne sous-estime
pas la méthode de référence de plus de 0,10 mg/dl » est respecté puisque nous avons un écart
systématique (« biais moyen ») de +0,01 mg/dl. Malheureusement, la valeur seuil fixée du 1er critère
de 0,10 mg/dl est incluse dans l’intervalle de confiance du biais moyen, donc on ne peut pas être en
3
Qu’est-ce que vient faire ici ce « population » ??? La méthode M3 est, en soi, soit réellement concordante (les
critères X et Y sont réellement et intrinsèquement respectés), soit réellement non concordantes (l’un au moins
des deux critères X et Y ne sont pas intrinsèquement respectés). Pour répondre à cette dualité, nous avons tiré
au sort un échantillon de 15 mesures. La fluctuation d’échantillonnage peut tout à fait conduire, par le biais du
hasard, à des limites observées d’agrément bien différentes des limites d’agrément réelles, c’est-à-dire le réel
intervalle où se situe 95% des potentiels milliards écarts de mesures entre les deux méthodes que l’on aurait
effectuées. La « population » ici est en quelque sorte ces milliards d’écarts de mesures.
4
Attention, prenez votre respiration !
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
18
totale confiance dans le fait de penser qu’en vrai, le 1er critère de concordance a de grandes chances
d’être vérifié.
Les limites inférieures et supérieures d’agrément sont respectivement de -0,37 et +0,40 mg/dl
(Figure 3). Ces valeurs sont, en valeur absolue, toutes deux supérieures à 0,30 mg/dl, valeur seuil
fixée pour le 2nd critère. On décide donc de dire que le 2nd critère de concordance n’est pas vérifié. (A
ce stade-là, il serait malhonnête de regarder les bornes des intervalles de confiance à 95% de ces
limites d’agrément, puis de dire « les valeurs seuil fixées de -0,30 et +0,30 mg/dl sont cependant
incluses dans les intervalles de confiance des limites inférieure et supérieure d’agrément, donc il y
des chances pour que le 2nd critère soit quand même vérifié. ») Par conséquent, la méthode de
mesure M4 ne peut pas être considérée comme concordante avec la méthode de référence.
D.
Confrontation coefficient de concordance de Lin versus graphique de Bland et
Altman
Comme l’on vient de le voir, le fait de considérer que deux séries de mesures sont concordantes ou
discordantes à l’aide du graphique de Bland et Altman (vérification de deux critères X et Y) repose sur
des considérations cliniques (choix a priori des valeurs X et Y), puis statistiques (intervalles de
confiance à 95% qui apportent de la nuance dans le fait de considérer que deux séries de mesures
sont concordantes ou non). Dans le calcul du coefficient de concordance de Lin, la considération
clinique est inexistante. Seule prévaut la considération statistique. Or, même si l’on a parfois
l’impression que certains reviewers préfèrent les considérations statistiques aux considérations
cliniques, je recommande l’utilisation systématique des courbes de Bland et Altman pour évaluer la
concordance de deux séries de mesures. En effet, un coefficient de concordance de Lin peut être très
élevé, avec des critères X et/ou Y non vérifiés. A contrario, un coefficient de concordance de Lin peut
être « passable » avec des critères X et Y tous deux vérifiés. Un excellent exemple d’utilisation de la
méthode de Bland et Altman pour évaluer cliniquement la répétabilité d’une méthode de mesure se
trouve dans l’article de Bakker et al. (Bakker et al., 1999).
E.
Coefficient de concordance de Lin et degré de signification
Le raisonnement est exactement le même que celui mentionné pour le coefficient de concordance
Kappa. Ainsi, quand on veut quantifier la concordance entre deux séries de mesures quantitatives,
très souvent, il existe déjà une concordance – on ne veut donc pas savoir si elle existe, mais plutôt
savoir si cette concordance est excellente, très bonne, ou moyenne. Ainsi, le fait qu’un test nous dise
qu’il existe très vraisemblablement une concordance réelle (car le p < 5%) ne nous importe
finalement pas.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
19
VII.
Protocole à mettre en place pour évaluer la répétabilité, reproductibilité, ou
concordance de méthodes de mesure.
Pour évaluer la répétabilité ou la reproductibilité d’une même méthode de mesure, ou encore la
concordance entre deux méthodes de mesure, vous devez évaluer deux fois plusieurs « individus »
(au minimum cinq5). Par « individu », j’entends « entité » indépendante d’une autre « entité ». Par
exemple, un « individu » peut être un animal, une radiographie, une coupe histologique, un
prélèvement, etc. Evaluer un individu plus de deux fois nécessitent un traitement statistique qui
dépasse le champ de ce tutoriel. Par ailleurs, deux séries de mesures par individu sont suffisantes
pour évaluer la concordance entre deux séries de mesures.
Le protocole doit être tel que vous devrez être capable de remplir le tableau 9. Si vous voulez évaluer
la reproductibilité inter-opérateurs d’une méthode de mesure, la série n°1 correspondra à
l’opérateur n°1 et la série n°2 correspondra à l’opérateur n°2. Si vous voulez évaluer la
reproductibilité spacio-temporelle d’une méthode de mesure, la série n°1 correspondra à une série
mesurée à un instant t0 et la série n°2 correspondra à une série mesurée un instant t1
(« grandement » distant temporellement et/ou spatialement de t0). Si vous voulez évaluer la
répétabilité d’une méthode de mesure, la série n°1 correspondra à une série mesurée à un instant t0
et la série n°2 correspondra à une série mesurée un instant t1 (« très faiblement » distant
temporellement et/ou spatialement de t0). Si enfin vous voulez évaluer la concordance entre
méthodes de mesure différentes, la série n°1 correspondra à la méthode de mesure n°1, et la série
n°2 correspondra à la méthode de mesure n°2.
Tableau 9. Tableau à remplir pour évaluer la répétabilité/reproductibilité/concordance de méthodes de
mesure.
Individu
1
2
3
…
Série n°1
Mesure M1-1
Mesure M1-2
Mesure M1-3
…
Série n°2
Mesure M2-1
Mesure M2-2
Mesure M2-3
…
Dans le cas de l’évaluation de la reproductibilité inter-opérateurs, certains protocoles prévoient 3
opérateurs ou plus. Dans de tels cas, l’utilisation des méthodes simples présentées dans ce tutoriel
conduit à évaluer la concordance entre les opérateurs n°1 et n°2, puis entre les opérateurs n°1 et
n°3, puis entre les opérateurs n°2 et n°3, etc. Ceci rend difficile l’interprétation des résultats, sauf si
les opérateurs 1, 2, et 3 ont des fonctions / compétences différentes dont on voudrait savoir si,
malgré ce, on peut obtenir une concordance inter-opérateurs correcte de la part de la méthode de
mesure.
Ensuite, le choix de l’indicateur numérique de concordance dépend du type de mesure : (a) si les
mesures sont binaires ou qualitatives nominales, il faut utiliser le coefficient de concordance Kappa
classique, (b) si les mesures sont qualitatives ordinales, on peut utiliser soit le coefficient de
concordance Kappa classique, soit le coefficient de concordance Kappa pondéré, (c) si les mesures
sont quantitatives, il faut utiliser le coefficient de concordance de Lin associé au graphique de Bland
et Altman.
5
Plus le nombre d’individus sera important, et plus les indicateurs de la concordance (Kappa, Lin, droites dans le graphique
de Bland et Altman) seront estimés avec précision, avec un intervalle de confiance à 95% resserré autour de l’indicateur
estimé.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
20
VIII.
Remerciements
Je tiens à remercier toutes celles et ceux qui m’ont transmis leurs remarques afin de rendre ce
tutoriel plus facile à lire et à comprendre, et tout particulièrement les Dr G Marignac et R Blagua, et
le Pr B Toma pour leurs corrections, suggestions, et commentaires très pertinents.
IX.
Références
Bakker, J., Olree, M., Kaatee, R., de Lange, E.E., Moons, K.G., Beutler, J.J. and Beek, F.J., 1999. Renal
volume measurements: accuracy and repeatability of US compared with that of MR imaging.
Radiology. 211, 623-8.
Barnhart, H.X., Haber, M. and Song, J., 2002. Overall concordance correlation coefficient for
evaluating agreement among multiple observers. Biometrics. 58, 1020-7.
Barnhart, H.X., Haber, M.J. and Lin, L.I., 2007. An overview on assessing agreement with continuous
measurements. J Biopharm Stat. 17, 529-69.
Bergknut, N., Meij, B.P., Hagman, R., de Nies, K.S., Rutges, J.P., Smolders, L.A., Creemers, L.B.,
Lagerstedt, A.S., Hazewinkel, H.A. and Grinwis, G.C., 2013. Intervertebral disc disease in dogs
- Part 1: A new histological grading scheme for classification of intervertebral disc
degeneration in dogs. Vet J. 195, 156-63.
Bland, J.M. and Altman, D.G., 1986. Statistical methods for assessing agreement between two
methods of clinical measurement. Lancet. 1, 307-10.
Bland, J.M. and Altman, D.G., 1999. Measuring agreement in method comparison studies. Stat
Methods Med Res. 8, 135-60.
Brenner, H. and Kliebsch, U., 1996. Dependence of weighted kappa coefficients on the number of
categories. Epidemiology. 7, 199-202.
Cohen, J., 1960. A coefficient of agreement for nominal scales. Educ Psychol Meas. 20, 37-46.
Cohen, J., 1968. Weighted Kappa: nominal scale agreement with provision for scaled disagreement or
partial credit. Psychol Bull. 70, 213-20.
Crawford, S.B., Kosinski, A.S., Lin, H.M., Williamson, J.M. and Barnhart, H.X., 2007. Computer
programs for the concordance correlation coefficient. Comput Methods Programs Biomed.
88, 62-74.
Durando, M.M., Corley, K.T., Boston, R.C. and Birks, E.K., 2008. Cardiac output determination by use
of lithium dilution during exercise in horses. Am J Vet Res. 69, 1054-60.
Gibbons-Burgener, S.N., Kaneene, J.B., Lloyd, J.W., Leykam, J.F. and Erskine, R.J., 2001. Reliability of
three bulk-tank antimicrobial residue detection assays used to test individual milk samples
from cows with mild clinical mastitis. Am J Vet Res. 62, 1716-20.
Giori, L., Giordano, A., Giudice, C., Grieco, V. and Paltrinieri, S., 2011. Performances of different
diagnostic tests for feline infectious peritonitis in challenging clinical cases. J Small Anim
Pract. 52, 152-7.
Graham, P. and Jackson, R., 1993. The analysis of ordinal agreement data: beyond weighted kappa. J
Clin Epidemiol. 46, 1055-62.
Kraemer, C.H., Periyakoil, V.S. and Noda, A., 2002. Kappa coefficients in medical research. Stat Med.
21, 2109-29.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
21
Landis, J.R. and Koch, G.G., 1977. The Measurement of Observer Agreement for Categorical Data.
Biometrics. 33, 159-74.
Lin, L., Hedayat, A.S. and Wu, W., 2007. A unified approach for assessing agreement for continuous
and categorical data. J Biopharm Stat. 17, 629-52.
Lin, L.I., 1989. A concordance correlation coefficient to evaluate reproducibility. Biometrics. 45, 25568.
Ludbrook, J., 2002. Statistical techniques for comparing measurers and methods of measurement: a
critical review. Clin Exp Pharmacol Physiol. 29, 527-36.
Norton, J.L., Nolen-Walston, R.D., Underwood, C., Slack, J., Boston, R. and Dallap, B.L., 2011.
Comparison of water manometry to 2 commercial electronic pressure monitors for central
venous pressure measurement in horses. J Vet Intern Med. 25, 303-6.
Partik, B.L., Stadler, A., Schamp, S., Koller, A., Voracek, M., Heinz, G. and Helbich, T.H., 2002. 3D
versus 2D ultrasound: accuracy of volume measurement in human cadaver kidneys. Invest
Radiol. 37, 489-95.
Patton, N., Aslam, T. and Murray, G., 2006. Statistical strategies to assess reliability in ophthalmology.
Eye (Lond). 20, 749-54.
Perkins, J.D., Salz, R.O., Schumacher, J., Livesey, L., Piercy, R.J. and Barakzai, S.Z., 2009. Variability of
resting endoscopic grading for assessment of recurrent laryngeal neuropathy in horses.
Equine Vet J. 41, 342-6.
Sim, J. and Wright, C.C., 2005. The kappa statistic in reliability studies: use, interpretation, and
sample size requirements. Phys Ther. 85, 257-68.
Tennent-Brown, B.S., Koenig, A., Williamson, L.H. and Boston, R.C., 2011. Comparison of three pointof-care blood glucose meters for use in adult and juvenile alpacas. J Am Vet Med Assoc. 239,
380-6.
Voyvoda, H. and Erdogan, H., 2010. Use of a hand-held meter for detecting subclinical ketosis in dairy
cows. Res Vet Sci. 89, 344-51.
Répétabilité/reproductibilité/concordance de méthodes de mesure – Loïc Desquilbet © – Version v9
22

Documents pareils