Contrôle de qualité des données - International Union Against

Transcription

Contrôle de qualité des données - International Union Against
INT J TUBERC LUNG DIS 15(3):296–304
© 2011 The Union
ÉTAT DE LA QUESTION
SERIE ÉTAT DE LA QUESTION
Recherche opérationnelle, Edité par Donald A. Enarson
NUMÉRO 3 DE LA SÉRIE
Contrôle de qualité des données : s’assurer que les nombres
reflètent les définitions opérationnelles et contiennent les
mesures réelles
H. L. Rieder,*† J. M. Lauritsen‡§
* Département de la Tuberculose, Union Internationale Contre la Tuberculose et les Maladies Respiratoires, Paris,
France ; †Institute of Social and Preventive Medicine, University of Zurich, Zurich, Suisse ; ‡ Institute of Public Health,
Biostatistic Unit, University of Southern Denmark, Odense, § Epidata Association, Odense, Danemark
RÉSUMÉ
Toute analyse n’est convaincante qu’en fonction de la qualité des données qu’elle étudie. Dans cet article, on donne
un exemple du rôle de la qualité des données sous forme de leur impact sur l’interprétation des données de surveillance, par les projets de recherche opérationnelle menés dans les cours de formation de l’Union Internationale
contre la Tuberculose et les Maladies Respiratoires. On signale également les leçons que l’on peut en tirer. Ce travail
fournit des informations sur la raison pour laquelle la double saisie des données et leur validation font partie d’une
bonne pratique clinique, et il suggère la manière de porter au maximum l’efficience de la saisie des données afin de
réduire la durée et les erreurs de saisie des données de telle manière qu’on puisse réduire les barrières psychologiques
et physiques à la double saisie de ces données.
M O T S - C L É S : recherche ; qualité des données ; bonne pratique clinique
LORSQU’UNE ÉTUDE SIGNALE, pour une indication donnée, la supériorité d’un médicament A sur un
médicament B, nous pouvons ergoter sur l’interprétation des données. Si nous devions mettre en doute à
juste titre la qualité des données sous-jacentes, l’étude
serait sans valeur. Des règles, des recommandations
et même des réglementations pour mener des essais
cliniques ont été élaborées pour garantir le caractère
correct de l’information et de la qualité des données,
par exemple aux Etats-Unis par la Food and Drug
Administration et dans l’Union Européenne par un
groupe de travail sur la prise en charge des données.1
Les exigences pour la documentation des données et
le contrôle de qualité des données sont rigides et à
juste titre. Nous attendons des informations et des
données impeccables dans les essais cliniques, mais
Les articles précédents de cette série Éditorial: Enarson D A. Operational research, a State of the Art series in the Journal. Int J
Tuberc Lung Dis 2011; 15(1): 3. No 1: Lienhardt C, Cobelens F G J.
Operational research for improved tuberculosis control: the scope,
the needs and the way forward. Int J Tuberc Lung Dis 2011; 15(1):
6–13. No 2: Harries A D, Rusen I D, Reid T, et al. The Union and
Médecins Sans Frontières approach to operational research. Int J
Tuberc Lung Dis 2011; 15(2): 144–154.
fréquemment, nous paraissons moins soucieux lorsqu’il
s’agit d’autres recherches. En réalité, si on lit attentivement l’IJTLD, la garantie d’une qualité impeccable
des données semble plutôt l’exception que la règle.2
Nous ne semblons voir que rarement la nécessité de
documenter les efforts faits pour garantir la qualité
des données.
Nous suggérons que la qualité des données est
toujours importante en matière de recherche, qu’il
s’agisse d’un essai clinique, d’une surveillance ou d’un
projet de recherche opérationnelle. Dans ce travail,
nous tentons de démontrer comment les données sont
produites, comment elles devraient être produites et
comment garantir que les événements enregistrés en
matière de santé dans des sources primaires de données comme les dossiers-papier puissent être saisis
avec efficience et précision par voie électronique pour
refléter les données de la source-mère. Nous utilisons
des exemples repris dans notre propre expérience et
dans la littérature pour démontrer pourquoi la qualité des données est importante et comment on peut
la garantir.
Cet exposé devrait aider les chercheurs à réfléchir
sur les justifications d’un enregistrement de données
Auteur pour correspondance : H L Rieder, Département de la Tuberculose, Union Internationale Contre la Tuberculose et
les Maladies Respiratoires, Jetzikofenstrasse 12, 3038 Kirchlindach, Suisse. Tel : (+41) 31 829 4577. Fax : (+41) 31 829
4576. e-mail : [email protected]
[Traduction de l’article : « Quality assurance of data: ensuring that numbers reflect operational definitions and contain real
measurements » Int J Tuberc Lung Dis 2011; 15(3): 296–304]
2
The International Journal of Tuberculosis and Lung Disease
de qualité garantie et aider les épidémiologistes du
terrain dans l’identification des problèmes-clé qui augmentent la qualité de la saisie des données électroniques. Cet article leur donne des recommandations
pratiques sur la manière de garantir l’efficience de la
tâche ennuyeuse et répétitive que constitue la saisie
des données, qui est pourtant la colonne vertébrale
de toute analyse crédible.
SURVEILLANCE : TRANSMISSION EN TEMPS
UTILE DES DONNÉES IMPORTANTES
Il est essentiel pour la surveillance que les données significatives en premier lieu arrivent dans les dossiers
ou arrivent en temps utile, ce qui n’est pas toujours le
cas. Il semble qu’un bon système de surveillance basé
sur l’énumération simple, correcte et en temps utile
des cas incidents qui viennent à la connaissance du
système de soins de santé soit un impératif simple.
L’exemple suivant illustre comment ceci peut ne pas
être le cas avec des conséquences embarrassantes et
fatales.
Le 9 mars 1963, un premier cas d’infection par
Salmonella typhi a été déclaré en Angleterre et confirmé
trois jours plus tard par l’Enteric Reference Laboratory de Colindale.3 Dans les quelques jours qui ont
suivi, des déclarations de cas provenant de diverses
parties d’Angleterre sont arrivées au Ministère de la
santé. Le 14 mars, le directeur du laboratoire de Colindale a prévenu les autorités suisses de l’existence probable d’une épidémie de typhoïde, apparemment
d’origine aqueuse, et provenant de Zermatt, un des
centres touristiques les plus célèbres de Suisse. Un
médecin local avait prévenu le maire de Zermatt et
les autorités cantonales le 10 mars. Le rapport scientifique évite discrètement de mentionner si cette information avait été transmise aux autorités nationales
ou si elle provenait, surprise désagréable, de l’alerte
venant du Royaume Uni.3 De toute manière, en Angleterre, les agents médicaux ont été prévenus de la
mini-épidémie le 13 mars alors que les autorités
nationales suisses ont informé officiellement le public
5 jours plus tard, le 18 mars. Au Royaume Uni, la
surveillance a abouti à son objectif alors qu’en Suisse,
celui-ci lui a échappé. A la suite de cette épidémie
(437 cas), la Suisse a reconnu que son système de surveillance des maladies transmissibles ne répondait
pas aux standards et est passé à la déclaration fédérale obligatoire par les laboratoires de toute une série
d’organismes bien définis afin de compléter les déclarations obligatoires par les médecins.
La plupart des pays ont probablement des déclarations obligatoires pour des pathogènes bien spécifiés.
Cette déclaration s’étend même souvent pour inclure
certaines maladies non transmissibles. Toutefois, il est
bien connu que les cliniciens ne signalent pas régulièrement les maladies à déclaration obligatoire, de sorte
que sans un système complémentaire comme celui des
laboratoires, dans le cas des maladies transmissibles,
les déclarations basées sur les seuls médecins sont
souvent hasardeuses.
Dans une étude dans deux hôpitaux de Londres,
on a fait l’inventaire de tous les nouveaux diagnostics
de tuberculose (TB) au cours d’une période déterminée et l’on a comparé avec les dossiers du système de
déclaration.4,5 Dans la première enquête, en fonction
de la spécialité, entre 52% et 82% des cas nouvellement diagnostiqués avaient été signalés. Après répétition de l’enquête, la sensibilisation apparemment induite par la première enquête a révélé une amélioration
des déclarations jusqu’à 80% à 95% dans les mêmes
spécialités.
Le nombre de variables exigées sur les formulaires
de déclaration dépasse fréquemment l’indispensable.
Ceci concerne également la recherche,6 et pourrait
décourager des praticiens très occupés. Un décompte
simple mais impeccable des cas infectés par S. typhi
est de loin plus important que les nombreuses questions qui peuvent et doivent toujours être posées lors
de l’investigation d’une épidémie. De la même manière, en matière de TB, un petit groupe de questions
est suffisant pour la surveillance,7 alors que dans les
deux décomptes, un système complet de base de données électroniques fait souvent défaut pour la prise en
charge et la surveillance des cas.
Quand l’incidence globale d’une maladie transmissible est élevée, la multitude de petites mini-épidémies
qui interviennent dans l’incidence globale n’est plus
facile à discerner. Il en est ainsi particulièrement pour
des maladies dont les périodes d’incubation sont
longues ou mal définies comme la TB où l’on s’attend
à ce que les modifications au fil du temps soient graduelles plutôt que brutales. A la Figure 1, les modifications des pourcentages dans les déclarations des
cas incidents de TB d’année en année apparaissent
pour deux pays : le pays A en Afrique de l’Est et le
pays B en Asie du Sud-Est. Dans le pays A, le système
de déclaration était apparemment bien en place au
moment du début du graphique et il y a relativement
Figure 1 Pourcentage de modification au cours d’une année
par comparaison avec l’année précédente pour les cas non déclarés de tuberculose dans deux pays.
Qualité des données dans la recherche
peu de fluctuations dans le nombre de cas d’une année
à la suivante. Les fluctuations d’amplitude dans les
déclarations de cas du pays B sont très importantes
jusqu’ à environ 2002, moment où s’observe l’amplitude approximative que nous pourrions raisonnablement attendre. Clairement, un système de surveillance
régulière a été établi plus tôt dans le pays A, alors que
dans le pays B, on s’approchait encore d’un consolidation pendant plusieurs années avant qu’il ne devienne
efficace. Evidemment, un graphique simple comme
celui-ci ne peut pas établir dans quelle mesure les cas
signalés reflètent le nombre exact de cas connus dans
le système, mais il est évident que jusqu’au environ de
2002, les décomptes de cas dans le pays B n’ont pas
d’autre valeur que de mettre en évidence un système
apparemment déficient ou fonctionnant mal.
Le système de surveillance des Etats-Unis contraste
avec les deux pays mentionnés plus haut. Les maladies à déclaration sont signalées chaque semaine aux
Centers for Disease Control and Prevention (CDC).
Alors que ces décomptes ne sont pas définitifs et sont
vérifiés (ce qui se produit après la clôture de l’année
de déclaration), le système est disposé de telle manière qu’il soit sensible, fonctionne en temps utile et
recueille uniquement le décompte des cas. Grâce à des
comparaisons semaine par semaine des modifications
cumulatives relatives des cas de TB signalés, on a noté
nettement qu’à la semaine 39 de 1985, les déclarations cumulatives de TB s’étaient écartées du comportement attendu (Figure 2) ; le public américain a
été rapidement alerté de l’impact possible de l’infection par le virus de l’immunodéficience humaine sur la
TB aux Etats-Unis ;8 ce fut le premier rapport national
qui l’ait jamais fait. La non-normalisation de la
courbe a été confirmée ultérieurement par les données
provisoires pour l’ensemble de l’année 19859 et confirmée par les données finales de cette année.10 Cet
Figure 2 Modification des pourcentages des cas incidents de
tuberculose signalés de manière cumulative en 1984 par comparaison avec 1983 (ligne continue) et pendant les 39 premières
semaines de 1985 par comparaison avec les 39 premières semaines de 1984 (tirets). (Repris aux données brutes originales
du Centers for Disease Control, par courtoisie de Alan B Bloch,
11 octobre 1994).
3
exemple démontre le rôle dominant que joue pour la
surveillance un décompte impeccable des cas en temps
utile. Le décompte des cas à lui seul a suscité des investigations ultérieures visant spécifiquement à évaluer l’hypothèse.11,12 La première priorité dans la surveillance est un décompte simple et précis des cas et
non des détails concernant des cas médiocrement
comptés.
Dans la surveillance, la connaissance en temps
utile est un impératif et, plus grande est la priorité
qu’on lui donne, moins il faut demander d’informations qui doivent se réduire à un simple décompte des
cas lorsque l’intervention sur l’épidémie est au premier plan des préoccupations, comme c’est la cas pour
S. typhi, la méningite à méningocoques, ou même
comme démontré plus haut pour la réémergence de la
TB aux États-Unis. L’exigence d’un trop grand nombre de données de routine peut entraîner un ciblage
insuffisant de l’information.
Un système de surveillance électronique ne devrait
pas être confondu avec un système électronique de
prise en charge des cas dont la complexité a une dimension totalement différente, qui est terriblement
coûteux et doit se limiter aux pays techniquement
très avancés et ayant des utilisateurs très accoutumés
aux ordinateurs.13
Dans la recherche, les données en temps réels sont
rarement nécessaires, et on peut exiger un plus grand
nombre de paramètres que dans la surveillance ; toutefois, l’approche doit tenir toujours être économe
car une plus petite quantité de données garantit souvent une meilleure qualité en termes de complétude
(faible niveau de données manquantes) et certainement
une plus grande efficience.
COMMENT DES DONNÉES ERRONÉES
PEUVENT ABOUTIR DANS LES
ENREGISTREMENTS-PAPIER
Certaines caractéristiques comme le genre du patient
sont faciles à reconnaître et on peut donc espérer
qu’elles soient correctement enregistrées. Cela devient
plus difficile pour l’âge, car les patients peuvent ne
connaître ni leur âge en années, ni leur date de naissance. Il n’est pas rare que le niveau de précision sollicité par l’agent de santé éduqué concernant cette information soit supérieur à que ce que le patient est
effectivement capable de fournir. Une information
« précise » mais inexacte peut être fournie par des
sujets interviewés qui ne désirent pas décevoir l’interviewer. Par exemple cela s’est produit lorsque l’on a
demandé la date de naissance aux parents de 600 enfants atteints de TB dans un contexte où la question
au sujet de la date de naissance avait apparemment
une signification différente pour les parents et pour
l’interviewer. Non seulement, le mois d’octobre a été
indiqué comme mois de naissance à une fréquence de
8,3% supérieure à celle attendue, mais le jour a été le
4
The International Journal of Tuberculosis and Lung Disease
de saisie électronique. Alors qu’il y a une relation directe entre le nombre de variables et la proportion d’enregistrements comportant au moins une saisie erronée,
il pourrait exister des problèmes plus nombreux mais
moins apparents en ce qui concerne la fréquence des
erreurs au niveau des variables. Bien que l’on admette
souvent que seules les données devant être publiées
doivent être recueillies,6 ce principe de base est couramment méconnu dans les systèmes de routine.
SAISIE DES DONNÉES : LA NÉCESSITÉ
D’UNE COLLECTE SIMPLE, RAPIDE ET
PRÉCISE DES DONNÉES
Figure 3 Répartition des pourcentages des mois de naissance
(cercles avec intervalles de confiance à 95%) enregistrés à partir
des informations des parents concernant leurs enfants atteints
de tuberculose, et proportion dans chaque mois donnant le
même jour que le nombre du mois pour la date de naissance
(carrés). (Données non publiées, courtoisie de Kurt Schopfer,
Institute of Infectious Diseases, University of Berne, Suisse).
même que le nombre du mois dans 30% à 60% des
cas plutôt que dans les 3% attendus (Figure 3). Un
jour particulièrement favori a été le 10 octobre, choisi
pour 13% de l’ensemble des enfants (données non
publiées dues à la courtoisie de Kurt Schopfer, Institut des Maladies Infectieuses, Université de Berne,
Suisse, 9 août 2010). La question concernant la date
de naissance comme nous la comprenons était clairement inappropriée au contexte culturel concerné.
Des erreurs de classification sont un problème bien
connu, par exemple dans le cas de la race ou de
l’ethnie de certaines populations minoritaires aux
Etats-Unis.14 Dans cet article, nous éviterons de discuter davantage les erreurs primaires de classification
et nous nous focaliserons sur la façon de prévenir des
erreurs supplémentaires d’omission et de pourcentage
lors du transfert des données-papier vers les dossiers
électroniques.
TRANSFERT DES DONNÉES-PAPIER SUR UN
DOSSIER DE DONNÉES ELECTRONIQUES
Si l’on considère déjà que dans la surveillance il est difficile de compter les cas correctement, il sera encore
bien plus complexe de transférer plus d’une variable
du papier vers l’ordinateur. Les ordinateurs permettent
des analyses rapides et reproductibles et le volume du
travail d’analyse est le même que la base de données
comporte 100 ou 100.000 cas. Les ordinateurs permettent également une analyse de données complexes
qui ne serait tout simplement pas possible manuellement. L’attrait de l’analyse basée sur les ordinateurs est
si fort que l’on oublie souvent que le nombre d’erreurs
potentielles dans la saisie électronique de l’enregistrement augmente avec l’augmentation du nombre de
variables. Il en est ainsi quelle que soit la méthode
La saisie des données est ennuyeuse et répétitive et ne
devrait pas constituer un défi intellectuel. Elle est
donc habituellement confiée à des « employés de saisie
de données » pour qui l’appropriation ou la compréhension du contenu ne constituent qu’un petit enjeu.
Dans une étude collaborative de L’Union (Union
Internationale Contre la Tuberculose et les Maladies
Respiratoires) sur les registres des cas de TB,15 les
chercheurs introduisant eux-mêmes les données étaient
plus lents que les professionnels de la saisie des données mais faisaient aussi un plus petit nombre d’erreurs (N B Hoa, Programme Nationale de lutte contre
la Tuberculose, Viet Nam, communication personnelle, 12 juin 2010).
Dans la section suivante, nous illustrons par un
exemple provenant du travail collaboratif de L’Union,
comment l’on a approché la réponse à une question
opérationnelle pertinente en utilisant un instrument
efficient de collecte de données et en les validant pour
garantir une précision élevée. Le Tableau résume les
étapes génériques depuis la formulation d’une hypothèse de recherche jusqu’à un ensemble de données
finalisées et de qualité garantie, étapes qui sont applicables à toute situation mais aussi spécifiquement à
l’exemple présenté ci-dessous.
La question de recherche : rendement additionnel
des examens en série des frottis de crachats dans
la pratique clinique de routine
Le nombre d’échantillons en série qui doivent être recueillis a constitué pendant longtemps une préoccupation des spécialistes de laboratoire et aussi des cliniciens. C’est peut-être une des plus grandes séries
qui a été signalée par Hunter en 1940.16 La routine
appliquée dans un laboratoire de sanatorium consistait à examiner jusqu’à 14 frottis en série à la suite de
l’admission d’un nouveau patient TB ou encore poursuivre les examens jusqu’au premier frottis positif. Sur
1103 cas de TB pulmonaire examinés, 825 (74,8%)
ont été confirmés par l’examen microscopique direct
des frottis de crachats. Dans ce contexte où l’on portait une attention soigneuse à l’obtention d’une efficacité aussi forte que possible, 71% des cas positifs sur
n’importe quel frottis ont été détectés lors du premier
Qualité des données dans la recherche
Tableau Processus de définition des variables pour la saisie des données, l’élaboration du
formulaire de saisie des données, les restrictions apportées à la saisie des données, la double
saisie et la validation
Étape
Hypothèse de recherche
Variables minimales
requises
Variables-clé explicatives
Livre de codes
Formulaire de saisie
des données
Contrôles de la saisie
des données
Test pilote
Saisie des données
Double saisie
Validation des données
Correction et
finalisation
des données
Explication
Formuler une hypothèse de recherche susceptible d’être testée
Définition du nombre minimum absolu de variables qui sont nécessaires pour
tester l’hypothèse de recherche
Définition des variables explicatives essentielles qui seront analysées
S’abstenir d’ajouter des variables « qu’on aimerait connaître » et s’en tenir
aux variables « qu’il faut connaitre »
Un livre de « codes » appelé également « feuille de documentation des
données » fait la liste de toutes les variables qui seront saisies. Les aspects
suivants devraient être définis pour chaque variable :
Nom de champ : un mot court et unique, nom intuitif ou nombre séquentiel
pour la variable, par exemple « âge » ou « V1 »
Légende du champ : une légende explicative pour le terrain, de préférence
exactement la même que celle qui apparait sur la source primaire des
données, par exemple « âge en années lors du dernier anniversaire—
souvent ceci est le « texte de la question », lorsqu’il se situe dans un
questionnaire
Type de champ : type de champ, par exemple « I » (nombre entier), « F »
(nombre approximatif ou réel), « D » (date), « T » (texte), « U » (texte en
majuscules), etc. Eviter les champs logiques (oui-non) et donner la
préférence aux champs entiers
Valeurs du champ : valeurs licites pour les champs, par exemple, limites et
valeurs licites pour les variables numériques continues, dates (et champs
de texte ; entiers pour les variables catégorielles, par exemple, 1, 2, 9 pour
un champ « sexe », etc.)
Légendes des valeurs : pour les variables catégorielles, des légendes
explicatives qui seront comparées aux valeurs du champ définies, par
exemple, « genre féminin » pour la valeur 1, « genre masculin » pour la
valeur 2, « genre non enregistré » pour la valeur 9
Valeur manquante : une valeur définie (ou des valeurs définies) utilisée pour
signaler que cette valeur particulière représente « l’absence d’information
disponible », soit qu’elle manque (non obtenue), par exemple la valeur 9,
soit qu’elle ne soit pas pertinente dans ce cas (par exemple la valeur 8)
Remarques explicatives : les spécifications pour les variables continues et les
dates sont écrites dans le formulaire de données et informent l’utilisateur
sur ce qu’il doit introduire si l’information n’est pas enregistrée afin
d’éviter de saisir d’abord une valeur erronée et de n’être averti qu’à ce
moment des contraintes imposées par les valeurs licites
La preuve que le livre de codes explique complètement la situation est
garanti si une personne indépendante peut sur cette base produire
indépendamment le formulaire de saisie des données. Dans Epidata, il
fournit la structure de l’ensemble des données qui est ensuite hérité par le
dossier réel des données utilisé pour la saisie des données
Les contrôles de la saisie des données délimitent ce qui peut et ce qui ne
peut pas être introduit. Dans Epi Info 6 et dans la version actuelle
d’EpiData Entry, un dossier séparé, appelé « contrôles » sert à cet effet.
Pour les variables catégorielles codifiées par des nombres, il fournit
également des fenêtres automatiques desquelles la valeur correcte
correspondant à la légende explicative est prélevée. Les contrôles peuvent
également garantir que l’information critique est effectivement introduite
(par exemple en évitant qu’un enregistrement ne soit sauvegardé sans un
identificateur valable), etc.
Entrer une série de dossiers-test qui démontrent dans quelle mesure les
performances du formulaire de saisie des données sont robustes,
agréables à manipuler et efficientes dans la pratique réelle et déterminer
dans quelle mesure des modifications du formulaire de saisie des données
sont justifiées ou non
Si le formulaire de saisie des données répond aux critères d’utilisation agréable
efficiente des données, la saisie des données quoiqu’ennuyeuse est rapide
Les mêmes données sont introduites une deuxième fois dans une copie vide
du formulaire de saisie des données ayant exactement la même structure
soutenue par un dossier identique de contrôle
Les deux dossiers de données supposées identiques sont comparés pour
produire une liste d’enregistrement comportant n’importe quelle
discordance dans un ou plusieurs champs
Afin de garder un enregistrement permanent permettant la reproductibilité,
un des deux dossiers est exporté vers un dossier final dans lequel les
corrections sont faites en examinant la valeur correcte dans le dossier
original pour un domaine déterminé. Le dossier finalisé est maintenant
prêt à l’analyse sur des données de qualité garantie
5
6
The International Journal of Tuberculosis and Lung Disease
examen ; toutefois, 88% seulement de l’ensemble des
cas positifs ont été détectés au cours des trois premiers examens. Le rendement de chaque examen séquentiel supplémentaire a été décroissant, mais au total on a détecté 12% supplémentaires de cas positifs
en poursuivant jusqu’au quatorzième examen.
On peut donc se demander avec pertinence pourquoi la communauté internationale est arrivée à la recommandation de faire jusqu’à trois examens de
frottis avant de déclarer un suspect comme ayant une
bacilloscopie négative des crachats.17,18 Il est probable
que cette décision a été basée sur une certaine notion
d’efficience mettant en balance ce qu’on concevait
comme un rendement acceptable et une charge de
travail acceptable pour les techniciens. Les données
sur le rendement supplémentaire sont habituellement
issues de laboratoires moins surchargés que ceux des
pays à prévalence élevée et pour cette raison, leurs
observations peuvent ne pas être simplement extrapolables. On a reconnu depuis au moins 80 ans l’importance d’allouer un temps suffisant à l’examen pour
déceler de rares bacilles.19 En dépit de recommandations visant à l’inverse, le nombre de champs à examiner se traduit souvent en une durée insuffisante de
l’examen, ce qui laisse fréquemment échapper des
échantillons paucibacillaires.20
Approches initiales (insuffisantes) pour répondre
à la question de recherche
Une étude dans une région rurale de Tanzanie, utilisant des données regroupées manuellement, avait
montré qu’en pratique de routine, le rendement supplémentaire provenant d’un troisième examen en
série était très faible.21 Ceci a poussé L’Union au
milieu des années 1990 à compléter sa formation en
recherche opérationnelle par des cours sur la collecte
des données. Les cours théoriques ont été suivis par
un travail de terrain sur une question opérationnelle
pertinente, avec un encadrement serré tout au long
du projet. Le premier projet consistait à évaluer le
rendement supplémentaire provenant de frottis en
série au Bénin, au Malawi, au Nicaragua et au Sénégal.22 Les données individuelles ont été saisies électroniquement mais non validées. Le seul contrôle de
qualité des données consistait en une estimation de la
fréquence d’erreurs des données dans un échantillon
de 10%, sans aucune tentative de correction des erreurs. Un pays où les erreurs atteignaient 15% dans
les dossiers recontrôlés a été discrètement retiré de
l’étude et n’a pas été mentionné dans la publication finale. L’étude a comporté d’autres déficiences d’autant
plus importantes que l’échantillonnage aléatoire des
registres n’avait pas été appliqué rigoureusement.
Néanmoins, cette étude a montré à nouveau que le
gain additionnel provenant d’un troisième examen de
frottis en série n’était que de 0,7%–3% sauf au Nicaragua, où il était de 7,2%. Sous l’angle de la recherche,
il était important de reconnaître qu’un contrôle de qua-
lité des données était essentiel. Toutefois, l’approche
dans l’élaboration et en particulier dans le contrôle
de qualité des données a été médiocre : la décision de
prendre un échantillon de 10% a été arbitraire tout
comme celle concernant le choix de la fréquence des
erreurs rendant un ensemble déterminé de données
inutilisable. Par voie de conséquence, la crédibilité
des données a été médiocre et les conclusions, peutêtre correctes, étaient insuffisamment robustes pour
entraîner une modification de politique.
Professionnalisation de la recherche opérationnelle
par l’élaboration d’un formulaire efficient pour
la saisie des données
Dès 2003, le concept de formation en recherche opérationnelle de L’Union avait atteint une maturité suffisante pour permettre d’insister sur un protocole
technique détaillé de recherche devant être strictement
appliqué. On a formulé une hypothèse de recherche
selon laquelle si plus que x frottis (le nombre x a été
défini par la direction du programme du pays et était
différent selon les pays collaborant à l’étude) sont nécessaires pour trouver un cas supplémentaire de TB à
frottis positif des crachats lors du troisième examen
en série, positivité qui avait échappé au premier et au
second examen, alors il faudrait abolir dans le pays
l’exigence d’un examen en routine de trois frottis de
crachats pour exclure un cas de TB à bacilloscopie
positive des crachats. Un échantillon aléatoire provenant d’une liste exhaustive de tous les laboratoires de
chaque pays a été établi et les données provenant
d’au moins une année-calendrier complète ont dû être
saisies à partir de chaque registre sélectionné. Dans
ces conditions, le schéma était représentatif du secteur
public. Pour répondre à l’hypothèse primaire de recherche, il aurait été suffisant d’obtenir cinq variables,
c’est-à-dire un identifiant unique, le type d’examen
(diagnostic ou suivi), et les trois résultats possibles
d’examen. Afin de permettre une orientation en fonction du temps, du lieu et de la personne23 pour les
analyses ultérieures24–27, la date d’enregistrement, le
code du laboratoire, l’âge et le sexe du sujet examiné
ont également été prélevés, pour un faible coût additionnel. Les deux premières de ces variables additionnelles ont également été utilisées pour élaborer un
identificateur unique.
La variable-clé de tout l’ensemble des données est
un identificateur unique, et EpiData Entry, le logiciel
utilisé dans l’étude (accessible gratuitement chez EpiData Association, Odense, Danemark, http://www.
epidata.dk) fournit un interface agréable à l’utilisateur qui construit l’identificateur composite et contrôle
discrètement le contexte pour s’assurer que tous les
identificateurs introduits étaient bien uniques et
qu’aucun dossier ne pouvait être sauvé sans identificateur. Le registre du laboratoire de microscopie de
la TB utilise un nombre séquentiel de série commençant par 1 au début de chaque année-calendrier pour
Qualité des données dans la recherche
7
Figure 4 Formulaire de saisie des données dans EpiData pour la saisie des données du registre de laboratoire de microscopie pour la tuberculose.
chaque sujet examiné. Le logiciel a combiné ce nombre
avec le code du laboratoire et l’année d’enregistrement et dès lors, garantit que chaque sujet examiné
dans un pays examiné n’est identifiable qu’une seule
fois. Pour permettre une codification aussi rapide que
possible et pour minimiser les erreurs de saisie des
données, les valeurs du terrain ont été codifiées par
chiffres et complétées par des métadonnées dans un
menu automatique comportant des légendes totalement expliquées qui apparaissaient également sous
forme d’un contrôle visuel après la saisie de la valeur
numérique (Figure 4). Une valeur doit être attribuée à
tous les champs, pour éviter de confondre l’information manquante avec celle qu’on « oublie de coder ».
On peut arriver à la rigueur nécessaire au contrôle
de qualité des données
Le CDC des Etats-Unis conjure ses nouveaux stagiaires en épidémiologie de veiller dès le début à ce
qu’un épidémiologiste ne doive jamais se trouver dans
la position d’être obligé de défendre la qualité des données,2 et leur soumet la réflexion suivante : Réfléchissez où vous voulez vous battre : « sur la qualité des
données » ou « sur leur analyse et leur interprétation ».23 Comme nous pourrions l’attendre de n’importe quel essai clinique, la précision des données est
d’une importance tellement grande qu’aucun compromis n’est possible à son égard, que l’étude soit petite ou importante.
Même si elle n’est pas une exigence absolue des recommandations européennes, la double saisie des
données est définie comme le « gold standard » définitif d’une bonne pratique clinique.1 Lorsque l’on
n’utilise pas la double saisie et la validation, des
contrôles automatiques complexes concernant la plausibilité des données sont essentiels. La nécessité d’une
double saisie a été mise en doute quoique seulement
sur un modèle comportant des données simulées.28 La
recherche sur des données réelles a révélé de manière
régulière qu’il existe une marge énorme dans la qualité de la saisie des données—dans certains contextes,
il peut y avoir de petites erreurs, mais dans d’autres
une proportion élevée de saisies erronées.29–32 Alors
qu’on peut s’attendre à ce que des saisies complexes
entraînent un plus grand nombre d’erreurs, la performance d’une personne déterminée en charge de la saisie des données n’est pas prédictible. La double-saisie
des données ne préviendra pas toutes les erreurs. Elle
ne peut pas résoudre le problème de la médiocre qualité de la source originale (par exemple les données enregistrées incorrectement ou une écriture illisible),
elle ne révèle pas non plus un cas où la même saisie
erronée est introduite à deux reprises. Pour cette raison, les contrôles de saisie des données devraient toujours contenir des contrôles automatiques de plausibilité, tels que l’apparition d’une alerte quand une
valeur licite mais inhabituelle est saisie alors qu’elle est
en conflit avec les valeurs d’autres champs.
Dans l’étude des registres de laboratoire TB, le
choix a visé à satisfaire une bonne pratique clinique.
Les fichiers électroniques devaient être une copie
aussi exacte que possible des composantes pertinentes
des registres-papier, afin d’être un reflet précis de ce
qui se passait effectivement dans les services de microscopie de routine du pays. Il était dès lors impératif que toutes les données soient saisies deux fois et
validées par comparaison des fichiers et d’autre part,
suivies de la résolution des discordances découvertes,
en se référant à l’enregistrement original sur papier et
en corrigeant toute erreur. L’insistance sur une méthodologie aussi rigoureuse et sur une attention méticuleuse à la précision des données n’a pas été acceptée par tous les étudiants du cours et le taux de perte
au cours du travail de terrain a été élevé sans que cela
soit surprenant. Néanmoins, les étudiants en recherche
provenant de quatre pays, la Moldavie, la Mongolie,
8
The International Journal of Tuberculosis and Lung Disease
l’Ouganda et le Zimbabwe, ont eu la trempe exigée et
ont conduit cette étude jusqu’à son terme comportant
une publication,33,34 ce qui suggère que l’on peut arriver à cette rigueur.
Jumelage entre l’efficience du codage et la précision
des données
L’approche la plus efficiente pour garantir la validité
des données sera souvent une combinaison des caractéristiques suivantes: limitation soigneuse du nombre
de variables, simplicité de la saisie des données, contrôles automatiques,35 et finalement, double saisie et
validation suivie des corrections nécessaires.
Pour alléger la corvée de la double saisie des données, chaque saisie doit être conçue pour accélérer et
réduire la possibilité de saisies erronées afin de réduire
le nombre d’enregistrements qui doivent être recontrôlés après validation. Le nombre d’enregistrements
comportant au moins une erreur augmente proportionnellement au nombre de variables et le nombre
de champs comportant une erreur augmente avec le
nombre de possibilités-clé par variable.
Certaines techniques peuvent être adaptées dans le
logiciel pour minimiser les erreurs. Comme exemple,
citons l’auto-complétion des dates, l’utilisation de
champs entiers de longueur 1 n’autorisant que des
saisies définies (par ex, 1, 2 et 9) plutôt que des champs
en chapelets, ainsi que le passage automatique vers
le champ suivant après achèvement du codage
précédent.
RÉSULTATS DE L’ETUDE ET IMPACT SUR
LA POLITIQUE
L’objectif de l’étude des registres de laboratoire de TB
de L’Union, comportant des informations sur 130.000
individus, était de confirmer la réalité du rendement
supplémentaire effectif des examens de frottis de crachats dans le contexte d’un programme national de
TB. La taille véritable de la base de données rendait
d’autant plus importante l’absence de doutes concernant la qualité de ces données, vu qu’on prête aux
grandes études, presque de manière intrinsèque, une
crédibilité accrue, une confiance qui doit être méritée
par des données de qualité contrôlée.
On a été dégrisé par les résultats (Figure 5). Il avait
été suggéré qu’un technicien temps-plein pratiquant
l’examen microscopique à champ lumineux ne devrait pas traiter plus de 25 frottis par jour.36 Dans le
cas où le pays concerné avait le luxe de tels travailleurs
temps-plein dans les laboratoires périphériques, et
leur permettait en plus de passer une semaine entière
de travail (125 lames) pour trouver un cas supplémentaire lors du troisième examen en série de frottis
de crachats, cas qui avait échappé aux deux examens
antérieurs, un seul seulement des quatre pays aurait
été capable de respecter ces limites. De fait, dans un
pays, le rendement a été si faible qu’on a remis en
Figure 5 Rendement additionnel de l’examen en série des
frottis de crachats en Moldavie, Mongolie, Ouganda et au Zimbabwe, exprimé sous forme du nombre de frottis à examiner
pour trouver un cas supplémentaire de tuberculose à bacilloscopie positive non découvert lors de(s) l’examen(s) antérieur(s)
avec la valeur médiane (ronds) et les estimations ponctuelles de
la moyenne (carrés) avec les intervalles de confiance Bayesians à
95% (lignes).
cause la notion qu’un deuxième examen correspondrait à des exigences raisonnables.
Jamais jusqu’ici une base de données aussi importante n’avait été réunie, représentant un échantillonnage représentatif de l’ensemble des laboratoires au
sein de chacun des quatre programmes nationaux TB.
La conclusion ne pouvait pas échapper. S’il fallait la
preuve qu’il n’y avait pas lieu de continuer à insister
sur l’examen systématique de trois frottis en série,
quel que soit le contexte avant de déclarer un suspect
comme négatif, elle était bien là. Parallèlement et indépendamment, des informations similaires accumulées provenant d’autres pays à faibles revenus37 ainsi
qu’une revue systématique formelle ont-elles aussi
abordé dans ce sens.38 En conséquence, l’Organisation Mondiale de la Santé (OMS) a adapté ses recommandations en déclarant qu’en routine, deux frottis
de crachats en série négatifs suffiraient à exclure une
TB à frottis positif des crachats.39
ORDINATEURS DE POCHE ET
ASSISTANTS NUMÉRIQUES
Les assistants numériques commencent à se trouver
partout et connaissent une large variation d’applications pour différentes professions, notamment les
gestionnaires, les cliniciens et les épidémiologistes.
Dans un essai au Pérou, le temps exigé pour colliger
et traiter les données de laboratoire a été réduit considérablement par l’utilisation d’assistants numériques
et le niveau d’acceptation des utilisateurs a été très
élevé.40 Bien que le traitement des informations en
temps utile ait été étudié de façon approfondie, la
qualité des données n’a pas fait l’objet de cette étude.
Dans un essai clinique, la qualité de l’introduction
des données sur des enregistrements-papier a été
Qualité des données dans la recherche
comparée à la saisie des données sur des ordinateurs
de poche.41 Alors que le personnel a trouvé que les
ordinateurs de poche étaient d’utilisation aisée, et
qu’il les aimait, il a signalé des difficultés à leur utilisation pour la collecte des données et la fréquence des
erreurs de saisie des données a été jugée excessive.
Dans une étude au Kenya, les enregistrements manquants ont constitué un problème énorme avec les
assistants numériques et les champs non remplis ont
été nombreux.42 Dès lors, bien que les assistants numériques bénéficient généralement d’une excellente
acceptabilité par les utilisateurs, les enregistrements
manquants ainsi que la fréquence des erreurs pourraient paraître s’opposer à leur utilisation pour des
recherches sérieuses avec en plus des préoccupations
concernant la perte de possibilité de recontrôle des
formulaires-papier.
LOGICIELS APPROPRIÉS POUR LES
ORDINATEURS CONCERNANT LA SAISIE DE
DONNÉES AVEC CONTRÔLE DE QUALITÉ
Le premier logiciel élaboré pour répondre aux besoins des épidémiologistes a été l’Epi Info du CDC ; il
a été disponible dans un format utilisable dès 1985
(Atlanta, GA, États-Unis ; http://www.cdc.gov/epiinfo/
background.htm). A partir de la version 4, le CDC a
commencé à collaborer avec l’OMS pour le développer davantage jusqu’à ce qu’il devienne complètement adulte dans sa version 6 de 1992.
Epi Info 6 répond à tous les besoins de l’épidémiologiste. La communauté mondiale de santé publique
au travers du monde l’a reconnu : le logiciel est gratuit et il est autorisé de le distribuer, il fonctionne sur
les ordinateurs les plus lents, la taille de ses dossiers
est très petite et son efficience est élevée pour la vérification et la validation de la saisie des données. A la
suite de l’élaboration de la plateforme Windows™
(Microsoft Redmonds, WA, États-Unis), l’interface
originale DOS™ est devenue de plus en plus ennuyeuse et la poursuite de sa fonctionnalité est devenue risquée. Il y a eu des débats et des désaccords sur
la façon de réaliser les progrès nécessaires ; L’Association EpiData (http://www.epidata.dk) s’est mise en
route pour garder tous les apports d’Epi Info 6, en
particulier sa rapidité, son architecture basée sur les
textes et sa politique d’utilisation du système opérationnel de Windows™ sans interférer avec lui. Le résultat en a été un interface simple et agréable, qui répondait à tous les besoins et à toutes les attentes des
générations d’épidémiologistes habitués au Windows
ancien ou nouveau tout en conservant une petite
taille de dossiers adaptée aux échanges par e-mail
même par les connexions les plus lentes. Il est notoirement indépendant des spécifications des dossiers de
logiciels commerciaux complexes et non-transparents.
La comparaison de deux ensembles de données
supposées identiques s’appelle « validation ». Une
9
caractéristique puissante d’Epi Info et d’EpiData est
que le processus de validation consiste simplement à
pousser sur quelques boutons et que les deux dossiers
sont comparés enregistrement par enregistrement, en
identifiant toute discordance entre les deux dossiers
dans n’importe lequel des champs d’un enregistrement donné. La validation des données par un logiciel commercial habituellement disponible exige souvent l’écriture d’algorithmes pour comparer les valeurs
dans un champ déterminé entre deux dossiers supposés identiques et le résultat consiste en une comparaison variable-par-variable plutôt que enregistrementpar-enregistrement, ce qui rend le processus plus
complexe et inefficient.
L’utilisation de tableurs pour la saisie des données
est encore tout à fait courante. Les tableurs constituent un outil superbe pour les calculs mais ils ne
conviennent pas comme base de saisie de données.
Des logiciels commerciaux plus sophistiqués sont
disponibles, mais à un coût qui dépasse les contraintes
salariales des collègues des pays à faibles revenus.
Pourtant, les problèmes de base de la saisie efficiente
et de la validation des données n’ont jamais été résolus aussi élégamment que dans le cas des logiciels Epi
Info et EpiData. Des logiciels puissants d’analyse
comme Stata (StataCorp, College Station, TX, ÉtatsUnis) ou R (R Foundation for Statistical Computing,
Vienne, Autriche) ne sont pas conçus pour la saisie
des données ; Ce sont des outils répondant à des exigences d’analyse sophistiquée qui dépassent celles offertes par le logiciel Epidata, le plus souvent sans être
nécessaires pour la majorité des recherches pertinentes
sur le plan opérationnel. Quelle que soit sa préférence
pour le logiciel analytique, l’épidémiologiste même
le plus sophistiqué dépend encore d’une manière
critique d’une saisie des données de qualité garantie
antérieurement, sans quoi toute analyse reste discutable et les conclusions qu’on en tire potentiellement
fallacieuses.
CONCLUSIONS
L’obstacle le plus important pour beaucoup de chercheurs est constitué par l’auto-discipline nécessaire à
limiter le nombre de variables qui doivent être recueillies. Plus petit est le nombre de variables et plus
grande est la vraisemblance qu’elles soient effectivement analysées. De plus, la durée de saisie des données
est réduite et grâce à cela, le nombre d’enregistrements nécessitant des corrections est réduit. Le temps
épargné peut être mieux investi dans une double-saisie
des données. Pour réduire le nombre d’erreurs dans
les valeurs de chacune des variables, le codage numérique avec metadonnées pour permettre une attribution explicite et sans ambiguïté est l’approche préférée pour n’importe quelle saisie de données, chaque
fois que le caractère de la variable autorise une catégorisation. Des données médiocres peuvent ruiner
10
The International Journal of Tuberculosis and Lung Disease
toute analyse,43 et « l’introduction d’ordures entraîne
la sortie d’ordures », cela reste toujours aussi vrai.
Alors qu’une fréquence d’erreur de 1 pour 1000
éléments-clé peut être obtenue dans certains contextes,28 une fréquence aussi faible devrait d’abord
être démontrée plutôt que supposée dans n’importe
quel projet, ce qui exige quand même une forme ou
l’autre de validation de tous les cas. Une bonne pratique clinique n’exige pas comme telle une double saisie
des données mais bien une vérification appropriée.1
Pour cette raison, les chercheurs devraient au minimum documenter dans leurs publications les mesures
qu’ils ont prises pour garantir au lecteur la qualité de
leurs données.2
15
16
17
18
19
Déclaration de conflit d’intérêt
JML a créé et développé le logiciel EpiData. HLR collabore avec
l’Association EpiData.
Références
1 Transnational Working Group on Data Management. European
Clinical Research Infrastructures Network: GCP-compliant
data managment in multinational clinical trials. http://www.
ecrin.org/fileadmin/user_upload/public_documents/About_
ecrin/downloads/ECRIN_Report_D10_Vers1_final_150908.
pdf Accessed September 2010.
2 Rieder H L. What knowledge did we gain through The International Journal of Tuberculosis and Lung Disease in 2008 on
the epidemiology of tuberculosis? Int J Tuberc Lung Dis 2009;
13: 1219–1223.
3 Bernard R P. The Zermatt typhoid outbreak in 1963. J Hyg
Camb 1965; 63: 537–563.
4 Sheldon C D, Cock H, King K, Wilkinson P, Barnes N C. Notification of tuberculosis: how many cases are never reported?
Thorax 1992; 47: 1015–1018.
5 Brown J S, Wells F, Duckworth G, Paul E A, Barnes N C. Improving notification rates for tuberculosis. BMJ 1995; 310: 974.
6 Mahoney M R, Sargent D J, O’Connell M J, Goldberg R M,
Schaefer P, Buckner J C. Dealing with a deluge of data: an assessment of adverse event data on North Central Cancer Treatment Group Trials. J Clin Oncol 2005; 23: 9275–9281.
7 Rieder H L, Watson J M, Raviglione M C, et al. Surveillance of
tuberculosis in Europe. Recommendations of a working group
of the World Health Organization (WHO) and the European
Region of the International Union Against Tuberculosis and
Lung Disease (IUATLD) for uniform reporting on tuberculosis
cases. Eur Respir J 1996; 9: 1097–1104.
8 Centers for Disease Control. Tuberculosis—United States, first
39 weeks, 1985. Morb Mortal Wkly Rep 1985; 34: 625–628.
9 Centers for Disease Control. Tuberculosis—United States,
1985—and the possible impact of human T-lymphotropic virus
type III/Lymphadenopathy-associated virus infection. Morb
Mortal Wkly Rep 1986; 35: 74–76.
10 Centers for Disease Control. Tuberculosis—United States, 1985.
Morb Mortal Wkly Rep 1986; 35: 699–703.
11 Centers for Disease Control. Tuberculosis and acquired
immunodeficiency syndrome—Florida. Morb Mortal Wkly Rep
1986; 35: 587–590.
12 Centers for Disease Control. Tuberculosis and acquired
immunodeficiency syndrome—New York City. Morb Mortal
Wkly Rep 1987; 36: 785–796.
13 Hillestand R, Bigelow J, Bower A, et al. Can electronic medical
record systems transform health care? Potential health benefits,
savings, and costs. Health Affairs 2005; 24: 1103–1117.
14 Stehr-Green P, Bettles J, Robertsen D. Effect of racial/ethnic
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
misclassification of American Indians and Alaskan Natives on
Washington State death certificates, 1989–1997. Am J Public
Health 2002; 92: 443–444.
Hoa N B, Chen W, Chay S, Lauritsen J M, Rieder H L. Completeness and consistency in recording information in the tuberculosis case register, Cambodia, China and Viet Nam. Int J
Tuberc Lung Dis 2010; 14: 1303–1309.
Hunter R A. The routine examination for tubercle bacilli in
sputum. Tubercle 1940; 21: 341–359.
World Health Organization. Laboratory services in tuberculosis control. Part II: microscopy. WHO/TB/98.258. Geneva,
Switzerland: WHO, 1998.
International Union Against Tuberculosis and Lung Disease.
Technical guide. Sputum examination for tuberculosis by direct microscopy in low-income countries. Paris, France: The
Union, 2000.
Pottenger J E. The importance of the time of search in examining stained preparations for rare tubercle bacilli. J Clin Lab
Med 1931; 16: 985–992.
Cambanis A, Ramsay A, Wirkom V, Tata E, Cuevas L E. Investing time in microscopy: an opportunity to optimise smear-based
case detection of tuberculosis. Int J Tuberc Lung Dis 2007; 11:
40–45.
Ipuge Y A I, Rieder H L, Enarson D A. The yield of acid-fast
bacilli from serial smears in routine microscopy laboratories in
rural Tanzania. Trans R Soc Trop Med Hyg 1996; 90: 258–261.
Rieder H L, Arnadottir T, Tardencilla Gutierrez A A, et al.
Evaluation of a standardized recording tool for sputum smear
microscopy for acid-fast bacilli under routine conditions in low
income countries. Int J Tuberc Lung Dis 1997; 1: 339–345.
Gregg M B. Field epidemiology. 2nd ed. New York, NY, USA:
Oxford University Press, 2002.
Mabaera B, Lauritsen J M, Katamba A, Laticevschi D, Naranbat N, Rieder H L. Sputum smear-positive tuberculosis: empiric evidence challenges the need for confirmatory smears.
Int J Tuberc Lung Dis 2007; 11: 959–964.
Mabaera B, Lauritsen J M, Katamba A, Laticevschi D, Naranbat N, Rieder H L. Making pragmatic sense of data in the tuberculosis laboratory register. Int J Tuberc Lung Dis 2008; 12:
294–300.
Mabaera B, Naranbat N, Katamba A, Laticevschi D, Lauritsen
J M, Rieder H L. Seasonal variation among tuberculosis suspects in four countries. Int Health 2009; 1: 53–60.
Rieder H L, Lauritsen J M, Naranbat N, Katamba A, Laticevschi D, Mabaera B. Quantitative differences in sputum smear
microscopy results for acid-fast bacilli by age and sex in four
countries. Int J Tuberc Lung Dis 2009; 13: 1393–1398.
Day S, Fayers P, Harvey D. Double data entry: what value,
what price? Contr Clin Trials 1998; 19: 15–24.
Caloto T, Huerta C, Moreno T, et al. Quality control and datahandling in multicentre studies: the case of the Multicentre
Project for Tuberculosis Research. BMC Med Res Methodol
2001; 1: 14.
Goldberg S I, Niemierko A, Turchin A. Analysis of data errors
in clinical research databases. AMIA Annu Symp Proc 2008
Nov 6: 242–246.
Vannan E. Quality data—an improbable dream? A process for
reviewing and improving data quality makes for reliable—and
usable—results. Educause Quart 2001; 1: 56–58.
Weir C R, Hurdle J F, Felgar M A, Hoffman J M, Nebeker J R.
Direct text entry in electronic progress notes. An evaluation of
input errors. Methods Inf Med 2003; 42: 61–67.
Mabaera B, Naranbat N, Dhliwayo P, Rieder H L. Efficiency of
serial smear examinations in excluding sputum smear-positive
tuberculosis. Int J Tuberc Lung Dis 2006; 10: 1030–1035.
Katamba A, Laticevschi D, Rieder H L. Efficiency of a third
serial sputum smear examination in the diagnosis of tuberculosis in Moldova and Uganda. Int J Tuberc Lung Dis 2007; 11:
659–664.
Qualité des données dans la recherche
35 Needham D M, Sinopoli D J, Inglas V D, et al. Improving data
quality control in quality improvement projects. Int J Qual
Health Care 2009; 21: 145–150.
36 Rieder H L, Van Deun A, Kam K M, et al. Priorities for tuberculosis bacteriology services in low-income countries. 2nd ed.
Paris, France: International Union Against Tuberculosis and
Lung Disease, 2007.
37 Van Deun A. Optimization of smear microscopy for acid-fast
bacilli in tuberculosis control programs. Thesis. Leuven, Belgium: Katholieke Universiteit te Leuven, 2008.
38 Mase S R, Ramsay A, Ng V, et al. Yield of serial sputum
specimen examinations in the diagnosis of pulmonary tuberculosis: a systematic review. Int J Tuberc Lung Dis 2007; 11:
485–495.
39 World Health Organization. Implementing the WHO Stop
TB Strategy. A handbook for national tuberculosis control
40
41
42
43
11
programmes. WHO/HTM/TB/2008.401. Geneva, Switzerland:
WHO, 2008: pp 1–184.
Blaya J A, Gomez W, Rodribuez P, Fraser H. Cost and implementation analysis of a personal digital assistant system for
laboratory data collection. Int J Tuberc Lung Dis 2008; 12:
921–927.
Shelby-James T M, Abernethy A P, McAlindon A, Currow D C.
Handheld computers for data entry: high tech has its problems
too [Correspondence]. Trials 2007; 8: 5.
Auld A F, Wambua N, Onyango J, et al. Piloting the use of
personal digital assistants for tuberculosis and human immunodeficiency virus surveillance, Kenya, 2007. Int J Tuberc Lung
Dis 2010; 14: 1140–1146.
De Veaux R D, Hand D J. How to lie with bad data. Statist Sci
2005; 20: 231–238.