Reprsentativit de l`preuve de lecture critique

Transcription

Reprsentativit de l`preuve de lecture critique
Année universitaire 2006-2007
MÉMOIRE
pour le
DIPLÔME INTER-UNIVERSITAIRE
de
PÉDAGOGIE MÉDICALE
Epreuve de Lecture Critique d’Article
Relation avec les résultats à d’autres modalités d’évaluations
par
Philippe Le Corvoisier
Faculté de Médecine de Créteil, Université Paris XII
1
Résumé :
Introduction : L’épreuve de Lecture Critique d’Article sera intégrée pour la première fois
aux Epreuves Classantes Nationales en 2008-2009. En dépit d’un contexte polémique, peu
d’études ont analysé de manière scientifique l’efficacité de cette épreuve pour l’évaluation des
étudiants. L’objectif de ce travail a été d’étudier si les résultats d’une promotion d’étudiants à
l’épreuve de Lecture Critique d’Article étaient corrélés avec leurs résultats aux autres
modalités d’évaluation.
Méthodes : Les notes obtenues par les 117 étudiants inscrits en deuxième année du second
cycle des études médicales (DCEM2) de la faculté de médecine de Créteil au cours de l’année
universitaire 2006-2007 ont été utilisées pour cette étude. Au cours cette année, ces étudiants
ont été évalués lors de deux sessions par des cas cliniques et par une épreuve de Lecture
Critique d’Article.
Résultats : La note moyenne de cette promotion d’étudiants à l’épreuve de Lecture Critique
d’Article (10,2 ± 2,8 sur 20) a été inférieure à celle obtenue sur l’ensemble des deux autres
modules évaluées la même année (12,6 ± 1,7, p<10-3). Les notes à l’épreuve de Lecture
Critique d’Article étaient significativement corrélées avec celles obtenues lors de la première
(r = 0,31 ; p < 0,001), de la seconde (r = 0,43 ; p < 0,0001) et de la moyenne des deux
sessions de modules (r = 0,43 ; p < 0,0001). De manière similaire, une relation significative a
été observée entre le classement des étudiants lors de l’épreuve de Lecture Critique d’Article
et leur classement global aux modules de DCEM2 (r=0,43; p < 0,0001). Cependant, la force
de la corrélation entre ces deux types d’épreuves paraît moins étroite que le lien existant entre
le résultat aux deux différentes sessions de modules (r=0,57; p <0,0001). Par ailleurs, nous
avons également analysé la relation existant entre le classement des étudiants aux différentes
épreuves de DCEM2 et leur classement au concours de PCEM1. Bien que significative, la
corrélation entre le rang des étudiants à l’épreuve de Lecture Critique d’Article et leur
classement en PCEM 1 était faible (r = 0,19; p < 0,05).
Conclusion : Les notes obtenues en 2007 par les étudiants de DCEM 2 de la faculté de
médecine de Créteil lors de l’épreuve de Lecture Critique d’Article présentent une corrélation
statistiquement significative avec les autres évaluations réalisées la même année, les étudiants
les mieux classés sur les épreuves de dossiers obtenant également les meilleures notes lors de
l’épreuve de Lecture Critique d’Article. Néanmoins, la force de cette relation est moindre que
celle existant entre deux évaluations différentes de type cas clinique, ce qui suggère que
l’épreuve de Lecture Critique d’Article pourrait explorer des qualités et des compétences
différentes des modalités d’évaluation plus traditionnelles.
2
I. Introduction :
Les progrès de la recherche médicale conduisent à un renouvellement des
connaissances toujours plus rapide. La formation initiale des médecins ne constitue plus qu’un
socle de compétences qui doit être enrichi et renouvelé en permanence par une formation
médicale continue. Cet objectif implique que les médecins soient formés à l’analyse de la
littérature médicale pour leur permettre d’analyser de manière critique et indépendante les
données provenant des différentes sources d’information disponibles (littérature scientifique,
presse professionnelle, industrie pharmaceutique). Evoquée dès 2002, l’inclusion d’une
épreuve de Lecture Critique d’Article lors des Epreuves Classantes Nationales a été
officialisée dans le décret relatif à l’organisation du troisième cycle médical du 16 janvier
20041. Cette démarche a entrainé des interrogations dans une partie du monde étudiant et
enseignant. La légitimité de cette épreuve a été contestée en raison d’une hétérogénéité
supposée au niveau de l’investissement des différentes universités dans cette épreuve à
l’heure d’un examen classant organisé à l’échelle nationale. Par ailleurs, plusieurs
publications ont souligné les difficultés spécifiques engendrées par la correction de cette
épreuve et mis en question sa reproductibilité2-6.
Cette controverse a conduit à un moratoire sur la mise en place de l’épreuve de
Lecture Critique d’Article jusqu’à l’année universitaire 2007-2008. Le débat a été relancé en
2007 par les conclusions du rapport du député Pierre-Luis Fagniez établi à la demande du
ministre délégué à l’enseignement supérieur et à la recherche7. Après audition des différentes
parties concernées, celui-ci a souligné le consensus existant vis-à-vis de l’intérêt pédagogique
de l’enseignement de la Lecture Critique d’Article dans le cadre du cursus médical et a
recommandé l’application de cette épreuve lors des Epreuves Classantes Nationales.
La publication de ce rapport a été suivie par la création d’un groupe de travail
comprenant des membres du ministère de l’enseignement supérieur, des doyens, des
enseignants-chercheurs et des représentants des associations d’étudiants en médecine afin de
préciser les modalités pratiques de mise en place de cette épreuve. Les principales conclusions
de cette commission ont été récemment annoncées dans la presse médicale8 : la première
application de l’épreuve de Lecture Critique d’Article aura lieu durant les Epreuves
Classantes Nationales 2008-2009 et son coefficient sera pondéré à 5 pourcent pour la
première année. Il devrait être secondairement porté à 10 pourcent dès 2010. Ces dispositions
3
n’ont cependant pas encore été confirmées par des textes réglementaires officiels. La mise en
place de cette épreuve sera encadrée par la publication d’une circulaire par la Direction
Générale de l’Enseignement Supérieur, visant à harmoniser la mise en place de
l’enseignement de la Lecture Critique d’Article (volume horaire, type d’enseignement) entre
les facultés. Par ailleurs le ministère s’est également engagé à mettre à la disposition des
étudiants un enseignement et des corrigés-types d’épreuves de Lecture Critique d’Article sur
le site du Conseil National du Concours d’Internat afin d’assurer le respect du principe
d’égalité entre les étudiants.
En dépit de ce contexte polémique, l’évaluation des étudiants par une épreuve de
Lecture Critique d’Article n’a été que peu étudiée de manière scientifique. En particulier, la
spécificité de cette évaluation par rapport aux modes d’évaluation plus classiques reste mal
connue. L’objectif du travail que nous avons réalisé était d’évaluer si les résultats d’une
promotion d’étudiants à l’épreuve de Lecture Critique d’Article étaient corrélés ou non avec
leurs résultats à d’autres modes d’évaluation.
II. Méthodes :
II-1. Recueil des données :
Les 117 étudiants inscrits en deuxième année du second cycle des études médicales
(DCEM2) de la faculté de médecine de Créteil au cours de l’année universitaire 2006-2007
ont bénéficié d’une préparation spécifique à l’épreuve de Lecture Critique d’Article. Cet
enseignement a représenté un volume horaire de 26 heures (cours magistraux et
enseignements dirigés), auxquelles se sont ajoutées 6 heures réparties dans d’autres modules
d’enseignement. Lors des cours magistraux, les principes et la structure d’un article original
de recherche, les modalités de rédaction d’un résumé et la méthodologie des études
d’épidémiologie clinique et des essais thérapeutiques ont été décrits, l’objectif étant de
transmettre aux étudiants les notions de base nécessaire à l’interprétation de la littérature
médicale. Lors des enseignements dirigés, les étudiants ont effectué un travail effectif sur des
articles scientifiques rapportant des études épidémiologiques analytiques, évaluant des
examens diagnostiques ou rapportant des essais thérapeutiques. Par ailleurs, 10 étudiants ont
également suivi un enseignement optionnel supplémentaire intitulé « Méthodologie et
statistique appliquées à la Lecture Critique d’Article », d’un volume horaire de 30 heures.
4
Les notes obtenues par les étudiants de cette promotion ont été utilisées pour cette
étude. Au cours de l’année universitaire 2006-2007, ces étudiants ont été évalués lors de deux
sessions : en février 2007 (session 1) pour les modules 2 (De la conception à la naissance) et
14 (Pathologie abdomino-pelvienne), puis en juin 2007 (session 2) pour les modules 7 (Santé
et environnement – Maladies transmissibles), 9 (Athérosclérose – Hypertension – thrombose)
et 13 (Pathologie cervico-thoracique) ainsi que pour l’épreuve de Lecture Critique d’Article.
Le contrôle des connaissances dans le cadre de ces modules a reposé sur l’utilisation
de cas cliniques. L’épreuve de Lecture Critique d’Article a consisté en une épreuve de trois
heures similaire à celle proposée aux Epreuves Classantes Nationales et portant sur l’analyse
d’un article traduit en français. L’article sélectionné décrivait un essai clinique randomisé,
contrôlé et en double aveugle comparant l’efficacité de deux stratégies thérapeutiques dans le
traitement de la crise d’asthme (terbutaline, formotérol ou association budésonide/formotérol).
La version originale de cette étude avait été publiée en 2006 par une équipe hollandaise dans
la revue Lancet. Cette épreuve a comporté 8 questions ouvertes notées au total sur 100 points,
ainsi que sur la rédaction d’un résumé de 250 mots noté sur 50 points. Pour des raisons
d’homogénéité, les notes à ces différentes épreuves seront présentées sur 20 points dans le
présent mémoire. Quatre questions portaient sur des questions de méthodologie de l’essai
(justification du design de l’étude, discussion du critère de jugement principal et de la
stratégie d’analyse des données) et quatre autres sur l’analyse des résultats (description des
caractéristiques de la population, discussion des résultats et définition du niveau de preuve de
l’étude). La correction a été assurée par 7 enseignants ayant participé à l’enseignement de la
Lecture Critique d’Article au cours de l’année universitaire. La grille de correction fournie
aux correcteurs comportait de 2 à 4 éléments de réponse pour chaque question et
respectivement 2 à 16 mots clés pour les quatre différents paragraphes du résumé de l’article.
L’article, l’intitulé des questions, les recommandations fournies aux étudiants, la lettre
adressée aux correcteurs ainsi que la grille de correction figurent en annexe de ce document.
Les notes des étudiants ont été recueillies auprès du service de la scolarité de la faculté.
Six étudiants n’ont pas été inclus dans cette analyse pour les raisons suivantes : 2
étudiants étrangers en raison de considérations linguistiques, 2 étudiants absents à une ou
plusieurs épreuves, et deux étudiants dont le cursus médical spécifique était non-représentatif.
Au total, les notes des 111 étudiants ont pu être analysées.
5
II-2. Analyse statistique :
L’analyse statistique des résultats de cette étude a été réalisée par le Pr Sylvie BastujiGarin du service de Santé Publique de l’Hôpital Henri Mondor. Les valeurs quantitatives sont
présentées sous la forme de moyenne ± une dérivation standard et de médiane (25ème-75ème
percentiles). Les notes des étudiants à l’épreuve de Lecture Critique d’Article ont été
comparées à celles obtenues sur l’ensemble des sessions d’épreuves de dossiers par le test
non-paramétrique de Wilcoxon. Les corrélations entre les notes de Lecture Critique d’Article
et celles des deux sessions d’épreuves de dossiers, ainsi qu’entre chacune des deux sessions
ont été analysées par le coefficient de corrélation de Spearman. De plus, les étudiants ont été
classés en 4 groupes selon les quartiles de leur note obtenue sur l’ensemble des sessions. Les
notes globales à l’épreuve de Lecture Critique d’Article, ainsi que les notes spécifiques pour
la rédaction du résumé et la réponse aux questions ont été comparées entre ces quatre groupes
par un test non paramétrique de Kruskal-Wallis. Enfin, afin de tester le rôle potentiel de la
participation à l’enseignement optionnel de « Méthodologie et statistique appliquées à la
Lecture Critique d’Article » sur les résultats de l’épreuve de Lecture Critique d’Article, les
notes ont été comparées entre ces deux groupes par un test non paramétrique de MannWhitney. Une valeur de p<0,05 a été considérée comme statistiquement significative.
L’analyse statistique a été réalisée avec le logiciel STATA.
III. Résultats :
III-1. Résultats de la promotion 2006-2007 de DCEM2 lors des différentes évaluations :
Les notes obtenues par les étudiants de DCEM2 lors de leurs différentes évaluations
sont présentées dans le tableau I. La note moyenne de cette promotion à l’épreuve de Lecture
Critique d’Article (10,2 ± 2,8 sur 20) était significativement inférieure à celle obtenue sur
l’ensemble des deux modules (12,6 ± 1,7, p<10-3). La dispersion des notes lors de cette
épreuve était similaire à celles des cas cliniques les plus discriminants (écart type de 2,8 pour
la Lecture Critique d’Article, compris entre 1,9 et 2,8 pour les modules).
6
Moyenne ± SD
Médiane (25-75ème) percentiles
Notes extrêmes
10,2 ± 2,8
10,3 (8,9-12,7)
0-14,9
12,7 ± 1,9
13,0 (11,8-14,0)
7,5-16,1
13,4 ± 2,4
13,5 (11,9-15,2)
7,7-18,2
13,1 ± 1,8
13,2 (12,0-14,5)
8,2-17,0
- Module 7
11,4 ± 2,7
11,5 (9,0-13,0)
6-17,5
- Module 9
12,3 ± 2,4
12,5 (10,4-14,1)
5,6-16,8
- Module 13
12,4 ± 2,8
12,5 (10,5-14,5)
3,7-18,5
12,0 ± 2,1
12,0 (10,5-13,4)
5,5-16,8
12,6 ± 1,7
12,6 (11,3-13,8)
8,2-16,9
Epreuve de LCA
ère
Modules 1
session
- Module 2
- Module 14
- Moyenne modules 1
nd
Modules 2
ère
session
session
- Moyenne modules 2
nd
session
Moyenne modules DCEM2
Tableau I : notes de la promotion 2006-2007 aux épreuves de DCEM2 (notes sur 20).
III-2. Corrélation entre les résultats obtenus aux différentes épreuves :
Nous avons analysé la relation existant entre les résultats des étudiants à ces
différentes évaluations en utilisant un test de Spearman. Les notes de ces étudiants à l’épreuve
de Lecture Critique d’Article étaient significativement corrélées avec celles obtenues lors de
la première (r = 0,31 ; p < 0,001), de la seconde (r = 0,43 ; p < 0,0001) et de la moyenne des
deux sessions de modules (r = 0,43 ; p < 0,0001) (Figures 1A à 1C). De manière similaire, une
relation significative a été observée entre le classement des étudiants lors de l’épreuve de
Lecture Critique d’Article et leur classement global aux modules de DCEM2 (r=0,43; p <
0,0001). Cependant, la force de la corrélation entre ces deux types d’épreuves paraît moins
étroite que le lien existant entre le résultat aux deux différentes sessions de modules (r=0,57; p
1A
20
16
12
8
r = 0,31
p< 0,001
4
16
12
8
r = 0,43
p< 10-4
4
0
0
0
4
8
12
16
Note a l'épreuve de LCA
7
1B
20
Note à la seconde session de modules
Note à la première session de modules
<0,0001) (Figures 1D).
20
0
4
8
12
16
Note a l'épreuve de LCA
20
Note moyenne aux modules
16
12
8
r = 0,43
p< 10-4
4
0
Note à la seconde session de module
1C
1C
20
1D
20
16
12
8
r = 0,57
p< 10-4
4
0
0
4
8
12
16
Note a l'épreuve de LCA
20
0
4
8
12
16
20
Note à la première session de modules
Figure 1 : Relation entre les notes obtenus à l’épreuve de Lecture Critique d’Article et à
la première (1A), la seconde (1B) et la moyenne des sessions de modules (1C). 1D :
relation entre les différentes sessions de modules.
III-3. Analyse des résultats des deux composantes de l’épreuve de Lecture Critique
d’Article :
L’épreuve de Lecture Critique d’Article est composée de deux parties distinctes
portant sur la réponse à une liste de questions et en la rédaction d’un résumé structuré.
Cependant, les deux composantes de cette épreuve pourraient analyser des compétences et des
connaissances de nature différente. Nous avons donc analysé de manière séparée les notes des
étudiants aux deux composantes de cette épreuve. Les notes moyennes obtenues par cette
promotion aux 8 questions de l’épreuve de Lecture Critique d’Article (10,3 ± 3,4) étaient
similaires à celles obtenues pour la rédaction du résumé (10,1 ± 2,7) et ces deux notes
présentaient une corrélation statistiquement significative (r = 0,40; p < 0,0001). Le tableau II
indique le coefficient de corrélation observé entre ces différentes évaluations.
8
Note à l'épreuve de LCA
Note globale
Note aux questions
Note aux résumé
session
0,31**
0,3*
0,26*
Modules 2nd session
0,43***
0,39***
0,27*
Moyenne modules DCEM2
0,43***
0,4***
0,31**
ère
Modules 1
Tableau II : coefficient de corrélation entre les notes obtenues aux modules de DCEM2
et aux différentes composantes de l’épreuve de lecture critique d’article (* : p<0,01; ** :
p<0,001; ***; p<0,0001).
Afin de préciser la force et la signification sur le plan pratique de cette corrélation
statistique, les étudiants ont été répartis en quartiles en fonction de leur note moyenne aux
modules. Comme attendu, une progression croissante de la note a l’épreuve de Lecture
Critique d’Article a été observée entre le premier et le dernier quartiles, avec une différence
de respectivement 3, 3,4 et 3,3 points entre les groupes extrêmes pour la note globale, la note
aux questions et la note pour le résumé de l’épreuve de Lecture Critique d’Article (p<0,0001,
p<0,05 et p<0,05 respectivement).
Note à l'épreuve de LCA
Classement
(modules de DCEM2)
Note globale / 20
< 28
11,1 ± 2,2
11,2 ± 2,9
11,0 ± 2,0
29-56
11,2 ± 2,5
11,8 ± 3,1
10,2 ± 2,4
57-84
10,4 ± 2,6
10,4 ± 3,2
10,4 ± 2,6
>84
8,1 ± 3,0
7,8 ± 3,3
8,7 ± 3,2
Note aux questions / 20
Note aux résumé / 20
Tableau III : Note moyenne à l’épreuve de Lecture Critique d’Article en fonction du
classement des étudiants aux modules de DCEM2
III-4. Effet d’un enseignement optionnel :
Dix étudiants de la promotion (9,0%) ont participé à un module optionnel
supplémentaire intitulé « Méthodologie et statistique appliquées à la lecture critique
d’article ». Le résultat de ce groupe d’étudiants à l’épreuve de Lecture Critique d’Article (9,8
± 3,0) ne diffère pas significativement de ceux ayant suivi uniquement l’enseignement
obligatoire de Lecture Critique d’Article (10,3 ± 2,8; ns). Afin d’estimer si les caractéristiques
de ces étudiants étaient identiques, nous avons comparé les notes de ces groupes aux autres
modules de DCEM2 dont la thématique ne se rapporte ni à la méthodologie ni à la lecture
critique d’article. Nous avons observé de manière constante que les notes des étudiants
9
inscrits à l’optionnel de « méthodologie et statistique appliqués à la Lecture Critique
d’Article » avaient tendance à être inférieures à celles du reste de la promotion. Pris dans leur
ensemble, ces données rendent l’interprétation de ces résultats difficiles. Nous ne pouvons pas
éliminer l’hypothèse selon laquelle l’absence d’efficacité de l’enseignement optionnel
observée dans notre étude ne soit liée à une sélection des étudiants ayant souhaité s’inscrire à
ce module spécifique.
Participation au module optionnel
Effectif
Epreuve de LCA
Non
Oui
p
101
10
10,3 ± 2,8
9,8 ± 3,0
0,42
ère
session
13,1 ± 1,8
12,5 ± 1,71
0,34
nd
session
12,1 ± 2,1
11,8 ± 1,5
0,46
Moyenne modules DCEM2
12,6 ± 1,8
12,2 ± 1,12
0,31
Classement en PCEM1
72,3 ± 44,1
93,9 ± 40,4
0,14
Modules 1
Modules 2
Tableau IV : Effet de la participation des étudiants au module optionnel supplémentaire
intitulé « Méthodologie et statistique appliquées à la lecture critique d’article » sur leurs
résultats.
III-5. Relation avec le classement au concours de PCEM1 :
Nous avons également analysé la relation existant entre le classement des étudiants
aux différentes épreuves de DCEM2 et leur classement au concours de PCEM1. Bien que
significative, la corrélation entre le rang des étudiants à l’épreuve de Lecture Critique
d’Article et leur classement en PCEM 1 était faible (r = 0,19; p < 0,05). Par ailleurs, la
corrélation entre le rang de classement des étudiants en PCEM1 et celui issu des notes
obtenues pour les modules de DCEM 2 était de même ordre de grandeur mais non
significative (r = 0,17; p = 0,07). Ceci suggère que le classement en PCEM 1 n’aurait que peu
d’influence sur les résultats plus en aval dans le cursus médical quel que soit le mode
d’évaluation des étudiants (Lecture Critique d’Article ou cas cliniques).
IV- Discussion :
Les résultats de cette étude montrent que la note moyenne obtenue par les étudiants de
la faculté de médecine de Créteil à l’épreuve de Lecture Critique d’Article de DCEM2 a été
inférieure à celles obtenues aux autres modules évalués la même année. Une corrélation
statistiquement significative existait entre les résultats à ces deux types d’épreuves, les
10
étudiants les mieux classés sur les épreuves de dossiers obtenant également les meilleures
notes lors de l’épreuve de Lecture Critique d’Article. Cette corrélation parait cependant moins
étroite que celle observée entre plusieurs épreuves de cas cliniques.
Le cursus médical présente la particularité de comporter un examen classant en fin de
second cycle, dont les résultats conditionnent fortement les perspectives de carrière des
étudiants et en particulier leur accès aux filières de spécialisation et leur lieu d’affectation
géographique. L’organisation actuelle des Epreuves Classantes Nationales présente le défaut
de générer une distribution des notes en plateau et possède donc un faible pouvoir
discriminant. Ainsi, la majorité des étudiants sont classés dans une zone où une différence de
1 point sur 900 entraîne un changement de 20 places dans le classement final. Il en résulte un
nombre important d’ex-aequo qui sont séparé d’une manière souvent jugée aléatoire (note au
1er dossier puis âge du candidat)9. Un des avantages théoriques de l’épreuve de lecture
critique d’article serrait de permettre un classement plus efficace des étudiants. Néanmoins, la
dispersion des notes à l’épreuve de Lecture Critique d’Article observée dans notre étude n’a
pas été supérieure à celle des cas cliniques les plus discriminants. Cependant, il est possible
que, lors de la correction de cette épreuve nouvelle, des notes légèrement inférieures à la
moyenne aient été rehaussées. Par ailleurs, il est probable que les compétences évaluées par
ces deux types d’épreuves soient complémentaires : connaissances théoriques et capacité
d’utilisation des acquis pour les cas cliniques contre capacité à l’autoformation et à l’analyse
pour la Lecture Critique d’Article. L’utilisation conjointe de cas cliniques et de la lecture
critique d’article dans le cadre de l’ECN pourrait donc permettre d’élargir la base des
compétences évaluées chez les étudiants et donc d’améliorer le pouvoir discriminant de cette
épreuve.
Dans notre étude, les notes des étudiants à l’épreuve de Lecture Critique d’Article ont
été inférieures à celles qu’ils ont obtenues lors des autres évaluations. Cependant, l’examen
sur lequel notre analyse a porté était la première épreuve de ce type rencontrée par ces
étudiants et d’autres auteurs ont précédemment rapporté que le niveau des étudiants à
l’épreuve de Lecture Critique d’Article s’améliore avec la répétition des épreuves5. De plus, il
est possible que le climat d’incertitude dans lequel les étudiants ont été placés lors de la
préparation de cette épreuve (maintien ou non aux Epreuves Classantes Nationales) ait
conduit certains d’entre eux à réduire leur degré de préparation à l’épreuve. Le cœur du débat
sur l’intégration de la Lecture Critique d’Article aux Epreuves Classantes Nationales porte sur
11
la reproductibilité de la correction de cette épreuve. Ce paramètre a été analysé dans plusieurs
publications grâce a un système de double correction des copies. Néanmoins, ces études ont
conduit à des conclusions contradictoires, certaines concluant à une faible reproductibilité de
cette épreuve3-4 alors que d’autres l’ont jugé satisfaisante5. Mais, s’il peut exister des
variations quantitatives dans l’évaluation des copies de Lecture critique d’Article en fonction
des correcteurs, le classement des étudiants par cette épreuve parait reproductible4. Plusieurs
facteurs influençant la concordance des corrections ont pu être identifiés : nature et précision
de l’énoncé des questions3-5, utilisation d’une grille de corrections3 et niveau de détail de la
grille de corrections4. La reproductibilité de cette épreuve parait être plus étroite pour les
questions que pour la rédaction du résumé3,5. De manière similaire, nous avons observé que la
corrélation des notes pour l’épreuve du résumé avec celles obtenues aux questions ou aux
autres modules est faible, ce qui confirme le caractère très spécifique de l’évaluation des
étudiants par la rédaction d’un résumé structuré. La préparation des enseignants en charge de
l’enseignement et de la correction de l’épreuve de Lecture Critique d’Article pourrait être
également un facteur pouvant influencer la reproductibilité des corrections3. Ceci souligne la
nécessité d’identifier au sein de chaque faculté les enseignants responsable de cette formation
afin de favoriser l’homogénéisation de cet enseignement à l’échelle nationale. La création
d’une collégiale des enseignants de Lecture Critique d’Article annoncée récemment va dans
ce sens.
Les risques d’erreur lors de l’application de l’épreuve de Lecture Critique d’Article
dans le cadre des Epreuves Classantes Nationales seront limités par le système de double
correction et de contrôle systématique en cas de divergence supérieure à 10 points mis en
place dans le cadre de cette épreuve. Ainsi, dans l’étude de François et collaborateurs5, ce
contrôle n’aurait été nécessaire que pour moins de 10 % des copies.
Notre étude présente un certain nombre de limitations. En particulier, l’analyse n’a été
effectuée que sur une année et pour une épreuve unique, ce qui limite la portée de l’analyse
statistique. Par ailleurs, il est possible que le choix de l’article ait conditionné une partie des
résultats. Néanmoins, ce travail ouvre des perspectives pour une véritable analyse de
l’évaluation des étudiants par la lecture critique d’article. Nous poursuivrons l’étude des
résultats de cette promotion d’étudiants lors des examens de DCEM3 en 2007-2008 puis lors
des Epreuves Classantes Nationales en 2008-2009, en nous intéressant tout particulièrement à
12
la progression du niveau des étudiants. Nous évaluerons également la reproductibilité de la
correction de cette épreuve au sein de notre faculté par une double correction des copies de
DCEM2.
V- Conclusions :
Les notes obtenues en 2007 par les étudiants de DCEM 2 de la faculté de médecine de
Créteil lors de l’épreuve de lecture critique d’article présentent une corrélation statistiquement
significative avec les autres évaluations réalisées la même année. Néanmoins, la force de cette
relation est moindre que celle existant entre deux évaluations différentes de type cas clinique,
ce qui suggère que l’épreuve de Lecture Critique d’Article pourrait explorer des qualités et
des compétences différentes des modes d’évaluation plus traditionnels.
Remerciement
Je remercie le Pr Sylvie Bastuji-Garin pour son rôle scientifique et méthodologique lors de la
conception de cette étude ainsi que pour l’analyse statistique, le Pr Pascal Claudepierre pour
ses conseils scientifiques ainsi que Mme Villemon pour le recueil des données.
13
Références :
1. http://www.legifrance.gouv.fr/WAspad/Ajour?nor=MENS0302822D&num=200467&ind= 1&laPage=1&demande=ajour. Décret n°2004-67 du 16 janvier 2004, relatif
à l'organisation du troisième cycle des études médicales
2. Czernichow P, Fillastre JP, Lavoinne A, Lemeland JF, Roussel F. Facteurs liés à la
concordance des corrections d’une épreuve de lecture critique d’article. Pédagogie
médicale. 2006;7:82-90.
3. Roussel F, Czernichow P, Lavoinne A, Lemeland JF, Fillastre JP. Reproductibilité de
la correction d’une épreuve de lecture critique d’article : évaluation par une étude
pilote chez 59 étudiants en médecine. Pédagogie médicale. 2005;6:71-78.
4. Louis-Sylvestre C, Furhman C, Housset B. Difficultés de correction d’une épreuve
d’analyse critique d’article scientifique : une étude exploratoire. Pédagogie médicale.
2005;6:138-146.
5. François P, Boyer L, Nuiry L, Labarère J. Fiabilité et validité d’une épreuve de lecture
critique d’articles médicaux scientifiques. Presse Med. 2007;36:575-581.
6. Audet N, Leclere H. Les habiletés requises pour la lecture critique en médecine : un
cadre de référence issu d’une recension des écrits. Pédagogie médicale. 2001;2:206212.
7. http://www.enseignementsup-recherche.gouv.fr/rapport/rapportfagniez.pdf
8. Gattusi C, L’épreuve de lecture critique d’article : un compromis trouvé pour 2009. Le
quotidien du médecin. 8215, 5, 2007.
9. Quinton A. Rapport intitulé : 2005 : Odyssée des E.C.N, Université de Bordeaux 2
Victor Segalen, Centre de Recherches Appliquées aux Méthodes Educatives.
14
ANNEXE I : Article soumis aux étudiants
Se référer au fichier pdf joint
15
ANNEXE II : Questions et instructions aux étudiants
DCEM2 Juin 2007 (Durée de l’épreuve : 3 heures)
Effet du budésonide associé au formotérol en traitement de la crise sur les exacerbations
d’asthme : étude randomisée, contrôlée, en double aveugle.
8 Questions sur 100 points indivisibles
9ème question est le résumé sur 50 points indivisibles
1. Les auteurs se sont-ils donnés les moyens d’obtenir des groupes comparables ? Si oui
précisez les moyens utilisés.
2. Un placebo a-t-il été utilisé dans cette étude ? Justifiez les choix faits par les auteurs.
3. Quel était le critère principal de jugement ? Pourquoi les auteurs ont-ils choisi un
critère unique ?
4. Quelles sont les populations choisies pour analyser l’efficacité et la tolérance ?
Pourquoi ne sont-elles pas identiques ?
5. Dans le tableau 1, comparant les caractéristiques initiales des patients, aucun test
statistique n’a été réalisé, qu’en pensez-vous ? Justifiez votre réponse.
6. Commentez la figure 2.
7. La réduction de risque de crise observée avec l’association budésonide-formoterol en
cas de crise versus formoterol (27%) est-elle supérieure à la réduction observée par
rapport à la Terbutaline (45%) ?
8. Quel est le niveau de preuve de cet article ? Justifiez votre réponse ?
9. Rédigez un résumé de cet article en moins de 250 mots. Indiquer le nombre de mots de
votre résumé.
Les mots inscrits après le 250ème ne seront pas pris en compte même s’ils comportent des mots
clés. Le résumé est noté sur 50 points, une pénalité proportionnelle au dépassement sera
appliquée, pour cette année : [10 à 20 mots] : -5pts, [20-50] : -10 pts, > 50 mots : -15 points.
Par convention pour cette épreuve : L’ = Le = 1 mot. OR = 1 mot. Les valeurs comprises dans
l’intervalle de confiance compteront pour un mot, de même que le degré de signification
(p=0.05). Rédigez votre résumé dans la grille ci-dessous afin de faciliter le compte des mots,
en indiquant le nombre de mots à gauche à la fin de chaque grand chapitre. En fin de résumé,
indiquez le nombre total de mots.
16
ANNEXE III : Exemple type de correction fournie aux enseignants
Epreuve de Lecture Critique
DCEM2 Juin 2007 (Durée de l’épreuve : 3 heures)
Effet du budésonide associé au formotérol en traitement de la crise sur les exacerbations
d’asthme : étude randomisée, contrôlée, en double aveugle.
8 questions sur 100 points indivisibles
9ème question est le résumé sur 50 points indivisibles
1. Les auteurs se sont-ils donnés les moyens d’obtenir des groupes comparables ? Si oui
précisez les moyens utilisés.
Oui, la randomisation en trois groupes devait permettre d’avoir 3 groupes dont les
caractéristiques initiales seraient similaires (randomisation = comparabilité initiale).
Le double aveugle devait permettre de maintenir cette comparabilité en cours d’étude, les 3
produits étudiés avaient un conditionnement ne permettant pas de les différencier.
2. Un placebo a-t-il été utilisé dans cette étude ? Justifiez le choix fait par les auteurs.
Aucun placebo n’a été utilisé car il serait non éthique de recourir à un principe à priori inactif
pour traiter une crise d’asthme. (L’utilisation d’un conditionnement identique a permis de
rendre les produits étudiés comparables. On peut se demander cependant si le goût était
similaire.)
3. Quel était le critère principal de jugement ? Pourquoi les auteurs ont-ils choisi un
critère unique ?
Le critère principal de jugement était le délai de survenue de la première exacerbation sévère.
Il est préférable (indispensable) de ne choisir qu’un seul critère principal car c’est lui qui
permettra de juger des résultats de l’étude. Par ailleurs, c’est ce critère principal qui permet de
déterminer la taille de l’échantillon.
4. Quelles sont les populations choisies pour analyser l’efficacité et la tolérance ?
Pourquoi ne sont-elles pas identiques ?
- La population choisie pour évaluer l’efficacité comporte tous les patients pour lesquels
des données ont été enregistrées après la randomisation. Analyse proche de l’ITT
- Pour évaluer la tolérance, il s’agit de la même population mais restreinte à ceux qui
ont reçu au moins une dose du traitement alloué. Analyse per protocole
- Ces stratégies sont habituelles car l’efficacité se juge selon le traitement alloué que le
patient l’ait reçu ou non, et pour juger des effets secondaires il faut considérer les
patients qui ont au moins reçu une dose pour des raisons d’imputabilité.
5. Dans le tableau 1 comparant les caractéristiques initiales des patients aucun test
statistique n’a été réalisé, qu’en pensez-vous ? Justifiez votre réponse.
Les patients ayant été randomisés entre les groupes on ne s’attend pas à observer de différence
entre les groupes, il est logique qu’aucun test n’ait été réalisé. La multiplication des tests
statistiques pourrait conduire à observer des différences qui ne sont liées qu’au nombre de
tests réalisés.
La comparabilité initiale se juge en regardant si des caractéristiques semblent différentes entre
les groupes et si elles vont dans le même sens (défaveur d’un des groupes), si tel est le cas on
peut être amené à ajuster l’analyse principale sur ces critères.
17
6. Commentez la figure 2.
La figure montre le délai entre la randomisation et la survenue de la première exacerbation
sévère de l’asthme, il est significativement plus important pour le bras budésonide-formotérol
à la demande par rapport au bras formotérol à la demande (p=0.0048) (critère principal), mais
également par rapport au bras terbutaline à la demande (p<0.0001). De même il est
significativement plus long pour le bras formotérol à la demande versus terbutaline
(p=0.0051).
7. La réduction de risque de crise observée avec l’association budésonide-formotérol en
cas de crise versus formotérol (27%) est-elle supérieure à la réduction observée par
rapport à la Terbutaline (45%).
Non la réduction de risque observée n’est pas significativement différente car les IC des
réductions de risque se chevauchent (ou car les IC des RR se chevauchent table 2).
8. Quel est le niveau de preuve de cet article ? Justifiez votre réponse.
Etude de niveau 1 (ou plus haut niveau). Etude randomisée bien conduite avec une bonne
puissance
9. Rédiger un résumé de cet article en moins de 250 mots. Indiquer le nombre de mots
de votre résumé.
Le bénéfice des modalités du traitement de la crise d’asthme associé au traitement de fond par
budésonide-formotérol est mal connu. L’objectif de cette étude était de comparer l’efficacité
de 3 traitements de la crise : budésonide-formotérol, formotérol et terbutaline.
Méthode. Un essai multicentrique randomisé en double aveugle sur 3 groupes parallèles a été
réalisé dans 20 pays. 3394 patients âgés d’au moins 12 ans sous traitement de fond par
budesonide-formotérol ont été randomisés pour recevoir pendant en cas de crise un an:
budésonide-foromtérol 200/6μg (n=1113), formotérol 6μg (n=1140) ou terbutaline 0.5mg
(n=1141). Le critère principal de jugement était le délai de survenue de la première
exacerbation sévère nécessitant une visite aux urgences, une hospitalisation ou une
corticothérapie orale de 3 jours. L’analyse a été réalisée en intention de traiter.
Résultats. Le délai de survenue de la première exacerbation sévère était allongé avec
l’association budésonide-formotérol versus formotérol (p=0.0048) ou terbutaline (p<0.0001)
et formotérol versus terbutaline (p=0.0051). L’association budésonide-formotérol réduisait le
risque d’exacerbation sévère de 27% (IC95% 10-41%) versus formotérol et de 45% versus
terbutaline. La réduction de risque formotérol versus terbutaline était de 24% (8-37%). Le
taux annuel d’exacerbations sévères était réduit de 33% pour l’association budésonideformotérol versus formotérol (20-44% p<0.0001), de 48% versus terbutaline (3856%p<0.0001) et de 22% pour le formotérol versus terbutaline (9-33%, p=0.0012). Tous les
traitements ont été bien tolérés.
Conclusion. Comparativement à la terbutaline, le formotérol à la demande diminue les
exacerbations sévères, la prise à la demande de l’association budésonide-formotérol accroît
cet effet protecteur.
18
ANNEXE IV : Grille de correction de l’épreuve de questions fournie aux correcteurs
Q1
1
Comparabilité
2
Oui
Randomisation : comparabilité initiale
4
Double aveugle : comparabilité pdt étude
4
Conditionnement identique des produits
2
12
Q2
Placebo
Aucun placebo
5
Non éthique
5
10
Q3
Critère principal
ère
Délais survenue 1
crise sévère
4
Un seul critère pour juger des résultats
4
Et pour estimer le nb de sujets
4
12
Q4
Populations
Randomisation + données enregistrées ou ITT
3
Population ayant reçu ≥ 1 dose ou PP
3
Efficacité du tt se juge sur patients devant le
3
Tolérance il faut que les patients en aient recu
3
12
Q5
Tableau I
Randomisation= attend pas de différence
5
Normal de pas faire de tests
5
Multiplication des tests : différences qui
2
12
Q6
Figure 2
Délai random-crise significativement + grd
6
Idem vs terbut (faut significatif ou le p)
4
Significativement + long pour formet vs terbu
4
Si différence signif sans préciser le sens =0
14
Q7
Réduction de risque
Non
IC des réductions de risque (ou des RR se
2
8
10
Q8
Preuve
Niveau 1 ou le plus haut niveau
4
Randomisée, bonne puissance, bien conduite
4
8
Réserve
Qualité de rédaction
Pas d’erreurs
5
5
10
TOTAL
19
100
2
3
4
5
6
7
8
9
10
ANNEXE IV : Grille de correction du résumé fournie aux correcteurs
Introduction
Modalité tt crise + budésonide-formt mal connu
Objectif comparer les 3 tt
Méthode
Multicentrique
Randomisé
Double aveugle
Groupes parallèles
âges
Tt fond budésonide-formoterol
Un an
budésonide-formoterol et dose
Formoterol et dose
Terbutaline et dose
Bupropion LP et dose
Mot « critère principal de jugement»
Critère princip : délai de 1ère exacerbation sévère
Définition du critère
Effectifs (ou dans résultats)
Analyse en ITT
Résultats
Délai budesonide-formoter vs formoter et p
Vs terbutaline et p
Formoterol vs terbutaline et p
Réduction risque bud-formoter vs formoter 27%
Réduction risque bud-formoter vs terbut 45%
Réduction risque formoter vs terbut 24%
Les IC des réductions de risque
Taux annuel bud-formoter vs formoter 33%
Taux annuel bud-formoter vs terbut 48%
Taux annuel formoter vs terbut 22%
IC Taux annuels
p Taux annuels
tolérance
Conclusion
Formot a la demande diminue exacerbation /
l’association budés-formotaccroît a la demande
TOTAL
RESERVE
Nb de mots indiqué
[260- 270] mots
]270-300] mots
> 300 mots
20
1
1
2
3
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
16
2
2
2
1
1
1
1
1
1
1
1
1
2
17
2
2
4
40
1
-5
-10
-15
2
3
4
5
6
7
8
9
10
Tous les § clairement présents
Têtes de §
Qualité rédaction
Qualité présentation
Absence d‘erreurs en plus
20 pays
TOTAL
21
1
1
0-2
0-2
2
1
10
100