Reprsentativit de l`preuve de lecture critique
Transcription
Reprsentativit de l`preuve de lecture critique
Année universitaire 2006-2007 MÉMOIRE pour le DIPLÔME INTER-UNIVERSITAIRE de PÉDAGOGIE MÉDICALE Epreuve de Lecture Critique d’Article Relation avec les résultats à d’autres modalités d’évaluations par Philippe Le Corvoisier Faculté de Médecine de Créteil, Université Paris XII 1 Résumé : Introduction : L’épreuve de Lecture Critique d’Article sera intégrée pour la première fois aux Epreuves Classantes Nationales en 2008-2009. En dépit d’un contexte polémique, peu d’études ont analysé de manière scientifique l’efficacité de cette épreuve pour l’évaluation des étudiants. L’objectif de ce travail a été d’étudier si les résultats d’une promotion d’étudiants à l’épreuve de Lecture Critique d’Article étaient corrélés avec leurs résultats aux autres modalités d’évaluation. Méthodes : Les notes obtenues par les 117 étudiants inscrits en deuxième année du second cycle des études médicales (DCEM2) de la faculté de médecine de Créteil au cours de l’année universitaire 2006-2007 ont été utilisées pour cette étude. Au cours cette année, ces étudiants ont été évalués lors de deux sessions par des cas cliniques et par une épreuve de Lecture Critique d’Article. Résultats : La note moyenne de cette promotion d’étudiants à l’épreuve de Lecture Critique d’Article (10,2 ± 2,8 sur 20) a été inférieure à celle obtenue sur l’ensemble des deux autres modules évaluées la même année (12,6 ± 1,7, p<10-3). Les notes à l’épreuve de Lecture Critique d’Article étaient significativement corrélées avec celles obtenues lors de la première (r = 0,31 ; p < 0,001), de la seconde (r = 0,43 ; p < 0,0001) et de la moyenne des deux sessions de modules (r = 0,43 ; p < 0,0001). De manière similaire, une relation significative a été observée entre le classement des étudiants lors de l’épreuve de Lecture Critique d’Article et leur classement global aux modules de DCEM2 (r=0,43; p < 0,0001). Cependant, la force de la corrélation entre ces deux types d’épreuves paraît moins étroite que le lien existant entre le résultat aux deux différentes sessions de modules (r=0,57; p <0,0001). Par ailleurs, nous avons également analysé la relation existant entre le classement des étudiants aux différentes épreuves de DCEM2 et leur classement au concours de PCEM1. Bien que significative, la corrélation entre le rang des étudiants à l’épreuve de Lecture Critique d’Article et leur classement en PCEM 1 était faible (r = 0,19; p < 0,05). Conclusion : Les notes obtenues en 2007 par les étudiants de DCEM 2 de la faculté de médecine de Créteil lors de l’épreuve de Lecture Critique d’Article présentent une corrélation statistiquement significative avec les autres évaluations réalisées la même année, les étudiants les mieux classés sur les épreuves de dossiers obtenant également les meilleures notes lors de l’épreuve de Lecture Critique d’Article. Néanmoins, la force de cette relation est moindre que celle existant entre deux évaluations différentes de type cas clinique, ce qui suggère que l’épreuve de Lecture Critique d’Article pourrait explorer des qualités et des compétences différentes des modalités d’évaluation plus traditionnelles. 2 I. Introduction : Les progrès de la recherche médicale conduisent à un renouvellement des connaissances toujours plus rapide. La formation initiale des médecins ne constitue plus qu’un socle de compétences qui doit être enrichi et renouvelé en permanence par une formation médicale continue. Cet objectif implique que les médecins soient formés à l’analyse de la littérature médicale pour leur permettre d’analyser de manière critique et indépendante les données provenant des différentes sources d’information disponibles (littérature scientifique, presse professionnelle, industrie pharmaceutique). Evoquée dès 2002, l’inclusion d’une épreuve de Lecture Critique d’Article lors des Epreuves Classantes Nationales a été officialisée dans le décret relatif à l’organisation du troisième cycle médical du 16 janvier 20041. Cette démarche a entrainé des interrogations dans une partie du monde étudiant et enseignant. La légitimité de cette épreuve a été contestée en raison d’une hétérogénéité supposée au niveau de l’investissement des différentes universités dans cette épreuve à l’heure d’un examen classant organisé à l’échelle nationale. Par ailleurs, plusieurs publications ont souligné les difficultés spécifiques engendrées par la correction de cette épreuve et mis en question sa reproductibilité2-6. Cette controverse a conduit à un moratoire sur la mise en place de l’épreuve de Lecture Critique d’Article jusqu’à l’année universitaire 2007-2008. Le débat a été relancé en 2007 par les conclusions du rapport du député Pierre-Luis Fagniez établi à la demande du ministre délégué à l’enseignement supérieur et à la recherche7. Après audition des différentes parties concernées, celui-ci a souligné le consensus existant vis-à-vis de l’intérêt pédagogique de l’enseignement de la Lecture Critique d’Article dans le cadre du cursus médical et a recommandé l’application de cette épreuve lors des Epreuves Classantes Nationales. La publication de ce rapport a été suivie par la création d’un groupe de travail comprenant des membres du ministère de l’enseignement supérieur, des doyens, des enseignants-chercheurs et des représentants des associations d’étudiants en médecine afin de préciser les modalités pratiques de mise en place de cette épreuve. Les principales conclusions de cette commission ont été récemment annoncées dans la presse médicale8 : la première application de l’épreuve de Lecture Critique d’Article aura lieu durant les Epreuves Classantes Nationales 2008-2009 et son coefficient sera pondéré à 5 pourcent pour la première année. Il devrait être secondairement porté à 10 pourcent dès 2010. Ces dispositions 3 n’ont cependant pas encore été confirmées par des textes réglementaires officiels. La mise en place de cette épreuve sera encadrée par la publication d’une circulaire par la Direction Générale de l’Enseignement Supérieur, visant à harmoniser la mise en place de l’enseignement de la Lecture Critique d’Article (volume horaire, type d’enseignement) entre les facultés. Par ailleurs le ministère s’est également engagé à mettre à la disposition des étudiants un enseignement et des corrigés-types d’épreuves de Lecture Critique d’Article sur le site du Conseil National du Concours d’Internat afin d’assurer le respect du principe d’égalité entre les étudiants. En dépit de ce contexte polémique, l’évaluation des étudiants par une épreuve de Lecture Critique d’Article n’a été que peu étudiée de manière scientifique. En particulier, la spécificité de cette évaluation par rapport aux modes d’évaluation plus classiques reste mal connue. L’objectif du travail que nous avons réalisé était d’évaluer si les résultats d’une promotion d’étudiants à l’épreuve de Lecture Critique d’Article étaient corrélés ou non avec leurs résultats à d’autres modes d’évaluation. II. Méthodes : II-1. Recueil des données : Les 117 étudiants inscrits en deuxième année du second cycle des études médicales (DCEM2) de la faculté de médecine de Créteil au cours de l’année universitaire 2006-2007 ont bénéficié d’une préparation spécifique à l’épreuve de Lecture Critique d’Article. Cet enseignement a représenté un volume horaire de 26 heures (cours magistraux et enseignements dirigés), auxquelles se sont ajoutées 6 heures réparties dans d’autres modules d’enseignement. Lors des cours magistraux, les principes et la structure d’un article original de recherche, les modalités de rédaction d’un résumé et la méthodologie des études d’épidémiologie clinique et des essais thérapeutiques ont été décrits, l’objectif étant de transmettre aux étudiants les notions de base nécessaire à l’interprétation de la littérature médicale. Lors des enseignements dirigés, les étudiants ont effectué un travail effectif sur des articles scientifiques rapportant des études épidémiologiques analytiques, évaluant des examens diagnostiques ou rapportant des essais thérapeutiques. Par ailleurs, 10 étudiants ont également suivi un enseignement optionnel supplémentaire intitulé « Méthodologie et statistique appliquées à la Lecture Critique d’Article », d’un volume horaire de 30 heures. 4 Les notes obtenues par les étudiants de cette promotion ont été utilisées pour cette étude. Au cours de l’année universitaire 2006-2007, ces étudiants ont été évalués lors de deux sessions : en février 2007 (session 1) pour les modules 2 (De la conception à la naissance) et 14 (Pathologie abdomino-pelvienne), puis en juin 2007 (session 2) pour les modules 7 (Santé et environnement – Maladies transmissibles), 9 (Athérosclérose – Hypertension – thrombose) et 13 (Pathologie cervico-thoracique) ainsi que pour l’épreuve de Lecture Critique d’Article. Le contrôle des connaissances dans le cadre de ces modules a reposé sur l’utilisation de cas cliniques. L’épreuve de Lecture Critique d’Article a consisté en une épreuve de trois heures similaire à celle proposée aux Epreuves Classantes Nationales et portant sur l’analyse d’un article traduit en français. L’article sélectionné décrivait un essai clinique randomisé, contrôlé et en double aveugle comparant l’efficacité de deux stratégies thérapeutiques dans le traitement de la crise d’asthme (terbutaline, formotérol ou association budésonide/formotérol). La version originale de cette étude avait été publiée en 2006 par une équipe hollandaise dans la revue Lancet. Cette épreuve a comporté 8 questions ouvertes notées au total sur 100 points, ainsi que sur la rédaction d’un résumé de 250 mots noté sur 50 points. Pour des raisons d’homogénéité, les notes à ces différentes épreuves seront présentées sur 20 points dans le présent mémoire. Quatre questions portaient sur des questions de méthodologie de l’essai (justification du design de l’étude, discussion du critère de jugement principal et de la stratégie d’analyse des données) et quatre autres sur l’analyse des résultats (description des caractéristiques de la population, discussion des résultats et définition du niveau de preuve de l’étude). La correction a été assurée par 7 enseignants ayant participé à l’enseignement de la Lecture Critique d’Article au cours de l’année universitaire. La grille de correction fournie aux correcteurs comportait de 2 à 4 éléments de réponse pour chaque question et respectivement 2 à 16 mots clés pour les quatre différents paragraphes du résumé de l’article. L’article, l’intitulé des questions, les recommandations fournies aux étudiants, la lettre adressée aux correcteurs ainsi que la grille de correction figurent en annexe de ce document. Les notes des étudiants ont été recueillies auprès du service de la scolarité de la faculté. Six étudiants n’ont pas été inclus dans cette analyse pour les raisons suivantes : 2 étudiants étrangers en raison de considérations linguistiques, 2 étudiants absents à une ou plusieurs épreuves, et deux étudiants dont le cursus médical spécifique était non-représentatif. Au total, les notes des 111 étudiants ont pu être analysées. 5 II-2. Analyse statistique : L’analyse statistique des résultats de cette étude a été réalisée par le Pr Sylvie BastujiGarin du service de Santé Publique de l’Hôpital Henri Mondor. Les valeurs quantitatives sont présentées sous la forme de moyenne ± une dérivation standard et de médiane (25ème-75ème percentiles). Les notes des étudiants à l’épreuve de Lecture Critique d’Article ont été comparées à celles obtenues sur l’ensemble des sessions d’épreuves de dossiers par le test non-paramétrique de Wilcoxon. Les corrélations entre les notes de Lecture Critique d’Article et celles des deux sessions d’épreuves de dossiers, ainsi qu’entre chacune des deux sessions ont été analysées par le coefficient de corrélation de Spearman. De plus, les étudiants ont été classés en 4 groupes selon les quartiles de leur note obtenue sur l’ensemble des sessions. Les notes globales à l’épreuve de Lecture Critique d’Article, ainsi que les notes spécifiques pour la rédaction du résumé et la réponse aux questions ont été comparées entre ces quatre groupes par un test non paramétrique de Kruskal-Wallis. Enfin, afin de tester le rôle potentiel de la participation à l’enseignement optionnel de « Méthodologie et statistique appliquées à la Lecture Critique d’Article » sur les résultats de l’épreuve de Lecture Critique d’Article, les notes ont été comparées entre ces deux groupes par un test non paramétrique de MannWhitney. Une valeur de p<0,05 a été considérée comme statistiquement significative. L’analyse statistique a été réalisée avec le logiciel STATA. III. Résultats : III-1. Résultats de la promotion 2006-2007 de DCEM2 lors des différentes évaluations : Les notes obtenues par les étudiants de DCEM2 lors de leurs différentes évaluations sont présentées dans le tableau I. La note moyenne de cette promotion à l’épreuve de Lecture Critique d’Article (10,2 ± 2,8 sur 20) était significativement inférieure à celle obtenue sur l’ensemble des deux modules (12,6 ± 1,7, p<10-3). La dispersion des notes lors de cette épreuve était similaire à celles des cas cliniques les plus discriminants (écart type de 2,8 pour la Lecture Critique d’Article, compris entre 1,9 et 2,8 pour les modules). 6 Moyenne ± SD Médiane (25-75ème) percentiles Notes extrêmes 10,2 ± 2,8 10,3 (8,9-12,7) 0-14,9 12,7 ± 1,9 13,0 (11,8-14,0) 7,5-16,1 13,4 ± 2,4 13,5 (11,9-15,2) 7,7-18,2 13,1 ± 1,8 13,2 (12,0-14,5) 8,2-17,0 - Module 7 11,4 ± 2,7 11,5 (9,0-13,0) 6-17,5 - Module 9 12,3 ± 2,4 12,5 (10,4-14,1) 5,6-16,8 - Module 13 12,4 ± 2,8 12,5 (10,5-14,5) 3,7-18,5 12,0 ± 2,1 12,0 (10,5-13,4) 5,5-16,8 12,6 ± 1,7 12,6 (11,3-13,8) 8,2-16,9 Epreuve de LCA ère Modules 1 session - Module 2 - Module 14 - Moyenne modules 1 nd Modules 2 ère session session - Moyenne modules 2 nd session Moyenne modules DCEM2 Tableau I : notes de la promotion 2006-2007 aux épreuves de DCEM2 (notes sur 20). III-2. Corrélation entre les résultats obtenus aux différentes épreuves : Nous avons analysé la relation existant entre les résultats des étudiants à ces différentes évaluations en utilisant un test de Spearman. Les notes de ces étudiants à l’épreuve de Lecture Critique d’Article étaient significativement corrélées avec celles obtenues lors de la première (r = 0,31 ; p < 0,001), de la seconde (r = 0,43 ; p < 0,0001) et de la moyenne des deux sessions de modules (r = 0,43 ; p < 0,0001) (Figures 1A à 1C). De manière similaire, une relation significative a été observée entre le classement des étudiants lors de l’épreuve de Lecture Critique d’Article et leur classement global aux modules de DCEM2 (r=0,43; p < 0,0001). Cependant, la force de la corrélation entre ces deux types d’épreuves paraît moins étroite que le lien existant entre le résultat aux deux différentes sessions de modules (r=0,57; p 1A 20 16 12 8 r = 0,31 p< 0,001 4 16 12 8 r = 0,43 p< 10-4 4 0 0 0 4 8 12 16 Note a l'épreuve de LCA 7 1B 20 Note à la seconde session de modules Note à la première session de modules <0,0001) (Figures 1D). 20 0 4 8 12 16 Note a l'épreuve de LCA 20 Note moyenne aux modules 16 12 8 r = 0,43 p< 10-4 4 0 Note à la seconde session de module 1C 1C 20 1D 20 16 12 8 r = 0,57 p< 10-4 4 0 0 4 8 12 16 Note a l'épreuve de LCA 20 0 4 8 12 16 20 Note à la première session de modules Figure 1 : Relation entre les notes obtenus à l’épreuve de Lecture Critique d’Article et à la première (1A), la seconde (1B) et la moyenne des sessions de modules (1C). 1D : relation entre les différentes sessions de modules. III-3. Analyse des résultats des deux composantes de l’épreuve de Lecture Critique d’Article : L’épreuve de Lecture Critique d’Article est composée de deux parties distinctes portant sur la réponse à une liste de questions et en la rédaction d’un résumé structuré. Cependant, les deux composantes de cette épreuve pourraient analyser des compétences et des connaissances de nature différente. Nous avons donc analysé de manière séparée les notes des étudiants aux deux composantes de cette épreuve. Les notes moyennes obtenues par cette promotion aux 8 questions de l’épreuve de Lecture Critique d’Article (10,3 ± 3,4) étaient similaires à celles obtenues pour la rédaction du résumé (10,1 ± 2,7) et ces deux notes présentaient une corrélation statistiquement significative (r = 0,40; p < 0,0001). Le tableau II indique le coefficient de corrélation observé entre ces différentes évaluations. 8 Note à l'épreuve de LCA Note globale Note aux questions Note aux résumé session 0,31** 0,3* 0,26* Modules 2nd session 0,43*** 0,39*** 0,27* Moyenne modules DCEM2 0,43*** 0,4*** 0,31** ère Modules 1 Tableau II : coefficient de corrélation entre les notes obtenues aux modules de DCEM2 et aux différentes composantes de l’épreuve de lecture critique d’article (* : p<0,01; ** : p<0,001; ***; p<0,0001). Afin de préciser la force et la signification sur le plan pratique de cette corrélation statistique, les étudiants ont été répartis en quartiles en fonction de leur note moyenne aux modules. Comme attendu, une progression croissante de la note a l’épreuve de Lecture Critique d’Article a été observée entre le premier et le dernier quartiles, avec une différence de respectivement 3, 3,4 et 3,3 points entre les groupes extrêmes pour la note globale, la note aux questions et la note pour le résumé de l’épreuve de Lecture Critique d’Article (p<0,0001, p<0,05 et p<0,05 respectivement). Note à l'épreuve de LCA Classement (modules de DCEM2) Note globale / 20 < 28 11,1 ± 2,2 11,2 ± 2,9 11,0 ± 2,0 29-56 11,2 ± 2,5 11,8 ± 3,1 10,2 ± 2,4 57-84 10,4 ± 2,6 10,4 ± 3,2 10,4 ± 2,6 >84 8,1 ± 3,0 7,8 ± 3,3 8,7 ± 3,2 Note aux questions / 20 Note aux résumé / 20 Tableau III : Note moyenne à l’épreuve de Lecture Critique d’Article en fonction du classement des étudiants aux modules de DCEM2 III-4. Effet d’un enseignement optionnel : Dix étudiants de la promotion (9,0%) ont participé à un module optionnel supplémentaire intitulé « Méthodologie et statistique appliquées à la lecture critique d’article ». Le résultat de ce groupe d’étudiants à l’épreuve de Lecture Critique d’Article (9,8 ± 3,0) ne diffère pas significativement de ceux ayant suivi uniquement l’enseignement obligatoire de Lecture Critique d’Article (10,3 ± 2,8; ns). Afin d’estimer si les caractéristiques de ces étudiants étaient identiques, nous avons comparé les notes de ces groupes aux autres modules de DCEM2 dont la thématique ne se rapporte ni à la méthodologie ni à la lecture critique d’article. Nous avons observé de manière constante que les notes des étudiants 9 inscrits à l’optionnel de « méthodologie et statistique appliqués à la Lecture Critique d’Article » avaient tendance à être inférieures à celles du reste de la promotion. Pris dans leur ensemble, ces données rendent l’interprétation de ces résultats difficiles. Nous ne pouvons pas éliminer l’hypothèse selon laquelle l’absence d’efficacité de l’enseignement optionnel observée dans notre étude ne soit liée à une sélection des étudiants ayant souhaité s’inscrire à ce module spécifique. Participation au module optionnel Effectif Epreuve de LCA Non Oui p 101 10 10,3 ± 2,8 9,8 ± 3,0 0,42 ère session 13,1 ± 1,8 12,5 ± 1,71 0,34 nd session 12,1 ± 2,1 11,8 ± 1,5 0,46 Moyenne modules DCEM2 12,6 ± 1,8 12,2 ± 1,12 0,31 Classement en PCEM1 72,3 ± 44,1 93,9 ± 40,4 0,14 Modules 1 Modules 2 Tableau IV : Effet de la participation des étudiants au module optionnel supplémentaire intitulé « Méthodologie et statistique appliquées à la lecture critique d’article » sur leurs résultats. III-5. Relation avec le classement au concours de PCEM1 : Nous avons également analysé la relation existant entre le classement des étudiants aux différentes épreuves de DCEM2 et leur classement au concours de PCEM1. Bien que significative, la corrélation entre le rang des étudiants à l’épreuve de Lecture Critique d’Article et leur classement en PCEM 1 était faible (r = 0,19; p < 0,05). Par ailleurs, la corrélation entre le rang de classement des étudiants en PCEM1 et celui issu des notes obtenues pour les modules de DCEM 2 était de même ordre de grandeur mais non significative (r = 0,17; p = 0,07). Ceci suggère que le classement en PCEM 1 n’aurait que peu d’influence sur les résultats plus en aval dans le cursus médical quel que soit le mode d’évaluation des étudiants (Lecture Critique d’Article ou cas cliniques). IV- Discussion : Les résultats de cette étude montrent que la note moyenne obtenue par les étudiants de la faculté de médecine de Créteil à l’épreuve de Lecture Critique d’Article de DCEM2 a été inférieure à celles obtenues aux autres modules évalués la même année. Une corrélation statistiquement significative existait entre les résultats à ces deux types d’épreuves, les 10 étudiants les mieux classés sur les épreuves de dossiers obtenant également les meilleures notes lors de l’épreuve de Lecture Critique d’Article. Cette corrélation parait cependant moins étroite que celle observée entre plusieurs épreuves de cas cliniques. Le cursus médical présente la particularité de comporter un examen classant en fin de second cycle, dont les résultats conditionnent fortement les perspectives de carrière des étudiants et en particulier leur accès aux filières de spécialisation et leur lieu d’affectation géographique. L’organisation actuelle des Epreuves Classantes Nationales présente le défaut de générer une distribution des notes en plateau et possède donc un faible pouvoir discriminant. Ainsi, la majorité des étudiants sont classés dans une zone où une différence de 1 point sur 900 entraîne un changement de 20 places dans le classement final. Il en résulte un nombre important d’ex-aequo qui sont séparé d’une manière souvent jugée aléatoire (note au 1er dossier puis âge du candidat)9. Un des avantages théoriques de l’épreuve de lecture critique d’article serrait de permettre un classement plus efficace des étudiants. Néanmoins, la dispersion des notes à l’épreuve de Lecture Critique d’Article observée dans notre étude n’a pas été supérieure à celle des cas cliniques les plus discriminants. Cependant, il est possible que, lors de la correction de cette épreuve nouvelle, des notes légèrement inférieures à la moyenne aient été rehaussées. Par ailleurs, il est probable que les compétences évaluées par ces deux types d’épreuves soient complémentaires : connaissances théoriques et capacité d’utilisation des acquis pour les cas cliniques contre capacité à l’autoformation et à l’analyse pour la Lecture Critique d’Article. L’utilisation conjointe de cas cliniques et de la lecture critique d’article dans le cadre de l’ECN pourrait donc permettre d’élargir la base des compétences évaluées chez les étudiants et donc d’améliorer le pouvoir discriminant de cette épreuve. Dans notre étude, les notes des étudiants à l’épreuve de Lecture Critique d’Article ont été inférieures à celles qu’ils ont obtenues lors des autres évaluations. Cependant, l’examen sur lequel notre analyse a porté était la première épreuve de ce type rencontrée par ces étudiants et d’autres auteurs ont précédemment rapporté que le niveau des étudiants à l’épreuve de Lecture Critique d’Article s’améliore avec la répétition des épreuves5. De plus, il est possible que le climat d’incertitude dans lequel les étudiants ont été placés lors de la préparation de cette épreuve (maintien ou non aux Epreuves Classantes Nationales) ait conduit certains d’entre eux à réduire leur degré de préparation à l’épreuve. Le cœur du débat sur l’intégration de la Lecture Critique d’Article aux Epreuves Classantes Nationales porte sur 11 la reproductibilité de la correction de cette épreuve. Ce paramètre a été analysé dans plusieurs publications grâce a un système de double correction des copies. Néanmoins, ces études ont conduit à des conclusions contradictoires, certaines concluant à une faible reproductibilité de cette épreuve3-4 alors que d’autres l’ont jugé satisfaisante5. Mais, s’il peut exister des variations quantitatives dans l’évaluation des copies de Lecture critique d’Article en fonction des correcteurs, le classement des étudiants par cette épreuve parait reproductible4. Plusieurs facteurs influençant la concordance des corrections ont pu être identifiés : nature et précision de l’énoncé des questions3-5, utilisation d’une grille de corrections3 et niveau de détail de la grille de corrections4. La reproductibilité de cette épreuve parait être plus étroite pour les questions que pour la rédaction du résumé3,5. De manière similaire, nous avons observé que la corrélation des notes pour l’épreuve du résumé avec celles obtenues aux questions ou aux autres modules est faible, ce qui confirme le caractère très spécifique de l’évaluation des étudiants par la rédaction d’un résumé structuré. La préparation des enseignants en charge de l’enseignement et de la correction de l’épreuve de Lecture Critique d’Article pourrait être également un facteur pouvant influencer la reproductibilité des corrections3. Ceci souligne la nécessité d’identifier au sein de chaque faculté les enseignants responsable de cette formation afin de favoriser l’homogénéisation de cet enseignement à l’échelle nationale. La création d’une collégiale des enseignants de Lecture Critique d’Article annoncée récemment va dans ce sens. Les risques d’erreur lors de l’application de l’épreuve de Lecture Critique d’Article dans le cadre des Epreuves Classantes Nationales seront limités par le système de double correction et de contrôle systématique en cas de divergence supérieure à 10 points mis en place dans le cadre de cette épreuve. Ainsi, dans l’étude de François et collaborateurs5, ce contrôle n’aurait été nécessaire que pour moins de 10 % des copies. Notre étude présente un certain nombre de limitations. En particulier, l’analyse n’a été effectuée que sur une année et pour une épreuve unique, ce qui limite la portée de l’analyse statistique. Par ailleurs, il est possible que le choix de l’article ait conditionné une partie des résultats. Néanmoins, ce travail ouvre des perspectives pour une véritable analyse de l’évaluation des étudiants par la lecture critique d’article. Nous poursuivrons l’étude des résultats de cette promotion d’étudiants lors des examens de DCEM3 en 2007-2008 puis lors des Epreuves Classantes Nationales en 2008-2009, en nous intéressant tout particulièrement à 12 la progression du niveau des étudiants. Nous évaluerons également la reproductibilité de la correction de cette épreuve au sein de notre faculté par une double correction des copies de DCEM2. V- Conclusions : Les notes obtenues en 2007 par les étudiants de DCEM 2 de la faculté de médecine de Créteil lors de l’épreuve de lecture critique d’article présentent une corrélation statistiquement significative avec les autres évaluations réalisées la même année. Néanmoins, la force de cette relation est moindre que celle existant entre deux évaluations différentes de type cas clinique, ce qui suggère que l’épreuve de Lecture Critique d’Article pourrait explorer des qualités et des compétences différentes des modes d’évaluation plus traditionnels. Remerciement Je remercie le Pr Sylvie Bastuji-Garin pour son rôle scientifique et méthodologique lors de la conception de cette étude ainsi que pour l’analyse statistique, le Pr Pascal Claudepierre pour ses conseils scientifiques ainsi que Mme Villemon pour le recueil des données. 13 Références : 1. http://www.legifrance.gouv.fr/WAspad/Ajour?nor=MENS0302822D&num=200467&ind= 1&laPage=1&demande=ajour. Décret n°2004-67 du 16 janvier 2004, relatif à l'organisation du troisième cycle des études médicales 2. Czernichow P, Fillastre JP, Lavoinne A, Lemeland JF, Roussel F. Facteurs liés à la concordance des corrections d’une épreuve de lecture critique d’article. Pédagogie médicale. 2006;7:82-90. 3. Roussel F, Czernichow P, Lavoinne A, Lemeland JF, Fillastre JP. Reproductibilité de la correction d’une épreuve de lecture critique d’article : évaluation par une étude pilote chez 59 étudiants en médecine. Pédagogie médicale. 2005;6:71-78. 4. Louis-Sylvestre C, Furhman C, Housset B. Difficultés de correction d’une épreuve d’analyse critique d’article scientifique : une étude exploratoire. Pédagogie médicale. 2005;6:138-146. 5. François P, Boyer L, Nuiry L, Labarère J. Fiabilité et validité d’une épreuve de lecture critique d’articles médicaux scientifiques. Presse Med. 2007;36:575-581. 6. Audet N, Leclere H. Les habiletés requises pour la lecture critique en médecine : un cadre de référence issu d’une recension des écrits. Pédagogie médicale. 2001;2:206212. 7. http://www.enseignementsup-recherche.gouv.fr/rapport/rapportfagniez.pdf 8. Gattusi C, L’épreuve de lecture critique d’article : un compromis trouvé pour 2009. Le quotidien du médecin. 8215, 5, 2007. 9. Quinton A. Rapport intitulé : 2005 : Odyssée des E.C.N, Université de Bordeaux 2 Victor Segalen, Centre de Recherches Appliquées aux Méthodes Educatives. 14 ANNEXE I : Article soumis aux étudiants Se référer au fichier pdf joint 15 ANNEXE II : Questions et instructions aux étudiants DCEM2 Juin 2007 (Durée de l’épreuve : 3 heures) Effet du budésonide associé au formotérol en traitement de la crise sur les exacerbations d’asthme : étude randomisée, contrôlée, en double aveugle. 8 Questions sur 100 points indivisibles 9ème question est le résumé sur 50 points indivisibles 1. Les auteurs se sont-ils donnés les moyens d’obtenir des groupes comparables ? Si oui précisez les moyens utilisés. 2. Un placebo a-t-il été utilisé dans cette étude ? Justifiez les choix faits par les auteurs. 3. Quel était le critère principal de jugement ? Pourquoi les auteurs ont-ils choisi un critère unique ? 4. Quelles sont les populations choisies pour analyser l’efficacité et la tolérance ? Pourquoi ne sont-elles pas identiques ? 5. Dans le tableau 1, comparant les caractéristiques initiales des patients, aucun test statistique n’a été réalisé, qu’en pensez-vous ? Justifiez votre réponse. 6. Commentez la figure 2. 7. La réduction de risque de crise observée avec l’association budésonide-formoterol en cas de crise versus formoterol (27%) est-elle supérieure à la réduction observée par rapport à la Terbutaline (45%) ? 8. Quel est le niveau de preuve de cet article ? Justifiez votre réponse ? 9. Rédigez un résumé de cet article en moins de 250 mots. Indiquer le nombre de mots de votre résumé. Les mots inscrits après le 250ème ne seront pas pris en compte même s’ils comportent des mots clés. Le résumé est noté sur 50 points, une pénalité proportionnelle au dépassement sera appliquée, pour cette année : [10 à 20 mots] : -5pts, [20-50] : -10 pts, > 50 mots : -15 points. Par convention pour cette épreuve : L’ = Le = 1 mot. OR = 1 mot. Les valeurs comprises dans l’intervalle de confiance compteront pour un mot, de même que le degré de signification (p=0.05). Rédigez votre résumé dans la grille ci-dessous afin de faciliter le compte des mots, en indiquant le nombre de mots à gauche à la fin de chaque grand chapitre. En fin de résumé, indiquez le nombre total de mots. 16 ANNEXE III : Exemple type de correction fournie aux enseignants Epreuve de Lecture Critique DCEM2 Juin 2007 (Durée de l’épreuve : 3 heures) Effet du budésonide associé au formotérol en traitement de la crise sur les exacerbations d’asthme : étude randomisée, contrôlée, en double aveugle. 8 questions sur 100 points indivisibles 9ème question est le résumé sur 50 points indivisibles 1. Les auteurs se sont-ils donnés les moyens d’obtenir des groupes comparables ? Si oui précisez les moyens utilisés. Oui, la randomisation en trois groupes devait permettre d’avoir 3 groupes dont les caractéristiques initiales seraient similaires (randomisation = comparabilité initiale). Le double aveugle devait permettre de maintenir cette comparabilité en cours d’étude, les 3 produits étudiés avaient un conditionnement ne permettant pas de les différencier. 2. Un placebo a-t-il été utilisé dans cette étude ? Justifiez le choix fait par les auteurs. Aucun placebo n’a été utilisé car il serait non éthique de recourir à un principe à priori inactif pour traiter une crise d’asthme. (L’utilisation d’un conditionnement identique a permis de rendre les produits étudiés comparables. On peut se demander cependant si le goût était similaire.) 3. Quel était le critère principal de jugement ? Pourquoi les auteurs ont-ils choisi un critère unique ? Le critère principal de jugement était le délai de survenue de la première exacerbation sévère. Il est préférable (indispensable) de ne choisir qu’un seul critère principal car c’est lui qui permettra de juger des résultats de l’étude. Par ailleurs, c’est ce critère principal qui permet de déterminer la taille de l’échantillon. 4. Quelles sont les populations choisies pour analyser l’efficacité et la tolérance ? Pourquoi ne sont-elles pas identiques ? - La population choisie pour évaluer l’efficacité comporte tous les patients pour lesquels des données ont été enregistrées après la randomisation. Analyse proche de l’ITT - Pour évaluer la tolérance, il s’agit de la même population mais restreinte à ceux qui ont reçu au moins une dose du traitement alloué. Analyse per protocole - Ces stratégies sont habituelles car l’efficacité se juge selon le traitement alloué que le patient l’ait reçu ou non, et pour juger des effets secondaires il faut considérer les patients qui ont au moins reçu une dose pour des raisons d’imputabilité. 5. Dans le tableau 1 comparant les caractéristiques initiales des patients aucun test statistique n’a été réalisé, qu’en pensez-vous ? Justifiez votre réponse. Les patients ayant été randomisés entre les groupes on ne s’attend pas à observer de différence entre les groupes, il est logique qu’aucun test n’ait été réalisé. La multiplication des tests statistiques pourrait conduire à observer des différences qui ne sont liées qu’au nombre de tests réalisés. La comparabilité initiale se juge en regardant si des caractéristiques semblent différentes entre les groupes et si elles vont dans le même sens (défaveur d’un des groupes), si tel est le cas on peut être amené à ajuster l’analyse principale sur ces critères. 17 6. Commentez la figure 2. La figure montre le délai entre la randomisation et la survenue de la première exacerbation sévère de l’asthme, il est significativement plus important pour le bras budésonide-formotérol à la demande par rapport au bras formotérol à la demande (p=0.0048) (critère principal), mais également par rapport au bras terbutaline à la demande (p<0.0001). De même il est significativement plus long pour le bras formotérol à la demande versus terbutaline (p=0.0051). 7. La réduction de risque de crise observée avec l’association budésonide-formotérol en cas de crise versus formotérol (27%) est-elle supérieure à la réduction observée par rapport à la Terbutaline (45%). Non la réduction de risque observée n’est pas significativement différente car les IC des réductions de risque se chevauchent (ou car les IC des RR se chevauchent table 2). 8. Quel est le niveau de preuve de cet article ? Justifiez votre réponse. Etude de niveau 1 (ou plus haut niveau). Etude randomisée bien conduite avec une bonne puissance 9. Rédiger un résumé de cet article en moins de 250 mots. Indiquer le nombre de mots de votre résumé. Le bénéfice des modalités du traitement de la crise d’asthme associé au traitement de fond par budésonide-formotérol est mal connu. L’objectif de cette étude était de comparer l’efficacité de 3 traitements de la crise : budésonide-formotérol, formotérol et terbutaline. Méthode. Un essai multicentrique randomisé en double aveugle sur 3 groupes parallèles a été réalisé dans 20 pays. 3394 patients âgés d’au moins 12 ans sous traitement de fond par budesonide-formotérol ont été randomisés pour recevoir pendant en cas de crise un an: budésonide-foromtérol 200/6μg (n=1113), formotérol 6μg (n=1140) ou terbutaline 0.5mg (n=1141). Le critère principal de jugement était le délai de survenue de la première exacerbation sévère nécessitant une visite aux urgences, une hospitalisation ou une corticothérapie orale de 3 jours. L’analyse a été réalisée en intention de traiter. Résultats. Le délai de survenue de la première exacerbation sévère était allongé avec l’association budésonide-formotérol versus formotérol (p=0.0048) ou terbutaline (p<0.0001) et formotérol versus terbutaline (p=0.0051). L’association budésonide-formotérol réduisait le risque d’exacerbation sévère de 27% (IC95% 10-41%) versus formotérol et de 45% versus terbutaline. La réduction de risque formotérol versus terbutaline était de 24% (8-37%). Le taux annuel d’exacerbations sévères était réduit de 33% pour l’association budésonideformotérol versus formotérol (20-44% p<0.0001), de 48% versus terbutaline (3856%p<0.0001) et de 22% pour le formotérol versus terbutaline (9-33%, p=0.0012). Tous les traitements ont été bien tolérés. Conclusion. Comparativement à la terbutaline, le formotérol à la demande diminue les exacerbations sévères, la prise à la demande de l’association budésonide-formotérol accroît cet effet protecteur. 18 ANNEXE IV : Grille de correction de l’épreuve de questions fournie aux correcteurs Q1 1 Comparabilité 2 Oui Randomisation : comparabilité initiale 4 Double aveugle : comparabilité pdt étude 4 Conditionnement identique des produits 2 12 Q2 Placebo Aucun placebo 5 Non éthique 5 10 Q3 Critère principal ère Délais survenue 1 crise sévère 4 Un seul critère pour juger des résultats 4 Et pour estimer le nb de sujets 4 12 Q4 Populations Randomisation + données enregistrées ou ITT 3 Population ayant reçu ≥ 1 dose ou PP 3 Efficacité du tt se juge sur patients devant le 3 Tolérance il faut que les patients en aient recu 3 12 Q5 Tableau I Randomisation= attend pas de différence 5 Normal de pas faire de tests 5 Multiplication des tests : différences qui 2 12 Q6 Figure 2 Délai random-crise significativement + grd 6 Idem vs terbut (faut significatif ou le p) 4 Significativement + long pour formet vs terbu 4 Si différence signif sans préciser le sens =0 14 Q7 Réduction de risque Non IC des réductions de risque (ou des RR se 2 8 10 Q8 Preuve Niveau 1 ou le plus haut niveau 4 Randomisée, bonne puissance, bien conduite 4 8 Réserve Qualité de rédaction Pas d’erreurs 5 5 10 TOTAL 19 100 2 3 4 5 6 7 8 9 10 ANNEXE IV : Grille de correction du résumé fournie aux correcteurs Introduction Modalité tt crise + budésonide-formt mal connu Objectif comparer les 3 tt Méthode Multicentrique Randomisé Double aveugle Groupes parallèles âges Tt fond budésonide-formoterol Un an budésonide-formoterol et dose Formoterol et dose Terbutaline et dose Bupropion LP et dose Mot « critère principal de jugement» Critère princip : délai de 1ère exacerbation sévère Définition du critère Effectifs (ou dans résultats) Analyse en ITT Résultats Délai budesonide-formoter vs formoter et p Vs terbutaline et p Formoterol vs terbutaline et p Réduction risque bud-formoter vs formoter 27% Réduction risque bud-formoter vs terbut 45% Réduction risque formoter vs terbut 24% Les IC des réductions de risque Taux annuel bud-formoter vs formoter 33% Taux annuel bud-formoter vs terbut 48% Taux annuel formoter vs terbut 22% IC Taux annuels p Taux annuels tolérance Conclusion Formot a la demande diminue exacerbation / l’association budés-formotaccroît a la demande TOTAL RESERVE Nb de mots indiqué [260- 270] mots ]270-300] mots > 300 mots 20 1 1 2 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 16 2 2 2 1 1 1 1 1 1 1 1 1 2 17 2 2 4 40 1 -5 -10 -15 2 3 4 5 6 7 8 9 10 Tous les § clairement présents Têtes de § Qualité rédaction Qualité présentation Absence d‘erreurs en plus 20 pays TOTAL 21 1 1 0-2 0-2 2 1 10 100