Mauvais emploi des statistiques en pharmacologie expérimentale
Transcription
Mauvais emploi des statistiques en pharmacologie expérimentale
→ Pharmazie und Medizin · Pharmacie et médecine Posters primés lors du 7. Swiss Pharma Science Day 11 Mauvais emploi des statistiques en pharmacologie expérimentale Sa ra Sa d o za i-Sla m a 1 , R o m ai n- D an ie l G o s s e l in 1 Dans cette étude, les auteurs ont quantifié les SEM (sommes des écarts à la moyenne) pour monarticles qui ne respectaient pas les consignes trer la variabilité (72%), des valeurs p imprécises statistiques parus dans six journaux en pharma- (86%), des barres d’erreurs inconnues (20%) et une cologie en 2014. Les résultats montrent que les absence de paragraphe statistique (2%). pharmacologistes expérimentaux utilisent mal De plus, le respect des consignes n’était pas les biostatistiques et suggèrent une fréquence corrélé à l’impact factor (R2 TOTAL = 0.02; R2 DESIGN/ élevée de résultats faux positifs et faux néga- ANALYSE = 0.03; R2 PRESENTATION = 0.00). Ces résultats montrent que les pharmacologistes expérimentaux tifs dans les publications. utilisent mal les biostatistiques et suggèrent une fréLes biostatistiques sont indissociables des sciences quence élevée de résultats faux positifs et faux négade la vie. Leur bon usage réduit les faux positifs et tifs dans les publications. faux négatifs et assure la reproductibilité expérimentale. Pourtant, les biologistes comprennent et uti- Méthodes lisent mal les concepts de base en biostatistiques, d’où une inquiétude croissante sur la reproductibilité Six journaux ont été inclus: Neuropsychopharmacodes données. Dans cette étude, les auteurs ont quan- logy, British Journal of Pharmacology, Biochemical tifié les articles qui ne respectaient pas les consignes Pharmacology, Neuropharmacology, BMC Pharmastatistiques dans six périodiques en pharmacologie cology and Toxicology et European Journal of Pharmacology. Leurs archives ont été scannées et les 9 parus en 2014. Il apparaît que des designs/analyses erronés sont à 10 articles les plus récents ont été téléchargés fréquents, dont la non mention des limites d’inter- (1er avril 2014). valles de confiance 95% (i.e. seule mention des va- Les critères d’inclusion étaient: leurs p) pour conclure (98% des articles), une faible → Articles, lettres ou communications courtes déjà publiés (exclusion quand sous presse ou puissance ou une taille d’échantillon inconnue (73%), épreuves non encore corrigées); des violations des prérequis paramétriques (86%) et une absence de correction pour comparaisons mul- → Au moins une figure ou tableau avec une quantification; tiples (23%). D’autres erreurs incluent l’usage de Romain-Daniel Gosselin, de Biotelligences LLC, a reçu le Prix spécial lors du dernier Swiss Pharma Science Day pour son poster «Misuse of Statistics in Experimental Pharmacology – An Evaluation of Six Journals». Cet Award était sponsorisé par Vifor Pharma Fribourg. ) 86 (49 (71 –9 –1 5) 00 00 –1 (61 7) ) 19 (11 –2 30 (8– 19 –2 (14 5) 21 (9– 20 8) ) 31 ) 30 0– 20 2( 40 (4– 24 60 17 (6– 42 45 ) 80 (27 –6 3) 72 98 83 (94 9) –8 (57 100 73 % d’articles avec erreurs 120 –1 00 ) ) Figure1: Pourcentages d’erreurs en fonction des différents critères Fai ble ou pui n i ssa n c n ce on ra i M u nu son lti s n ples o n co co m p rrig aée s N lim on i te u s s d ag es e d CI 95 es re q N o % uis n r pa esp ra m e c é t r t p ré iqu es de sta Abs tis enc tiq e Pa ue sd s ep a ra s t a gra tis phe tiq ue S. E .M var . po iab ur ilit é Ba r re sd ’ inc err on eu nu r Pa es sd ev ale ex urs p ac t es Tes ts Po i n c s t- H on oc nu s Tes ts pe uc lai Pa rs sd ed esc de riptio Alp n Pa ha sd ed esc du ript log ion icie l 0 En rouge, les erreurs de design et d’analyse. En bleu, les erreurs de présentation des données ou de déclaration. Représentation en moyenne ± intervalle de confiance (C.I.) 95%. Taille d’échantillon: 6 dans toutes les séries. pharmaJournal 23 | 11.2014 1 Biotelligences LLC → Pharmazie und Medizin · Pharmacie et médecine → Approche expérimentale sur animal, ou cellules humaines, in vitro/ex vivo ou in silico (les articles cliniques ou épidémiologiques ont donc été exclus); → Figures supplémentaires non analysées; → Les méthodes supplémentaires ont été analysées. Les critères d’évaluation ont été adaptés de CurranEverett and Benos D. J. 2004 J. Neurophysiol et Bailar J. C., Mosteller F. 1988 Ann Int Med. Chaque critère a été scoré 0 (respect du critère dans toutes les figures et tableaux) ou 1 (erreur détectée dans au moins une figure ou tableau). Les analyses n’ont pas été réalisées en aveugle vis-à-vis de l’identité des auteurs ou de leur affiliation. 12 Résultats et conclusions Les consignes statistiques ne sont pas respectées et les erreurs sont fréquentes en pharmacologie expérimentale. Les faibles puissances, multiples comparaisons non corrigées et l’usage inapproprié de tests paramétriques suggèrent l’existence de fréquents faux négatifs et faux positifs. De plus, une mauvaise présentation (tests mal décrits, tests, inconnus, mauvaises barres d’erreur, valeurs p exactes non données, tests post-hoc* inconnus ou même absence de paragraphe statistique) empêche la vérification des données et compromet la reproductibilité. Des mesures simples peuvent être immédiatement prises pour améliorer la prise de conscience et la compréhension des concepts basiques en biostatistiques chez les chercheurs tels que: → L’importance de la puissance; → Les mises en garde sur les comparaisons multiples; → Les grandes limites des valeurs p; → Et les différences entre les barres d’erreurs. Les éditeurs des journaux scientifiques devraient plus activement s’impliquer pour améliorer la qualité statistique des publications. ❚ * Permet de comparer des groupes sans qu'une hypothèse sur la relation entre ces groupes ait été posée avant d'examiner les données. Adresse de correspondance Romain-Daniel Gosselin E-Mail: [email protected] Posterpreise vom 7. Swiss Pharma Science Day Unkorrekte Statistiken in der experimentellen Pharmakologie S ara Sa do za i-S l am a 1 , R o m ain - D an ie l Go s s e lin 1 Romain-Daniel Gosselin, Biotelligences LLC, hat am diesjährigen Swiss Pharma Science Day für sein Poster «Misuse of Statistics in Experimental Pharmacology – An Evaluation of Six Journals» den Spezialpreis erhalten. Vifor Pharma Fribourg sponserte diesen Award. pharmaJournal 23 | 11.2014 In dieser Studie quantifizierten die Autoren in Limiten des Konfidenzintervalls 95% (z. B. nur sechs Pharmakologie-Zeitschriften die Artikel, p-Werte) in der Konklusion (98% der Artikel), gerindie die 2014 publizierten statistischen Richt- ge Aussagekraft, unbekannte Grösse der Proben linien nicht einhielten. Die Untersuchungen (73%) oder der Umgehungen der vorgegebenen Pazeigen, dass die experimentellen Pharmako- rameter (86%) und eine fehlende Korrektur für mullogen Biostatistiken falsch anwenden und da- tiple Vergleiche (23%). Weitere Fehlerquellen umfasdurch eine hohe Frequenz falsch positiver und sen die Verwendung der MSE (mittlere quadratische falsch negativer Resultate in den Publikationen Abweichung) zum Illustrieren der Variabilität (72%), generieren. ungenaue p-Werte (86%), unbekannte Fehlerbalken (20%) und das Fehlen eines Statistikparagraphen Biostatistiken sind in den Life Sciences essentiell. (2%). Ihre korrekte Anwendung merzt falsch positive und Zudem korrelierte das Einhalten der Richtlinien falsch negative Resultate aus und garantiert die ex- nicht mit dem Impact Factor (R2 TOTAL = 0.02; perimentelle Reproduzierbarkeit. Dennoch verste- R2 DESIGN/ANALYSE = 0.03; R2 PRÄSENTATION = 0.00). Die hen und verwenden die Biologen die Grundkonzep- Resultate zeigen, dass experimentelle Pharmakolote der Biostatistik nur in ungenügender Weise, was gen die Biostatistik schlecht beherrschen, was sich in zu einer wachsenden Besorgnis über die Reprodu- den Publikationen in einer hohen Frequenz falsch zierbarkeit der Resultate führt. In dieser Studie quan- positiver und falsch negativer Resultate niedertifizierten die Autoren in sechs 2014 erschienenen schlägt. pharmakologischen Periodika die Artikel, die die statistischen Richtlinien nicht respektierten. Es zeigt sich, dass falsche Designs und Analysen häufig sind, darunter fehlende Erwähnungen der 1 Biotelligences LLC → Pharmazie und Medizin · Pharmacie et médecine Methoden Es wurden sechs Journale untersucht: Neuropsychopharmacology, British Journal of Pharmacology, Biochemical Pharmacology, Neuropharmacology, BMC Pharmacology and Toxicology und European Journal of Pharmacology. Deren Archive wurden gescannt und die neun bis zehn neusten Artikel heruntergeladen (Stichdatum: 1. April 2014). Einschlusskriterien: → bereits publizierte Artikel, Briefe oder Kurzmitteilungen (Ausschluss, wenn im Druck oder Druckfahnen noch nicht korrigiert) → mindestens eine Abbildung oder Tabelle mit einer Quantifizierung → experimentelles Vorgehen am Tier oder an menschlichen Zellen, in vitro/ex vivo oder in silico (klinische und epidemiologische Artikel wurden ausgeschlossen) → zusätzliche nicht analysierte Abbildungen → Analyse zusätzlicher Methoden Die Evaluationskriterien wurden adaptiert nach Curran-Everett and Benos D. J. 2004 J. Neurophysiol und Bailar J. C., Mosteller F. 1988 Ann Int Med. Jedes Kriterium wurde gescort mit 0 (Kriterium in allen Abbildungen und Tabellen berücksichtigt) oder 1 (Fehler in mindestens einer Abbildung oder Tabelle). Die Analysen wurden punkto Identität der Autoren und deren Verbindungen unverblindet durchgeführt. wendung parametrischer Tests führen zu einem häufigen Vorkommen falsch positiver und falsch negativer Resultate. Zudem verhindert eine schlechte Präsentation (ungenügend beschriebene Untersuchungen, unbekannte Tests, inadäquate Fehlerbalken, nicht angegebene genaue p-Werte, unbekannte post-hoc-Tests* oder sogar fehlende statistische Paragraphen) die Verifikation der Daten und kompromittiert deren Reproduzierbarkeit. Einfache Massnahmen zur Verbesserung der Bewusstwerdung über und des Verständnisses für die Basiskonzepte der Biostatistik bei den Forschern können sofort ergriffen werden: → Betonung der Bedeutung der Aussagekraft → Warnung vor multiplen Vergleichen → Hinweis auf die starken Limitierungen durch die p-Werte → Erklärungen zu den Unterschieden zwischen den Fehlerbalken Die Herausgeber wissenschaftlicher Journale sollten sich aktiver an der Verbesserung der statistischen Qualität ihrer Publikationen beteiligen. ❚ * Erlaubt einen Vergleich von Gruppen, ohne dass vor der Datenanalyse eine Hypothese über die Beziehung zwischen diesen Gruppen aufgestellt worden ist. Resultate und Konklusionen Die statistischen Richtlinien werden nicht respektiert; in der experimentellen Pharmakologie sind Fehler häufig. Eine geringe Aussagekraft, nicht korrigierte multiple Vergleiche und eine inadäquate Ver- Korrespondenzadresse Romain-Daniel Gosselin E-Mail: [email protected] ) 86 (49 (71 –9 –1 5) 00 00 –1 (61 7) (11 –2 ) 19 30 (8– 19 –2 (14 0– 5) 21 (9– 20 8) ) 31 ) 30 ge rin o d g e Au er n u ssag nb ek r ek af t an nt ke ine mu Ve ltip rg l l e eic n he ke in CI9 N ic 5% hte i ge nh be alt ne en r P vo a ra rg me e fe h te r len de St an atisti g a kbe n oh ne Sta Pa tis ra g t i k ra p h 0 2( 20 Va MSE ria bil für itä t Feh ler un ba be lke ka n nn t ke in ge n p -Wauer er t po s th un ocbe Te k a st nn t un k la re Tes ts oh n De e Al k la ph rat a ion oh ne So ft A n w a re ga be 40 (4– 24 60 17 (6– 42 45 ) 80 (27 –6 3) 72 98 83 (94 9) –8 (57 100 73 % Artikel mit Fehler 120 –1 00 ) ) Abbildung 1: Artikel mit Fehler in Funktion der verschiedenen Kriterien in % Rot: Fehler im Design und in der Analyse. Blau: Fehler in der Präsentation der Daten oder der Deklaration Darstellung als Mittelwert ± Konfidenzintervall CI95% (der reelle Mittelwert mit 95% Chancen, innerhalb dieses Intervalls zu liegen). Probengrösse: 8 in der ganzen Serie pharmaJournal 23 | 11.2014 13