Présentation - Patient Numérique
Transcription
Présentation - Patient Numérique
23/10/2011 La sémantique au secours de l'information médicale Patrick Watrin CENTAL & Knowbel Technologies [email protected] 1 23/10/2011 Plan 1. Introduction – Contexte scientifique – Extraction d’information d information 2. Annotations à base d’ontologies – Détecter les effets secondaires non documentés de médicaments 3. Annotations à base de graphes Patient numérique & Informatique nomade 2 23/10/2011 1. Introduction : Contexte scientifique • Centre de traitement automatique du langage (Cental) – Spécialisé dans : les technologies liées au traitement du langage (synthèse vocale, correction orthographique, gestion d’information, …) • Knowbel Technologies – Get Knowledge out of Information! – Sépacialisé dans : ll’identification identification, l’extraction l extraction et la structuration d’information – Spin-Off du Cental • Stanford Center for Biomedical Informatics Research – Spécialisé dans : les systèmes à base de connaissances, connaissances conception et utilisation de terminologies et ontologies, les technologies pour le Web Semantique Patient numérique & Informatique nomade 3 23/10/2011 1. Introduction : Extraction d’information • Le mot : identifier des unités de sens –U Unités ité lexicales l i l complexes l – Entités spécifiques du domaine (personnes, entreprises, dates, maladies, …) • La phrase : identifier des liens sémantiques – Relations : liens entre deux entités – Evènement : ensemble cohérent de relations • Le texte : indentifier des objets similaires – Rassemblement dd’entités entités (Barak Obama Obama, B. B Obama, Obama Obama) – Rassemblement d’évènements (saturation) Patient numérique & Informatique nomade 4 23/10/2011 1. Introduction : Extraction d’information Patient numérique & Informatique nomade 5 23/10/2011 1. Introduction : Extraction d’information Patient numérique & Informatique nomade 6 23/10/2011 1. Introduction : Extraction d’information Patient numérique & Informatique nomade 7 23/10/2011 2. Annotations à base d’ontologies « Annotation Analysis for Testing Drug Safety Signals » Paea LePendu, Stephen Racunas, Srinivasan Iyer, Yi Liu, Cedrick Fairon, Nigam Shah Patient numérique & Informatique nomade 8 23/10/2011 Exemple : Vioxx • Médicament (Rofécoxib) pour traiter arthrose et polyarthrite rhumatoïde • Retiré du marché parce qu’il « augmente le risque » d’infarctus • FDA estime à plus de 27500 le nombre de victimes • A rapporté à Mecks 2,5 Milliards de dollars… – Question : aurait-on pu détecter des signaux plus tôt ? Patient numérique & Informatique nomade 9 23/10/2011 Generation de données étiquetées Text clinical note BioPortal – knowledge g g graph p Creating clean lexicons Term – 1 : : : Term – n Frequency Diseases Procedures Syntactic types Term recognition tool NCBO Annotator Annotation Workflow NegEx Patterns Drugs P1 ICD9 P1 T1, T2, no T4 ICD9 … T5, T4, T3 … ICD9 ICD9 T4, T3, T1 T8, T9, T4 … ICD9 ICD9 T6, T8, T10 T1, T2, no T4 NegEx Rules – Negation detection P2 P2 Negation detection P3 Cohort off Interrest Furtheer Analysis Terms Recognized P3 : : Pn Pn Terms form a temporal series of tags Patient numérique & Informatique nomade 10 23/10/2011 Adverse drug events ROR of 2.058, CI of [1.804, 2.349] PRR of 1.828, CI of [1.645, 2.032] The uncorrected X2 statistic has p‐value < 10‐7. ROR=1.524, CI=[0.872, 2.666] PRR=1.508, CI=[0.8768, 2.594] X2 p‐value=0.06816. 11 23/10/2011 Exemple : Vioxx Approche « Full text » Patients avec RA A t 2005 Avant 2005 MI Pas de MI Total Vioxx A=339 B=1221 1560 Pas de Vioxx C=1488 D=11031 12519 Total 1827 12252 14079 ROR of 2.058, CI of [1.804, 2.349] , [ , ] PRR of 1.828, CI of [1.645, 2.032] The uncorrected X2 statistic has p‐value < 10‐7. Uniquement avec les codes ICD9 Patients avec RA Avant 2005 MI Pas de MI Total Vioxx A=16 B=487 503 Pas de Vioxx C=61 D=2831 2892 Total 77 4089 3395 ROR=1.524, CI=[0.872, 2.666] PRR=1.508, CI=[0.8768, 2.594] X2 p‐value=0.06816. Séminaire du CENTAL 12 23/10/2011 Annotations à base de graphes Projet pour SSA Cental/Stanford Patient numérique & Informatique nomade 13 23/10/2011 Objectif • Projet pour la Social Security Administration – Déterminer Dét i sii un demandeur d d estt éligible éli ibl pour des d aides id liées à une invalidité – De très gros dossiers à étudier et à confronter à un système de règles complexe (SSA Blue Book: http://www.ssa.gov/disability/professionals/bluebook/) – Approche « machine learning » impossible, par manque de dossier Patient numérique & Informatique nomade 14 23/10/2011 Dossier du demandeur Hétérogène Formats multiples Patient numérique & Informatique nomade 15 23/10/2011 • VA2XML txt clean split wrap merge xml xslt Patient numérique & Informatique nomade 16 23/10/2011 txt VA2XML xml medic@ <text> CPT@ <procedure> ICD@ <diagnostic> <TEXT> wrap BMAR MERGE xml Stand-off Annotations parser Patient numérique & Informatique nomade 17 23/10/2011 Delaf Icd9cm Icd10 Snomed-disease Subs-Orange Drugs-Orange Drugs-rcd dic txt Preprocessing NegEx dic Annotation Unitex Script XMLz xml Perl Patient numérique & Informatique nomade 18 23/10/2011 Résultat de l’analyse (maladies) Ontologies Séminaire du CENTAL 19 23/10/2011 Résultat de l’analyse (signes vitaux) Patient numérique & Informatique nomade 20 23/10/2011 Ex.: Signes Vitaux 21 23/10/2011 Ex.: Signes Vitaux Patient numérique & Informatique nomade 22 23/10/2011 Conclusion • Accès à l’information est un enjeu pour la qualité des soins, la sécurité du patient et la recherche • Dossiers D i médicaux édi contiennent ti t bbeaucoup dde ttexte t libre • Rôle important du TAL & bases de connaissances Patient numérique & Informatique nomade 23