Présentation - Patient Numérique

Transcription

Présentation - Patient Numérique
23/10/2011
La sémantique au secours de l'information
médicale
Patrick Watrin
CENTAL & Knowbel Technologies
[email protected]
1
23/10/2011
Plan
1. Introduction
– Contexte scientifique
– Extraction d’information
d information
2. Annotations à base d’ontologies
–
Détecter les effets secondaires non documentés de médicaments
3. Annotations à base de graphes
Patient numérique & Informatique nomade
2
23/10/2011
1. Introduction : Contexte scientifique
• Centre de traitement automatique du langage (Cental)
– Spécialisé dans : les technologies liées au traitement du langage
(synthèse vocale, correction orthographique, gestion
d’information, …)
• Knowbel Technologies – Get Knowledge out of Information!
– Sépacialisé dans : ll’identification
identification, l’extraction
l extraction et la structuration
d’information
– Spin-Off du Cental
• Stanford Center for Biomedical Informatics Research
– Spécialisé dans : les systèmes à base de connaissances,
connaissances
conception et utilisation de terminologies et ontologies, les
technologies pour le Web Semantique
Patient numérique & Informatique nomade
3
23/10/2011
1. Introduction : Extraction d’information
• Le mot : identifier des unités de sens
–U
Unités
ité lexicales
l i l complexes
l
– Entités spécifiques du domaine (personnes, entreprises, dates,
maladies, …)
• La phrase : identifier des liens sémantiques
– Relations : liens entre deux entités
– Evènement : ensemble cohérent de relations
• Le texte : indentifier des objets similaires
– Rassemblement dd’entités
entités (Barak Obama
Obama, B.
B Obama,
Obama Obama)
– Rassemblement d’évènements (saturation)
Patient numérique & Informatique nomade
4
23/10/2011
1. Introduction : Extraction d’information
Patient numérique & Informatique nomade
5
23/10/2011
1. Introduction : Extraction d’information
Patient numérique & Informatique nomade
6
23/10/2011
1. Introduction : Extraction d’information
Patient numérique & Informatique nomade
7
23/10/2011
2. Annotations à base d’ontologies
« Annotation Analysis for Testing
Drug Safety Signals »
Paea LePendu, Stephen Racunas,
Srinivasan Iyer, Yi Liu, Cedrick Fairon,
Nigam Shah
Patient numérique & Informatique nomade
8
23/10/2011
Exemple : Vioxx
• Médicament (Rofécoxib) pour
traiter arthrose et polyarthrite
rhumatoïde
• Retiré du marché parce qu’il
« augmente le risque » d’infarctus
• FDA estime à plus de 27500 le
nombre de victimes
• A rapporté à Mecks 2,5 Milliards
de dollars…
– Question : aurait-on pu détecter
des signaux plus tôt ?
Patient numérique & Informatique nomade
9
23/10/2011
Generation de données étiquetées
Text clinical note
BioPortal – knowledge
g g
graph
p
Creating clean lexicons
Term – 1
:
:
:
Term – n
Frequency
Diseases
Procedures
Syntactic types
Term recognition tool NCBO Annotator
Annotation Workflow
NegEx Patterns
Drugs
P1
ICD9
P1
T1, T2, no T4
ICD9
…
T5, T4, T3
…
ICD9
ICD9
T4, T3, T1
T8, T9, T4
…
ICD9
ICD9
T6, T8, T10
T1, T2, no T4
NegEx Rules – Negation detection
P2
P2
Negation detection
P3
Cohort
off
Interrest
Furtheer Analysis
Terms Recognized
P3
:
:
Pn
Pn
Terms form a temporal series of tags 
Patient numérique & Informatique nomade
10
23/10/2011
Adverse drug events
ROR of 2.058, CI of [1.804, 2.349]
PRR of 1.828, CI of [1.645, 2.032]
The uncorrected X2 statistic has p‐value < 10‐7.
ROR=1.524, CI=[0.872, 2.666] PRR=1.508, CI=[0.8768, 2.594]
X2 p‐value=0.06816. 11
23/10/2011
Exemple : Vioxx
Approche « Full text »
Patients avec RA
A t 2005
Avant 2005
MI
Pas de MI
Total
Vioxx
A=339
B=1221
1560
Pas de Vioxx
C=1488
D=11031
12519
Total
1827
12252
14079
ROR of 2.058, CI of [1.804, 2.349]
,
[
,
]
PRR of 1.828, CI of [1.645, 2.032]
The uncorrected X2 statistic has p‐value < 10‐7.
Uniquement avec les codes ICD9
Patients avec RA
Avant 2005
MI
Pas de MI
Total
Vioxx
A=16
B=487
503
Pas de Vioxx
C=61
D=2831
2892
Total
77
4089
3395
ROR=1.524, CI=[0.872, 2.666] PRR=1.508, CI=[0.8768, 2.594]
X2 p‐value=0.06816. Séminaire du CENTAL
12
23/10/2011
Annotations à base de graphes
Projet pour SSA
Cental/Stanford
Patient numérique & Informatique nomade
13
23/10/2011
Objectif
• Projet pour la Social Security Administration
– Déterminer
Dét i sii un demandeur
d
d estt éligible
éli ibl pour des
d aides
id
liées à une invalidité
– De très gros dossiers à étudier et à confronter à un
système de règles complexe (SSA Blue Book:
http://www.ssa.gov/disability/professionals/bluebook/)
– Approche « machine learning » impossible, par manque
de dossier
Patient numérique & Informatique nomade
14
23/10/2011
Dossier du demandeur
Hétérogène
Formats multiples
Patient numérique & Informatique nomade
15
23/10/2011
• VA2XML
txt
clean
split
wrap
merge
xml
xslt
Patient numérique & Informatique nomade
16
23/10/2011
txt
VA2XML
xml
medic@
<text>
CPT@
<procedure>
ICD@
<diagnostic>
<TEXT>
wrap
BMAR
MERGE
xml
Stand-off
Annotations
parser
Patient numérique & Informatique nomade
17
23/10/2011
Delaf
Icd9cm
Icd10
Snomed-disease
Subs-Orange
Drugs-Orange
Drugs-rcd
dic
txt
Preprocessing
NegEx
dic
Annotation
Unitex Script
XMLz
xml
Perl
Patient numérique & Informatique nomade
18
23/10/2011
Résultat de l’analyse (maladies)
Ontologies
Séminaire du CENTAL
19
23/10/2011
Résultat de l’analyse (signes vitaux)
Patient numérique & Informatique nomade
20
23/10/2011
Ex.: Signes Vitaux
21
23/10/2011
Ex.: Signes Vitaux
Patient numérique & Informatique nomade
22
23/10/2011
Conclusion
• Accès à l’information est un enjeu pour la qualité
des soins, la sécurité du patient et la recherche
• Dossiers
D i médicaux
édi
contiennent
ti
t bbeaucoup dde ttexte
t
libre
• Rôle important du TAL & bases de connaissances
Patient numérique & Informatique nomade
23

Documents pareils