Traitement de l`Information en Biologie Santé

Transcription

Traitement de l`Information en Biologie Santé
Traitement de l’Information en Biologie
Santé
Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes
Conseil de laboratoire
13 novembre 2008
Saint-Étienne-du-Rouvray
Effectifs (1)
Membres permanents : 10, 5
Saı̈d Abdeddaı̈m (MCU 27)
Joël Alexandre (CR CNRS 28)
Dominique Cellier (MCU 26)
Hélène Dauchel (MCU 64)
Stéfan J. Darmoni (PUPH 46–04)
Jean-François Gehanno (MCUPH 46–02, HDR)
Thierry Lecroq (PU 27)
Arnaud Lefebvre (MCU 27)
Martine Léonard (MCU 27)
Élise Prieur (MCU 27)
Alexandrina Rogozan (MCU 61) 50%
Thierry Lecroq
TIBS
2/34
Effectifs (2)
Doctorants : 6
Tayeb Merabti (2007)
Suzanne Pereira (2005, soutenance le 2 décembre 2008)
Saoussen Sakji (2007)
Mikaël Salson (2007)
Ahmed Diouf (2008)
Laetitia Rollin (2008)
Associés : 3
Badisse Dahamna (ingénieur)
Louis Sibert (professeur associé)
Benoı̂t Thirion (conservateur)
Thierry Lecroq
TIBS
3/34
Effectifs (3)
Stagiaire : 1
Émilie Teissier (Master Bioinformatique)
Thierry Lecroq
TIBS
4/34
Verrou scientifique
Rechercher, indexer et extraire des informations pertinentes
dans
des données biologiques (génomes et expression des génomes) ;
des systèmes d’information en santé (CISMeF, serveur
multiterminologies de santé, dossier électronique du patient).
Thierry Lecroq
TIBS
5/34
Angles d’attaque
Domaines de compétences
l’algorithmique du texte ;
la bioinformatique ;
la génomique ;
les statistiques ;
la recherche d’informations multiterminologiques ;
l’interopérabilité sémantique inter et intra terminologies.
Thierry Lecroq
TIBS
6/34
Perspectives
Outre la production de résultats fondamentaux, l’équipe a pour but
de développer des plateformes dédiées aux :
terminologies de santé ;
répétitions dans les séquences génomiques.
Thierry Lecroq
TIBS
7/34
Thèses (1)
Gestion de la Connaissance et Systèmes d’Information de
Santé
L. Soualmia (2004) : Recherche d’information implicite
A. Névéol (2006) : Indexation textuelle automatique
F. Florea (2007) : Indexation et recherche d’informations
combinées texte et image dans le catalogue de santé CISMeF
T. Merabti : Interopérabilité sémantique inter et intra
terminologies
S. Pereira : Indexation automatique multi-terminologique
S. Sakji : Recherche d’information multi-terminologique
A. Diouf : Recherche d’information multi-terminologique
L. Rollin : Qualité et diffusion des informations de santé
Thierry Lecroq
TIBS
8/34
Thèses (2)
Bioinformatique
A. Lefebvre (2003) : oracle des facteurs
R. Groult (2004) : répétitions en tandem avec évolution
J. Pelfrêne (2004) : extraction de mots approchés
N. Touyar (2006) : approximation de Poisson du nombre de
répétitions
C. Meslin (2007) : utilisation de la table des suffixes
É. Prieur (2007) : vecteurs de suffixes
M. Salson : structures de données compressées pour
l’indexation de textes
Thierry Lecroq
TIBS
9/34
Thierry Lecroq
TIBS
10/34
CISMeF
Catalogue et Index des Sites Médicaux Francophones
ensemble de ressources en santé de qualité (50% indexées
manuellement)
initialement basé sur le thésaurus MeSH (Medical Subject
Headings) + types de ressources et métatermes
migration vers un univers multi-terminologique
Thierry Lecroq
TIBS
11/34
Thierry Lecroq
TIBS
12/34
Mono → Multi - Terminologies
Univers mono­terminologique
Recherche d'information
implicite
L. Soualmia (2004)
Recherche d'information
multi­terminologique
S. Sakji
Les métatermes, types de
ressources et
métadonnées MeSH
encapsulés par
la terminologie CISMeF
Serveur multi­terminologique
CIM­10, CCAM, SNOMED, UMLS, ...
Indexation textuelle
automatique
A. Névéol (2006)
Indexation
Indexation automatique
automatique
multi­terminologique
*multiterminologique
S. Pereira
S. Pereira
Interopérabilité
sémantique
inter et intra terminologies
T. Merabti
Univers multi­terminologique
Thierry Lecroq
TIBS
13/34
SMTM
Thierry Lecroq
TIBS
14/34
Interopérabilité sémantique inter et intra terminologies
Code SNOMED CT
Relation SNOMED CT
UMLS
UMLS
Code SNOMED Int
Code SNOMED Int
Code CIM10
Code MeSH
Code SNOMED CT
Relation SNOMED CT
Code CIM10
Code MeSH
Tayeb Merabti, Stefan Darmoni, Thierry Lecroq + Michel Joubert
(LERTIM, Marseille)
Thierry Lecroq
TIBS
15/34
Vecteur des suffixes
0
a
1
a
2
t
a
3
t
4
t
$
t
5
a
6
t
7
t
8
t
9
a
10
t
11
t
12
a
13
$
racine (0,1),(2,1),(13,1)
13
att...
tt
$
0
t
3 2 (13,1)
2 2 (13,1)
12
tatt
a$
tatt
a
$
9
tatta$
0 1 2 3 4 5 6 7 8 9 10 11 12 13
a
a$
tt
3 4 (12,2)
2 4 (5,1)
11
tatta$
a$
$
6
10
tt
tatta$
a$
1
1
5
2
4
tatta$
3
1 (5,1)
7
6
5
4
6
6
6
6
(12,2)
(12,2)
(12,2)
(12,2)
8
a$
1
13 (2,2),(13,1)
7
Arbre compact des suffixes
Thierry Lecroq
Vecteur non compact des suffixes
TIBS
16/34
Vecteur des suffixes
0
a
1
a
2
t
3
t
4
t
5
a
6
t
7
t
8
t
9
a
10
t
racine (0,1),(2,1),(13,1)
11
t
0 1 2 3 4 5 6 7 8 9 10 11 12 13
2
3 2 (13,1)
2 2 (13,1)
1
1
1 (5,1)
7
6
5
4
13
$
racine (0,1),(2,1),(13,1)
0 1 2 3 4 5 6 7 8 9 10 11 12 13
3 4 (12,2)
2 4 (5,1)
12
a
6
6
6
6
(12,2)
(12,2)
(12,2)
(12,2)
13 (2,2),(13,1)
3 4 (12,2)
2 4 (5,1)
1
1
Vecteur non compact des suffixes
3 2 (13,1)
4
7 6 (12,2)
1 (5,1)
13 (2,2),(13,1)
Vecteur compact des suffixes
Élise Prieur et Thierry Lecroq
Thierry Lecroq
TIBS
17/34
BWT et table de suffixes dynamiques
0
C
1
T
LCP
0
1
2
0
0
1
0
2
C
SA
6
5
0
2
4
1
3
3
T
F
$
C
C
C
G
T
T
4
G
C
$
T
T
C
C
G
5
C
T
C
C
G
$
T
C
6
$
C
T
T
C
C
G
$
T
C
G
$
T
C
C
G
T
C
C
C
$
T
L
C
G
$
T
T
C
C
C
$
0
C
1
G
4
T
5
LF [i] = C[L[i]] + rankL[i] (L, i)
Mikaël Salson, Thierry Lecroq, Martine Léonard + Laurent Mouchard
(QuantIF, LITIS)
Thierry Lecroq
TIBS
18/34
Recherche de mots
Trouver toutes les occurrences d’un mot x dans un texte y.
Pas de prétraitement de y, prétraitement de x.
utilisation de hachage – Thierry Lecroq
amélioration d’un algorithme utilisant l’oracle des facteurs –
Thierry Lecroq + Simone Faro (Catania, Italie)
recherche dans des données binaires – Thierry Lecroq +
Simone Faro (Catania, Italie)
Thierry Lecroq
TIBS
19/34
Recherche de mots
Notion de bord
x
w
w
longueurs des bords de tous les préfixes de x : tableau de bords
Exemple
i
w[i]
f [i]
1
a
0
2
b
0
3
a
1
4
b
2
5
a
3
6
c
0
Thierry Lecroq
7
a
1
8
a
1
TIBS
9
b
2
10 11 12 12 14 15
c a b a b a
0 1 2 3 4 5
20/34
Reverse engineeering
étant donné un tableau d’entiers, déterminer si c’est :
un tableau de bords
un tableau de Knuth-Morris-Pratt
Thierry Lecroq, Arnaud Lefebvre + Jean-Pierre Duval (C&A,
LITIS)
Thierry Lecroq
TIBS
21/34
Caractérisation statistiques des répétitions
Nombre attendu de répétitions de longueur t
non-chevauchantes – Narjiss Touyar, Dominique Cellier,
Hélène Dauchel + Sophie Schbath (MIG, INRA)
chevauchantes – Dominique Cellier + Ferhat Ziram
(Tizi-Ouzou, Algérie)
Thierry Lecroq
TIBS
22/34
Alignement local en 2D
Étant donnés deux motifs en 2 dimensions X et Y et une matrice
de substitution, trouver la partie de X la plus similaire avec une
partie de Y
Thierry Lecroq
TIBS
23/34
e8
e10
e11
e12
e13
e14
e15
e16
e17
e18
e19
e20
e21
e22
e23
e24
e55
e56
e57
e58
e59
e60
e61
e62
e63
e64
e65
e66
e67
e68
e69
e70
e71
e72
e73
e74
e75
e76
P
P
P
P
P
P
P
P
P
P
C
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
where is it ?
BABAR OBSERVES cornelius give a pack to a stranger
what’s inside ?
who is this masked stranger ?
who has stolen the crown ?
BABAR UNCOVERS the masked stranger !
it’s the queen Celeste !
HE is ASKING himself questions
why the queen Celeste desguise herself ?
babar goes and sees the old lady to ask her about it
yes
THE OLD LADY doesn’t WANT him to go inside !
but just behind HER was HIDDEN
a SURPRISE for him in fact
and then babar goes back home
and every body was here with a big gift-wrap
look its a bed
are you sure ?
the donckey says
”it’s not a bed ! ”
LOOK It’s a boat
and the donkey grab it in its mouth
and put on the water
everybody WATCH HIM
do YOU BELIEVE
it’s a boat ?
THE LITTLE DUCKS are HAPPY
they go on board
and they sing “bateau sur l’eau” [French nursery rhyme]
and there ?
what’s happening ?
THE LITTLE SWAN WANTS to go on board too
the ducks says ”nooo !”
and suddenly oups everybody fall down in the water
but IT doesn’t matter
because EVERYBODY can swim
the duck can swim
suddenly the swanThierry
mummyLecroq
comes back
TIBS
q
A
q
q
q
A
a
A
q
a
a
A
A
A
a
a
q
q
a
a
A
a
a
A
Q
q
A
a
a
q
q
A
a
a
A
A
a
a
[
P
[
[
[
P
[
P
[
[
[
P
P
P
[
[
[
[
[
[
P
[
[
P
H
[
P
[
[
[
[
P
[
[
P
P
[
[
f
B
f
f
f
B
f
N
f
f
f
V
B
S
f
f
{
{
{
{
B
{
{
B
K
{
E
{
{
{
{
V
{
{
{
{
{
{
24/34
)
)
)
)
)
)
)
)
)
)
)
)
O
O
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
O
C
)
)
]
]
]
]
]
]
]
]
]
]
]
]
J
J
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
J
J
]
]
Alignement local en 2D
Thierry Lecroq + Alexandre Pauchet (MIU, LITIS) et Émilie
Chanoni (Psy.NCA, Rouen)
Thierry Lecroq
TIBS
25/34
Travaux communs
Informatique Médicale et Bioinformatique
Calcul de distance sémantique entre ressources CISMeF
Fouille dans les logs de CISMeF
Désambiguı̈sation d’abréviations
Recherche de mots dans des textes médicaux
Adaptation de l’algorithme du sac de mots
Thierry Lecroq
TIBS
26/34
Productions scientifiques
Période 2004–2008
Jour. int.
Conf. int.
Autres
Total
2004
7 (7)
5 (1)
12
24 (8)
2005
6 (5)
9 (3)
7
22 (8)
2006
11 (7)
14 (5)
6 (1)
31 (13)
2007
6 (5)
6 (3)
13
25 (8)
2008
4 (3)
9 (5)
14 (4)
27 (11)
Total (2005–2008)
27 (20)
38 (16)
40 (5)
105 (40)
Citations
40
25
19
13
0
55
http://www.chu-rouen.fr/l@stics/publis.html
Thierry Lecroq
TIBS
27/34
Principaux contrats
En cours
InterSTIS (Interopérabilité Sémantique des Terminologies
dans les Systèmes d’Information de Santé Français)
2007–2010 (projet ANR, programme TecSan 2007)
ALADIN-DTH (Assistant de Lutte Automatisé et de
Détection des Infections Nosocomiales à partir de Documents
Textuels Hospitaliers) 2008–2011 (projet ANR, programme
TecSan 2008)
L3IM (Langage Iconique et Interfaces Interactives en
Médecine) 2008–2011 (projet ANR, programme TecSan 2008)
PSIP (Patient Safety through Intelligent Procedures in
medication) 2007–2010 (FP7-ICT-2007)
Thèse CIFRE (S. Pereira) 2006–2009 avec la société Vidal
Thierry Lecroq
TIBS
28/34
Principaux contrats
Soumis
PHC Galilée avec Catania (Italie) : Recherche de mots
efficaces pour des problèmes réels
ANR Topase (Transcription of OprF of Pseudomonas
aeruginosa : Sigma-dependant Expression)
SEQUENCING TECH (Algorithms for high throughput
SEQUENCING TECHnologies, weighted and degenerate
sequences) (FP7-ICT-2007-C)
Envisagé
CRE France Telecom : fouille de motifs (avec MIU, LITIS &
Psy.NCA, Rouen)
Thierry Lecroq
TIBS
29/34
Principales relations
LITIS
C&A, MIU, QuantIF
France
GDR IM (GdT CoMATeGe), GDR BIM (axe Analyse des
séquences), Marne-la-Vallée, Marseille
International
NLM (USA), NIPH (Japon), King’s College London (UK), Catania
(Italie)
Thierry Lecroq
TIBS
30/34
Valorisation
logiciel de connaissance contextuelle (Cellule de valorisation,
université de Rouen, 2008)
création d’une société privée pour commercialiser et valoriser
les travaux de CISMeF (en relation avec l’incubateur
haut-normand depuis mai 2008, création envisagée : premier
trimestre 2009)
Thierry Lecroq
TIBS
31/34
Conférences d’intérêt
Informatique Médicale
Bioinformatique
1
AMIA
1
RECOMB
2
MEDINFO
2
CPM
3
MIE, AIME
3
SPIRE, WABI
4
JFIM
4
JOBIM, PSC
Thierry Lecroq
TIBS
32/34
Thierry Lecroq
TIBS
33/34
Thierry Lecroq
TIBS
34/34