Une présentation de septembre 2008

Transcription

Une présentation de septembre 2008
Traitement de l’Information en Biologie
Santé
Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes
Visite au GREYC
11 septembre 2008
Caen
Effectifs (1)
Membres permanents : 10, 5
Saı̈d Abdeddaı̈m (MCU 27)
Joël Alexandre (CR CNRS 28)
Dominique Cellier (MCU 26)
Hélène Dauchel (MCU 64)
Stéfan J. Darmoni (PUPH 46–04)
Jean-François Gehanno (MCUPH 46–02, HDR)
Thierry Lecroq (PU 27)
Arnaud Lefebvre (MCU 27)
Martine Léonard (MCU 27)
Élise Prieur (MCU 27)
Alexandrina Rogozan (MCU 61) 50%
Visite au GREYC
TIBS
2/28
Effectifs (2)
Doctorants : 6
Tayeb Merabti (2007)
Suzanne Pereira (2005)
Saoussen Sakji (2007)
Mikaël Salson (2007)
Ahmed Diouf (2008)
Laetitia Rollin (2008)
Associés : 3
Badisse Dahamna (ingénieur)
Louis Sibert (professeur associé)
Benoı̂t Thirion (conservateur)
Visite au GREYC
TIBS
3/28
Verrou scientifique
Rechercher, indexer et extraire des informations pertinentes
dans
des données biologiques (génomes et expression des génomes) ;
des systèmes d’information en santé (CISMeF, serveur
multiterminologies de santé, dossier électronique du patient).
Visite au GREYC
TIBS
4/28
Angles d’attaque
Domaines de compétences
l’algorithmique du texte ;
la bioinformatique ;
la génomique ;
les statistiques ;
la recherche d’informations multiterminologiques ;
l’interopérabilité sémantique inter et intra terminologies.
Visite au GREYC
TIBS
5/28
Perspectives
Outre la production de résultats fondamentaux, l’équipe a pour but
de développer des plateformes dédiées aux :
terminologies de santé ;
répétitions dans les séquences génomiques.
Visite au GREYC
TIBS
6/28
Thèses (1)
Gestion de la Connaissance et Systèmes d’Information de
Santé
L. Soualmia (2004) : Recherche d’information implicite
A. Névéol (2006) : Indexation textuelle automatique
F. Florea (2007) : Indexation et recherche d’informations
combinées texte et image dans le catalogue de santé CISMeF
T. Merabti : Interopérabilité sémantique inter et intra
terminologies
S. Pereira : Indexation automatique multi-terminologique
S. Sakji : Recherche d’information multi-terminologique
A. Diouf : Recherche d’information multi-terminologique
L. Rollin : Qualité et diffusion des informations de santé
Visite au GREYC
TIBS
7/28
Thèses (2)
Bioinformatique
A. Lefebvre (2003) : oracle des facteurs
R. Groult (2004) : répétitions en tandem avec évolution
J. Pelfrêne (2004) : extraction de mots approchés
N. Touyar (2006) : approximation de Poisson du nombre de
répétitions
C. Meslin (2007) : utilisation de la table des suffixes
É. Prieur (2007) : vecteurs de suffixes
M. Salson : structures de données compressées pour
l’indexation de textes
Visite au GREYC
TIBS
8/28
Visite au GREYC
TIBS
9/28
CISMeF
Catalogue et Index des Sites Médicaux Francophones
ensemble de ressources en santé de qualité (50% indexées
manuellement)
initialement basé sur le thésaurus MeSH (Medical Subject
Headings) + types de ressources et métatermes
migration vers un univers multi-terminologique
Visite au GREYC
TIBS
10/28
Mono → Multi - Terminologies
Univers mono­terminologique
Recherche d'information
implicite
L. Soualmia (2004)
Recherche d'information
multi­terminologique
S. Sakji
Les métatermes, types de
ressources et
métadonnées MeSH
encapsulés par
la terminologie CISMeF
Serveur multi­terminologique
CIM­10, CCAM, SNOMED, UMLS, ...
Indexation textuelle
automatique
A. Névéol (2006)
Indexation
Indexation automatique
automatique
multi­terminologique
*multiterminologique
S. Pereira
S. Pereira
Interopérabilité
sémantique
inter et intra terminologies
T. Merabti
Univers multi­terminologique
Visite au GREYC
TIBS
11/28
Interopérabilité sémantique inter et intra terminologies
Code SNOMED CT
Relation SNOMED CT
UMLS
UMLS
Code SNOMED Int
Code SNOMED Int
Code CIM10
Code MeSH
Code SNOMED CT
Relation SNOMED CT
Code CIM10
Code MeSH
Tayeb Merabti, Stefan Darmoni, Thierry Lecroq + Michel Joubert
(LERTIM, Marseille)
Visite au GREYC
TIBS
12/28
Vecteur des suffixes
0
a
1
a
2
t
a
3
t
4
t
$
t
5
a
6
t
7
t
8
t
9
a
10
t
11
t
12
a
13
$
racine (0,1),(2,1),(13,1)
13
att...
tt
$
0
t
3 2 (13,1)
2 2 (13,1)
12
tatt
a$
tatt
a
$
9
tatta$
0 1 2 3 4 5 6 7 8 9 10 11 12 13
a
a$
tt
3 4 (12,2)
2 4 (5,1)
11
tatta$
a$
$
6
10
tt
tatta$
a$
1
1
5
2
4
tatta$
3
1 (5,1)
7
6
5
4
6
6
6
6
(12,2)
(12,2)
(12,2)
(12,2)
8
a$
1
13 (2,2),(13,1)
7
Arbre compact des suffixes
Visite au GREYC
Vecteur non compact des suffixes
TIBS
13/28
Vecteur des suffixes
0
a
1
a
2
t
3
t
4
t
5
a
6
t
7
t
8
t
9
a
10
t
racine (0,1),(2,1),(13,1)
11
t
0 1 2 3 4 5 6 7 8 9 10 11 12 13
2
3 2 (13,1)
2 2 (13,1)
1
1
1 (5,1)
7
6
5
4
13
$
racine (0,1),(2,1),(13,1)
0 1 2 3 4 5 6 7 8 9 10 11 12 13
3 4 (12,2)
2 4 (5,1)
12
a
6
6
6
6
(12,2)
(12,2)
(12,2)
(12,2)
13 (2,2),(13,1)
3 4 (12,2)
2 4 (5,1)
1
1
Vecteur non compact des suffixes
3 2 (13,1)
4
7 6 (12,2)
1 (5,1)
13 (2,2),(13,1)
Vecteur compact des suffixes
Élise Prieur et Thierry Lecroq
Visite au GREYC
TIBS
14/28
BWT et table de suffixes dynamiques
0
C
1
T
LCP
0
1
2
0
0
1
0
2
C
SA
6
5
0
2
4
1
3
3
T
F
$
C
C
C
G
T
T
4
G
C
$
T
T
C
C
G
5
C
6
$
T
C
C
G
$
T
C
C
T
T
C
C
G
$
T
C
G
$
T
C
C
G
T
C
C
C
$
T
L
C
G
$
T
T
C
C
C
$
0
C
1
G
4
T
5
LF [i] = C[L[i]] + rankL[i] (L, i)
Mikaël Salson, Thierry, Lecroq, Martine Léonard + Laurent Mouchard
(QuantIF, LITIS)
Visite au GREYC
TIBS
15/28
Recherche de mots
Trouver toutes les occurrences d’un mot x dans un texte y.
Pas de prétraitement de y, prétraitement de x.
utilisation de hachage – Thierry Lecroq
amélioration d’un algorithme utilisant l’oracle des facteurs –
Thierry Lecroq + Simone Faro (Catania, Italie)
recherche dans des données binaires – Thierry Lecroq +
Simone Faro (Catania, Italie)
Visite au GREYC
TIBS
16/28
Recherche de mots
Notion de bord
x
w
w
longueurs des bords de tous les préfixes de x : tableau de bords
Exemple
i
w[i]
f [i]
1
a
0
2
b
0
3
a
1
4
b
2
5
a
3
6
c
0
Visite au GREYC
7
a
1
8
a
1
TIBS
9
b
2
10 11 12 12 14 15
c a b a b a
0 1 2 3 4 5
17/28
Reverse engineeering
étant donné un tableau d’entiers, déterminer si c’est :
un tableau de bords
un tableau de Knuth-Morris-Pratt
Thierry Lecroq, Arnaud Lefebvre + Jean-Pierre Duval (C&A,
LITIS)
Visite au GREYC
TIBS
18/28
Caractérisation statistiques des répétitions
Nombre attendu de répétitions de longueur t
non-chevauchantes – Narjiss Touyar, Dominique Cellier,
Hélène Dauchel + Sophie Schbath (MIG, INRA)
chevauchantes – Dominique Cellier + Ferhat Ziram
(Tizi-Ouzou, Algérie)
Visite au GREYC
TIBS
19/28
Alignement local en 2D
Étant donnés deux motifs en 2 dimensions X et Y et une matrice
de substitution, trouver la partie de X la plus similaire avec une
partie de Y
Visite au GREYC
TIBS
20/28
e8
e10
e11
e12
e13
e14
e15
e16
e17
e18
e19
e20
e21
e22
e23
e24
e55
e56
e57
e58
e59
e60
e61
e62
e63
e64
e65
e66
e67
e68
e69
e70
e71
e72
e73
e74
e75
e76
P
P
P
P
P
P
P
P
P
P
C
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
where is it ?
BABAR OBSERVES cornelius give a pack to a stranger
what’s inside ?
who is this masked stranger ?
who has stolen the crown ?
BABAR UNCOVERS the masked stranger !
it’s the queen Celeste !
HE is ASKING himself questions
why the queen Celeste desguise herself ?
babar goes and sees the old lady to ask her about it
yes
THE OLD LADY doesn’t WANT him to go inside !
but just behind HER was HIDDEN
a SURPRISE for him in fact
and then babar goes back home
and every body was here with a big gift-wrap
look its a bed
are you sure ?
the donckey says
”it’s not a bed ! ”
LOOK It’s a boat
and the donkey grab it in its mouth
and put on the water
everybody WATCH HIM
do YOU BELIEVE
it’s a boat ?
THE LITTLE DUCKS are HAPPY
they go on board
and they sing “bateau sur l’eau” [French nursery rhyme]
and there ?
what’s happening ?
THE LITTLE SWAN WANTS to go on board too
the ducks says ”nooo !”
and suddenly oups everybody fall down in the water
but IT doesn’t matter
because EVERYBODY can swim
the duck can swim
suddenly the swan
mummy
comes back
Visite
au GREYC
TIBS
q
A
q
q
q
A
a
A
q
a
a
A
A
A
a
a
q
q
a
a
A
a
a
A
Q
q
A
a
a
q
q
A
a
a
A
A
a
a
[
P
[
[
[
P
[
P
[
[
[
P
P
P
[
[
[
[
[
[
P
[
[
P
H
[
P
[
[
[
[
P
[
[
P
P
[
[
f
B
f
f
f
B
f
N
f
f
f
V
B
S
f
f
{
{
{
{
B
{
{
B
K
{
E
{
{
{
{
V
{
{
{
{
{
{
21/28
)
)
)
)
)
)
)
)
)
)
)
)
O
O
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
O
C
)
)
]
]
]
]
]
]
]
]
]
]
]
]
J
J
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
]
J
J
]
]
Alignement local en 2D
Thierry Lecroq + Alexandre Pauchet (MIU, LITIS) et Émilie
Chanoni (Psy.NCA, Rouen)
Visite au GREYC
TIBS
22/28
Travaux communs
Informatique Médicale et Bioinformatique
Calcul de distance sémantique entre ressources CISMeF
Fouille dans les logs de CISMeF
Désambiguı̈sation d’abréviations
Recherche de mots dans des textes médicaux
Adaptation de l’algorithme du sac de mots
Visite au GREYC
TIBS
23/28
Productions scientifiques
Période 2004–2007
Journaux internationaux
Conférences internationales
Autres
Total
2004
7
5
12
24
2005
6
9
7
22
2006
11
14
6
31
2007
6
4
8
18
http://www.chu-rouen.fr/l@stics/publis.html
Visite au GREYC
TIBS
24/28
Total
30
32
33
95
Principaux contrats
En cours
InterSTIS (Interopérabilité Sémantique des Terminologies
dans les Systèmes d’Information de Santé Français)
2007–2010 (projet ANR, programme TecSan 2007)
ALADIN-DTH (Assistant de Lutte Automatisé et de
Détection des Infections Nosocomiales à partir de Documents
Textuels Hospitaliers) 2008–2011 (projet ANR, programme
TecSan 2008)
L3IM (Langage Iconique et Interfaces Interactives en
Médecine) 2008–2011 (projet ANR, programme TecSan 2008)
PSIP (Patient Safety through Intelligent Procedures in
medication) 2007–2010 (FP7-ICT-2007)
Thèse CIFRE (S. Pereira) 2006–2009 avec la société Vidal
Visite au GREYC
TIBS
25/28
Principaux contrats
Soumis
PHC Galilée avec Catania (Italie) : Recherche de mots
efficaces pour des problèmes réels
SEQUENCING TECH (Algorithms for high throughput
SEQUENCING TECHnologies, weighted and degenerate
sequences) (FP7-ICT-2007-C)
Envisagé
CRE France Telecom : fouille de motifs (avec MIU, LITIS &
Psy.NCA, Rouen)
Visite au GREYC
TIBS
26/28
Principales relations
LITIS
C&A, MIU, QuantIF
France
GDR IM (GdT CoMATeGe), GDR BIM (axe Analyse des
séquences), Marne-la-Vallée, Marseille
International
NLM (USA), NIPH (Japon), King’s College London (UK), Catania
(Italie)
Visite au GREYC
TIBS
27/28
Valorisation
logiciel de connaissance contextuelle (Cellule de valorisation,
université de Rouen, 2008)
création d’une société privée pour commercialiser et valoriser
les travaux de CISMeF (en relation avec l’incubateur
haut-normand depuis mai 2008, création envisagée : premier
trimestre 2009)
Visite au GREYC
TIBS
28/28
Visite au GREYC
TIBS
29/28