Une présentation de septembre 2008
Transcription
Une présentation de septembre 2008
Traitement de l’Information en Biologie Santé Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes Visite au GREYC 11 septembre 2008 Caen Effectifs (1) Membres permanents : 10, 5 Saı̈d Abdeddaı̈m (MCU 27) Joël Alexandre (CR CNRS 28) Dominique Cellier (MCU 26) Hélène Dauchel (MCU 64) Stéfan J. Darmoni (PUPH 46–04) Jean-François Gehanno (MCUPH 46–02, HDR) Thierry Lecroq (PU 27) Arnaud Lefebvre (MCU 27) Martine Léonard (MCU 27) Élise Prieur (MCU 27) Alexandrina Rogozan (MCU 61) 50% Visite au GREYC TIBS 2/28 Effectifs (2) Doctorants : 6 Tayeb Merabti (2007) Suzanne Pereira (2005) Saoussen Sakji (2007) Mikaël Salson (2007) Ahmed Diouf (2008) Laetitia Rollin (2008) Associés : 3 Badisse Dahamna (ingénieur) Louis Sibert (professeur associé) Benoı̂t Thirion (conservateur) Visite au GREYC TIBS 3/28 Verrou scientifique Rechercher, indexer et extraire des informations pertinentes dans des données biologiques (génomes et expression des génomes) ; des systèmes d’information en santé (CISMeF, serveur multiterminologies de santé, dossier électronique du patient). Visite au GREYC TIBS 4/28 Angles d’attaque Domaines de compétences l’algorithmique du texte ; la bioinformatique ; la génomique ; les statistiques ; la recherche d’informations multiterminologiques ; l’interopérabilité sémantique inter et intra terminologies. Visite au GREYC TIBS 5/28 Perspectives Outre la production de résultats fondamentaux, l’équipe a pour but de développer des plateformes dédiées aux : terminologies de santé ; répétitions dans les séquences génomiques. Visite au GREYC TIBS 6/28 Thèses (1) Gestion de la Connaissance et Systèmes d’Information de Santé L. Soualmia (2004) : Recherche d’information implicite A. Névéol (2006) : Indexation textuelle automatique F. Florea (2007) : Indexation et recherche d’informations combinées texte et image dans le catalogue de santé CISMeF T. Merabti : Interopérabilité sémantique inter et intra terminologies S. Pereira : Indexation automatique multi-terminologique S. Sakji : Recherche d’information multi-terminologique A. Diouf : Recherche d’information multi-terminologique L. Rollin : Qualité et diffusion des informations de santé Visite au GREYC TIBS 7/28 Thèses (2) Bioinformatique A. Lefebvre (2003) : oracle des facteurs R. Groult (2004) : répétitions en tandem avec évolution J. Pelfrêne (2004) : extraction de mots approchés N. Touyar (2006) : approximation de Poisson du nombre de répétitions C. Meslin (2007) : utilisation de la table des suffixes É. Prieur (2007) : vecteurs de suffixes M. Salson : structures de données compressées pour l’indexation de textes Visite au GREYC TIBS 8/28 Visite au GREYC TIBS 9/28 CISMeF Catalogue et Index des Sites Médicaux Francophones ensemble de ressources en santé de qualité (50% indexées manuellement) initialement basé sur le thésaurus MeSH (Medical Subject Headings) + types de ressources et métatermes migration vers un univers multi-terminologique Visite au GREYC TIBS 10/28 Mono → Multi - Terminologies Univers monoterminologique Recherche d'information implicite L. Soualmia (2004) Recherche d'information multiterminologique S. Sakji Les métatermes, types de ressources et métadonnées MeSH encapsulés par la terminologie CISMeF Serveur multiterminologique CIM10, CCAM, SNOMED, UMLS, ... Indexation textuelle automatique A. Névéol (2006) Indexation Indexation automatique automatique multiterminologique *multiterminologique S. Pereira S. Pereira Interopérabilité sémantique inter et intra terminologies T. Merabti Univers multiterminologique Visite au GREYC TIBS 11/28 Interopérabilité sémantique inter et intra terminologies Code SNOMED CT Relation SNOMED CT UMLS UMLS Code SNOMED Int Code SNOMED Int Code CIM10 Code MeSH Code SNOMED CT Relation SNOMED CT Code CIM10 Code MeSH Tayeb Merabti, Stefan Darmoni, Thierry Lecroq + Michel Joubert (LERTIM, Marseille) Visite au GREYC TIBS 12/28 Vecteur des suffixes 0 a 1 a 2 t a 3 t 4 t $ t 5 a 6 t 7 t 8 t 9 a 10 t 11 t 12 a 13 $ racine (0,1),(2,1),(13,1) 13 att... tt $ 0 t 3 2 (13,1) 2 2 (13,1) 12 tatt a$ tatt a $ 9 tatta$ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 a a$ tt 3 4 (12,2) 2 4 (5,1) 11 tatta$ a$ $ 6 10 tt tatta$ a$ 1 1 5 2 4 tatta$ 3 1 (5,1) 7 6 5 4 6 6 6 6 (12,2) (12,2) (12,2) (12,2) 8 a$ 1 13 (2,2),(13,1) 7 Arbre compact des suffixes Visite au GREYC Vecteur non compact des suffixes TIBS 13/28 Vecteur des suffixes 0 a 1 a 2 t 3 t 4 t 5 a 6 t 7 t 8 t 9 a 10 t racine (0,1),(2,1),(13,1) 11 t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 2 3 2 (13,1) 2 2 (13,1) 1 1 1 (5,1) 7 6 5 4 13 $ racine (0,1),(2,1),(13,1) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 3 4 (12,2) 2 4 (5,1) 12 a 6 6 6 6 (12,2) (12,2) (12,2) (12,2) 13 (2,2),(13,1) 3 4 (12,2) 2 4 (5,1) 1 1 Vecteur non compact des suffixes 3 2 (13,1) 4 7 6 (12,2) 1 (5,1) 13 (2,2),(13,1) Vecteur compact des suffixes Élise Prieur et Thierry Lecroq Visite au GREYC TIBS 14/28 BWT et table de suffixes dynamiques 0 C 1 T LCP 0 1 2 0 0 1 0 2 C SA 6 5 0 2 4 1 3 3 T F $ C C C G T T 4 G C $ T T C C G 5 C 6 $ T C C G $ T C C T T C C G $ T C G $ T C C G T C C C $ T L C G $ T T C C C $ 0 C 1 G 4 T 5 LF [i] = C[L[i]] + rankL[i] (L, i) Mikaël Salson, Thierry, Lecroq, Martine Léonard + Laurent Mouchard (QuantIF, LITIS) Visite au GREYC TIBS 15/28 Recherche de mots Trouver toutes les occurrences d’un mot x dans un texte y. Pas de prétraitement de y, prétraitement de x. utilisation de hachage – Thierry Lecroq amélioration d’un algorithme utilisant l’oracle des facteurs – Thierry Lecroq + Simone Faro (Catania, Italie) recherche dans des données binaires – Thierry Lecroq + Simone Faro (Catania, Italie) Visite au GREYC TIBS 16/28 Recherche de mots Notion de bord x w w longueurs des bords de tous les préfixes de x : tableau de bords Exemple i w[i] f [i] 1 a 0 2 b 0 3 a 1 4 b 2 5 a 3 6 c 0 Visite au GREYC 7 a 1 8 a 1 TIBS 9 b 2 10 11 12 12 14 15 c a b a b a 0 1 2 3 4 5 17/28 Reverse engineeering étant donné un tableau d’entiers, déterminer si c’est : un tableau de bords un tableau de Knuth-Morris-Pratt Thierry Lecroq, Arnaud Lefebvre + Jean-Pierre Duval (C&A, LITIS) Visite au GREYC TIBS 18/28 Caractérisation statistiques des répétitions Nombre attendu de répétitions de longueur t non-chevauchantes – Narjiss Touyar, Dominique Cellier, Hélène Dauchel + Sophie Schbath (MIG, INRA) chevauchantes – Dominique Cellier + Ferhat Ziram (Tizi-Ouzou, Algérie) Visite au GREYC TIBS 19/28 Alignement local en 2D Étant donnés deux motifs en 2 dimensions X et Y et une matrice de substitution, trouver la partie de X la plus similaire avec une partie de Y Visite au GREYC TIBS 20/28 e8 e10 e11 e12 e13 e14 e15 e16 e17 e18 e19 e20 e21 e22 e23 e24 e55 e56 e57 e58 e59 e60 e61 e62 e63 e64 e65 e66 e67 e68 e69 e70 e71 e72 e73 e74 e75 e76 P P P P P P P P P P C P P P P P P P P P P P P P P P P P P P P P P P P P P P where is it ? BABAR OBSERVES cornelius give a pack to a stranger what’s inside ? who is this masked stranger ? who has stolen the crown ? BABAR UNCOVERS the masked stranger ! it’s the queen Celeste ! HE is ASKING himself questions why the queen Celeste desguise herself ? babar goes and sees the old lady to ask her about it yes THE OLD LADY doesn’t WANT him to go inside ! but just behind HER was HIDDEN a SURPRISE for him in fact and then babar goes back home and every body was here with a big gift-wrap look its a bed are you sure ? the donckey says ”it’s not a bed ! ” LOOK It’s a boat and the donkey grab it in its mouth and put on the water everybody WATCH HIM do YOU BELIEVE it’s a boat ? THE LITTLE DUCKS are HAPPY they go on board and they sing “bateau sur l’eau” [French nursery rhyme] and there ? what’s happening ? THE LITTLE SWAN WANTS to go on board too the ducks says ”nooo !” and suddenly oups everybody fall down in the water but IT doesn’t matter because EVERYBODY can swim the duck can swim suddenly the swan mummy comes back Visite au GREYC TIBS q A q q q A a A q a a A A A a a q q a a A a a A Q q A a a q q A a a A A a a [ P [ [ [ P [ P [ [ [ P P P [ [ [ [ [ [ P [ [ P H [ P [ [ [ [ P [ [ P P [ [ f B f f f B f N f f f V B S f f { { { { B { { B K { E { { { { V { { { { { { 21/28 ) ) ) ) ) ) ) ) ) ) ) ) O O ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) O C ) ) ] ] ] ] ] ] ] ] ] ] ] ] J J ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] J J ] ] Alignement local en 2D Thierry Lecroq + Alexandre Pauchet (MIU, LITIS) et Émilie Chanoni (Psy.NCA, Rouen) Visite au GREYC TIBS 22/28 Travaux communs Informatique Médicale et Bioinformatique Calcul de distance sémantique entre ressources CISMeF Fouille dans les logs de CISMeF Désambiguı̈sation d’abréviations Recherche de mots dans des textes médicaux Adaptation de l’algorithme du sac de mots Visite au GREYC TIBS 23/28 Productions scientifiques Période 2004–2007 Journaux internationaux Conférences internationales Autres Total 2004 7 5 12 24 2005 6 9 7 22 2006 11 14 6 31 2007 6 4 8 18 http://www.chu-rouen.fr/l@stics/publis.html Visite au GREYC TIBS 24/28 Total 30 32 33 95 Principaux contrats En cours InterSTIS (Interopérabilité Sémantique des Terminologies dans les Systèmes d’Information de Santé Français) 2007–2010 (projet ANR, programme TecSan 2007) ALADIN-DTH (Assistant de Lutte Automatisé et de Détection des Infections Nosocomiales à partir de Documents Textuels Hospitaliers) 2008–2011 (projet ANR, programme TecSan 2008) L3IM (Langage Iconique et Interfaces Interactives en Médecine) 2008–2011 (projet ANR, programme TecSan 2008) PSIP (Patient Safety through Intelligent Procedures in medication) 2007–2010 (FP7-ICT-2007) Thèse CIFRE (S. Pereira) 2006–2009 avec la société Vidal Visite au GREYC TIBS 25/28 Principaux contrats Soumis PHC Galilée avec Catania (Italie) : Recherche de mots efficaces pour des problèmes réels SEQUENCING TECH (Algorithms for high throughput SEQUENCING TECHnologies, weighted and degenerate sequences) (FP7-ICT-2007-C) Envisagé CRE France Telecom : fouille de motifs (avec MIU, LITIS & Psy.NCA, Rouen) Visite au GREYC TIBS 26/28 Principales relations LITIS C&A, MIU, QuantIF France GDR IM (GdT CoMATeGe), GDR BIM (axe Analyse des séquences), Marne-la-Vallée, Marseille International NLM (USA), NIPH (Japon), King’s College London (UK), Catania (Italie) Visite au GREYC TIBS 27/28 Valorisation logiciel de connaissance contextuelle (Cellule de valorisation, université de Rouen, 2008) création d’une société privée pour commercialiser et valoriser les travaux de CISMeF (en relation avec l’incubateur haut-normand depuis mai 2008, création envisagée : premier trimestre 2009) Visite au GREYC TIBS 28/28 Visite au GREYC TIBS 29/28