Traitement de l`Information en Biologie Santé
Transcription
Traitement de l`Information en Biologie Santé
Traitement de l’Information en Biologie Santé Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes Conseil de laboratoire 13 novembre 2008 Saint-Étienne-du-Rouvray Effectifs (1) Membres permanents : 10, 5 Saı̈d Abdeddaı̈m (MCU 27) Joël Alexandre (CR CNRS 28) Dominique Cellier (MCU 26) Hélène Dauchel (MCU 64) Stéfan J. Darmoni (PUPH 46–04) Jean-François Gehanno (MCUPH 46–02, HDR) Thierry Lecroq (PU 27) Arnaud Lefebvre (MCU 27) Martine Léonard (MCU 27) Élise Prieur (MCU 27) Alexandrina Rogozan (MCU 61) 50% Thierry Lecroq TIBS 2/34 Effectifs (2) Doctorants : 6 Tayeb Merabti (2007) Suzanne Pereira (2005, soutenance le 2 décembre 2008) Saoussen Sakji (2007) Mikaël Salson (2007) Ahmed Diouf (2008) Laetitia Rollin (2008) Associés : 3 Badisse Dahamna (ingénieur) Louis Sibert (professeur associé) Benoı̂t Thirion (conservateur) Thierry Lecroq TIBS 3/34 Effectifs (3) Stagiaire : 1 Émilie Teissier (Master Bioinformatique) Thierry Lecroq TIBS 4/34 Verrou scientifique Rechercher, indexer et extraire des informations pertinentes dans des données biologiques (génomes et expression des génomes) ; des systèmes d’information en santé (CISMeF, serveur multiterminologies de santé, dossier électronique du patient). Thierry Lecroq TIBS 5/34 Angles d’attaque Domaines de compétences l’algorithmique du texte ; la bioinformatique ; la génomique ; les statistiques ; la recherche d’informations multiterminologiques ; l’interopérabilité sémantique inter et intra terminologies. Thierry Lecroq TIBS 6/34 Perspectives Outre la production de résultats fondamentaux, l’équipe a pour but de développer des plateformes dédiées aux : terminologies de santé ; répétitions dans les séquences génomiques. Thierry Lecroq TIBS 7/34 Thèses (1) Gestion de la Connaissance et Systèmes d’Information de Santé L. Soualmia (2004) : Recherche d’information implicite A. Névéol (2006) : Indexation textuelle automatique F. Florea (2007) : Indexation et recherche d’informations combinées texte et image dans le catalogue de santé CISMeF T. Merabti : Interopérabilité sémantique inter et intra terminologies S. Pereira : Indexation automatique multi-terminologique S. Sakji : Recherche d’information multi-terminologique A. Diouf : Recherche d’information multi-terminologique L. Rollin : Qualité et diffusion des informations de santé Thierry Lecroq TIBS 8/34 Thèses (2) Bioinformatique A. Lefebvre (2003) : oracle des facteurs R. Groult (2004) : répétitions en tandem avec évolution J. Pelfrêne (2004) : extraction de mots approchés N. Touyar (2006) : approximation de Poisson du nombre de répétitions C. Meslin (2007) : utilisation de la table des suffixes É. Prieur (2007) : vecteurs de suffixes M. Salson : structures de données compressées pour l’indexation de textes Thierry Lecroq TIBS 9/34 Thierry Lecroq TIBS 10/34 CISMeF Catalogue et Index des Sites Médicaux Francophones ensemble de ressources en santé de qualité (50% indexées manuellement) initialement basé sur le thésaurus MeSH (Medical Subject Headings) + types de ressources et métatermes migration vers un univers multi-terminologique Thierry Lecroq TIBS 11/34 Thierry Lecroq TIBS 12/34 Mono → Multi - Terminologies Univers monoterminologique Recherche d'information implicite L. Soualmia (2004) Recherche d'information multiterminologique S. Sakji Les métatermes, types de ressources et métadonnées MeSH encapsulés par la terminologie CISMeF Serveur multiterminologique CIM10, CCAM, SNOMED, UMLS, ... Indexation textuelle automatique A. Névéol (2006) Indexation Indexation automatique automatique multiterminologique *multiterminologique S. Pereira S. Pereira Interopérabilité sémantique inter et intra terminologies T. Merabti Univers multiterminologique Thierry Lecroq TIBS 13/34 SMTM Thierry Lecroq TIBS 14/34 Interopérabilité sémantique inter et intra terminologies Code SNOMED CT Relation SNOMED CT UMLS UMLS Code SNOMED Int Code SNOMED Int Code CIM10 Code MeSH Code SNOMED CT Relation SNOMED CT Code CIM10 Code MeSH Tayeb Merabti, Stefan Darmoni, Thierry Lecroq + Michel Joubert (LERTIM, Marseille) Thierry Lecroq TIBS 15/34 Vecteur des suffixes 0 a 1 a 2 t a 3 t 4 t $ t 5 a 6 t 7 t 8 t 9 a 10 t 11 t 12 a 13 $ racine (0,1),(2,1),(13,1) 13 att... tt $ 0 t 3 2 (13,1) 2 2 (13,1) 12 tatt a$ tatt a $ 9 tatta$ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 a a$ tt 3 4 (12,2) 2 4 (5,1) 11 tatta$ a$ $ 6 10 tt tatta$ a$ 1 1 5 2 4 tatta$ 3 1 (5,1) 7 6 5 4 6 6 6 6 (12,2) (12,2) (12,2) (12,2) 8 a$ 1 13 (2,2),(13,1) 7 Arbre compact des suffixes Thierry Lecroq Vecteur non compact des suffixes TIBS 16/34 Vecteur des suffixes 0 a 1 a 2 t 3 t 4 t 5 a 6 t 7 t 8 t 9 a 10 t racine (0,1),(2,1),(13,1) 11 t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 2 3 2 (13,1) 2 2 (13,1) 1 1 1 (5,1) 7 6 5 4 13 $ racine (0,1),(2,1),(13,1) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 3 4 (12,2) 2 4 (5,1) 12 a 6 6 6 6 (12,2) (12,2) (12,2) (12,2) 13 (2,2),(13,1) 3 4 (12,2) 2 4 (5,1) 1 1 Vecteur non compact des suffixes 3 2 (13,1) 4 7 6 (12,2) 1 (5,1) 13 (2,2),(13,1) Vecteur compact des suffixes Élise Prieur et Thierry Lecroq Thierry Lecroq TIBS 17/34 BWT et table de suffixes dynamiques 0 C 1 T LCP 0 1 2 0 0 1 0 2 C SA 6 5 0 2 4 1 3 3 T F $ C C C G T T 4 G C $ T T C C G 5 C T C C G $ T C 6 $ C T T C C G $ T C G $ T C C G T C C C $ T L C G $ T T C C C $ 0 C 1 G 4 T 5 LF [i] = C[L[i]] + rankL[i] (L, i) Mikaël Salson, Thierry Lecroq, Martine Léonard + Laurent Mouchard (QuantIF, LITIS) Thierry Lecroq TIBS 18/34 Recherche de mots Trouver toutes les occurrences d’un mot x dans un texte y. Pas de prétraitement de y, prétraitement de x. utilisation de hachage – Thierry Lecroq amélioration d’un algorithme utilisant l’oracle des facteurs – Thierry Lecroq + Simone Faro (Catania, Italie) recherche dans des données binaires – Thierry Lecroq + Simone Faro (Catania, Italie) Thierry Lecroq TIBS 19/34 Recherche de mots Notion de bord x w w longueurs des bords de tous les préfixes de x : tableau de bords Exemple i w[i] f [i] 1 a 0 2 b 0 3 a 1 4 b 2 5 a 3 6 c 0 Thierry Lecroq 7 a 1 8 a 1 TIBS 9 b 2 10 11 12 12 14 15 c a b a b a 0 1 2 3 4 5 20/34 Reverse engineeering étant donné un tableau d’entiers, déterminer si c’est : un tableau de bords un tableau de Knuth-Morris-Pratt Thierry Lecroq, Arnaud Lefebvre + Jean-Pierre Duval (C&A, LITIS) Thierry Lecroq TIBS 21/34 Caractérisation statistiques des répétitions Nombre attendu de répétitions de longueur t non-chevauchantes – Narjiss Touyar, Dominique Cellier, Hélène Dauchel + Sophie Schbath (MIG, INRA) chevauchantes – Dominique Cellier + Ferhat Ziram (Tizi-Ouzou, Algérie) Thierry Lecroq TIBS 22/34 Alignement local en 2D Étant donnés deux motifs en 2 dimensions X et Y et une matrice de substitution, trouver la partie de X la plus similaire avec une partie de Y Thierry Lecroq TIBS 23/34 e8 e10 e11 e12 e13 e14 e15 e16 e17 e18 e19 e20 e21 e22 e23 e24 e55 e56 e57 e58 e59 e60 e61 e62 e63 e64 e65 e66 e67 e68 e69 e70 e71 e72 e73 e74 e75 e76 P P P P P P P P P P C P P P P P P P P P P P P P P P P P P P P P P P P P P P where is it ? BABAR OBSERVES cornelius give a pack to a stranger what’s inside ? who is this masked stranger ? who has stolen the crown ? BABAR UNCOVERS the masked stranger ! it’s the queen Celeste ! HE is ASKING himself questions why the queen Celeste desguise herself ? babar goes and sees the old lady to ask her about it yes THE OLD LADY doesn’t WANT him to go inside ! but just behind HER was HIDDEN a SURPRISE for him in fact and then babar goes back home and every body was here with a big gift-wrap look its a bed are you sure ? the donckey says ”it’s not a bed ! ” LOOK It’s a boat and the donkey grab it in its mouth and put on the water everybody WATCH HIM do YOU BELIEVE it’s a boat ? THE LITTLE DUCKS are HAPPY they go on board and they sing “bateau sur l’eau” [French nursery rhyme] and there ? what’s happening ? THE LITTLE SWAN WANTS to go on board too the ducks says ”nooo !” and suddenly oups everybody fall down in the water but IT doesn’t matter because EVERYBODY can swim the duck can swim suddenly the swanThierry mummyLecroq comes back TIBS q A q q q A a A q a a A A A a a q q a a A a a A Q q A a a q q A a a A A a a [ P [ [ [ P [ P [ [ [ P P P [ [ [ [ [ [ P [ [ P H [ P [ [ [ [ P [ [ P P [ [ f B f f f B f N f f f V B S f f { { { { B { { B K { E { { { { V { { { { { { 24/34 ) ) ) ) ) ) ) ) ) ) ) ) O O ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) O C ) ) ] ] ] ] ] ] ] ] ] ] ] ] J J ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] J J ] ] Alignement local en 2D Thierry Lecroq + Alexandre Pauchet (MIU, LITIS) et Émilie Chanoni (Psy.NCA, Rouen) Thierry Lecroq TIBS 25/34 Travaux communs Informatique Médicale et Bioinformatique Calcul de distance sémantique entre ressources CISMeF Fouille dans les logs de CISMeF Désambiguı̈sation d’abréviations Recherche de mots dans des textes médicaux Adaptation de l’algorithme du sac de mots Thierry Lecroq TIBS 26/34 Productions scientifiques Période 2004–2008 Jour. int. Conf. int. Autres Total 2004 7 (7) 5 (1) 12 24 (8) 2005 6 (5) 9 (3) 7 22 (8) 2006 11 (7) 14 (5) 6 (1) 31 (13) 2007 6 (5) 6 (3) 13 25 (8) 2008 4 (3) 9 (5) 14 (4) 27 (11) Total (2005–2008) 27 (20) 38 (16) 40 (5) 105 (40) Citations 40 25 19 13 0 55 http://www.chu-rouen.fr/l@stics/publis.html Thierry Lecroq TIBS 27/34 Principaux contrats En cours InterSTIS (Interopérabilité Sémantique des Terminologies dans les Systèmes d’Information de Santé Français) 2007–2010 (projet ANR, programme TecSan 2007) ALADIN-DTH (Assistant de Lutte Automatisé et de Détection des Infections Nosocomiales à partir de Documents Textuels Hospitaliers) 2008–2011 (projet ANR, programme TecSan 2008) L3IM (Langage Iconique et Interfaces Interactives en Médecine) 2008–2011 (projet ANR, programme TecSan 2008) PSIP (Patient Safety through Intelligent Procedures in medication) 2007–2010 (FP7-ICT-2007) Thèse CIFRE (S. Pereira) 2006–2009 avec la société Vidal Thierry Lecroq TIBS 28/34 Principaux contrats Soumis PHC Galilée avec Catania (Italie) : Recherche de mots efficaces pour des problèmes réels ANR Topase (Transcription of OprF of Pseudomonas aeruginosa : Sigma-dependant Expression) SEQUENCING TECH (Algorithms for high throughput SEQUENCING TECHnologies, weighted and degenerate sequences) (FP7-ICT-2007-C) Envisagé CRE France Telecom : fouille de motifs (avec MIU, LITIS & Psy.NCA, Rouen) Thierry Lecroq TIBS 29/34 Principales relations LITIS C&A, MIU, QuantIF France GDR IM (GdT CoMATeGe), GDR BIM (axe Analyse des séquences), Marne-la-Vallée, Marseille International NLM (USA), NIPH (Japon), King’s College London (UK), Catania (Italie) Thierry Lecroq TIBS 30/34 Valorisation logiciel de connaissance contextuelle (Cellule de valorisation, université de Rouen, 2008) création d’une société privée pour commercialiser et valoriser les travaux de CISMeF (en relation avec l’incubateur haut-normand depuis mai 2008, création envisagée : premier trimestre 2009) Thierry Lecroq TIBS 31/34 Conférences d’intérêt Informatique Médicale Bioinformatique 1 AMIA 1 RECOMB 2 MEDINFO 2 CPM 3 MIE, AIME 3 SPIRE, WABI 4 JFIM 4 JOBIM, PSC Thierry Lecroq TIBS 32/34 Thierry Lecroq TIBS 33/34 Thierry Lecroq TIBS 34/34