Intégration de Données pour l`Analyse du Transcriptome
Transcription
Intégration de Données pour l`Analyse du Transcriptome
N° Ordre de la Thèse 3282 THÈSE présentée DEVANT L’UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L’UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d’accueil : INSERM Unité 522, Rennes École Doctorale : Vie-Agronomie-Santé Composante universitaire : Université de Rennes 1, S.V.E. TITRE DE LA THÈSE : INTÉGRATION DE DONNÉES POUR L’ANALYSE DE TRANSCRIPTOME : MISE EN ŒUVRE PAR L’ENTREPÔT GEDAW (GENE EXPRESSION DATA WAREHOUSE) SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d’Examen COMPOSITION DU JURY : M P. BESSIÈRES Mme M.D. DEVIGNES M J. LÉGER Mme F. MOUSSOUNI M D. LAVENIER Mme C. GUILLOUZO Directeur de Recherches à l’INRA, Jouy en Josas Chargée de Recherches au LORIA, Nancy Directeur de Recherches à l’INSERM Unité 533, Nantes Maître de Conférences à l’Université de Rennes 1 Directeur de Recherches à l’IRISA, Rennes Directeur de Recherches à l’INSERM Unité 522, Rennes Rapporteur Rapporteur Examinateur Examinateur Co-Directeur de thèse Directeur de thèse REMERCIEMENTS Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m’avoir accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre années de thèse. Je remercie également Monsieur Dominique Lavenier pour avoir accepté de coencadrer cette thèse et pour m’avoir fait part de ses remarques pour mener à bien mes recherches. Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m’avoir accueillie si chaleureusement dans son équipe de recherche. Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je remercie également Monsieur Jean Léger d’avoir accepter d’examiner mon travail. J’exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois beaucoup, en particulier mon entrée à l’INSERM U522 et ton investissement remarquable dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour la bioinformatique qui auront fortement contribué à l’aboutissement de ma thèse. Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bioinformaticienne. Merci de m’avoir si bien initiée à l’informatique et de m’avoir toujours fait confiance. Merci à tous les membres de l’INSERM U522 pour leur accueil et leur sympathie. Je remercie tout particulièrement mes collègues biologistes du groupe « Fer Foie », pour leur écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère Troadec pour son aide et ses conseils tout au long de ce travail. Merci à Claude Boisseau et Christian Delamarche avec qui j’ai eu l’honneur de travailler dans le cadre de mes enseignements dispensés à l’Université de Rennes 1. Merci de m’avoir si bien accueillie dans vos équipes et de m’avoir donné goût à l’enseignement. Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales. Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur précieux soutien amical. A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me souviendrai des pauses café mémorables, pas toujours scientifiques d’ailleurs, et de nos nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en compagnie de Céline, Mickaëlle et Faustine. Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants. Merci à Michel, Christine, Galou et Sara pour votre soutien permanent. A mes parents, merci de m’avoir encouragée à faire des études, je crois que c’est chose faite. Merci à vous ainsi qu’à François et Charlotte pour le réconfort familial permanent que vous m’apportez, et ce malgré la distance. A Yohann, d’être là tout simplement. Merci pour ton amour, ton soutien et ta confiance qui m’ont rassuré et permis d’avancer durant ces quatre années de thèse. Ton attention et ta patience au cours de ces derniers mois auront été remarquables. SOMMAIRE INTRODUCTION I. DE L’AVÈNEMENT DE LA POST-GÉNOMIQUE À L’EXPLOSION DES SOURCES ................... 1 1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE ....................................................................... 1 1.1. Naissance de la génomique .............................................................................................. 1 1.2. Séquençage des génomes ................................................................................................ 2 1.3. Prochain enjeu : donner un sens au génome.................................................................... 3 1.3.1. Identifier les gènes ........................................................................................................ 4 1.3.2. Rechercher la fonction des gènes................................................................................. 5 1.3.3. Besoin de la post-génomique........................................................................................ 5 2. LA PROFUSION DES SOURCES DE DONNÉES .................................................................... 8 2.1. Naissance des banques généralistes................................................................................ 8 2.2. Émergence des banques spécialisées .............................................................................. 9 II. VERS L’INTÉGRATION DES SOURCES DE DONNÉES ........................................................... 11 1. 2. DES DONNÉES AUX CONNAISSANCES............................................................................... 11 LES DÉFIS DE L’INTÉGRATION DE DONNÉES BIOLOGIQUES ......................................... 12 2.1. Diversité des données biologiques à intégrer.................................................................. 12 2.2. Autonomie et hétérogénéité des sources de données .................................................... 13 2.2.1. Autonomie des sources............................................................................................... 13 2.2.2. Hétérogénéité des sources ......................................................................................... 13 3. ÉLÉMENTS DE STANDARDISATION..................................................................................... 16 3.1. XML.................................................................................................................................. 16 3.1.1. Définition...................................................................................................................... 16 3.1.2. Utilisation de XML en bioinformatique......................................................................... 17 3.2. Ontologies........................................................................................................................ 18 3.2.1. Définitions d’Ontologie ................................................................................................ 18 3.2.2. Ontologies dans le domaine biomédical ..................................................................... 18 3.3. Nomenclature fournie par le HGNC................................................................................. 26 III. LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE ................................................. 28 1. POINTS DE VARIATION ENTRE LES APPROCHES D’INTÉGRATION................................ 28 1.1. Formats des données intégrées : structurées, semi-structurées ou non-structurées ..... 28 1.2. Intégration serrée versus intégration lâche ..................................................................... 29 1.2.1. L’intégration serrée...................................................................................................... 29 1.2.2. L’intégration lâche ....................................................................................................... 29 1.3. Le modèle de données du système d’intégration ............................................................ 30 1.4. Les types d’intégration sémantique ................................................................................. 30 1.5. Le niveau de transparence .............................................................................................. 30 1.6. Ascendante (Bottom-up) versus descendante (top-down) .............................................. 31 1.7. Intégration virtuelle versus matérialisée .......................................................................... 31 1.8. Accès aux données ......................................................................................................... 31 2. LES APPROCHES EN BIOINFORMATIQUE .......................................................................... 32 2.1. L’approche non matérialisée............................................................................................ 32 2.1.1. La médiation ................................................................................................................ 32 2.1.2. L’approche navigationnelle.......................................................................................... 37 2.2. L’approche matérialisée : entrepôt de données .............................................................. 44 2.2.1. Principe de l’approche entrepôt de données............................................................... 44 2.2.2. Les entrepôts de données en bioinformatique ............................................................ 55 3. DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE............. 59 IV. 1. INTÉGRATION POUR L’ANALYSE DU TRANSCRIPTOME....................................................... 62 PUCES À ADN POUR L’ANALYSE DE TRANSCRIPTOME................................................... 62 1.1. Définition des puces à ADN............................................................................................. 62 1.2. Principe des puces à ADN pour l’étude du transcriptome............................................... 63 2. 1.3. Technologies des puces à ADN ...................................................................................... 64 ÉTAPES REQUISES POUR L’ANALYSE DES DONNÉES .................................................... 64 2.1. Acquisition des données d’expression ............................................................................ 65 2.1.1. Traitement des images par logiciel d’analyse d’images.............................................. 65 2.1.2. Traitement des données primaires.............................................................................. 65 2.1.3. Mise en évidence de gènes différentiellement exprimés ............................................ 66 2.2. Gestion et partage des données...................................................................................... 67 2.2.1. Gestion des données .................................................................................................. 67 2.2.2. Partage des données .................................................................................................. 67 2.3. Analyse des données d’expression ................................................................................. 69 2.3.1. Classification des données d’expression .................................................................... 69 2.3.2. Extraction de connaissance ........................................................................................ 70 CADRE ET BUTS DU TRAVAIL Page 76-77 BIOMEKE I. BIOMEKE POUR L’ANNOTATION BIOMÉDICALE DE GÈNES ................................................. 78 1. INTRODUCTION ...................................................................................................................... 78 2. MISE EN ŒUVRE ET DISCUSSION ....................................................................................... 78 ARTICLE 1………………………………………………………………………………………………………79 BioMeKE: a UMLS-based system useful for biomedical annotation of genes L'ENTREPÔT GEDAW II. INTÉGRATION DE DONNÉES DANS L’ENTREPÔT GEDAW ................................................... 89 1. INTRODUCTION ...................................................................................................................... 89 2. MISE EN ŒUVRE ET DISCUSSION ....................................................................................... 89 ARTICLE 2…...…………………………………………...……………………………………….……………91 Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW................................................ 107 1. INTRODUCTION .................................................................................................................... 107 2. MISE EN ŒUVRE ET DISCUSSION ..................................................................................... 107 ARTICLE 3……………………………………………………………………………………..…...…………109 Data warehouse approach to extract knowledge from microarray data DISCUSSION Pages 136-142 GLOSSAIRE Pages 143-148 BIBLIOGRAPHIE Pages 149-158 RÉFÉRENCES INTERNET Pages 159-161 LISTE DES PUBLICATIONS PERSONNELLES Pages 162-163 INDEX DES FIGURES ET DES TABLES FIGURES Figure 1…………….…….…………….……………………………………………………… page 2 La double hélice d’ADN Figure 2…………...……………………………….……………………………………………page 4 Objectif de la détection de gènes Figure 3………………….…………………………………………….………………………..page 6 Le fonctionnement cellulaire : de l’ADN aux protéines Figure 4………………….……………………………………………………………….……..page 9 Croissance de la banque de données GenBank de 1982 à 2004 Figure 5……….…………..…………………………………………………………………...page 20 Extrait du graphe orienté acyclique de Gene Ontology Figure 6…….………..……………………………………………………………………….. page 22 Domaines biomédicaux intégrés dans l’UMLS Figure 7…...………………………………………………………………………………….. page 23 Représentation schématique de la transferrine dans l’UMLS Figure 8……...……………………………………………………………………………….. page 27 Exemple de résultat de requête effectuée sur Genew Figure 9…………...………………………………………………………………………….. page 33 Architecture d’un système médiateur Figure 10………...…………………………………………………………………………….page 34 Les approches GAV (Global As View) et LAV (Local As View) Figure 11………...………………………………………………………………………….…page 37 Connection entre deux sources via une référence Figure 12……………………………...…………………………………………………….…page 38 Graphe de liens entre les sources du NCBI Figure 13……………………………...…………………………………………………….…page 39 Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13 Figure 14…………………………...……………………………………………………….…page 41 Exemple de schéma de médiation Figure 15…………………………………………………………………………...………… page 43 Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données Figure 16……………………………...…………………………………………….…………page 46 Architecture d’un entrepôt de données Figure 17………………………………………………………………………………...…… page 47 Architecture des données dans un entrepôt Figure 18………………………………………………………………………………………page 48 Exemple de cube de données Figure 19………………………………………...………………………….…………………page 49 Les différents schémas pour la représentation de données multidimensionnelles Figure 20………………………………………………………………………………………page 51 La rotation Figure 21…………………………….. ………………………………………….……………page 51 L’extraction Figure 22……...……………………………………………………………….………………page 52 Application des opérations roll-up et drill-down sur la dimension Protéine Figure 23………...………………………………………………………….…………………page 54 Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données Figure 24………...…………………………………………………………………….………page 58 Schéma étoile de Columba Figure 25………...………………………………………………………………….…………page 63 Principe de l’étude de transcriptome par la technologie des puces à ADN Figure 26…………...…………………………………………………………….……………page 68 Relations entre les projets MIAME, MAGE et MGED Ontology TABLES Table 1………………………………………………………………….………………...……page 10 Catégories de banques de données Table 2…………….……………………………………………………………………...……page 14 Conflit nom d’attribut valeur d’attribut Table 3………………………………………………………….………………………...……page 21 Origine de l’annotation des produits de gènes Table 4………………………………………………………….………………………...……page 25 Liste des ontologies biomédicales OBO Table 5………………………………………………….………………………………...……page 60 Table récapitulative des systèmes d’intégration décrits en section III.2 et de leurs points de variation ABRÉVIATIONS ADN: Acide DésoxyriboNucléique ADNc: Acide DésoxyriboNucléique complémentaire API: Application Programming Interface ARN: Acide RiboNucléique ARNm: Acide RiboNucléique messager ASN.1: Abstract Syntax Notation 1 BACIIS: Biological and Chemical Information Integration System BASE: BioArray Software Environment BLAST: Basic Local Alignment Search Tool BSML: Bioinformatic Sequence Markup Language CL: Cell type ontology CPL: Collection Programming Language CUI: Concept Unique Identifier DAG: Directed Acyclic Graph dbEST: Expressed Sequence Tags database DDBJ: DNA Data Bank of Japan DTD: Document Type Definition EBI: European Bioinformatics Institute EcoCyc: Encyclopedia of Escherichia coli EMBL: European Molecular Biology Laboratory ExPASy: Expert Protein Analysis System FDBS: Federated DataBases System GAV: Global As View GDB: human Genome DataBase GEO: Gene Expression Omnibus GNU: GNU's Not UNIX GO: Gene Ontology GOA: Gene Ontology Annotation GONG : Gene Ontology Next Generation GUS: Genomics Unified Schema HGNC: HUGO Gene Nomenclature Committee HOLAP : Hybrid On Line Analytical Processing HPG: Human Genome Project HTML: HyperText Markup Language HUGO: Human Genome Organisation ICARUS: Interpreter of Commands And Recursive Syntax K2MDL : K2 Mediator Definition Language KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes LAV: Local As View MAGE-ML: MicroArray and Gene Expression-Markup Language MeSH: Medical Subject Headings MGD :Mouse Genome Database MGED: Microarray Gene Expression Data MGI: Mouse Genome Informatics MOLAP: Multidimensionnal On Line Analytical Processing NCBI : National Center for Biotechnology Information NIH: National Institutes of Health NLM: National Library of Medicine OBO : Open Biomedical Ontologies ODL : Object Definition Language OLAP: On Line Analytical Processing OLTP: On Line Transactionnel Processing OMIM: Online Mendelian Inheritance in Man OOLAP: Object On Line Analytical Processing OQL: Object Query Language OWL : Web Ontology Language PCA: Principal Component Analysis PCR: Polymerase Chain Reaction PDB : Protein DataBank RDF: Resource Description Framework RDFS: Resource Description Framework Schema RMN: Résonance Magnétique Nucléaire) ROLAP: Relational On Line Analytical Processing SAGE: Serial Analysis of Gene Expression SBML: Systems Biology Markup Language SCOP : Structural Classification Of Proteins SGBD: Système de Gestion de Base de Données SGD: Saccharomyces Genome Database SMD: Stanford Microarray Database SNOMED : Systematized Nomenclature of Medicine SO: Sequence Ontology SOM: Self Organizing Map SQL: Structured Query Language SRS: Sequence Retrieval System TaO: TAMBIS Ontology UBC: University of British Columbia UBiC: University of British Columbia Bioinformatics Center UMLS: Unified Medical Language System UTR: Untranslated Terminal Region UWDA : UW Digital Anatomist W3C: World Wide Web Consortium XML: eXtensible Markup Language INTRODUCTION I. DE L’AVÈNEMENT DE LA POSTGÉNOMIQUE À L’EXPLOSION DES SOURCES 1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE 1.1. NAISSANCE DE LA GÉNOMIQUE La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité (Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques (Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les procédures de mutagenèse expérimentales par Muller (Muller, 1927). Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique humaine : l’alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la phénylalanine ; OMIM 203500) (Garrod, 1923). Beadle et Tatum approfondissent cette relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa (Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de l'ADN (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff, 1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure de l'ADN par Watson et Crick en 1953 (Watson and Crick, 1953) (Figure 1). 1 Figure 1 - La double hélice d’ADN (extrait de U.S. Department of Energy Office of Science1) La double hélice d’ADN se compose d’une suite de nucléotides*. Chaque nucléotide est dénommé par l’initiale du nom de la base azotée spécifique qui le compose, et l’information portée par le génome est contenue dans ce long texte – près de 4 milliards pour l’homme –, écrit dans l’alphabet de 4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965, un virage s’est opéré en biologie. Savoir que l’information génétique de tout organisme vivant est contenue dans une séquence nucléique, l’ADN, ouvre les portes de nombreuses recherches en génétique. Depuis les dernières trente années, avec l’essor du génie génétique, ou ensemble de techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la génétique s’est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont notamment permis d’isoler, de cloner et de séquencer les gènes. 1.2. SÉQUENÇAGE DES GÉNOMES Le séquençage des acides nucléiques débute en 1977 avec l’apparition de deux techniques que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l’approche chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde (trop toxique). En 1984, la mise au point de la technique d’amplification génétique ou PCR* (Polymerase Chain Reaction) est un progrès technique important pour le développement des méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l’amplification sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable au séquençage des génomes*. En 1985, à l'Imperial Cancer Research (ICR) de Londres, naît pour la première fois l'idée de décrypter les trois milliards de bases du génome humain. L'objectif du déchiffrage de notre « patrimoine génétique » et ses retombées scientifiques et médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et 1 http://www.doegenomes.org/ 2 thérapie géniques, nouveaux médicaments ...) décidèrent les parlementaires du Congrès des Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En 1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome Organization2) est fondée pour coordonner les efforts de cartographie et de séquençage entrepris dans le monde (McKusick, 1989). En 1990, le Projet Génome Humain (HGP3, Human Genome Project) voit le jour. Ce projet international coordonné par la DOE4 (Department Of Energy) et la NIH5 (National Institutes of Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les génomes d’organismes modèles. En 1995, l’équipe de Craig Venter au TIGR6 (The Institute for Genome Research) publie la séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae, grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d’autres génomes, celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana (The Arabidopsis genome initiative, 2000). En 1998, Craig Venter, PDG de l’entreprise Celera Genomics®, annonce le séquençage du génome humain pour 2001. Le HGP, en réponse à cette annonce propose la publication de 90% du séquençage humain pour 2000. C’est finalement en février 2001 que la séquence de 95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome Sequencing Consortium, 2001) et de Celera Genomics® (Venter et al., 2001). Enfin, en avril 2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004). 1.3. PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME La mise à disposition publique des séquences de génomes marque le début d’un long travail d’analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut en effet associer aux données brutes de séquences des informations pertinentes d’un point de vue biologique, il s’agit de l’annotation des génomes. Cette annotation exhaustive requiert l’aide de solutions bioinformatiques (Lewis et al., 2000), et n’est pas triviale (Claverie et al., 1997). 2 http://www.gene.ucl.ac.uk/hugo/ http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml http://www.energy.gov/engine/content.do 5 http://www.nih.gov/ 6 http://www.tigr.org/ 3 4 3 1.3.1. Identifier les gènes Il faut dans un premier temps identifier les gènes contenus dans les génomes, c’est ce qu’on appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier l’ensemble des protéines potentiellement produites à partir d’une séquence d’ADN génomique. La séquence étant représentée par une succession de lettres A, C, G et T, l’objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin des séquences codantes ou régions transcrites à l’origine de la production des protéines. Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5’ du gène. Les régions transcrites sont composées d’exons et d’introns, les derniers étant éliminés au cours de l’épissage* conduisant à la production de l’ARNm mature. Dans l’ARNm mature, des régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en amont du site d’initiation de la traduction* (UTR 5’) et en aval du site de terminaison de la traduction* (UTR 3’). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de l’expression génique (Mignone et al., 2002). A l’intérieur ou à l’extrémité de ces régions se trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l’expression génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l’épissage, la polyadénylation* (sites polyA) et la traduction* (site d’initiation de la traduction, codons STOP). Un logiciel de détection de gène prend en entrée une séquence d’ADN génomique et produit en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence génomique des exons prédits) (Figure 2). Figure 2 – Objectif de la détection de gènes A partir d’une séquence génomique brute (en haut), identifier sa structure génique (en bas). Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002). On distingue les méthodes extrinsèques qui utilisent la recherche d’homologie entre une séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis au point par le NCBI7 (National Center for Biotechnology Information) (Altschul et al., 1990). Aujourd’hui de nombreux programmes sont disponibles, la plupart d’entre eux sont référencés sur le site Web maintenu à jour par Wentian Li (http://www.nslij-genetics.org/dnacorr/). 7 * http://www.ncbi.nlm.nih.gov/ Les termes associés à une astérisque sont définis dans le glossaire 4 Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d’autres méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus haut) (Mathe et al., 2002). A l’issue du séquençage, le nombre de gènes constituant notre génome a été estimé à 35000 (Hogenesch et al., 2001), même si aujourd’hui de nouvelles estimations réduisent ce chiffre à 20000 – 25000 (International Human Genome Sequencing Consortium, 2004). Mais cette annotation syntaxique de la séquence d'ADN ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes. 1.3.2. Rechercher la fonction des gènes La démarche suivie pour découvrir la fonction d’un gène consiste à rechercher, par criblage de banques de données, des gènes de fonction connue ayant une séquence similaire à celle étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement une homologie de fonction. La comparaison du génome humain avec celui d’organismes modèles tels que celui de la drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à l’origine d’hypothèses sur la fonctions de gènes (Jackson, 2001). Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de l’ensemble des informations disponibles sur le gène étudié et son environnement. C’est là tout l’apport de l’intégration de données, développé tout au long de ce manuscrit. 1.3.3. Besoin de la post-génomique Le manque d’homogénéisation des banques de données et la complexité des génomes eucaryotes nuisent à l’automatisation systématique de la prédiction de la fonction des gènes (Birney et al., 2001). De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle que nous l’avons vu jusque là est statique, et ne prend pas en compte le fonctionnement dynamique de la cellule au cours du temps (figure 3, au dos). C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle correspond, à ce qu’on appelle la post-génomique et cherche à identifier quand, où et dans quelles conditions un gène identifié s’exprime. Il faut de plus caractériser l’activité des protéines produites ainsi que leurs interactions. La post génomique passe par l’étude du transcriptome* et du protéome*, définissant respectivement l’ensemble des ARNm et des protéines que produit le génome à un moment, un lieu et des conditions données. 5 Figure 3 – Le fonctionnement cellulaire : de l’ADN aux protéines (extrait de U.S. Department of Energy Office of Science) L’expression des gènes débute dans le noyau par la production d’ARNm à partir de l’ADN. C’est la transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le ribosome lit le code génétique de l’ARNm et les ARN de transfert apportent les acides aminés spécifiques au ribosome pour la synthèse de la chaîne protéique. 1.3.3.1. Analyser le transcriptome A l’inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la situation physiologique (état sain ou pathologique) : il est dynamique. Chez l’homme, sur environ 200 000 ARNm transcrits, seuls 10 000 à 20 000 sont exprimés dans une cellule spécialisée, et parmi ces transcrits, 4 000 à 6 000 semblent spécifiques de ce type cellulaire. Ainsi, l’étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des cellules. Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d’identifier et de localiser une séquence nucléotidique (respectivement l’ADN et l’ARN) dans un génome entier, ou tout mélange complexe d’ADN (Southern, 1975). Ces techniques se limitent à l’analyse d’un petit nombre de gènes et ne permettent pas d’appréhender la complexité au niveau cellulaire. Aussi, d’autres techniques plus globales permettant l’analyse de l’expression de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de courts fragments d’ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al., 1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de perspectives d’applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN permettent non seulement l’étude du niveau d’expression de milliers de gènes dans un type cellulaire et un contexte donné (sain ou pathologique), mais aussi d’étudier la séquence des gènes, les mutations et le polymorphisme. 6 1.3.3.2. Analyser le protéome Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales fonctions biologiques. Aussi, l’étude du protéome, qui étudie la quantité de protéines présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d’autant vrai que le niveau des ARNm n’est pas toujours corrélé avec le niveau des protéines, et que l’analyse du transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit. Différentes techniques sont employées pour étudier le protéome. L'électrophorèse bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon biologique. La technique de « double hybride* » est quant à elle employée pour étudier les interactions entre protéines (Fields and Song, 1989). 1.3.3.3. Simuler les réseaux d’interaction Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l’étude du transcriptome et du protéome apportent des informations précieuses : quels gènes sont exprimés simultanément dans des conditions précises et quelles protéines interagissent ; connaître les réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à la compréhension du fonctionnement des organismes. Différents outils mathématiques utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative, reliant les différentes molécules. 1.3.3.4. Prédire la structure tridimensionnelle des protéines La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu majeur en génomique fonctionnelle. Des programmes ont été développés pour la détermination de structures 3D de protéines. Ces programmes utilisent les données structurales de protéines issues des technologies de cristallographie aux rayons X* ou spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de structure 3D telles que PDB8 (Protein structure DataBank) ; et tentent de prédire la structure de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer Swiss-Model9 (Schwede et al., 2003), Geno3D10 (Combet et al., 2002). 8 http://www.rcsb.org/pdb http://swissmodel.expasy.org//SWISS-MODEL.html 10 http://geno3d-pbil.ibcp.fr/ 9 7 2. LA PROFUSION DES SOURCES DE DONNÉES Face à la croissance exponentielle des données issues de la génomique et de la postgénomique, générées à la fois par les technologies à haut débit et par les outils bioinformatiques nécessaires à l’annotation des génomes, les technologies de gestion de l’information et de l’Internet* sont venues à la rencontre de la biologie, pour gérer et structurer les données. 2.1. NAISSANCE DES BANQUES GÉNÉRALISTES Les premières banques de données à apparaître sont des banques de séquences qui voient le jour dans les années 80 parallèlement à l’amélioration des techniques de séquençage. L’EMBL11 (European Molecular Biology Laboratory), créée en Europe, est la première banque de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté américain, soutenue par le NIH12 (National Institute of Health), la banque nucléique GenBank13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est étendue en 1987 avec la participation de la banque de données du Japon DDBJ14 (DNA Data Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique pour la description des caractéristiques biologiques qui accompagnent les séquences dans les banques de données nucléiques. Aujourd’hui, les banques de données EMBL, GenBank et DDBJ regroupent à elles trois, cent gigabases de séquences. Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La première, sous l’influence du NBRF15 (National Biomedical Research Foundation) est la PIRPSD16 (Protein Information Resource-International Protein Sequence Database) (George et al., 1986), la deuxième est Swiss-Prot17, constituée à l’université de Genève, elle regroupe les séquences annotées de la PIR-PSD et les séquences traduites de l’EMBL (Bairoch and Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL entries) du SIB18 (Swiss Institute of bioinformatics), l’EBI19 (European Bioinformatics Institute) et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt20 (Universal Protein Resource) (Bairoch et al., 2005). 11 http://www.embl-heidelberg.de/ http://www.nih.gov/ 13 http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide 14 http://www.ddbj.nig.ac.jp/ 15 http://pir.georgetown.edu/nbrf/ 16 http://pir.georgetown.edu/pirwww/search/textpsd.shtml 17 http://www.expasy.org/sprot/ 18 http://www.isb-sib.ch/ 19 http://www.ebi.ac.uk/ 20 http://www.expasy.uniprot.org/ 12 8 2.2. ÉMERGENCE DES BANQUES SPÉCIALISÉES Devant la croissance exponentielle des données contenues dans les banques de séquences (exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes sources, de nombreuses banques de données se sont développées. Figure 4 – Croissance de la banque de données GenBank de 1982 à 2004 (extrait du site Web de GenBank) Il s’agit de banques publiques ou privées qui se sont constituées autour de thématiques biologiques ou d’espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont qualifiées de banques de données spécialisées par opposition aux banques de données généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que l’an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3 de plus qu’en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les banques de séquences, citons des banques de structures, des banques métaboliques, de maladies, d’expression des gènes, de données protéomiques ou immunologiques. 9 10 Banques immunologiques Banques de plantes http://genoplante-info.infobiogen.fr/FLAGdb/ http://www.arabidopsis.org/ http://imgt.cines.fr/ Banque intégrée sur les génomes de plantes The A rabidopsis information resource International immunogenetics information system TAIR Table 1 – Catégories de banques de données (adpaté de (Galperin, 2005)) IMGT http://bioinfo.nist.gov:8080/examples/servlets/index.html Human mitochondrial protein database FLAGdb++ Banques d'organelle http://www.mpiib-berlin.mpg.de/2D-PAGE http://www.ebi.ac.uk/arrayexpress http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM HMPD PubMed Autres banques de biologie moléculaire Banque de protéome http://www.genome.jp/kegg/pathway.html http://www.phenomicdb.de/ http://pubmed.gov/ 2D-PAGE Banques protéomiques Données d'expression de puces à ADN http://flybase.bio.indiana.edu/ http://www.brenda.uni-koeln.de/ Citations et résumés de litérature biomédicale ArrayExpress Banques d'expression de gènes et données de puces à ADN OMIM Gènes et maladies (humain) Réseaux métoboliques et de régulation Comparaison de phénotypes de gènes orthologues chez l'humain et des organismes modèles Online Mendelian inheritance in man, un catalogue des troubles génétiques humains KEGG Pathway PhenomicDB Noms d'enzymes et propriétés biochimiques BRENDA http://www.rcsb.org/pdb Protein structure databank Séquences et informations génomiques de la drosophile PDB FlyBase http://www.expasy.org/prosite http://www.ebi.ac.uk/chebi/ Biologically significant protein patterns and profiles Chemical entities of biological interest http://www.uniprot.org/ Universal protein knowledgebase: merged data from SwissProt, TrEMBL and PIR protein sequence databases UniProt ChEBI http://itb1.biologie.hu-berlin.de/~nebulus/sirna/ PROSITE http://transfac.gbf.de/TRANSFAC/index.html Transcritpion factors and binding sites Human siRNA database HuSiDa TRANSFAC URL http://www.ncbi.nlm.nih.gov/Entrez Nom ou description Toutes séquences nucléotidiques connues Exemple GenBank® Génomes humains et d'autres vertébrés Réseaux métaboliques et enzymes Banques génomiques (non humaines) Banques de structures Banques de séquences protéiques Banques de séquences d'ARN Banques de séquences nucléotidiques Catégorie II. VERS L’INTÉGRATION DES SOURCES DE DONNÉES 1. DES DONNÉES AUX CONNAISSANCES Dès les premiers jours de l’ère de la génomique, la quantité de données a cru de manière exponentielle, conduisant à une émergence extraordinaire du nombre et du contenu des sources de données. L’ouverture de ces sources sur Internet les a rendues disponibles au plus grand nombre, ouvrant ainsi de belles perspectives en recherche. La diffusion des sources sur le Web*, s’est faite de manière indépendante, en séparant les données par entité biologique (ADN, ARN, Protéine), par niveau d’organisation différent (cellules, tissus, organe, organisme, espèce) et par technologie différente (analyse du transcriptome, du protéome). Mais c’est la confrontation de toutes ces données diverses émanant de sources variées et jusqu’alors indépendantes qui va permettre de répondre à des questions biologiques complexes. L’effort consiste à intégrer des données hétérogènes afin d’en extraire de nouvelles connaissances, qui mènent à la découverte : Données D Information D Connaissance D Découverte La biologie prend ainsi une nouvelle dimension, anciennement divisée en plusieurs disciplines, elle devient intégrative et offre de belles perspectives d’appréhension de la complexité du monde vivant (Blagosklonny and Pardee, 2002). Les phénomènes biologiques sont complexes et nécessitent la confrontation de différentes données. Ainsi, la compréhension des phénotypes* normaux et pathologiques implique une prise en compte de données expérimentales, de données génomiques, de données issues des analyses bioinformatiques et de données de la littérature. D’ores et déjà des études ont démontré l’apport de l’intégration de différents types de données en recherche. Ainsi, Mootha et al. ont découvert un des gènes responsable du syndrome de Leigh (trouble neurodégénératif ; OMIM 256000), en intégrant des données d’expression, des données génomiques et de localisation sub-cellulaire (Mootha et al., 2003). Dans un autre exemple, Stuart et al. ont déduit des fonctions de gènes à partir de données de puces à ADN disponibles sur plusieurs espèces (Stuart et al., 2003). D’autre part, Kaplan souligne l’intérêt de confronter des données génomiques, protéiques, épidémiologiques ainsi que des outils d’analyses génétiques pour la compréhension des maladies polygéniques et le développement de nouveaux outils diagnostiques et thérapeutiques (Kaplan, 2002). 11 Hui Ge et al. soulignent l’importance de prendre en compte l’ensemble des données issues de la post-génomique pour la compréhension des réseaux d’interaction moléculaires et le fonctionnement des systèmes biologiques (Ge et al., 2003). 2. LES DÉFIS DE L’INTÉGRATION DE DONNÉES BIOLOGIQUES Les enjeux scientifiques actuels visent à interpréter, valoriser et confronter des sources de données. Aussi, il ne faut plus désormais se contenter de collecter des données mais fournir en parallèle des moyens pour leur interprétation. Ceci passe par une intégration des sources dans une représentation unifiée, offrant ainsi une plate-forme générique, qui permet de formuler des requêtes globales sur l'ensemble des informations disponibles via le système. Le but de ce processus d'intégration consiste à rendre possible la détection de nouvelles corrélations, parmi une masse de données qui n'étaient jusqu'alors pas reliées dans un même système pour l'interrogation. Il y a de nombreux défis à l’intégration de données provenant de différentes sources biologiques. Ces défis ont pour origine la diversité des données elles-mêmes et l’autonomie ainsi que l’hétérogénéité, tant sur le plan syntaxique que sémantique, des sources développées pour la mise à disposition des données. Ces caractéristiques sont détaillées dans cette section. 2.1. DIVERSITÉ DES DONNÉES BIOLOGIQUES A INTÉGRER Nous avons vu que les volumes de données engendrés par le développement de nouvelles technologies et par l’essor de la post-génomique sont gigantesques. Mais plus que les grands volumes de données, le plus complexe à traiter lors de l’intégration, c’est la diversité et la variabilité de ces données au sein des sources (Chung and Wooley, 2003). La diversité des données stockées dans les différentes sources reflète la diversité des types biologiques et des technologies utilisées à ce jour, ainsi que la complexité des systèmes biologiques (Chung and Wooley, 2003). Ainsi, les données stockées sont de différentes natures et incluent entre autres, des données de séquences et d’expression de gènes, des caractéristiques de pathologies, des structures moléculaires, des données d’interactions protéiques. Les sources stockent des données de différentes natures, qui varient selon leur taille et leur niveau de spécialisation (Hernandez and Kambhampati, 2004). Par exemple, la banque de données UniProt stocke des informations sur les séquences protéiques alors que ArrayExpress21 (Parkinson et al., 2005a; Sarkans et al., 2005) stocke des données expérimentales provenant de la technologie des puces à ADN. La diversité des données est d’autant plus grande qu’il existe une grande variabilité individuelle et inter-espèce entraînant la variabilité des données. Par exemple, la structure et la fonction d’un organe varient selon l’âge, le genre et l’espèce. 21 http://www.ebi.ac.uk/arrayexpress/index.html 12 2.2. AUTONOMIE ET HÉTÉROGÉNÉITÉ DES SOURCES DE DONNÉES Plusieurs caractéristiques des sources de données biologiques font obstacle à l’intégration de données dans un même environnement, il s’agit de leur autonomie, de leur présence sur le Web et de leur hétérogénéité, qui se situe à différents niveaux. 2.2.1. Autonomie des sources La plupart des sources fonctionnent de manière autonome, ce qui signifie que leurs structures et/ou leurs schémas* peuvent être modifiés, que leurs contenus peuvent changer ou que certains peuvent être supprimés sans aucune notification publique. Les accès aux sources peuvent également se retrouver bloqués pour maintenance. De plus, les sources ne sont pas toujours au fait de toutes les sources qui les référencent, ou de tous les systèmes qui s’y connectent (Hernandez and Kambhampati, 2004). Cette instabilité est d’autant plus grande que ces sources sont sur le Web, et que leur accès est donc contraint aux encombrements de réseau. La principale conséquence à l’autonomie des sources, c’est le perpétuel dynamisme de celles-ci. En effet, les nouvelles données expérimentales et les nouvelles découvertes vont perpétuellement être répercutées dans les sources, changeant ainsi leur contenu. Cet aspect implique que des mises à jour soient régulièrement opérées dans les systèmes qui utilisent ces sources dynamiques. 2.2.2. Hétérogénéité des sources L’hétérogénéité dans la manière de représenter des données similaires dans différentes sources est la principale barrière à l’intégration de données en biologie (Sujansky, 2001). Cette hétérogénéité se manifeste sur les plans de la syntaxe, de la sémantique et du contenu des sources. 2.2.2.1. Hétérogénéité syntaxique (1) Hétérogénéité dans les formats L’hétérogénéité syntaxique se manifeste tout d’abord au niveau des différents formats ou modèles de données* utilisés par les sources pour décrire leurs contenus. Par exemple, les données de la littérature scientifique sont très souvent représentées sous des formats non structurés (fichiers textes, fichiers HTML* (HyperText Markup Language)) ou semi-structurés (par exemple, XML* (eXtensible Markup Language)). D’autres formats semi-structurés sont utilisés, ainsi, le NCBI utilise ASN.1 (Abstract Syntax Notation 1), pour le stockage et la recherche des annotations sur les gènes et les protéines. C’est un format semi-structuré facilitant l’échange de données (Wheeler et al., 2005). 13 D’autres sources utilisent des formats structurés, avec un stockage des données dans des bases de données. A ce niveau, on trouve une diversité de modèles de données utilisés par les sources : principalement, le modèle relationnel* ou le modèle orienté objet*. Ainsi, au sein des sources, les entités biologiques ne sont pas représentées de la même manière, puisque chaque modèle offre sa propre sémantique aux concepts, c'est-à-dire sa propre représentation des relations entre les entités biologiques. (2) Hétérogénéité schématique L’hétérogénéité schématique apparaît lorsque des concepts équivalents sont représentés différemment dans des sources de données (Miller, 1998). Ce phénomène peut se produire même si les sources de données utilisent le même modèle de données. Par exemple, dans un schéma basé sur le modèle relationnel, trois types de conflits peuvent survenir : relation nom d’attribut, nom d’attribut valeur d’attribut et relation valeur d’attribut. Un exemple de conflit de type nom d’attribut valeur d’attribut est représenté dans la table 2. Dans le premier schéma, les noms des banques de données sont des attributs, alors que dans le second schéma, ils sont des valeurs de l’attribut ‘banque’. N° Accession NM_021175 BC020612 P81172 UniProt GenBank X X N° Accession NM_021175 BC020612 P81172 X Banque GenBank GenBank UniProt Table 2 – Conflit nom d’attribut valeur d’attribut (3) Hétérogénéité dans les modes d’accès aux données Chaque source offre sa propre interface d’interrogation conduisant à une diversité des moyens d’accès aux données. Il peut s’agir de requêtes SQL (Structured Query Language) (dans le cas de bases de données relationnelles), de requêtes OQL (Object Query Language) (dans le cas de bases de données orientées objet), de recherches par mots clés, de formulaires ou de fonctions spécifiques comme par exemple une recherche d’homologie. Cette diversité est un obstacle à la construction d’interfaces intégrées car chaque moyen d’interrogation offre différentes possibilités de récupération d’information. Notamment, certains moyens d’interrogation offrent des accès très limités aux données et font obstacle à une intégration systématique et accrue dans un même environnement. 2.2.2.2. Hétérogénéité sémantique L’hétérogénéité sémantique des sources de données en génomique, recouvre plusieurs aspects. Elle concerne en premier lieu le thème ou « focus ». En effet, chaque source se focalise sur un type d’entité biologique. Par exemple, le focus de Swiss-Prot est la protéine, celui de GenBank, le gène, et celui de PDB, la structure tridimensionnelle des protéines. 14 Par ailleurs, les sources de données peuvent différer dans leur manière de représenter les concepts clés autour des entités décrites (Eckman et al., 2001). Ainsi, GenBank « représente un gène comme une annotation sur une séquence », un gène est donc vu comme une séquence qui le caractérise et sur laquelle on publie des informations, tandis que MGD22 (Mouse Genome Database) (Eppig et al., 2005) « représente un gène comme un locus qui confère un phénotype », un gène est donc vu comme une portion de chromosome (locus) qui peut être liée à un caractère morphologique observable ou à un syndrome clinique chez un individu (phénotype). Ensuite, l’hétérogénéité sémantique concerne la diversité des valeurs pouvant être attribuées à des données sémantiquement équivalentes mais contenues dans des sources différentes. Par exemple, la donnée associée à l’appartenance d’un gène à l’espèce humaine peut prendre les valeurs ‘Homo sapiens’ ou ‘Human’ selon la source de données. En génomique, ce type d’hétérogénéité est d’autant plus fréquent que l’on se trouve confronté au problème de la grande hétérogénéité dans la nomenclature des gènes. Un gène est identifié par son nom, son symbole et/ou un identifiant numérique (communément, numéro d’accession). Pour un même gène donné, ces identifiants sont soumis à variabilité : En fonction des espèces – Des gènes orthologues* se voient souvent attribuer des identifiants et des noms différents. En fonction des sources de données – Même au sein d’une même espèce, pour un gène donné, chaque source de données attribue ses propres numéros d’accession. En fonction du type de séquence – Les différentes séquences associées à un même gène, c'est-à-dire les séquences génomiques, nucléiques ou protéiques, ont des numéros d’accession différents. En fonction du temps – Au cours du temps, différents noms et symboles ont été attribués à un même gène. Un autre type d’hétérogénéité sémantique survient lorsque les données dans les sources sont structurées. En effet, les composants servant à décrire la structuration des données au sein de la source, c'est-à-dire les éléments de son schéma, peuvent se voir attribuer différentes valeurs. On parle d’hétérogénéité des méta-données. En pratique, il existe différentes représentations, pour les sources structurées, qui sont le modèle relationnel, le modèle orienté objet ou le XML. Dans chacune des représentations, on distingue des éléments et des structures : les relations dans le modèle relationnel, les objets et les associations dans le modèle orienté objet et les éléments et les sous-éléments dans le XML. Ces éléments et ces structures permettent de définir le concept biologique décrit dans la source. Ce sont les noms que portent ces attributs et ces relations qui apportent la sémantique au concept exprimé par le schéma. Chaque personne a sa propre interprétation des noms. Aussi, des conflits sémantiques peuvent survenir lorsque des noms équivalents dénotent différents concepts (homonymes) ou lorsque différents noms sont attribués pour un même concept (synonymes). 22 http://www.informatics.jax.org/ 15 2.2.2.3. Hétérogénéité dans les contenus Des différences de contenu apparaissent quand des données représentées dans une source ne sont pas directement représentées dans une autre, ces données sont soit implicites, dérivables ou manquantes. Un exemple de donnée implicite pourrait être le type d’une séquence : ‘ADN’, ‘ARN’ ou ‘protéine’. Dans une banque de données généraliste de séquences nucléotidiques, telle que GenBank, il faut préciser le type de la séquence pour une entrée donnée (‘ARN’ ou ‘ADN’). Dans une banque de séquences protéiques telle que UniProt, le qualificatif ‘protéine’ n’est pas requis, il est implicite. Un exemple de donnée dérivable est ‘date de naissance’ versus ‘âge’. Chacun peut être dérivé de l’autre. Un exemple de donnée manquante peut être illustré par la présence dans une fiche d’entrée Uniprot de la liste des synonymes associés au nom de la protéine, alors que dans la fiche de la même protéine délivrée par le NCBI, les synonymes ne sont pas fournis. Cette hétérogénéité dans la représentation des sources soulève les problèmes d’identification des entités biologiques au sein des sources, de qualité des données, de redondance et de nettoyage lorsque l’on veut utiliser plusieurs sources pour l’intégration (Hernandez and Kambhampati, 2004; Sujansky, 2001). 3. ÉLÉMENTS DE STANDARDISATION Face au besoin d’intégration de données hétérogènes pour exploiter les données issues de la génomique, des éléments de standardisation ont vu le jour pour ainsi faciliter la structuration des données et résoudre les problèmes de vocabulaire, de sémantique et d’interrogation évoqués ci-dessus. Le but ultime de ces éléments de standardisation est de faciliter la diffusion et l’échange d’informations entre les sources, c'est-à-dire de les rendre interopérables. Ces éléments de standardisation sont décrits dans les sections suivantes. 3.1. 3.1.1. XML Définition XML (eXtensible Markup Language) a été mis au point en 1996 sous l’égide du W3C23 (World Wide Web Consortium). C’est un langage structuré de représentation de données pour un document. Plus précisément, c’est un métalangage permettant de rendre explicite la structure des données pour participer à l’interopérabilité* entre des données ou des applications. Un document XML est composé d’un prologue et d’un corps. Le prologue d’un document XML 23 http://www.w3.org/ 16 regroupe les méta-données portant sur le document. On y trouve en particulier la version d’XML, mais aussi éventuellement une représentation formelle de la grammaire du document sous forme directe ou par référence à un fichier externe. Les deux formats de représentation de grammaire aujourd’hui utilisés sont les DTD (Document Type Definition) qui ont une syntaxe propre, et les schémas dont la syntaxe est exprimée en XML. Le corps d’un document XML est constitué d’une imbrication de balises délimitant les éléments. Par exemple : <sequence_type>mRNA</sequence_type> De plus, un élément peut avoir des attributs qui sont utilisés pour représenter à la fois des propriétés et des relations. Cela permet de passer d’une structure hiérarchique d’éléments à une structure en graphe. Un document XML dont la syntaxe est conforme aux principes précédents est un document bien formé. De plus si la structure de ses éléments est conforme à la grammaire définie ou référencée dans le prologue, le document est dit valide. XML est donc bien adapté pour décrire explicitement la structure d’un document, il assure une interopérabilité syntaxique. Il faut donc se tourner vers des surcouches de XML, c’est-à-dire des éléments à la structure et au sens bien définis pour représenter la dimension sémantique. RDF (Resource Description Framework), est un autre standard proposé par le W3C pour la description des sources sur le Web. Les descriptions se font en exprimant des propriétés et en leur attribuant des valeurs. Les schémas RDF, notés RDFS, servent à définir les termes et les relations qui interviennent dans ces descriptions. Cependant, le pouvoir sémantique de RDF se limite à la représentation de la structure de ces concepts, sans parvenir à rendre compte du sens qu’ils véhiculent. Ceci est le rôle des ontologies. 3.1.2. Utilisation de XML en bioinformatique Les sources biologiques s’étant développées de manière indépendante et exponentielle, elles ont adopté différents systèmes de représentation. C’est pour pallier à cette hétérogénéité, qui fait obstacle à l’interopérabilité des sources, que le langage XML ainsi que ses dérivés ont fait leur apparition en bioinformatique. Par exemple, MAGE-ML24 (MicroArray and Gene Expression-Markup Language) (Spellman et al., 2002), SBML25 (Systems Biology Markup Language) (Hucka et al., 2003) ou BSML™26 (Bioinformatic Sequence Markup Language) sont des langages basés sur XML, et dédiés à la biologie. MAGE-ML vise à formaliser et faciliter la présentation des données issues des expériences de puces à ADN. L’une des applications intéressante est le transfert automatique des informations contenues dans des bases de données privées, vers des banques de données publiques d’expression de gènes telles que ArrayExpress ou GEO27 (Gene Expression Omnibus) (Barrett et al., 2005). 24 http://www.mged.org/Workgroups/MAGE/mage-ml.html http://sbml.org/index.psp http://www.bsml.org/ 27 http://www.ncbi.nlm.nih.gov/geo/ 25 26 17 SBML est un format pour représenter des modèles de réseaux de réactions biochimiques. Il s’applique à la description des voies métaboliques, des mécanismes de signalisation cellulaire ou encore des réseaux de régulation. SBML est actuellement supporté par 85 logiciels ou banques, tels que PANTHER Pathway28 (Mi et al., 2005). BSML est un format qui permet de décrire et de visualiser graphiquement les informations sur les séquences biologiques telles que les séquences elle-mêmes, les gènes et des alignements multiples. INSDseq est un autre format issu de XML, il a été développé conjointement par EMBL, DDBJ et GenBank pour la représentation des annotations de séquences. 3.2. 3.2.1. ONTOLOGIES Définitions d’Ontologie Le terme « Ontologie » est emprunté à la philosophie. Il a été introduit il y a 2300 ans par Aristote pour caractériser l’étude des êtres dans notre univers, ou plus précisément « Partie de la métaphysique qui s’applique à l’être en tant qu’être, indépendamment de ses déterminations particulières (Le Petit Robert). Il y a une quinzaine d’années, la communauté des sciences cognitives transforme ce concept philosophique en objet : « une ontologie ». La définition la plus citée est alors celle de Gruber : « une spécification explicite d’une conceptualisation » (Gruber, 1993). Une ontologie correspond à un ensemble d’informations dans lequel sont définis les concepts utilisés dans un langage donné et qui décrit les relations logiques qu’ils entretiennent entre eux. Le but des ontologies est de définir quels concepts, avec leur sémantique associée, sont nécessaires pour la modélisation de la connaissance d’un domaine et ce afin de la rendre partageable et transmissible entre plusieurs agents (personnes et/ou machines). 3.2.2. Ontologies dans le domaine biomédical Bien avant les avancées de la génomique et de la post-génomique, c’est la communauté de l’informatique médicale qui en premier a développé des stratégies pour faciliter et améliorer l’accès aux connaissances biomédicales. Ainsi, la NLM29 (National Library of Medicine) a développé l’UMLS®30 (Unified Medical Language System®), une base de connaissance qualifiée d’ontologie médicale riche de près de 1 000 000 de concepts émanant de l’unification de soixante terminologies du domaine biomédical. Deux événements ont pressé les besoins en développement d’ontologies biologiques ou bioontologies : la génération de larges volumes de données représentés de manière très hétérogène et le développement ainsi que la croissance d’Internet. Ainsi, les discussions sur 28 https://panther.appliedbiosystems.com/pathway/ http://www.nlm.nih.gov/ 30 http://www.nlm.nih.gov/research/umls/ 29 18 les bio-ontologies, entamées par la communauté de l’informatique biomédicale, se sont également répandues chez les bioinformaticiens. La compréhension des données issues de la génomique étant un des enjeux de la médecine, les deux communautés ont lié leurs efforts pour le développement de bio-ontologies. Suite aux publications des séquences de génomes et de leurs diverses annotations, l’utilisation de bio-ontologies devient indispensable pour faire face à l’hétérogénéité des données et des sources. Elles permettent d’unifier les différentes définitions pour ainsi améliorer la qualité des données et favoriser le partage et l’échange de données. 3.2.2.1. Gene Ontology : une ontologie pour la génomique (1) Définition GO31 (Gene Ontology) a récemment été développée par le Gene Ontology Consortium, groupe de travail international basé à l’EBI, pour aider à l’annotation des génomes (The Gene Ontology Consortium, 2000; The Gene Ontology Consortium, 2001). Son objectif est d’établir un vocabulaire structuré, contrôlé et dynamique pour décrire la fonction des gènes et des produits de gènes de l’ensemble des eucaryotes. Le projet a débuté en 1998 par une collaboration entre 3 banques de données d’organismes modèles que sont FlyBase32 (Drysdale and Crosby, 2005), SGD33 (Saccharomyces Genome Database) (Balakrishnan et al., 2005) et MGD (Mouse Genome Database). Depuis, le consortium a grandi et se compose de 16 des plus grandes banques de données génomiques, qui participent activement aux mises à jour de GO. (2) Composition et structure GO se compose de trois ontologies qui décrivent les produits de gènes par leur association à des fonctions moléculaires (molecular_function), des processus biologiques (biological_process) et des localisations cellulaires (cellular_component). Les fonctions moléculaires34 décrivent les activités d’un produit de gène à l’échelle moléculaire (par exemple : ‘catalytic activity’, ‘transporter activity’ ou ‘binding’). Les processus biologiques35 sont des évènements composés de séries de fonctions moléculaires (par exemple : ‘cell growth’ ou ‘signal transduction’). Les localisations cellulaires36 indiquent le composant de la cellule où se localise le produit de gène (par exemple : ‘nucleus’ ou ‘membrane’). 31 http://www.geneontology.org/ http://flybase.bio.indiana.edu/ 33 http://www.yeastgenome.org/ 34 http://www.geneontology.org/GO.doc.shtml#molecular_function 35 http://www.geneontology.org/GO.doc.shtml#biological_process 36 http://www.geneontology.org/GO.doc.shtml#cellular_component 32 19 Les trois ontologies GO sont structurées sous la forme d’un graphe orienté acyclique ou DAG (Directed Acyclic Graph) (Figure 5). Le DAG constitue un réseau où chaque noeud représente un terme GO qui est identifié sous la forme GO :nnnnnnn (exemple : ‘metabolism’, GO:0008152). On compte à ce jour 18447 termes. Chaque terme est un enfant de un ou plusieurs parents. La relation entre un terme enfant et un terme parent peut être du type ‘is_a’ ou ‘part_of’. La relation ‘is a’ est utilisée lorsqu’un terme enfant est une spécialisation du terme parent; par exemple dans l’ontologie processus biologique, ‘morphogenesis’ est une spécialisation de ‘development’. La relation ‘part of’ est utilisée lorsqu’un terme enfant est un composant du terme parent; par exemple, ‘cell growth’ est un composant de ‘regulation of cell size’. Les termes enfants peuvent avoir un ou plusieurs termes parents et peuvent avoir différentes relations avec les différents termes parents. Gene Ontology is_a is_a cellular_component GO:0005575 is_a biological_process GO:0008150 molecular_function GO:0003674 is_a is_a is_a physiological process GO:0007582 cellular process GO:0009987 is_a is_a is_a development GO:0007275 cellular physiological process GO:0050875 is_a is_a is_a cell organization and biogenesis GO:0007582 morphogenesis GO:0009653 is_a is_a cellular morphogenesis GO:0000902 part_of growth GO:0040007 regulation of cell size GO:0008361 part_of cell growth GO:0016049 Figure 5 – Extrait du graphe orienté acyclique de Gene Ontology Le graphe a pour origine les trois ontologies ‘molecular_function’, ‘biological_process’ et ‘cellular_component’. Les mentions ‘is_a’ et ‘part_of’ indiquent le type de relation entre les termes parents et enfants. Le terme ‘cellular physiological process’ (GO:0050875) a deux termes parents, ‘cellular process’ (GO:0009987) et ‘physiological process’ (GO:0007582). 20 (3) Annotation des produits de gènes avec GO GO est un vocabulaire contrôlé dynamique qui permet de décrire les fonctions moléculaires, les processus biologiques ainsi que les localisations cellulaires, mais il ne contient pas les produits de gènes. En 2001, UniProt rejoint le consortium GO et initie le projet GOA37 (Gene Ontology Annotation) pour ainsi assigner à chacune des protéines définie dans UniProt, un ou plusieurs termes GO (Camon et al., 2004a; Camon et al., 2003; Camon et al., 2004b). Au début du projet, GOA a permis d’assigner des termes aux protéines du protéome humain, par le biais de correspondances et d’annotations manuelles. Par la suite, les termes GO ont été assignés à tous les protéomes complets ou incomplets présents dans UniProt. Suivant la manière dont ont été assignés les termes GO aux produits de gènes, différents codes sont associés aux annotations. Ces codes permettent de rendre compte de la qualité de l’annotation, une annotation issue de publications scientifiques ayant par exemple, plus de poids qu’une annotation prédictive (Table 3). Code IC IDA IEA IEP IGI IMP IPI ISS NAS ND RCA TAS NR Origine de l'annotation Inferred by Curator Inferred from Direct Assay Inferred from Electronic Annotation Inferred from Expression Pattern Inferred from Genetic Interaction Inferred from Mutant Phenotype Inferred from Physical Interaction Inferred from Sequence or Structural Similarity Non-traceable Author Statement No biological Data available inferred from Reviewed Computational Analysis Traceable Author Statement Not Recorded Table 3 – Origine de l’annotation des produits de gènes Les données issues de l’annotation des produits de gènes sont disponibles sur les sites de GOA et de GO, soit par téléchargement de fichiers, soit par des applications Web permettant d’effectuer des interrogations à partir de termes GO ou d’identifiants de produits de gènes. Parmi ces applications, citons AmiGO38 qui est fourni par le consortium GO. AmiGO fournit une interface Web qui permet de visualiser les ontologies, les définitions de termes GO et les produits de gènes associés (ensemble des produits de gènes présents dans les banques de données associées au consortium GO). L’utilisateur peut effectuer une interrogation à partir d’un nom de gène, ou de toute autre référence, et ainsi visualiser les termes associés. Le consortium GO a également développé d’autres outils tels que DAG-Edit pour éditer des ontologies et ainsi faciliter la navigation entre ontologies de différents domaines biologiques (The Gene Ontology Consortium, 2004). 37 38 http://www.ebi.ac.uk/GOA/ http://www.godatabase.org/cgi-bin/amigo/go.cgi 21 3.2.2.2. UMLS L’UMLS® (Unified Medical Language System®) est une ontologie biomédicale développée par la NLM depuis 1986 (Lindberg, 1990). Le but du système est de fournir un accès intégré à un grand nombre de sources biomédicales par le biais d’une unification de toutes leurs terminologies. L’UMLS se compose de trois sources de connaissances : le Metathesaurus, le lexique médical Specialist et le réseau sémantique. Le Metathesaurus39 – Il constitue un répertoire biomédical multi langues qui contient 2 500 000 termes correspondant à près de 1 000 000 de concepts reliés entre eux par 12 000 000 de relations. Il est constitué à partir de plus de 100 familles de terminologies du domaine biomédical, dont la taxonomie du NCBI, MeSH40 (Medical Subject Headings) et le vocabulaire contrôlé utilisé pour indexer la banque bibliographique MEDLINE. L’ontologie GO est également intégrée dans l’UMLS, assurant ainsi l’interopérabilité entre les deux ontologies. Ceci a été effectué par une recherche de correspondance (ou mapping) entre les termes de l’UMLS et de GO (Bodenreider et al., 2002). D’autres domaines sont représentés dans le Metathesaurus tels que l’anatomie avec la base de données UWDA (Digital Anatomist Symbolic Knowledge Base), la clinique avec SNOMED®41 (Systematized Nomenclature of Medicine), la nomenclature des gènes établie par le HGNC42 (HUGO (HUman Genome Organisation) Gene Nomenclature Committee) (Shows et al., 1979) et les maladies génétiques avec OMIM™43 (Online Mendelian Inheritance in Man) (Hamosh et al., 2000; Hamosh et al., 2005) (Figure 6). D’autres catégories de terminologies sont incluses dans le Metathesaurus et concernent des spécialités telles que la psychiatrie, ou des aspects plus cliniques tels que les protocoles cliniques et les traitements. Le Metathesaurus comprend également des liens vers des sources externes (ou cross-références), comme par exemple vers GenBank (Bodenreider, 2004). Figure 6 – Domaines biomédicaux intégrés dans l’UMLS (adapté de (Bodenreider, 2004)) 39 http://www.nlm.nih.gov/pubs/factsheets/umlsmeta.html http://www.nlm.nih.gov/mesh/meshhome.html http://www.snomed.org/ 42 http://www.gene.ucl.ac.uk/nomenclature/ 43 http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM 40 41 22 Au sein du Metathesaurus, les termes synonymes d’un concept sont regroupés sous un même concept, et chaque concept est identifié par un code CUI (Concept Unique Identifier) (McCray and Nelson, 1995). Les relations pouvant lier les concepts sont de différents types : ‘parent’ ou ‘other relations’ (pouvant être par exemple, ‘isakindof’). On trouve aussi dans le Metathesaurus, des relations de type ‘co-occurrence’, ainsi que les fréquences qui y sont associées. Il s’agit de co-occurrences de termes retrouvées à partir de MEDLINE. Le lexique médical Specialist44 – Il s’agit d’un lexique anglais général et biomédical, qui contient des termes qui n’apparaissent pas dans le Metathesaurus. Pour chaque terme, il spécifie des informations syntaxiques, morphologiques et orthographiques. Le réseau sémantique45 – Il permet d’assigner à chaque concept du Metathesaurus un ou plusieurs types sémantiques parmi les 135 définis. Les types sémantiques sont reliés entre eux par 54 relations. Parmi ces relations, la relation de spécialisation ‘isa’ permet d’établir une hiérarchie entre les types. Il existe cinq autres catégories de relations que sont : ‘physically related to’, ‘spatially related to’, ‘temporally related to’, ‘functionally related to’ et ‘conceptually related to’. La figure 7 illustre la représentation d’une protéine, la transferrine (transporteur sanguin du fer), dans l’UMLS. Semantic Network Pathologic Function Cell Function Molecular Function Biological Active Substance Amino Acid, Peptide or Protein Disease or Syndrome Metathesaurus beta Globulin Iron-Binding proteins Cell Differenciation Liver neoplasm Carrier Proteins Transferrin iron metabolism Cerebrovascular Disorders Figure 7 – Représentation schématique de la transferrine dans l’UMLS Les types sémantiques sont représentés en gris dans le réseau sémantique (Semantic Network), et les concepts, en blanc dans le Metathesaurus. Les différentes relations sont représentées par différentes couleurs : en noir les relations avec les types sémantiques, en rouge les relations de type ‘cooccurrences’, en bleu les relations de type ‘parent’, et en vert les relations de type ‘other relations’. 44 45 http://www.nlm.nih.gov/pubs/factsheets/umlslex.html http://www.nlm.nih.gov/pubs/factsheets/umlssemn.html 23 En plus des données, l’UMLS intègre un certain nombre d’outils, inclus en tant que programmes ou bien accessibles en services Web* : MetamorphoSys permet aux utilisateurs d’adapter le Metathesaurus en fonction de leurs propres besoins (par exemple sélectionner le nom préféré pour un concept). Lvg permet de générer des variants de concepts. Metamap, accessible en service Web, permet d’extraire des concepts de l’UMLS à partir de texte. 3.2.2.3. Autres ontologies en biologie Même si GO est rapidement devenue l’ontologie phare en génomique, de nombreuses autres ontologies ont vu le jour depuis, et ce afin de formaliser les différents domaines de la biologie. OBO46 (Open Biomedical Ontologies) réunit en un site Web un ensemble d’ontologies qui ont été définies dans différents domaines biomédicaux pour une utilisation en génomique et en protéomique (Table 4). Certaines de ces ontologies sont génériques et s’appliquent à différents organismes, alors que certaines sont plus spécifiques d’un domaine ou d’une espèce. Parmi ces ontologies, on trouve : SO (Sequence Ontology), pour la description des séquences (Eilbeck et al., 2005), CL (Cell type ontology), pour la description des types cellulaires (Bard et al., 2005), MGED (Microarray Gene Expression Data), pour la description des données issues de la technologie des puces à ADN (Stoeckert et al., 2002). Le succès des bio-ontologies est désormais prouvé, avec pour preuve le nombre croissant des ontologies développées et leur utilisation accrue. On compte aujourd’hui près de 50 bioontologies répertoriées sur OBO. L’heure est maintenant à l’interopérabilité de ces bio-ontologies, pour la confrontation des différents domaines de la biologie. Ceci implique l’utilisation de langages formels, les premières bio-ontologies ayant été développées en utilisant le langage naturel et manquant ainsi de rigueur dans les définitions. Dans ce cadre, le projet GONG (Gene Ontology Next Generation), vise à fournir des outils et des méthodes pour la migration des ontologies, dont GO, vers OWL47 (Web Ontology Language, anciennement DAML+OIL) (Wroe et al., 2003). OWL est un langage formel de description proposé par le W3C, il permet de représenter le sens des termes et des relations d’un vocabulaire, c’est un langage d’ontologies Web. OWL assure plus de sémantique que les langages XML ou RDF et RDFS pour une meilleure base logique de description. 46 47 http://obo.sourceforge.net/ http://www.w3.org/TR/owl-features/ 24 Domaine Préfixe Combinaison Animal natural history and life history ADW non Arabidopsis development TAIR oui Arabidopsis gross anatomy TAIR oui Biological imaging methods FBbi non Biological process GO oui BRENDA tissue / enzyme source BTO non C. elegans development WBls oui Caenorhabditis gross anatomy [none] non Cell type CL oui Cellular component GO oui Cereal plant development GRO oui Cereal plant gross anatomy GRO oui Cereal plant trait TO non Chemical entities of biological interest CHEBI oui Context PM non Dictyostelium discoideum anatomy DDANAT oui Drosophila development FBdv oui Drosophila gross anatomy FBbt oui Evidence codes ECO non eVOC (Expressed Sequence Annotation for Humans) EV non Fungal gross anatomy FAO oui Habronattus courtship [none] non Human developmental anatomy, abstract version EHDAA oui Human developmental anatomy, timed version EHDA oui Human disease DOID non Loggerhead nesting [none] non Maize gross anatomy ZEA oui Mammalian phenotype MP non Medaka fish anatomy and development MFO oui MESH MESH non Microarray experimental conditions [none] non Molecular function GO oui Mouse pathology MPATH oui Multiple alignment RO non Mus adult gross anatomy MA oui Mus gross anatomy and development EMAP oui NCBI organismal classification taxon non NCI Thesaurus NCIt non OBO relationship types OBO_REL oui PATO PATO oui Physical-chemical methods and properties FIX non Physico-chemical process REX non Plant environmental conditions EO non Plant growth and developmental stage PO oui Plant structure PO oui Plasmodium life cycle PLO oui Protein covalent bond CV non Protein domain IPR oui Protein-protein interaction MI non Sequence types and features SO oui UniProt taxonomy [none] oui Zebrafish anatomy and development ZDB oui Table 4 – Liste des ontologies biomédicales OBO (extrait du site Web de OBO) Les ontologies sont classées selon leur domaine. Le champ combinaison indique si oui ou non l’ontologie peut être utilisée en combinaison avec d’autres pour former des ontologies composées par le biais de références croisées. 25 OBO va également dans le sens de l’interopérabilité des ontologies, en imposant aux concepteurs de bio-ontologies cinq conditions pour qu’une ontologie soit ajoutée au répertoire OBO : Les ontologies doivent être d’accès libre, c'est-à-dire disponibles pour tous sans contrainte ni licence pour leur utilisation. Les ontologies doivent être décrites dans une syntaxe commune, c'est-à-dire OWL. Les ontologies doivent être orthogonales avec celles déjà incluses dans OBO, cela signifie que deux ontologies, par exemple, sur l’anatomie et les processus biologiques, doivent pouvoir communiquer entre elles par l’ajout de nouvelles relations. Les ontologies doivent adopter un identifiant unique qui doit être le préfixe de tous les termes de l’ontologie. Les ontologies doivent inclure des définitions précises de tous leurs termes. 3.3. NOMENCLATURE FOURNIE PAR LE HGNC L’hétérogénéité sémantique liée aux différents noms et identifiants associés aux gènes, mentionnée en section II.2.2.2.2, fait obstacle à une intégration systématique d’informations sur un gène donné. En effet, le problème de la « traçabilité » des documents qui relèvent d’un même gène se pose. C’est pour pallier à ce problème que dès 1979, des directives d’attribution de nomenclature des gènes ont été publiées par le HGNC (HUGO (HUman Genome Organisation) Gene Nomenclature Committee) (Shows et al., 1979). Le rôle de ce comité est d’assigner une nomenclature complète et standardisée aux gènes. Son importance s’est accrue avec les publications de la séquence du génome humain, devant faire face à une grande richesse d’information. Voici en résumé les directives établies par le HGNC : Chaque symbole de gène doit être unique. Les symboles doivent représenter une forme courte (ou abréviation) du nom du gène. Les symboles doivent contenir uniquement des lettres latines et des nombres arabes. Les symboles doivent être dépourvus de ponctuation. Les symboles ne doivent pas contenir la lettre G pour « gène ». Les symboles ne doivent pas contenir de référence à l’espèce (par exemple H pour Humain). La nomenclature établie par le HGNC est disponible dans la base de données Genew48 (Wain et al., 2004). Genew contient 22 000 entrées, 75% d’entres elles sont disponibles sur le Web dans un fichier texte et peuvent être interrogées. Ce fichier peut également être téléchargé. Chaque entrée contient 23 champs, incluant le nom, le symbole et l’identifiant attribués par le HGNC, la localisation chromosomique, les anciens noms et symboles, les synonymes, et 14 liens vers d’autres sources telles que : Entrez Gene (anciennement LocusLink, qui propose une vue unifiée sur le gène), OMIM™ (catalogue de maladies génétiques humaines), UniProt (banque protéique), RefSeq (permet d’intégrer l’ensemble des séquences d’ADN, d’ARN et de 48 http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl 26 protéines d’une entrée) (Pruitt et al., 2005) et PubMed (banque d’articles scientifiques) du NCBI (Wheeler et al., 2005). Ces liens vers d’autres sources externes sont qualifiés de cross-références, elles permettent d’accéder aux informations publiques complémentaires autour d’un gène. Un exemple de résultat de requête faite sur la base de données Genew est illustré figure 8. Figure 8 – Exemple de résultat de requête effectuée sur Genew La requête a été faite avec le symbole HEPC. La fiche ainsi délivrée rassemble les informations de nomenclature fournie par le HGNC, ainsi que divers liens vers des banques de données. Le symbole approuvé par le HGNC est HAMP, le nom approuvé est hepcidin antimicrobial peptide. Les 2 synonymes sont HEPC et LEAP-1, l’un d’entre eux est la base de notre requête initiale. 27 III. LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE Depuis que la navigation manuelle au sein des sources ne suffit plus à résoudre les questions complexes que se posent aujourd’hui les biologistes, de nombreuses solutions au problème de l’intégration des sources de données ont été proposées. Des systèmes d’intégration ont été développés pour fournir un accès unique via une même interface à plusieurs sources de données, tout en palliant au problème de leur hétérogénéité. Ces systèmes suivent différentes approches, qui varient sur différents points (Hernandez and Kambhampati, 2004). 1. POINTS DE VARIATION ENTRE LES APPROCHES D’INTÉGRATION On distingue les différentes approches d’intégration selon plusieurs critères que sont le type de données qu’elles intègrent, le niveau de transparence fourni à l’utilisateur, le degré d’intégration sémantique et enfin la méthodologie générale de développement. Il est important de noter que certaines qualifications en impliquent ou en induisent une autre. Par exemple, la transparence de schéma implique l’existence d’un schéma intégré. 1.1. FORMATS DES DONNEES INTÉGRÉES : STRUCTURÉES, SEMI-STRUCTURÉES OU NON-STRUCTURÉES Les systèmes d’intégration peuvent autoriser ou non l’intégration de données structurées, semi-structurées ou non-structurées. Des données structurées ont un schéma prédéfini, où chaque item est défini à partir de l’élément du schéma qui lui correspond. Des données semi-structurées ont une structure mais qui n’est pas définie sous la forme d’un schéma (Buneman, 1997). Chaque item contient sa propre sémantique généralement sous la forme d’un label. Toutefois, la somme de tous les labels des données semi-structurées peut être considérée comme son schéma. Les données non-structurées n’ont aucune structure, comme des documents textuels, des images ou des tableaux de données. 28 1.2. INTÉGRATION SERRÉE VERSUS INTÉGRATION LÂCHE Dans les systèmes d’intégration, on distingue l’intégration serrée (forte ou tight) pour laquelle les données des sources sont intégrées dans un schéma global de l’intégration lâche (légère ou loose) qui ne fournit pas de schéma, mais uniquement un langage pour interroger le contenu des sources de données. Ainsi, l’intégration serrée fournit un schéma, un langage et une transparence d’interface alors que l’intégration lâche n’offre que la transparence. 1.2.1. L’intégration serrée L’intégration serrée fournit un schéma unifié (intégré ou global) comme interface du système. Ce schéma peut être créé selon un processus (semi-)automatique ou peut être créé ad-hoc. Il peut couvrir l’ensemble des données des sources ou uniquement une partie, mais doit conserver la sémantique des sources de données pour ensuite permettre la pertinence des requêtes. Pour assurer l’équivalence sémantique avec les sources de données et le système d’intégration, il faut établir des correspondances entre le schéma global et les schémas des sources (discuté en section III.2.2.1.6.(3)). Ces correspondances peuvent être exprimées par des ontologies ou des définitions de règles. Elles peuvent être exprimées à l’aide de langages ou bien inférées de manière automatique. Ce type d’intégration a l’avantage d’éviter à l’utilisateur de devoir connaître tous les schémas des sources de données, mais plutôt d’avoir une connaissance unique du schéma global. D’un autre côté, il faut définir les correspondances entre les schémas des sources et le schéma global, ceci nécessitant l’implication d’experts du domaine. 1.2.2. L’intégration lâche L’intégration lâche ne fournit pas de schéma global pour l’interrogation du système, mais un langage de requête uniforme qui masque ainsi l’hétérogénéité des sources de données. C’est alors à l’utilisateur de gérer cette hétérogénéité lors de ses requêtes. Pour faciliter l’accès aux données, ce type de système fournit généralement des vues intégrées. Les utilisateurs peuvent en effet définir des vues sur certaines données qui peuvent ensuite être accessibles pour des requêtes. Certains systèmes utilisent beaucoup les vues, certaines étant définies par des experts du domaine, ils peuvent ainsi être considérés comme des systèmes d’intégration forte. Le principal critère pour discerner les deux approches, c’est la visibilité ou non pour les utilisateurs des schémas des sources. Si dans l’intégration serrée, ils ne sont jamais visibles, ils sont au contraire toujours visibles dans l’intégration lâche. 29 1.3. LE MODÈLE DE DONNÉES DU SYSTÈME D’INTÉGRATION Un système d’intégration repose sur un modèle de données. Le modèle est le schéma global dans le cas d’une intégration serrée, et il se base sur le langage de requête utilisé pour accéder aux sources dans le cas d’une intégration lâche. Le modèle de données réduit les types de données qui peuvent être intégrés dans le système d’intégration à cause de certaines impossibilités de transformations entre certains modèles. En effet, des incompatibilités surviennent si des données semi-structurées sont intégrées dans un système de données structurées. De même, des problèmes surviennent si des données provenant d’un modèle hautement sémantique doivent être intégrées dans un modèle plus pauvre. Par exemple, intégrer un schéma orienté objet dans un schéma relationnel induit une perte de connaissance, dans le sens inverse, ceci conduit à un enrichissement sémantique. 1.4. LES TYPES D’INTÉGRATION SÉMANTIQUE Certains systèmes intègrent des sources de données complémentaires ne présentant pas d’objets équivalents et exportent donc certaines parties des schémas de celles-ci. D’autres systèmes, au contraire, intègrent des sources de données ayant des contenus chevauchants. Une agrégation d’information est alors requise pour identifier des objets équivalents d’un point de vue sémantique, c'est-à-dire décrivant le même concept. L’intégration d’informations complémentaires est appelée « intégration horizontale » tandis que l’intégration de données chevauchantes est appelée « intégration verticale » (Sujansky, 2001). Dans le cas d’une intégration verticale, on distingue différents niveaux d’intégration sémantique selon que les données sont – collectées, sans aucune recherche d’équivalence parmi les objets issus des différentes sources ou – fusionnées afin d’identifier des objets provenant de sources différentes mais équivalents d’un point de vue sémantique ou – supplémentées si des données supplémentaires à celles déjà intégrées viennent décrire le contenu ou la sémantique des données déjà intégrées, on parle de alors de méta-données sémantiques. 1.5. LE NIVEAU DE TRANSPARENCE Un des avantages d’un système d’intégration c’est la transparence pour l’utilisateur. Un parfait système d’intégration donne l’illusion aux utilisateurs d’interagir avec un système central, local et homogène. On distingue plusieurs niveaux de transparence : La transparence de localisation – Les utilisateurs n’ont besoin de connaître ni la localisation de la source de données consultée, ni son nom. La transparence de schéma – Les utilisateurs n’ont pas besoin de connaître les différentes appellations fournies par différentes sources de données pour une même entité biologique, et ses qualificatifs. 30 La transparence de langage – L’interrogation du système ne nécessite pas d’expertise de la part des utilisateurs en ce qui concerne les langages de requêtes. Il y a clairement un lien entre le traitement de l’hétérogénéité, décrit en section II.2.2, et le niveau de transparence fourni par un système d’intégration de données. En effet, la transparence de schéma est fournie si le problème de l’hétérogénéité sémantique est résolu, alors que la transparence de langage et de localisation survient si on résout les problèmes liés à l’hétérogénéité syntaxique. 1.6. ASCENDANTE (BOTTOM-UP) VERSUS DESCENDANTE (TOP-DOWN) On distingue deux manières de construire un système d’intégration : top-down, où l’on part de l’information souhaitée, pour ensuite chercher les sources pouvant répondre aux besoins, ou bottom-up, où l’on part de la volonté d’intégrer plusieurs sources de données. Ainsi, dans les approches top-down, les schémas des sources importent peu pour la conception du schéma global. Ils seront seulement pris en compte dans un second temps quand les correspondances entre le schéma global et les schémas des sources seront établies pour permettre l’exécution de requêtes. Dans l’approche bottom-up, il faut que le schéma global fournisse une vue conciliée des différentes sources, impliquant une bonne connaissance au préalable des schémas des sources de données. 1.7. INTÉGRATION VIRTUELLE VERSUS MATÉRIALISÉE Certains systèmes suivent une approche virtuelle ou non matérialisée dans laquelle les données restent au niveau des sources et où les seules données matérialisées sont les résultats des requêtes au moment où elles sont exécutées. Ce type d’approche nécessite une transformation des requêtes posées au schéma global en une ou plusieurs requêtes qui seront distribuées dynamiquement aux sources concernées. Certains systèmes au contraire, suivent une approche matérialisée, dans laquelle ils récupèrent les données partielles ou complètes des sources pour les stocker localement et les combiner dans un schéma global. 1.8. ACCÈS AUX DONNÉES Un utilisateur accède aux données du système d’intégration selon différentes méthodes pouvant être soit un langage de requête de type SQL ou OQL, soit par le biais de la navigation, spécialement dans les systèmes basés sur le Web. 31 2. LES APPROCHES EN BIOINFORMATIQUE On classe généralement les systèmes d’intégration développés dans le contexte de la bioinformatique sous deux grandes catégories : les approches matérialisées, et les approches non matérialisées. Les approches non matérialisées incluent les approches de médiation, les systèmes de bases de données fédérées, et les approches navigationnelles alors que les approches matérialisées concernent les entrepôts de données. 2.1. L’APPROCHE NON MATERIALISÉE Dans l’approche non matérialisée, on distingue tout d’abord les portails, dans lesquels sont regroupés, au sein d’un même site Web, l’accès à diverses banques. Ainsi, les banques de données du NCBI sont actuellement toutes accessibles par le portail Entrez49. De même, ExPASy50 (Expert Protein Analysis System) (Gasteiger et al., 2003), construit autour de Swiss-Prot, est un portail vers un ensemble de sources protéomiques. Certains sites Web proposent un accès unifié et convivial à un ensemble de données complémentaires. Ainsi, GeneCards®51 (Rebhan et al., 1997; Shklar et al., 2005) regroupe un ensemble d’informations permettant une vue générale de la connaissance sur les gènes du génome humain. Les portails offrent un moyen de masquer l’hétérogénéité des sources, et sont très utilisés pour accéder à des informations centralisées. Ceci dit, ce type d’approche est très limité en termes de puissance d’interrogation (Baker et al., 1998; Karp, 1995). Dans les sections suivantes nous présentons deux types d’approches non matérialisées utilisées en bioinformatique, la médiation et l’approche navigationnelle. 2.1.1. La médiation 2.1.1.1. Principe de l’approche de médiation La notion de médiation a été introduite par Wiederhold. Elle consiste à définir une interface entre un utilisateur qui pose une requête et l’ensemble des sources accessibles via le Web potentiellement pertinentes pour répondre (Wiederhold, 1992). L’objectif est de donner l’impression d’interroger un système centralisé et homogène alors que les sources interrogées sont réparties, autonomes et hétérogènes. 49 http://www.ncbi.nlm.nih.gov/Entrez http://www.expasy.org/ 51 http://www.genecards.org/ 50 32 Un système de médiation est composé d’un médiateur et d’adaptateurs (wrappers) qui sont spécifiques à une source donnée (Figure 9). Le médiateur est constitué d’un schéma global (ou ontologie) qui représente le domaine d’application du système, il reçoit la requête de l’utilisateur dans le langage de requête global. La requête est traitée au niveau du médiateur. La phase de réécriture consiste à identifier les sources pertinentes à utiliser pour répondre à la requête, et à établir un plan de requête. Ce dernier décompose la requête globale en sousrequêtes propres à chaque adaptateur et indique comment les combiner pour former le résultat final. Chaque adaptateur reçoit sa sous-requête, exprimée selon son propre schéma local. Il la traduit pour interroger la source locale de données. Requêtes et réponses Moteur de requêtes Schéma global 1 Vue Vue Vue source source source 1 i n Médiateur Réécritures et réponses Adaptateur 1 Schéma local 1 Adaptateur i Adaptateur n Schéma local i Schéma local n Figure 9 – Architecture d’un système médiateur 33 Les systèmes de médiation sont caractérisés par la manière dont les schémas des sources sont liés au schéma global (Levy, 1999). On distingue deux approches différentes (figure 10). GAV LAV Schéma global Source de données Schéma global Source de données Source de données Source de données Figure 10 – Les approches GAV (Global As View) et LAV (Local As View) Les angles indiquent des définitions de vues. Dans l’approche GAV les classes du schéma global sont définies comme des vues sur les schémas locaux des sources. Dans l’approche LAV, les classes des schémas locaux des sources sont définies comme des vues sur le schéma global. La première approche, dite GAV (Global As View) consiste à définir le schéma global comme une vue sur les schémas locaux des sources. La réécriture des requêtes est simple. Elle consiste à remplacer les termes de la requête globale par leurs définitions dans les vues locales. Par contre, il est difficile d’ajouter de nouvelles sources au système. En effet, il faut tenir compte des modifications que vont porter les nouvelles relations dans l’expression du schéma global. Ceci revient pratiquement à réécrire toutes les relations de ce schéma. Dans la seconde approche, dite LAV (Local As View) les sources locales sont définies comme des vues sur le schéma global. Avec cette approche, la réécriture des requêtes est en général plus complexe. En revanche, l’ajout d’une nouvelle source est facilité car il n’a pas de répercussion sur le schéma global. La médiation est largement utilisée comme solution d’intégration non matérialisée en bioinformatique. Cependant, quelques systèmes ont été développés avant l’essor de la médiation et suivent plutôt une approche de type bases de données fédérées. Selon cette approche, chaque schéma d’une base de données à fédérer est transformé en schéma « composant » basé sur le modèle de données commun du système. Cette transformation permet d’avoir tous les schémas des bases à fédérer exprimés dans un même modèle de données. Des « schémas d’export » représentant des sous-ensembles d’un « schéma composant » sont construits. Ils représentent l’ensemble des données mises à la disposition du système fédéré. Enfin, des « schémas fédérés » sont bâtis à partir de plusieurs « schémas d’export » pour répondre aux besoins des différentes applications liées au système fédéré. Parmi les systèmes développés selon l’approche bases de données fédérées, citons TINet un système d’intégration orienté séquences génomiques (Eckman et al., 2001). 34 2.1.1.2. Systèmes utilisant l’approche de médiation (1) K2/Kleisli Le système K2 (Davidson et al., 2001), initialement BioKleisli (Davidson et al., 1997) a été développé à l’Université de Pennsylvanie, il est l’un des premiers systèmes de médiation a avoir vu le jour en bioinformatique. Le médiateur de BioKleisli repose sur un langage de requête de haut niveau, plus expressif que le SQL et qui permet d’interroger plusieurs sources : le CPL (Collection Programming Language) (Hart et al., 1994). En effet, le langage CPL permet de décomposer une requête complexe en sous-requêtes qui vont être distribuées aux sources concernées par le biais d’adaptateurs. Le système permet d’interroger autant de sources qu’il intègre d’adaptateurs. Ainsi, il intègre les données sur les voies métaboliques de KEGG52 (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto, 2000) et EcoCyc53 (Encyclopedia of Escherichia coli) (Keseler et al., 2005), sur les séquences nucléiques de GenBank et dbEST54 (Expressed Sequence Tags database) (Boguski et al., 1993), des données spécifiques d’organismes de MGD et de GDB55 (human Genome DataBase) (Pearson et al., 1992), des données issues de la recherche de similarités de séquences en utilisant BLAST (Altschul et al., 1990) et l’ensemble des données indexées par SRS56 (Sequence Retrieval System) (Zdobnov et al., 2002). BioKleisli est basé sur un schéma orienté objet. Dans K2, la nouvelle version de BioKleisli, le langage CPL a été remplacé par OQL, un langage plus couramment utilisé car plus proche de la syntaxe du SQL. Un autre aspect intéressant de K2 est la possibilité pour l’utilisateur de définir des vues sur les données non seulement par le biais de requêtes OQL, mais également par la création de nouvelles classes objet. C’est le langage K2MDL (K2 Mediator Definition Language), combinaison du langage ODL (Object Definition Language) et de la syntaxe OQL qui permet à l’utilisateur de créer de nouvelles classes en spécifiant comment leurs attributs sont instanciés par les sources de données. Ces nouvelles vues peuvent ensuite être interrogées par OQL. 2.1.1.3. TAMBIS Le système TAMBIS a été développé à l’université de Manchester (Baker et al., 1998). L’originalité du système est d’être basé sur une ontologie, Tambis Ontology (Baker et al., 1999) ou TaO qui permet à l’utilisateur de définir sa requête via une interface en s’appuyant sur les concepts définis dans TaO. TaO exprime les concepts majeurs de la biologie en utilisant la logique de description GRAIL (Rector et al., 1997). Les concepts sont organisés en hiérarchie, et les rôles assurent des relations binaires entre concepts. Ainsi, lorsqu’un utilisateur pose une requête, il explore 52 http://www.genome.ad.jp/kegg/ http://ecocyc.org/ http://www.ncbi.nlm.nih.gov/dbEST/ 55 http://gdbwww.gdb.org/ 56 http://srs.ebi.ac.uk/ 53 54 35 l’ontologie et choisit la combinaison de concepts et de rôles nécessaires à la formulation de sa requête. Par exemple, pour connaître un type particulier de motif dans une protéine, les concepts ‘Motif’ et ‘Protein’ et le rôle ‘IsComponentOf’ qui les associe sont sélectionnés ; un nouveau concept est construit automatiquement dans le langage GRAIL. Ce nouveau terme est positionné dans la hiérarchie de concepts de TaO. En fonction de sa position, un plan d’exécution de requêtes prédéfinies est généré correspondant à un ensemble de sous requêtes à soumettre à des sources différentes. Ces requêtes sont converties dans le langage CPL de K2, assurant ainsi la transformation des requêtes pour adopter les paramètres propres aux sources de données. Le résultat du plan de requêtes est ensuite délivré à l’utilisateur au format HTML. TaO a ensuite été traduite dans le langage DAML+OIL (anciennement OIL) (Stevens et al., 2002), puis OWL qui sont des langages plus expressifs. Ainsi, TAMBIS fournit un accès transparent aux sources de données où l’utilisateur n’a besoin ni de connaître les sources à interroger pour une requête donnée, ni d’être familier avec un langage de requête particulier. 2.1.1.4. BACIIS Dans le même esprit que TAMBIS, le système BACIIS (Biological and Chemical Information Integration System) utilise l’approche médiateur et repose sur une ontologie (Mahoui et al., 2005). Les requêtes sont construites à partir des concepts de l’ontologie, puis décomposées pour être distribuées aux sources requises. Chaque source est associée à un adaptateur qui assure l’exécution de la requête sur la source concernée ainsi que la récupération des résultats. La particularité de BACIIS est l’intégration d’un plus grand nombre de sources de données. Les concepteurs du système considèrent en effet que l’intégration de sources de données chevauchantes, par exemple deux banques de données protéiques, permet d’obtenir des résultats plus pertinents. En effet, BACIIS fournit des solutions au problème d’absence de données dans certaines sources, et de conflits entre données dus aux inconsistances dans les sources de données. Ceci est effectué par une évaluation de la correspondance sémantique entre deux objets de sources différentes. Un algorithme permet d’éliminer les données sémantiquement distantes dans le processus d’intégration. 36 2.1.2. L’approche navigationnelle 2.1.2.1. Principe de l’approche navigationnelle L’intégration navigationnelle ou « basée liens » est fondée sur l’existence de liens entre les données représentées dans différentes sources du Web. Ces liens sont rendus possibles par la présence de références qui permettent à un utilisateur de passer d’une source à une autre et donc d’une donnée à une autre (Figure 11). Source 1 Source 2 Entrée A Entrée B Référence 1 Référence X Référence 2 Référence Y Référence 3 Figure 11 – Connection entre deux sources via une référence Chacune des deux sources 1 et 2 contient un ensemble d’entrées comportant plusieurs références. La référence 1 de la source 1 permet de lier la source 1 avec la source 2. Dans l’approche d’intégration navigationnelle, les requêtes des utilisateurs sont transformées en chemins où un chemin correspond à une suite de références permettant d’accéder à l’information finale attendue. C’est une approche intéressante puisqu’elle peut permettre d’accéder à des informations uniquement accessibles par le biais d’une navigation au sein de plusieurs sources (Friedman et al., 1999). Il faut noter que pour une même requête, plusieurs chemins peuvent accéder à une réponse, chacun ayant son propre niveau de satisfaction à évaluer. L’approche navigationnelle ne sous-entend pas une modélisation des données elles-mêmes mais plutôt une modélisation représentant les sources comme un ensemble de pages avec des interconnections et des points d’entrée, ainsi que des informations complémentaires telles que la spécification du contenu des sources, des éventuelles contraintes de chemins, et des paramètres facultatifs et obligatoires d’entrée (Hernandez and Kambhampati, 2004). Le succès de l’approche navigationnelle en bioinformatique provient de l’existence d’un grand nombre de liens entre les données. Ces liens sont largement utilisés par les chercheurs pour naviguer d’une source à une autre afin de trouver une information. Par exemple, un chercheur qui souhaite des informations sur les protéines impliquées dans une pathologie donnée va naturellement traverser plusieurs sources telles que OMIM™, Entrez Gene et UniProt. Cependant, ce procédé de navigation devient vite impossible si la recherche doit s’effectuer en masse. Des systèmes d’intégration utilisant l’approche navigationnelle ont donc été développés. 37 2.1.2.2. Particularités de l’approche navigationnelle en bioinformatique (1) La diversité de liens Les liens entre les données génomiques sont de natures variées. On distingue dans un premier temps les liens qui conduisent à des informations sur une même entité (par exemple, Protéine à Protéine, de Swiss-Prot à Protein du NCBI) des liens qui apportent des informations sur une autre entité (par exemple, Gène à Pathologie de GenBank à OMIM™). Ensuite, on distingue les liens internes permettant d’accéder à des données d’une même source (par exemple, GenBank vers GenBank) des liens externes permettant d’accéder à des données d’une autre source (par exemple GenBank vers AmiGO). Les liens externes sont également qualifiés de références croisées, ou cross-références, ils ne sont pas nécessairement symétriques. Il y a par exemple un grand nombre de sources qui crossréférencent GenBank et qui ne sont pas référencées en retour. Enfin, on distingue les liens matérialisés par des liens hypertextes qui assurent une navigation d’une source à une autre, des liens matérialisés par des identifiants qui nécessitent alors une connection manuelle aux sources. (2) La diversité des chemins Pour une requête donnée, il existe un très grand nombre de chemins possibles au travers des sources. En effet, considérons par exemple la requête « lister toutes les citations de PubMed qui sont reliées à une entrée OMIM™ relevant de telle pathologie ». Pour répondre à une telle requête, un biologiste (ou un moteur de requêtes) doit naviguer au sein de plusieurs sources. Il est possible de partir d’OMIM™ qui contient des informations sur les maladies génétiques humaines, puis d’utiliser les différentes sources du NCBI. La figure 12 illustre le graphe de liens existants entre les différentes sources du NCBI requises pour répondre à la requête. z OMIM (pathologie) Protein (protéine) z z z GenBank (séquence nucléotidique) PubMed (citation) Figure 12 – Graphe de liens entre les sources du NCBI (adapté de (Lacroix et al., 2004a)) Les points représentent les sources du NCBI (et les entités correspondantes). Les flèches représentent les liens entre les sources. 38 En partant d’OMIM™, et en effectuant une recherche par mot clé sur une maladie donnée, différents chemins sont possibles pour accéder aux citations PubMed. Il est possible d’accéder directement aux citations PubMed à partir d’OMIM™, mais il est également possible d’utiliser des sources intermédiaires, générant ainsi plusieurs chemins. Au total, on trouve cinq chemins entre OMIM™ et PubMed en utilisant le graphe de la figure 12. Ces chemins sont représentés sur la figure 13. (C1) OMIM D PubMed (C2) OMIM D GenBank D PubMed (C3) OMIM D Protein D PubMed (C4) OMIM D GenBank D Protein D PubMed (C5) OMIM D Protein D GenBank D PubMed Figure 13 – Les cinq chemins (C1 à C5) depuis OMIM jusqu’à PubMed en utilisant le graphe de la figure 12 (adapté de (Lacroix et al., 2004a)) Or le choix des chemins a un impact sur le résultat, que ce soit sur le plan qualitatif ou quantitatif (Lacroix et al., 2004a). Par exemple, utiliser un chemin passant par la source Protein (Figure 13, chemin C3) peut amener plus de citations qu’un autre chemin passant par la source GenBank (Figure 13, chemin C2). Le résultat va dépendre directement des sources intermédiaires du chemin et donc des entités biologiques correspondantes traversées et du contenu de chaque source. 2.1.2.3. Systèmes utilisant l’approche navigationnelle Les systèmes développés utilisant l’approche navigationnelle varient en fonction de plusieurs critères. On constate différents niveaux de transparence laissés à l’utilisateur pour le choix des sources à interroger, une prise en compte ou non des différents chemins traversant les sources pouvant être générés pour une même requête, et la manière dont sont évalués ces différents chemins. (1) Le système SRS SRS (Sequence Retrieval System) est un système qui a été initialement développé par l’EMBL puis par l’EBI afin de faciliter l’accès aux banques de séquences (Etzold and Argos, 1993; Etzold et al., 1996). Depuis 1999, SRS est valorisé et commercialisé par LION Bioscience AG57. Il permet aujourd’hui d’interroger à l’aide d’une même interface, 400 banques de données (Zdobnov et al., 2002). 57 http://www.lionbioscience.com/ 39 SRS est plus un système de recherche par mot clé qu’un véritable système d’intégration. En effet, son approche d’intégration repose sur l’utilisation du langage de description et d’exploration des données ICARUS (Interpreter of Commands And Recursive Syntax) qui permet d’indexer toute source de données structurée. Ce langage est d’abord utilisé pour parcourir les sources de données structurées afin d’identifier les données qui y sont décrites puis créer des index pour chacune de ces données. Ces index sont stockés localement et sont utilisés lors des interrogations pour la recherche d’informations. Même si ces index sont stockés localement, SRS ne constitue pas un entrepôt de données puisque les données ellesmêmes ne sont pas intégrées. Ainsi, le principal avantage de ce système est la possibilité de pouvoir indexer en même temps une grande quantité de banques sans se soucier de l'organisation de celles-ci et donc de pouvoir manipuler avec le même langage les principales banques généralistes et beaucoup de banques spécialisées. ICARUS autorise la création automatique d’un réseau de cross-références, permettant ainsi la navigation inter-banques. Cette fonctionnalité fait qu’il est possible de relier entre elles des collections ne présentant pas directement de cross-références. La formulation de requêtes via SRS se fait par l’intermédiaire d’une interface Web. SRS propose aux utilisateurs de choisir la source de données à interroger, ainsi que le mot clé ou la séquence à rechercher. Plusieurs critères de sélection ou plusieurs sources peuvent être utilisés par le biais d’opérateurs logiques ET, OU et NON. SRS délivre le résultat de la recherche ainsi que toute information relative à la requête en exploitant le réseau de crossréférences. L’utilisateur peut ainsi accéder (par simples clics) à des informations complémentaires contenues dans d’autres sources. Si SRS utilise les cross-références présentes dans les sources de données biologiques pour satisfaire au mieux les requêtes, ce système n’offre aucune transparence au niveau des sources, et n’exploite en aucun cas la diversité de chemins pouvant être générée pour une même requête. Ce sont Mork et al. qui les premiers ont proposé une approche transparente et tenant compte des différents chemins générés pour répondre à une requête donnée (Mork et al., 2001). Ils ont ainsi développé le système BioMediator (Donelson et al., 2004; Mork et al., 2005; Shaker et al., 2004). Lacroix et al. ont ensuite introduit les défis d’estimation (Lacroix et al., 2004a) et d’optimisation des chemins (Lacroix et al., 2004b) en développant le système BioNavigation. Ces deux systèmes sont discutés ci-dessous. (2) Le système BioMediator Le système BioMediator, initialement GeneSeek (Mork et al., 2001), a été développé à l’université de Washington. Les concepteurs de BioMediator optent pour un niveau de transparence où l’utilisateur dépose une requête au système, puis récupère son ou ses résultats sans avoir à spécifier les chemins à parcourir et donc les sources à interroger. Plusieurs chemins peuvent être parcourus pour répondre à une même requête, et l’ensemble des résultats par chemin est délivré à l’utilisateur. Les concepteurs assurent également l’intégrité des sources, puisque les 40 sources sont interrogées à distance lors de l’exécution des requêtes, faisant ainsi de BioMediator un système hybride entre l’approche navigationnelle et l’approche médiateur. Le fonctionnement du système BioMediator est le suivant : BioMediator définit des graphes où les nœuds représentent des entrées de sources biologiques et où les arêtes représentent les relations qui relient entre elles les entrées des différentes sources biologiques. Lors de l’exécution d’une requête, c’est ce graphe qui est traversé, permettant ainsi de relier deux entrées d’intérêt, ceci en concaténant différents chemins ou arêtes du graphe. L’architecture de Biomediator se divise en plusieurs composants et repose principalement sur une base de connaisance qui est représentée en Protégé, et accessible via l’API* (Application Programming Interface) de Protégé. La base de connaissance contient : Un schéma de médiation qui comprend une hiérarchie de classes permettant de décrire les entités biologiques (exemple de classes : Gène, Protéine) et une hiérarchie de propriétés correspondant aux relations pouvant exister entre les entités biologiques (exemple : code pour, associé à). La figure 14 illustre un exemple simple de schéma de médiation. Phénotype associé à cause Structure structural Protéine Gène contient code Séquence nucléique reliè à Figure 14 – Exemple de schéma de médiation (adapté de (Mork et al., 2002)) Les ovales représentent des entités biologiques et les flèches, les relations entre ces entités. La relation ‘relié à’ relie toute entité à une autre. Le catalogue de toutes les sources ainsi que les entités du schéma de médiation contenues par ces sources. Des informations décrivant les cross-références entre sources. Il faut noter que cette base de connaissance peut être modifiée. Les utilisateurs peuvent ainsi orienter le système en fonction de leurs besoins et de leurs thématiques, en ajoutant de nouvelles entités, relations et sources de données. Ensuite un générateur de requête fournit une API pour que l’utilisateur formule des requêtes à effectuer sur la base de connaissance. Ce générateur a l’originalité d’utiliser le langage de requêtes PQL, spécialement développé par Mork et al. pour ainsi faciliter la construction de chemins au travers de sources (Mork et al., 2002). PQL est un langage dérivé du StruQL, un langage de requête pour données semi-structurées, permettant de construire des chemins au travers des relations d’un document (Fernandez et al., 1997). Alors que StruQL implique d’énumérer manuellement tous les chemins possibles, PQL contient des règles qui seront utilisées pour construire les chemins, évitant ainsi de déterminer les sources à interroger. 41 Le metawrapper transforme les requêtes faites sur le schéma de médiation en requêtes effectuées sur les sources et les wrappers appliquent les requêtes aux sources de données elles-mêmes. Les résultats de la requête sont ensuite délivrés en format natif, c’est-à-dire propre à la source (par exemple HTML ou ASN.1), puis convertis en XML par les wrappers, et finalement présentés sous une forme plus conviviale par le processeur de requête. Les résultats consistent en un ou plusieurs chemins, ainsi que les données retrouvées par ces différents chemins. Mork et al. ont au départ cherché à déterminer la validité des différents chemins (Mork et al., 2001). Pour ce faire, ils ont utilisé comme critère, la cardinalité des références, qui correspond au nombre d’entrées retrouvées par une référence, et ont attribué une confiance d’autant plus haute que la cardinalité était réduite (Mork et al., 2002). Par la suite, Mork et al. ont préféré que l’évaluation des « bons chemins » soit faite par l’utilisateur plutôt que par le système luimême. Ainsi, avec PQL, le système délivre l’ensemble des chemins possibles, plutôt qu’une liste réduite. (3) Le système BioNavigation BioNavigation est un système d’intégration également basé sur l’approche navigationnelle. Il a été développé à l’université d’Arizona par Lacroix et al. (Lacroix et al., 2005). Tout comme BioMediator, ce système utilise les ontologies afin d’éviter à l’utilisateur, lors d’une interrogation, d’avoir à spécifier les sources à utiliser. D’après Lacroix et al., ceci permet aux utilisateurs de ne pas restreindre leurs requêtes aux caractéristiques et aux limitations des sources qu’ils ont l’habitude d’utiliser. Ainsi, BioNavigation utilise deux niveaux de représentation : le niveau physique qui décrit les sources, leurs contenus et leurs liens entre elles, et le niveau logique ou « ontologie BioNavigation » qui décrit les entités biologiques, les relations entre ces entités ainsi que les correspondances avec les sources contenant ces entités (figure 15). L’ontologie permet à l’utilisateur de visualiser et de naviguer au sein des différentes entités biologiques et ainsi de sélectionner graphiquement celles qui sont nécessaires à la construction d’une requête. Un utilisateur souhaitant récupérer les citations discutant d’un gène particulier va d’abord graphiquement sélectionner l’entité ‘Gène’ puis la relation ‘discuté dans’ puis l’entité ‘Citation’. 42 A – Niveau physique (graphe de sources) B – Niveau logique (graphe d’entités) discuté dans PubMed GenBank DDBJ Citation NCBI Protein GeneCards discuté dans EMBL Genew discute de discute de code pour Gène Pathologie C - Exemples de correspondances entre entités et sources Protéine Protéine discuté dans SwissProt Entité Citation Gène discute de impliqué dans Source de données PubMed GenBank EMBL DDBJ NCBI Protein SwissProt Figure 15 – Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et sources de données (adapté de (Lacroix et al., 2004b)) Le niveau physique (A) correspond aux différentes sources et aux liens qui existent entre elles. Les ovales et les flèches représentent respectivement les sources et les relations. Le niveau logique (B) correspond aux entités biologiques et aux liens qui existent entre elles. Les ovales et les flèches représentent respectivement les entités et les relations. Les entités biologiques du niveau logique sont implémentées par une ou plusieurs sources possibles décrites dans le niveau physique (C). Tout comme BioMediator, BioNavigation fournit à l’utilisateur l’ensemble des chemins possibles pour une requête donnée. Mais BioNavigation apporte une plus-value en fournissant à l’utilisateur des moyens pour évaluer et optimiser les choix de chemins. Lacroix et al. ont en effet démontré qu’en fonction du choix du chemin, différents facteurs peuvent varier comme le coût en temps d’exécution de la requête, la qualité et la quantité des résultats obtenus (Lacroix and Edupuganti, 2004). Toutefois, ils avancent qu’il n’y a pas un seul « meilleur chemin » pour répondre à une requête, mais plutôt plusieurs meilleurs chemins puisque plusieurs paramètres peuvent permettre d’évaluer la satisfaction d’un chemin. Ainsi, dans BioNavigation, lors de l’exécution d’une requête, tous les chemins possibles sont générés et sont classés selon trois paramètres : La cardinalité du chemin – C’est le nombre d’instances de chemins du résultat. Pour un chemin de longueur 1 entre deux sources S1 et S2, c’est le nombre de paires liées (e1,e2), où e1 est une entrée de S1 et e2 de S2. La cardinalité de la cible – C’est le nombre d’objets retrouvés dans la source finale. Le coût de l’évaluation – C’est le coût total de la requête incluant le coût d’exécution locale et les délais d’accession aux sources. 43 Le classement ainsi obtenu permet à l’utilisateur de sélectionner le chemin qui le satisfait au mieux en fonction de ses besoins. En effet, la cardinalité du chemin reflète la probabilité qu’il existe un chemin entre deux sources, la cardinalité de la cible indique le nombre de résultats en sortie et le coût de l’évaluation guide l’utilisateur dans le choix du chemin le plus efficace en temps. (4) Le système BioGuide Des travaux récents apportent une dimension nouvelle à l’approche navigationnelle, il s’agit de la prise en compte des notions de préférence et de stratégies des utilisateurs (CohenBoulakia et al., 2005; Cohen-Boulakia et al., 2004). En effet, Cohen-Boulakia et al., par le biais d’enquêtes, ont démontré que les scientifiques expriment des préférences concernant le choix des sources à interroger et des outils à utiliser, et qu’ils interrogent les sources différemment, utilisant donc différentes stratégies. Les préférences – Les enquêtes ont permis d’identifier 30 critères déterminant la préférence des utilisateurs, et permettant donc de filtrer et/ou de classer les chemins générés pour une requête donnée. Parmi ces critères citons la fiabilité et la facilité d’utilisation. Les stratégies – De manière naturelle un utilisateur souhaitant accéder au résultat d’une requête impliquant plusieurs sources, va naviguer au travers les sources pour lier les différentes entités biologiques impliquées dans la requête. Mais il existe des différences de stratégies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entités au sein des sources, ii) explorent des entités intermédiaires à celles contenues dans la requête et iii) visitent une source donnée une seule fois. Le système BioGuide fournit une interface permettant à un utilisateur de formuler ses propres requêtes, mais également de régler ses propres paramètres de préférences et de stratégies. Un utilisateur peut ainsi filtrer sur différents niveaux : les chemins, les entités ou les sources. Il peut ensuite combiner différentes stratégies. Cohen-Boulakia et al. ont démontré qu’une telle approche permet non seulement de rassembler un plus grand nombre d’informations, mais aussi de confronter et donc de comprendre des données divergentes entre chemins différents (Cohen-Boulakia et al., 2005). 2.2. 2.2.1. L’APPROCHE MATERIALISÉE : ENTREPÔT DE DONNÉES Principe de l’approche entrepôt de données L’entrepôt de données (data warehouse) est un système d’information particulier, qualifié de décisionnel, permettant à ses utilisateurs de disposer d’informations pertinentes et d’outils d’analyse puissants pour faciliter la prise de décision. Le concept d’entrepôt est né dans l’entreprise et plus spécifiquement dans les secteurs du commerce et du marketing où pour faire face à la concurrence, l’informatique décisionnelle s’est développée. Aujourd’hui, l’utilisation de l’entrepôt de données s’est répandue dans divers domaines tels que, entre autre, la biologie et la géographie. 44 2.2.1.1. Système d’information transactionnel versus décisionnel L’entrepôt de données est différent des systèmes d’informations classiques qualifiés de Systèmes d’Information transactionnel, car les besoins pour lesquels on veut le construire sont différents (Franco, 1997). Les systèmes d’information transactionnels sont communément appelés OLTP* (On Line Transactionnel Processing) pour indiquer qu’ils servent à traiter des processus transactionnels en ligne. Ces systèmes sont caractérisés par un nombre d’utilisateurs important, des interrogations et des modifications fréquentes, et des volumes de données par transaction relativement faibles. Dans ce cadre, le modèle de données est destiné à minimiser les redondances pour préserver la fiabilité et la cohérence du système. De cette manière le système garantit une réduction des temps d’exécution et facilite les procédures d’ajout, de suppression et de modification. À l'inverse, les entrepôts de données sont dédiés à la prise de décision. Ils sont qualifiés de OLAP* (On Line Analytical Processing) car l’exploitation des informations contenues dans ces systèmes est réalisée par des processus d’analyse en ligne des données (Codd, 1993). Ces systèmes sont utilisés par un nombre restreint d’utilisateurs et privilégient le fait de pouvoir poser une grande variété de requêtes de manière interactive et plus rapide qu’en OLTP sur de grands volumes de données. Ces requêtes peuvent être simples, ou au contraire plus complexes, permettant ainsi de mettre en relation des éléments qui a priori ne sont pas corrélés au départ. Il faut donc une organisation qui permet de mémoriser de grands jeux de données et qui facilite la recherche de connaissance. Ainsi, l’entrepôt de données est entièrement construit selon une approche dimensionnelle. De plus, l’information qu’il contient est mise à jour par des sources de données externes lors de procédures de chargement. Aussi, le modèle de données doit assurer l’intégrité* des données lors de l’intégration. Ceci implique une cohérence du schéma global de l’entrepôt et une alimentation réfléchie et planifiée dans le temps. 2.2.1.2. La définition d’entrepôt Inmon, précurseur du concept de l’entrepôt de données, fournit la définition suivante (Inmon, 2002) : « Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles, historisées et disponibles pour le support d’un processus d’aide à la décision. » Orientation sujet – Les données d’un entrepôt s’organisent par sujets ou thèmes. L’intérêt de ce type d’organisation est de disposer de l’ensemble des informations sur un sujet, et de développer des analyses décisionnelles via une approche incrémentale sujet après sujet. L’intégration des différents sujets dans une structure unique est nécessaire car les informations communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique, ce sont les datamarts* qui supportent l’orientation sujet, ils représentent physiquement des sous-ensembles de l’entrepôt de données. Données intégrées – Les données d’un entrepôt sont le résultat de l’intégration de données en provenance de multiples sources. L’intégration implique une mise en forme et une unification des données afin d’avoir un état de cohérence. 45 Données historisées – Dans une base de données, la donnée est mise à jour à chaque nouvelle transaction. Dans un entrepôt de données, l’historique de la valeur des données est conservé. Un référentiel de temps doit alors être associé aux données afin d’identifier les valeurs particulières dans le temps. Données non volatiles – La non volatilité est la conséquence de l’historisation décrite précédemment. Une requête lancée à différentes dates, en précisant la date de référence de l’information recherchée, donnera le même résultat. Les données sont non volatiles, elles ne disparaissent pas après les mises à jour. Données disponibles pour le support d’un processus d’aide à la décision – Des outils d’analyse et d’interrogation doivent permettre aux utilisateurs de consulter facilement les données. Une schématisation de l’architecture d’un entrepôt de données est représentée figure 16. Zone source Zone de préparation Extraction Transformation Chargement Zone de présentation Zone de restitution Alimentation Analyse Sources de données Briques de données Datamarts Outils d’analyse (OLAP, data mining et visualisation) Figure 16 – Architecture d’un entrepôt de données La zone de préparation des données représente un ensemble de processus chargés d’extraire les données de la zone source, de les transformer, de les charger et de les stocker dans l’entrepôt. La zone de présentation des données est chargée de répondre aux requêtes émises par les utilisateurs. Elle offre donc des services d’interrogation contrairement à la zone de préparation. C’est au niveau de la zone de présentation que se situent les datamarts, alimentés depuis la zone de préparation et interrogés par les outils d’analyse de types OLAP, fouille de données, communément appelée data mining et visualisation de la zone de restitution. 46 Les données d’un entrepôt se structurent selon deux axes : synthétique et historique (figure 17). Métadonnées Données fortement agrégées Niveau de synthèse Données agrégées Données détaillées z z Données détaillées historisées Niveau d’historique Figure 17 - Architecture des données dans un entrepôt L’axe synthétique établit une hiérarchie d’agrégation. Il comprend les données détaillées (qui représentent les évènements les plus récents au bas de la hiérarchie), les données agrégées (qui synthétisent les données détaillées) et les données fortement agrégées (qui synthétisent à un niveau supérieur les données agrégées). L’axe historique comprend les données détaillées historisées, qui représentent des évènements passés. Les méta-données contiennent des informations concernant les données de l’entrepôt telles que leur provenance et leur structure, ainsi que les méthodes pour réaliser l’agrégation. 2.2.1.3. La modélisation de l’entrepôt de données La conception d’un entrepôt de données est très différente de celle des bases de données transactionnelles, puisque les besoins en termes d’analyses sont différents. Un entrepôt de données repose sur un modèle multidimensionnel de données. (1) Le modèle multidimensionnel de données Le modèle multidimensionnel de données est adapté aux besoins de l’analyse des données d’un entrepôt. Ce modèle permet d’observer des données selon plusieurs perspectives ou axes d’analyses. Ainsi, l’accès aux données par les utilisateurs est intuitif et l’interrogation plus facile. Le constructeur fondamental du modèle multidimensionnel est le cube de données. Un cube organise les données en plusieurs dimensions* qui déterminent une mesure d’intérêt appelée fait*. Une dimension spécifie la manière dont on regarde les données pour les analyser alors qu’un fait est un objet d’analyse. Chaque dimension est formée par un ensemble d’attributs et chaque attribut peut prendre différentes valeurs. 47 Les dimensions possèdent en général des hiérarchies associées qui organisent les attributs à différents niveaux pour observer les données selon différentes granularités. Une dimension peut avoir plusieurs hiérarchies associées, chacune spécifiant différentes relations d’ordre entre ses attributs. Un exemple de cube de données est représenté figure 18. Quantité CyclineD1 Protéine CyclineB CyclineA H24 Foie Cerveau H12 Rate H0 Temps Organe Figure 18 - Exemple de cube de données Dans ce cube, la mesure d’intérêt est la Quantité de Protéine produite dans un Organe à un Temps donné. Le cube présente alors trois dimensions : Protéine, Organe et Temps. La mesure ou fait est la Quantité de protéine. (2) Les schémas de données Le modèle multidimensionnel décrit précédemment est implanté directement par des systèmes appelés SGBD* (Systèmes de Gestion de Bases de Données) pouvant être de différents types, ils sont décrits dans la section suivante (section III.2.2.1.4). Différents schémas peuvent être utilisés pour la représentation des données au sein de ces SGBD. Ces schémas sont constitués du fait central et des dimensions. On distingue les modèles en étoile, en flocon et en constellation (figure 19). Modélisation en étoile – Une table centrale réunit tous les faits qui partagent le même ensemble de dimensions, on parle de table de faits. Autour de cette table figurent tous les éléments caractérisant les dimensions d’analyse. Ces caractéristiques sont regroupées dans des tables de dimensions. Le modèle en étoile part du principe que ce sont principalement les analyses des faits qui intéresseront l’utilisateur. Modélisation en flocon – Le flocon est simplement une étoile dont les branches sont ellesmêmes décomposées en sous-hiérarchies. Modéliser en flocon c’est donc conserver le cœur de l’étoile et affiner la modélisation des tables de dimensions pour les éclater en sous-tables. Modélisation en constellation – Ce type de modélisation fusionne plusieurs modèles en étoile qui utilisent des dimensions communes. Un modèle en constellation comprend donc plusieurs faits et des dimensions communes. 48 Dimension 2 Attribut 1 Attribut 2 Dimension 1 Attribut 1 Attribut 2 Fait Dimension 3 Mesure 1 Mesure 2 Attribut 1 Attribut 2 Dimension 4 Attribut 1 Attribut 2 Modèle en étoile Catégorie Attribut 1 Attribut 2 Dimension 2 Type Attribut 1 Attribut 1 Attribut 2 Sous-type Attribut 2 Attribut 1 Attribut 2 Sous-Cat Attribut 1 Dimension 1 Attribut 2 Attribut 1 Attribut 2 Fait Dimension 3 Mesure 1 Mesure 2 Attribut 1 Attribut 2 Ss-ss-Cat Attribut 1 Dimension 4 Attribut 2 Attribut 1 Attribut 2 Modèle en flocon Dimension A Attribut 1 Attribut 2 Dimension 1 Attribut 1 Attribut 2 Fait 1 Dimension B Fait 2 Dimension 2 Mesure 1 Mesure 2 Attribut 1 Mesure 1 Mesure 2 Attribut 1 Attribut 2 Dimension 2 Dimension 2 Attribut 1 Attribut 1 Attribut 2 Attribut 2 Attribut 2 Modèle en constellation Figure 19 - Les différents schémas pour la représentation de données multidimensionnelles 49 2.2.1.4. Stockage et gestion Les systèmes OLAP sont souvent classés par rapport au SGBD utilisé pour le stockage et la gestion des données. Les systèmes MOLAP (Multidimensionnal On Line Analytical Processing) – Ils utilisent un SGBDM (SGBD Multidimensionnel) qui gère de manière native les structures dimensionnelles. Ces systèmes présentent un temps de réponse faible aux calculs puisqu’ils effectuent la pré-agrégation et le pré-calcul des données. Les systèmes ROLAP (Relational On Line Analytical Processing) – Ils utilisent un SGBDR (SGBD Relationnel). Dans ce cas, chaque fait correspond à une table et chaque dimension correspond à une table. Ces systèmes peuvent stocker de grands volumes de données mais peuvent présenter un temps de réponse élevé. Les systèmes HOLAP (Hybrid On Line Analytical Processing) – Ils constituent des systèmes hybrides ROLAP MOLAP. Dans ce cas, les données agrégées sont stockées dans un SGBDM et les données détaillées sont stockées dans un SGBDR. Ainsi, il est possible de gérer une grande quantité de données, et en même temps d’avoir un temps de réponse acceptable. Les systèmes OOLAP (Object On Line Analytical Processing) – Ils utilisent un SGBDO (SGDBD orienté Objet). Un fait devient une classe de fait et une dimension devient une classe de dimension. L’intérêt de l’approche OOLAP par rapport à ROLAP est sa plus grande richesse de modélisation. 2.2.1.5. Analyse des données dans l’entrepôt (1) Analyse multidimensionnelle Les données dimensionnelles sont visualisées sous la forme d’un cube, qui représente un schéma en étoile comportant trois dimensions (les trois dimensions du cube) et l’intersection dans l’espace de ces axes constitue la mesure analysée. Bien sûr, lorsque le schéma comporte plus de trois dimensions, il faut dessiner une forme à n dimensions, n étant le nombre de dimensions du schéma en étoile considéré. Ensuite, différentes opérations permettent de manipuler les données multidimensionnelles. Ce sont les outils OLAP qui implantent ces opérations. On distingue les opérations classiques (sélection, projection, produit cartésien, …), les opérations agissant sur la structure multidimensionnelle (rotation, extraction) et les opérations agissant sur la granularité (forage). OPÉRATIONS AGISSANT SUR LA STRUCTURE Les opérations agissant sur la structure multidimensionnelle visent à changer le point de vue des données observées. Parmi les opérations les plus courantes, la rotation et l’extraction. 50 La rotation (slice) – Elle consiste à effectuer une rotation du cube, de manière à représenter une face différente. La rotation est illustrée figure 20 ci-dessous. Quantité Quantité Slice Protéine Organe Foie CyclineD1 Cerveau CyclineB CyclineA Foie Cerveau Rate H24 Rate H24 H12 Temps H0 H12 H0 CyclineA CyclineB CyclineD1 Organe Figure 20 – La rotation Temps Protéine L’extraction (dice) – Elle consiste à extraire une sous partie du cube de données, il en résulte un sous-cube. L’extraction est illustrée figure 21 ci-dessous. Quantité Protéine Quantité Dice CyclineD1 Protéine CyclineD1 CyclineB CyclineA CyclineA Foie Cerveau Rate H24 H0 H24 H12 Temps H0 Foie Temps Rate Organe Organe Figure 21 – L’extraction OPÉRATIONS AGISSANT SUR LA GRANULARITÉ Le forage vers le haut (ou roll-up) – Il consiste à représenter les données du cube à un niveau de granularité supérieur conformément à la hiérarchie définie sur la dimension. Une fonction d’agrégation* (somme, moyenne, …) spécifiée pour la mesure et la dimension indique comment sont calculées les valeurs du niveau supérieur à partir de celles du niveau inférieur. Le forage vers le bas (ou drill-down) – Il consiste à représenter les données du cube à un niveau de granularité inférieur, donc sous une forme plus détaillée. 51 La figure 22 illustre un exemple de forage. CyclineD1 Drill-down CyclineB CyclineA Cyclines Roll-up Protéines du cycle cellulaire Figure 22 – Application des opérations roll-up et drill-down sur la dimension Protéine (2) Data Mining Le terme de data mining est souvent employé de manière abusive pour désigner des outils permettant d’analyser des données volumineuses. En réalité, le terme de data mining doit être attribué à un certain type d’analyse qui permet la recherche de connaissance cachée dans les données, sous forme de modèles de comportement. Contrairement aux outils OLAP, où l’utilisateur choisit les éléments qu’il veut observer ou analyser, dans le cas du data mining, le système a l’initiative et découvre lui-même les associations entre données, sans intervention de l’utilisateur. Il est alors possible de prédire des évènements ou comportements, et de détecter des données inusuelles, exceptionnelles. Plusieurs techniques de data mining ont été utilisées dans des outils statistiques spécialisés pour l’analyse de quantités réduites de données, elles ont évolué pour s’intégrer avec les entrepôts de données. Ainsi, le succès de l’entrepôt de données a dynamisé l’offre de data mining. D’un côté les techniques de data mining sont plus performantes lorsqu’elles sont utilisées pour analyser les données d’un entrepôt, parce que les données de qualité qu’il intègre évitent que l’outil passe du temps à faire des tâches préalables, tel que le nettoyage de données. De l’autre côté, la capacité d’analyse unique que ces outils fournissent aux utilisateurs de l’entrepôt provoque une augmentation de sa valeur stratégique. 2.2.1.6. Construction d’un entrepôt de données D’après Inmon, « L’entrepôt de données n’est pas un produit ou un logiciel mais un environnement. Il ne s’achète pas, il se bâtit. » (Inmon, 2002). La construction d’un entrepôt de données se déroule en plusieurs étapes, et comprend la définition des besoins, la conception du modèle de données, et enfin l’intégration des données. 52 (1) La définition des besoins Cette étape est préalable à l’implantation de tout nouveau système d’information. L’étude des besoins doit déterminer le contenu de l’entrepôt et son organisation, ainsi que les requêtes que les utilisateurs formuleront. Cette étape est réalisée par le biais d’interviews auprès des futurs utilisateurs du système. Les interviews permettent de recenser les données à étudier et dans quelles dimensions. Il faut ensuite identifier les sources requises pour l’intégration de ces données. La variété des besoins peut entraîner un découpage de l’entrepôt en plusieurs parties que sont les datamarts. (2) La conception du modèle de données L’ambition de l’entrepôt de données est de fédérer un ensemble de données provenant de sources variées, via un modèle global. La pertinence du système en termes de réponses aux requêtes repose alors entièrement sur la pertinence de ce modèle global. Pour réaliser ce modèle global, il faut agréger les données provenant des différentes sources. Ainsi, des efforts sont à fournir pour : Respecter la fiabilité de l’information. Respecter la cohérence des informations, une même donnée pouvant provenir de deux sources différentes, il faut alors choisir la plus judicieuse. Assurer la consolidation des informations, c'est-à-dire définir de manière unique une donnée. Unifier la représentation des données. Vérifier la non-redondance des informations. (3) L’intégration des données L’intégration est la procédure qui permet de transférer les données des sources externes vers l’entrepôt de données, en les adaptant. Elle est divisée en quatre étapes qui sont : 1) l’extraction des données des sources, 2) la transformation des données aux niveaux structurel et sémantique, 3) l’intégration des données et enfin 4) le stockage des données intégrées dans le système cible. Il faut noter que cette décomposition est seulement logique. L’étape d’extraction et une partie de l’étape de transformation peuvent être groupées dans le même composant logiciel, tel qu’un adaptateur (wrapper) ou un outil de migration de données. L’étape d’intégration est souvent couplée avec des possibilités de transformation de données dans un même composant logiciel, qui, habituellement, réalise le chargement dans l’entrepôt de données. Toutes les étapes de traitement peuvent aussi être groupées dans un même logiciel. Quand les étapes d’extraction et d’intégration sont séparées, les données nécessitent d’être stockées entre les deux. Ceci peut être fait en utilisant un média par source ou un média pour toutes les sources. 53 Une vue opérationnelle typique de ces composants est donnée par la figure 23. Adaptateur Source Extraction / Transformation Entrepôt Source Extraction / Transformation Intégration/ Transformation/ Chargement Figure 23 – Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données Les composants logiciels sont représentés par des rectangles. Les ellipses désignent des stockages intermédiaires des résultats de l’étape d’extraction/transformation. Toutes les données qui sont en entrée du composant intégration utilisent le même modèle de représentation de données. Finalement, un « wrapper » est associé à chaque source, fournissant ainsi une interface API à la source. L’un des principaux problèmes posés par l’intégration des données consiste à effectuer la transformation des données du format des sources vers le format de l’entrepôt de données. Ce processus de transformation requiert la mise en correspondance structurelle et sémantique entre le schéma des sources de données et le schéma global de l’entrepôt de données (Bernstein and Rahm, 2000). Il s’agit de la correspondance inter-schémas ou appariement de schémas (schema matching). Il existe différentes approches de correspondance inter-schémas. Elles dépendent du type d’information du schéma qui est utilisé et comment cette information est interprétée (Rahm and Bernstein, 2001). Commençons par rappeler les définitions de schéma et de correspondance inter-schémas. Un schéma est un ensemble d’éléments connectés par une certaine structure. En pratique, il existe différentes représentations, qui sont le modèle relationnel, le modèle orienté objet ou le XML. Dans chacune des représentations, on distingue des éléments et des structures : les entités et les relations dans le modèle relationnel, les objets et les relations dans le modèle orienté objet et les éléments et les sous-éléments dans le XML. Etant donné un schéma global G et une source de données dont le schéma est noté S, la correspondance inter-schémas consiste à identifier les éléments des deux schémas (S et G) qui se correspondent, et comment ces éléments sont reliés. On distingue différents types de relations entre les éléments de deux schémas. Ils peuvent être directionnels (un élément de S correspond à un élément de G) ou non directionnels (une combinaison d’éléments de S et G se correspondent). Il peut s’agir de relations par le biais d’opérateurs (= ; > …) ou de fonctions (addition, concaténation). Il peut s’agir de relations d’ensembles (chevauchement, contenance) ou toute autre relation exprimée en langage naturel. L’implémentation des correspondances inter-schémas se fait par des algorithmes, qui se basent sur différents critères pour établir les correspondances. On distingue les critères de classification suivants (Rahm and Bernstein, 2001) : 54 Instance versus schéma – Les correspondances peuvent être effectuées à partir des instances (le contenu des données) ou seulement à partir de l’information contenue au niveau du schéma. Elément versus structure – Les correspondances peuvent être effectuées pour des éléments individuels du schéma ou pour des combinaisons d’éléments, comme des sousstructures complexes de schémas. Langage versus contrainte – Les correspondances peuvent se baser sur des approches linguistiques (en utilisant les noms des éléments du schéma, par exemple égalité de nom, synonymie, etc …) ou sur des approches de contraintes (en utilisant les relations). Correspondance de cardinalité – La correspondance peut être basée sur la relation d’un ou plusieurs éléments d’un schéma avec un ou plusieurs éléments de l’autre schéma, ceci menant à quatre cas : 1:1, 1:n, n:1, n:m. Information auxiliaire – Un certain nombre d’algorithmes de correspondance ne reposent pas uniquement sur les schémas en entrée mais sur des informations auxiliaires, telles que les dictionnaires, les schémas globaux ou des correspondances déjà effectuées. Il faut noter que certains algorithmes effectuent les correspondances en se basant sur un seul de ces critères, alors que certains combinent plusieurs critères. 2.2.2. Les entrepôts de données en bioinformatique Si beaucoup d’entrepôts de données se sont développés dans le secteur commercial depuis les années 90, ce n’est que depuis récemment que l’utilisation de l’approche entrepôt s’est répandue en bioinformatique (Kasprzyk et al., 2004). Ceci s’explique par le fait que les données biologiques, contrairement aux données de l’entreprise, sont plutôt descriptives et non numériques, et de nature complexes et hétérogènes. Ainsi, les processus de mise en œuvre de l’entrepôt deviennent plus complexes. Cependant, de nombreux avantages de l’approche ont tout de même motivé son utilisation dans le secteur de la bioinformatique (Davidson et al., 2001; Hernandez and Kambhampati, 2004) : La grande capacité de gestion et de stockage – L’entrepôt de données peut stocker de larges volumes de données. Ceci est très bien adapté à la gestion de données provenant de multiples sources privées et/ou répandues sur le Web, mais également à la gestion de données issues des nouvelles technologies qualifiées de « haut débit ». La représentation multidimensionnelle des données – L’organisation des données par dimension est très adaptée à la manière dont sont spécialisées par thèmes les sources de données génomiques sur le Web. Cependant, il faut prendre en considération le fait que certaines sources ont des contenus chevauchants. Ainsi, plusieurs sources de données peuvent être utilisées pour représenter une dimension, c'est-à-dire un thème. La performance des requêtes – Les données sont matérialisées physiquement au sein d’un schéma global. Les temps de connexion aux sources de données lors des requêtes sont éliminés, et les requêtes sont optimisées car elles sont exécutées localement. 55 La transformation de données lors de l’intégration – Le processus de transformation des données avant leur intégration dans un schéma global permet de réconcilier les contenus provenant de sources de données chevauchantes (intégration verticale) et/ou complémentaires (intégration horizontale) (voir section III.1.4). Ce processus permet de résoudre les nombreux problèmes de nomenclature des gènes et de réconcilier cette connaissance au sein d’un même schéma. La modification des données par l’utilisateur – Les données étant disponibles localement, l’utilisateur peut filtrer, valider ou invalider, rectifier ou annoter les données provenant des sources. Ainsi, l’expertise de l’utilisateur peut être prise en compte. Les possibilités d’analyse – Dans une approche de type entrepôt de données, on peut combiner deux types d’analyse, les analyses « avec a priori » correspondant à des requêtes bien définies par l’utilisateur, et des analyse « sans a priori » qui correspondent à du data mining. Ainsi, on dispose d’un environnement qui permet 1) de naviguer au sein de données diverses et réconciliées et 2) d’extraire de la connaissance à partir de données jusqu’alors non confrontées. On constate que parmi les entrepôts de données développés en bioinformatique, et décrits dans la littérature, aucun n’emploie l’ensemble de ces avantages. Aussi, aucun système ne correspond pour l’heure à l’architecture entrepôt de données tel qu’on l’a définie précédemment, avec toutes ses possibilités et ses caractéristiques. On constate plutôt que selon le type de données intégrées et les besoins en analyse, seules quelques particularités de l’approche entrepôt de données sont employées. Nous allons illustrer notre commentaire sur quatre entrepôts de données décrits dans la littérature. Ainsi, l’entrepôt de données GUS (Genomics Unified Schema) (Davidson et al., 2001) tire profit de l’élaboration d’un schéma global et d’une intégration sémantique forte pour fournir un environnement qui associe un gène à ses éventuels transcrits et protéines. L’entrepôt Atlas (Shah et al., 2005) se base également sur un modèle relationnel comportant plusieurs sousmodèles par catégorie de données intégrées. Les mêmes tables sont utilisées pour décrire des entités équivalentes mais provenant de sources différentes. Atlas réalise ainsi une intégration sémantique. Les entrepôts de données Columba (Trissl et al., 2005) et EnsMart (Kasprzyk et al., 2004) exploitent quant à eux la modélisation multidimensionnelle en se basant sur des schémas étoile, où les sources de données sont vues comme des dimensions de l’entrepôt. Ces entrepôts de données sont décrits plus en détail dans les sections qui suivent. 2.2.2.1. GUS GUS (Genomics Unified Schema) est un entrepôt de données qui intègre des données sur les séquences nucléiques et protéiques identifiées chez l’homme et la souris (Davidson et al., 2001). Ces données sont intégrées à partir des principales banques de données de séquences que sont GenBank/EMBL/DDBJ, dbEST et Swiss-Prot, et elles peuvent être modifiées et/ou annotées par l’utilisateur. 56 GUS est basé sur un modèle relationnel et le schéma de données utilise le dogme biologique (ADN D ARN D Protéine) pour sa représentation. Ainsi, les tables de GUS gèrent les annotations sur les gènes, sur les ARNs dérivés de ces gènes et enfin sur les protéines dérivées de ces ARNs. Dans GUS, on attache beaucoup d’importance à la provenance des données ainsi qu’à l’historique des annotations intégrées au fur et à mesure de la construction de l’entrepôt. Ceci permet d’archiver l’histoire d’une annotation et d’appréhender la qualité de celle-ci selon si elle a été obtenue par des méthodes prédictives ou bien par expérimentation. Le schéma de GUS comporte donc des tables spécialement dédiées pour le stockage de la provenance et de l’historique des données. Elles viennent s’ajouter aux tables servant à représenter les sources de données. Avec un total de 180 tables, le schéma de GUS est très dense, aussi, une couche objet a été ajoutée au dessus de l’implémentation relationnelle pour une meilleure manipulation des entités biologiques intégrées. Les mises à jour dans GUS s’effectuent tous les deux ou trois mois. Toutes les sources sont analysées pour détecter les nouvelles entrées, les entrées modifiées ou intactes. GUS peut être interrogé via le Web58. 2.2.2.2. Atlas Atlas est un entrepôt de données biologique qui intègre des données sur les séquences, les interactions moléculaires, les informations sur l’homologie, les annotations fonctionnelles de gènes, et des ontologies biologiques (Shah et al., 2005). La particularité d’Atlas est de catégoriser les sources de données intégrées en quatre types de données que sont ‘séquence’, ‘interactions moléculaires’, ‘ressources génomiques’ et ‘ontologies’, et d’associer à chaque catégorie un modèle relationnel. Un seul modèle relationnel est par exemple utilisé pour décrire les données provenant des sources GenBank, RefSeq et UniProt, associées à la catégorie ‘séquence’. Ensuite, les données sont interrogées par des APIs qui encapsulent le langage de requête SQL pour un accès plus fin aux données. Une ontologie spécifique à Atlas est utilisée pour cross-référencer les types biologiques intégrés, qui ne sont pas toujours reliés dans les sources. Des outils reposant sur les APIs développées sont disponibles. Ils permettent soit d’effectuer des interrogations simples sur des types de données spécifiques, soit d’effectuer des requêtes plus complexes qui infèrent des interactions moléculaires. Atlas est disponible sur le site Web de UBiC59 (UBC (University of British Columbia) Bionformatics Center). L’application peut être téléchargée, elle est distribuée sous une licence publique GNU* (GNU’s Not UNIX). 58 59 http://www.allgenes.org/ http://bioinformatics.ubc.ca/atlas/ 57 2.2.2.3. Columba Columba est un entrepôt d’annotations sur les structures protéiques (Trissl et al., 2005). Il intègre les entrées provenant de PDB ainsi que les annotations provenant de diverses sources de données développées autour des protéines. Parmi les sources intégrées, citons KEGG pour les informations sur les réseaux métaboliques, ENZYME60 (Bairoch, 2000) pour la nomenclature des enzymes, SCOP61 (Reedy and Bourne, 2003) et CATH62 (Pearl et al., 2003) pour les informations de repliement des protéines, Swiss-Prot et GO pour les annotations fonctionnelles et NCBI Taxonomy63 pour les informations taxonomiques. Ainsi, Columba fournit une information plus riche que PDB. Le schéma de Columba repose sur un modèle relationnel. Il s’agit d’un schéma en étoile où l’entrée de la source PDB est au centre et où chaque source qui renseigne la protéine représente une dimension. Chaque dimension se spécialise via un sous-schéma (figure 24). Figure 24 – Schéma étoile de Columba (extrait de (Trissl et al., 2005)) La partie grise foncée du milieu correspond à un sous-schéma de la source PDB. Les autres sousschémas ou dimensions, sont représentés par des boîtes blanches indiquant le nom de la source de données et sont regroupés par type de contenu. De cette manière les données de sources différentes ne sont jamais représentées dans une même table, il n’y a donc pas d’intégration sémantique forte, telle que décrite dans la section III.1.4. 60 http://www.expasy.org/enzyme/ http://scop.mrc-lmb.cam.ac.uk/scop/ http://www.biochem.ucl.ac.uk/bsm/cath/cath.html 63 http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Taxonomy 61 62 58 Au contraire, dans le schéma de Columba, les redondances existent. Par exemple, on intègre dans Columba l’annotation fonctionnelle provenant de GO et celle provenant des mots clés de Swiss-Prot. Les concepteurs de Columba considèrent que les redondances ne sont pas des informations dupliquées mais plutôt des données complémentaires intéressantes puisque obtenues par différentes personnes et/ou dans différentes expériences. Il n’y a donc pas de discrimination à faire. De plus, ils estiment que les utilisateurs ont leur préférence en termes de choix des sources à interroger. L’entrepôt de données Columba est accessible via le Web64. Des requêtes peuvent être formulées soit à l’aide de mots clés et d’opérateurs de type AND, OR et NOT, soit par le biais de formulaires permettant de guider l’utilisateur dans sa formulation. De cette manière, l’utilisateur peut affiner sa requête pas à pas et ainsi obtenir des ensembles de structures protéiques qui partagent certaines propriétés. 2.2.2.4. EnsMart EnsMart est un entrepôt de données qui conceptuellement suit la même approche que Columba. Il intègre des données génomiques multi-espèces, provenant des banques de Ensembl (Kasprzyk et al., 2004). Le système est basé sur un schéma en étoile, où le gène est placé au centre et où il est relié à différentes dimensions qui représentent les sources de données intégrées. Ainsi, le gène est relié à sa position génomique, ses facteurs de transcription et ses données d’expression. EnsMart est accessible via le Web65. L’utilisateur compose ses requêtes via des formulaires qui permettent de définir un ensemble de données à interroger, ainsi que des filtres à appliquer. 3. DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE Nous avons décrit dans la section précédente, les différentes approches d’intégration utilisées en bioinformatique. Elles se divisent en deux catégories que sont les approches non matérialisées et les approches matérialisées. Pour chaque type d’approche d’intégration, différents systèmes ont été présentés reflétant ainsi l’état actuel des développements dans le domaine de l’intégration de données en bioinformatique. Pour chaque système, nous avons tenté de mettre en évidence leurs caractéristiques par rapport aux points de variation entre les systèmes d’intégration, tels que décrits dans la section III.1. La table 5, au dos, illustre ces caractéristiques. 64 65 http://www.columba-db.de/ http://www.ensembl.org/Multi/martview 59 60 Totale ou choix des sources Totale ou choix des sources Schéma et langage Données complémentaires Données chevauchantes Données chevauchantes Données chevauchantes Structuré, relationnel-objet Structuré, relationnel Structuré, relationnel Structuré, relationnel multidimensionnel Structuré, relationnel miltidimensionnel Serrée BioMediator Serrée Serrée Serrée Atlas Columba EnsMart Totale Totale ou choix des sources Choix des sources Totale Schéma Totale Totale Ascendant Ascendant Ascendant Matérialisé Matérialisé Matérialisé Matérialisé Virtuel Descendant Ascendant Virtuel Virtuel Virtuel Virtuel Virtuel Virtuel Virtuel vs Matérialisé Descendant Descendant Descendant Descendant Descendant Descendant Ascendant vs Descendant Table 5 – Table récapitulative des systèmes d’intégration décrits en section III.2 et de leurs points de variation Serrée Serrée GUS BioGuide BioNavigation Structuré, relationnel-objet Structuré, relationnel-objet Fichiers plats Lâche SRS Serrée Structuré, relationnel-objet Serrée BACIIS Tous types Structuré, relationnel-objet Serrée TAMBIS Aucune, choix des sources Données complémentaires Données majoritairement complémentaires Données chevauchantes Données majoritairement complémentaires Données majoritairement complémentaires Quelques chevauchements Quelques chevauchements Structuré, orienté objet Lâche K2 Niveau de transparence Intégration sémantique Données intégrées Modèle de données Points de variation Intégration Serrée vs Lâche Systèmes décrits Approches non matérialisées Approches matérialisées Requêtes via un graphe Requêtes via un graphe Requêtes SQL via formulaires Web Requêtes SQL via APIs Requêtes SQL via formulaires Web Requêtes SQL via formulaires Web Requêtes PQL Navigation Web Requêtes via formulaires Web Requêtes CPL Requêtes OQL Accès aux données L’approche matérialisée, ou entrepôt de données, telle que décrite en section III.2.2.1, fournit deux avantages majeurs. Premièrement, le fait de stocker les données en local dans un schéma global facilite l’optimisation et l’exécution des requêtes. De plus, les données étant disponibles localement, l’approche permet aux utilisateurs d’ajouter leurs propres annotations, permettant ainsi de modifier, de valider et/ou de nettoyer les données intégrées. Cet avantage est illustré dans l’entrepôt GUS (section III.2.2.2.1). Cependant, même si ce second point est idéal pour les utilisateurs du système, les modifications ou validations efficaces sont très couteuses en temps et demandent un haut degré d’expertise de la part de l’utilisateur. De plus, le fait d’ajouter des annotations personnelles dans l’entrepôt complique fortement la tâche de mise à jour de l’entrepôt via les sources de données, si des données ont été modifiées ou supprimées. Malgré ces aspects négatifs, il est important de noter que l’entrepôt de données est la seule approche permettant de lutter efficacement contre les données inconsistantes provenant de différentes sources, mais également de fournir des moyens d’analyses avancés sur de grands volumes de données. Ainsi, même si la phase d’intégration est très couteuse lors de la conception d’un entrepôt de données, ceci est largement compensé par les capacités d’analyses ultérieures. Les approches non matérialisées de type médiation ou navigationnelle sont des approches très récentes dans le domaine de la bioinformatique. Ce sont des approches conviviales et intuitives qui, contrairement à l’approche entrepôt de données, sont plutôt dédiées à des analyses ponctuelles, sur de faibles volumes de données. Leur avantage réside dans le fait d’interroger les sources en ligne et donc de disposer de données à jour. Cependant, les temps d’exécution sont très dépendants de la disponibilité et de l’accessibilité de ces sources externes. Parmi les approches non matérialisées, on distingue les approches fournissant une totale transparence vis-à-vis des sources interrogées, telles que TAMBIS ou BioMediator, par le biais d’ontologies définissant les entités biologiques requises dans la requête, et les approches qui permettent de sélectionner les sources à interroger et/ou les stratégies d’interrogation. Ainsi, BioNavigation propose des critères à l’utilisateur pour évaluer la satisfaction d’une requête, et BioGuide propose à l’utilisateur de paramétrer ses préférences. Parmi les approches non matérialisées il faut souligner l’importance qu’a prise l’intégration navigationnelle, surtout depuis que des travaux sont menés pour optimiser les chemins, tels que dans BioNavigation. La plupart des approches non matérialisées n’effectuent qu’une intégration horizontale des données en intégrant uniquement des sources de données complémentaires et rarement chevauchantes (excepté BACIIS). En se limitant à des sources ayant des informations différentes sur des entités, on limite les capacités du système d’intégration en termes de fiabilité et de complétude. En effet, le système ne peut résoudre les problèmes liés aux données absentes ou contradictoires, ni identifier les données de mauvaise qualité. De même, le système ne peut sélectionner les sources qui bénéficient de meilleurs temps de réponses aux requêtes et qui renvoient de meilleurs résultats sur les plans qualitatif et quantitatif. 61 IV. INTÉGRATION POUR L’ANALYSE DU TRANSCRIPTOME Comme introduit en section I.1.3.3.1, la technologie des puces à ADN s’est révélée, dès son apparition, être l’outil privilégié pour l’analyse du transcriptome. En permettant l’analyse simultanée de l’expression de milliers de gènes dans une condition et/ou un organe donné, elle offre de belles perspectives dans la compréhension du fonctionnement des cellules. Aujourd’hui son utilisation est largement répandue, mais l’exploitation des données qu’elle engendre n’est pas sans nécessiter la mise en œuvre de moyens bioinformatiques. 1. PUCES À ADN POUR L’ANALYSE DE TRANSCRIPTOME 1.1. DÉFINITION DES PUCES À ADN Les puces à ADN, ou « microarray » en anglais (de « array » = rang ordonné) consistent en un support solide sur lequel des milliers de fragments d’ADN sont immobilisés selon une disposition ordonnée à l’aide d’une micropipette robotisée. Grâce à cette technique, chacun des fragments d’ADN ou des oligonucléotides* est représenté par un point ou « spot » en anglais (de « spot » = tache) sur le support. Ils servent de sondes pour fixer de façon très spécifique les fragments de gènes complémentaires (cibles), présents dans les échantillons biologiques à tester : leur mise en contact permet de reconstituer la double hélice d’ADN. Ce phénomène repose sur le principe d’hybridation entre des séquences complémentaires d’ADN, conformément aux observations de E.Southern en 1975 (Southern, 1975). Ainsi les puces à ADN permettent de détecter et de quantifier la présence de plusieurs milliers de gènes en parallèle par hybridation entre des sondes et des cibles préalablement marquées par un radioélément ou par une molécule fluorescente. D’abord conçues sur des membranes poreuses de nylon (appelées « macroarrays » par opposition aux « microarrays ») (Gress et al., 1992; Nguyen et al., 1995), les puces à ADN ont été progressivement mises au point sur lames de verre à la fin des années 90 (Schena et al., 1995). La miniaturisation, rendue possible par l’utilisation d’un support solide, de marqueurs fluorescents et par les progrès de la robotique, permet aujourd’hui de fabriquer des puces comportant une très haute densité de spots, susceptibles de recouvrir l’intégralité du génome d’un organisme sur une simple lame de microscope. 62 1.2. PRINCIPE DES PUCES À ADN POUR L’ÉTUDE DU TRANSCRIPTOME La puce à ADN constitue un outil privilégié pour l’étude du transcriptome en permettant d’obtenir les mesures d’expression de milliers de gènes en parallèle (Brown and Botstein, 1999; DeRisi et al., 1996; Lockhart and Winzeler, 2000). Ceci s’effectue par des hybridations entre des sondes nucléotidiques ordonnées sur le support solide, et des cibles marquées, présentes dans un mélange complexe (Duggan et al., 1999; Lockhart et al., 1996; Schena, 1996; Schena et al., 1995). Les sondes représentent les gènes du transcriptome à étudier. Pour chaque hybridation sonde-cible, un signal d’intensité est recueilli, il permet d’apprécier le niveau d’expression de chaque gène étudié dans le tissu et/ou la condition étudiés. Ce principe est illustré figure 25, dans le contexte de l’utilisation de deux fluorochromes. Figure 25 – Principe de l’étude de transcriptome par la technologie des puces à ADN (adapté de (Duggan et al., 1999)) Les sondes – Les oligonucléotides ou clones d’ADNc sont déposés sur la lame de verre. Les cibles – Les cibles Test et Référence sont couplées à deux marqueurs fluorescents différents (par exemple, cyanine verte (Cy3) et cyanine rouge (Cy5)), puis assemblées pour former le mélange complexe et être hybridées aux sondes préalablement déposées. La lecture – Elle est réalisée par un scanner muni d’un microscope confocal, couplé à deux lasers, possédant des longueurs d’onde spécifiques aux marqueurs fluorescents. L’excitation et l’émission des fluorochromes produisent deux images en niveau de gris, qui sont converties en pseudo-couleur et fusionnées pour être analysées par un logiciel d’analyse d’images. 63 1.3. TECHNOLOGIES DES PUCES À ADN De manière générale, en fonction du type de sonde déposée sur les lames de verre, on distingue deux catégories de puces à ADN. Les puces dites « spottées » sont obtenues par un dépôt robotisé de produits de PCR (puces à ADNc) ou de fragments oligonucléiques (puces à oligonucléotides) et les puces où les oligonucléotides sont synthétisés in situ par photolithographie (brevet de la société Affymetrix® 66). On distingue également les puces pangénomiques (ou généralistes) qui proposent des supports permettant l’étude de génomes entiers, des puces dédiées qui sont constituées à partir de collections de gènes spécifiques d’un organe ou d’une condition, et qui permettent ainsi de cibler les transcrits à étudier. Selon la technologie de puce à ADN utilisée, le marquage des cibles, constituant les échantillons à étudier, est différent. Il peut être radioactif ou fluorescent. De plus, certains marquages fluorescents permettent d’identifier plusieurs cibles sur la même puce. Ainsi, les cibles extraites de deux conditions différentes, l’une test et l’autre référence, peuvent être marquées par deux fluorochromes différents ; le rapport des intensités obtenues pour chaque fluorochrome permet de comparer les variations d’expression entre les deux conditions. La lecture des résultats d’hybridation se fait grâce à un scanner (figure 25). Dans le cas de technologies utilisant la fluorescence, le scanner est un microscope confocal couplé à un ou plusieurs lasers où chaque laser excite spécifiquement un fluorochrome. Le signal émis est amplifié par un photomultiplicateur et transformé en image. Une image en niveau de gris est alors générée pour chaque fluorochrome puis convertie en fausses couleurs (allant généralement du vert au rouge). Enfin, les deux images sont superposées. Différentes étapes statistiques et informatiques sont ensuite requises pour extraire et analyser les données issues de ces images. 2. ÉTAPES REQUISES POUR L’ANALYSE DES DONNÉES Les images délivrées par les scanners ne constituent que le premier résultat délivré par la technologie des puces à ADN. Le principe est d’alors en extraire des ratios d’expression pour chaque gène entre la condition test et la condition référente. Deux approches sont alors possibles : 1) une approche ciblée où on s’intéresse à un gène donné, ou 2) une approche globale, où on s’intéresse à l’ensemble des gènes. Dans ce dernier cas, en fonction des ratios, les gènes peuvent ensuite être regroupés sur la base de leur profil d’expression. Enfin, les groupes de gènes doivent être interprétés biologiquement. 66 http://www.affymetrix.com/index.affx 64 2.1. 2.1.1. ACQUISITION DES DONNÉES D’EXPRESSION Traitement des images par logiciel d’analyse d’images Les logiciels d’analyse d’images permettent d’extraire les données à partir des images délivrées par le scanner, et ce pour chaque complexe sonde-cible (spot) dans chacun des fluorochromes. Cette extraction se déroule en trois étapes (Yang et al., 2000): La localisation des spots sur la puce – Elle permet d’identifier les positions des spots sur l’image à l’aide de grilles de repères. La segmentation – Elle découpe l’image en plusieurs régions et permet principalement de classer les pixels en tant que signal et bruit de fond. L’extraction des données qualitatives et semi-quantitatives – Les données qualitatives constituent les informations sur le diamètre, la surface ou le pourcentage de pixels saturés par spot. Les données semi-quantitatives constituent les intensités des signaux et du bruit de fond ainsi que les rapports ou ratios des intensités obtenues par fluorochrome. Ces données constituent les données primaires ou données brutes, et nécessitent d’être traitées et validées avant toute analyse. Parmi les logiciels d’analyse d’image, nous pouvons citer ScanAlyze (Eisen and Brown, 1999) ainsi que Genepix® (Axon, Inc.67), ImaGene® (BioDiscovery, Inc.68) et QuantArray® (PerkinElmer, Inc.69). 2.1.2. Traitement des données primaires Le traitement des données issues des logiciels d’analyse d’images permettent de minimiser l’effet des biais expérimentaux sur les mesures et d’écarter les données de mauvaise qualité. Ce traitement de données comporte différentes procédures (Le Meur, 2005; Le Meur et al., 2004) : La filtration – Elle consiste à écarter les spots défectueux sur des critères physiques et/ou géométriques des spots, tels que la saturation du signal, le rapport signal sur bruit de fond. La normalisation intra-lame – Elle vise à minimiser les biais de déséquilibre des niveaux d’intensité entre les fluorochromes, généralement dus à une incorporation hétérogène des fluorochromes ou l’usure inégale des aiguilles du robot de dépôt des sondes. Cette étape permet de centrer la distribution des ratios sur 0. La normalisation inter-lames (ou scaling) – Une expérience peut impliquer l’utilisation de plusieurs lames. Dans ce cas, une normalisation inter-lames est requise afin de réduire la variance des mesures entre les lames. 67 http://www.axon.com/ http://www.biodiscovery.com/ 69 http://www.perkinelmer.com/ 68 65 La recherche de valeurs aberrantes (ou outliers) – Elle consiste à repérer les valeurs aberrantes parmi les mesures répétées d’un même clone ou séquence étudié sur une lame. Ces valeurs aberrantes ont pour origine la faible spécificité d’une sonde ou bien une hétérogénéité de bruit de fond à la surface des lames. Des tests statistiques sont employés. L’élimination de reporters non reproductibles – Dans le cas des puces à ADNc, plusieurs clones différents peuvent représenter le même gène sur une même lame, ils sont qualifiés de gènes reporters. Or ces clones n’hybrident pas les cibles de la même manière, il faut identifier et éliminer ceux qui hybrident mal. De nombreux programmes ont été proposés pour effectuer ces différentes procédures de traitement des données primaires. Des travaux plus ambitieux ont réuni en une application l’ensemble de ces procédures, notamment citons MADSCAN70 (MicroArray Data Suites of Computed ANalysis), une suite de traitements dynamiques et automatiques, accessible sur le Web, pour l’obtention de données consolidées (Le Meur et al., 2004). 2.1.3. Mise en évidence de gènes différentiellement exprimés Le premier pas vers l’analyse de transcriptome par la technologie des puces à ADN est la mise en évidence des gènes différentiellement exprimés, entre deux conditions différentes. Pour mesurer cette différence, il faut pouvoir distinguer les variations biologiques qui sont le reflet du fonctionnement de la cellule, des variations expérimentales qui viennent gêner l’interprétation. Différentes approches sont utilisées (Le Meur, 2005): Les tests paramétriques – Le test de Student est utilisé pour évaluer si la différence entre 2 échantillons est significative. Les tests non paramétriques – Ils sont plus adaptés aux données bruitées telles que celles engendrées par les puces à ADN. Parmi ces tests non paramétriques, le test des signes de Wilcoxon, le test de Mann Withney et l’analyse SAM (Significance Analysis of Microarrays) (Tusher et al., 2001). L’approche bayésienne – Il s’agit d’une approche probabiliste. Elle est basée sur le théorème de Bayes qui permet d’estimer la probabilité d’une certaine théorie au vu de résultats d’observation si l’on connaît la probabilité a priori de la théorie. La théorie peut être une hypothèse, un modèle ou une valeur numérique. Dans notre contexte, il s’agit de la variance d’un échantillon. L’analyse de variance, ANOVA (ANalysis Of VAriance) - Cette approche est tout particulièrement adaptée à l’analyse de multiples facteurs (âge, sexe …), comme dans le cas de puces à ADN. ANOVA permet de mettre en évidence l’impact de chaque facteur sur les mesures. 70 http://cardioserve.nantes.inserm.fr/mad/madscan/ 66 2.2. 2.2.1. GESTION ET PARTAGE DES DONNÉES Gestion des données La mise en œuvre, au sein d’un laboratoire, de la technologie des puces à ADN requiert la mise en place de moyens pour la gestion des données : il faut assurer le stockage, la sécurisation et la manipulation de ces données. En effet, la technologie, qualifiée de « haut débit », engendre très rapidement de larges volumes de données à traiter. De plus, ces données sont de différents types, elles concernent à la fois les résultats : les images acquises par le scanner, les tableaux de données brutes et transformées mais également les informations sur les différentes étapes des expériences menées : procédés d’obtention des échantillons et des lames, conditions d’hybridation etc … Il existe un grand nombre de bases de données dédiées à la gestion des données issues de la technologie des puces à ADN. Parmi celles-ci, nous pouvons citer Acuity® (Axon, INC.), ArrayDB71 (Ermolaeva et al., 1998), BASE72 (BioArray Software Environment) (Saal et al., 2002), Rosetta Resolver® (Rosetta Biosoftware73), SMD74 (Stanford Microarray Database) (Ball et al., 2005; Sherlock et al., 2001). 2.2.2. Partage des données Le besoin en bases de données s’est très rapidement accompagné d’un besoin en définition de standards afin de normaliser et ainsi de pouvoir échanger et diffuser les données issues de la technologie des puces à ADN entre les différents laboratoires. C’est la société MGED75 (Microarray Gene Expression Data), organisation de biologistes et d’informaticiens développée sous l’influence d’Alvis Brazma et d’Alan Robinson de l’EBI, qui a établi ces standards d’annotation d’expériences de puce à ADN. Les efforts menés par les différents groupes de travail de MGED sont présentés ci-dessous : MIAME (Minimum Information About Microarray Experiment) – Le projet MIAME vise à décrire les informations minimales et nécessaires que les chercheurs doivent fournir pour la description d’expériences de type puce à ADN (Brazma et al., 2001). Dans la pratique, ces informations sont requises pour toute publication. MAGE (MicroArray Gene Expression) – Ce projet a pour but de fournir des standards en terme de représentation des données (Spellman et al., 2002). Le modèle MAGE-OM (MicroArray Gene Expression-Object Model) est un modèle orienté objet qui définit en 132 classes les informations requises par le standard MIAME, et MAGE-ML (MicroArray Gene Expression-Markup Language) est la représentation au format XML du modèle MAGE-OM. 71 http://genome.nhgri.nih.gov/arraydb/ http://base.thep.lu.se/ http://www.rosettabio.com/default.htm 74 http://genome-www5.stanford.edu/ 75 http://www.mged.org/ 72 73 67 Un logiciel a également été conçu pour exporter des données sous le format MAGE-ML : MAGE-STK (MicroArray Gene Expression-Software ToolKit). MGED-Ontology (MicroArray Gene Expression-Ontology) – Le groupe de travail MGED Society Ontology Working Group76 travaille sur l’élaboration d’une ontologie pour la description des échantillons biologiques et de leur utilisation au cours des expériences de puces à ADN. Il s’agit d’un réseau de concepts qui reflètent les directives données par MIAME ainsi que la structure fournie par MAGE. La figure 26 illustre les interactions entre les différentes directives de MGED. Base de données MIAME MAGE MGED Ontology Base de données MIAME Figure 26 – Relations entre les projets MIAME, MAGE et MGED Ontology (adapté de (Stoeckert et al., 2002)) L’ontologie de MGED (MGED Ontology) formalise les descriptions requises pour l’annotation des expériences de puces à ADN décrites par MIAME. Ces descriptions sont stockées dans des bases de données, dites conformes à MIAME. MAGE décrit les standards qui permettent l’échange de données entre bases de données conformes. En pratique, ces standards décrits par MGED sont utilisés comme suit : tout d’abord les données produites par les expériences de type puce à ADN doivent être stockées en suivant les directives émises par MIAME, idéalement dans une base de données conforme à MIAME. Ensuite, ces données conformes peuvent être publiées dans des revues et/ou déposées dans des banques de données publiques spécialement dédiées à la diffusion d’expériences de puces à ADN. Parmi ces banques de données, on peut citer ArrayExpress (Brazma et al., 2003; Parkinson et al., 2005b) de l’EBI, GEO (Gene Expression Omnibus) (Barrett et al., 2005; Edgar et al., 2002) du NCBI et CIBEX77 (Center for Information Biology gene EXpression database) (Ikeo et al., 2003) de DDBJ. Ces banques constituent des répertoires de données d’expression. 76 77 http://mged.sourceforge.net/ontologies/index.php http://cibex.nig.ac.jp/index.jsp 68 2.3. 2.3.1. ANALYSE DES DONNÉES D’EXPRESSION Classification des données d’expression La classification des données d’expression consiste à regrouper les gènes sur la base de leur profil d’expression. De manière générale les algorithmes utilisés se basent sur le calcul de la similarité ou de la dissimilarité entre objets (Gilbert et al., 2000). Le but étant de minimiser la variabilité intra-groupe et de maximiser la variabilité inter-groupes. On distingue les approches supervisées (supervized learning) des approches non supervisées (unsupervized learning) (Leung and Cavalieri, 2003). Les approches non supervisées établissent des groupements d’objets sans a priori, elles sont qualifiées d’exploratoires. Les approches supervisées utilisent quant à elles des connaissances pour établir des règles qui serviront ensuite à prédire la classification. Elles sont qualifiées de prédictives. Il existe un très grand nombre de méthodes de classification. Parmi les méthodes non supervisées (ou clustering), on peut citer la classification ascendante hiérarchique (Eisen et al., 1998), les méthodes de partitionnement tel que la méthode des k-moyennes* (ou Kmeans) ou les réseaux de Kohonen* (ou cartes auto organisatrices : SOM (Self Organizing Map)) (Kohonen, 1998). Parmi les méthodes supervisées, l’approche des K plus proches voisins* (ou KNN (K Nearest Neighbor)) ou la classification des centroïdes*. On distingue également les analyses factorielles qui sont adaptées au caractère multidimensionnel des données de puces à ADN à analyser, puisqu’elles permettent de réduire le nombre de dimensions de l’espace des données. Parmi ces analyses, l’analyse en composante principale* (ACP ou PCA (Principal Component Analysis)), également connue sous le nom d’ « analyse par décomposition des données en valeur singulière » (ou SVD (Singular Decomposition Value)) (Alter et al., 2000). Il existe de nombreux outils pour appliquer toutes ces méthodes de classification. Le premier outil à avoir été développé est Cluster qui réalise de la classification hiérarchique. Il est couplé à l’outil de visualisation Treeview (Eisen et al., 1998). Depuis, de nombreux logiciels intégrés ont vu le jour, combinant diverses approches de classification. Ils sont performants et offrent des interfaces graphiques conviviales (interactives et dynamiques). Parmi ces outils, citons JExpress (Molmine78) (Dysvik and Jonassen, 2001) et Genesis79 (Sturn et al., 2002). Il existe également des solutions basées sur des environnements de développement, très flexibles puisque particulièrement bien adaptées à l’ajout de modules (ou plug-in*), mais nécessitant une certaine expertise de la part des utilisateurs. Citons notamment, Matlab®, SAS® ou plus récemment la suite BioConductor80 (Gentleman et al., 2004) de l’environnement R81 (Ihaka and Gentleman, 1996), une suite intégrée de logiciels pour mener des analyses statistiques et graphiques sur des données génomiques. 78 http://www.molmine.com/ http://genome.tugraz.at/Software/ http://www.bioconductor.org/ 81 http://www.r-project.org/ 79 80 69 2.3.2. Extraction de connaissance L’obtention de listes de gènes différentiellement exprimés n’est qu’un premier pas vers l’analyse de données issues de l’étude de transcriptome. En effet, si l’obtention de données d’expression consolidées est nécessaire, c’est leur interprétation biologique qui va permettre de dégager de la connaissance des masses de données engendrées par la technologie des puces à ADN. Le but ultime étant la compréhension de la causalité des mécanismes de régulation et de la co-régulation, pour une meilleure connaissance du fonctionnement des gènes. 2.3.2.1. Confrontation des données L’interprétation biologique des données d’expression passe par une confrontation des données expérimentales avec toute information disponible sur les gènes étudiés (Anderle et al., 2003; Cornell et al., 2003; Holloway et al., 2002; Lockhart and Winzeler, 2000; PiatetskyShapiro and Tamayo, 2003; Slonim, 2002). Parmi les données à prendre en considération, outre d’autres données d’expression, des données génomiques et biomédicales incluant les données de la bibliographie, les données sur les séquences, les informations sur l’homologie, la régulation, le phénotype et les fonctions. Ainsi, l’ontologie GO est très largement utilisée pour l’annotation fonctionnelle des gènes. Elle permet de mettre en évidence des catégories fonctionnelles plus ou moins représentées dans les groupes de gènes. De nombreux outils se sont développés dans ce cadre qui varient selon le type de données en entrée, les organismes supportés, l’emploi ou non de statistiques et le type d’application (Pasquier et al., 2004). Parmi ces outils, on peut citer GOMiner82 (Zeeberg et al., 2005), OntoExpress83 (Draghici et al., 2003) et FatiGO84 (Al-Shahrour et al., 2004). Les banques de données généralistes et spécialisées présentées en section I.2 se révèlent également comme une masse de données considérable utile pour enrichir l’information sur les groupes de gènes différentiels. Il faut notamment souligner l’importance : Des sources de données bibliographiques – Aussi, la banque de données bibliographiques MEDLINE, principale source de littérature scientifique, est largement utilisée pour la recherche d’informations. Certains outils adaptés à l’annotation des gènes visent à étudier les co-occurrences de termes associés avec des noms de gènes dans les résumés d’articles scientifiques. Citons par exemple l’outil MedMiner (Tanabe et al., 1999) qui cherche dans GeneCards® et MEDLINE les informations de la littérature faisant référence à une combinaison de termes fournis par l’utilisateur (par exemple, tel gène et telle pathologie, ou tels gènes), ou encore l’outil PubGene™85 (PubGene Inc.86) qui recherche des co-citations de gènes dans MEDLINE. 82 http://discover.nci.nih.gov/gominer/ http://vortex.cs.wayne.edu/projects.htm http://www.fatigo.org/ 85 http://www.pubgene.org/ 86 http://www.pubgene.com/ 83 84 70 Des banques de données de séquences – Ces sources de données contiennent des informations permettant de fournir des explications à la co-régulation de gènes. En particulier, les banques de séquences fournissent les localisations chromosomiques ainsi que les séquences nucléiques des gènes. Or la co-localisation chromosomique peut être à l’origine de la co-expression de gènes. En effet, de nombreuses études chez les eucaryotes ont démontré que des gènes adjacents sur le génome présentent des profils d’expression similaires (chez l’homme (Caron et al., 1995; Lercher et al., 2002), la drosophile (Boutanaev et al., 2002; Cohen et al., 2000; Spellman and Rubin, 2002), la levure (Cohen et al., 2000) et Caenorhabditis elegans (Lercher et al., 2003). Il y a plusieurs causes à la co-expression de gènes adjacents (Williams and Bowles, 2004). La première cause est la duplication des gènes au cours de l’évolution. Elle entraîne la proximité de gènes dans le génome, et qui vont du fait de leur ancêtre commun, partager des profils d’expression similaires. Il est également suggéré que chez les eucaryotes, les gènes impliqués dans un réseau métabolique particulier requérant une régulation coordonnée, se trouvent regroupés dans le génome, à la manière des génomes procaryotes où les gènes partageant la même fonction sont organisés en opérons*. Ce phénomène a été observé chez Arabidopsis thaliana pour des gènes impliqués dans le développement de la racine et dans la fonction mitochondriale (Birnbaum et al., 2003). De plus, même en l’absence de régulation coordonnée, des gènes proches ou non dans les génomes peuvent partager des éléments cis-régulateurs communs et ainsi conduire à des profils d’expression similaires. Aussi, il est intéressant de disposer des séquences des gènes co-exprimés pour rechercher la présence d’éventuels éléments cis-régulateurs ou de sites de fixation de facteurs de transcription en commun pour ainsi interpréter la co-régulation. Des banques de données d’expression – Les banques telles que GEO, ArrayExpress ou CIBEX décrites en section IV.2.2.2 offrent la possibilité de comparer les profils d’expression de gènes obtenus en réponse à diverses questions biologiques, et donc dans différentes conditions expérimentales. Elles permettent de dégager des informations complémentaires sur les gènes étudiés. Des sources de données médicales – Les puces à ADN étant largement utilisées pour la caractérisation moléculaire de pathologies, les sources de données telles qu’OMIM™ et les ontologies telles que l’UMLS (défini en section II.3.2.2.2) se révèlent très utiles pour enrichir en données médicales la connaissance sur les gènes étudiés. Des banques de données d’organismes – La confrontation de données d’expression obtenues chez des organismes complexes tels que l’homme avec des données provenant d’études sur des organismes modèles peut permettre d’inférer de la connaissance sur la fonction des gènes. C’est la génomique comparative. Il peut en effet exister des mécanismes d’expression analogues entre gènes orthologues*. La confrontation des données expérimentales avec les sources de données publiques et complémentaires se révèle nécessaire à l’extraction de connaissances autour des données engendrées par la technologie des puces à ADN. 71 Leur mise en relation dans un environnement intégré est susceptible de participer à une meilleure compréhension du fonctionnement des gènes, et offre de belles perspectives dans la compréhension des systèmes biologiques (systems biology). 2.3.2.2. Entrepôts de données pour l’extraction de connaissances Parmi les approches d’intégration définies en section III.2, c’est l’approche entrepôt de données, qui est la plus appropriée à l’intégration et à l’analyse de données autour du transcriptome. En effet, les volumes de données engendrés par les puces à ADN étant déjà par nature importants, une réconciliation des annotations autour des gènes étudiés et leur présence en local favorise un accès plus rapide aux informations (Alkharouf et al., 2005). Bien que des approches telles que l’approche navigationnelle sont très intuitives et conviviales, l’analyse de données de puces à ADN requiert des solutions fiables. Dès lors, il faut prendre en considération les caractéristiques des sources publiques, c'est-à-dire, une faible capacité d’interrogation, des données chevauchantes, l’utilisation de différents vocabulaires, et proposer la solution la plus adéquate (Do et al., 2003). Ainsi, même si l’approche matérialisée pose de réels défis en informatique tels que la création d’un schéma global, l’intégration de données, la correspondance inter-schémas, et le nettoyage de données, elle se révèle plus adaptée. De plus, les possibilités d’analyse proposées par l’approche entrepôt de données sont très puissantes. L’analyse multidimensionnelle ainsi que les techniques de data mining sont particulièrement bien adaptées à l’analyse des données de transcriptome. Parmi les entrepôts de données déjà développés autour des données transcriptomiques, citons GIMS (Genome Information Management System) (Cornell et al., 2003), M-Chips (Multi-Conditional Hybridization Intensity Processing System) (Fellenberg et al., 2002), GenMapper (Do and Rahm, 2004) et GeWare (Kirsten et al., 2004). (1) GIMS GIMS87 (Genome Information Management System) (Cornell et al., 2003) est un entrepôt de données développé à l’Université de Manchester. Il intègre des données sur le génome de Saccharomyces cerevisiae ainsi que les données fonctionnelles associées. Plus précisément, il intègre des données privées sur le transcriptome, des données d’interactions protéineprotéine, des données phénotypiques, des données sur les séquences provenant de MIPS88 (Mewes et al., 1997; Tetko et al., 2005), des données fonctionnelles provenant de GO, et des données sur les réseaux métaboliques provenant de LIGAND89 (Goto et al., 2002). GIMS repose sur un modèle orienté objet qui permet la liaison entre les données génomiques et fonctionnelles de l’espèce Saccharomyces cerevisiae (Paton et al., 2000). 87 http://www.cs.man.ac.uk/img/gims/index.html http://mips.gsf.de/ 89 http://www.genome.ad.jp/ligand/ 88 72 L’entrepôt de données est implémenté avec le SGBDO (Système de Gestion de bases de Données Objet) FastObjects commercialisé par Versant90. Une interface Java permet aux utilisateurs d’interroger l’entrepôt. Les requêtes effectuées sur les données intégrées dans GIMS peuvent être de simples recherches (par exemple, trouver les ARNms avec telle classification fonctionnelle) ou des recherches plus complexes (par exemple, trouver les ARNms qui sont sur-exprimés de tel niveau dans telle expérience et dont les produits ont telle localisation cellulaire). L’interface permet à la fois de naviguer au sein des informations stockées, mais également d’accéder à des requêtes plus complexes prédéfinies. (2) M-Chips M-Chips91 (Multi-Conditional Hybridization Intensity Processing System) (Fellenberg et al., 2002) a été réalisé au DKFZ (centre allemand de recherche sur le cancer) d’Heidelberg. Cet entrepôt est spécialement dédié à l’analyse statistique de données issues des puces à ADN. Il est adapté à l’analyse de données issues de plusieurs organismes mais également à l’analyse de données générées par les diverses technologies des puces à ADN (radioactivité ou fluorescence, un fluorochrome ou deux). Les données intégrées dans M-Chips sont de trois types, les intensités brutes d’expression, les annotations de gènes (numéros d’accession du gène et de la protéine encodée, localisation chromosomique) et les annotations sur les expériences (conditions environnementales, génotypes, données cliniques, types de tissus, etc …). Les annotations sur les expériences peuvent changer d’une espèce à une autre, mais la même structure de la base est utilisée afin de permettre l’utilisation des mêmes algorithmes d’analyse. Les fonctions d’analyse dans M-Chips sont implémentées en C, Perl et MATLAB. Elles permettent la normalisation des données brutes et la classification des données d’expression. (3) GenMapper et GeWare GenMapper92 (Do and Rahm, 2004) et GeWare93 (Kirsten et al., 2004) sont deux entrepôts de données développés à l’Université de Leipzig. GENMAPPER GenMapper (Genetic Mapper) (Do and Rahm, 2004) intègre des données génomiques, biologiques et médicales provenant de 60 sources de données dont Entrez Gene, Unigene, Swiss-Prot, GO, InterPro, KEGG et OMIM™. L’une des caractéristiques de GenMapper est d’être basé non pas sur un schéma global (de type étoile ou flocon), mais sur un schéma générique, appelé GAM (Generic Annotation 90 http://www.versant.com/ http://www.dkfz-heidelberg.de/mchips/ http://sun1.izbi.uni-leipzig.de:8080/GenMapper/ 93 https://ducati.izbi.uni-leipzig.de/Geware 91 92 73 Management). Ce schéma permet une représentation uniforme de toutes les données intégrées dans l’entrepôt. En effet, le schéma repose sur deux classes principales que sont ‘Source’ et ‘Objet’, ce qui permet de représenter dans GAM chaque source comme associée à un ensemble d’objets (ou données contenues dans la source). Ainsi, le système est particulièrement bien adapté à l’ajout de nouvelles sources de données. Le réseau de crossréférences existant entre les sources de données est exploité et contenu dans le schéma GAM. GenMapper propose une interface conviviale de conception de requête, où l’utilisateur choisit son ou ses objets à analyser (par exemple, un ensemble de protéines). Il choisit ensuite les informations qu’il souhaite obtenir sur les objets de départ. Une vue sur GAM est générée et fournit à l’utilisateur une vision des données associées à ses objets de départ. GenMapper n’intègre pas de données d’expression mais par ses capacités d’enrichissement de données, il est largement utilisé pour l’annotation et la recherche d’informations sur des groupes de gènes différentiellement exprimés. GEWARE GeWare (Gene Expression Warehouse) (Kirsten et al., 2004) est un entrepôt de données qui intègre des données d’expression issues des puces à ADN Affymetrix, des informations sur les expériences et des données sur les gènes étudiés. Il supporte différents types d’analyses telles que le traitement des données d’expression, la visualisation de données, la création de groupes de gènes et l’analyse de ces groupes, des analyses OLAP. Il est basé sur un modèle multidimensionnel relationnel où la table centrale de faits correspond aux données d’expression et où les dimensions correspondent aux annotations et aux traitements pouvant être effectués dans l’entrepôt. Les dimensions sont organisées en hiérarchies, les analyses OLAP permettent ainsi d’effectuer des opérations de drill-down et de roll-up, pour accéder à différents niveaux d’annotations. GeWare fournit une interface Web servant pour l’intégration des données et les analyses. Le modèle générique GAM, décrit précédemment dans le système GenMapper, est utilisé pour capturer les annotations sur les gènes étudiés dans GeWare, les données sont ensuite transférées de GAM à la dimension concernée de GeWare. 2.3.2.3. Discussion sur les entrepôts de données dédiés à l’analyse de transcriptome Si les entrepôts de données décrits précédemment ont comme point commun le fait d’intégrer des données dans le but d’analyser le transcriptome, les approches utilisées sont différentes, chacune ayant ses avantages et ses inconvénients. M-Chips permet l’analyse de données issues de l’étude de transcriptome de multiples espèces et couvre l’ensemble des technologies de puces à ADN. Il fournit un environnement de traitement des données primaires et de classification des données d’expression. Cependant, il ne propose pas d’intégration d’informations complémentaires sur les gènes étudiés, ne permettant pas d’interpréter biologiquement les données expérimentales. 74 GIMS intègre de multiples données génomiques et biologiques pour une meilleure compréhension du transcriptome de Saccharomyces cerevisiae, mais aucun processus d’intégration n’est décrit dans la littérature. Le système repose sur un modèle orienté objet pour une meilleure représentation des différents types de données intégrés. GIMS fournit une interface conviviale pour la visualisation de données et l’exécution de requêtes prédéfinies. GenMapper intègre de nombreuses sources de données et tient son originalité de son modèle générique GAM particulièrement bien adapté à l’ajout de nouvelles sources de données et à l’exploitation des références internes et externes (cross-références) dans les sources. L’inconvénient de l’utilisation du modèle GAM, c’est l’absence d’un schéma global unificateur. Aussi, dans GenMapper, aucun processus de réconciliation des données n’est fourni, et l’utilisateur se trouve confronté à des données contradictoires et redondantes. Il doit également gérer les problèmes d’hétérogénéité sémantique entre les sources. GeWare exploite l’organisation multidimensionnelle des données, caractéristique de l’approche entrepôt de données. Ainsi, les données d’expression peuvent être analysées selon différentes dimensions que sont les annotations sur les gènes, les annotations sur les expériences et les algorithmes d’analyse de données d’expression. Tout comme pour GenMapper, l’utilisation du modèle GAM pour capturer les annotations sur les gènes, prive le système d’un schéma global où toutes les annotations autour des gènes étudiés sont réconciliées. 75 CADRE ET BUTS DU TRAVAIL CADRE ET BUTS DU TRAVAIL L’étude du transcriptome hépatique a débuté à l’Unité INSERM 522 il y a plusieurs années, afin de préciser les mécanismes qui contrôlent l'équilibre fonctionnel de l'hépatocyte, et ainsi mieux comprendre les altérations qui surviennent dans certaines pathologies humaines, principalement les pathologies de surcharge en fer, les hépatites virales et la carcinogenèse hépatocellulaire. A mon arrivée en 2001, l’étude du transcriptome hépatique prenait une nouvelle dimension avec la mise en place de la technologie des puces à ADN. Les données d’expression générées par une telle technologie sont considérables et requièrent des moyens bioinformatiques pour leur gestion et leur analyse. Cette analyse des données nécessite une prise en compte d’informations diverses et complémentaires sur les gènes en présence sur la puce à ADN. Celles-ci sont nombreuses et de natures variées. Il s’agit d’informations sur les séquences des gènes, leurs localisations chromosomiques, les protéines encodées, leurs distributions tissulaires, leurs implications dans des fonctions moléculaires et des processus biologiques, leurs implications cliniques, leurs niveaux d’expression dans différentes conditions physiopathologiques. Ajoutons à cela leur apparition croissante dans la littérature scientifique. Une analyse percutante des résultats expérimentaux se doit de considérer en plus des données d’expression, toute cette connaissance disponible sur les gènes exprimés. Un des défis actuels de la bioinformatique est de fournir des moyens pour intégrer cette masse de données et de l’exploiter de façon automatique pour en extraire de nouvelles connaissances. Cette tâche n’est pas triviale et révèle de nombreuses difficultés. En effet, comme démontré en partie introductive de ce manuscrit, ces données sont réparties sur le Web dans une multitude de sources de données dynamiques et très hétérogènes. Si depuis quelques années des efforts ont été fourni par la communauté scientifique pour améliorer l’interopérabilité entre ces différentes sources par la définition de standards et la proposition de différentes approches d’intégration, la problématique reste entière. Au cours de mon travail de thèse, mon objectif a été de fournir une solution d’intégration tenant compte des défis mentionnés ci-dessus et adaptée à notre contexte : l’analyse de transcriptome dans le cadre d’une recherche biomédicale. L’enjeu était double : Intégrer des informations allant du gène à la pathologie et réconcilier ces données afin d’avoir une vue unifiée des informations disponibles sur un gène donné. Fournir une aide à la décision permettant d’orienter la recherche par extraction de nouvelles connaissances. Nous avons donc développé d’une part l’entrepôt de données GEDAW (Gene Expression DAta Warehouse) et d’autre part, en collaboration avec l’équipe d’accueil EA3888 de l’Université de Rennes 1, le système BioMeKE. 76 GEDAW intègre et réconcilie des données d’expression enrichies de sources et de standards complémentaires dans les domaines de la génomique, de la biologie et de la médecine dans lesquelles les utilisateurs puisent des informations à l’aide d’outils de restitution et d’analyse. Une intégration forte des données du niveau biologique jusqu’au niveau pathologique, rend possible la réponse aux interrogations complexes posées par les chercheurs. BioMeKE est un système basé sur les ontologies GO et UMLS qui délivre des annotations biomédicales sur les gènes. BioMeKE a été utilisé en partie pour l’intégration de données dans GEDAW. Ce travail sera présenté en trois parties : 1 – La première partie concerne le système BioMeKE, et plus particulièrement son implémentation qui repose essentiellement sur les ontologies GO et UMLS ainsi que ses caractéristiques et son évaluation. 2 – Puis nous détaillerons la structure de l’entrepôt GEDAW : 1) l’architecture de l’entrepôt, 2) les sources de données et les standards utilisés pour l’intégration, 3) les processus d’intégration mis en œuvre, 4) l’interface d’accès aux informations intégrées. 3 – Enfin, nous présenterons les analyses effectuées dans GEDAW et montrerons l’efficacité du système pour la découverte de nouvelles connaissances dans le contexte du transcriptome hépatique. 77 BIOMEKE (BIOMEDICAL KNOWLEDGE EXTRACTION SYSTEM) I. BIOMEKE POUR L’ANNOTATION BIOMÉDICALE DE GÈNES 1. INTRODUCTION L’annotation fonctionnelle de gènes se révèle très utile pour l’analyse de données engendrées par des technologies qualifiées de « haut débit ». Si GO (Gene Ontology) fournit une annotation sur les fonctions moléculaires et les processus biologiques associés aux gènes ainsi que les localisations cellulaires associées aux produits de gènes, il ne fournit aucune indication sur les pathologies ou syndromes associés à ces mêmes gènes. BioMeKE (BioMedical Knowledge Extraction system) est un système intégrant GO et UMLS® (Unified Medical Language System®) pour délivrer une annotation biomédicale des gènes. 2. MISE EN ŒUVRE ET DISCUSSION Le Metathesaurus® de l’UMLS intègre plus de 100 vocabulaires dont MeSH, GO et Genew. Les concepts du Metathesaurus sont reliés par différents types de relations : des relations hiérarchiques, des relations d’association ou des co-occurrences dans MEDLINE, avec les fréquences associées. Méthodes et implémentation Dans BioMeKE, l’annotation biomédicale via l’UMLS est réalisée en deux étapes. Dans un premier temps, le nom du gène est recherché dans le Metathesaurus, en utilisant toute l’information de nomenclature des gènes incluse dans Genew. Dans un second temps, l’ensemble des concepts reliés au nom du gène dans le Metathesaurus est récupéré, il constitue l’annotation biomédicale du gène. BioMeKE est une application Java Web Start, qui prend en entrée une liste d’identifiants ou de noms de gènes et qui fournit en sortie l’annotation biomédicale de ces gènes. Les annotations sont soit consultables via une interface, soit délivrées au format XML. Évaluation Une évaluation du système a été réalisée sur un ensemble de 43 gènes connus pour être impliqués dans le métabolisme du fer. Les 43 gènes ont été recherchés dans le Metathesaurus, puis leurs annotations ont été récupérées et enfin évaluées par un expert du domaine. Cette étude a révélé que les informations récupérées via les relations de cooccurrences étaient les plus informatives car largement complémentaires à GO, attendues par l’expert pour des fréquences supérieures à 10 et inattendues pour des fréquences inférieures à 10. 78 ARTICLE 1 BioMeKE : a UMLS-based system useful for biomedical annotation of genes G. Marquet, E. Guérin, O. Loréal and A. Burgun [Article en révision pour publication dans la revue Bioinformatics] BIOINFORMATICS Vol. 00 no. 0 2005, pages 1–5 doi:10.1093/bioinformatics/bti283 Databases and Ontologies BioMeKE: a UMLS-based system useful for biomedical annotation of genes Gwenaëlle Marquet 1*, Emilie Guérin 2, Olivier Loréal 2, Anita Burgun 1 1 2 EA 3888, IFR 140, Université de Rennes 1, Faculté de Médecine - 35043 Rennes Cedex - France INSERM U522, IFR 140, Université de Rennes 1, CHRU Pontchaillou - 35033 Rennes Cedex - France . is built by merging more than 100 vocabularies, including MeSH1, GO and Genew terms2 (Wain et al. 2004). MTH concepts are related by a set of 22,623,179 relations, including hierarchical relations, associative relations (‘other relations’) and cooccurrences in MEDLINE, with their frequencies. The UMLS annotation in BioMeKE is performed in two steps. Mapping gene or gene product names to MTH. The objective is to extract the MTH concepts corresponding to the genes. For each gene, the approved name and symbol, aliases, previous names and symbols of the gene, provided by Genew are successively searched for in the MTH. Filtering relying on five UMLS STs (Gene or Genome; Amino Acid, Peptide or Protein; Nucleic Acid, Nucleoside or Nucleotide; Molecular Function; Disease or Syndrome) is performed to select only the MTH concepts that correspond to genes or gene products. Searching for MTH concepts to annotate the gene. This step exploits the MTH relations. For a given MTH concept, the annotation process selects concepts that are related to it through one of the following relations: parent, other relations, and cooccurrence and assigned to at least one of the 22 relevant STs (see supplementary information) that may be of interest for the interpretation of post genomic data. BioMeKE is implemented as a Java Swing application that relies on JTree, JTable and other GUI components. We have wrapped BioMeKE as a Java Web Start application. This technology provides several advantages over standard java applets or applications: the software Java Web Start is launched automatically when the user downloads for the first time a Java application using this technology; each time the user starts the application, the software Java Web Start checks if a new version of BioMeKE is available on the Web site and downloads it. As BioMeKE uses the UMLS for the medical annotation, it requires a UMLS license. This license can be obtained on the UMLS site3. It is free for academic researchers. ABSTRACT Summary: The Unified Medical Language system (UMLS) is a potential resource for providing associations between genes and medical knowledge, which may complement Gene Ontology (GO) annotation. We present BioMeKE (BioMedical Knowledge Extraction system), a UMLS-based annotation system that exploits the relations present in the UMLS. An evaluation of the system on a set of 43 genes known to be involved or not in iron metabolism has shown the interest of this method, for providing association between genes and medical conditions. In conclusion, BioMeKE is useful to study biomedical information related to large lists of genes such as those obtained using high throughput technologies. Availability: BioMeKE is freely available via Java Web Start at http://www.med.univ-rennes1.fr/biomeke/ Contact: [email protected] Supplementary information: http://www.med.univrennes1.fr/biomeke/suppinfo.php 1 INTRODUCTION Functional annotations of genes as well as gene-disorder relations play a major role for analyzing data obtained using high throughput technologies. Gene Ontology™ (GO) annotation represents (The Gene Ontology Consortium 2000) the molecular functions, biological processes, and cellular components associated with genes and gene products. GO annotation does not provide information on pathologic conditions and disorders that have been associated with genes. The Unified Medical Language System® (UMLS) is a biomedical “ontology” whose coverage includes signs, symptoms and diseases (Bodenreider 2004). Crossannotations between GO and UMLS could improve biomedical knowledge. We present BioMeKE, Biological and Medical Knowledge Extractor, a new Java-based application, which relies on the UMLS to annotate sets of genes with biomedical concepts. 2 METHODS AND IMPLEMENTATION The UMLS is made of two major components, the Metathesaurus® (MTH), a repository of 1,179,177 concepts (2005AA release), and the Semantic Network, a limited network of 135 Semantic Types (ST). Each MTH concept is assigned to one or more ST. The MTH © Oxford University Press 2005 1 MeSH is the National Library of Medicine's thesaurus used in MEDLINE. Genew is the HUGO Gene Nomenclature Committee database. It proposes nomenclature conventions for genes and now provides approved gene names and symbols 3 http://www.nlm.nih.gov/research/umls/license.html 2 79 G.marquet et al. Fig 1: BioMeKE output screen shot represents the UMLS annotation (displayed by semantic types) and the official nomenclature for HFE. BioMeKE takes as an input a list of gene or gene product identifiers. Those identifiers may be of different kinds, e.g. LocusLink ID, Uniprot ID. The result of annotation is displayed as a tree structure. Moreover, the UMLS annotation can be classified according to the UMLS semantic types or to the relationships (Fig 1). For each annotated gene, a XML file is created. 3 ILLUSTRATION AND EVALUATION Consider the gene HFE (LocusLink: 3077), for which a biomedical annotation was provided by BioMeKE. UMLS annotations provide complementary biological information to GO annotations (Table 1) including disorders associated to HFE (Fig 1). 9 9 GO annotations MHC class I receptor activity protein complex assembly 9 9 transport iron ion transport Multifactorial Inheritance 9 9 iron ion homeostasis receptor mediated endocytosis Bile Duct Neoplasms Cholangiocarcinoma 9 9 immune response antigen presentation, Liver neoplasms Primary carcinoma of the liver cells 9 endogenous antigen antigen processing, Intestinal Absorption endogenous antigen via MHC class I 9 9 cytoplasm integral to plasma membrane An evaluation was done on a set of 43 genes known to be involved or not in iron metabolism (see supplementary information). All the 43 genes were mapped successfully to the MTH. We obtained annotations for 19 genes. The strict overlap between the UMLS annotation provided by BioMeKE and the GO annotation based on SOURCE (Diehn et al 2003) represents 0.1% of the UMLS annotation and 3.2% of the GO annotation. In order to evaluate the accuracy of the medical annotations provided by BioMeKE, a manual review of the UMLS annotation has been done by an expert involved in research in iron metabolism and iron related diseases (OL). It has shown that the hierarchical relations and associative relations provide a large amount of information which is complementary to GO and “expected,” i.e. corresponds to the current expert domain knowledge. The UMLS co-occurrences provide a large percentage of complementary annotation to GO. In addition, considering those with a frequency ≥ 10, we found that 60.3% gave information which was expected for the expert. Our approach has been generalized to the Genew database. 79% (18,504) of the 23,398 HGNC identifiers in the March 2005 version of Genew were found in the MTH. Only 3,158 (13 %) have annotations in the UMLS. A possible explanation is that we used the 2005AA version of the UMLS, which is the first one containing Genew terms. Therefore, not all the Genew concepts have relations with other MTH concepts. 632 genes were provided with annotation corresponding to disorders and/or physiology. In conclusion, BioMeKE exploits the relations in the MTH and provides concepts that are related to a gene through hierarchical and associative relations, in particular diseases and medical conditions associated with genes. BioMeKE is useful to study biomedical information related to large lists of genes such as those obtained using high throughput technologies. ACKNOWLEDGEMENTS This work was supported by grants from the Région Bretagne (20046805, PRIR 139) UMLS annotations Genetic Function Genetic Markers REFERENCES The Gene Ontology Consortium (2000) Gene ontology: tool for the unification of biology. Nature Genet, 25, 25-9. Bodenreider, O (2004) The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res, 32 Database issue, 267-70. Diehn, M. et al (2003) SOURCE: a unified genomic resource of functional annotations, ontologies, and gene expression data. Nucleic Acids Res, 31, 219-223 Wain, HM. et al. (2004) Genew: The Human Gene Nomenclature Database, 2004 updates. Nucleic Acids Res, 32 Database issue, 255-7. Neoplastic Process Organ or Tissue Function Pathologic Function Hyperpigmentation Insulin Resistance Tachycardia, Ventricular Hypertrophy, Right Ventricular Table 1: GO annotation and examples of complementary UMLS annotation for HFE. 80 INFORMATIONS SUPPLÉMENTAIRES SUR L’ARTICLE 1 1. Liste des types sémantiques 2. Licence UMLS 3. Evaluation Extrait du site Web : http://www.med.univ-rennes1.fr/biomeke/suppinfo.php BioMeKE Supplementary information list of Semantic Types UMLS license evaluation 1 - List of Semantic Types : The 22 Semantic Types that may be interest for the interpretation of post genomic data. Semantic type Definition Acquired Abnormality An abnormal structure, or one that is abnormal in size or location, found in or deriving from a previously normal structure. Acquired abnormalities are distinguished from diseases even though they may result in pathological functioning (e.g., "hernias incarcerate"). Amino Acid, Peptide, or Protein Amino acids and chains of amino acids connected by peptide linkages. Anatomical Structure A normal or pathological part of the anatomy or structural organization of an organism. Biologic Function A state, activity or process of the body or one of its systems or parts. Cell Function A physiologic function inherent to cells or cell components. Cell or Molecular Dysfunction A pathologic function inherent to cells, parts of cells, or molecules. Congenital Abnormality An abnormal structure, or one that is abnormal in size or location, present at birth or evolving over time as a result of a defect in embryogenesis. Disease or Syndrome A condition which alters or interferes with a normal process, state, or activity of an organism. It is usually characterized by the abnormal functioning of one or more of the host's systems, parts, or organs. Included here is a complex of symptoms descriptive of a disorder. Embryonic Structure An anatomical structure that exists only before the organism is fully formed; in mammals, for example, a structure that exists only prior to the birth of the organism. This structure may be normal or abnormal. Experimental Model of Disease A representation in a non-human organism of a human disease for the purpose of research into its mechanism or treatment. 81 Finding That which is discovered by direct observation or measurement of an organism attribute or condition, including the clinical history of the patient. The history of the presence of a disease is a 'Finding' and is distinguished from the disease itself. Gene or Genome A specific sequence, or in the case of the genome the complete sequence, of nucleotides along a molecule of DNA or RNA (in the case of some viruses) which represent the functional units of heredity. Genetic Function Functions of or related to the maintenance, translation or expression of the genetic material. Injury or Poisoning A traumatic wound, injury, or poisoning caused by an external agent or force. Mental or Behavioral Dysfunction A clinically significant dysfunction whose major manifestation is behavioral or psychological. These dysfunctions may have identified or presumed biological etiologies or manifestations. Molecular Function A physiologic function occurring at the molecular level. Neoplastic Process A new and abnormal growth of tissue in which the growth is uncontrolled and progressive. The growths may be malignant or benign. Organ or Tissue Function A physiologic function of a particular organ, organ system, or tissue. Pathologic Function A disordered process, activity, or state of the organism as a whole, of a body system or systems, or of multiple organs or tissues. Included here are normal responses to a negative stimulus as well as patholologic conditions or states that are less specific than a disease. Pathologic functions frequently have systemic effects. Phenomenon or Process A process or state which occurs naturally or as a result of an activity. Population Group An indivdual or individuals classified according to their sex, racial origin, religion, common place of living, financial or social status, or some other cultural or behavioral attribute. Tissue An aggregation of similarly specialized cells and the associated intercellular substance. Tissues are relatively non-localized in comparison to body parts, organs or organ components. 82 2 - UMLS license: BioMeKE uses the UMLS for the medical annotation. The UMLS license is free for the academic researchers. UMLS license extract : " This Agreement is made by and between the National Library of Medicine, Department of Health and Human Services (hereinafter referred to as "NLM") and the LICENSEE. WHEREAS, the NLM was established by statute in order to assist the advancement of medical and related sciences, and to aid the dissemination and exchange of scientific and other information important to the progress of medicine and to the public health, (section 465 of the Public Health Service Act, as amended (42 U.S.C. section 286) and to carry out this purpose has been authorized to develop the Unified Medical Language System® (UMLS) to facilitate the retrieval and integration of machine-readable biomedical information from disparate sources; WHEREAS, the NLM's UMLS project has produced the UMLS Metathesaurus, a machine-readable vocabulary knowledge source, that is useful in a variety of settings; WHEREAS, the LICENSEE is willing to use the UMLS Metathesaurus at its sole risk and at no expense to NLM, which will result in information useful to NLM, may provide immediate improvements in biomedical information transfer to segments of the biomedical community, and is consistent with NLM's statutory functions, NOW THEREFORE, it is mutually agreed as follows: 1. The NLM hereby grants a nonexclusive, non-transferable right to LICENSEE to use the UMLS Metathesaurus and incorporate its content in any computer applications or systems designed to improve access to biomedical information of any type subject to the restrictions in other provisions of this Agreement. The names and addresses of licensees authorized to use the UMLS products are public information. 2. No charges, usage fees or royalties will be paid to NLM." .....UMLS web site 3 - Evaluation: This evaluation has shown the interest of BioMeKE from a biomedical standpoint, especially for the biologist who studies a broad list of genes obtained by a high throughput technology. Two types of evaluation were done a quantitative evaluation and a qualitative evaluation. The evaluation was done on a set of 43 genes known to be involved or not in iron metabolism. Each gene has LocusLink ID that has been recovered via the LocusLink interface (view the list of genes). 83 Mapping locuslink ID CUI* semantic Types* 538 C1412688 GG no view xml 5621 C1418941 GG no view xml 57817 C1423607 GG no view xml 6647 C1420306 GG no view xml 3162 C1415619 GG no view xml 3163 C1415620 GG no view xml 4241 C1417130 GG no view xml 4500 C1417400 GG no view xml 79901 C1427130 GG no view xml 80025 C1423814 GG no view xml 9843 C1415510 GG no view xml 9973 C1413192 GG no view xml 6648 C1420307 GG no view xml 6649 C1420308 GG no view xml 7390 C1421375 GG no view xml 7037 C1420708 GG no view xml 1356 C1439306 GG yes view xml 2420 C1414813 GG no view xml 84 UMLS XML Evaluation annotation file yes 2495 C1414833 GG no view xml 2512 C1414852 GG no view xml 205 C1412307 GG no view xml 2235 C1414580 GG no view xml 2395 C0387678 AAPP yes view xml 2941 C1415331 GG no view xml 3240 C0018595,C1415692 AAPP/GG yes view xml yes 7018 C0040679,C1442762 AAPP/GG yes view xml yes 7036 C0908063,C1420707 AAPP/GG yes view xml yes 30061 C0915115,C1456396 AAPP/GG yes view xml yes 210 C1439270 GG no view xml 1371 C0009985,C1413681 AAPP/GG yes view xml yes 3091 C1333897 GG yes view xml yes 3077 C0018995,C1384665 DS/GG yes view xml yes 2597 C0017857,C1414968 AAPP/GG yes view xml yes 4057 C0022942,C1416933 AAPP/GG yes view xml yes 540 C0296649,C1412689 AAPP/GG yes view xml yes 4891 C1420089 GG no view xml 2057 C0059570,C1333342 AAPP/GG yes view xml yes 3263 C0019067,C1415712 AAPP/GG yes view xml yes 567 C0005149,C1412709 AAPP/GG yes view xml yes 85 yes 48 C0378502,C1412126 AAPP/GG yes view xml yes 3658 C1442498 GG yes view xml yes 7422 C0078058,C1336934,C1323364 AAPP/MF/GG yes view xml yes 7428 C0299505,C0019562,C0694897 AAPP/DS/GG yes view xml yes * CUI : Each concept in the Metathesaurus (UMLS) has a unique and permanent concept identifier (CUI) * Semantic Types : GG --> Gene or Genome AAAP --> Amino Acid, Peptide or Protein MF --> Molecular Function DS --> Disease or syndrome Annotation In order to evaluate the accuracy of the medical annotations provided by BioMeKE, a manual review of the UMLS annotation has been done by an expert involved in research in iron metabolism and iron related diseases (Olivier Loréal, INSERM U522) list of publication . Two criteria were used: • Complementary information: was used to determine whether was redundant with GO annotation or complementary to GO. A UMLS annotation is regarded as complementary compared to GO when the expert considers that it corresponds to new information. For example, the GO annotations for EPOR are "erythropoietin receptor Activity", "signal transduction" and "integral to plasma membrane" and among the UMLS annotation we find "Hematopoiesis". This annotation is judged not complementary to GO • Expected information: was used to determine if a UMLS annotation was expected or not expected. This criterion was evaluated only on the annotation that was judged complementary to the first criteria: Expected annotation corresponds to a relation between the gene and the UMLS concept that is valid from the expert's standpoint. For example, 'Kidney Failure, Chronic' is judged expected by the expert and 'Epilepsy, Temporal lobe' is judged not expected for the gene EPOR 86 Example of UMLS annotations annotated by the expert : Gene EPOR LocusLink ID 2057 GO annotation : erythropoietin receptor activity signal transduction integral to plasma membrane UMLS Annotation Complementary to GO Expected Erythropoeitin receptor no yes Anemia, Sickle cell yes yes Kidney Failure, Chronic yes yes Endometriosis, site unspecified yes no Epilepsy, Temporal lobe yes no Cytokine Receptor Gene yes no Leukelia, Erythroblastic, Acute yes yes Dysmyelopoietic Syndromes yes yes Hematopoiesis no yes Bone Marrow yes yes Gene TF LocusLink ID 7018 GO annotation : ferric iron binding transport iron ion transport iron ion homeostasis UMLS Annotation Complementary to GO Expected Serum, Urine and Miscellaneous Proteins yes yes Oxidative Stress yes no Hemocromatosis yes yes Alzheimer's Disease yes yes Staphylococcal Infectious yes no Major histocompatibility Complex yes yes Alternative Splicing yes yes Alcohol-Related Disorders yes yes iron metabolism no yes Sertoli cell Tumor yes no Primary carcinoma of the liver cells yes yes Livers neoplasms yes yes 87 The annotation files can be download here. Graphical representation of the manual result evaluation Representation, for each relation type, of the percentage of UMLS annotation which were complementary or not (disk) to GO annotation, and, inside of this complementary annotation, those which were expected or not expected (bar) for the expert. The purple part of the disk represents the UMLS annotation which is complementary to GO annotation whereas the yellow part indicates UMLS annotation which is not giving complementary information. The expected annotations were calculated on the complementary annotation. The hatched part represents expected annotation and the white part represents annotations which were not expected 88 L’ENTREPÔT GEDAW II. INTÉGRATION DE DONNÉES DANS L’ENTREPÔT GEDAW 1. INTRODUCTION Arguant que l’interprétation biologique des données générées par les puces à ADN requiert l’enrichissement des données d’expression par intégration d’informations, et que l’approche entrepôt de données est adaptée à l’analyse en masse des données d’expression, nous avons développé GEDAW. GEDAW est un entrepôt de données orienté-objet dédié à l’analyse des données engendrées par l’étude du transcriptome hépatique. Il intègre des données d’expression enrichies à partir de sources et de standards des domaines de la génomique, de la biologie et de la médecine. Nous nous sommes focalisés sur l’utilisation de sources et de standards structurés et semistructurés pour une intégration forte et systématique au sein d’un schéma global qui regroupe les instances provenant des diverses sources intégrées. 2. MISE EN ŒUVRE ET DISCUSSION Architecture Le schéma de données de GEDAW est subdivisé en trois parties correspondant aux différents types de données intégrés : 1) les données expérimentales, c'est-à-dire les mesures d’expression de gènes en fonction de conditions expérimentales, 2) les annotations des gènes étudiés (séquence du gène, de l’ARNm, de la protéine ainsi que leurs annotations) et 3) les annotations biomédicales. Sources de données Les sources de données utilisées pour l’instanciation de l’entrepôt sont soit locales soit réparties sur le Web, chacune ayant son propre système de représentation. Elles ont été choisies pour leurs propriétés de contenu et de structuration, pour ainsi permettre une extraction efficace des entités d’intérêt. Les sources de données sont les suivantes : Une base de données relationnelle comme source de données expérimentales. Une base de données a été développée au laboratoire pour la gestion des données issues de la technologie des puces à ADN. Elle est en accord avec les standards MIAME. Cette base a été conçue en dehors de l’entrepôt GEDAW pour ne pas le surcharger de détails expérimentaux. Seuls les ratios normalisés ainsi que les libellés d’expériences sont exportés vers GEDAW pour de futures analyses. 89 GenBank comme source de données génomiques. Les enregistrements au format XML de la banque de données GenBank sont utilisés pour l’intégration de données génomiques dans GEDAW. Les ontologies GO et UMLS comme sources de données biomédicales. GO et UMLS sont utilisées pour fournir respectivement l’annotation fonctionnelle et la connaissance biomédicale sur les gènes étudiés. C’est l’application BioMeKE, présentée précédemment qui délivre cette double annotation. L’application fournit dans le format XML, les termes GO et les concepts UMLS associés à une liste de gènes. Schéma et processus d’intégration Un schéma orienté objet unique réunit toutes les informations expérimentales, génomiques et biomédicales autour des éléments centraux que sont le gène, l’ARNm et la protéine. Le langage Java est utilisé pour la description et l’instanciation des classes et le SGBDO (Système de Gestion de Base de Données Objet) FastObjects est utilisé pour la persistance des classes. Parce que les sources de données sélectionnées sont structurées ou semi-structurées, nous avons pu définir, lors du processus d’intégration, des règles de correspondance qui assurent d’une part la correspondance entre les schémas des sources et le schéma de GEDAW, et d’autre part la réconciliation des données. Ainsi, par le biais de règles structurales, agissant au niveau du schéma, les éléments ou concepts de GenBank, de GO et de l’UMLS sont sélectionnés, extraits et intégrés. De plus, des règles sémantiques, agissant au niveau des instances, permettent la réconciliation de la nomenclature des gènes : l’identifiant GeneID ainsi que les synonymes de noms de gènes fournis par BioMeKE sont utilisés pour regrouper dans GEDAW les données associées à un même gène. L’intégration dans GEDAW débute par le chargement des identifiants des gènes représentés sur la puce. Puis les mesures d’expression ainsi que les données génomiques, biologiques et médicales sont sélectionnées, transformées puis intégrées dans GEDAW. Finalement, l’utilisateur accède à l’information intégrée et réconciliée via une interface Java. L’interface permet de composer des requêtes OQL multicritères qui conduisent à l’interrelation de données diverses jusqu’alors non confrontées, ouvrant ainsi la voie à la suggestion de nouvelles hypothèses. 90 ARTICLE 2 Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW E. Guérin, G. Marquet, A. Burgun, O. Loréal, L. Berti-Equille, U. Leser and F. Moussouni Proceedings of Second International Workshop, Data Integration in Life Sciences (DILS), San Diego, CA, USA, July 20-22, 2005 Appeared in Lecture Notes in Computer Science Publisher: Springer-Verlag ISSN: 0302-9743 Volume 3615: 158-174 Integrating and Warehousing Liver Gene Expression Data and Related Biomedical Resources in GEDAW E. Guérin 1, G. Marquet 2, A. Burgun 2, O.Loréal 1, L. Berti-Equille 3 U. Leser 4, F. Moussouni 1 1 INSERM U522 CHU Pontchaillou, 35033 Rennes, France EA 3888 LIM, Faculté de Médecine 35043 Rennes, France 3 IRISA, Campus Universitaire de Beaulieu, 35042 Rennes, France Dep. for Computer Science, Humboldt-Universität, 10099 Berlin Germany 2 4 Abstract. Researchers at the medical research institute Inserm U5221, specialized in the liver, use high throughput technologies to diagnose liver disease states. They seek to identify the set of dysregulated genes in different physiopathological situations, along with the molecular regulation mechanisms involved in the occurrence of these diseases, leading at mid-term to new diagnostic and therapeutic tools. To be able to resolve such a complex question, one has to consider both data generated on the genes by in-house transcriptome experiments and annotations extracted from the many publicly available heterogeneous resources in Biomedicine. This paper presents GEDAW, a gene expression data warehouse that has been developed to assist such discovery processes. The distinctive feature of GEDAW is that it systematically integrates gene information from a multitude of structured data sources. Data sources include: i) XML records of GENBANK to annotate gene sequence features, integrated using a schema mapping approach, ii) an inhouse relational database that stores detailed experimental data on the liver genes and is a permanent source for providing expression levels to the warehouse without unnecessary details on the experiments, and iii) a semi-structured data source called BioMeKE-XML that provides for each gene its nomenclature, its functional annotation according to Gene Ontology, and its medical annotation according to the UMLS. Because GEDAW is a liver gene expression data warehouse, we have paid more attention to the medical knowledge to be able to correlate biology mechanisms and medical knowledge with experimental data. The paper discusses the data sources and the transformation process that is applied to resolve syntactic and semantic conflicts between the source format and the GEDAW schema. 1 Introduction In human health and life science, the rapid emergence of new biotechnological platforms for high throughput investigations in genome, transcriptome and proteome, prompts further advances in information management techniques to take in charge the data and knowledge generated by these technologies. A tremendous amount of 1 Regulation of functional balances of normal and pathological liver 91 biomedical data is continuously deposited by scientists in public Web resources, and is in return searched by other scientists to interpret results and generate and test hypothesis. The management of these data is challenging, mainly because : (i) data items are rich and heterogeneous: experiment details, raw data, scientific interpretations, images, literature, etc. ii) data items are distributed over many heterogeneous data sources rendering a complex integration, iii) data are speculative and subject to errors and omissions within these data sources, and bio-data quality is difficult to evaluate, and iv) bio-medical knowledge is constantly morphing and in progress.. This paper reports on our experience in building GEDAW: an object-oriented Gene Expression Data Warehouse to store and manage relevant information for analyzing gene expression measurements [12]. GEDAW (Gene Expression DAta Warehouse) aims on studying in silico liver pathologies by using expression levels of genes in different physiopathological situations enriched with annotations extracted from the variety of the scientific sources and standards in life science and medicine. A comprehensive interpretation of a single gene expression measurement requires the consideration of the available knowledge about this gene, including its sequence and promoters, tissue-specific expression, chromosomal location, molecular function(s) and classification, biological processes, mechanisms of its regulation, expression in other pathological situations or other species, clinical follow-ups and, increasingly important, bibliographic information. Beyond the process of data clustering, this knowledge provides representations that can help the scientist to address more complex questions and suggest new hypothesis, leading in our context to a clearer identification of the molecular regulation mechanisms involved in the occurrence of liver diseases and at mid-term to new diagnostic and therapeutic tools. The required knowledge is spread world-wide and hosted on multiple heterogeneous resources. Manually navigating them to extract relevant information on a gene is highly time-comsuming and error-prone. Therefore, we have physically integrated into GEDAW a number of important sources in life science and medicine that are structured or semi-structured. Our final objective is to propose a more systematic approach to integrate data on liver genes and to organize and analyze them within a target question - which is in our case specific to an organ and a pathological state. This is a complex task, with the most challenging questions being: i) bioknowledge representation and modeling, ii) semantic integration issues and iii) integrated bio-data analysis. Building a scientific data warehouse to store microarray expression data is a well studied problem. Conceptual models for gene expression are for instance discussed in [18].The Genomic Unified Schema (GUS) integrates diverse life science data types, including a support of data cleansing, data mining and complex queries analyses, thus making it quite generic [2]. The warehouse of [11] focuses on storing as possible details on the experiments and the technologies used. In GEDAW we only focus on the result of an experiment, i.e., expression measurements. No further experimental details are stored within the warehouse. The Genome Information Management System (GIMS) in which one of the authors has been participating, allows the storage and management of microarray data on the scale of a genome, making GIMS, in contrast to GEDAW, a genome-centric rather than gene-centric data warehouse [9]. Finally, [10] describe the GeneMapper Warehouse for expression data integrating a 92 number of genomic data sources. In contrast, GEDAW has a focus on medical and “knowledge-rich” data sources. 1.1 Architecture for BioData Integration GEDAW is a gene-centric data warehouse devoted to the study of liver pathologies using a transcriptome approach. New results from medical science on the gene being studied are extremely important to correlate gene expression patterns to liver phenotypes. To connect to this information, we take advantage of the recent standards developed in the medical informatics domain, i.e., the UMLS knowledge base. [3] GEDAW schema includes three major divisions: (i) gene and gene features along with transcripts and gene products division, (ii) expression measurements of liver genes division generated by in-house experiments and (iii), universal vocabularies and ontologies division. As illustrated in Figure 1, to store the gene expression division a local relational database has been built, as a repository of array data storing as many details as possible on the methods used, the protocols and the results obtained. It is a MIAME (Minimum Information About Microarray Experiment) compliant source [6]. Swissprot GOA Medline unify and structure BioMeKe relational DB Microarray Data ... XML Derived Document Source Genbank Records GO and UMLS annotations Data heterogeneous knowledge in life science and medicine Gene Nomenclature and universal concepts in Biomedecine XML Expression profiles and conditions Experimental Division . . . Genew More structured knowledge deployed Sequence annotations transformation Biomedical Ontologies Gene Sequence Features Fig. 1. GEDAW System Architecture The sources currently integrated are spread world wide and hosted on different representation systems, each having its own schema. XML records from the GENBANK [7] have been used to populate the gene sequence features division into GEDAW. Explicit relationships associating genes and their expression profiles with diseases are also extremely needed to understand the pathogenesis of the liver. For this purpose, we use the system BioMeKE [8,17] to curate the ontology division of each expressed gene with relative concepts in life science and medicine. The BioMEdical Knowledge Extraction module (BioMeKE) includes the Unified Medical Language 93 System® (UMLS) covering the whole biomedical domain, and the Gene Ontology™ (GO) that focuses on genomics. It includes additional terminologies, as that provided by the HUman Genome Organisation (HUGO) Gene Nomenclature Committee (HGNC) to resolve synonymy conflicts [19]. An XML document that annotates each gene by exploring these biomedical terminologies is derived from BioMeKE. It is then parsed and integrated into the warehouse. 1.2 Contribution The aim of this paper is to share our experience on designing and implementing an integration process for biomedical data in the presence of syntactic and semantic conflicts. Other aspects such as biological data quality controlling, mining and refreshing will be described elsewhere. 1.3 Outline An overview on the biological background and the questions that motivate the design of GEDAW are given in the next section. In section 3, the provenance, content and the format of the structured resources used for integration in GEDAW are described. In section 4, the integration process along with a brief schema design is presented. The data mapping rules that have been defined for instances conciliation and cleansing during the integration process are also presented. The generic interface used for queries composition and execution is tackled in section 5. Section 6 concludes and presents the perspectives of our future works. 2 Biological Background and Motivations Transcriptome is the study of the transcriptional response of the cell to different environment conditions such as, growth factors, chemicals, foods treatments, genetic disturbance, etc. The cell may response by an excessive expression or repression of certain genes in two different situations, for example normal vs. pathologic. 2.1 Transcriptome experiments In the liver framework, the objective of transcriptome experiments is to emphasize both co-expressed genes and gene networks in a specific pathology within the hepatocyte. To determine whether a single gene is expressed is a routine task for a biologist, but this process becomes more complicated because the data generated are massive. DNA-chips are indeed used and thousands of genes are deposited on a two dimensional grid. The experiment generating thousands of data points requires an efficient processing of the storage and the management of data. The key question is: which of (and why?) the deposited genes are abnormally expressed in the injured tissues? Each gene is represented by a spot, and its expression level is measured by 94 means of the spot intensity. This same gene does have other multiple features, recorded in World Wide Web resources, and that must be considered to answer such questions. 2.2 Biomedical Issues Underlying Data Integration To study experimental data, the scientist expects an integrated environment that captures his own experimental data enriched with information and expertise on the expressed genes. Beyond the process of clustering expression measurements in gene clusters, such an integrated environment should allow him to better focus on the scientific interpretation derived from such a clustering that reveals such clusters. Together with the collected gene data, the integrated environment should be able to answer questions that need an integration of knowledge from the biological level to the pathological level. Below we give three types of questions that scientists frequently ask and that cannot be answered by simple SQL queries, but require the application of data mining techniques. 1 The set of genes that have seen their expression modified in a given condition? 2 Within this set, is there a subset of genes that are co-regulated? 3 What are the elements that may explain a parallel (or opposite) modulation of certain genes: membership to a functional class, homologies occurring in their peptides sequences, or in their nucleic sequences particularly in the promoting region? Scientists may need to go thoroughly into sequences (question 3.) of the co-expressed genes for discovering common motifs, because genes sharing similar expression profiles must share transcription regulation mechanisms that include common transcription factors. They also need to go thoroughly into disease information and clinical follows-up in order to find out correlations between particular mutants' phenotypes and expression patterns. The integrated environment should also be able to answer questions such as: 1 Is there any correlation between gene expression levels and a certain pathological phenotype? 2 What is the set of genes for which a dysregulation characterizes a pathological sample by indicating a gravity level, a prognostic factor, a sensitivity level or on a contrary a resistance to a certain treatment ? Respective genes annotations that comes from the UMLS knowledge-base and the Gene Ontology, along with gene expression profiles, are used to proceed such questions. Relative conceptual terms in both ontologies are extracted from the unified document-source, derived by BioMeKE. 2.3 GEDAW: An Object-Oriented Environment for Integrating Liver Genes Data Considering the different integration issues previously described, an object oriented data warehouse called GEDAW (Gene Expression DAta Warehouse) has been designed for integrating and managing : i) data being produced on the expressed genes in public databanks and literature, ii) normalized experimental data produced 95 by Microarray experiments and iii) complementary biological, genomic, and medical data. 3 Data Resources Searching across heterogeneous distributed biological resources is increasingly difficult and time-consuming for biomedical researchers. Bioinformatics is coming to the forefront to address the problem of drawing effectively and efficiently information from a growing collection of multiple and distributed databanks. Several resources can be used to instantiate the liver warehouse GEDAW. We describe here the ones that have been selected for having the most appropriate properties, enabling a systematic extraction of gene attributes: 1) experiment resources, 2) genomic databanks and 3) ontological resources. We demonstrate for each selected resource, its provenance, content, structure and which gene attributes are being extracted. 3.1 Experimental Resources To not burden the warehouse, a MIAME compliant relational database has been built independently (Figure2), in order to store and manage experimental microarray data [12]. This database stores as much as possible details on the microarray experiments, including the techniques used, protocols, samples and results obtained (ratios and images). We will not go in further details concerning this database, except saying that it acts as a permanent source of expression levels delivered by in-house transcriptome experiments on injured liver tissues, and provides facilities to select and export data. Part of those data is exported to the data warehouse. In-house experiment on the liver: maximum details on the protocols used, the images obtained, normalisation,… PERSISTENT OBJECTS IN GEDAW SOURCE 1 MGED COMPLIANT DATABASE (with regards to the imposed description DNA select and export Transcriptome mRNA Ontology annotation Class Proteins Fig. 2. An external source to manage liver transcriptome experiments 96 3.2 Genomic Databanks Resources In order to perform consistent analyses on the expressed genes, the integration of the precise pre-existing annotations of their sequences is necessary. Sequence data to consider include: 1) the DNA sequence and sequence components : known promoters, known transcription binding sites, introns, exons, known regulators, 2) the mRNA sequence, sequence components and alternative transcripts and 3) functional proteins. Being conscious that an exhaustive gene annotation is available for a limited number of genes, it is however helpful to infer new knowledge on yet unknown co-expressed genes. Data describing genomic sequences are available in several public databanks via Internet: banks for nucleic acids (DNA, RNA), banks for protein (polypeptides, proteins) such as SWISS-PROT , generalist or specialized databanks such as GENBANK , EMBL (European Molecular Biology Laboratory), and DDBJ (DNA DataBank of Japan). Each databank record describes a sequence with its several annotations. As an example, the description of the Homosapiens Hemochromatosis gene HFE, which mutation causes a genetic liver disease having the same name is given in GENBANK. The description of this gene is available in both HTML2 and XML3 formats. An XML format that focused on the sequence of HFE gene is also available4. Each record is also identified by a unique accession number and may be retrieved by key-words. Annotations include the description of the sequence: its function, its size, the species for which it has been determined, the related scientific publications (authors and references) and the description of the regions constituting the sequence (start codon, stop codon, introns, exons, ORF, etc.). GENBANK (with more than 20 million records of different sequences) [7] is one of the first banks that propose XML format for its records with a well-defined DTD specifying the structure and the domain terminology for the records of genes and submitted sequences. 3.3 Ontological Resources Relating genotype data on genes with their phenotype during the integration process is essential to be able to associate gene expression levels to a pathological phenotype. Tremendous web resources provide such information for a given gene. But their heterogeneity is a major obstacle for a consistent semantic integration. They are numerous and continually evolving, the number of biomolecular entities is very large, the names of biological entities are associated with synonymy: a gene can have multiple aliases (synonyms) in addition to its official symbol, and genes that are functionally different across species may have the same name (ambiguity) [14,20], different databases organize data according to different schemas and use different vocabularies. Shared ontologies are used to conciliate and to attain as much as possible data conflicts. Various standards in life science have been developed to provide domain knowledge to be used for semantically driven integration of information from different sources. 2 www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=1890179 www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&list_uids=1890179&dopt=xml 4 www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&list_uids=1890179&dopt=gbx 3 97 3.3.1 Gene Ontology Gene Ontology™ (GO) is an ontology for molecular biology and genomics [13]. The three hierarchies of GO are molecular function (F), biological process (P) and cellular component (C). GO terms are used as attributes of gene products to provide information about the molecular functions, the biological processes, and the cellular components related to the gene product. In our context of high throughput transcriptome experiments, we use GO to annotate the genes expressed in different situations in the liver. Furthermore, GO is broadly used by public databanks to annotate genes. Therefore, it has become a standard and plays an important role in biomedical research, by making possible to draw together information from multiple resources. To illustrate with an example, to the ceruloplasmin concept (a gene involved in iron transport, having a central role in iron metabolism and is secreted in plasma by hepatocytes) is associated the set of concepts in each hierarchy of GO ontology (Table 1). Molecular function Biological process Cellular Component Multicopper Feoxidase iron Transport mediator Iron homeostasis Extracellular space Table 1. Ceruloplasmin annotations in Gene Ontology 3.3.2 UMLS Knowledge Base The UMLS is developed by the US National Library of Medicine. It comprises two major inter-related components: the Metathesaurus®, a large repository of concepts (around 900,000 concepts), and the Semantic Network, a limited network of 135 Semantic Types [3]. The Metathesaurus is built by merging existing vocabularies, including Medical Subject Headings (MeSH), which is used to index biomedical literature in MEDLINE, and GO. In the Metathesaurus, synonymous terms are clustered under a same concept, each having a Concept Unique Identifier (CUI). To the ceruloplasmin concept is associated the CUI:C0007841 and a set of synonymous terms (Table 2a) (2003AC release of the UMLS). Although the UMLS was not specifically developed for bioinformaticists, it includes also terminologies such as the NCBI taxonomy, OMIM terminology and GO that are of great interest for biologists. It also includes the MeSH, which is used to index MEDLINE abstracts. Therefore, the UMLS is a means to integrate resources since it integrates (repetition) terminologies that are used to represent data in various resources. The second motivation is that the UMLS contains 12 million relations among the Metathesaurus concepts. The source vocabularies provide hierarchical relations. RO (Other Relation) relations associate concepts from different kinds, such as diseases and tissues, or diseases and kinds of cells. In addition, co-occurrences in MEDLINE are also represented in the UMLS [3]. The last motivation is that the UMLS includes an upper level ontology of the biomedical domain (the UMLS Semantic Network) made of 135 Semantic Types. Each Metathesaurus concept is assigned to one or more Semantic Types. Three major relations are then concerned and extracted for each concept from UMLS : • Parent concept (Table 2b): the parents of ceruloplasmin concept illustrate hierarchical relations in UMLS. • Related concepts in diseases (Table 2c), tissues or kind of cells. 98 • Co-occurrences in Medline concepts (Table 2d), each with an additional numeric frequency. Synonymous Ceruloplasmin alpha(2)-Ceruloplasmin Ceruloplasmin Ferroxidase Ceruloplasmin Oxidase CP - Ceruloplasmin Fe(II):oxygen oxidoreductase ferroxidase <1> (a) Parents concepts Related concepts Co-occurred Concepts in MEDLINE Copper Copper Alpha-Globulins Menkes Kinky Hair Syndrome Iron Acute-Phase Proteins Antioxidants copper oxidase Carrier Proteins Hepatolenticular Serum Ceruloplasmin Test Alpha-Globulins Degeneration Ceruloplasmin Serum Metalloproteins Ferritin Decreased Oxidoreductases Ceruloplasmin measurement Brain Enzyme Liver Superoxide Dismutase (b) (c) (d) Table 2. Ceruloplasmin annotations extracted from UMLS 3.3.3 Other Resources: Terminologies At present, an additional terminology is mainly used to manage heterogeneity in naming genes, gene products or diseases, as well as in identifying items in different databanks. Given a term or a gene symbol, lexical knowledge is needed to deal with synonyms and find the corresponding concept. Available resources in the biomedical domain include the Genew database developed by the Human Gene Nomenclature Committee to provide approved names and symbols for genes, as well as previous gene names and symbols [19]. 3.3.4 Mapping Ontologies into GEDAW The use of ontologies and terminologies terms as attributes values for genes has been made possible by the joint application project BioMeKE [17]. A local consistent support into BioMeKE system of the terminologies described above enables the extraction of respective nomenclature and conceptual terms in biology and medicine, given a gene name, a symbol, or any gene relative identifier in biomedical databanks. To navigate through these resources, a set of JAVA functions have been developed to: • • • • Find all the synonyms of a term and all the identifiers of a gene or gene product in Genew and the UMLS Metathesaurus, Provide the cross-references between a gene and a protein (e.g. SWISSPROT ID) from Genew. Represent the different paths to reach the information about a gene or a gene product via all the available cross-references. Search for information about a gene or a gene product, i.e. the set of concepts related to this gene in GO (molecular function, biological process and cellular component) and the set of concepts related to the gene in UMLS including chemicals and drugs, anatomy, and disorders. 99 <biomeke_annotation> <biomeke_annotation_nomenclature> Gene ^<seq-id_locuslink>1356</seq-id_locuslink> nomenclature <seq-id_hgnc>2295</seq-id_hgnc> <seq-name_hgnc>ceruloplasmin (ferroxidase)</seq-name_hgnc> <seq-symbol_hgnc>CP</seq-symbol_hgnc> <seq-aliases_hgnc></seq-aliases_hgnc> <seq-id_omim>117700</seq-id_omim> <seq-id_refseq>NM_000096</seq-id_refseq> <seq-id_swissprot>P00450</seq-id_swissprot> <seq-id_pubmed></seq-id_pubmed> GO </biomeke_annotation_nomenclature> annotations <biomeke_GO_annotation_list> <biomeke_GO_annotation-type value="molecular function"> <biomeke_GO_annotation> <GO-accession>GO:0004322</GO-accession> <GO-name>ferroxidase activity</GO-name> <GO-evidence>TAS</GO-evidence> . . . etc </biomeke_GO_annotation> UMLS <biomeke_UMLS_annotation_list> annotations <biomeke_UMLS_annotation-name> <UMLS_name_search> Ceruloplasmin </UMLS_name_search> <UMLS_CUI_search>C0007841 </UMLS_CUI_search> </biomeke_UMLS_annotation-name> <biomeke_UMLS_annotation-semantic-type value = " Amino Acid, Peptide, or Protein"> <biomeke_UMLS_annotation-relation value = "Parent"> <biomeke_UMLS_annotation> <UMLS-name>acute phase protein 2</UMLS-name> </biomeke_UMLS_annotation> . . . etc <biomeke_UMLS_annotation-relation value = "other relations"> <biomeke_UMLS_annotation> <UMLS-name>Metalloproteins</UMLS-name> </biomeke_UMLS_annotation> . . . etc <biomeke_UMLS_annotation-relation value = "Co-occurences"> <biomeke_UMLS_annotation> <UMLS-name>ATP phosphohydrolase</UMLS-name> <UMLS-freq>4</UMLS-freq> . . . etc Fig. 3. BioMeKE-xml document to annotate the ceruloplasmin Gene These annotations are then considered by the expert, filtered and stored within the warehouse for further classifications using gene expression profiles. Because the aim of this paper is not to describe BioMeKE but rather to introduce its general scope and outputs, we will not go in further details. We suggest the reader to get further details in another paper devoted to this application [8,17]. To annotate each expressed gene, BioMeKE delivers an XML document (Figure 3) to be parsed, transformed and stored into GEDAW within the Ontology_annotation Class. This document-source standing as a structured data source derived by BioMeKE. 4 Bio-Data Integration Designing a single schema that integrates syntactically and semantically the whole heterogeneous life science data sources is still a challenging question. Integrating the source schemas is presently the most commonly used approach in literature [15]. By restricting ourselves to structured or semi-structured data sources, we have been able to use a schema mapping approach with the GAV paradigm [16]. In our context, schema mapping is the process of transforming data conforming to a source schema to the corresponding warehouse schema by the definition of a set of mapping rules. The data sources include : i) GENBANK for the genomic features of the genes recorded in 100 XML format, ii) conceptual annotations derived from the biomedical ontologies and terminologies using BioMeKE outputs as XML documents, iii) and gene expression measurements selected from the in-house relational database. By using a mapping approach from one source at a time, we have minimized as much as possible the problem of identification of equivalent attributes between sources, whereas the problem of duplicate detection is still important. Identifying identical objects in the biomedical domain is a complex problem, since in general the meaning of “identity” cannot be defined properly. In most applications, even the identical sequences of two genes in different organisms are not treated as a single object. In GENBANK, each sequence is treated as an entity in its own, since it was derived using a particular technique, has particular annotation, and could have individual errors. For example, there are more than 10 records for the same DNA segment of the HFE gene. Thus, classical duplicate detection methods [22] do not suffice. Duplicate detection and removal is usually performed either using a simple similarity threshold approach, as in the case of GEDAW, or based on manual intervention for each single object, such as in RefSeq. Data submission to public biological databanks is often a rather unformalized process that usually does not include name standardization or data quality controls. Erroneous data may be easily entered and cross-referenced. Even if a tool like LocusLink5proposes a cluster of records, across different biological databanks, as being semantically related, biologists still must validate the correctness of the clustering and resolve value differences among the records. Gene * * Region is a Non_transcribed_region is a is a Promotor Transcribed_region Terminator is a Experience * Exon tRNA is a * is a mRNA * * * Expression_levels * Ontology_annotation * Spliced_transcript * * * is a mRNA_fragment is a UTR5 ORF is a is a is a UTR3 GO_annotation UMLS_annotation * * Polypeptide Fig. 4. GEDAW UML Conceptual schema In GEDAW, a unique schema (Figure 4) has been defined to describe different aspects of a gene, to which has been added an ontological annotation class associated to each gene transcript. The stored ontological annotations represent the more specialized concepts associated to the genes. The ontology annotation class used for storing the terms from both medical and biological terminologies includes attributes like: ontology and annotation type along with category, value and description attributes of a term. These attributes are extracted by parsing the XML files delivered by BioMeKE. 5 www.ncbi.nlm.nih.gov/LocusLink 101 At the schema-level, the problem of format heterogeneity makes necessary to transform data, so that they conform to the data model used by our warehousing system. Information sources consist of sets of XML files, while the GEDAW target schema is object-oriented. This translation problem is inherent in almost all data integration approaches, but becomes much more complex in the biological domain because the potentially different (and not formalized yet) biological interpretations of schema elements and the fact that, together with the current state of knowledge, schemas and interpretations tend to evolve quickly and independently in the different sources. In order to define an appropriate data aggregation of all the available information items, data conflicts have to be resolved using rules for mapping the source records and conciliating different values recorded for a same concept. Mapping rules are defined to allow the data exchange from the public databanks into GEDAW (Figure 5). Apart from experimental data, public information items are automatically extracted by scripts using the DTD (Document Type Definition) of the data source translated into the GEDAW conceptual data model. GenBank DTD <!ELEMENT Bioseq ( Bioseq_id , Bioseq_descr? , Bioseq_inst , Bioseq_annot? )> <!ELEMENT Bioseq_id ( Bioseq_id__E+ )> <!ELEMENT Bioseq_descr ( Seqdescr )> <!ELEMENT Bioseq_inst ( Seq - inst )> <!ELEMENT Bioseq_annot ( Seq - annot* )> <!ELEMENT Seq-descr ( Seqdesc+ )> <!ELEMENT Seqdesc ( Seqdesc_mol-type | … Seqdesc_title | … Seqdesc_molinfo)> <!ELEMENT Seqdesc_title ( #PCDATA )> <!ELEMENT MolInfo ( MolInfo_biomol? , MolInfo_tech? , MolInfo_techexp? , MolInfo_completeness? )> <!ELEMENT MolInfo_biomol ( %INTEGER; )> <!ATTLIST MolInfo_biomol value ( unknown | genomic | pre-RNA | mRNA | rRNA | tRNA | snRNA | scRNA | peptide | other-genetic | genomic-mRNA | other ) #IMPLIED > … Gene * * Region is a Non_transcribed_region is a is a R1 Promotor Transcribed_region Terminator is a Experience * Exon tRNA is a * is a mRNA * * * Expression_levels * Ontology_annotation * Spliced_transcript * * R2 * is a mRNA_fragment is a UTR5 ORF is a is a is a UTR3 GO_annotation UMLS_annotation * * Polypeptide Fig. 5. Example of mapping rules between GENBANK DTD and GEDAW schema Three categories of mapping rules are proposed: 1) structural mapping rules, 2) semantic mapping rules and 3) cognitive mapping rules according to the different knowledge levels and perspectives for biological interpretation. The structural mapping rules are defined at the schema level according to the GEDAW model by identifying the existing correspondences with relevant DTD elements (e.g., the Seqdesc_title element in GENBANK DTD is used to extract the name "name" of the gene and the MolInfo_biomol value its type of molecule with respectively structural mapping rules R1 and R2 in Figure 5). Then, the records of interest are selectively structured and data are extracted. Semantic and cognitive mapping rules are used for data unification at the instance level: several rules may use available tools for determining analogies between 102 homologous data (such as sequence alignment, for example): the result of the BLAST algorithm (implemented in a set of similarity search programs for Basic Local Alignment Search Tool) allows considering that two sequences match. The nomenclature section provided by BioMeKE (Figure 3) is also considerably used to conciliate duplicate records. More semantic mapping rules have been built using this information during the process of integration. For example, the Locus-ID is used to cluster submitted sequences associated to a same gene (cross-referenced in LocusLink) and the official gene name along with its aliases to relate different gene appearance with different names, in literature for example. Let us consider three distinct selectively structured records we may obtain from GENBANK databank by querying the DNA sequence for gene HFE. A first record identified by the accession number AF204869 describes a partial sequence (size = 3043) of the HFE gene with no annotation but one relevant information item about the position of the promoter region. A second record identified by the accession number AF184234 describes a partial sequence (size = 772) of the protein precursor of HFE gene with a detailed but incomplete annotation. The third record identified by the accession number Z92910 describes the complete sequence (size = 12146) of the HFE gene with a complete annotation. In this example, BLAST(sequence(Z92910), sequence(AF184234))=100% indicates the sequence in both records are perfectly homologous and can be merged. Cognitive mapping rules may be used in this example for conciliating data such as: R3 : Descriptive Inclusion: record(Z92910) contains record(AF184234) R4 : Position Offset: position(Z92910.exon)=6364+position(AF184234.exon) In our context a liver cDNA microarray corresponding to 2479 cDNA clones spotted onto glass slides has been designed. The data unification process described above has lead to identify 612 distinct genes on the 2479 deposited clones. A complete integration of 10 hybridization experiments took around one day runtime, with around 11 Mbytes charged database size. 5 Integration Results Construction and User Interface Now to recapitulate, the integration process of transcriptomic data into GEDAW is operated in four steps. During the first step, to the probes (or clones) used by in-house experiments, is associated a set of gene names, in terms of accession numbers of similar sequences in GENBANK along with textual descriptions. The second step is in charge of selecting the set of experiments for which the researcher wishes to integrate and analyse the experiments results, and then of loading expression levels measured for these genes. For each gene having its expression levels in different physiopathological situations already stored in GEDAW, the full annotation of the sequence associated to this gene is loaded from GENBANK by XML transformation to Objects. BioMeKE is launched in Step 4 to bring for each integrated gene its nomenclature and its ontological annotations in life science from Gene Ontology and in medicine from UMLS. In step 5, the results are delivered to the expert, for a filtering phase using either predefined mapping rules, output nomenclature, or simply his expertise, to eliminate duplicate records of genes. 103 Fig. 6. Example of Query Composition When the user poses a query, the whole integration results for each gene are brought in. Further refinements on these data can be operated, by selecting for example genes having expression levels between a minimum value and a maximum value, those belonging to a given biological process or co-occurring in Medline with a given concept, or having a known motif in their mRNA sequences and co-located on a same chromosome. It could be also a conjunction of these criteria. In Figure 6, we show an example of a query composed in the generic java-based interface we have developed for GEDAW. Resulting sets are presently browsed using either FastObjects interface, or delivered as Textfiles to the expert for further analyses. 6 Conclusion The GEDAW system presented in this paper allows massive importation of biological and medical data into an object-oriented data warehouse that supports transcriptome analyses specific to the human liver. This paper focused on the relevant genomic, biological and medical resources that have been used to build GEDAW. The integration process of the full sequence annotations of the genes expressed is described. It is performed by parsing and cleaning the corresponding XML description in GENBANK, transforming the recorded genomic items to persistent objects and storing them in the warehouse. This process is almost systematic because another aspect related to the conciliation of duplicate records has been added. Elements of formalization of expertise rules for mapping such data were given. This ongoing work is still a difficult problem in information integration in life science and has not yet satisfied answers by classical solutions proposed in existing mediation systems. In order to lead strong analysis on expressed genes and correlate expression profiles to liver biology and pathological phenotype, a second way of annotation has been added to the integration process. We chose to integrate Gene Ontology, due to its available biological annotations in the most used bio-computer resources, mainly Swissprot, GENBANK, Ensembl, TrEMBL and LocusLink databanks. It is also referenced in other relevant ontologies, like MGED [21]. More important is our 104 consideration during integration of the medical annotations of the genes from UMLS, a well considered knowledge base in Medical Informatics [3,4,5]. These ontological annotations have been delivered by BioMeKE within the semi-structured document source BioMeKE-xml. Also, because a gene may have different appearances with different names in several bio-data banks and literature the approved nomenclature of the gene and its synonyms have been collected in BioMeKE-xml. This information is also a pre-requisite to resolve the problem of duplicate records. An exhaustive integrated tool that facilitates access to diverse data on the expressed genes is then provided to the researcher. Intensive querying of the integrated database using OQL queries has been conducted with multiple criteria on genes attributes. Current investigations are focusing on the application of advanced data mining techniques for a combined analysis of expression levels on genes with enriched annotations, and functional similarities are likely to reveal authentic clusters of genes. With regards to the limits of our warehousing approach, it is relevant as long as data integration from the heterogeneous sources in Biomedicine and their refreshment in the warehouse stay feasible automatically and with a reasonable performance. One argument in favor of actually storing data in GEDAW instead of dynamically linking to the corresponding sources concerns reproducibility purposes, i.e., being able to analyze several gene expression data in reference to the same domain knowledge at different times. BioMeKE system provides domain knowledge useful for acquiring information from diverse resources. It is intended to be an ontology-based mediation system that continuously supplies the gene expression warehouse with a homogeneous access to multiple data sources in Biomedicine. A filtering task is nevertheless performed by the expert on the delivered annotations before their storage in the warehouse by using multiple criteria, like the frequency information of a concept co-occurrences in Medline. The standard ontologies such as GO and UMLS continue to evolve. They are physically supported by BioMeKE system rather than accessed via the web, making possible their refinement to expert knowledge in specific sub-domains like the liver or the iron metabolism. An interesting point to quote is the acquisition of news concepts and relationships from the analyses operated on the transcriptome data. Expressive and formal representation of this new biomedical knowledge will then be gradually added to the domain, allowing the expansion of queries on transcriptomic data. Acknowledgements: This work was supported by grants from Region Bretagne (20046805) and inter-EPST. Emilie Guérin was supported by a MRT fellowship and grants from Region Bretagne. References [1] Achard, F., Vaysseix, G. and Barillot, E. (2001) XML, bioinformatics and data integration, Bioinformatics, 17(2), 115-125. [2] Babenko V, Brunk B, Crabtree J, Diskin S, Fischer S, Grant G, Kondrahkin Y, Li L, Liu J, Mazzarelli J, Pinney D, Pizarro A, Manduchi E, McWeeney S, Schug J, Stoeckert C.(2003) GUS The Genomics Unified Schema A Platform for Genomics Databases. http://www.gusdb.org/ 105 [3] Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res. 2004 Jan 1;32(Database issue):D267-70. [4] Bodenreider O, Burgun A. Aligning Knowledge Sources in the UMLS: Methods, Quantitative Results, and Applications. Medinfo. 2004;2004:327-31. [5] Bodenreider O, Mitchell JA, McCray AT. (2002) Evaluation of the UMLS as a terminology and knowledge resource for biomedical informatics. Proc AMIA Symp. 2002; : 61-5. [6] Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C, Aach J, Ansorge W, Ball CA, Causton HC, Gaasterland T, Glenisson P, Holstege FC, Kim IF, Markowitz V, Matese JC, Parkinson H, Robinson A, Sarkans U, Schulze-Kremer S, Stewart J, Taylor R, Vilo J, Vingron M. Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. Nat Genet. 2001 Dec;29(4):365-71. [7] Benson D.A, Karsch-Mizrachi I, Lipman D.J, Ostell J, and Wheeler D.L. GENBANK: update, Nucleic Acids Res., Jan 2004; 32: 23 - 26. [8] Burgun A, Bodenreider O, Le Duff F, Moussouni F, Loréal O. Representation of roles in biomedical ontologies : a case study in functional genomics. JAMIA (supl), Proc. AMIA 2002 Symp, 86-90 [9] Cornell M, Paton NW, Wu S, Goble CA, Miller CJ, Kirby P, Eilbeck K, Brass A, Hayes A, Oliver SG (2001) GIMS - a data warehouse for storage and analysis of genome sequence and functional data. Proc. 2nd IEEE International Symposium on Bioinformatics and Bioengineering (BIBE) 15-22. [10] Do, H.-H. and Rahm, E. (2004). "Flexible Integration of Molecular-biological Annotation Data: The GenMapper Approach". EDBT'04, Heraklion, Greece, Springer LNCS. [11] Fellenberg K, Hauser N.C, Brors B, Hoheisel J.D, and Vingron M. Microarray data warehouse allowing for inclusion of experiment annotations in statistical analysis, Bioinformatics, Mar 2002; 18: 423 - 433. [12] Guerin E., Marquet G., Moussouni F., Burgun A., Mougin F., Loréal O. Deployment of heterogeneous ressources of genomic, biological and medical knowledge on the liver to build a datawarehouse. Proc. ECCB 2003, pp. 59-60 [13] Harris MA et. al. Gene Ontology Consortium. The Gene Ontology (GO) database and informatics resource. Nucleic Acids Res. 2004 Jan 1;32(Database issue):D258-61. [14] Kashyap V, Sheth A. (1996) Schematic and semantic similarities between database objects: a context –based approach. Int. J. Very Large Data Bases, 5(4): 276-304 [15] Lakshmanan L, Sadri F, Subramanian I, : On the logical Foundation of Schema Integration and Evolution in Heterogeneous Database Systems. DOOD International Conference (1993) 81-100 [16] Maurizio Lenzerini. Data integration: a theoretical perspective. In Proc. of PODS 2002. [17] Marquet G, Burgun A, Moussouni F, Guerin E, Le Duff F, Loreal O. BioMeKE: an ontology-based biomedical knowledge extraction system devoted to transcriptome analysis. Stud Health Technol Inform. 2003;95:80-5. [18] Paton N.W, Khan S.A, Hayes A, Moussouni F, Brass A, Eilbeck K, Goble C.A, Hubbard S.J, and Oliver S.G. Conceptual modelling of genomic information, Bioinformatics, Jun 2000; 16: 548 - 557. [19] Povey S, Lovering R, Bruford E, Wright M, Lush M, Wain H. (2001) The HUGO Gene Nomenclature Committee (HGNC).Hum Genet.;109(6):678-80 [20] Tuason O, Chen L, Liu H, Blake JA, Friedman C.(2004) Biological nomenclatures: a source of lexical knowledge and ambiguity. Pac Symp Biocomput. 2004;:238-49. [21] MGED Microarray Gene Expression Data (MGED). A guide to microarray experiments-an open letter to the scientific journals. Lancet. 2002 Sep 28;360(9338):1019 [22] Galhardas, H., Florescu, D., Sasha, D., Simon, E. and Saita, C.-A. (2001). "Declarative Data Cleaning: Model, Language, and Algorithms". 27th Conference on Very Large Database Systems, Rome, Italy. 106 III. EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW 1. INTRODUCTION Outre l’enrichissement des données expérimentales avec une variété d’informations diverses et complémentaires sur les gènes étudiés, le défi pour un environnement intégré dédié à l’analyse de transcriptome est de fournir des moyens pour l’extraction de connaissances. GEDAW est un environnement qui permet, à la fois l’intégration de données hétérogènes, mais également l’analyse des données intégrées. Ceci s’effectue par le biais d’étapes successives d’intégration et d’analyse, combinées dans des workflows (déroulements d’étapes). GEDAW a été utilisé pour l’extraction de nouvelles connaissances sur les pathologies hépatiques, à partir de l’analyse de données issues de l’étude du transcriptome hépatique par une puce à ADNc. 2. MISE EN ŒUVRE ET DISCUSSION Analyses dans GEDAW Plusieurs types d’analyses sont supportées par GEDAW : – des analyses internes, correspondant à des APIs qui englobent le langage de requête OQL et le langage Java, et – des analyses externes qui correspondent à l’utilisation d’outils ou de programmes externes à GEDAW (par exemple, outils de classification ou d’analyse de séquences). Souvent, ces deux types d’analyses sont combinés pour former des analyses complexes, requises pour l’étude du transcriptome. Classiquement, toute analyse dans GEDAW se décompose comme suit : 1) sélection d’objets répondant à un ou plusieurs critères et aboutissant à une récupération d’informations ou à la création d’un groupe de gènes d’intérêt, 2) analyse interne ou externe pour respectivement visualiser ou analyser les données présélectionnées. Caractérisation de nouveaux gènes associés à des pathologies hépatiques A partir des données engendrées par la puce à ADNc dédiée à l’étude du transcriptome hépatique, nous avons appliqué ce type d’analyse pour l’identification et la caractérisation de nouveaux gènes associés à des pathologies hépatiques. 107 Ainsi, nous avons dans un premier temps intégré dans GEDAW, les informations nécessaires à l’analyse : les annotations génomiques et les informations biomédicales disponibles pour les 2472 gènes de la puce, ainsi que leurs mesures d’expression. Dans ce contexte, nous avons intégré les ratios d’expressio mesurés entre les différentes phases de différenciation de la lignée cellulaire hépatique HepaRG. Cette lignée représente un bon modèle d’étude du passage des cellules d’un état hautement différencié à un état proliférant, comme observé dans certaines pathologies hépatiques. Nous avons procédé à une succession d’étapes d’analyse qui ont permis : 1) de sélectionner des gènes connus pour être associés à des pathologies hépatiques sur la base de leurs annotations UMLS, 2) de dresser leurs profils d’expression, 3) par similarité de profil, d’associer de nouveaux gènes à ce groupe de gènes associés à des pathologies hépatiques, 4) de caractériser biologiquement ces gènes par une analyse des termes GO qui leur étaient associés dans GEDAW. Résultats La réconciliation des données via la nomenclature des gènes effectuée lors de la phase d’intégration, nous a permis d’identifier 584 gènes distincts sur les 2472 ADNc déposés sur la puce. Puis, l’analyse nous a permis d’identifier 29 gènes non associés à des pathologies hépatiques par l’UMLS mais ayant des profils similaires aux gènes déjà associés à ces mêmes pathologies. Ces 29 gènes sont donc potentiellement associés à des pathologies hépatiques et incluent : Des gènes connus pour être impliqués dans le métabolisme hépatique, tels que l’apolipoprotéine H, l’alcool deshydrogenase ou les cytochromes P450. Des gènes non clairement associés à la fonction hépatique comme l’apolipoprotéine L3, ou l’adenosuccinate lyase. Des gènes non encore décrits (genbank : AF119890 ; AF119840 ; AX198366). L’analyse des termes GO associés à ces gènes nous a permis de remarquer que ces gènes sont impliqués dans des processus biologiques différents et que leurs produits ont des localisations cellulaires différentes. Ceci prouve que les mécanismes d’implication de ces gènes dans des pathologies hépatiques sont différents. Nous montrons ainsi que l’analyse de données issues de l’étude du transcriptome hépatique, par notre approche d’entrepôt de données permet d’extraire de nouvelles connaissances. Si l’hypothèse de l’association de ces gènes avec des pathologies hépatiques reste à être confirmée biologiquement, mais également par d’autres analyses dans GEDAW, l’entrepôt se révèle comme un environnement permettant la suggestion d’hypothèses à partir de larges volumes de données expérimentales. 108 ARTICLE 3 Data warehouse approach to extract knowledge from microarray data E. Guérin, J. Chabalier, M.B. Troadec, G. Marquet, A. Burgun, C. Guguen-Guillouzo, O. Loréal and F. Moussouni [Article en soumission pour publication] Data warehouse approach to extract knowledge from microarray data Emilie Guérin1§, Julie Chabalier2, Marie-Bérengère Troadec1, Gwénaëlle Marquet2, Anita Burgun2, Christiane Guguen-Guillouzo1, Olivier Loréal1 and Fouzia Moussouni1 1 INSERM U522, IFR 140, Université de Rennes 1, CHU Pontchaillou, 35033 RENNES Cedex, France 2 EA 3888, IFR 140, Université de Rennes 1, Faculté de Médecine, 35043 RENNES Cedex, France § Corresponding author Email addresses: EG: [email protected] JC: [email protected] MBT: [email protected] GM: [email protected] AB: [email protected] CG: [email protected] OL: [email protected] FM: [email protected] 109 Abstract Background By providing thousands of expression levels at once, microarray strategies produce a large amount of data, requiring efficient techniques for their management. Moreover, to interpret these measurements and enable further advances in biomedical research, it is essential to associate knowledge in genomics, molecular biology and medicine for each gene. To facilitate this task, we have designed GEDAW (Gene Expression Data Warehouse), an integrated environment that stores and manages relevant data in order to extract knowledge from results of high throughput methods. Results GEDAW is an object oriented data warehouse that integrates, in an unique schema, three kinds of data : i) experimental, ii) genomic and iii) biomedical data. For a more systematic approach of data integration, structured and semi-structured resources have been selected and used to instantiate the GEDAW schema. A local relational database provides the experimental details, GenBank delivers genomic annotations and the BioMeKE system provides biological and medical ontological terms. By this way, we have been able to minimize problems of redundancies within the warehouse thus allowing vigourous analyses. Integrated knowledge is accessed by users through several defined API (Application Programming Interface) that use the query language OQL (Object Query Language) and the programming language Java. Complex analyses on experimental data are conducted through analysis workflows that allow interaction between integrated knowledge and bioinformatic programs. GEDAW has been used to extract knowledge from transcriptomic experiments, using a liver dedicated cDNA microarray, thus leading to the identification of new potential markers of liver diseases. Conclusions GEDAW is a functional data warehouse that allows to propose new biological hypotheses from experimental microarray results. 110 Background To date, the understanding of molecular mechanisms involved in physiological and pathological processes requires an integration of multiple data which are found in numerous resources. However, integrating data in life science is a hard task since data are spread over the Web, often redundant, complementary, heterogeneous, evolving and sometimes erroneous. The problem of data integration in life science has been explored for many years and several integration solutions have been proposed. These solutions are classified into three major strategies: navigational, mediator-based and data warehousing approaches [1]. The new high throughput technologies, including microarray studies, produce large amounts of data. Exploitation of these data requires important database solutions to manage experiment results, with relevant information, and then to extract new knowledge by performing analyses. Indeed, in biomedical research, a comprehensive interpretation of a gene expression measurement requires the consideration of the full available knowledge about this gene including: i) its genomic annotations, such as the chromosomal localization of the gene and related sequences, ii) biological knowledge, such as the biological processes in which the gene is involved and the target functions in these processes, and iii) medical knowledge, i.e. the different symptoms, syndromes and diseases associated to the gene. A comprehensive representation of this knowledge can help scientists to address more complex questions and suggest new hypotheses, leading to a clearer identification of the molecular and biological mechanisms involved in specific biological or pathological conditions. Manually selecting and navigating each of the sources and the analysis tools to extract relevant information on a gene among thousands of expressed genes is highly time-consuming and error-prone. 111 Therefore the challenge in high throughput approaches, including microarray strategy, is both to integrate heterogeneous knowledge and, to perform appropriate analyses on these data, using bioinformatic programs. This challenge requires the use of an integrated system. Contrary to other integration approaches, including navigational and mediator-based approaches, the warehousing approach is a strategy dealing with many requirements of such analysis. Firstly, it enables users to filter, validate, modify and annotate the data obtained from the sources [2] and thus it is appropriated to store both own experimental results and related public data. Secondly, the materialized data warehousing approach allows to improve efficiency of query optimization, as it can be realized locally [3]. This off-line querying and accessing data system eliminates various problems such as network bottlenecks, low response times, and occasional unavailability of sources [1]. This aspect is crucial during transcriptomic data analyses which require multiple and various queries. In this context, our objective was to create a system for the integration and analysis of heterogeneous data, called GEDAW (Gene Expression DAta Warehouse). GEDAW is an object oriented gene expression data warehouse whose originality is to allow both the integration of heterogeneous data (including experimental, genomic and biomedical data) and the analysis of gene expression measurements through integration and analysis workflows. We have physically integrated a number of key sources and standards into GEDAW, in life science and medical domains, that are structured or semi-structured. GEDAW is fully operational and has been employed for studying in silico liver diseases by using expression levels of genes determined trough microarray approach in different physiopathological situations. 112 The paper is organized as follows. First, the system architecture of GEDAW is introduced. We present then the resources used to populate GEDAW, and the conceptual data schema that allows storing and managing data produced by our own experiments and data required for the interpretation of these experiments. Thereafter, GEDAW workflows dedicated to integration and analysis processes are presented. Before a discussion, we present an example of use of GEDAW in the context of liver transcriptomic study, and the knowledge then extracted. Results System architecture GEDAW is a gene-centric data warehouse devoted to the analysis of microarray data in the context of biomedical research. Together with the collected experimental data, the integrated environment must be able to answer questions that need an integration of knowledge from the biological to the pathological level. The GEDAW schema includes three major divisions: (i) the Experimental Division that includes normalized gene expression measurements produced by microarray experiments and relative hybridization conditions (ii) the Gene Sequence Features Division that stores genes and gene features along with transcripts and gene products (iii) the Biomedical Ontologies Division that contains biological and medical annotations provided by “ontologies”. Data are imported from several local or web resources and transformed before storage within the unique object schema for analysis. The users access data through APIs (Application Programming Interface) that are provided in OQL (Object Query Language) and Java. Figure 1 shows the overall architecture of GEDAW. Data resources The resources which are currently integrated into GEDAW include several data repositories that are hosted on different systems, each one having its specific schema. Three resources are used to populate the three divisions of GEDAW. 113 • Experimental Division: This division is populated through a local relational database that has been built as a repository of array data storing as many details as possible on the methods used, the protocols and the results obtained. It is a MIAME (Minimum Information About Microarray Experiment) compliant source [4]. Importing data from this database results in normalized expression levels per gene and per hybridization condition for transcriptomic experiments. • Gene Sequence Features Division: This division stores gene sequence features including: i) the DNA sequence and sequence features, ii) the mRNA sequence, sequence features and alternative transcripts and iii) the functional protein sequences. Being conscious that an exhaustive gene annotation is available for a limited number of genes, it is however helpful to infer new knowledge on yet unknown co-expressed genes. Data describing genomic sequences are available in several public databanks accessible through the Web. We chose GenBank (with to date, more than 20 million records of different sequences) to curate the Gene Sequence Features Division as it was one of the first banks to provide XML (eXtensible Markup Language) format for its records with a well-defined DTD (Document Type Definition) specifying the structure and the domain terminology for the records of genes and submitted sequences. • Biomedical Ontologies Division: This division stores concepts extracted from standards in life science and medicine. We chose the “ontologies” GO™ (Gene Ontology™) that focuses on genomics [5] and UMLS® (Unified Medical Language System®) that covers the whole biomedical domain [6]. We used the system BioMeKE (BioMEdical Knowledge Extraction system) [7] to curate this division. BioMeKE includes both “ontologies”, and additional terminologies, such as those contained in the database Genew, provided by the HGNC (HUman Genome Organisation (HUGO) Gene Nomenclature Committee) to resolve synonymy conflicts [8]. An XML document that 114 annotates each gene by exploring these biomedical “ontologies” is derived from BioMeKE. Data Warehouse Schema Designing a single schema that integrates syntactically and semantically the whole heterogeneous life science data sources is still a challenging question. Integrating the source schemas is presently the most commonly used approach in the literature [9, 10]. By restricting ourselves to structured (relational database) or semi-structured (XML records from GenBank and BioMeKE) data sources, we have been able to use a schema mapping approach. In our context, schema mapping is the process of transforming data conforming to a source schema to the corresponding warehouse schema by the definition of a set of mapping rules. In GEDAW, a unique schema (Figure 2) has been defined to describe different aspects of a gene, based on the biological dogma (DNA-mRNA-Protein). Some other classes have been added to represent experimental and ontological knowledge associated to each gene transcript. So, the ExpressionLevel and the Experience classes are devoted to the storage of experimental knowledge, whereas the OntologyAnnotation, the GOAnnotation and the UMLSAnnotation classes are dedicated to the storage of ontological knowledge. Workflows Two workflows, for data integration and data analysis, are supported by GEDAW (Figure 3). Integration Workflow To integrate data into GEDAW, four successive steps are required (Figure 3A). First, the genes of interest for study are selected. The successive automatic connections to the three resources described previously then occur. A set of XML documents is delivered by BioMeKE and GenBank, while our GEDAW target schema is object-oriented. Therefore, at the schema-level, the problem of format heterogeneity makes it necessary to transform data, 115 so that they conform to the schema used by our warehousing system. Finally, the instantiation of the GEDAW schema is performed. To define an appropriate data aggregation of all the available information items, data conflicts have to be resolved using rules for mapping the source records and conciliating different values recorded for a same concept. Mapping rules have been defined to allow the data exchange from the public databanks into GEDAW. A part from experimental data, public information items are automatically extracted by scripts using the DTD of the data source translated into the GEDAW schema. Two categories of mapping rules, structural mapping rules and semantic mapping rules are proposed. The structural mapping rules are defined at the schema level according to the GEDAW schema by identifying the existing correspondences with relevant DTD elements. The records of interest are selectively structured and data are extracted. Semantic mapping rules are used for data unification at the instance level: the nomenclature elements provided by BioMeKE are used to conciliate duplicate records. For example, the Entrez Gene identifier (GeneID) [11] is used to cluster studied sequences associated to a same gene and the HGNC gene name aliases are used to relate genes carrying different names. For more details about the integration process, see [12]. Analysis Workflow GEDAW supports several functions of microarray data analysis that consist either in internal analyses, or in external analyses. Internal analyses correspond to APIs that use OQL and java to retrieve information about the genes whereas external analyses correspond to external bioinformatics tools applied to integrated data. These two kinds of analyses can be combined. 116 Generic analysis workflow: In the context of microarray analysis, a classical analysis is subdivided in successive steps that correspond to selection of objects, internal and external analyses, thus forming a workflow that we call generic analysis workflow (Figure 3B). An analysis starts with a selection of objects that results from a GEDAW query. The query leads either to retrieve relevant data (for example a list of protein sequences in Fasta format if the query is: Retrieve the list of protein sequences of proteins involved in the GO biological process lipid metabolism) or to obtain a group of genes. A group of genes is defined as genes sharing a common factor that can be a similar expression pattern (Expression group) or other kind of similarity as, for example, involvement in a same biological process (Gene group). Once objects are selected, they can be submitted to internal or external analyses. Internal analysis can be a visualization of pre-selected data or an interpretation of a precreated group. Interpretation of a pre-created group is made by querying and searching for a supplementary common characteristic among the genes of this group (for example, find the biological process mostly represented among the genes of an Expression group). The result is a better characterized group of genes that can then be used for further queries and analyses. External analysis corresponds to the use of external tools, such as clustering and sequence analysis, on pre-computed analysis results, e.g. Gene groups or Expression groups. Example of analysis workflow: Basing on the generic workflow of GEDAW, and extending it to a specific question, many analysis workflows can be defined. One of the workflows has been designed according to the hypothesis that genes sharing an expression pattern can be associated and has been used in order to find new genes associated to a disease. 117 The strategy is to create a group of genes that share both an association in a same disease and a typical expression pattern, and then use these genes to find more genes implicated in the disease by searching for an expression pattern similarity. The genes can then be better characterized by studying the biological processes, using integrated GO annotations. This microarray analysis is divided in four steps, thus forming an analysis workflow extended from the generic workflow described in figure 3B. These steps are described below: 1 – Selection of objects: selection of genes sharing a same UMLS annotation to create a group 2 – Internal analysis: visualization of the group to see the gene names and the expression ratios 3 – External analyses: the K-Means clustering is performed on the group to obtain clusters of genes presenting different expression patterns. The Closest Neighbours analysis is then performed to identify the genes represented on the microarray that have similar patterns to those obtained by K-Means clustering. Genes found by Closest Neighbours extend the initial clusters by expression pattern similarity. 4 – Internal analysis: the extended clusters are submitted to a biological interpretation to characterize the genes that belong to it, by searching for the mostly represented GO biological processes Results of knowledge extraction with GEDAW Taking advantage of the presence of medical knowledge in GEDAW, we used the workflow described above to identify new genes that could be associated to liver diseases and to characterize their expression patterns and the biological processes in which they are involved. 118 Liver diseases, including those from infectious, alcoholic, metabolic, toxic and vascular etiologies, are a major public health problem [13]. Indeed, they are frequently complicated by the occurrence of liver failure or the development of a cirrhosis or liver cancer. Despite such a strong impact, molecular mechanisms involved in the occurrence of these diseases and of their complications are not fully understood. Therefore, studies are conducted in order to identify new molecular mechanisms, and thus to develop new diagnostic and therapeutic tools which will allow a better management of patients. In this study, we used a human liver dedicated cDNA microarray on which 2472 cDNAs are deposited and we studied gene expression modulation during the hepatic HepaRG cell line differentiation process [14]. This human cell line has the originality, under controlled culture condition, to evolve from a bipotent proliferative population towards both differentiated hepatocyte-like and biliary-like cells [15, 16]. Therefore, HepaRG cell line is a valuable model for studying the shift between differentiated functional hepatocytes and biliary cells to altered proliferative cells, as observed in some liver diseases. Hybridization conditions and results are stored in our relational transcriptome database. Therefore, more efficient analyses need to be performed into GEDAW. The integration workflow was performed to store all the annotations about genes spotted on the microarray. The data unification process described above identified 584 distinct genes on the 2472 deposited cDNAs. We then used a specific analysis workflow, extended from that presented in the precedent part, to find and characterize genes associated to liver diseases (figure 4). More specifically, we focused on studying the genes known to be associated to liver diseases and relating their expression patterns to genes of the array. Here, we present the four successive steps of the workflow and the results that have been found: 119 1. Selection of objects in GEDAW: creation of a Liver Disease Associated Genes Group – Genes of the array that are annotated by liver disease terms are selected, i.e. annotated in the UMLS by a term containing the string “liver” or “hepatic”. This group is called Liver Disease Associated Genes Group. 2. Internal analysis: visualization of the Liver Disease Associated Genes Group – Characteristics of the genes that belong to the Liver Disease Associated Genes Group are visualized by the user, including the gene name and the number of co-occurrences between the gene name and the liver disease term. We found nine terms associated to liver diseases and nine genes annotated by at least one of those nine terms (see Table 1). 3. External analyses: K-Means and Closest Neighbours - Two successive external analyses are performed on the set of genes that belong to the Liver Disease Associated Genes Group in order to propose new genes associated to liver diseases: the K-Means clustering and then the Closest neighbours analysis. In the context of HepaRG differentiation experiments, four differentiation stages have been studied through six comparisons (Figure 5). Therefore six expression ratios per gene have been delivered to the K-Means program. Four distinct patterns have been found by the K-Means analysis. The first pattern is that of haptoglogin, the second one is that of albumin and transferrin, the third one is that of cytochrome p450 2E1 and the last one is that of remaining genes of the Known Liver Disease Marker Group: HFE, AFP, FN1, EPO and CAT. This last pattern corresponding to invariant genes in our conditions has not been used for the further Closest Neighbours analysis. The Closest Neighbours analysis created three gene clusters associating genes of the array that have similar patterns of those found by the K-Means clustering (Figure 6). Each cluster contains 11 genes. Cluster 1 was created 120 from the pattern of haptoglobin, cluster 2 from that of albumin and transferrin, and cluster 3 from cytochrome p450 2E1. The patterns of clusters 1 and 2 correspond to genes highly expressed during the early stage of differentiation (SC/C), whereas the pattern of cluster 3 corresponds to genes highly expressed in the late stage of differentiation (D/SC). The patterns of the clusters 1 and 2 are different in the last comparison that is made between stabilized differentiated cells and proliferating cells (D/P) (Figures 5 and 6). The genes found in the three clusters are considered as potential genes of interest during liver diseases, and belong to a new group called the Potential Liver Disease Associated Genes Group. Some of those genes are known by the experts to be implicated in liver metabolism, such as the apolipoprotein H (APOH in cluster 2) [17], the alcohol deshydrogenase (ADH1B in cluster 2) [18] and the cytochromes (CYP2E1, CYP4F2 and CYP2A6 in cluster 3) [19]. However, some are not clearly associated to hepatic function, such as the apolipoprotein L3 (APOL3 in cluster 2) [20] or the adenylosuccinate lyase (ADSL in cluster 3) and some have not yet been described [GenBank: AF119890 and AF119840, corresponding to mRNA sequences; AX198366, corresponding to DNA sequence]. 4. Internal analysis: Gene Ontology characterization of Potential Liver Disease Associated Genes Group – We studied the GO biological processes and the GO cellular components represented in these three clusters of genes belonging to the Potential Liver Disease Associated Genes Group, to characterize the genes. The results are presented in Table 2. Six GO biological processes are frequently represented among the three clusters: response to stimulus [GO:0050896], immune response [GO:0006955], signal transduction [GO:0007165], regulation of physiological process [GO:0050791], transport [GO:0006810], metabolism [GO:0008152]; and 121 three GO cellular components: extracellular region [GO:0005576], intracellular [GO:0005622] and membrane [GO:0016020]. The proportions of genes per cluster annotated by these terms have been calculated. In cluster 1, the biological processes mostly represented are response to stimulus and immune response; in cluster 2, the over-represented biological process is response to stimulus whereas the under-represented one is regulation of physiological process. In these two clusters the cellular component mostly represented is extracellular region. In cluster 3, the over-represented biological process is metabolism whereas the underrepresented ones are immune response, signal transduction, regulation of physiological process and transport. There is no over or under-represented cellular component in cluster 3. Therefore, it appears that the clusters 1 and 2 are mainly composed of genes involved in immune response and coding for secreted products. The cluster 3 is mainly composed of genes involved in metabolism, and coding for not secreted products. First, this analysis suggests that genes having different expression patterns can be involved in a same biological process and/or can share a same cellular localization. It is the case for the two clusters 1 and 2. Secondly, this analysis shows that the genes that we found are involved in different biological processes and that their products have different cellular localizations. This demonstrates that the mechanisms of involvement of these genes in liver diseases and their ways of action are different. These genes need to be biologically investigated to have a better understanding of their implication in liver diseases. 122 Discussion This paper has presented our experience in building GEDAW, a Gene Expression Data Warehouse and using it to extract relevant knowledge from liver microarray experiments. GEDAW integrates experimental, genomic and biomedical data around genes in the context of transcriptome studies by the use of microarray technology. The result is an object warehouse where complementary data are conciliated and locally available for retrieval and analysis. Thereafter, the system provides a powerful environment for efficient analysis on experimental data taking advantage of the integrated biomedical knowledge through workflows of successive internal and external analyses. Internal analyses consist in APIs that use OQL and Java to retrieve information about the genes, whereas external analyses consist in applying external bioinformatics tools on integrated data. We believe that our approach presents advantages for mainly two reasons: Integration and cleaning processes are challenging and time consuming during a warehouse design. By restricting to structured and semi-structured resources during the integration process, we are able to have a more systematic integration process, thus allowing conciliating the data in a unique object schema and minimizing the problem of identification of partial duplicates (i.e. accession numbers that correspond to a same biological entity). In contrast to other integration approaches, the warehouse approach allows selecting its data in order to keep only useful data for decision making. In our case, the result is an access to normalized expression ratios enriched with local and selected instances of GenBank, GO, UMLS and Genew. We do not overload the warehouse with experimental details, but we select items from each resource. The major benefits are a rapid access to 123 data during the analysis stage as data are local, and a more powerful use of bioinformatics programs, as data are selected and cleaned. The strength of the system has been evaluated in the context of liver transcriptome study. Starting from a group of genes annotated in GEDAW by UMLS terms associated to liver disease, we have been able to identify new genes potentially associated to occurrence and/or development of liver diseases. We found that only a small number of genes represented on the array were annotated by the UMLS under “liver disease” terms. This is related to the fact that, to date, only 13% of the genes represented in the Genew database have annotations in UMLS. Indeed, our approach, by combining different kinds of information around the genes (UMLS terms and experimental ratios, in this typical case) allowed identifying new genes of interest, proving that knowledge can be extracted from microarray data with GEDAW. Some of those genes were known to be associated to liver metabolism, whereas some not. They have been biologically characterized and are associated to different biological processes. Their impact in biological pathways as well as their use as biological markers or therapeutic targets remains to be evaluated. This work will be conducted by molecular biology, including gene expression study in physiopathological conditions in patients and in animal models. With regards to the limits of our warehousing approach, it is relevant as long as systematic data integration from the heterogeneous biomedical sources and their refreshment in the warehouse is feasible and with a reasonable performance. The update of GenBank, UMLS, GO and Genew is regularly made. One argument in favour of actually storing data in GEDAW instead of dynamically linking to the corresponding sources concerns reproducibility purposes, i.e., being able to analyse several gene expression data in reference to the same domain knowledge at different times. 124 Comparison with other systems Building a scientific data warehouse to store microarray expression data has been previously explored, but the other systems differ from GEDAW on several aspects. The Genomic Unified Schema (GUS) integrates diverse life science data types including microarray data, and a support of data cleaning, data mining and complex queries analyses, thus making it quite generic [21]. The M-Chips data warehouse project focuses on providing structures and algorithms more suitable for statistical analyses of microarray data, by including as much as possible details on transcriptome experiments and the technologies used, that may undergo a drop in performances [22]. In GEDAW, we focus on the results of an experiment, i.e., normalized expression measurements. No further experimental details are stored within the warehouse, but rather in an external relational database. The Genome Information Management System (GIMS) allows the storage and management of microarray data on the scale of a genome, making GIMS, in contrast to GEDAW, a genome-centric rather than genecentric data warehouse [23]. Finally, the GenMapper warehouse focuses on integrating a great number of genomic data sources around expression data [24]. In contrast, GEDAW is focused on medical and “knowledge-rich” data sources. Future work As demonstrated in our example, knowledge extraction from experimental data in GEDAW is performed through internal and external analyses that are linked in a specific order, thus forming a workflow. Even if the microarray analysis shown in the paper is not the only one that can be performed in GEDAW, we are interested in diversifying the range of analyses to improve our system. This work could be conducted by two ways. The first way is the use of Web Services in order to benefit from a greater diversity of bioinformatics programs and to take part of their interoperability. The interest of using the Web Services to perform successive analytical tasks in the context of a workflow has been 125 demonstrated [25]. So, we envisage using Taverna [26], which is part of the myGrid project [27], and that provides a graphical workbench tool for both creating and running sequences of Web Services. The second way is the use of data mining techniques. Data mining is an automated mean of discovering previously undetected relationships and patterns among data items of big databases. It is one stage in an overall KDD (Knowledge Discovery from Databases) process that involves: the selection of the appropriate resources, the data cleaning, transforming data to the warehouse format, which have already be done in GEDAW, and then data mining, evaluation of the mined data and visualization. Basing on the several techniques of classification, regression, link analysis, segmentation or deviation detection, the data mining will allow extracting patterns from our data without the implication of the expert to address specific questions. In contrast to analyses already performed in GEDAW, those methods will allow creating much more relationships between the genes, not only on the base of their expression pattern. The final issue is to reveal new hypotheses from experimental data and to refine, approve or reject hypotheses already suggested. Conclusions GEDAW is a data warehouse devoted to extraction of knowledge from microarray data. It integrates in a same environment complementary data about studied genes thus providing a repository of local and pertinent data that is used through analysis workflows. The effectiveness of the system has been demonstrated in the context of liver transcriptome study, allowing the emission of new hypotheses. 126 Authors' contributions EG designed and implemented the GEDAW schema, the overall architecture and the workflows. JC helped in designing the workflows. MBT designed the cDNA microarray and provided data on HepaRG differentiation. GM and AB designed the BioMeKE system. CG and OL co-supervised the project and OL was responsible for the analysis strategy. FM was the investigator of the GEDAW project and guided its development. All the authors contributed to the writing of this manuscript. Acknowledgements This work was supported by grants from “Region Bretagne” PRIR 139. EG was supported by the University of Rennes 1, GM by “Region Bretagne” and MBT by “Ministère de la recherche”. References 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. T Hernandez, S Kambhampati: Integration of biological sources: current systems and challenges ahead. SIGMOD record 2004, 33:51-60. S Davidson, J Crabtree, B Brunk, J Schug, V Tannen, C Overton, C Stoeckert: K2/Kleisli and GUS: experiments in integrated access to genomic data sources. IBM Syst. J. 2001, 40:512-531. S Davidson, C Overton, P Buneman: Challenges in integrating biological data sources. Journal of Computational Biology 1995, 2:557-572. A Brazma, P Hingamp, J Quackenbush, G Sherlock, P Spellman, C Stoeckert, J Aach, W Ansorge, CA Ball, HC Causton, et al: Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. Nat Genet 2001, 29:365-71. M Ashburner, CA Ball, JA Blake, D Botstein, H Butler, JM Cherry, AP Davis, K Dolinski, SS Dwight, JT Eppig, et al: Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet 2000, 25:25-9. O Bodenreider: The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res 2004, 32:D267-70. G Marquet, E Guérin, A Burgun, F Moussouni, F Mougin, O Loréal: Biological and medical ontology-based annotation of genes in the context of transcriptome analysis. In: ECCB, European Conference on Computational Biology; 2003; Paris. S Povey, R Lovering, E Bruford, M Wright, M Lush, H Wain: The HUGO Gene Nomenclature Committee (HGNC). Hum Genet 2001, 109:678-80. SP Shah, Y Huang, T Xu, MM Yuen, J Ling, BF Ouellette: Atlas - a data warehouse for integrative bioinformatics. BMC Bioinformatics 2005, 6:34. S Trissl, K Rother, H Mueller, T Steinke, I Koch, R Preissner, C Froemmel, U Leser: Columba: an integrated database of proteins, structures, and annotations. BMC Bioinformatics 2005, 6:81. 127 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. D Maglott, J Ostell, KD Pruitt, T Tatusova: Entrez Gene: gene-centered information at NCBI. Nucleic Acids Res 2005, 33:D54-8. E Guérin, G Marquet, A Burgun, O Loréal, L Berti-Equille, U Leser, F Moussouni: Integrating and Warehousing Liver Gene Expression Data and Related Biomedical Resources in GEDAW. In: Data Integration in Life Sciences; 2005; San Diego, California, USA. 158-174. S Sherlock, J Dolley: Diseases of the liver and biliary system, 11 edn: Blackwell Science; 2002. M Troadec, D Glaise, G Lamirault, M Le Cunff, E Guérin, N Le Meur, L Détivaud, P Zindy, P Leroyer, I Guisle, et al: Hepatocyte iron loading capacity is associated to differentiation and repression of motility in the HepaRG cell line. Genomics in press. P Gripon, S Rumin, S Urban, J Le Seyec, D Glaise, I Cannie, C Guyomard, J Lucas, C Trepo, C Guguen-Guillouzo: Infection of a human hepatoma cell line by hepatitis B virus. Proc Natl Acad Sci U S A 2002, 99:15655-60. R Parent, MJ Marion, L Furio, C Trepo, MA Petit: Origin and characterization of a human bipotent liver progenitor cell line. Gastroenterology 2004, 126:1147-56. A Steinkasserer, DJ Cockburn, DM Black, Y Boyd, E Solomon, RB Sim: Assignment of apolipoprotein H (APOH: beta-2-glycoprotein I) to human chromosome 17q23----qter; determination of the major expression site. Cytogenet Cell Genet 1992, 60:31-3. DW Crabb, M Matsumoto, D Chang, M You: Overview of the role of alcohol dehydrogenase and aldehyde dehydrogenase and their variants in the genesis of alcohol-related pathology. Proc Nutr Soc 2004, 63:49-63. JP Villeneuve, V Pichette: Cytochrome P450 and liver diseases. Curr Drug Metab 2004, 5:273-82. NM Page, DJ Butlin, K Lomthaisong, PJ Lowry: The human apolipoprotein L gene cluster: identification, classification, and sites of distribution. Genomics 2001, 74:71-8. V Babenko, B Brunk, J Crabtree, S Diskin, S Fischer, G Grant, Y Kondrahkin, L Li, J Liu, J Mazzarelli, et al: GUS The Genomics Unified Schema A Platform for Genomics Databases. 2003. K Fellenberg, NC Hauser, B Brors, JD Hoheisel, M Vingron: Microarray data warehouse allowing for inclusion of experiment annotations in statistical analysis. Bioinformatics 2002, 18:423-33. M Cornell, NW Paton, C Hedeler, P Kirby, D Delneri, A Hayes, SG Oliver: GIMS: an integrated data storage and analysis environment for genomic and functional data. Yeast 2003, 20:1291-306. H-H Do, E Rahm: Flexible Integration of Molecular-Biological Annotation Data: The GenMapper Approach, 2992 edn; 2004. RD Stevens, HJ Tipney, CJ Wroe, TM Oinn, M Senger, PW Lord, CA Goble, A Brass, M Tassabehji: Exploring Williams-Beuren syndrome using myGrid. Bioinformatics 2004, 20 Suppl 1:I303-I310. T Oinn, M Addis, J Ferris, D Marvin, M Senger, M Greenwood, T Carver, K Glover, MR Pocock, A Wipat, et al: Taverna: a tool for the composition and enactment of bioinformatics workflows. Bioinformatics 2004, 20:3045-54. RD Stevens, AJ Robinson, CA Goble: myGrid: personalised bioinformatics on the information grid. Bioinformatics 2003, 19 Suppl 1:i302-4. 128 Figures Figure 1 - Overall system architecture of GEDAW Data are imported from several resources and transformed before their storage within the unique object schema for analysis. Three resources having their own schema representation are used to populate the GEDAW schema: a local relational database, GenBank and BioMeKE. Users access data through API that are provided in OQL and Java. Figure 2 - UML GEDAW schema The schema uses the class diagram notation of the UML (Unified Modeling Language). Classes are represented by rectangles, lines show the relationships between classes, numbers and “*” indicate the number of objects that may participate in the relationship. Relation of specialization is depicted by an arrow from sub-class towards the root class. The mRNAFrag class is specialized into the 3UTR, 5UTR and ORF classes. Relation of composition is shown by a black diamond shaped ended arrow. The Region class composes the Gene class. Relation of aggregation is shown by white diamond shaped ended arrow. ExpressionGroup class is an aggregate of the ExpressionLevel class. Figure 3. Workflows in GEDAW Workflows are divided in successive tasks that are represented by rectangles. GEDAW supports two kinds of Workflows. A - Integration Workflow The Integration Workflow describes the successive steps of the integration process from the three resources into GEDAW. The studied genes are firstly selected, then there are successive and independent connections to the three resources: the Relational Transcriptome database, GenBank and BioMeKE. Several mapping rules are used so that the elements of the resources schemas could be integrated in the GEDAW object schema. The final step is the GEDAW schema instantiation. 129 B - Analysis Workflow The Analysis Workflow that describes the successive steps of the analysis process in GEDAW. Each analysis starts with a selection of objects in GEDAW. The selected objects can be either data about a gene/group of genes, or a group of genes that have been created based on expression level criteria (Gene Expression group) or other similar criteria (Gene Group). Then, the selected objects are submitted either to internal analysis or to external analysis. Internal analysis can be either data visualization or interpretation of created gene groups. External analysis is the use of external programs like clustering or sequence analysis. Figure 4 - Specific analysis workflow in GEDAW The specific analysis workflow is extended from the generic Analysis Workflow described in Figure 3B. This Workflow is divided in 4 successive tasks that are numbered: 1) Selection of genes that are annotated by liver disease terms, they constitute the Liver Disease Associated Genes Group, 2) Data about the genes of the Liver Disease Associated Genes Group are visualized, 3) K-Means and then Closest neighbours algorithms are applied to the genes of the Liver Disease Associated Genes Group. The genes represented on the array sharing the same pattern as the genes of the Liver Disease Associated Genes Group belong to a new group: the Potential Liver Disease Associated Genes Group, 4) The genes of the Potential Liver Disease Associated Genes Group are characterized by a GO analysis to find the biological processes mostly represented. Figure 5 – Experimental design of HepaRG differentiation hybridizations HepaRG differentiation process is studied through four stages: (P) proliferating cells, 3 days post-spreading, (C) confluent cells, 5-6 days post-spreading, (SC) super confluent cells, 12-15 days post-spreading and finally (D) stabilized differentiated cells, 30 days post-spreading with the last 15 days in basal medium supplemented with 2% of DMSO (dimethyl sulfoxyde). The six comparisons that have been made for the study are represented by the arrows. 130 Figure 6 – Pattern characterization of the Potential Liver Disease Associated Genes Group For each cluster, the expression pattern is represented with the list of genes associated to the cluster. The patterns are composed of six points that correspond to the six comparisons of the HepaRG differentiation study (see Figure 5). The genes are defined with their respective HGNC approved symbols. Red symbols correspond to the genes that belong to the Liver Disease Associated Genes Group, whereas the black symbols correspond to genes of the Potential Liver Disease Associated Genes Group that have been identified by the Closest Neighbours. Tables Table 1 – Numbers of co-occurrence between UMLS medical terms and gene names UMLS Terms \ Gene symboles HFE TF ALB AFP FN1 CYP2E1 EPO CAT HP Alcoholic Liver Diseases Liver Abscess Liver Cirrhosis Liver Cirrhosis, Alcoholic Liver Cirrhosis, Experimental Liver diseases Liver neoplasms Hepatic encephalopathy Porphyrias, Hepatic 2 6 16 2 19 16 4 6 Cumulated numbers 61 30 29 13 2 5 11 5 10 4 4 8 6 2 7 3 4 8 18 19 16 16 2 2 4 20 2 2 2 The table shows the UMLS liver disease terms that have been used for the search, the genes that are annotated by those terms and the numbers of co-occurrences between the UMLS liver disease terms and the gene names. 131 Table 2 – Biological characterization of the three clusters of Potential Liver Disease Associated Genes Group A Cluster 1 Cluster 2 Cluster 3 Response to stimulus Immune response Signal transduction Regulation of physiological process Transport Metabolism B Cluster 1 Cluster 2 Cluster 3 Extracellular region Intracellular Membrane The biological characterization of the three clusters has been performed with Gene Ontology. The results concerning the frequency of annotated genes per the six mostly frequent Biological processes are represented in A. The results concerning the frequency of annotated genes per the six mostly frequent Cellular components are represented in B. A same colour code has been used for the tables A and B: red corresponds to - over 66% of genes -, green corresponds to - upon 33% of genes -, and white corresponds to - between 33 and 66% of genes. 132 Figure 1 133 Figure 2 Figure 3 A B Selection of studied genes Selection of objects in GEDAW Connection to resources Relational Transcriptome Database Genbank Data retrieval Gene group Gene expression group BioMeKE Internal analysis Visualization Transformation Process Interpretation of groups Mapping rules External analysis Clustering, sequence analysis Instantiation of GEDAW schema 134 Figure 4 Selection / Management of objects in GEDAW Potential Liver Disease Associated Genes Group 1 Liver Disease Associated Genes Group 2 4 Internal analysis Internal analysis Visualization of Liver Disease Associated Genes Group GO characterization of Potential Liver Disease Associated Genes Group 3 External analysis K-Means Clustering and Closest Neighbours Figure 5 Proliferating cells (P) Confluent cells (C) Stabilized differentiated cells (D) Super confluent cells (SC) Figure 6 Cluster 1 Cluster 2 Cluster 3 135 D/ C D/ P SC /P D/ SC C/ P SC /C D/ C D/ P SC /P D/ SC C/ P SC /C D/ C D/ P SC /P C/ P SC /C D/ SC CYP2E1 CYP4F2 FABP1 ADSL CYP2A6 RODH PLG ELMO1 F9 SERPIND1 DGAT2 ALB TF GC APOH ADH1B APOL3 SERPINA1 RAB27A AF119890 AF119840 AX198366 HP ORM2 SAA1 SERPINA3 FGA A2M RAB27A FGG SERPINA1 APOH ORM1 DISCUSSION GÉNÉRALE ET PERSPECTIVES DISCUSSION GÉNÉRALE ET PERSPECTIVES L’approche entrepôt de données est née dans l’entreprise, dans les secteurs concurrentiels du commerce et du marketing. L’intérêt de l’utilisation d’une telle approche en bioinformatique s’est vite fait sentir. En effet, les atouts liés au stockage local de données et donc à l’optimisation de requêtes sont très adaptés aux larges volumes de données qui caractérisent les données biologiques. Cependant, mettre en œuvre une approche entrepôt de données pour gérer et analyser des données biologiques est une tâche complexe. La nature des données que l’on doit intégrer est très différente de celle des données d’entreprise. Les données ne sont plus quantitatives mais souvent qualitatives, elles sont très nombreuses et diverses, elles sont pour la plupart réparties sur le Web, dans des sources indépendantes et très dynamiques, caractérisées par une grande hétérogénéité syntaxique et sémantique. De ce fait, les étapes de construction de l’entrepôt n’en deviennent que plus complexes, incluant la modélisation des données biologiques ainsi que la mise en œuvre de processus d’intégration gérant la forte hétérogénéité et les mises à jour. La contrepartie de tous ces efforts, c’est la grande capacité d’analyse ensuite fournie par l’entrepôt, elle est bien souvent à l’origine de la motivation de la construction d’un tel environnement. L’analyse de données issues de l’étude de transcriptome requérant un accès à une grande diversité de données réparties dans de multiples sources ainsi que des analyses fréquentes et massives, nous avons donc nous-mêmes opté pour le développement d’un entrepôt de données et ainsi proposé des solutions à une intégration systématique et réconciliée de données hétérogènes. GEDAW est un entrepôt de données orienté objet dédié à la gestion et à l’analyse de données issues de l’étude du transcriptome. Il repose sur un schéma global unique et intègre des données d’expression enrichies d’informations provenant de sources et de standards des domaines de la génomique, de la biologie et de la médecine. L’entrepôt supporte à la fois des processus d’intégration automatiques assurant une transformation et une réconciliation forte des données, mais également des analyses sur les données intégrées pour l’extraction de connaissances. GEDAW a été utilisé dans le cadre de l’intégration et de l’analyse de données issues de l’étude du transcriptome hépatique. Son efficacité a été prouvée par la mise en évidence de nouvelles associations de gènes avec des pathologies hépatiques. Parallèlement à la conception de GEDAW, nous avons développé le système BioMeKE qui intègre les ontologies GO et UMLS pour fournir une annotation fonctionnelle et biomédicale des gènes. BioMeKE a été utilisé pour l’intégration des données biologiques et médicales dans GEDAW. 136 BIOMEKE La particularité de BioMeKE est de réaliser une annotation biomédicale des gènes. Pour cela, il intègre non seulement des ressources biologiques et génomiques telles que Genew, GO et GOA, mais également l’ontologie UMLS, riche de plus de 100 terminologies biomédicales. Si beaucoup de systèmes ont été développés pour l’annotation de gènes via GO, peu de solutions sont proposées pour fournir des informations médicales sur les gènes. La banque de données OMIM™ répertorie les gènes humains associés à des maladies mais se limite aux anomalies génétiques. C’est également le cas avec le système Gene2Disease qui score les possibilités d’associations de gènes avec 450 maladies génétiques qui ont été associées à des régions chromosomiques mais sans assignation de gènes (Perez-Iratxeta et al., 2002). MedGene évalue les co-occurrences entre noms de gènes et noms de maladies mais se limite aux pathologies contenues dans la terminologie MeSH (Hu et al., 2003). GenesTrace permet d’associer des maladies avec des noms de gènes en effectuant une correspondance (ou mapping) entre les concepts de l’UMLS et les termes de GO (Cantor et al., 2005). Ainsi, tout comme BioMeKE, il utilise l’UMLS mais ne se base pas sur le même procédé d’annotation, fournissant donc une annotation différente. Avec BioMeKE c’est le nom du gène et non le nom de la pathologie qui est recherché dans le Metathesaurus. Les deux outils GenesTrace et BioMeKE peuvent être considérés comme complémentaires. Lors de la phase d’évaluation de BioMeKE, nous avons constaté que peu de gènes ont pour le moment des annotations dans l’UMLS. En effet, si dans la version de l’UMLS utilisée (2005 AA) 79% des gènes de la base de Genew étaient retrouvés dans le Metathesaurus, seuls 13% d’entre eux avaient des annotations. Cependant, même si nous espérons que de plus en plus de gènes seront annotés dans les prochaines versions de l’UMLS, nous avons démontré que la connaissance apportée sur les gènes lorsque des annotations biomédicales sont disponibles est largement complémentaire à celle fournie par GO et de ce fait très intéressante à prendre en compte. GEDAW Positionnement de notre approche d’intégration Les différents systèmes d’intégration développés en bioinformatique ainsi que leurs caractéristiques ont été présentés tout au long de ce manuscrit. Notre approche se distingue des autres sur différents points. M-Chips et GIMS sont deux entrepôts de données dédiés à l’analyse de données issues de l’analyse de transcriptome, mais diffèrent de GEDAW sur la nature des données intégrées. M-Chips vise à fournir à ses utilisateurs un environnement permettant le traitement des données primaires issues de la technologie des puces à ADN ainsi que la classification des 137 données d’expression. Ainsi, il intègre un maximum de données sur les expériences menées. Ces données incluent les données d’expression et les annotations sur les expériences. Les seules données complémentaires intégrées sont pour chaque gène des références vers des banques de séquences. Les données fournies par ces sources externes ne sont cependant pas intégrées localement. L’entrepôt GIMS intègre des données provenant de sources diverses mais reste focalisé sur la représentation de données autour du génome de Saccharomyces cerevisae. L’entrepôt GEDAW quant à lui est dédié à l’interprétation des données d’expression. Pour cela, l’environnement d’une part intègre des données d’expression enrichies d’informations allant du gène à la pathologie et d’autre part fournit des moyens pour interroger et corréler ces différents types d’informations intégrés. Si les entrepôts de données GenMapper et GeWare proposent une intégration de données plus riche en termes de diversité de types de données intégrées, ils n’offrent cependant aucune solution de réconciliation des données au sein d’un schéma global qui unifie les informations disponibles sur les gènes. Pour concevoir GEDAW, nous avons utilisé un processus d’intégration qualifié d’ascendant (ou bottom-up) (section III.1.6 pour détails) où nous sommes d’abord partis du besoin de représenter au sein d’un même schéma telles et telles données, pour ensuite choisir les sources de données ainsi que les processus d’intégration appropriés. Par cette approche, nous relions de manière cohérente, les données d’expression avec les données génomiques et les connaissances biomédicales, tout en assurant la réconciliation des données autour de la nomenclature des gènes. Ainsi, pour l’intégration, nous nous sommes focalisés sur l’utilisation de sources de données structurées (base de données relationnelle d’expression) ou semi-structurées (fichiers XML délivrés par GenBank et BioMeKE). De cette manière nous avons pu développer par le biais de règles de correspondance, une intégration systématique et réconciliée des données au sein d’un schéma global. Contrairement à d’autres approches d’intégration de type matérialisée ou virtuelle, dans GEDAW nous intégrons des sources de données aux contenus complémentaires mais non chevauchants. En effet, GenBank est utilisé comme source de données génomique, l’application BioMeKE délivre les annotations fonctionnelles et biomédicales via les ontologies UMLS et GO et notre base de données relationnelle fournit les données d’expression. Dans GEDAW, nous réalisons donc plutôt une intégration horizontale que verticale des données, privilégiant ainsi la réconciliation des données à l’exhaustivité des sources de données. La contre partie est que nous privons l’utilisateur et le système de toute sélection éventuelle de sources à interroger, et que le système ne peut résoudre les problèmes liés à des données manquantes ou de mauvaise qualité par confrontation de sources de données divergentes. Cependant, nous arguons que la réconciliation des données prime sur la diversité des sources de données pour fournir des moyens d’analyse optimisés. Si le problème des données redondantes n’est pas posé du fait de l’emploi d’une source par domaine, dans GEDAW, nous avons du faire face à un autre type de redondance lié à la grande hétérogénéité sémantique des données génomiques. Il fallait regrouper les 138 séquences et les noms associés à un même gène pour permettre leur identification au sein de l’entrepôt. Cette tâche est effectuée lors du processus d’intégration via BioMeKE qui en plus des annotations fonctionnelles et biomédicales délivre la nomenclature des gènes établie par le HGNC. Ainsi, l’identifiant GeneID de la source Entrez Gene est utilisé pour regrouper toutes les séquences associées à un même gène, et les synonymes de noms de gènes sont utilisés pour regrouper les gènes qui apparaissent dans GEDAW sous différents noms. Ajout de nouvelles sources et extension de schéma Les sources actuellement utilisées pour l’intégration de données dans GEDAW ont été choisies pour leurs propriétés de contenu et de structuration. Ainsi, GenBank a été choisie comme source de données sur les séquences et annotations associées pour avoir été la première banque de séquences à délivrer ses enregistrements au format XML. Depuis, la banque de données nucléique de l’EMBL ainsi que la banque DDBJ ont adopté un même format d’échange. D’autre part nous avons choisi d’utiliser l’application BioMeKE pour intégrer une annotation des gènes adaptée à nos besoins. Outre le fait de bénéficier des annotations sur les processus biologiques et les fonctions moléculaires impliquant nos gènes ainsi que les localisations cellulaires de nos produits de gènes, nous voulions disposer de l’information sur les maladies ou syndromes associés. BioMeKE exploite l’ontologie GO et la richesse de vocabulaires intégrés dans l’UMLS pour délivrer une annotation biomédicale riche. Les annotations provenant à la fois de GO et de l’UMLS sont délivrées au format XML puis intégrées dans GEDAW. Si aujourd’hui, l’environnement permet un accès unifié à une diversité de données, l’ajout de nouvelles sources couvrant d’autres domaines de connaissance est envisageable et permettrait d’interpréter au mieux les données d’expression. Notamment, il pourrait être intéressant d’intégrer des données sur les voies métaboliques telles que décrites dans la banque de données KEGG ou encore des données d’expression provenant de répertoires publics tels que GEO ou ArrayExpress pour comparer et confronter nos propres données. Il faut souligner que, contrairement aux entrepôts GenMapper ou GeWare, qui sont particulièrement adaptés à l’ajout de nouvelles sources de données par l’utilisation d’un modèle générique appelé GAM, qui modélise les sources de données plutôt que leur contenu, dans GEDAW, l’ajout de source supplémentaire implique une modification du schéma global. Cependant, cette modification de schéma consiste plus en une extension de schéma afin d’y ajouter de nouvelles classes permettant de décrire le domaine d’intérêt, qu’en une modification profonde du schéma. Sur ce point il faut souligner que le modèle orienté objet de part ses caractéristiques intrinsèques, s’adapte très bien à l’ajout de nouvelles classes. Les concepts d’héritage, de modularité objet et d’encapsulation en font un modèle très adaptable et évolutif. 139 Rafraîchissement L’une des caractéristiques de l’approche entrepôt de données est le stockage local des données. Or dans les domaines de la génomique, de la biologie et de la médecine, les sources de données sont très dynamiques. Leurs contenus sont très changeants du fait de leur autonomie et des perpétuelles avancées en recherche. Aussi, tout système utilisant ces sources et qui repose sur une approche entrepôt de données n’est cohérent que si les données sont régulièrement mises à jour, on parle de rafraîchissement. Le rafraichissement des données d’un entrepôt de données peut s’opérer de deux manières. La rematérialisation consiste à intégrer de nouveau l’ensemble des données qui proviennent de la source ayant subi une mise à jour. La maintenance incrémentale, quant à elle, consiste à modifier uniquement les données qui ont changé. Cependant, cette dernière solution nécessite l’utilisation de déclencheurs ou triggers et impose à l’utilisateur le développement de procédures utilisant ces triggers. Dans GEDAW, nous utilisons une rematérialisation régulière pour respecter l’état actuel des connaissances sur les gènes étudiés. Ces mises à jour concernent la banque de données GenBank et l’application BioMeKE qui intègre dès leur apparition les nouvelles versions de GO et de l’UMLS. Dans GEDAW, nous ne conservons pas la trace des données provenant des versions antérieures de GenBank et des ontologies GO et UMLS. Dans ce sens, la non volatilité des données caractérisant l’approche entrepôt de données n’est pas respectée. Dans notre contexte, nous sommes plus intéressés par le fait d’interroger des données à jour, reflétant l’état actuel de la connaissance, que par la traçabilité des annotations dans les banques, tel que dans l’entrepôt de données GUS. Les données d’expression, sont quant à elles conservées dans GEDAW, c’est le concept d’historisation des données. Ainsi, des requêtes effectuées sur les données d’expression, à différentes dates, donneront toujours le même résultat. En revanche, les résultats de requêtes menées sur les annotations génomiques, fonctionnelles et biomédicales des gènes évoluent en fonction de la version des sources de données, et donc des dernières avancées de la recherche. De cette manière, nous espérons, au fur et à mesure du temps, acquérir de plus amples et précises informations sur les gènes d’intérêt et ainsi pouvoir proposer de nouvelles interprétations ou hypothèses sur les données expérimentales. Exploitation de l’environnement intégré GEDAW fournit un environnement intégré d’analyse de données de transcriptome. Les analyses supportées par GEDAW sont guidées par l’expert. Elles sont de deux types, il peut s’agir d’analyses internes ou d’analyses externes. Les analyses internes consistent en une sélection d’objets ou de groupes d’objets et permettent d’accéder par simples interrogations à l’information réconciliée sur les gènes. Elles sont implémentées par différentes APIs qui englobent à la fois le langage de requêtes 140 OQL mais également le langage Java, pour une meilleure manipulation des objets. Les analyses externes consistent en l’utilisation d’outils extérieurs à l’entrepôt. Bien souvent, l’analyse de données de transcriptome requiert une combinaison de ces deux types d’analyses, pour formuler des analyses complexes. L’utilisation de telles analyses est illustrée dans le cadre de l’étude de transcriptome hépatique. L’interaction entre GEDAW et des outils d’analyse extérieurs est bénéfique sur deux points. Premièrement, l’emploi d’outils permet d’exploiter au mieux les données intégrées dans l’entrepôt. Par exemple, l’utilisation d’outils tels que des algorithmes d’alignement de séquences, ou de recherche de motifs exploite au mieux les données de type ‘séquences’ intégrées dans GEDAW. De plus, et c’est là le second point positif, le fait d’exécuter des programmes sur des données qui convergent vers une thématique donnée (dans notre cas présent le transcriptome hépatique), qui sont réconciliées, non redondantes et éventuellement déjà préregroupées selon des critères de sélection ne fait que renforcer à la fois la pertinence et la qualité des analyses menées. Dans l’entrepôt, les données peuvent être considérées comme pré-traitées et non comme des données brutes. Si les analyses pré-intégrées dans GEDAW ont prouvé leur efficacité dans le cadre de l’analyse de transcriptome hépatique, nous envisageons de tirer d’avantage profit des possibilités d’analyses offertes par l’approche entrepôt de données. En particulier, nous envisageons d’utiliser des techniques de data mining, qui contrairement aux analyses déjà implémentées dans GEDAW, ne sont pas guidées par l’expert. Le data mining consiste à rechercher de la connaissance cachée dans les données, sous forme de modèles de comportement. Il met en œuvre des techniques de raisonnement afin de classer, estimer, prédire, grouper par similitudes, segmenter, décrire ou optimiser des données. Par le biais de telles techniques nous envisageons soit de dégager de nouvelles corrélations entre les gènes soit d’approfondir nos hypothèses sur la co-expression de gènes. Nous envisageons également de profiter des avantages fournis par la technologie des services Web. Aujourd’hui une grande diversité d’applications bioinformatiques sont disponibles en tant que services Web (Stein, 2002). Il s’agit d’applications publiées, localisées et invoquées sur le Web, qui utilisent des protocoles standards d’échange et offrent une grande modularité. Un environnement tel que myGrid utilise les concepts des services Web et des workflows pour fournir un accès personnalisé à des applications réparties sur différentes ressources (Stevens et al., 2003). Dans notre contexte, l’utilisation d’un tel environnement s’envisage à la fois dans le cadre d’analyses ponctuelles faisant appel à un service donné, mais également dans le cadre d’analyses plus complexes sous la forme de workflows nécessitant pour une étape particulière l’utilisation d’un service Web. Les avantages pour nous seraient l’accès à une grande diversité de programmes bioinformatiques, caractérisés par leur disponibilité, leur modularité ainsi que leur transparence d’utilisation. De plus nous bénéficierions du stockage et du calcul distants. Actuellement, l’environnement GEDAW est dédié à l’analyse de données issues de l’étude du transcriptome hépatique. Dans ce contexte, il intègre les données disponibles sur les 2470 séquences d’ADNc déposées sur la puce à ADN dédiée ainsi que les données d’expression issues des hybridations réalisées au laboratoire. 141 L’environnement est accessible par les utilisateurs sur une machine du laboratoire. La consultation des données se fait soit par l’interface du SGBDO FastObjects soit par le biais de l’interface Java développée à cet effet. De simples requêtes OQL ou des analyses plus complexes pré-programmées peuvent y être exécutées, et les résultats sont consultés via l’interface ou via des fichiers délivrés à l’utilisateur. Si GEDAW a démontré son intérêt pour l’analyse de transcriptome hépatique, nous envisageons par la suite un élargissement du domaine d’application. L’utilisation de GEDAW s’envisage en effet dans le contexte de l’étude de transcriptomes variés, concernant d’autres organes ou d’autres organismes. Nous pouvons également facilement étendre l’utilisation de GEDAW à d’autres technologies d’étude de transcriptome, telles que des puces à ADN pangénomiques, ou toute autre technologie générant des données d’expression. CONCLUSION GÉNÉRALE L’ère de la post-génomique, accompagnée d’une profusion de sources de données, a tout naturellement fait naître des besoins d’intégration de données dans le domaine de la bioinformatique. Les solutions d’intégration proposées doivent faire face à des données très volumineuses en perpétuelle évolution et caractérisées par une grande hétérogénéité. Elles ont pour but de les confronter pour ainsi favoriser la découverte de nouvelles connaissances. Les développements du système BioMeKE et de l’entrepôt de données GEDAW ont participé aux efforts de la communauté bioinformatique pour fournir des solutions à l’interopérabilité des sources de données et cela dans un contexte particulier d’analyse de transcriptome. L’évaluation de BioMeKE et l’utilisation de GEDAW ont d’ores et déjà démontré leur apport pour l’enrichissement ou l’extraction de connaissances. 142 GLOSSAIRE GLOSSAIRE Agrégation : action de calculer les valeurs associées aux positions parents des dimensions hiérarchiques. Cette agrégation peut être une somme, une moyenne, ou tout autre processus plus complexe comme la deuxième plus forte valeur. API (Application Programming Interface) : interface pour langages de programmation, matérialisées par des primitives, permettant à une application d’accéder à des programmes système pour, par exemple, communiquer ou extraire des données. Boîte TATA : heptamère conservé riche en AT (adénine, thymine), localisé sur l'ADN en amont du site d'initiation de la transcription. Elle favorise le positionnement de l'ARN polymérase. Chez les Eucaryotes, la boîte TATA est localisée à environ 30 nucléotides en amont du site d'initiation de la transcription et est nommée boîte de Hogness. Elle n'est présente que dans les gènes transcrits par l'ARN polymérase II. Chez les Procaryotes, la boîte TATA est localisée à environ 10 nucléotides en amont du site d'initiation de la transcription, et est nommée boîte de Pribnow. Classification des centroïdes : méthode de classification supervisée qui permet une répartition rapide des données en plusieurs classes. Pour chaque classe connue, le barycentre est calculé. Ensuite, toutes les distances possibles (le plus souvent distance euclidienne) entre l’échantillon à classer et les différents barycentres des différentes classes sont calculées. L’échantillon inconnu est alors agrégé à la classe pour laquelle la distance au barycentre est la plus faible. Composante principale (analyse en) : méthode statistique pour l’exploration de données multivariées présentée pour la première fois an 1933 par Hotelling. L’objectif de l’ACP est de réduire la dimension de l’espace des données en déformant le moins possible la réalité. Pour cela, elle détermine une suite d’axes orthogonaux, non corrélés, conservant au mieux les distances entre les individus. Les composantes principales sont définies par les vecteurs propres ou eigenvector. La conservation des distances (aux données d’origine) par chaque axe est mesurée par la variance des coordonnées des individus sur cet axe, encore appelée valeur propre ou eigenvalue. Cristallographie aux rayons X : méthode expérimentale basée sur les propriétés diffractantes des cristaux pour les rayons X. L'enregistrement d'une figure de diffraction d'un cristal permet, par transformée de Fourier, de calculer la densité électronique tridimensionnelle de sa maille élémentaire. Data mining : ensemble des technologies avancées susceptibles d’analyser l’information d’un entrepôt de données pour en tirer des tendances, pour segmenter l’information ou pour trouver des corrélations dans les données. Datamart : base de données orientée sujet mise à disposition des utilisateurs dans un contexte décisionnel décentralisé. Dimension : axe d’analyse correspondant le plus souvent aux sujets d’intérêt de l’entrepôt de données; exemple: dimension temporelle, dimension protéique … 143 Double hybride : système développé en 1989. Il consiste à introduire dans une cellule les gènes codant les deux protéines étudiées. Si ces protéines interagissent, la cellule adoptera un phénotype aisément repérable, par exemple le produit d'un gène rapporteur. Electrophorèse sur gel : permet de séparer et de visualiser par marquage (fluorescence, composés métalliques) les protéines d'un extrait cellulaire (selon leur charge électrique et leur masse moléculaire). Epissage : processus englobant l'excision des introns et la réunion des exons dans l'ARN. L'épissage est une des étapes de la maturation de l'ARN messager (après la transcription). L'épissage s'effectue grâce à des séquences spécifiques situées aux extrémités 5' et 3' de chaque exon. Fait : objet d’analyse dans le cadre d’un modèle multidimensionnel, souvent une donnée numérique. Génome : ensemble du matériel génétique (patrimoine héréditaire) d'un individu ou d'une espèce. Il est constitué de molécules d'acides nucléiques (ADN ou ARN). Les gènes, c'est-à-dire les parties d'ADN porteuses d'une information génétique, ne constituent qu'une partie du génome. Génomique fonctionnelle ou Post-génomique : étude de la fonction des gènes par analyse de leur séquence et de leurs produits d’expression : les ARNm (transcriptome) et les protéines (protéome). Elle s’intéresse à leur mode de régulation, et à leurs interactions. L’analyse des protéines peut aller jusqu’à la détermination de leur structure tridimensionnelle. GNU (GNU's Not UNIX) : projet de la Free Software Foundation visant à concevoir, réaliser et distribuer un système d’exploitation libre et complet inspiré d’Unix. HTML (HyperText Markup Language) : langage de description de pages Web. Un standard initié par le W3C et compatible tous systèmes. Intégrité: ensemble de contraintes appliquées aux mises à jour d’une base de données permettant de garantir leur cohérence. Internet : INTERconnected NETworks. Réseau international de réseaux interconnectés. Interopérabilité : l'interopérabilité est le fait que plusieurs systèmes, qu'ils soient identiques ou radicalement différents, puissent communiquer sans ambiguïté et opérer ensemble. K plus proches voisins (méthode des) : méthode de classification supervisée. Soit un nombre d’échantillons appartenant à des classes connues, l’échantillon inconnu est associé à la classe qui possède les k échantillons qui lui sont le plus proches (similaires). k-moyennes (méthode des) : méthode de partitionnement introduite par MacQueen en 1967. C’est une variante des méthodes d’agrégations autour de centres mobiles. Le but de cet algorithme est de minimiser la distance de chaque objet (e.g. gènes) par rapport au centre du groupe auquel il appartient. La méthode des k-moyennes distribue les données en k groupes choisis a priori et répartis autour de k-centres appelés noyaux ou centroïdes. Modèle de données : ensemble de règles permettant de formaliser le monde réel sous la forme d’un schéma de données. Les modèles les plus connus sont le modèle relationnel et le modèle orienté-objet. Voir aussi schéma de données. 144 Modèle orienté objet : le modèle " objet " est caractérisé principalement par trois concepts: - le polymorphisme : un certain nombre de contrôles de type et de cohérence ne sont effectués qu'au moment de l'exécution de l'application, ce qui confère toute sa souplesse à ce modèle. - l'encapsulation : chaque objet est autonome, contient ses attributs et ses méthodes et ne " donne à voir " que les méthodes ou les attributs utiles aux autres objets. - l'héritage : les classes sont organisées en arborescence et une classe peut hériter des attributs et des méthodes de la classe dont elle descend, ce qui évite d'avoir à réécrire en plusieurs exemplaires ces attributs et méthodes. Modèle relationnel : le modèle relationnel a été proposé par E.F. Codd en 1970. Il est basé sur une organisation des données sous forme de tables. La manipulation des données se fait selon le concept mathématique de relation de la théorie des ensembles, c'est-à-dire l'algèbre relationnelle. Elle est constituée d'un ensemble d'opérations formelles sur les relations. Les opérations relationnelles permettent de créer une nouvelle relation (table) à partir d'opérations élémentaires sur d'autres tables (par exemple l'union, l'intersection, ou encore la différence). MOLAP (Multidimensionnal On Line Analytical Processing) : équivalent à OLAP, utilisant une base de données multidimensionnelle. Pour le premier, les jointures sont déja faites, ce qui explique les performances. Dans le second, les jointures entre les tables de dimension et de fait sont effectuées au moment de la requête. Northern blot : permet de repérer une séquence particulière (sonde) dans un mélange d'ARN. Le terme Northern a été créé par jeu de mot analogique avec le transfert de Southern. Voir aussi Southern blot. Nucléotide : unité de construction des acides nucléiques, résultant de l'addition d'un sucre (ribose pour l'ARN et désoxyribose pour l'ADN), d'un groupement phosphate et d'une base azotée à l'origine de l'information. Il existe quatre nucléotides différents pour l'ADN : adénine (A), thymine (T), guanine (G), cytosine (C) et quatre nucléotides différents pour l'ARN : uracile (U), guanine (G), cytosine (C), adénine (A). C'est la succession des bases résultant de l'enchaînement des nucléotides dans l'acide nucléique qui constitue le message génétique. OLAP (On Line Analytical Processing) : caractérise l’architecture nécessaire à la mise en place d’un système d’information décisionnel. S’oppose à OLTP. Le terme OLAP désigne souvent une catégorie d’outils d’exploration de données qui permettent de visualiser des valeurs dans plusieurs dimensions. Oligonucléotide : petit segment d’ADN (quelques dizaines de nucléotides) simple brin. OLTP (On Line Transactionnel Processing) : type d’environnement de traitement de l’information dans lequel une réponse doit être donnée dans un temps acceptable et consistant. Opéron : unité de transcription constituée par un promoteur (courte séquence nécessaire à l'initiation de la transcription), un opérateur (site auquel un répresseur se lie, pour empêcher le déclenchement de la transcription) et un ou plusieurs gènes. Orthologues (gènes) : gènes d'espèces différentes dont les séquences sont homologues, dérivent d'un même gène ancestral et ont divergés à la suite d'un évènement de spéciation. 145 PCR (Polymerase Chain Reaction) : réaction de polymérisation en chaîne. Technique d’amplification enzymatique (utilisant la Taq polymérase) in vitro d’un fragment d’ADN à partir d’amorces nucléotidiques spécifiques, permettant d’obtenir un très grand nombre de copies de ce fragment. Phénotype : manifestation apparente de la constitution du génome sous la forme d'un trait morphologique, d'un syndrome clinique, d'une variation qualitative ou quantitative du produit final d'un gène (protéine). Le phénotype correspond à la réalisation du génotype mais aussi des effets du milieu, de l'environnement. Photolithographie : la photolithographie est la technique de base permettant la fabrication de microstructures. Elle consiste à transférer les motifs désirés sur un substrat. La technique nécessite, d'abord, la fabrication d’un masque représentant les motifs à transférer. Ensuite, une couche de résine photosensible aux rayons UV est appliquée sur le substrat de façon uniforme. La résine est exposée au travers du masque à l’aide d’une lampe UV pour un temps déterminé. Le substrat est finalement immergé dans une base forte afin de « développer » (comme en photographie) l’image transférée. La résine restant sur le substrat va servir de masque pour la gravure. Plug-in : aussi appelé « greffon ». Logiciel tiers venant se greffer à un logiciel principal afin de lui apporter de nouvelles fonctions. Le logiciel principal fixe un standard d'échange d'informations auquel ses greffons se conforment. Le greffon n'est généralement pas conçu pour fonctionner seul. Polyadénylation : processus d’ajout d’une série d’environ 250 Adénines (queue polyA) à la fin de la séquence de l’ARNm primaire par l’enzyme RNA Polymerase II. On pense qu'il aiderait au passage du mRNA du noyau vers le cytoplasme et protégerait le mRNA au cours de la traduction. Portail Web : un portail Web est un site Web qui offre une porte d'entrée unique sur un large panel de ressources et de services centrés sur un domaine ou une communauté particulière. Protéome : ensemble des protéines exprimé par le génome d'une espèce donnée. Il assure le développement, la croissance et le fonctionnement de la cellule (donc de l'organisme). Puce à ADN : petit support solide sur lequel sont fixés à des positions déterminées un très grand nombre de molécules d’ADN ou d’oligonucléotides, constituant une matrice pour des hybridations moléculaires. Réseaux de Kohonen : encore appelés cartes organisatrices (SOM (Self Organizing Map)). Ce sont des réseaux de neurones qui utilisent une méthode d’apprentissage incrémentale dite compétitive. Cette méthode est dérivée de l’approche kmoyennes sur laquelle des contraintes spatiales (topologiques) sont ajoutées sous la forme d’un réseau virtuel. Ce réseau, ou carte, permet de réduire l’espace multidimensionnel des données d’entrée en un espace à 1 (ligne), 2 (grille) ou 3 (parallélépipède) dimensions. Les cartes 1D et 2D sont les plus utilisées. ROLAP (Relational On Line Analytical Processing) : cette technique permet de faire de l'analyse multidimensionnelle à partir de données stockées dans des bases relationnelles. 146 SAGE (Serial Analysis of Gene Expression) : cette technique permet d’estimer l’abondance d’un ARNm particulier dans une population d’ARNm. Des ADNc sont synthétisés à partir de l’ensemble des ARNm, puis digérés par une enzyme de restriction qui coupe fréquemment l’ADN, et les fragments obtenus sont liés les uns aux autres (concatémères ou étiquettes en série). Après amplification et séquençage des produits, une analyse informatique basée sur la fréquence d’apparition de l’étiquette correspondante donne le niveau d’expression de l’ARNm étudié. Schéma de données : un schéma est la description au moyen d'un langage déterminé d'un ensemble particulier de données. Il doit permettre la description et la représentation: - des entités et des données qui les constituent - des liens (association, relations, correspondances) qui les relient - de certaines assertions (propriétés ou contraintes d'intégrité) que doivent vérifier les données de la base. Service Web : technologie permettant à des applications de dialoguer à distance via Internet indépendamment des plates-formes et des langages sur lesquelles elles reposent. SGBD (Système de Gestion de Bases de Données) : un SGBD est une collection de logiciels permettant de créer, de gérer et d’interroger efficacement une base de données indépendamment du domaine d’application. Southern blot : permet de repérer une séquence particulière (sonde) dans un génome entier (cible) ou tout autre mélange complexe d'ADN : - L'ADN cible est découpé en fragments, par digestion enzymatique. - Les fragments hybridés sont révélés par autoradiographie. - Les fragments sont séparés par ordre de taille par électrophorèse, puis transférés et fixés sur une membrane de nylon mise en présence de la sonde radioactive qui va s'hybrider spécifiquement aux séquences qui lui sont complémentaires. Spectrométrie de masse : méthode d'analyse des constituants d'une préparation par séparation des particules chargées issues d'ionisation. La séparation s'effectue sur la base de la masse des ions et fournit un spectre caractéristique des constituants. Spectrométrie RMN (Résonance Magnétique Nucléaire) : méthode expérimentale basée sur l'interaction des moments magnétiques nucléaires des atomes d'une molécule avec un champ magnétique extérieur. Un spectre RMN permet d'identifier la nature des atomes d'une molécule, de déterminer certaines interactions locales entre ces atomes, et permettre d'en déduire la structure tridimensionnelle. Traduction : processus permettant la synthèse d'une chaîne polypeptidique (protéine) à partir d'un brin d'ARN messager. La traduction a lieu au niveau des ribosomes. Transcription : la transcription est la synthèse d'une molécule d'ARN complémentaire (ARN messager) à une séquence d'ADN. La transcription est initiée par une ARN polymérase. Les ARNm sont traduits tels quels chez les procaryotes. Chez les eucaryotes, l'ARNm subit une maturation avant la traduction. Transcriptome : ensemble des ARN messagers transcrits à partir du génome. 147 Web sémantique : n'est pas un Web distinct mais bien un prolongement du Web que l'on connaît et dans lequel on attribue à l'information une signification clairement définie, ce qui permet aux ordinateurs et aux humains de travailler en plus étroite collaboration. Web : World Wide Web, « Toile d’araignée Mondiale ». Système basé sur des liens hypertextes, permettant l’accès aux ressources du réseau Internet. XML (eXtensible Markup Language) : standard du W3C qui permet de décrire les données et de les structurer de telle sorte qu'elles puissent être échangées entre un large nombre d'applications en différents environnements hardware et software. 148 BIBLIOGRAPHIE BIBLIOGRAPHIE Adams, M. D., Celniker, S. E., and al. (2000). The genome sequence of Drosophila melanogaster. Science 287, 2185-95. Alkharouf, N. W., Jamison, D. C., and Matthews, B. F. (2005). Online Analytical Processing (OLAP): A Fast and Effective Data Mining Tool for Gene Expression Databases. J Biomed Biotechnol 2005, 181-8. Al-Shahrour, F., Diaz-Uriarte, R., and Dopazo, J. (2004). FatiGO: a web tool for finding significant associations of Gene Ontology terms with groups of genes. Bioinformatics 20, 578-80. Alter, O., Brown, P. O., and Botstein, D. (2000). Singular value decomposition for genome-wide expression data processing and modeling. Proc Natl Acad Sci 97, 10101-6. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990). Basic local alignment search tool. J Mol Biol 215, 403-10. Anderle, P., Duval, M., Draghici, S., Kuklin, A., Littlejohn, T. G., Medrano, J. F., Vilanova, D., and Roberts, M. A. (2003). Gene expression databases and data mining. Biotechniques Suppl, 36-44. Avery, O. T., MacLeod, C. M., and McCarty, M. (1944). Studies on the chemical nature of the substance inducing transformation of pneumococcal types. Inductions of transformation by a desoxyribonucleic acid fraction isolated from pneumococcus type III. J Exp Med 79, 137-158. Bairoch, A. (2000). The ENZYME database in 2000. Nucleic Acids Res 28, 304-5. Bairoch, A., Apweiler, R., Wu, C. H., Barker, W. C., Boeckmann, B., Ferro, S., Gasteiger, E., Huang, H., Lopez, R., Magrane, M., Martin, M. J., Natale, D. A., O'Donovan, C., Redaschi, N., and Yeh, L. S. (2005). The Universal Protein Resource (UniProt). Nucleic Acids Res 33, 154-9. Bairoch, A., and Boeckmann, B. (1993). The SWISS-PROT protein sequence data bank, recent developments. Nucleic Acids Res 21, 3093-6. Baker, P. G., Brass, A., Bechhofer, S., Goble, C., Paton, N., and Stevens, R. (1998). TAMBIS-Transparent Access to Multiple Bioinformatics Information Sources. Proc Int Conf Intell Syst Mol Biol 6, 25-34. Baker, P. G., Goble, C. A., Bechhofer, S., Paton, N. W., Stevens, R., and Brass, A. (1999). An ontology for bioinformatics applications. Bioinformatics 15, 510-20. Balakrishnan, R., Christie, K. R., Costanzo, M. C., Dolinski, K., Dwight, S. S., Engel, S. R., Fisk, D. G., Hirschman, J. E., Hong, E. L., Nash, R., Oughtred, R., Skrzypek, M., Theesfeld, C. L., Binkley, G., Dong, Q., Lane, C., Sethuraman, A., Weng, S., Botstein, D., and Cherry, J. M. (2005). Fungal BLAST and Model Organism BLASTP Best Hits: new comparison resources at the Saccharomyces Genome Database (SGD). Nucleic Acids Res 33, 374-7. Ball, C. A., Awad, I. A., Demeter, J., Gollub, J., Hebert, J. M., Hernandez-Boussard, T., Jin, H., Matese, J. C., Nitzberg, M., Wymore, F., Zachariah, Z. K., Brown, P. O., and Sherlock, G. (2005). The Stanford Microarray Database accommodates additional microarray platforms and data formats. Nucleic Acids Res 33, 580-2. Bard, J., Rhee, S. Y., and Ashburner, M. (2005). An ontology for cell types. Genome Biol 6, R21. Barrett, T., Suzek, T. O., Troup, D. B., Wilhite, S. E., Ngau, W. C., Ledoux, P., Rudnev, D., Lash, A. E., Fujibuchi, W., and Edgar, R. (2005). NCBI GEO: mining millions of expression profiles-database and tools. Nucleic Acids Res 33, 562-6. Beadle, G. W., and Tatum, E. L. (1941). Genetic control of biochemical reactions in Neurospora. Proc. Natl. Acad. Sci 27, 499-506. Benson, D. A., Karsch-Mizrachi, I., Lipman, D. J., Ostell, J., and Wheeler, D. L. (2005). GenBank. Nucleic Acids Res 33, 34-8. 149 Bernstein, P., and Rahm, E. (2000). Data Warehouse Scenarios for Model Management. In "19th International Conference on Conceptuel Modeling" (A. H. F. Laender, S. W. Liddle, and V. C. Storey, Eds.), pp. 1-15. Lecture Notes in Computer Science, Springer-Verlag, Salt Lake City, Utah, USA. Bilofsky, H. S., Burks, C., Fickett, J. W., Goad, W. B., Lewitter, F. I., Rindone, W. P., Swindell, C. D., and Tung, C. S. (1986). The GenBank genetic sequence databank. Nucleic Acids Res 14, 1-4. Birnbaum, K., Shasha, D. E., Wang, J. Y., Jung, J. W., Lambert, G. M., Galbraith, D. W., and Benfey, P. N. (2003). A gene expression map of the Arabidopsis root. Science 302, 1956-60. Birney, E., Bateman, A., Clamp, M. E., and Hubbard, T. J. (2001). Mining the draft human genome. Nature 409, 827-828. Blagosklonny, M. V., and Pardee, A. B. (2002). Conceptual biology: unearthing the gems. Nature 416, 373. Bodenreider, O. (2004). The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res 32, 267-70. Bodenreider, O., Mitchell, J. A., and McCray, A. T. (2002). Evaluation of the UMLS as a terminology and knowledge resource for biomedical informatics. Proc AMIA Symp, 61-5. Boguski, M. S., Lowe, T. M., and Tolstoshev, C. M. (1993). dbEST--database for "expressed sequence tags". Nat Genet 4, 332-3. Borodovsky, M., Rudd, K. E., and Koonin, E. V. (1994). Intrinsic and extrinsic approaches for detecting genes in a bacterial genome. Nucleic Acids Res 22, 4756-67. Boutanaev, A. M., Kalmykova, A. I., Shevelyov, Y. Y., and Nurminsky, D. I. (2002). Large clusters of co-expressed genes in the Drosophila genome. Nature 420, 666-9. Brazma, A., Hingamp, P., Quackenbush, J., Sherlock, G., Spellman, P., Stoeckert, C., Aach, J., Ansorge, W., Ball, C. A., Causton, H. C., Gaasterland, T., Glenisson, P., Holstege, F. C., Kim, I. F., Markowitz, V., Matese, J. C., Parkinson, H., Robinson, A., Sarkans, U., Schulze-Kremer, S., Stewart, J., Taylor, R., Vilo, J., and Vingron, M. (2001). Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. Nat Genet 29, 365-71. Brazma, A., Parkinson, H., Sarkans, U., Shojatalab, M., Vilo, J., Abeygunawardena, N., Holloway, E., Kapushesky, M., Kemmeren, P., Lara, G. G., Oezcimen, A., Rocca-Serra, P., and Sansone, S. A. (2003). ArrayExpress--a public repository for microarray gene expression data at the EBI. Nucleic Acids Res 31, 68-71. Brown, P. O., and Botstein, D. (1999). Exploring the new world of the genome with DNA microarrays. Nat Genet 21, 33-7. Buneman, P. (1997). Semistructured Data. In "Symposium on Principles of Database Systems", pp. 117-121. ACM Press, Tucson, Arizona, USA. Camon, E., Barrell, D., Lee, V., Dimmer, E., and Apweiler, R. (2004a). The Gene Ontology Annotation (GOA) Database--an integrated resource of GO annotations to the UniProt Knowledgebase. In Silico Biol 4, 5-6. Camon, E., Magrane, M., Barrell, D., Binns, D., Fleischmann, W., Kersey, P., Mulder, N., Oinn, T., Maslen, J., Cox, A., and Apweiler, R. (2003). The Gene Ontology Annotation (GOA) project: implementation of GO in SWISS-PROT, TrEMBL, and InterPro. Genome Res 13, 662-72. Camon, E., Magrane, M., Barrell, D., Lee, V., Dimmer, E., Maslen, J., Binns, D., Harte, N., Lopez, R., and Apweiler, R. (2004b). The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology. Nucleic Acids Res 32, 262-6. Cantor, M. N., Sarkar, I. N., Bodenreider, O., and Lussier, Y. A. (2005). Genestrace: phenomic knowledge discovery via structured terminology. Pac Symp Biocomput, 103-14. Caron, H., Peter, M., van Sluis, P., Speleman, F., de Kraker, J., Laureys, G., Michon, J., Brugieres, L., Voute, P. A., Westerveld, A., and et al. (1995). Evidence for two tumour suppressor loci on chromosomal bands 1p35-36 involved in neuroblastoma: one probably imprinted, another associated with N-myc amplification. Hum Mol Genet 4, 535-9. Chargaff, E. (1950). Chemical specificity of nucleic acids and mechanism of their enzymatic degradation. Experientia 6, 201-9. Chung, S., and Wooley, J. (2003). Challenges faced in the integration of biological information. In "Bioinformatics, Managing Scientific Data" (Z. Lacroix and T. Critchlow, Eds.), pp. 11-34. Morgan Kaufmann Publishers, an imprint of Elsevier Science. 150 Claverie, J. M., Poirot, O., and Lopez, F. (1997). The difficulty of identifying genes in anonymous vertebrate sequences. Comput Chem 21, 203-14. Codd, E. T. (1993). Providing OLAP (On-Line Analytical Processing) to Users-Analysts : An IT Mandate. Cohen, B. A., Mitra, R. D., Hughes, J. D., and Church, G. M. (2000). A computational analysis of whole-genome expression data reveals chromosomal domains of gene expression. Nat Genet 26, 183-6. Cohen-Boulakia, S., Davidson, S., and Froidevaux, C. (2005). A User-Centric Framework for Accessing Biological Sources and Tools. In "Data Integration in Life Sciences" (B. Ludäscher and L. Raschid, Eds.), Vol. 3615, pp. 3-18. Springer-Verlag, San Diego, USA. Cohen-Boulakia, S., Lair, S., Stransky, N., Graziani, S., Radvanyi, F., Barillot, E., and Froidevaux, C. (2004). Selecting biomedical data sources according to user preferences. Bioinformatics 20, 86-93. Combet, C., Jambon, M., Deleage, G., and Geourjon, C. (2002). Geno3D: automatic comparative molecular modelling of protein. Bioinformatics 18, 213-4. Cornell, M., Paton, N. W., Hedeler, C., Kirby, P., Delneri, D., Hayes, A., and Oliver, S. G. (2003). GIMS: an integrated data storage and analysis environment for genomic and functional data. Yeast 20, 1291-306. Davidson, S., Crabtree, J., Brunk, B., Schug, J., Tannen, V., Overton, C., and Stoeckert, C. (2001). K2/Kleisli and GUS: experiments in integrated access to genomic data sources. IBM Syst. J. 40, 512-531. Davidson, S., Overton, C., and Tannen, V. (1997). BioKleisli: A Digital Library for Biomedical Researchers. Journal on Digital Libraries 1, 36-53. DeRisi, J., Penland, L., Brown, P. O., Bittner, M. L., Meltzer, P. S., Ray, M., Chen, Y., Su, Y. A., and Trent, J. M. (1996). Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nat Genet 14, 457-60. Do, H. H., Kristen, T., and Rahm, E. (2003). Comparative Evaluation of Microarray-based Gene Expression Databases. In "Proceedings of BTW", pp. 482-501. Do, H.-H., and Rahm, E. (2004). Flexible Integration of Molecular-Biological Annotation Data: The GenMapper Approach. In "9th International Conference on Extending Database Technology" (E. Bertino, S. Christodoulakis, D. Plexousakis, V. Christophides, M. Koubarakis, K. Bohm, and E. Ferrari, Eds.), pp. 811-822, Heraklion, Crete, Greece. Donelson, L., Tarczy-Hornoch, P., Mork, P., Dolan, C., Mitchell, J. A., Barrier, M., and Mei, H. (2004). The BioMediator system as a data integration tool to answer diverse biologic queries. Medinfo 11, 768-72. Draghici, S., Khatri, P., Bhavsar, P., Shah, A., Krawetz, S. A., and Tainsky, M. A. (2003). Onto-Tools, the toolkit of the modern biologist: Onto-Express, Onto-Compare, Onto-Design and OntoTranslate. Nucleic Acids Res 31, 3775-81. Drysdale, R. A., and Crosby, M. A. (2005). FlyBase: genes and gene models. Nucleic Acids Res 33, 390-5. Duggan, D. J., Bittner, M., Chen, Y., Meltzer, P., and Trent, J. M. (1999). Expression profiling using cDNA microarrays. Nat Genet 21, 10-4. Dysvik, B., and Jonassen, I. (2001). J-Express: exploring gene expression data using Java. Bioinformatics 17, 369-70. Eckman, B. A., Kosky, A. S., and Laroco, L. A., Jr. (2001). Extending traditional query-based integration approaches for functional characterization of post-genomic data. Bioinformatics 17, 587-601. Edgar, R., Domrachev, M., and Lash, A. E. (2002). Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res 30, 207-10. Eilbeck, K., Lewis, S. E., Mungall, C. J., Yandell, M., Stein, L., Durbin, R., and Ashburner, M. (2005). The Sequence Ontology: a tool for the unification of genome annotations. Genome Biol 6, R44. Eisen, M. B., and Brown, P. O. (1999). DNA arrays for analysis of gene expression. Methods Enzymol 303, 179-205. 151 Eisen, M. B., Spellman, P. T., Brown, P. O., and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci 95, 14863-8. Eppig, J. T., Bult, C. J., Kadin, J. A., Richardson, J. E., Blake, J. A., Anagnostopoulos, A., Baldarelli, R. M., Baya, M., Beal, J. S., Bello, S. M., Boddy, W. J., Bradt, D. W., Burkart, D. L., Butler, N. E., Campbell, J., Cassell, M. A., Corbani, L. E., Cousins, S. L., Dahmen, D. J., Dene, H., Diehl, A. D., Drabkin, H. J., Frazer, K. S., Frost, P., Glass, L. H., Goldsmith, C. W., Grant, P. L., Lennon-Pierce, M., Lewis, J., Lu, I., Maltais, L. J., McAndrews-Hill, M., McClellan, L., Miers, D. B., Miller, L. A., Ni, L., Ormsby, J. E., Qi, D., Reddy, T. B., Reed, D. J., Richards-Smith, B., Shaw, D. R., Sinclair, R., Smith, C. L., Szauter, P., Walker, M. B., Walton, D. O., Washburn, L. L., Witham, I. T., and Zhu, Y. (2005). The Mouse Genome Database (MGD): from genes to mice--a community resource for mouse biology. Nucleic Acids Res 33, 471-5. Ermolaeva, O., Rastogi, M., Pruitt, K. D., Schuler, G. D., Bittner, M. L., Chen, Y., Simon, R., Meltzer, P., Trent, J. M., and Boguski, M. S. (1998). Data management and analysis for gene expression arrays. Nat Genet 20, 19-23. Etzold, T., and Argos, P. (1993). SRS--an indexing and retrieval tool for flat file data libraries. Comput Appl Biosci 9, 49-57. Etzold, T., Ulyanov, A., and Argos, P. (1996). SRS: information retrieval system for molecular biology data banks. Methods Enzymol 266, 114-28. Fellenberg, K., Hauser, N. C., Brors, B., Hoheisel, J. D., and Vingron, M. (2002). Microarray data warehouse allowing for inclusion of experiment annotations in statistical analysis. Bioinformatics 18, 423-33. Fernandez, F., Florescu, D., Levy, A., and Suciu, D. (1997). A Query Language for a Web-Site Management System. SIGMOD record 26, 4-11. Fickett, J. W. (1996). Finding genes by computer: the state of the art. Trends Genet 12, 316-20. Fields, S., and Song, O. (1989). A novel genetic system to detect protein-protein interactions. Nature 340, 245-6. Fincham, J. R. (1990). Plant genetics: Mendel--now down to the molecular level. Nature 343, 208-9. Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F., Kerlavage, A. R., Bult, C. J., Tomb, J. F., Dougherty, B. A., Merrick, J. M., and et al. (1995). Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269, 496-512. Franco, J. (1997). "Le Data Warehouse Le Data Mining." Eyrolles, Paris. Friedman, M., Levy, A., and Millstein, T. (1999). Navigational Plans For Data Integration. In "National Conference on Artificial Intelligence", pp. 67-73, Orlando, Florida, USA. Galperin, M. Y. (2005). The Molecular Biology Database Collection: 2005 update. Nucl. Acids Res. 33, 5-24. Garrod, A. E. (1923). "Inborn errors of metabolism." London : Oxford University Press. Gasteiger, E., Gattiker, A., Hoogland, C., Ivanyi, I., Appel, R. D., and Bairoch, A. (2003). ExPASy: The proteomics server for in-depth protein knowledge and analysis. Nucleic Acids Res 31, 3784-8. Ge, H., Walhout, A. J., and Vidal, M. (2003). Integrating 'omic' information: a bridge between genomics and systems biology. Trends Genet 19, 551-60. Gentleman, R. C., Carey, V. J., Bates, D. M., Bolstad, B., Dettling, M., Dudoit, S., Ellis, B., Gautier, L., Ge, Y., Gentry, J., Hornik, K., Hothorn, T., Huber, W., Iacus, S., Irizarry, R., Leisch, F., Li, C., Maechler, M., Rossini, A. J., Sawitzki, G., Smith, C., Smyth, G., Tierney, L., Yang, J. Y., and Zhang, J. (2004). Bioconductor: open software development for computational biology and bioinformatics. Genome Biol 5, R80. George, D. G., Barker, W. C., and Hunt, L. T. (1986). The protein identification resource (PIR). Nucleic Acids Res 14, 11-5. Gilbert, D. R., Schroeder, M., and van Helden, J. (2000). Interactive visualization and exploration of relationships between biological objects. Trends Biotechnol 18, 487-94. Goto, S., Okuno, Y., Hattori, M., Nishioka, T., and Kanehisa, M. (2002). LIGAND: database of chemical compounds and reactions in biological pathways. Nucleic Acids Res 30, 402-4. Gress, T. M., Hoheisel, J. D., Lennon, G. G., Zehetner, G., and Lehrach, H. (1992). Hybridization fingerprinting of high-density cDNA-library arrays with cDNA pools derived from whole tissues. Mamm Genome 3, 609-19. 152 Gruber, T. (1993). A translation approach to portable ontology specifications. Knowledge Acquisition 5, 199-220. Gygi, S. P., Rochon, Y., Franza, B. R., and Aebersold, R. (1999). Correlation between protein and mRNA abundance in yeast. Mol Cell Biol 19, 1720-30. Hamm, G. H., and Cameron, G. N. (1986). The EMBL data library. Nucleic Acids Res 14, 5-9. Hamosh, A., Scott, A. F., Amberger, J., Valle, D., and McKusick, V. A. (2000). Online Mendelian Inheritance in Man (OMIM). Hum Mutat 15, 57-61. Hamosh, A., Scott, A. F., Amberger, J. S., Bocchini, C. A., and McKusick, V. A. (2005). Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders. Nucleic Acids Res 33, D514-7. Hart, K., Wong, L., Overton, C., and Buneman, P. (1994). Using a Query Language to Integrate Biological Data. In "1st meeting on the Interconnection of Molecular Biology Databases", Stanford, California, USA. Hernandez, T., and Kambhampati, S. (2004). Integration of biological sources: current systems and challenges ahead. SIGMOD record 33, 51-60. Hershey, A. D., and Chase, M. (1952). Independant functions of viral proteins and nucleic acid in growth of bacteriophage. J. Gen. Physiol. 36, 39-56. Hogenesch, J. B., Ching, K. A., Batalov, S., Su, A. I., Walker, J. R., Zhou, Y., Kay, S. A., Schultz, P. G., and Cooke, M. P. (2001). A comparison of the Celera and Ensembl predicted gene sets reveals little overlap in novel genes. Cell 106, 413-5. Holloway, A. J., van Laar, R. K., Tothill, R. W., and Bowtell, D. D. (2002). Options available--from start to finish--for obtaining data from DNA microarrays II. Nat Genet 32 Suppl, 481-9. Hu, Y., Hines, L. M., Weng, H., Zuo, D., Rivera, M., Richardson, A., and LaBaer, J. (2003). Analysis of genomic and proteomic data using advanced literature mining. J Proteome Res 2, 405-12. Hucka, M., Finney, A., Sauro, H. M., Bolouri, H., Doyle, J. C., Kitano, H., Arkin, A. P., Bornstein, B. J., Bray, D., Cornish-Bowden, A., Cuellar, A. A., Dronov, S., Gilles, E. D., Ginkel, M., Gor, V., Goryanin, II, Hedley, W. J., Hodgman, T. C., Hofmeyr, J. H., Hunter, P. J., Juty, N. S., Kasberger, J. L., Kremling, A., Kummer, U., Le Novere, N., Loew, L. M., Lucio, D., Mendes, P., Minch, E., Mjolsness, E. D., Nakayama, Y., Nelson, M. R., Nielsen, P. F., Sakurada, T., Schaff, J. C., Shapiro, B. E., Shimizu, T. S., Spence, H. D., Stelling, J., Takahashi, K., Tomita, M., Wagner, J., and Wang, J. (2003). The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models. Bioinformatics 19, 524-31. Ihaka, R., and Gentleman, R. (1996). R: A LAnguage for Data Analysis and Graphics. Journal of Computational and Graphical Statistics 5, 299-314. Ikeo, K., Ishi-i, J., Tamura, T., Gojobori, T., and Tateno, Y. (2003). CIBEX: center for information biology gene expression database. C R Biol 326, 1079-1082. Inmon, W. H. (2002). "Buildind the Data Warehouse." John Wiley & Sons, Inc., New York. International Human Genome Sequencing Consortium. (2001). Initial sequencing and analysis of the human genome. Nature 409, 860-921. International Human Genome Sequencing Consortium. (2004). Finishing the euchromatic sequence of the human genome. Nature 431, 931-45. Jackson, I. J. (2001). Mouse genomics: Making sense of the sequence. Current Biology 11, 311-314. Kanehisa, M., and Goto, S. (2000). KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res 28, 27-30. Kanz, C., Aldebert, P., Althorpe, N., Baker, W., Baldwin, A., Bates, K., Browne, P., van den Broek, A., Castro, M., Cochrane, G., Duggan, K., Eberhardt, R., Faruque, N., Gamble, J., Diez, F. G., Harte, N., Kulikova, T., Lin, Q., Lombard, V., Lopez, R., Mancuso, R., McHale, M., Nardone, F., Silventoinen, V., Sobhany, S., Stoehr, P., Tuli, M. A., Tzouvara, K., Vaughan, R., Wu, D., Zhu, W., and Apweiler, R. (2005). The EMBL Nucleotide Sequence Database. Nucleic Acids Res 33, 29-33. Kaplan, J. (2002). Genomics and medicine: hopes and challenges. Gene Ther 9, 658-61. Karp, P. D. (1995). A Strategy for Database Interoperation. Journal of Computational Biology 2, 573586. 153 Kasprzyk, A., Keefe, D., Smedley, D., London, D., Spooner, W., Melsopp, C., Hammond, M., RoccaSerra, P., Cox, T., and Birney, E. (2004). EnsMart: a generic system for fast and flexible access to biological data. Genome Res 14, 160-9. Keseler, I. M., Collado-Vides, J., Gama-Castro, S., Ingraham, J., Paley, S., Paulsen, I. T., Peralta-Gil, M., and Karp, P. D. (2005). EcoCyc: a comprehensive database resource for Escherichia coli. Nucleic Acids Res 33, 334-7. Kirsten, T., Do, H. H., and Rahm, E. (2004). A Data Warehouse for Multidimensional Gene Expression Analysis. Working Paper, University of Leipzig. Kohonen, T. (1998). The self-organizing map. Neurocomputing 21, 1-6. Lacroix, Z., and Edupuganti, V. (2004). How biological source capabilities may affect the data collection process. In "Computational Systems Bioinformatics", pp. 596-597. IEEE Computer Society, Stanford, USA. Lacroix, Z., Murthy, H., Naumann, F., and Raschid, L. (2004a). Links and Paths through Life Sciences Data Sources. In "Data Integration in Life Sciences" (E. Rahm, Ed.), pp. 203-211. Lecture Notes in Computer Science, Springer-Verlag, Leipzig, Germany. Lacroix, Z., Parekh, K., Vidal, M., Cardenas, M., and Marquez, N. (2005). BioNavigation: Selecting Optimum Paths Through Biological Resources to Evaluate Ontological Navigational Queries. In "Data Integration in Life Sciences" (B. Ludäscher and L. Raschid, Eds.), pp. 275-283. Lecture Notes in Computer Science, Springer-Verlag, San Diego, California, USA. Lacroix, Z., Raschid, L., and Vidal, M. (2004b). Efficient Techniques to Explore and Rank Paths in Life Science Data Sources. In "Data Integration in Life Sciences" (E. Rahm, Ed.), pp. 187-202. Lecture Notes in Computer Science, Springer-Verlag, Leipzig, Germany. Le Meur, N. (2005). De l'acquisition des données de puces à ADN vers leur interprétation : importance du traitement des données primaires. Thèse de doctorat devant l'Université de Nantes. Le Meur, N., Lamirault, G., Bihouee, A., Steenman, M., Bedrine-Ferran, H., Teusan, R., Ramstein, G., and Leger, J. J. (2004). A dynamic, web-accessible resource to process raw microarray scan data into consolidated gene expression values: importance of replication. Nucleic Acids Res 32, 5349-58. Lercher, M. J., Blumenthal, T., and Hurst, L. D. (2003). Coexpression of neighboring genes in Caenorhabditis elegans is mostly due to operons and duplicate genes. Genome Res 13, 23843. Lercher, M. J., Urrutia, A. O., and Hurst, L. D. (2002). Clustering of housekeeping genes provides a unified model of gene order in the human genome. Nat Genet 31, 180-3. Leung, Y. F., and Cavalieri, D. (2003). Fundamentals of cDNA microarray data analysis. Trends Genet 19, 649-59. Levy, A. (1999). Combining Artificial Intelligence and Databases for Data Integration. Lecture Notes in Computer Science 1600, 249-268. Lewis, S., Ashburner, M., and Reese, M. G. (2000). Annotating eukaryote genomes. Curr Opin Struct Biol 10, 349-54. Lindberg, C. (1990). The Unified Medical Language System (UMLS) of the National Library of Medicine. J Am Med Rec Assoc 61, 40-2. Lockhart, D. J., Dong, H., Byrne, M. C., Follettie, M. T., Gallo, M. V., Chee, M. S., Mittmann, M., Wang, C., Kobayashi, M., Horton, H., and Brown, E. L. (1996). Expression monitoring by hybridization to high-density oligonucleotide arrays. Nat Biotechnol 14, 1675-80. Lockhart, D. J., and Winzeler, E. A. (2000). Genomics, gene expression and DNA arrays. Nature 405, 827-36. Mahoui, M., Kulkarni, H., Li, N., Ben-Miled, Z., and Börner, K. (2005). Semantic Correspondence in Federated Life Science Data Integration Systems. In "Data Integration in Life Sciences" (B. Ludäscher and L. Raschid, Eds.), pp. 137-144. Springer-Verlag, San Diego, California, USA. Mathe, C., Sagot, M. F., Schiex, T., and Rouze, P. (2002). Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Res 30, 4103-17. Maxam, A. M., and Gilbert, W. (1977). A new method for sequencing DNA. Proc Natl Acad Sci 74, 560-4. McCray, A. T., and Nelson, S. J. (1995). The representation of meaning in the UMLS. Methods Inf Med 34, 193-201. 154 McKusick, V. A. (1989). HUGO news. The Human Genome Organisation: history, purposes, and membership. Genomics 5, 385-7. Mewes, H. W., Albermann, K., Heumann, K., Liebl, S., and Pfeiffer, F. (1997). MIPS: a database for protein sequences, homology data and yeast genome information. Nucleic Acids Res 25, 2830. Mi, H., Lazareva-Ulitsky, B., Loo, R., Kejariwal, A., Vandergriff, J., Rabkin, S., Guo, N., Muruganujan, A., Doremieux, O., Campbell, M. J., Kitano, H., and Thomas, P. D. (2005). The PANTHER database of protein families, subfamilies, functions and pathways. Nucleic Acids Res 33, D284-8. Mignone, F., Gissi, C., Liuni, S., and Pesole, G. (2002). Untranslated regions of mRNAs. Genome Biology 3, reviews0004.1 - reviews0004.10. Miller, R. (1998). Using Schematically Heterogeneous Structures. In "ACM SIGMOD International Conference on Management of Data" (L. Haas and A. Tiwary, Eds.), pp. 189-200. ACM Press, Seattle, Washington, USA. Mootha, V. K., Lepage, P., Miller, K., Bunkenborg, J., Reich, M., Hjerrild, M., Delmonte, T., Villeneuve, A., Sladek, R., Xu, F., Mitchell, G. A., Morin, C., Mann, M., Hudson, T. J., Robinson, B., Rioux, J. D., and Lander, E. S. (2003). Identification of a gene causing human cytochrome c oxidase deficiency by integrative genomics. Proc Natl Acad Sci 100, 605-10. Morgan, T. H., Sturtevant, A. H., Muller, H. J., and Bridges, C. (1915). "The mechanism of mendelian heredity." New-York. Mork, P., Halevy, A., and Tarczy-Hornoch, P. (2001). A model for data integration systems of biomedical data applied to online genetic databases. Proc AMIA Symp, 473-7. Mork, P., Shaker, R., Halevy, A., and Tarczy-Hornoch, P. (2002). PQL: a declarative query language over dynamic biological schemata. Proc AMIA Symp, 533-7. Mork, P., Shaker, R., and Tarczy-Hornoch, P. (2005). The Multiple Roles of Ontologies in the BioMediator Data Integration System. In "Data Integration in the Life Sciences" (B. Ludäscher and L. Raschid, Eds.). Springer-Verlag, San Diego, California, USA. Muller, H. J. (1927). Artificial transmutation of the gene. Science 66. Mullis, K., Faloona, F., Scharf, S., Saiki, R., Horn, G., and Erlich, H. (1986). Specific enzymatic amplification of DNA in vitro: the polymerase chain reaction. Cold Spring Harb Symp Quant Biol 51 Pt 1, 263-73. Nguyen, C., Rocha, D., Granjeaud, S., Baldit, M., Bernard, K., Naquet, P., and Jordan, B. R. (1995). Differential gene expression in the murine thymus assayed by quantitative hybridization of arrayed cDNA clones. Genomics 29, 207-16. Pandey, A., and Mann, M. (2000). Proteomics to study genes and genomes. Nature 405, 837-46. Parkinson, H., Sarkans, U., Shojatalab, M., Abeygunawardena, N., Contrino, S., Coulson, R., Farne, A., Lara, G. G., Holloway, E., Kapushesky, M., Lilja, P., Mukherjee, G., Oezcimen, A., Rayner, T., Rocca-Serra, P., Sharma, A., Sansone, S., and Brazma, A. (2005a). ArrayExpress--a public repository for microarray gene expression data at the EBI. Nucleic Acids Res 33, 553-5. Parkinson, H., Sarkans, U., Shojatalab, M., Abeygunawardena, N., Contrino, S., Coulson, R., Farne, A., Lara, G. G., Holloway, E., Kapushesky, M., Lilja, P., Mukherjee, G., Oezcimen, A., Rayner, T., Rocca-Serra, P., Sharma, A., Sansone, S., and Brazma, A. (2005b). ArrayExpress--a public repository for microarray gene expression data at the EBI. Nucleic Acids Res 33, D5535. Pasquier, C., Girardot, F., Jevardat de Fombelle, K., and Christen, R. (2004). THEA: ontology-driven analysis of microarray data. Bioinformatics 20, 2636-43. Paton, N. W., Khan, S. A., Hayes, A., Moussouni, F., Brass, A., Eilbeck, K., Goble, C. A., Hubbard, S. J., and Oliver, S. G. (2000). Conceptual modelling of genomic information. Bioinformatics 16, 548-57. Pearl, F. M., Bennett, C. F., Bray, J. E., Harrison, A. P., Martin, N., Shepherd, A., Sillitoe, I., Thornton, J., and Orengo, C. A. (2003). The CATH database: an extended protein family resource for structural and functional genomics. Nucleic Acids Res 31, 452-5. Pearson, P. L., Matheson, N. W., Flescher, D. C., and Robbins, R. J. (1992). The GDB Human Genome Data Base Anno 1992. Nucleic Acids Res 20 Suppl, 2201-6. 155 Perez-Iratxeta, C., Bork, P., and Andrade, M. A. (2002). Association of genes to genetically inherited diseases using data mining. Nat Genet 31, 316-9. Piatetsky-Shapiro, G., and Tamayo, P. (2003). Microarray Data Mining : Facing the Challenges. In "ACM SIGKDD, Explorations" (S. Sarawagi, Ed.), Vol. 5, pp. 1-5. Pruitt, K. D., Tatusova, T., and Maglott, D. R. (2005). NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res 33, 501-4. Rahm, E., and Bernstein, P. (2001). A survey of approaches to automatic schema matching. Very Large DataBases Journal 10, 334-350. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., and Lancet, D. (1997). GeneCards: integrating information about genes, proteins and diseases. Trends Genet 13, 163. Rector, A. L., Bechhofer, S., Goble, C. A., Horrocks, I., Nowlan, W. A., and Solomon, W. D. (1997). The GRAIL concept modelling language for medical terminology. Artif Intell Med 9, 139-71. Reedy, B. V., and Bourne, P. E. (2003). Protein structure evolution and the SCOP database. Methods Biochem Anal 44, 239-48. Saal, L. H., Troein, C., Vallon-Christersson, J., Gruvberger, S., Borg, A., and Peterson, C. (2002). BioArray Software Environment (BASE): a platform for comprehensive management and analysis of microarray data. Genome Biol 3, 1-6. Sanger, F., Nicklen, S., and Coulson, A. R. (1977). DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 74, 5463-7. Sarkans, U., Parkinson, H., Lara, G. G., Oezcimen, A., Sharma, A., Abeygunawardena, N., Contrino, S., Holloway, E., Rocca-Serra, P., Mukherjee, G., Shojatalab, M., Kapushesky, M., Sansone, S. A., Farne, A., Rayner, T., and Brazma, A. (2005). The ArrayExpress gene expression database: a software engineering and implementation perspective. Bioinformatics 21, 1495501. Schena, M. (1996). Genome analysis with gene expression microarrays. Bioessays 18, 427-31. Schena, M., Shalon, D., Davis, R. W., and Brown, P. O. (1995). Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 270, 467-70. Schmutz, J., Wheeler, J., Grimwood, J., Dickson, M., Yang, J., Caoile, C., Bajorek, E., Black, S., Chan, Y. M., Denys, M., Escobar, J., Flowers, D., Fotopulos, D., Garcia, C., Gomez, M., Gonzales, E., Haydu, L., Lopez, F., Ramirez, L., Retterer, J., Rodriguez, A., Rogers, S., Salazar, A., Tsai, M., and Myers, R. M. (2004). Quality assessment of the human genome sequence. Nature 429, 365-8. Schwede, T., Kopp, J., Guex, N., and Peitsch, M. C. (2003). SWISS-MODEL: An automated protein homology-modeling server. Nucleic Acids Res 31, 3381-5. Shah, S. P., Huang, Y., Xu, T., Yuen, M. M., Ling, J., and Ouellette, B. F. (2005). Atlas - a data warehouse for integrative bioinformatics. BMC Bioinformatics 6, 34. Shaker, R., Mork, P., Brockenbrough, J., Donelson, L., and Tarczy-Hornoch, P. (2004). The BioMediator System as a Tool for Integrating Biologic Databases on the Web. In "Very Large Data Bases" (M. Nascimento, M. Tamer, D. Kossmann, R. Miller, J. Blakeley, and K. Bernhard Schiefer, Eds.). Kaufman, Morgan, Toronto, Canada. Sherlock, G., Hernandez-Boussard, T., Kasarskis, A., Binkley, G., Matese, J. C., Dwight, S. S., Kaloper, M., Weng, S., Jin, H., Ball, C. A., Eisen, M. B., Spellman, P. T., Brown, P. O., Botstein, D., and Cherry, J. M. (2001). The Stanford Microarray Database. Nucleic Acids Res 29, 152-5. Shklar, M., Strichman-Almashanu, L., Shmueli, O., Shmoish, M., Safran, M., and Lancet, D. (2005). GeneTide--Terra Incognita Discovery Endeavor: a new transcriptome focused member of the GeneCards/GeneNote suite of databases. Nucleic Acids Res 33, 556-61. Shows, T. B., Alper, C. A., Bootsma, D., Dorf, M., Douglas, T., Huisman, T., Kit, S., Klinger, H. P., Kozak, C., Lalley, P. A., Lindsley, D., McAlpine, P. J., McDougall, J. K., Meera Khan, P., Meisler, M., Morton, N. E., Opitz, J. M., Partridge, C. W., Payne, R., Roderick, T. H., Rubinstein, P., Ruddle, F. H., Shaw, M., Spranger, J. W., and Weiss, K. (1979). International system for human gene nomenclature (1979) ISGN (1979). Cytogenet Cell Genet 25, 96-116. Slonim, D. K. (2002). From patterns to pathways: gene expression data analysis comes of age. Nat Genet 32 Suppl, 502-8. 156 Southern, E. M. (1975). Detection of specific sequences among DNA fragments separated by gel electrophoresis. J Mol Biol 98, 503-17. Spellman, P. T., Miller, M., Stewart, J., Troup, C., Sarkans, U., Chervitz, S., Bernhart, D., Sherlock, G., Ball, C., Lepage, M., Swiatek, M., Marks, W. L., Goncalves, J., Markel, S., Iordan, D., Shojatalab, M., Pizarro, A., White, J., Hubley, R., Deutsch, E., Senger, M., Aronow, B. J., Robinson, A., Bassett, D., Stoeckert, C. J., Jr., and Brazma, A. (2002). Design and implementation of microarray gene expression markup language (MAGE-ML). Genome Biol 3, 1-9. Spellman, P. T., and Rubin, G. M. (2002). Evidence for large domains of similarly expressed genes in the Drosophila genome. J Biol 1, 5. Stein, L. (2002). Creating a bioinformatics nation. Nature 417, 119-20. Stevens, R., Goble, C., Horrocks, I., and Bechhofer, S. (2002). Building a bioinformatics ontology using OIL. IEEE Trans Inf Technol Biomed 6, 135-41. Stevens, R. D., Robinson, A. J., and Goble, C. A. (2003). myGrid: personalised bioinformatics on the information grid. Bioinformatics 19 Suppl 1, i302-4. Stoeckert, C. J., Jr., Causton, H. C., and Ball, C. A. (2002). Microarray databases: standards and ontologies. Nat Genet 32 Suppl, 469-73. Stuart, J. M., Segal, E., Koller, D., and Kim, S. K. (2003). A gene-coexpression network for global discovery of conserved genetic modules. Science 302, 249-55. Sturn, A., Quackenbush, J., and Trajanoski, Z. (2002). Genesis: cluster analysis of microarray data. Bioinformatics 18, 207-8. Sturtevant, A. H. (1913). The linear arrangement of six sex-linked factors in drosophila, as shown by their mode of association. Journal of Experimental Zoology 14, 43-59. Sujansky, W. (2001). Heterogeneous Database Integration in Biomedicine. Journal of Biomedical Informatics 34, 285-298. Tanabe, L., Scherf, U., Smith, L. H., Lee, J. K., Hunter, L., and Weinstein, J. N. (1999). MedMiner: an Internet text-mining tool for biomedical information, with application to gene expression profiling. Biotechniques 27, 1210-4, 1216-7. Tateno, Y., Saitou, N., Okubo, K., Sugawara, H., and Gojobori, T. (2005). DDBJ in collaboration with mass-sequencing teams on annotation. Nucleic Acids Res 33, 25-8. Tetko, I. V., Brauner, B., Dunger-Kaltenbach, I., Frishman, G., Montrone, C., Fobo, G., Ruepp, A., Antonov, A. V., Surmeli, D., and Mewes, H. W. (2005). MIPS bacterial genomes functional annotation benchmark dataset. Bioinformatics 21, 2520-1. The Arabidopsis genome initiative. (2000). Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 408, 796-815. The C.elegans Sequencing Consortium. (1998). Genome sequence of the nematode C. elegans: a platform for investigating biology. Science 282, 2012-8. The Gene Ontology Consortium. (2000). Gene ontology: tool for the unification of biology. Nat Genet 25, 25-9. The Gene Ontology Consortium. (2001). Creating the gene ontology resource: design and implementation. Genome Res 11, 1425-33. The Gene Ontology Consortium. (2004). The Gene Ontology (GO) database and informatics resource. Nucleic Acids Res 32, 258-61. The yeast genome directory. (1997). The yeast genome directory. Nature 387, 5. Trissl, S., Rother, K., Mueller, H., Steinke, T., Koch, I., Preissner, R., Froemmel, C., and Leser, U. (2005). Columba: an integrated database of proteins, structures, and annotations. BMC Bioinformatics 6, 81. Tusher, V. G., Tibshirani, R., and Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci 98, 5116-21. Velculescu, V. E., Zhang, L., Vogelstein, B., and Kinzler, K. W. (1995). Serial analysis of gene expression. Science 270, 484-7. Venter, J. C., Adams, M. D., Myers, E. W., Li, P. W., and al. (2001). The sequence of the human genome. Science 291, 1304-51. 157 Wain, H. M., Lush, M. J., Ducluzeau, F., Khodiyar, V. K., and Povey, S. (2004). Genew: the Human Gene Nomenclature Database, 2004 updates. Nucleic Acids Res 32, 255-7. Watson, J. D., and Crick, F. H. (1953). Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid. Nature 171, 737-8. Wheeler, D. L., Barrett, T., Benson, D. A., Bryant, S. H., Canese, K., Church, D. M., DiCuccio, M., Edgar, R., Federhen, S., Helmberg, W., Kenton, D. L., Khovayko, O., Lipman, D. J., Madden, T. L., Maglott, D. R., Ostell, J., Pontius, J. U., Pruitt, K. D., Schuler, G. D., Schriml, L. M., Sequeira, E., Sherry, S. T., Sirotkin, K., Starchenko, G., Suzek, T. O., Tatusov, R., Tatusova, T. A., Wagner, L., and Yaschenko, E. (2005). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res 33, 39-45. Wiederhold, G. (1992). Mediators in the Architecture of Future Information Systems. IEEE Computer 25, 38-49. Williams, E. J., and Bowles, D. J. (2004). Coexpression of neighboring genes in the genome of Arabidopsis thaliana. Genome Res 14, 1060-7. Wroe, C. J., Stevens, R., Goble, C. A., and Ashburner, M. (2003). A methodology to migrate the gene ontology to a description logic environment using DAML+OIL. Pac Symp Biocomput, 624-35. Yang, Y. H., Buckley, M. J., Dudoit, S., and Speed, T. P. (2000). Comparison of methods for image analysis on cDNA microarray analysis. Report of University of California, Department of Statistics, Berkeley. Zdobnov, E. M., Lopez, R., Apweiler, R., and Etzold, T. (2002). The EBI SRS server--recent developments. Bioinformatics 18, 368-73. Zeeberg, B. R., Qin, H., Narasimhan, S., Sunshine, M., Cao, H., Kane, D. W., Reimers, M., Stephens, R., Bryant, D., Burt, S. K., Elnekave, E., Hari, D. M., Wynn, T. A., Cunningham-Rundles, C., Stewart, D. M., Nelson, D., and Weinstein, J. N. (2005). High-Throughput GoMiner, an 'industrial-strength' integrative Gene Ontology tool for interpretation of multiple-microarray experiments, with application to studies of Common Variable Immune Deficiency (CVID). BMC Bioinformatics 6, 168. 158 RÉFÉRENCES INTERNET RÉFÉRENCES INTERNET INSTITUTIONS / CONSORTIUMS / CENTRES DE RESSOURCES / SOCIÉTÉS Définition Department of Energy Office of Science URL http://www.doegenomes.org/ Pages page 2 Human Genome Organization (HUGO) http://www.gene.ucl.ac.uk/hugo/ page 3 Human Genome Project (HGP) http://www.ornl.gov/sci/techresources/Human_Genome/home.sht page 3 Department Of Energy (DOE) http://www.energy.gov/engine/content.do page 3 National Institutes of Health (NIH) http://www.nih.gov/ page 3 The Institute for Genome Research (TIGR) http://www.tigr.org/ page 3 National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ page 4 European Molecular Biology Laboratory (EMBL) http://www.embl-heidelberg.de/ page 8 National Institute of Health (NIH) http://www.nih.gov/ page 8 National Biomedical Research Foundation (NBRF) http://pir.georgetown.edu/nbrf/ page 8 Swiss Institute of bioinformatics (SIB) http://www.isb-sib.ch/ page 8 European Bioinformatics Institute (EBI) http://www.ebi.ac.uk/ page 8 World Wide Web Consortium (W3C) http://www.w3.org/ page 16 National Library of Medicine (NLM) http://www.nlm.nih.gov/ page 18 HUGO Gene Nomenclature Committee (HGNC) http://www.gene.ucl.ac.uk/nomenclature/ page 22 LION Bioscience AG http://www.lionbioscience.com/ page 39 Affymetrix http://www.affymetrix.com/index.affx page 64 Axon, Inc. http://www.axon.com/ page 65 BioDiscovery, Inc. http://www.biodiscovery.com/ page 65 PerkinElmer, Inc. http://www.perkinelmer.com/ page 65 Rosetta Biosoftware http://www.rosettabio.com/default.htm page 67 Microarray Gene Expression Data (MGED) http://www.mged.org/ page 67 MGED Society Ontology Working Group http://mged.sourceforge.net/ontologies/index.php page 68 Molmine http://www.molmine.com/ page 69 PubGene Inc. http://www.pubgene.com/ page 70 Versant http://www.versant.com/ page 73 ONTOLOGIES / TERMINOLOGIES Définition Unified Medical Language System (UMLS) URL http://www.nlm.nih.gov/research/umls/ Pages page 18 Gene Ontology (GO) http://www.geneontology.org/ page 19 Gene Ontology Molecular Function http://www.geneontology.org/GO.doc.shtml#molecular_function page 19 Gene Ontology Biological Process http://www.geneontology.org/GO.doc.shtml#biological_process page 19 Gene Ontology Cellular Component http://www.geneontology.org/GO.doc.shtml#cellular_component page 19 Gene Ontology Annotation (GOA) http://www.ebi.ac.uk/GOA/ page 21 Le Metathesaurus de l'UMLS http://www.nlm.nih.gov/pubs/factsheets/umlsmeta.html page 22 Medical Subject Headings (MeSH) http://www.nlm.nih.gov/mesh/meshhome.html page 22 Systematized Nomenclature of Medicine (SNOMED) http://www.snomed.org/ page 22 Le lexique médical Specialist de l'UMLS http://www.nlm.nih.gov/pubs/factsheets/umlslex.html page 23 Le réseau sémantique de l'UMLS http://www.nlm.nih.gov/pubs/factsheets/umlssemn.html page 23 Open Biomedical Ontologies (OBO) http://obo.sourceforge.net/ page 24 159 RÉFÉRENCES INTERNET BANQUES DE DONNÉES ET PORTAILS WEB Définition Protein structure DataBank (PDB) URL http://www.rcsb.org/pdb Pages page 7 GenBank http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide page 8 DNA Data Bank (DDBJ) http://www.ddbj.nig.ac.jp/ Protein Information Resource-International Protein Sequence http://pir.georgetown.edu/pirwww/search/textpsd.shtml page 8 page 8 Swiss-Prot http://www.expasy.org/sprot/ page 8 Universal Protein Resource (UniProt) http://www.expasy.uniprot.org/ page 8 ArrayExpress http://www.ebi.ac.uk/arrayexpress/index.html page 12 Mouse Genome Database (MGD) http://www.informatics.jax.org/ page 15 Gene Expression Omnibus (GEO) http://www.ncbi.nlm.nih.gov/geo/ page 17 PANTHER Pathway https://panther.appliedbiosystems.com/pathway/ page 18 FlyBase http://flybase.bio.indiana.edu/ page 19 Saccharomyces Genome Database (SGD) http://www.yeastgenome.org/ page 19 Online Mendelian Inheritance in Man (OMIM) http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM page 22 Genew http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl page 26 Portail Entrez http://www.ncbi.nlm.nih.gov/Entrez page 32 Expert Protein Analysis System ExPASy http://www.expasy.org/ page 32 GeneCards http://www.genecards.org/ page 32 Kyoto Encyclopedia of Genes and Genomes (KEGG) http://www.genome.ad.jp/kegg/ page 35 Encyclopedia of Escherichia coli (EcoCyc) http://ecocyc.org/ page 35 Expressed Sequence Tags database (dbEST) http://www.ncbi.nlm.nih.gov/dbEST/ page 35 human Genome DataBase (GDB) http://gdbwww.gdb.org/ page 35 Sequence Retrieval System (SRS) http://srs.ebi.ac.uk/ page 35 ENZYME http://www.expasy.org/enzyme/ page 58 SCOP http://scop.mrc-lmb.cam.ac.uk/scop/ page 58 CATH http://www.biochem.ucl.ac.uk/bsm/cath/cath.html page 58 NCBI Taxonomy http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Taxonomy page 58 Center for Information Biology gene EXpression database http://cibex.nig.ac.jp/index.jsp page 68 MIPS http://mips.gsf.de/ page 72 LIGAND http://www.genome.ad.jp/ligand/ page 73 OUTILS Définition Swiss-Model URL http://swissmodel.expasy.org//SWISS-MODEL.html Pages page 7 Geno3D http://geno3d-pbil.ibcp.fr/ page 7 MicroArray Data Suites of Computed Analysis (MADSCAN) http://cardioserve.nantes.inserm.fr/mad/madscan/ page 66 ArrayDB http://genome.nhgri.nih.gov/arraydb/ page 67 BioArray Software Environment (BASE) http://base.thep.lu.se/ page 67 Stanford Microarray Database (SMD) http://genome-www5.stanford.edu/ page 67 Genesis http://genome.tugraz.at/Software/ page 69 BioConductor http://www.bioconductor.org/ page 69 Environnement R http://www.r-project.org/ page 69 GOMiner http://discover.nci.nih.gov/gominer/ page 70 OntoExpress http://vortex.cs.wayne.edu/projects.htm page 70 FatiGO http://www.fatigo.org/ page 70 PubGene http://www.pubgene.org/ page 70 160 RÉFÉRENCES INTERNET LANGAGES Définition URL MicroArray and Gene Expression-Markup Language (MAGE- http://www.mged.org/Workgroups/MAGE/mage-ml.html Pages page 17 Systems Biology Markup Language (SBML) http://sbml.org/index.psp page 17 Bioinformatic Sequence Markup Language (BSML) Web Ontology Language (OWL) http://www.bsml.org/ http://www.w3.org/TR/owl-features/ page 24 page 17 ENTREPÔTS DE DONNEES Définition Entrepôt de données GUS URL http://www.allgenes.org/ Entrepôt de données Atlas http://bioinformatics.ubc.ca/atlas/ page 57 L’entrepôt de données Columba http://www.columba-db.de/ page 59 L’entrepôt de données EnsMart http://www.ensembl.org/Multi/martview page 59 Genome Information Management System (GIMS) http://www.cs.man.ac.uk/img/gims/index.html page 72 Multi-Conditional Hybridization Intensity Processing System http://www.dkfz-heidelberg.de/mchips/ page 73 GenMapper http://sun1.izbi.uni-leipzig.de:8080/GenMapper/ page 73 GeWare https://ducati.izbi.uni-leipzig.de/Geware page 73 161 Pages page 57 LISTE DE PUBLICATIONS PERSONNELLES LISTE DES PUBLICATIONS PERSONNELLES PUBLICATIONS Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Détivaud, L., Zindy, P., Leroyer, P., Guisle, I., Duval, H., Gripon, P., Théret, N., Boudjema, K., Guguen-Guillouzo, C., Brissot, P., Léger, J. and Loréal, O. (2005) Hepatocyte iron loading capacity is associated to differentiation and repression of motility in the HepaRG cell line. Genomics, In press. Guérin, E., Marquet, G., Burgun, A., Loréal, O., Berti-Equille, L., Leser, U. and Moussouni, F. (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW. Lecture Notes in Bioinformatics, 3615, 158-174. Marquet, G., Burgun, A., Moussouni, F., Guérin, E., Le Duff, F. and Loréal, O. (2003) BioMeKE : an ontology-based biomedical knowledge extraction system devoted to transcriptome analysis. Stud Health Technol Inform, 95, 80-85. Guérin, E., Moussouni, F. (2001) Transcriptome hépatique : modélisation par une approche UML. Cahiers du numérique, L’information médicale numérique, Editions Hermès, 2, n°2, 177-196. EN SOUMISSION Marquet, G., Guérin, E., Loréal, O. and Burgun, A. (2005) BioMeKE : a UMLS-based system useful for biomedical annotation of genes. Guérin, E., Chabalier, J., Troadec, MB., Marquet, G., Burgun, A., Guguen-Guillouzo, C., Loréal, O. and Moussouni, F. (2005) Data warehouse approach to extract knowledge from microarray data. COMMUNICATIONS ORALES Guérin, E., Marquet, G., Burgun, A., Loréal, O., Berti-Equille, L., Leser, U. and Moussouni, F. Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW. 2nd International Workshop on Data Integration in the Life Science. San Diego, California, USA, 20-22 July 2005. Guérin, E., Chabalier, J., Marquet, G., Burgun, A., Loréal, O. and Moussouni, F. GEDAW : un environnement intégré pour l’analyse du transcriptome. Réunion satellite Ontologie, Grille et Intégration Sémantique pour la Biologie de JOBIM. Lyon, France, 4 Juillet 2005. Marquet, G., Guérin, E., Moussouni, F., Loréal, O. and Burgun A. UMLS-based biomedical annotation of functional genomic data. JOBIM. Lyon, France, 6-8 Juillet 2005.… Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Zindy, P., Leroyer, P., Guisle, I., Duval, H., Gripon, P., Théret, N., Guguen-Guillouzo, C., Brissot, P., Léger, J., Loréal, O. Hepatocyte iron loading capacity is associated to differentiation and repression of motility in the HepaRG cell line. Colloque de Génomique Fonctionnelle du foie. Rouen, France, 18-20 Mai 2005. 162 Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Zindy, P., Leroyer, P., Guisle, I., Duval, H., Gripon, P., Théret, N., Guguen-Guillouzo, C., Brissot, P., Léger, J., Loréal, O. Hepatocyte iron loading capacity is associated to differentiation and repression of motility in the HepaRG cell line. 39th annual scientific Meeting of the European Society for Clinical Investigation. Athens, Greece, 6-9 April 2005. Troadec MB, Glaise D, Lamirault G, Le Cunff M, Guérin E, Le Meur N, Zindy P, Leroyer P, Guisle I, Duval H, Gripon P, Théret N, Guguen-Guillouzo C, Brissot P, Léger JJ, Loréal O. Hepatocyte differentiation and iron storage capacity: A study of gene expression modulation through a transcriptomic approach on the human liver HepaRG cell line. European Iron Club. Rennes, France, 8-11 Septembre 2004. Guérin, E., Moussouni, F. GEDAW : un environnement intégré pour l’analyse du transcriptome. OuestChips. Rennes, France, 31 Mai 2005. Moussouni, F., Burgun, A., Le Duff, F., Guérin, E. and Loréal, O. Respective contributions of MIAME, GeneOntology and UMLS for transcriptome analysis. From genotype to phenotype: Linking Bioinformatics and Medical Informatics Ontologies. Manchester, UK, 23-24 March 2002. Guérin, E., Moussouni, F., Courselaud, B. and Loréal, O. Modélisation d’un entrepôt de données dédié à l’analyse du transcriptome hépatique. JOBIM. Saint Malo, France, 10-12 Mai 2002. POSTERS Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Detiavaud, L., Zindy, P., Leroyer, P., Guisle, I., Duval, H., Gripon, P., Théret, N., Boudjema, K., Guguen-Guillouzo, C., Brissot, P., Léger, J., Loréal O. Human Hepatocyte Iron Loading Capacity Is Associated To Differentiation Status And Repression Of Motility In The HepaRG Cell Line. Bioiron. Prague, Czech Republic, 22-27 May 2005. Chabalier, J., Guérin, E., Bedrine-Ferran, H., Marquet, G. and Burgun, A. A transversal approach for transcriptomic data analysis based on an object environment. ECCB. Madrid, Spain, 28 Sept-1 Oct 2005. Guérin, E., Marquet, G., Burgun, A., Loréal, O. and Moussounni F. GEDAW : Un environnement intégré pour l'analyse du transcriptome. JOBIM. Lyon, France, 6-8 Juillet 2005.… Guérin, E., Marquet, G., Moussouni, F., Burgun, A., Mougin, F. and Loréal, O. Deployment of heterogeneous resources of genomic, biological and medical knowledge on the liver to build a datawarehouse. ECCB. Paris, France, 27-30 Septembre 2003. Marquet, G., Guérin, E., Burgun, A., Moussouni, F., Mougin, F. and Loréal, O. Biological and medical ontology-based annotation of genes in the context of transcriptome analysis. ECCB. Paris, France, 27-30 Septembre 2003. Mougin, F., Marquet, G., Burgun, A., Guérin, E., Moussouni, F. and Loréal, O. Use of metadata for biomedical heterogeneous data sources integration. ECCB. Paris, France, 27-30 Septembre 2003. Marquet, G., Burgun, A., Moussouni, F., Guérin, E. and Loréal, O. An integrative approach of biomedical knowledge via ontologies for liver transcriptome analysis. Workshop Ontology in biology. Heidelberg, Germany, 7-8 November 2002. 163 Intégration de données pour l’analyse de transcriptome : Mise en œuvre par GEDAW (Gene Expression DAta Warehouse) A l’ère de la post-génomique, l’intégration de données est devenue essentielle à l’exploitation des larges volumes de données disponibles sur le Web. Ces données sont diverses, réparties dans de nombreuses sources dynamiques et caractérisées par une grande hétérogénéité tant structurale que sémantique. Si depuis quelques années des efforts ont été fournis pour faciliter leur interopérabilité, l’intégration de ces données reste complexe. D’autre part, l’interprétation des données issues des puces à ADN requiert non seulement une confrontation de données complémentaires sur les gènes, mais aussi des moyens de restitution et d’analyse adaptés à de grandes quantités de données. Dans ce contexte, nous avons développé une approche d’intégration dédiée à l’analyse de transcriptome. GEDAW est un entrepôt de données orienté objet qui intègre une variété de sources et de standards des domaines de la génomique, de la biologie et de la médecine. L’entrepôt supporte à la fois des processus d’intégration automatiques assurant une transformation et une réconciliation forte des données, mais également des analyses sur les données intégrées pour l’extraction de connaissances. GEDAW a été utilisé dans le cadre de l’intégration et de l’analyse de données issues de l’étude du transcriptome hépatique. Il a notamment permis de mettre en évidence de nouvelles associations gènes - pathologies hépatiques. Mots clés : intégration de données, entrepôt de données, post-génomique, transcriptome. Data integration devoted to transcriptome analysis : Implementation with GEDAW (Gene Expression DAta Warehouse) At the era of post-genomic, data integration has become essential to exploit the broad volumes of data available on the Web. These data are various, distributed in many dynamic sources and characterized by a great structural and semantic heterogeneity. Even though efforts have been made to facilitate their interoperability, data integration is still a complex task. In addition, interpretation of microarray data requires a confrontation of complementary data on genes as well as restitution and analysis means adapted to large quantities of data. In this context, we developed an integration approach devoted to transcriptome analysis. GEDAW is an object oriented data warehouse that integrates a variety of sources and standards in the fields of genomics, biology and medicine. The warehouse supports at the same time automatic processes of integration ensuring a transformation and a strong reconciliation of the data, but also the analyses on the integrated data for knowledge extraction. GEDAW has been used within the framework of integration and analysis of data resulting from the study of the hepatic transcriptome. It allowed to highlight new associations genes hepatic diseases. Keywords : data integration, data warehouse, post-genomic, transcriptome.