Intégration de Données pour l`Analyse du Transcriptome

Transcription

Intégration de Données pour l`Analyse du Transcriptome
N° Ordre
de la Thèse
3282
THÈSE
présentée
DEVANT L’UNIVERSITÉ DE RENNES 1
pour obtenir
le grade de : DOCTEUR DE L’UNIVERSITÉ DE RENNES 1
Mention : BIOLOGIE
PAR
Emilie GUÉRIN
Équipe d’accueil :
INSERM Unité 522, Rennes
École Doctorale :
Vie-Agronomie-Santé
Composante universitaire :
Université de Rennes 1, S.V.E.
TITRE DE LA THÈSE :
INTÉGRATION DE DONNÉES POUR L’ANALYSE DE
TRANSCRIPTOME :
MISE EN ŒUVRE PAR L’ENTREPÔT GEDAW
(GENE EXPRESSION DATA WAREHOUSE)
SOUTENUE LE 19 DÉCEMBRE 2005 devant la commission d’Examen
COMPOSITION DU JURY :
M P. BESSIÈRES
Mme M.D. DEVIGNES
M J. LÉGER
Mme F. MOUSSOUNI
M D. LAVENIER
Mme C. GUILLOUZO
Directeur de Recherches à l’INRA, Jouy en Josas
Chargée de Recherches au LORIA, Nancy
Directeur de Recherches à l’INSERM Unité 533, Nantes
Maître de Conférences à l’Université de Rennes 1
Directeur de Recherches à l’IRISA, Rennes
Directeur de Recherches à l’INSERM Unité 522, Rennes
Rapporteur
Rapporteur
Examinateur
Examinateur
Co-Directeur de thèse
Directeur de thèse
REMERCIEMENTS
Je tiens à exprimer ma reconnaissance à Madame Christiane Guillouzo pour m’avoir
accueillie dans son laboratoire et avoir accepté de diriger mes travaux durant ces quatre
années de thèse.
Je remercie également Monsieur Dominique Lavenier pour avoir accepté de coencadrer cette thèse et pour m’avoir fait part de ses remarques pour mener à bien mes
recherches.
Je souhaite exprimer ma gratitude à Monsieur Pierre Brissot pour m’avoir accueillie
si chaleureusement dans son équipe de recherche.
Je remercie très sincèrement Madame Marie-Dominique Devignes et Monsieur
Philippe Bessières pour avoir accepté de juger mon travail en qualité de rapporteurs. Je
remercie également Monsieur Jean Léger d’avoir accepter d’examiner mon travail.
J’exprime toute ma profonde et sincère reconnaissance à Olivier Loréal. Je te dois
beaucoup, en particulier mon entrée à l’INSERM U522 et ton investissement remarquable
dans mon travail. Merci pour ton soutien régulier, tes compétences, ainsi que ton intérêt pour
la bioinformatique qui auront fortement contribué à l’aboutissement de ma thèse.
Je remercie Fouzia Moussouni pour avoir confié GEDAW à une apprentie bioinformaticienne. Merci de m’avoir si bien initiée à l’informatique et de m’avoir toujours fait
confiance.
Merci à tous les membres de l’INSERM U522 pour leur accueil et leur sympathie. Je
remercie tout particulièrement mes collègues biologistes du groupe « Fer Foie », pour leur
écoute attentive mais quelques fois perplexe du vendredi matin. Merci à Marie-Bérengère
Troadec pour son aide et ses conseils tout au long de ce travail.
Merci à Claude Boisseau et Christian Delamarche avec qui j’ai eu l’honneur de
travailler dans le cadre de mes enseignements dispensés à l’Université de Rennes 1. Merci
de m’avoir si bien accueillie dans vos équipes et de m’avoir donné goût à l’enseignement.
Merci à Anita Burgun pour nos discussions et nos collaborations bioinfo-médicales.
Merci aux filles, Gwenaëlle Marquet, Julie chabalier et Fleur Mougin pour leur aide et leur
précieux soutien amical.
A mes compagnons de thèse devenus amis, Brice, Fabrice et Virginie. Je me
souviendrai des pauses café mémorables, pas toujours scientifiques d’ailleurs, et de nos
nombreuses soirées. Je nous souhaite encore plein de bons moments à partager, en
compagnie de Céline, Mickaëlle et Faustine.
Merci à mes amis de toujours, Isa, Liz, Sim, Greg et So, Raf, Matthieu, Alex et
Fanny. Vos séjours bretons et mes retours normands auront été oh combien réconfortants.
Merci à Michel, Christine, Galou et Sara pour votre soutien permanent.
A mes parents, merci de m’avoir encouragée à faire des études, je crois que c’est
chose faite. Merci à vous ainsi qu’à François et Charlotte pour le réconfort familial
permanent que vous m’apportez, et ce malgré la distance.
A Yohann, d’être là tout simplement. Merci pour ton amour, ton soutien et ta confiance
qui m’ont rassuré et permis d’avancer durant ces quatre années de thèse. Ton attention et ta
patience au cours de ces derniers mois auront été remarquables.
SOMMAIRE
INTRODUCTION
I.
DE L’AVÈNEMENT DE LA POST-GÉNOMIQUE À L’EXPLOSION DES SOURCES ................... 1
1.
DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE ....................................................................... 1
1.1.
Naissance de la génomique .............................................................................................. 1
1.2.
Séquençage des génomes ................................................................................................ 2
1.3.
Prochain enjeu : donner un sens au génome.................................................................... 3
1.3.1. Identifier les gènes ........................................................................................................ 4
1.3.2. Rechercher la fonction des gènes................................................................................. 5
1.3.3. Besoin de la post-génomique........................................................................................ 5
2.
LA PROFUSION DES SOURCES DE DONNÉES .................................................................... 8
2.1.
Naissance des banques généralistes................................................................................ 8
2.2.
Émergence des banques spécialisées .............................................................................. 9
II.
VERS L’INTÉGRATION DES SOURCES DE DONNÉES ........................................................... 11
1.
2.
DES DONNÉES AUX CONNAISSANCES............................................................................... 11
LES DÉFIS DE L’INTÉGRATION DE DONNÉES BIOLOGIQUES ......................................... 12
2.1.
Diversité des données biologiques à intégrer.................................................................. 12
2.2.
Autonomie et hétérogénéité des sources de données .................................................... 13
2.2.1. Autonomie des sources............................................................................................... 13
2.2.2. Hétérogénéité des sources ......................................................................................... 13
3.
ÉLÉMENTS DE STANDARDISATION..................................................................................... 16
3.1.
XML.................................................................................................................................. 16
3.1.1. Définition...................................................................................................................... 16
3.1.2. Utilisation de XML en bioinformatique......................................................................... 17
3.2.
Ontologies........................................................................................................................ 18
3.2.1. Définitions d’Ontologie ................................................................................................ 18
3.2.2. Ontologies dans le domaine biomédical ..................................................................... 18
3.3.
Nomenclature fournie par le HGNC................................................................................. 26
III.
LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE ................................................. 28
1.
POINTS DE VARIATION ENTRE LES APPROCHES D’INTÉGRATION................................ 28
1.1.
Formats des données intégrées : structurées, semi-structurées ou non-structurées ..... 28
1.2.
Intégration serrée versus intégration lâche ..................................................................... 29
1.2.1. L’intégration serrée...................................................................................................... 29
1.2.2. L’intégration lâche ....................................................................................................... 29
1.3.
Le modèle de données du système d’intégration ............................................................ 30
1.4.
Les types d’intégration sémantique ................................................................................. 30
1.5.
Le niveau de transparence .............................................................................................. 30
1.6.
Ascendante (Bottom-up) versus descendante (top-down) .............................................. 31
1.7.
Intégration virtuelle versus matérialisée .......................................................................... 31
1.8.
Accès aux données ......................................................................................................... 31
2.
LES APPROCHES EN BIOINFORMATIQUE .......................................................................... 32
2.1.
L’approche non matérialisée............................................................................................ 32
2.1.1. La médiation ................................................................................................................ 32
2.1.2. L’approche navigationnelle.......................................................................................... 37
2.2.
L’approche matérialisée : entrepôt de données .............................................................. 44
2.2.1. Principe de l’approche entrepôt de données............................................................... 44
2.2.2. Les entrepôts de données en bioinformatique ............................................................ 55
3.
DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE............. 59
IV.
1.
INTÉGRATION POUR L’ANALYSE DU TRANSCRIPTOME....................................................... 62
PUCES À ADN POUR L’ANALYSE DE TRANSCRIPTOME................................................... 62
1.1.
Définition des puces à ADN............................................................................................. 62
1.2.
Principe des puces à ADN pour l’étude du transcriptome............................................... 63
2.
1.3.
Technologies des puces à ADN ...................................................................................... 64
ÉTAPES REQUISES POUR L’ANALYSE DES DONNÉES .................................................... 64
2.1.
Acquisition des données d’expression ............................................................................ 65
2.1.1. Traitement des images par logiciel d’analyse d’images.............................................. 65
2.1.2. Traitement des données primaires.............................................................................. 65
2.1.3. Mise en évidence de gènes différentiellement exprimés ............................................ 66
2.2.
Gestion et partage des données...................................................................................... 67
2.2.1. Gestion des données .................................................................................................. 67
2.2.2. Partage des données .................................................................................................. 67
2.3.
Analyse des données d’expression ................................................................................. 69
2.3.1. Classification des données d’expression .................................................................... 69
2.3.2. Extraction de connaissance ........................................................................................ 70
CADRE ET BUTS DU TRAVAIL
Page 76-77
BIOMEKE
I.
BIOMEKE POUR L’ANNOTATION BIOMÉDICALE DE GÈNES ................................................. 78
1.
INTRODUCTION ...................................................................................................................... 78
2.
MISE EN ŒUVRE ET DISCUSSION ....................................................................................... 78
ARTICLE 1………………………………………………………………………………………………………79
BioMeKE: a UMLS-based system useful for biomedical annotation of genes
L'ENTREPÔT GEDAW
II.
INTÉGRATION DE DONNÉES DANS L’ENTREPÔT GEDAW ................................................... 89
1.
INTRODUCTION ...................................................................................................................... 89
2.
MISE EN ŒUVRE ET DISCUSSION ....................................................................................... 89
ARTICLE 2…...…………………………………………...……………………………………….……………91
Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW
III.
EXTRACTION DE CONNAISSANCES À PARTIR DE GEDAW................................................ 107
1.
INTRODUCTION .................................................................................................................... 107
2.
MISE EN ŒUVRE ET DISCUSSION ..................................................................................... 107
ARTICLE 3……………………………………………………………………………………..…...…………109
Data warehouse approach to extract knowledge from microarray data
DISCUSSION
Pages 136-142
GLOSSAIRE
Pages 143-148
BIBLIOGRAPHIE
Pages 149-158
RÉFÉRENCES INTERNET
Pages 159-161
LISTE DES PUBLICATIONS PERSONNELLES
Pages 162-163
INDEX DES FIGURES ET DES TABLES
FIGURES
Figure 1…………….…….…………….……………………………………………………… page 2
La double hélice d’ADN
Figure 2…………...……………………………….……………………………………………page 4
Objectif de la détection de gènes
Figure 3………………….…………………………………………….………………………..page 6
Le fonctionnement cellulaire : de l’ADN aux protéines
Figure 4………………….……………………………………………………………….……..page 9
Croissance de la banque de données GenBank de 1982 à 2004
Figure 5……….…………..…………………………………………………………………...page 20
Extrait du graphe orienté acyclique de Gene Ontology
Figure 6…….………..……………………………………………………………………….. page 22
Domaines biomédicaux intégrés dans l’UMLS
Figure 7…...………………………………………………………………………………….. page 23
Représentation schématique de la transferrine dans l’UMLS
Figure 8……...……………………………………………………………………………….. page 27
Exemple de résultat de requête effectuée sur Genew
Figure 9…………...………………………………………………………………………….. page 33
Architecture d’un système médiateur
Figure 10………...…………………………………………………………………………….page 34
Les approches GAV (Global As View) et LAV (Local As View)
Figure 11………...………………………………………………………………………….…page 37
Connection entre deux sources via une référence
Figure 12……………………………...…………………………………………………….…page 38
Graphe de liens entre les sources du NCBI
Figure 13……………………………...…………………………………………………….…page 39
Les cinq chemins (C1 à C5) depuis OMIM jusque PubMed en utilisant le graphe de la figure 13
Figure 14…………………………...……………………………………………………….…page 41
Exemple de schéma de médiation
Figure 15…………………………………………………………………………...………… page 43
Niveaux de représentation dans BioNavigation et correspondances entre entités biologiques et
sources de données
Figure 16……………………………...…………………………………………….…………page 46
Architecture d’un entrepôt de données
Figure 17………………………………………………………………………………...…… page 47
Architecture des données dans un entrepôt
Figure 18………………………………………………………………………………………page 48
Exemple de cube de données
Figure 19………………………………………...………………………….…………………page 49
Les différents schémas pour la représentation de données multidimensionnelles
Figure 20………………………………………………………………………………………page 51
La rotation
Figure 21…………………………….. ………………………………………….……………page 51
L’extraction
Figure 22……...……………………………………………………………….………………page 52
Application des opérations roll-up et drill-down sur la dimension Protéine
Figure 23………...………………………………………………………….…………………page 54
Vue opérationnelle des composants utilisés pour la construction d’entrepôts de données
Figure 24………...…………………………………………………………………….………page 58
Schéma étoile de Columba
Figure 25………...………………………………………………………………….…………page 63
Principe de l’étude de transcriptome par la technologie des puces à ADN
Figure 26…………...…………………………………………………………….……………page 68
Relations entre les projets MIAME, MAGE et MGED Ontology
TABLES
Table 1………………………………………………………………….………………...……page 10
Catégories de banques de données
Table 2…………….……………………………………………………………………...……page 14
Conflit nom d’attribut valeur d’attribut
Table 3………………………………………………………….………………………...……page 21
Origine de l’annotation des produits de gènes
Table 4………………………………………………………….………………………...……page 25
Liste des ontologies biomédicales OBO
Table 5………………………………………………….………………………………...……page 60
Table récapitulative des systèmes d’intégration décrits en section III.2 et de leurs points de variation
ABRÉVIATIONS
ADN: Acide DésoxyriboNucléique
ADNc: Acide DésoxyriboNucléique complémentaire
API: Application Programming Interface
ARN: Acide RiboNucléique
ARNm: Acide RiboNucléique messager
ASN.1: Abstract Syntax Notation 1
BACIIS: Biological and Chemical Information Integration System
BASE: BioArray Software Environment
BLAST: Basic Local Alignment Search Tool
BSML: Bioinformatic Sequence Markup Language
CL: Cell type ontology
CPL: Collection Programming Language
CUI: Concept Unique Identifier
DAG: Directed Acyclic Graph
dbEST: Expressed Sequence Tags database
DDBJ: DNA Data Bank of Japan
DTD: Document Type Definition
EBI: European Bioinformatics Institute
EcoCyc: Encyclopedia of Escherichia coli
EMBL: European Molecular Biology Laboratory
ExPASy: Expert Protein Analysis System
FDBS: Federated DataBases System
GAV: Global As View
GDB: human Genome DataBase
GEO: Gene Expression Omnibus
GNU: GNU's Not UNIX
GO: Gene Ontology
GOA: Gene Ontology Annotation
GONG : Gene Ontology Next Generation
GUS: Genomics Unified Schema
HGNC: HUGO Gene Nomenclature Committee
HOLAP : Hybrid On Line Analytical Processing
HPG: Human Genome Project
HTML: HyperText Markup Language
HUGO: Human Genome Organisation
ICARUS: Interpreter of Commands And Recursive Syntax
K2MDL : K2 Mediator Definition Language
KEGG: Kyoto Encyclopedia of Genes and Genomes
KEGG: Kyoto Encyclopedia of Genes and Genomes
LAV: Local As View
MAGE-ML: MicroArray and Gene Expression-Markup Language
MeSH: Medical Subject Headings
MGD :Mouse Genome Database
MGED: Microarray Gene Expression Data
MGI: Mouse Genome Informatics
MOLAP: Multidimensionnal On Line Analytical Processing
NCBI : National Center for Biotechnology Information
NIH: National Institutes of Health
NLM: National Library of Medicine
OBO : Open Biomedical Ontologies
ODL : Object Definition Language
OLAP: On Line Analytical Processing
OLTP: On Line Transactionnel Processing
OMIM: Online Mendelian Inheritance in Man
OOLAP: Object On Line Analytical Processing
OQL: Object Query Language
OWL : Web Ontology Language
PCA: Principal Component Analysis
PCR: Polymerase Chain Reaction
PDB : Protein DataBank
RDF: Resource Description Framework
RDFS: Resource Description Framework Schema
RMN: Résonance Magnétique Nucléaire)
ROLAP: Relational On Line Analytical Processing
SAGE: Serial Analysis of Gene Expression
SBML: Systems Biology Markup Language
SCOP : Structural Classification Of Proteins
SGBD: Système de Gestion de Base de Données
SGD: Saccharomyces Genome Database
SMD: Stanford Microarray Database
SNOMED : Systematized Nomenclature of Medicine
SO: Sequence Ontology
SOM: Self Organizing Map
SQL: Structured Query Language
SRS: Sequence Retrieval System
TaO: TAMBIS Ontology
UBC: University of British Columbia
UBiC: University of British Columbia Bioinformatics Center
UMLS: Unified Medical Language System
UTR: Untranslated Terminal Region
UWDA : UW Digital Anatomist
W3C: World Wide Web Consortium
XML: eXtensible Markup Language
INTRODUCTION
I. DE L’AVÈNEMENT DE LA POSTGÉNOMIQUE À L’EXPLOSION DES
SOURCES
1. DE LA GÉNÉTIQUE A LA POST-GÉNOMIQUE
1.1.
NAISSANCE DE LA GÉNOMIQUE
La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de
l'hérédité. Il publie ses résultats en 1866, mais ils passent alors à peu près inaperçus. Leur
redécouverte n'aura lieu qu'en 1900 (Fincham, 1990). Ce sont les travaux de Morgan, sur la
drosophile, qui conduisent au développement de la théorie chromosomique de l'hérédité
(Morgan et al., 1915). Les gènes sont alors localisés sur les chromosomes, et avec
Sturtevant, ils pourront même y être ordonnés, constituant les premières cartes génétiques
(Sturtevant, 1913). C'est encore dans le laboratoire de Morgan que sont développées les
procédures de mutagenèse expérimentales par Muller (Muller, 1927).
Si la présence des gènes sur les chromosomes est alors établie, rien n'est connu de la nature
des gènes ou de leur mode d'action. La première relation entre un gène et un enzyme est
établie en 1902 par Garrod, à partir d'une observation portant sur une maladie génétique
humaine : l’alcaptonurie (anomalie d'excrétion, affectant le métabolisme de la tyrosine et de la
phénylalanine ; OMIM 203500) (Garrod, 1923). Beadle et Tatum approfondissent cette
relation sur un système accessible à l'expérimentation, le champignon Neurospora crassa
(Beadle and Tatum, 1941). L'ensemble de ces travaux aboutissent finalement à la conclusion
que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un
gène différent. Le premier phénomène qui allait permettre de progresser dans l'identification
du support de l'hérédité est celui de la transformation bactérienne, rapporté en 1928 par
l'anglais Griffith. Ce phénomène représente alors un test d'activité biologique, grâce auquel il
est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit
par Griffith lui même, mais par Avery qui l'utilise pour élucider la nature biochimique du
matériel génétique : il s'agit de l'ADN (Acide DésoxyriboNucléique) (Avery et al., 1944). Cette
découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux
autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff (Chargaff,
1950) ou de Hershey (Hershey and Chase, 1952). L'acceptation définitive ne viendra qu'avec
l'élucidation de la structure de l'ADN par Watson et Crick en 1953 (Watson and Crick, 1953)
(Figure 1).
1
Figure 1 - La double hélice d’ADN (extrait de U.S. Department of Energy Office of Science1)
La double hélice d’ADN se compose d’une suite de nucléotides*. Chaque nucléotide est dénommé
par l’initiale du nom de la base azotée spécifique qui le compose, et l’information portée par le
génome est contenue dans ce long texte – près de 4 milliards pour l’homme –, écrit dans l’alphabet de
4 lettres A (Adénine), C (Cytosine), G (Guanine) et T (Thymine).
Depuis cette découverte, puis celle du mécanisme de la régulation génétique, énoncée
initialement par Crick et révélée par Jacques Monod, François Jacob et André Wolf en 1965,
un virage s’est opéré en biologie. Savoir que l’information génétique de tout organisme vivant
est contenue dans une séquence nucléique, l’ADN, ouvre les portes de nombreuses
recherches en génétique.
Depuis les dernières trente années, avec l’essor du génie génétique, ou ensemble de
techniques de la biologie moléculaire visant à étudier les gènes et leur régulation, la
génétique s’est étendue à la génomique. Ainsi, les avancées en biologie moléculaire ont
notamment permis d’isoler, de cloner et de séquencer les gènes.
1.2.
SÉQUENÇAGE DES GÉNOMES
Le séquençage des acides nucléiques débute en 1977 avec l’apparition de deux techniques
que sont la méthode enzymatique de Frédérick Sanger (Sanger et al., 1977) et l’approche
chimique de Walter Gilbert et Allan Maxam (Maxam and Gilbert, 1977). La première, grâce
aux connaissances qui seront acquises sur les enzymes, va prendre le pas sur la seconde
(trop toxique). En 1984, la mise au point de la technique d’amplification génétique ou PCR*
(Polymerase Chain Reaction) est un progrès technique important pour le développement des
méthodes de séquençage (Mullis et al., 1986). Cette technique, permettant l’amplification
sélective de séquence nucléique, constitue immédiatement un outil puissant et indispensable
au séquençage des génomes*. En 1985, à l'Imperial Cancer Research (ICR) de Londres, naît
pour la première fois l'idée de décrypter les trois milliards de bases du génome humain.
L'objectif du déchiffrage de notre « patrimoine génétique » et ses retombées scientifiques et
médicales annoncées (fonctionnement de l'organisme, évolution, diagnostic génétique et
1
http://www.doegenomes.org/
2
thérapie géniques, nouveaux médicaments ...) décidèrent les parlementaires du Congrès des
Etats-Unis à affecter les 100 ou 200 millions de dollars annuels nécessaires à ce projet. En
1987, le premier séquenceur est commercialisé. En 1988, l'organisation internationale des
scientifiques impliqués dans le projet du génome humain (HUGO, Human Genome
Organization2) est fondée pour coordonner les efforts de cartographie et de séquençage
entrepris dans le monde (McKusick, 1989).
En 1990, le Projet Génome Humain (HGP3, Human Genome Project) voit le jour. Ce projet
international coordonné par la DOE4 (Department Of Energy) et la NIH5 (National Institutes of
Health), établit un plan sur 15 ans pour cartographier le génome humain et analyser les
génomes d’organismes modèles.
En 1995, l’équipe de Craig Venter au TIGR6 (The Institute for Genome Research) publie la
séquence complète du premier génome complet, celui de la bactérie Haemophilus influenzae,
grâce à la technique dite de shotgun, de séquençage aléatoire et de reconstitution in silico du
génome (Fleischmann et al., 1995). Suivent rapidement les séquençages d’autres génomes,
celui de la levure Saccharomyces cerevisiae (The yeast genome directory, 1997), du ver
nématode Caenorhabditis elegans (The C.elegans Sequencing Consortium, 1998), de la
drosophile Drosophila melanogaster (Adams et al., 2000) et de la plante Arabidopsis thaliana
(The Arabidopsis genome initiative, 2000).
En 1998, Craig Venter, PDG de l’entreprise Celera Genomics®, annonce le séquençage du
génome humain pour 2001. Le HGP, en réponse à cette annonce propose la publication de
90% du séquençage humain pour 2000. C’est finalement en février 2001 que la séquence de
95% de notre génome est publiée, fruit des travaux de HGP (International Human Genome
Sequencing Consortium, 2001) et de Celera Genomics® (Venter et al., 2001). Enfin, en avril
2003, la séquence précise de 99,99% du génome humain est publiée (Schmutz et al., 2004).
1.3.
PROCHAIN ENJEU : DONNER UN SENS AU GÉNOME
La mise à disposition publique des séquences de génomes marque le début d’un long travail
d’analyse de ces données et ouvre de nouveaux horizons de recherche en génomique. Il faut
en effet associer aux données brutes de séquences des informations pertinentes d’un point
de vue biologique, il s’agit de l’annotation des génomes. Cette annotation exhaustive requiert
l’aide de solutions bioinformatiques (Lewis et al., 2000), et n’est pas triviale (Claverie et al.,
1997).
2
http://www.gene.ucl.ac.uk/hugo/
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
http://www.energy.gov/engine/content.do
5
http://www.nih.gov/
6
http://www.tigr.org/
3
4
3
1.3.1.
Identifier les gènes
Il faut dans un premier temps identifier les gènes contenus dans les génomes, c’est ce qu’on
appelle la détection ou la prédiction de gènes. La détection de gènes consiste à identifier
l’ensemble des protéines potentiellement produites à partir d’une séquence d’ADN
génomique. La séquence étant représentée par une succession de lettres A, C, G et T,
l’objectif est de déterminer pour chaque gène de la séquence, la position de début et de fin
des séquences codantes ou régions transcrites à l’origine de la production des protéines.
Les régions transcrites sont entourées de séquences intergéniques, contenant des éléments
cis-regulateurs tels que les promoteurs qui contrôlent la transcription* en région 5’ du gène.
Les régions transcrites sont composées d’exons et d’introns, les derniers étant éliminés au
cours de l’épissage* conduisant à la production de l’ARNm mature. Dans l’ARNm mature, des
régions transcrites non codantes ou UTRs (Untranslated Terminal Regions) se trouvent en
amont du site d’initiation de la traduction* (UTR 5’) et en aval du site de terminaison de la
traduction* (UTR 3’). Ces régions jouent un rôle dans la régulation post-transcriptionnelle de
l’expression génique (Mignone et al., 2002). A l’intérieur ou à l’extrémité de ces régions se
trouvent des sites fonctionnels, ou signaux, impliqués dans différentes phases de l’expression
génique telles que la transcription* (facteurs de transcription et boîtes TATA*), l’épissage, la
polyadénylation* (sites polyA) et la traduction* (site d’initiation de la traduction, codons
STOP).
Un logiciel de détection de gène prend en entrée une séquence d’ADN génomique et produit
en sortie une annotation, c'est-à-dire une structure de gènes (les positions sur la séquence
génomique des exons prédits) (Figure 2).
Figure 2 – Objectif de la détection de gènes
A partir d’une séquence génomique brute (en haut), identifier sa structure génique (en bas).
Les méthodes utilisées pour la détection de gènes sont de deux types (Mathe et al., 2002).
On distingue les méthodes extrinsèques qui utilisent la recherche d’homologie entre une
séquence de fonction inconnue, et les séquences connues répertoriées dans les banques de
données publiques (Borodovsky et al., 1994). Un des outils pouvant être utilisé pour détecter
de telles similarités entre séquences est BLAST (Basic Local Alignment Sequence Tool), mis
au point par le NCBI7 (National Center for Biotechnology Information) (Altschul et al., 1990).
Aujourd’hui de nombreux programmes sont disponibles, la plupart d’entre eux sont référencés
sur le site Web maintenu à jour par Wentian Li (http://www.nslij-genetics.org/dnacorr/).
7
*
http://www.ncbi.nlm.nih.gov/
Les termes associés à une astérisque sont définis dans le glossaire
4
Les méthodes extrinsèques ne permettant pas la détection de tous les gènes, d’autres
méthodes, dites intrinsèques ou prédictives sont utilisées (Fickett, 1996). Ces méthodes
prédictives consistent à analyser le contenu de la séquence et à détecter soit des signatures
codantes (introns et exons), soit la présence de signaux (ou sites fonctionnels, décrits plus
haut) (Mathe et al., 2002).
A l’issue du séquençage, le nombre de gènes constituant notre génome a été estimé à 35000
(Hogenesch et al., 2001), même si aujourd’hui de nouvelles estimations réduisent ce chiffre à
20000 – 25000 (International Human Genome Sequencing Consortium, 2004). Mais cette
annotation syntaxique de la séquence d'ADN ainsi obtenue n'est que le préalable à une
mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes.
1.3.2.
Rechercher la fonction des gènes
La démarche suivie pour découvrir la fonction d’un gène consiste à rechercher, par criblage
de banques de données, des gènes de fonction connue ayant une séquence similaire à celle
étudiée. Ainsi, ce sont les données issues des séquençages et des outils de recherche de
similarité tel que BLAST (Altschul et al., 1990) qui sont utilisés pour prédire la fonction des
gènes. Une similarité de séquence reflète souvent l'existence d'un gène ancestral commun et
peut se traduire par une fonction analogue, l'homologie de structure appelant potentiellement
une homologie de fonction.
La comparaison du génome humain avec celui d’organismes modèles tels que celui de la
drosophile ou de la souris ont permis de mettre en évidence des régions conservées, à
l’origine d’hypothèses sur la fonctions de gènes (Jackson, 2001).
Une autre méthode permettant de prédire la fonction des gènes est la prise en compte de
l’ensemble des informations disponibles sur le gène étudié et son environnement. C’est là tout
l’apport de l’intégration de données, développé tout au long de ce manuscrit.
1.3.3.
Besoin de la post-génomique
Le manque d’homogénéisation des banques de données et la complexité des génomes
eucaryotes nuisent à l’automatisation systématique de la prédiction de la fonction des gènes
(Birney et al., 2001).
De plus, la représentation de la cellule à laquelle donne accès la génomique structurale telle
que nous l’avons vu jusque là est statique, et ne prend pas en compte le fonctionnement
dynamique de la cellule au cours du temps (figure 3, au dos).
C'est pour compléter cette approche que s'est développée la génomique fonctionnelle*. Elle
correspond, à ce qu’on appelle la post-génomique et cherche à identifier quand, où et dans
quelles conditions un gène identifié s’exprime. Il faut de plus caractériser l’activité des
protéines produites ainsi que leurs interactions.
La post génomique passe par l’étude du transcriptome* et du protéome*, définissant
respectivement l’ensemble des ARNm et des protéines que produit le génome à un moment,
un lieu et des conditions données.
5
Figure 3 – Le fonctionnement cellulaire : de l’ADN aux protéines
(extrait de U.S. Department of Energy Office of Science)
L’expression des gènes débute dans le noyau par la production d’ARNm à partir de l’ADN. C’est la
transcription. Les ARNm sont ensuite exportés vers le cytoplasme pour subir la traduction en protéine. Le
ribosome lit le code génétique de l’ARNm et les ARN de transfert apportent les acides aminés
spécifiques au ribosome pour la synthèse de la chaîne protéique.
1.3.3.1. Analyser le transcriptome
A l’inverse du génome qui est le même dans toutes les cellules d'un organisme donné, le
transcriptome varie selon le stade de développement de la cellule, le type cellulaire et la
situation physiologique (état sain ou pathologique) : il est dynamique. Chez l’homme, sur
environ 200 000 ARNm transcrits, seuls 10 000 à 20 000 sont exprimés dans une cellule
spécialisée, et parmi ces transcrits, 4 000 à 6 000 semblent spécifiques de ce type cellulaire.
Ainsi, l’étude du transcriptome offre la possibilité de mieux comprendre le fonctionnement des
cellules.
Plusieurs techniques ont été développées pour étudier le transcriptome. Les premières
approches proposées sont le Southern blot* et le Northern blot*. Elles permettent d’identifier
et de localiser une séquence nucléotidique (respectivement l’ADN et l’ARN) dans un génome
entier, ou tout mélange complexe d’ADN (Southern, 1975). Ces techniques se limitent à
l’analyse d’un petit nombre de gènes et ne permettent pas d’appréhender la complexité au
niveau cellulaire. Aussi, d’autres techniques plus globales permettant l’analyse de l’expression
de milliers de gènes en simultané vont se développer. La technique SAGE* (Serial Analysis of
Gene Expression) consiste à réaliser un inventaire des transcrits par séquençage en série de
courts fragments d’ADNc (ADN complémentaire) (9 à 14 paires de bases) (Velculescu et al.,
1995). Rapidement, la technologie des puces à ADN* fait son apparition, offrant plus de
perspectives d’applications (Lockhart et al., 1996; Schena et al., 1995). Les puces à ADN
permettent non seulement l’étude du niveau d’expression de milliers de gènes dans un type
cellulaire et un contexte donné (sain ou pathologique), mais aussi d’étudier la séquence des
gènes, les mutations et le polymorphisme.
6
1.3.3.2. Analyser le protéome
Les protéines sont les acteurs principaux de la vie cellulaire, elles assurent les principales
fonctions biologiques. Aussi, l’étude du protéome, qui étudie la quantité de protéines
présentes à un instant donné dans une cellule et leurs activités, permet de suivre au plus près
le fonctionnement cellulaire (Pandey and Mann, 2000). Ceci est d’autant vrai que le niveau
des ARNm n’est pas toujours corrélé avec le niveau des protéines, et que l’analyse du
transcriptome ne suffit donc pas (Gygi et al., 1999). Tout comme le transcriptome, le
protéome évolue au cours du développement cellulaire et dépend de la cellule qui le produit.
Différentes techniques sont employées pour étudier le protéome. L'électrophorèse
bidimensionnelle sur gel* et la spectrométrie de masse* visent à déterminer la nature et la
quantité, ainsi que les variations de quantité, des protéines présentes dans un échantillon
biologique. La technique de « double hybride* » est quant à elle employée pour étudier les
interactions entre protéines (Fields and Song, 1989).
1.3.3.3. Simuler les réseaux d’interaction
Tous les mécanismes cellulaires résultent d'interactions moléculaires, que ce soit entre
protéine et ADN (régulation de l'expression des gènes), entre différentes protéines, ou entre
protéine et ARN (par exemple, lors de la traduction). Ainsi, même si l’étude du transcriptome
et du protéome apportent des informations précieuses : quels gènes sont exprimés
simultanément dans des conditions précises et quelles protéines interagissent ; connaître les
réseaux d'interaction qui connectent les différents acteurs de ces mécanismes ouvre la voie à
la compréhension du fonctionnement des organismes. Différents outils mathématiques
utilisent les données de transcriptome et de protéome pour simuler les interactions et gèrent
la complexité créée par l'existence fréquente de boucles de rétroaction, positive ou négative,
reliant les différentes molécules.
1.3.3.4. Prédire la structure tridimensionnelle des protéines
La structure tridimensionnelle d'une protéine est l'un des principaux éléments qui détermine
sa fonction. C'est pourquoi la connaissance de cette structure constitue également un enjeu
majeur en génomique fonctionnelle. Des programmes ont été développés pour la
détermination de structures 3D de protéines. Ces programmes utilisent les données
structurales de protéines issues des technologies de cristallographie aux rayons X* ou
spectrométrie RMN* (Résonance Magnétique Nucléaire), stockées dans des banques de
structure 3D telles que PDB8 (Protein structure DataBank) ; et tentent de prédire la structure
de protéines par une recherche de similarité de séquence. Parmi ces outils, on peut citer
Swiss-Model9 (Schwede et al., 2003), Geno3D10 (Combet et al., 2002).
8
http://www.rcsb.org/pdb
http://swissmodel.expasy.org//SWISS-MODEL.html
10
http://geno3d-pbil.ibcp.fr/
9
7
2. LA PROFUSION DES SOURCES DE DONNÉES
Face à la croissance exponentielle des données issues de la génomique et de la postgénomique, générées à la fois par les technologies à haut débit et par les outils
bioinformatiques nécessaires à l’annotation des génomes, les technologies de gestion de
l’information et de l’Internet* sont venues à la rencontre de la biologie, pour gérer et structurer
les données.
2.1.
NAISSANCE DES BANQUES GÉNÉRALISTES
Les premières banques de données à apparaître sont des banques de séquences qui voient
le jour dans les années 80 parallèlement à l’amélioration des techniques de séquençage.
L’EMBL11 (European Molecular Biology Laboratory), créée en Europe, est la première banque
de séquences nucléiques (Hamm and Cameron, 1986; Kanz et al., 2005). Ensuite, du coté
américain, soutenue par le NIH12 (National Institute of Health), la banque nucléique
GenBank13 est créée à Los Alamos (Benson et al., 2005; Bilofsky et al., 1986). Cette banque
de données était distribuée par la société IntelliGenetics et est maintenant diffusée par le
NCBI. La collaboration entre ces deux banques a commencé relativement tôt. Elle s'est
étendue en 1987 avec la participation de la banque de données du Japon DDBJ14 (DNA Data
Bank) (Tateno et al., 2005) pour finalement donner naissance en 1990, à un format unique
pour la description des caractéristiques biologiques qui accompagnent les séquences dans
les banques de données nucléiques. Aujourd’hui, les banques de données EMBL, GenBank
et DDBJ regroupent à elles trois, cent gigabases de séquences.
Complémentairement aux banques nucléiques, les banques protéiques voient le jour. La
première, sous l’influence du NBRF15 (National Biomedical Research Foundation) est la PIRPSD16 (Protein Information Resource-International Protein Sequence Database) (George et
al., 1986), la deuxième est Swiss-Prot17, constituée à l’université de Genève, elle regroupe les
séquences annotées de la PIR-PSD et les séquences traduites de l’EMBL (Bairoch and
Boeckmann, 1993). Depuis 2002, les groupes Swiss-Prot et TrEMBL (translated EMBL
entries) du SIB18 (Swiss Institute of bioinformatics), l’EBI19 (European Bioinformatics Institute)
et PIR du NBRF ont uni leurs efforts pour former le consortium UniProt20 (Universal Protein
Resource) (Bairoch et al., 2005).
11
http://www.embl-heidelberg.de/
http://www.nih.gov/
13
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
14
http://www.ddbj.nig.ac.jp/
15
http://pir.georgetown.edu/nbrf/
16
http://pir.georgetown.edu/pirwww/search/textpsd.shtml
17
http://www.expasy.org/sprot/
18
http://www.isb-sib.ch/
19
http://www.ebi.ac.uk/
20
http://www.expasy.uniprot.org/
12
8
2.2.
ÉMERGENCE DES BANQUES SPÉCIALISÉES
Devant la croissance exponentielle des données contenues dans les banques de séquences
(exemple, GenBank, Figure 4) et devant la diversité des données contenues dans ces mêmes
sources, de nombreuses banques de données se sont développées.
Figure 4 – Croissance de la banque de données GenBank de 1982 à 2004
(extrait du site Web de GenBank)
Il s’agit de banques publiques ou privées qui se sont constituées autour de thématiques
biologiques ou d’espèces données, afin de satisfaire des besoins plus spécifiques. Elles sont
qualifiées de banques de données spécialisées par opposition aux banques de données
généralistes. En 2005, on compte au moins 719 banques de données, soit 171 de plus que
l’an passé (Galperin, 2005). Ces banques de données se répartissent en 14 catégories, soit 3
de plus qu’en 2004 (Table 1, au dos). Parmi les principales catégories de banques, outre les
banques de séquences, citons des banques de structures, des banques métaboliques, de
maladies, d’expression des gènes, de données protéomiques ou immunologiques.
9
10
Banques immunologiques
Banques de plantes
http://genoplante-info.infobiogen.fr/FLAGdb/
http://www.arabidopsis.org/
http://imgt.cines.fr/
Banque intégrée sur les génomes de plantes
The A rabidopsis information resource
International immunogenetics information system
TAIR
Table 1 – Catégories de banques de données (adpaté de (Galperin, 2005))
IMGT
http://bioinfo.nist.gov:8080/examples/servlets/index.html
Human mitochondrial protein database
FLAGdb++
Banques d'organelle
http://www.mpiib-berlin.mpg.de/2D-PAGE
http://www.ebi.ac.uk/arrayexpress
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
HMPD
PubMed
Autres banques de biologie moléculaire
Banque de protéome
http://www.genome.jp/kegg/pathway.html
http://www.phenomicdb.de/
http://pubmed.gov/
2D-PAGE
Banques protéomiques
Données d'expression de puces à ADN
http://flybase.bio.indiana.edu/
http://www.brenda.uni-koeln.de/
Citations et résumés de litérature biomédicale
ArrayExpress
Banques d'expression de gènes et données de
puces à ADN
OMIM
Gènes et maladies (humain)
Réseaux métoboliques et de régulation
Comparaison de phénotypes de gènes orthologues chez
l'humain et des organismes modèles
Online Mendelian inheritance in man, un catalogue des
troubles génétiques humains
KEGG Pathway
PhenomicDB
Noms d'enzymes et propriétés biochimiques
BRENDA
http://www.rcsb.org/pdb
Protein structure databank
Séquences et informations génomiques de la drosophile
PDB
FlyBase
http://www.expasy.org/prosite
http://www.ebi.ac.uk/chebi/
Biologically significant protein patterns and profiles
Chemical entities of biological interest
http://www.uniprot.org/
Universal protein knowledgebase: merged data from SwissProt, TrEMBL and PIR protein sequence databases
UniProt
ChEBI
http://itb1.biologie.hu-berlin.de/~nebulus/sirna/
PROSITE
http://transfac.gbf.de/TRANSFAC/index.html
Transcritpion factors and binding sites
Human siRNA database
HuSiDa
TRANSFAC
URL
http://www.ncbi.nlm.nih.gov/Entrez
Nom ou description
Toutes séquences nucléotidiques connues
Exemple
GenBank®
Génomes humains et d'autres vertébrés
Réseaux métaboliques et enzymes
Banques génomiques (non humaines)
Banques de structures
Banques de séquences protéiques
Banques de séquences d'ARN
Banques de séquences nucléotidiques
Catégorie
II. VERS L’INTÉGRATION DES SOURCES DE
DONNÉES
1. DES DONNÉES AUX CONNAISSANCES
Dès les premiers jours de l’ère de la génomique, la quantité de données a cru de manière
exponentielle, conduisant à une émergence extraordinaire du nombre et du contenu des
sources de données. L’ouverture de ces sources sur Internet les a rendues disponibles au
plus grand nombre, ouvrant ainsi de belles perspectives en recherche.
La diffusion des sources sur le Web*, s’est faite de manière indépendante, en séparant les
données par entité biologique (ADN, ARN, Protéine), par niveau d’organisation différent
(cellules, tissus, organe, organisme, espèce) et par technologie différente (analyse du
transcriptome, du protéome). Mais c’est la confrontation de toutes ces données diverses
émanant de sources variées et jusqu’alors indépendantes qui va permettre de répondre à des
questions biologiques complexes. L’effort consiste à intégrer des données hétérogènes afin
d’en extraire de nouvelles connaissances, qui mènent à la découverte :
Données D Information D Connaissance D Découverte
La biologie prend ainsi une nouvelle dimension, anciennement divisée en plusieurs
disciplines, elle devient intégrative et offre de belles perspectives d’appréhension de la
complexité du monde vivant (Blagosklonny and Pardee, 2002).
Les phénomènes biologiques sont complexes et nécessitent la confrontation de différentes
données. Ainsi, la compréhension des phénotypes* normaux et pathologiques implique une
prise en compte de données expérimentales, de données génomiques, de données issues
des analyses bioinformatiques et de données de la littérature.
D’ores et déjà des études ont démontré l’apport de l’intégration de différents types de
données en recherche. Ainsi, Mootha et al. ont découvert un des gènes responsable du
syndrome de Leigh (trouble neurodégénératif ; OMIM 256000), en intégrant des données
d’expression, des données génomiques et de localisation sub-cellulaire (Mootha et al., 2003).
Dans un autre exemple, Stuart et al. ont déduit des fonctions de gènes à partir de données de
puces à ADN disponibles sur plusieurs espèces (Stuart et al., 2003).
D’autre part, Kaplan souligne l’intérêt de confronter des données génomiques, protéiques,
épidémiologiques ainsi que des outils d’analyses génétiques pour la compréhension des
maladies polygéniques et le développement de nouveaux outils diagnostiques et
thérapeutiques (Kaplan, 2002).
11
Hui Ge et al. soulignent l’importance de prendre en compte l’ensemble des données issues de
la post-génomique pour la compréhension des réseaux d’interaction moléculaires et le
fonctionnement des systèmes biologiques (Ge et al., 2003).
2. LES DÉFIS DE L’INTÉGRATION DE DONNÉES BIOLOGIQUES
Les enjeux scientifiques actuels visent à interpréter, valoriser et confronter des sources de
données. Aussi, il ne faut plus désormais se contenter de collecter des données mais fournir
en parallèle des moyens pour leur interprétation. Ceci passe par une intégration des sources
dans une représentation unifiée, offrant ainsi une plate-forme générique, qui permet de
formuler des requêtes globales sur l'ensemble des informations disponibles via le système. Le
but de ce processus d'intégration consiste à rendre possible la détection de nouvelles
corrélations, parmi une masse de données qui n'étaient jusqu'alors pas reliées dans un même
système pour l'interrogation.
Il y a de nombreux défis à l’intégration de données provenant de différentes sources
biologiques. Ces défis ont pour origine la diversité des données elles-mêmes et l’autonomie
ainsi que l’hétérogénéité, tant sur le plan syntaxique que sémantique, des sources
développées pour la mise à disposition des données. Ces caractéristiques sont détaillées
dans cette section.
2.1.
DIVERSITÉ DES DONNÉES BIOLOGIQUES A INTÉGRER
Nous avons vu que les volumes de données engendrés par le développement de nouvelles
technologies et par l’essor de la post-génomique sont gigantesques. Mais plus que les grands
volumes de données, le plus complexe à traiter lors de l’intégration, c’est la diversité et la
variabilité de ces données au sein des sources (Chung and Wooley, 2003).
La diversité des données stockées dans les différentes sources reflète la diversité des types
biologiques et des technologies utilisées à ce jour, ainsi que la complexité des systèmes
biologiques (Chung and Wooley, 2003). Ainsi, les données stockées sont de différentes
natures et incluent entre autres, des données de séquences et d’expression de gènes, des
caractéristiques de pathologies, des structures moléculaires, des données d’interactions
protéiques.
Les sources stockent des données de différentes natures, qui varient selon leur taille et leur
niveau de spécialisation (Hernandez and Kambhampati, 2004). Par exemple, la banque de
données UniProt stocke des informations sur les séquences protéiques alors que
ArrayExpress21 (Parkinson et al., 2005a; Sarkans et al., 2005) stocke des données
expérimentales provenant de la technologie des puces à ADN.
La diversité des données est d’autant plus grande qu’il existe une grande variabilité
individuelle et inter-espèce entraînant la variabilité des données. Par exemple, la structure et
la fonction d’un organe varient selon l’âge, le genre et l’espèce.
21
http://www.ebi.ac.uk/arrayexpress/index.html
12
2.2.
AUTONOMIE ET HÉTÉROGÉNÉITÉ DES SOURCES DE DONNÉES
Plusieurs caractéristiques des sources de données biologiques font obstacle à l’intégration de
données dans un même environnement, il s’agit de leur autonomie, de leur présence sur le
Web et de leur hétérogénéité, qui se situe à différents niveaux.
2.2.1.
Autonomie des sources
La plupart des sources fonctionnent de manière autonome, ce qui signifie que leurs structures
et/ou leurs schémas* peuvent être modifiés, que leurs contenus peuvent changer ou que
certains peuvent être supprimés sans aucune notification publique. Les accès aux sources
peuvent également se retrouver bloqués pour maintenance. De plus, les sources ne sont pas
toujours au fait de toutes les sources qui les référencent, ou de tous les systèmes qui s’y
connectent (Hernandez and Kambhampati, 2004).
Cette instabilité est d’autant plus grande que ces sources sont sur le Web, et que leur accès
est donc contraint aux encombrements de réseau.
La principale conséquence à l’autonomie des sources, c’est le perpétuel dynamisme de
celles-ci. En effet, les nouvelles données expérimentales et les nouvelles découvertes vont
perpétuellement être répercutées dans les sources, changeant ainsi leur contenu. Cet aspect
implique que des mises à jour soient régulièrement opérées dans les systèmes qui utilisent
ces sources dynamiques.
2.2.2.
Hétérogénéité des sources
L’hétérogénéité dans la manière de représenter des données similaires dans différentes
sources est la principale barrière à l’intégration de données en biologie (Sujansky, 2001).
Cette hétérogénéité se manifeste sur les plans de la syntaxe, de la sémantique et du contenu
des sources.
2.2.2.1. Hétérogénéité syntaxique
(1) Hétérogénéité dans les formats
L’hétérogénéité syntaxique se manifeste tout d’abord au niveau des différents formats ou
modèles de données* utilisés par les sources pour décrire leurs contenus. Par exemple, les
données de la littérature scientifique sont très souvent représentées sous des formats non
structurés (fichiers textes, fichiers HTML* (HyperText Markup Language)) ou semi-structurés
(par exemple, XML* (eXtensible Markup Language)). D’autres formats semi-structurés sont
utilisés, ainsi, le NCBI utilise ASN.1 (Abstract Syntax Notation 1), pour le stockage et la
recherche des annotations sur les gènes et les protéines. C’est un format semi-structuré
facilitant l’échange de données (Wheeler et al., 2005).
13
D’autres sources utilisent des formats structurés, avec un stockage des données dans des
bases de données. A ce niveau, on trouve une diversité de modèles de données utilisés par
les sources : principalement, le modèle relationnel* ou le modèle orienté objet*. Ainsi, au sein
des sources, les entités biologiques ne sont pas représentées de la même manière, puisque
chaque modèle offre sa propre sémantique aux concepts, c'est-à-dire sa propre
représentation des relations entre les entités biologiques.
(2) Hétérogénéité schématique
L’hétérogénéité schématique apparaît lorsque des concepts équivalents sont représentés
différemment dans des sources de données (Miller, 1998). Ce phénomène peut se produire
même si les sources de données utilisent le même modèle de données. Par exemple, dans
un schéma basé sur le modèle relationnel, trois types de conflits peuvent survenir : relation nom d’attribut, nom d’attribut valeur d’attribut et relation valeur d’attribut.
Un exemple de conflit de type nom d’attribut valeur d’attribut est représenté dans la table 2.
Dans le premier schéma, les noms des banques de données sont des attributs, alors que
dans le second schéma, ils sont des valeurs de l’attribut ‘banque’.
N° Accession
NM_021175
BC020612
P81172
UniProt
GenBank
X
X
N° Accession
NM_021175
BC020612
P81172
X
Banque
GenBank
GenBank
UniProt
Table 2 – Conflit nom d’attribut valeur d’attribut
(3) Hétérogénéité dans les modes d’accès aux données
Chaque source offre sa propre interface d’interrogation conduisant à une diversité des
moyens d’accès aux données. Il peut s’agir de requêtes SQL (Structured Query Language)
(dans le cas de bases de données relationnelles), de requêtes OQL (Object Query Language)
(dans le cas de bases de données orientées objet), de recherches par mots clés, de
formulaires ou de fonctions spécifiques comme par exemple une recherche d’homologie.
Cette diversité est un obstacle à la construction d’interfaces intégrées car chaque moyen
d’interrogation offre différentes possibilités de récupération d’information. Notamment,
certains moyens d’interrogation offrent des accès très limités aux données et font obstacle à
une intégration systématique et accrue dans un même environnement.
2.2.2.2. Hétérogénéité sémantique
L’hétérogénéité sémantique des sources de données en génomique, recouvre plusieurs
aspects.
Elle concerne en premier lieu le thème ou « focus ». En effet, chaque source se focalise sur
un type d’entité biologique. Par exemple, le focus de Swiss-Prot est la protéine, celui de
GenBank, le gène, et celui de PDB, la structure tridimensionnelle des protéines.
14
Par ailleurs, les sources de données peuvent différer dans leur manière de représenter les
concepts clés autour des entités décrites (Eckman et al., 2001). Ainsi, GenBank « représente
un gène comme une annotation sur une séquence », un gène est donc vu comme une
séquence qui le caractérise et sur laquelle on publie des informations, tandis que MGD22
(Mouse Genome Database) (Eppig et al., 2005) « représente un gène comme un locus qui
confère un phénotype », un gène est donc vu comme une portion de chromosome (locus) qui
peut être liée à un caractère morphologique observable ou à un syndrome clinique chez un
individu (phénotype).
Ensuite, l’hétérogénéité sémantique concerne la diversité des valeurs pouvant être attribuées
à des données sémantiquement équivalentes mais contenues dans des sources différentes.
Par exemple, la donnée associée à l’appartenance d’un gène à l’espèce humaine peut
prendre les valeurs ‘Homo sapiens’ ou ‘Human’ selon la source de données. En génomique,
ce type d’hétérogénéité est d’autant plus fréquent que l’on se trouve confronté au problème
de la grande hétérogénéité dans la nomenclature des gènes. Un gène est identifié par son
nom, son symbole et/ou un identifiant numérique (communément, numéro d’accession). Pour
un même gène donné, ces identifiants sont soumis à variabilité :
En fonction des espèces – Des gènes orthologues* se voient souvent attribuer des
identifiants et des noms différents.
En fonction des sources de données – Même au sein d’une même espèce, pour un gène
donné, chaque source de données attribue ses propres numéros d’accession.
En fonction du type de séquence – Les différentes séquences associées à un même gène,
c'est-à-dire les séquences génomiques, nucléiques ou protéiques, ont des numéros
d’accession différents.
En fonction du temps – Au cours du temps, différents noms et symboles ont été attribués à
un même gène.
Un autre type d’hétérogénéité sémantique survient lorsque les données dans les sources sont
structurées. En effet, les composants servant à décrire la structuration des données au sein
de la source, c'est-à-dire les éléments de son schéma, peuvent se voir attribuer différentes
valeurs. On parle d’hétérogénéité des méta-données. En pratique, il existe différentes
représentations, pour les sources structurées, qui sont le modèle relationnel, le modèle
orienté objet ou le XML.
Dans chacune des représentations, on distingue des éléments et des structures : les relations
dans le modèle relationnel, les objets et les associations dans le modèle orienté objet et les
éléments et les sous-éléments dans le XML. Ces éléments et ces structures permettent de
définir le concept biologique décrit dans la source. Ce sont les noms que portent ces attributs
et ces relations qui apportent la sémantique au concept exprimé par le schéma. Chaque
personne a sa propre interprétation des noms. Aussi, des conflits sémantiques peuvent
survenir lorsque des noms équivalents dénotent différents concepts (homonymes) ou lorsque
différents noms sont attribués pour un même concept (synonymes).
22
http://www.informatics.jax.org/
15
2.2.2.3. Hétérogénéité dans les contenus
Des différences de contenu apparaissent quand des données représentées dans une source
ne sont pas directement représentées dans une autre, ces données sont soit implicites,
dérivables ou manquantes.
Un exemple de donnée implicite pourrait être le type d’une séquence : ‘ADN’, ‘ARN’ ou
‘protéine’. Dans une banque de données généraliste de séquences nucléotidiques, telle que
GenBank, il faut préciser le type de la séquence pour une entrée donnée (‘ARN’ ou ‘ADN’).
Dans une banque de séquences protéiques telle que UniProt, le qualificatif ‘protéine’ n’est pas
requis, il est implicite.
Un exemple de donnée dérivable est ‘date de naissance’ versus ‘âge’. Chacun peut être
dérivé de l’autre.
Un exemple de donnée manquante peut être illustré par la présence dans une fiche d’entrée
Uniprot de la liste des synonymes associés au nom de la protéine, alors que dans la fiche de
la même protéine délivrée par le NCBI, les synonymes ne sont pas fournis.
Cette hétérogénéité dans la représentation des sources soulève les problèmes d’identification
des entités biologiques au sein des sources, de qualité des données, de redondance et de
nettoyage lorsque l’on veut utiliser plusieurs sources pour l’intégration (Hernandez and
Kambhampati, 2004; Sujansky, 2001).
3. ÉLÉMENTS DE STANDARDISATION
Face au besoin d’intégration de données hétérogènes pour exploiter les données issues de la
génomique, des éléments de standardisation ont vu le jour pour ainsi faciliter la structuration
des données et résoudre les problèmes de vocabulaire, de sémantique et d’interrogation
évoqués ci-dessus. Le but ultime de ces éléments de standardisation est de faciliter la
diffusion et l’échange d’informations entre les sources, c'est-à-dire de les rendre
interopérables. Ces éléments de standardisation sont décrits dans les sections suivantes.
3.1.
3.1.1.
XML
Définition
XML (eXtensible Markup Language) a été mis au point en 1996 sous l’égide du W3C23 (World
Wide Web Consortium). C’est un langage structuré de représentation de données pour un
document. Plus précisément, c’est un métalangage permettant de rendre explicite la structure
des données pour participer à l’interopérabilité* entre des données ou des applications.
Un document XML est composé d’un prologue et d’un corps. Le prologue d’un document XML
23
http://www.w3.org/
16
regroupe les méta-données portant sur le document. On y trouve en particulier la version
d’XML, mais aussi éventuellement une représentation formelle de la grammaire du document
sous forme directe ou par référence à un fichier externe. Les deux formats de représentation
de grammaire aujourd’hui utilisés sont les DTD (Document Type Definition) qui ont une
syntaxe propre, et les schémas dont la syntaxe est exprimée en XML.
Le corps d’un document XML est constitué d’une imbrication de balises délimitant les
éléments. Par exemple : <sequence_type>mRNA</sequence_type>
De plus, un élément peut avoir des attributs qui sont utilisés pour représenter à la fois des
propriétés et des relations. Cela permet de passer d’une structure hiérarchique d’éléments à
une structure en graphe.
Un document XML dont la syntaxe est conforme aux principes précédents est un document
bien formé. De plus si la structure de ses éléments est conforme à la grammaire définie ou
référencée dans le prologue, le document est dit valide.
XML est donc bien adapté pour décrire explicitement la structure d’un document, il assure une
interopérabilité syntaxique. Il faut donc se tourner vers des surcouches de XML, c’est-à-dire
des éléments à la structure et au sens bien définis pour représenter la dimension sémantique.
RDF (Resource Description Framework), est un autre standard proposé par le W3C pour la
description des sources sur le Web. Les descriptions se font en exprimant des propriétés et
en leur attribuant des valeurs. Les schémas RDF, notés RDFS, servent à définir les termes et
les relations qui interviennent dans ces descriptions. Cependant, le pouvoir sémantique de
RDF se limite à la représentation de la structure de ces concepts, sans parvenir à rendre
compte du sens qu’ils véhiculent. Ceci est le rôle des ontologies.
3.1.2.
Utilisation de XML en bioinformatique
Les sources biologiques s’étant développées de manière indépendante et exponentielle, elles
ont adopté différents systèmes de représentation. C’est pour pallier à cette hétérogénéité, qui
fait obstacle à l’interopérabilité des sources, que le langage XML ainsi que ses dérivés ont fait
leur apparition en bioinformatique.
Par exemple, MAGE-ML24 (MicroArray and Gene Expression-Markup Language) (Spellman et
al., 2002), SBML25 (Systems Biology Markup Language) (Hucka et al., 2003) ou BSML™26
(Bioinformatic Sequence Markup Language) sont des langages basés sur XML, et dédiés à la
biologie.
MAGE-ML vise à formaliser et faciliter la présentation des données issues des expériences de
puces à ADN. L’une des applications intéressante est le transfert automatique des
informations contenues dans des bases de données privées, vers des banques de données
publiques d’expression de gènes telles que ArrayExpress ou GEO27 (Gene Expression
Omnibus) (Barrett et al., 2005).
24
http://www.mged.org/Workgroups/MAGE/mage-ml.html
http://sbml.org/index.psp
http://www.bsml.org/
27
http://www.ncbi.nlm.nih.gov/geo/
25
26
17
SBML est un format pour représenter des modèles de réseaux de réactions biochimiques. Il
s’applique à la description des voies métaboliques, des mécanismes de signalisation cellulaire
ou encore des réseaux de régulation. SBML est actuellement supporté par 85 logiciels ou
banques, tels que PANTHER Pathway28 (Mi et al., 2005).
BSML est un format qui permet de décrire et de visualiser graphiquement les informations sur
les séquences biologiques telles que les séquences elle-mêmes, les gènes et des
alignements multiples.
INSDseq est un autre format issu de XML, il a été développé conjointement par EMBL, DDBJ
et GenBank pour la représentation des annotations de séquences.
3.2.
3.2.1.
ONTOLOGIES
Définitions d’Ontologie
Le terme « Ontologie » est emprunté à la philosophie. Il a été introduit il y a 2300 ans par
Aristote pour caractériser l’étude des êtres dans notre univers, ou plus précisément « Partie
de la métaphysique qui s’applique à l’être en tant qu’être, indépendamment de ses
déterminations particulières (Le Petit Robert). Il y a une quinzaine d’années, la communauté
des sciences cognitives transforme ce concept philosophique en objet : « une ontologie ».
La définition la plus citée est alors celle de Gruber : « une spécification explicite d’une
conceptualisation » (Gruber, 1993). Une ontologie correspond à un ensemble d’informations
dans lequel sont définis les concepts utilisés dans un langage donné et qui décrit les relations
logiques qu’ils entretiennent entre eux. Le but des ontologies est de définir quels concepts,
avec leur sémantique associée, sont nécessaires pour la modélisation de la connaissance
d’un domaine et ce afin de la rendre partageable et transmissible entre plusieurs agents
(personnes et/ou machines).
3.2.2.
Ontologies dans le domaine biomédical
Bien avant les avancées de la génomique et de la post-génomique, c’est la communauté de
l’informatique médicale qui en premier a développé des stratégies pour faciliter et améliorer
l’accès aux connaissances biomédicales. Ainsi, la NLM29 (National Library of Medicine) a
développé l’UMLS®30 (Unified Medical Language System®), une base de connaissance
qualifiée d’ontologie médicale riche de près de 1 000 000 de concepts émanant de
l’unification de soixante terminologies du domaine biomédical.
Deux événements ont pressé les besoins en développement d’ontologies biologiques ou bioontologies : la génération de larges volumes de données représentés de manière très
hétérogène et le développement ainsi que la croissance d’Internet. Ainsi, les discussions sur
28
https://panther.appliedbiosystems.com/pathway/
http://www.nlm.nih.gov/
30
http://www.nlm.nih.gov/research/umls/
29
18
les bio-ontologies, entamées par la communauté de l’informatique biomédicale, se sont
également répandues chez les bioinformaticiens.
La compréhension des données issues de la génomique étant un des enjeux de la médecine,
les deux communautés ont lié leurs efforts pour le développement de bio-ontologies.
Suite aux publications des séquences de génomes et de leurs diverses annotations,
l’utilisation de bio-ontologies devient indispensable pour faire face à l’hétérogénéité des
données et des sources. Elles permettent d’unifier les différentes définitions pour ainsi
améliorer la qualité des données et favoriser le partage et l’échange de données.
3.2.2.1. Gene Ontology : une ontologie pour la génomique
(1) Définition
GO31 (Gene Ontology) a récemment été développée par le Gene Ontology Consortium,
groupe de travail international basé à l’EBI, pour aider à l’annotation des génomes (The Gene
Ontology Consortium, 2000; The Gene Ontology Consortium, 2001). Son objectif est d’établir
un vocabulaire structuré, contrôlé et dynamique pour décrire la fonction des gènes et des
produits de gènes de l’ensemble des eucaryotes. Le projet a débuté en 1998 par une
collaboration entre 3 banques de données d’organismes modèles que sont FlyBase32
(Drysdale and Crosby, 2005), SGD33 (Saccharomyces Genome Database) (Balakrishnan et
al., 2005) et MGD (Mouse Genome Database). Depuis, le consortium a grandi et se compose
de 16 des plus grandes banques de données génomiques, qui participent activement aux
mises à jour de GO.
(2) Composition et structure
GO se compose de trois ontologies qui décrivent les produits de gènes par leur association à
des
fonctions
moléculaires
(molecular_function),
des
processus
biologiques
(biological_process) et des localisations cellulaires (cellular_component).
Les fonctions moléculaires34 décrivent les activités d’un produit de gène à l’échelle
moléculaire (par exemple : ‘catalytic activity’, ‘transporter activity’ ou ‘binding’). Les processus
biologiques35 sont des évènements composés de séries de fonctions moléculaires (par
exemple : ‘cell growth’ ou ‘signal transduction’). Les localisations cellulaires36 indiquent le
composant de la cellule où se localise le produit de gène (par exemple : ‘nucleus’ ou
‘membrane’).
31
http://www.geneontology.org/
http://flybase.bio.indiana.edu/
33
http://www.yeastgenome.org/
34
http://www.geneontology.org/GO.doc.shtml#molecular_function
35
http://www.geneontology.org/GO.doc.shtml#biological_process
36
http://www.geneontology.org/GO.doc.shtml#cellular_component
32
19
Les trois ontologies GO sont structurées sous la forme d’un graphe orienté acyclique ou DAG
(Directed Acyclic Graph) (Figure 5). Le DAG constitue un réseau où chaque noeud représente
un terme GO qui est identifié sous la forme GO :nnnnnnn (exemple : ‘metabolism’,
GO:0008152). On compte à ce jour 18447 termes. Chaque terme est un enfant de un ou
plusieurs parents. La relation entre un terme enfant et un terme parent peut être du type ‘is_a’
ou ‘part_of’. La relation ‘is a’ est utilisée lorsqu’un terme enfant est une spécialisation du
terme parent; par exemple dans l’ontologie processus biologique, ‘morphogenesis’ est une
spécialisation de ‘development’. La relation ‘part of’ est utilisée lorsqu’un terme enfant est un
composant du terme parent; par exemple, ‘cell growth’ est un composant de ‘regulation of cell
size’. Les termes enfants peuvent avoir un ou plusieurs termes parents et peuvent avoir
différentes relations avec les différents termes parents.
Gene Ontology
is_a
is_a
cellular_component
GO:0005575
is_a
biological_process
GO:0008150
molecular_function
GO:0003674
is_a
is_a
is_a
physiological process
GO:0007582
cellular process
GO:0009987
is_a
is_a
is_a
development
GO:0007275
cellular physiological process
GO:0050875
is_a
is_a
is_a
cell organization and biogenesis
GO:0007582
morphogenesis
GO:0009653
is_a
is_a
cellular morphogenesis
GO:0000902
part_of
growth
GO:0040007
regulation of cell size
GO:0008361
part_of
cell growth
GO:0016049
Figure 5 – Extrait du graphe orienté acyclique de Gene Ontology
Le graphe a pour origine les trois ontologies ‘molecular_function’, ‘biological_process’ et
‘cellular_component’. Les mentions ‘is_a’ et ‘part_of’ indiquent le type de relation entre les termes
parents et enfants. Le terme ‘cellular physiological process’ (GO:0050875) a deux termes parents,
‘cellular process’ (GO:0009987) et ‘physiological process’ (GO:0007582).
20
(3) Annotation des produits de gènes avec GO
GO est un vocabulaire contrôlé dynamique qui permet de décrire les fonctions moléculaires,
les processus biologiques ainsi que les localisations cellulaires, mais il ne contient pas les
produits de gènes. En 2001, UniProt rejoint le consortium GO et initie le projet GOA37 (Gene
Ontology Annotation) pour ainsi assigner à chacune des protéines définie dans UniProt, un ou
plusieurs termes GO (Camon et al., 2004a; Camon et al., 2003; Camon et al., 2004b). Au
début du projet, GOA a permis d’assigner des termes aux protéines du protéome humain, par
le biais de correspondances et d’annotations manuelles. Par la suite, les termes GO ont été
assignés à tous les protéomes complets ou incomplets présents dans UniProt.
Suivant la manière dont ont été assignés les termes GO aux produits de gènes, différents
codes sont associés aux annotations. Ces codes permettent de rendre compte de la qualité
de l’annotation, une annotation issue de publications scientifiques ayant par exemple, plus de
poids qu’une annotation prédictive (Table 3).
Code
IC
IDA
IEA
IEP
IGI
IMP
IPI
ISS
NAS
ND
RCA
TAS
NR
Origine de l'annotation
Inferred by Curator
Inferred from Direct Assay
Inferred from Electronic Annotation
Inferred from Expression Pattern
Inferred from Genetic Interaction
Inferred from Mutant Phenotype
Inferred from Physical Interaction
Inferred from Sequence or Structural Similarity
Non-traceable Author Statement
No biological Data available
inferred from Reviewed Computational Analysis
Traceable Author Statement
Not Recorded
Table 3 – Origine de l’annotation des produits de gènes
Les données issues de l’annotation des produits de gènes sont disponibles sur les sites de
GOA et de GO, soit par téléchargement de fichiers, soit par des applications Web permettant
d’effectuer des interrogations à partir de termes GO ou d’identifiants de produits de gènes.
Parmi ces applications, citons AmiGO38 qui est fourni par le consortium GO.
AmiGO fournit une interface Web qui permet de visualiser les ontologies, les définitions de
termes GO et les produits de gènes associés (ensemble des produits de gènes présents dans
les banques de données associées au consortium GO). L’utilisateur peut effectuer une
interrogation à partir d’un nom de gène, ou de toute autre référence, et ainsi visualiser les
termes associés.
Le consortium GO a également développé d’autres outils tels que DAG-Edit pour éditer des
ontologies et ainsi faciliter la navigation entre ontologies de différents domaines biologiques
(The Gene Ontology Consortium, 2004).
37
38
http://www.ebi.ac.uk/GOA/
http://www.godatabase.org/cgi-bin/amigo/go.cgi
21
3.2.2.2. UMLS
L’UMLS® (Unified Medical Language System®) est une ontologie biomédicale développée par
la NLM depuis 1986 (Lindberg, 1990). Le but du système est de fournir un accès intégré à un
grand nombre de sources biomédicales par le biais d’une unification de toutes leurs
terminologies.
L’UMLS se compose de trois sources de connaissances : le Metathesaurus, le lexique
médical Specialist et le réseau sémantique.
Le Metathesaurus39 – Il constitue un répertoire biomédical multi langues qui contient
2 500 000 termes correspondant à près de 1 000 000 de concepts reliés entre eux par
12 000 000 de relations.
Il est constitué à partir de plus de 100 familles de terminologies du domaine biomédical, dont
la taxonomie du NCBI, MeSH40 (Medical Subject Headings) et le vocabulaire contrôlé utilisé
pour indexer la banque bibliographique MEDLINE. L’ontologie GO est également intégrée
dans l’UMLS, assurant ainsi l’interopérabilité entre les deux ontologies. Ceci a été effectué par
une recherche de correspondance (ou mapping) entre les termes de l’UMLS et de GO
(Bodenreider et al., 2002). D’autres domaines sont représentés dans le Metathesaurus tels
que l’anatomie avec la base de données UWDA (Digital Anatomist Symbolic Knowledge
Base), la clinique avec SNOMED®41 (Systematized Nomenclature of Medicine), la
nomenclature des gènes établie par le HGNC42 (HUGO (HUman Genome Organisation) Gene
Nomenclature Committee) (Shows et al., 1979) et les maladies génétiques avec OMIM™43
(Online Mendelian Inheritance in Man) (Hamosh et al., 2000; Hamosh et al., 2005) (Figure 6).
D’autres catégories de terminologies sont incluses dans le Metathesaurus et concernent des
spécialités telles que la psychiatrie, ou des aspects plus cliniques tels que les protocoles
cliniques et les traitements. Le Metathesaurus comprend également des liens vers des
sources externes (ou cross-références), comme par exemple vers GenBank (Bodenreider,
2004).
Figure 6 – Domaines biomédicaux intégrés dans l’UMLS (adapté de (Bodenreider, 2004))
39
http://www.nlm.nih.gov/pubs/factsheets/umlsmeta.html
http://www.nlm.nih.gov/mesh/meshhome.html
http://www.snomed.org/
42
http://www.gene.ucl.ac.uk/nomenclature/
43
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
40
41
22
Au sein du Metathesaurus, les termes synonymes d’un concept sont regroupés sous un
même concept, et chaque concept est identifié par un code CUI (Concept Unique Identifier)
(McCray and Nelson, 1995). Les relations pouvant lier les concepts sont de différents types :
‘parent’ ou ‘other relations’ (pouvant être par exemple, ‘isakindof’). On trouve aussi dans le
Metathesaurus, des relations de type ‘co-occurrence’, ainsi que les fréquences qui y sont
associées. Il s’agit de co-occurrences de termes retrouvées à partir de MEDLINE.
Le lexique médical Specialist44 – Il s’agit d’un lexique anglais général et biomédical, qui
contient des termes qui n’apparaissent pas dans le Metathesaurus. Pour chaque terme, il
spécifie des informations syntaxiques, morphologiques et orthographiques.
Le réseau sémantique45 – Il permet d’assigner à chaque concept du Metathesaurus un ou
plusieurs types sémantiques parmi les 135 définis. Les types sémantiques sont reliés entre
eux par 54 relations. Parmi ces relations, la relation de spécialisation ‘isa’ permet d’établir une
hiérarchie entre les types. Il existe cinq autres catégories de relations que sont : ‘physically
related to’, ‘spatially related to’, ‘temporally related to’, ‘functionally related to’ et ‘conceptually
related to’.
La figure 7 illustre la représentation d’une protéine, la transferrine (transporteur sanguin du
fer), dans l’UMLS.
Semantic Network
Pathologic Function
Cell Function
Molecular
Function
Biological Active
Substance
Amino Acid, Peptide
or Protein
Disease or
Syndrome
Metathesaurus
beta Globulin
Iron-Binding
proteins
Cell
Differenciation
Liver neoplasm
Carrier Proteins
Transferrin
iron metabolism
Cerebrovascular
Disorders
Figure 7 – Représentation schématique de la transferrine dans l’UMLS
Les types sémantiques sont représentés en gris dans le réseau sémantique (Semantic Network), et les
concepts, en blanc dans le Metathesaurus. Les différentes relations sont représentées par différentes
couleurs : en noir les relations avec les types sémantiques, en rouge les relations de type ‘cooccurrences’, en bleu les relations de type ‘parent’, et en vert les relations de type ‘other relations’.
44
45
http://www.nlm.nih.gov/pubs/factsheets/umlslex.html
http://www.nlm.nih.gov/pubs/factsheets/umlssemn.html
23
En plus des données, l’UMLS intègre un certain nombre d’outils, inclus en tant que
programmes ou bien accessibles en services Web* :
ƒ
ƒ
ƒ
MetamorphoSys permet aux utilisateurs d’adapter le Metathesaurus en fonction de leurs
propres besoins (par exemple sélectionner le nom préféré pour un concept).
Lvg permet de générer des variants de concepts.
Metamap, accessible en service Web, permet d’extraire des concepts de l’UMLS à partir
de texte.
3.2.2.3. Autres ontologies en biologie
Même si GO est rapidement devenue l’ontologie phare en génomique, de nombreuses autres
ontologies ont vu le jour depuis, et ce afin de formaliser les différents domaines de la biologie.
OBO46 (Open Biomedical Ontologies) réunit en un site Web un ensemble d’ontologies qui ont
été définies dans différents domaines biomédicaux pour une utilisation en génomique et en
protéomique (Table 4). Certaines de ces ontologies sont génériques et s’appliquent à
différents organismes, alors que certaines sont plus spécifiques d’un domaine ou d’une
espèce.
Parmi ces ontologies, on trouve :
ƒ
ƒ
ƒ
SO (Sequence Ontology), pour la description des séquences (Eilbeck et al., 2005),
CL (Cell type ontology), pour la description des types cellulaires (Bard et al., 2005),
MGED (Microarray Gene Expression Data), pour la description des données issues de la
technologie des puces à ADN (Stoeckert et al., 2002).
Le succès des bio-ontologies est désormais prouvé, avec pour preuve le nombre croissant
des ontologies développées et leur utilisation accrue. On compte aujourd’hui près de 50 bioontologies répertoriées sur OBO.
L’heure est maintenant à l’interopérabilité de ces bio-ontologies, pour la confrontation des
différents domaines de la biologie. Ceci implique l’utilisation de langages formels, les
premières bio-ontologies ayant été développées en utilisant le langage naturel et manquant
ainsi de rigueur dans les définitions. Dans ce cadre, le projet GONG (Gene Ontology Next
Generation), vise à fournir des outils et des méthodes pour la migration des ontologies, dont
GO, vers OWL47 (Web Ontology Language, anciennement DAML+OIL) (Wroe et al., 2003).
OWL est un langage formel de description proposé par le W3C, il permet de représenter le
sens des termes et des relations d’un vocabulaire, c’est un langage d’ontologies Web. OWL
assure plus de sémantique que les langages XML ou RDF et RDFS pour une meilleure base
logique de description.
46
47
http://obo.sourceforge.net/
http://www.w3.org/TR/owl-features/
24
Domaine
Préfixe
Combinaison
Animal natural history and life history
ADW
non
Arabidopsis development
TAIR
oui
Arabidopsis gross anatomy
TAIR
oui
Biological imaging methods
FBbi
non
Biological process
GO
oui
BRENDA tissue / enzyme source
BTO
non
C. elegans development
WBls
oui
Caenorhabditis gross anatomy
[none]
non
Cell type
CL
oui
Cellular component
GO
oui
Cereal plant development
GRO
oui
Cereal plant gross anatomy
GRO
oui
Cereal plant trait
TO
non
Chemical entities of biological interest
CHEBI
oui
Context
PM
non
Dictyostelium discoideum anatomy
DDANAT
oui
Drosophila development
FBdv
oui
Drosophila gross anatomy
FBbt
oui
Evidence codes
ECO
non
eVOC (Expressed Sequence Annotation for Humans)
EV
non
Fungal gross anatomy
FAO
oui
Habronattus courtship
[none]
non
Human developmental anatomy, abstract version
EHDAA
oui
Human developmental anatomy, timed version
EHDA
oui
Human disease
DOID
non
Loggerhead nesting
[none]
non
Maize gross anatomy
ZEA
oui
Mammalian phenotype
MP
non
Medaka fish anatomy and development
MFO
oui
MESH
MESH
non
Microarray experimental conditions
[none]
non
Molecular function
GO
oui
Mouse pathology
MPATH
oui
Multiple alignment
RO
non
Mus adult gross anatomy
MA
oui
Mus gross anatomy and development
EMAP
oui
NCBI organismal classification
taxon
non
NCI Thesaurus
NCIt
non
OBO relationship types
OBO_REL
oui
PATO
PATO
oui
Physical-chemical methods and properties
FIX
non
Physico-chemical process
REX
non
Plant environmental conditions
EO
non
Plant growth and developmental stage
PO
oui
Plant structure
PO
oui
Plasmodium life cycle
PLO
oui
Protein covalent bond
CV
non
Protein domain
IPR
oui
Protein-protein interaction
MI
non
Sequence types and features
SO
oui
UniProt taxonomy
[none]
oui
Zebrafish anatomy and development
ZDB
oui
Table 4 – Liste des ontologies biomédicales OBO (extrait du site Web de OBO)
Les ontologies sont classées selon leur domaine. Le champ combinaison indique si oui ou non
l’ontologie peut être utilisée en combinaison avec d’autres pour former des ontologies composées par
le biais de références croisées.
25
OBO va également dans le sens de l’interopérabilité des ontologies, en imposant aux
concepteurs de bio-ontologies cinq conditions pour qu’une ontologie soit ajoutée au répertoire
OBO :
ƒ
ƒ
ƒ
ƒ
ƒ
Les ontologies doivent être d’accès libre, c'est-à-dire disponibles pour tous sans
contrainte ni licence pour leur utilisation.
Les ontologies doivent être décrites dans une syntaxe commune, c'est-à-dire OWL.
Les ontologies doivent être orthogonales avec celles déjà incluses dans OBO, cela
signifie que deux ontologies, par exemple, sur l’anatomie et les processus biologiques,
doivent pouvoir communiquer entre elles par l’ajout de nouvelles relations.
Les ontologies doivent adopter un identifiant unique qui doit être le préfixe de tous les
termes de l’ontologie.
Les ontologies doivent inclure des définitions précises de tous leurs termes.
3.3.
NOMENCLATURE FOURNIE PAR LE HGNC
L’hétérogénéité sémantique liée aux différents noms et identifiants associés aux gènes,
mentionnée en section II.2.2.2.2, fait obstacle à une intégration systématique d’informations
sur un gène donné. En effet, le problème de la « traçabilité » des documents qui relèvent
d’un même gène se pose.
C’est pour pallier à ce problème que dès 1979, des directives d’attribution de nomenclature
des gènes ont été publiées par le HGNC (HUGO (HUman Genome Organisation) Gene
Nomenclature Committee) (Shows et al., 1979). Le rôle de ce comité est d’assigner une
nomenclature complète et standardisée aux gènes. Son importance s’est accrue avec les
publications de la séquence du génome humain, devant faire face à une grande richesse
d’information.
Voici en résumé les directives établies par le HGNC :
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Chaque symbole de gène doit être unique.
Les symboles doivent représenter une forme courte (ou abréviation) du nom du gène.
Les symboles doivent contenir uniquement des lettres latines et des nombres arabes.
Les symboles doivent être dépourvus de ponctuation.
Les symboles ne doivent pas contenir la lettre G pour « gène ».
Les symboles ne doivent pas contenir de référence à l’espèce (par exemple H pour
Humain).
La nomenclature établie par le HGNC est disponible dans la base de données Genew48 (Wain
et al., 2004). Genew contient 22 000 entrées, 75% d’entres elles sont disponibles sur le Web
dans un fichier texte et peuvent être interrogées. Ce fichier peut également être téléchargé.
Chaque entrée contient 23 champs, incluant le nom, le symbole et l’identifiant attribués par le
HGNC, la localisation chromosomique, les anciens noms et symboles, les synonymes, et 14
liens vers d’autres sources telles que : Entrez Gene (anciennement LocusLink, qui propose
une vue unifiée sur le gène), OMIM™ (catalogue de maladies génétiques humaines), UniProt
(banque protéique), RefSeq (permet d’intégrer l’ensemble des séquences d’ADN, d’ARN et de
48
http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl
26
protéines d’une entrée) (Pruitt et al., 2005) et PubMed (banque d’articles scientifiques) du
NCBI (Wheeler et al., 2005).
Ces liens vers d’autres sources externes sont qualifiés de cross-références, elles permettent
d’accéder aux informations publiques complémentaires autour d’un gène. Un exemple de
résultat de requête faite sur la base de données Genew est illustré figure 8.
Figure 8 – Exemple de résultat de requête effectuée sur Genew
La requête a été faite avec le symbole HEPC. La fiche ainsi délivrée rassemble les informations de
nomenclature fournie par le HGNC, ainsi que divers liens vers des banques de données. Le symbole
approuvé par le HGNC est HAMP, le nom approuvé est hepcidin antimicrobial peptide. Les 2
synonymes sont HEPC et LEAP-1, l’un d’entre eux est la base de notre requête initiale.
27
III. LES APPROCHES D’INTÉGRATION EN
BIOINFORMATIQUE
Depuis que la navigation manuelle au sein des sources ne suffit plus à résoudre les questions
complexes que se posent aujourd’hui les biologistes, de nombreuses solutions au problème
de l’intégration des sources de données ont été proposées. Des systèmes d’intégration ont
été développés pour fournir un accès unique via une même interface à plusieurs sources de
données, tout en palliant au problème de leur hétérogénéité. Ces systèmes suivent différentes
approches, qui varient sur différents points (Hernandez and Kambhampati, 2004).
1. POINTS DE VARIATION ENTRE LES APPROCHES D’INTÉGRATION
On distingue les différentes approches d’intégration selon plusieurs critères que sont le type
de données qu’elles intègrent, le niveau de transparence fourni à l’utilisateur, le degré
d’intégration sémantique et enfin la méthodologie générale de développement. Il est important
de noter que certaines qualifications en impliquent ou en induisent une autre. Par exemple, la
transparence de schéma implique l’existence d’un schéma intégré.
1.1.
FORMATS DES DONNEES INTÉGRÉES : STRUCTURÉES, SEMI-STRUCTURÉES OU
NON-STRUCTURÉES
Les systèmes d’intégration peuvent autoriser ou non l’intégration de données structurées,
semi-structurées ou non-structurées.
Des données structurées ont un schéma prédéfini, où chaque item est défini à partir de
l’élément du schéma qui lui correspond.
Des données semi-structurées ont une structure mais qui n’est pas définie sous la forme d’un
schéma (Buneman, 1997). Chaque item contient sa propre sémantique généralement sous la
forme d’un label. Toutefois, la somme de tous les labels des données semi-structurées peut
être considérée comme son schéma.
Les données non-structurées n’ont aucune structure, comme des documents textuels, des
images ou des tableaux de données.
28
1.2.
INTÉGRATION SERRÉE VERSUS INTÉGRATION LÂCHE
Dans les systèmes d’intégration, on distingue l’intégration serrée (forte ou tight) pour laquelle
les données des sources sont intégrées dans un schéma global de l’intégration lâche (légère
ou loose) qui ne fournit pas de schéma, mais uniquement un langage pour interroger le
contenu des sources de données. Ainsi, l’intégration serrée fournit un schéma, un langage et
une transparence d’interface alors que l’intégration lâche n’offre que la transparence.
1.2.1.
L’intégration serrée
L’intégration serrée fournit un schéma unifié (intégré ou global) comme interface du système.
Ce schéma peut être créé selon un processus (semi-)automatique ou peut être créé ad-hoc. Il
peut couvrir l’ensemble des données des sources ou uniquement une partie, mais doit
conserver la sémantique des sources de données pour ensuite permettre la pertinence des
requêtes. Pour assurer l’équivalence sémantique avec les sources de données et le système
d’intégration, il faut établir des correspondances entre le schéma global et les schémas des
sources (discuté en section III.2.2.1.6.(3)). Ces correspondances peuvent être exprimées par
des ontologies ou des définitions de règles. Elles peuvent être exprimées à l’aide de langages
ou bien inférées de manière automatique.
Ce type d’intégration a l’avantage d’éviter à l’utilisateur de devoir connaître tous les schémas
des sources de données, mais plutôt d’avoir une connaissance unique du schéma global.
D’un autre côté, il faut définir les correspondances entre les schémas des sources et le
schéma global, ceci nécessitant l’implication d’experts du domaine.
1.2.2.
L’intégration lâche
L’intégration lâche ne fournit pas de schéma global pour l’interrogation du système, mais un
langage de requête uniforme qui masque ainsi l’hétérogénéité des sources de données. C’est
alors à l’utilisateur de gérer cette hétérogénéité lors de ses requêtes. Pour faciliter l’accès aux
données, ce type de système fournit généralement des vues intégrées. Les utilisateurs
peuvent en effet définir des vues sur certaines données qui peuvent ensuite être accessibles
pour des requêtes.
Certains systèmes utilisent beaucoup les vues, certaines étant définies par des experts du
domaine, ils peuvent ainsi être considérés comme des systèmes d’intégration forte. Le
principal critère pour discerner les deux approches, c’est la visibilité ou non pour les
utilisateurs des schémas des sources. Si dans l’intégration serrée, ils ne sont jamais visibles,
ils sont au contraire toujours visibles dans l’intégration lâche.
29
1.3.
LE MODÈLE DE DONNÉES DU SYSTÈME D’INTÉGRATION
Un système d’intégration repose sur un modèle de données. Le modèle est le schéma global
dans le cas d’une intégration serrée, et il se base sur le langage de requête utilisé pour
accéder aux sources dans le cas d’une intégration lâche.
Le modèle de données réduit les types de données qui peuvent être intégrés dans le système
d’intégration à cause de certaines impossibilités de transformations entre certains modèles.
En effet, des incompatibilités surviennent si des données semi-structurées sont intégrées
dans un système de données structurées. De même, des problèmes surviennent si des
données provenant d’un modèle hautement sémantique doivent être intégrées dans un
modèle plus pauvre. Par exemple, intégrer un schéma orienté objet dans un schéma
relationnel induit une perte de connaissance, dans le sens inverse, ceci conduit à un
enrichissement sémantique.
1.4.
LES TYPES D’INTÉGRATION SÉMANTIQUE
Certains systèmes intègrent des sources de données complémentaires ne présentant pas
d’objets équivalents et exportent donc certaines parties des schémas de celles-ci. D’autres
systèmes, au contraire, intègrent des sources de données ayant des contenus chevauchants.
Une agrégation d’information est alors requise pour identifier des objets équivalents d’un point
de vue sémantique, c'est-à-dire décrivant le même concept. L’intégration d’informations
complémentaires est appelée « intégration horizontale » tandis que l’intégration de données
chevauchantes est appelée « intégration verticale » (Sujansky, 2001). Dans le cas d’une
intégration verticale, on distingue différents niveaux d’intégration sémantique selon que les
données sont – collectées, sans aucune recherche d’équivalence parmi les objets issus des
différentes sources ou – fusionnées afin d’identifier des objets provenant de sources
différentes mais équivalents d’un point de vue sémantique ou – supplémentées si des
données supplémentaires à celles déjà intégrées viennent décrire le contenu ou la
sémantique des données déjà intégrées, on parle de alors de méta-données sémantiques.
1.5.
LE NIVEAU DE TRANSPARENCE
Un des avantages d’un système d’intégration c’est la transparence pour l’utilisateur. Un parfait
système d’intégration donne l’illusion aux utilisateurs d’interagir avec un système central, local
et homogène. On distingue plusieurs niveaux de transparence :
La transparence de localisation – Les utilisateurs n’ont besoin de connaître ni la localisation
de la source de données consultée, ni son nom.
La transparence de schéma – Les utilisateurs n’ont pas besoin de connaître les différentes
appellations fournies par différentes sources de données pour une même entité biologique, et
ses qualificatifs.
30
La transparence de langage – L’interrogation du système ne nécessite pas d’expertise de la
part des utilisateurs en ce qui concerne les langages de requêtes.
Il y a clairement un lien entre le traitement de l’hétérogénéité, décrit en section II.2.2, et le
niveau de transparence fourni par un système d’intégration de données. En effet, la
transparence de schéma est fournie si le problème de l’hétérogénéité sémantique est résolu,
alors que la transparence de langage et de localisation survient si on résout les problèmes
liés à l’hétérogénéité syntaxique.
1.6.
ASCENDANTE (BOTTOM-UP) VERSUS DESCENDANTE (TOP-DOWN)
On distingue deux manières de construire un système d’intégration : top-down, où l’on part de
l’information souhaitée, pour ensuite chercher les sources pouvant répondre aux besoins, ou
bottom-up, où l’on part de la volonté d’intégrer plusieurs sources de données. Ainsi, dans les
approches top-down, les schémas des sources importent peu pour la conception du schéma
global. Ils seront seulement pris en compte dans un second temps quand les
correspondances entre le schéma global et les schémas des sources seront établies pour
permettre l’exécution de requêtes. Dans l’approche bottom-up, il faut que le schéma global
fournisse une vue conciliée des différentes sources, impliquant une bonne connaissance au
préalable des schémas des sources de données.
1.7.
INTÉGRATION VIRTUELLE VERSUS MATÉRIALISÉE
Certains systèmes suivent une approche virtuelle ou non matérialisée dans laquelle les
données restent au niveau des sources et où les seules données matérialisées sont les
résultats des requêtes au moment où elles sont exécutées. Ce type d’approche nécessite une
transformation des requêtes posées au schéma global en une ou plusieurs requêtes qui
seront distribuées dynamiquement aux sources concernées.
Certains systèmes au contraire, suivent une approche matérialisée, dans laquelle ils
récupèrent les données partielles ou complètes des sources pour les stocker localement et
les combiner dans un schéma global.
1.8.
ACCÈS AUX DONNÉES
Un utilisateur accède aux données du système d’intégration selon différentes méthodes
pouvant être soit un langage de requête de type SQL ou OQL, soit par le biais de la
navigation, spécialement dans les systèmes basés sur le Web.
31
2. LES APPROCHES EN BIOINFORMATIQUE
On classe généralement les systèmes d’intégration développés dans le contexte de la
bioinformatique sous deux grandes catégories : les approches matérialisées, et les approches
non matérialisées. Les approches non matérialisées incluent les approches de médiation, les
systèmes de bases de données fédérées, et les approches navigationnelles alors que les
approches matérialisées concernent les entrepôts de données.
2.1.
L’APPROCHE NON MATERIALISÉE
Dans l’approche non matérialisée, on distingue tout d’abord les portails, dans lesquels sont
regroupés, au sein d’un même site Web, l’accès à diverses banques. Ainsi, les banques de
données du NCBI sont actuellement toutes accessibles par le portail Entrez49. De même,
ExPASy50 (Expert Protein Analysis System) (Gasteiger et al., 2003), construit autour de
Swiss-Prot, est un portail vers un ensemble de sources protéomiques. Certains sites Web
proposent un accès unifié et convivial à un ensemble de données complémentaires. Ainsi,
GeneCards®51 (Rebhan et al., 1997; Shklar et al., 2005) regroupe un ensemble d’informations
permettant une vue générale de la connaissance sur les gènes du génome humain.
Les portails offrent un moyen de masquer l’hétérogénéité des sources, et sont très utilisés
pour accéder à des informations centralisées. Ceci dit, ce type d’approche est très limité en
termes de puissance d’interrogation (Baker et al., 1998; Karp, 1995).
Dans les sections suivantes nous présentons deux types d’approches non matérialisées
utilisées en bioinformatique, la médiation et l’approche navigationnelle.
2.1.1.
La médiation
2.1.1.1. Principe de l’approche de médiation
La notion de médiation a été introduite par Wiederhold. Elle consiste à définir une interface
entre un utilisateur qui pose une requête et l’ensemble des sources accessibles via le Web
potentiellement pertinentes pour répondre (Wiederhold, 1992). L’objectif est de donner
l’impression d’interroger un système centralisé et homogène alors que les sources interrogées
sont réparties, autonomes et hétérogènes.
49
http://www.ncbi.nlm.nih.gov/Entrez
http://www.expasy.org/
51
http://www.genecards.org/
50
32
Un système de médiation est composé d’un médiateur et d’adaptateurs (wrappers) qui sont
spécifiques à une source donnée (Figure 9). Le médiateur est constitué d’un schéma global
(ou ontologie) qui représente le domaine d’application du système, il reçoit la requête de
l’utilisateur dans le langage de requête global. La requête est traitée au niveau du médiateur.
La phase de réécriture consiste à identifier les sources pertinentes à utiliser pour répondre à
la requête, et à établir un plan de requête. Ce dernier décompose la requête globale en sousrequêtes propres à chaque adaptateur et indique comment les combiner pour former le
résultat final. Chaque adaptateur reçoit sa sous-requête, exprimée selon son propre schéma
local. Il la traduit pour interroger la source locale de données.
Requêtes et réponses
Moteur
de
requêtes
Schéma
global 1
Vue
Vue
Vue
source source source
1
i
n
Médiateur
Réécritures et réponses
Adaptateur 1
Schéma
local 1
Adaptateur i
Adaptateur n
Schéma
local i
Schéma
local n
Figure 9 – Architecture d’un système médiateur
33
Les systèmes de médiation sont caractérisés par la manière dont les schémas des sources
sont liés au schéma global (Levy, 1999). On distingue deux approches différentes (figure 10).
GAV
LAV
Schéma global
Source de données
Schéma global
Source de données
Source de données
Source de données
Figure 10 – Les approches GAV (Global As View) et LAV (Local As View)
Les angles indiquent des définitions de vues. Dans l’approche GAV les classes du schéma global sont
définies comme des vues sur les schémas locaux des sources. Dans l’approche LAV, les classes des
schémas locaux des sources sont définies comme des vues sur le schéma global.
La première approche, dite GAV (Global As View) consiste à définir le schéma global comme
une vue sur les schémas locaux des sources. La réécriture des requêtes est simple. Elle
consiste à remplacer les termes de la requête globale par leurs définitions dans les vues
locales. Par contre, il est difficile d’ajouter de nouvelles sources au système. En effet, il faut
tenir compte des modifications que vont porter les nouvelles relations dans l’expression du
schéma global. Ceci revient pratiquement à réécrire toutes les relations de ce schéma. Dans
la seconde approche, dite LAV (Local As View) les sources locales sont définies comme des
vues sur le schéma global. Avec cette approche, la réécriture des requêtes est en général
plus complexe. En revanche, l’ajout d’une nouvelle source est facilité car il n’a pas de
répercussion sur le schéma global.
La médiation est largement utilisée comme solution d’intégration non matérialisée en
bioinformatique. Cependant, quelques systèmes ont été développés avant l’essor de la
médiation et suivent plutôt une approche de type bases de données fédérées. Selon cette
approche, chaque schéma d’une base de données à fédérer est transformé en schéma
« composant » basé sur le modèle de données commun du système. Cette transformation
permet d’avoir tous les schémas des bases à fédérer exprimés dans un même modèle de
données. Des « schémas d’export » représentant des sous-ensembles d’un « schéma
composant » sont construits. Ils représentent l’ensemble des données mises à la disposition
du système fédéré. Enfin, des « schémas fédérés » sont bâtis à partir de plusieurs « schémas
d’export » pour répondre aux besoins des différentes applications liées au système fédéré.
Parmi les systèmes développés selon l’approche bases de données fédérées, citons TINet un
système d’intégration orienté séquences génomiques (Eckman et al., 2001).
34
2.1.1.2. Systèmes utilisant l’approche de médiation
(1) K2/Kleisli
Le système K2 (Davidson et al., 2001), initialement BioKleisli (Davidson et al., 1997) a été
développé à l’Université de Pennsylvanie, il est l’un des premiers systèmes de médiation a
avoir vu le jour en bioinformatique.
Le médiateur de BioKleisli repose sur un langage de requête de haut niveau, plus expressif
que le SQL et qui permet d’interroger plusieurs sources : le CPL (Collection Programming
Language) (Hart et al., 1994). En effet, le langage CPL permet de décomposer une requête
complexe en sous-requêtes qui vont être distribuées aux sources concernées par le biais
d’adaptateurs. Le système permet d’interroger autant de sources qu’il intègre d’adaptateurs.
Ainsi, il intègre les données sur les voies métaboliques de KEGG52 (Kyoto Encyclopedia of
Genes and Genomes) (Kanehisa and Goto, 2000) et EcoCyc53 (Encyclopedia of Escherichia
coli) (Keseler et al., 2005), sur les séquences nucléiques de GenBank et dbEST54 (Expressed
Sequence Tags database) (Boguski et al., 1993), des données spécifiques d’organismes de
MGD et de GDB55 (human Genome DataBase) (Pearson et al., 1992), des données issues de
la recherche de similarités de séquences en utilisant BLAST (Altschul et al., 1990) et
l’ensemble des données indexées par SRS56 (Sequence Retrieval System) (Zdobnov et al.,
2002). BioKleisli est basé sur un schéma orienté objet.
Dans K2, la nouvelle version de BioKleisli, le langage CPL a été remplacé par OQL, un
langage plus couramment utilisé car plus proche de la syntaxe du SQL. Un autre aspect
intéressant de K2 est la possibilité pour l’utilisateur de définir des vues sur les données non
seulement par le biais de requêtes OQL, mais également par la création de nouvelles classes
objet. C’est le langage K2MDL (K2 Mediator Definition Language), combinaison du langage
ODL (Object Definition Language) et de la syntaxe OQL qui permet à l’utilisateur de créer de
nouvelles classes en spécifiant comment leurs attributs sont instanciés par les sources de
données. Ces nouvelles vues peuvent ensuite être interrogées par OQL.
2.1.1.3. TAMBIS
Le système TAMBIS a été développé à l’université de Manchester (Baker et al., 1998).
L’originalité du système est d’être basé sur une ontologie, Tambis Ontology (Baker et al.,
1999) ou TaO qui permet à l’utilisateur de définir sa requête via une interface en s’appuyant
sur les concepts définis dans TaO.
TaO exprime les concepts majeurs de la biologie en utilisant la logique de description GRAIL
(Rector et al., 1997). Les concepts sont organisés en hiérarchie, et les rôles assurent des
relations binaires entre concepts. Ainsi, lorsqu’un utilisateur pose une requête, il explore
52
http://www.genome.ad.jp/kegg/
http://ecocyc.org/
http://www.ncbi.nlm.nih.gov/dbEST/
55
http://gdbwww.gdb.org/
56
http://srs.ebi.ac.uk/
53
54
35
l’ontologie et choisit la combinaison de concepts et de rôles nécessaires à la formulation de
sa requête. Par exemple, pour connaître un type particulier de motif dans une protéine, les
concepts ‘Motif’ et ‘Protein’ et le rôle ‘IsComponentOf’ qui les associe sont sélectionnés ; un
nouveau concept est construit automatiquement dans le langage GRAIL. Ce nouveau terme
est positionné dans la hiérarchie de concepts de TaO. En fonction de sa position, un plan
d’exécution de requêtes prédéfinies est généré correspondant à un ensemble de sous
requêtes à soumettre à des sources différentes. Ces requêtes sont converties dans le
langage CPL de K2, assurant ainsi la transformation des requêtes pour adopter les
paramètres propres aux sources de données. Le résultat du plan de requêtes est ensuite
délivré à l’utilisateur au format HTML.
TaO a ensuite été traduite dans le langage DAML+OIL (anciennement OIL) (Stevens et al.,
2002), puis OWL qui sont des langages plus expressifs.
Ainsi, TAMBIS fournit un accès transparent aux sources de données où l’utilisateur n’a besoin
ni de connaître les sources à interroger pour une requête donnée, ni d’être familier avec un
langage de requête particulier.
2.1.1.4. BACIIS
Dans le même esprit que TAMBIS, le système BACIIS (Biological and Chemical Information
Integration System) utilise l’approche médiateur et repose sur une ontologie (Mahoui et al.,
2005). Les requêtes sont construites à partir des concepts de l’ontologie, puis décomposées
pour être distribuées aux sources requises. Chaque source est associée à un adaptateur qui
assure l’exécution de la requête sur la source concernée ainsi que la récupération des
résultats.
La particularité de BACIIS est l’intégration d’un plus grand nombre de sources de données.
Les concepteurs du système considèrent en effet que l’intégration de sources de données
chevauchantes, par exemple deux banques de données protéiques, permet d’obtenir des
résultats plus pertinents. En effet, BACIIS fournit des solutions au problème d’absence de
données dans certaines sources, et de conflits entre données dus aux inconsistances dans
les sources de données. Ceci est effectué par une évaluation de la correspondance
sémantique entre deux objets de sources différentes. Un algorithme permet d’éliminer les
données sémantiquement distantes dans le processus d’intégration.
36
2.1.2.
L’approche navigationnelle
2.1.2.1. Principe de l’approche navigationnelle
L’intégration navigationnelle ou « basée liens » est fondée sur l’existence de liens entre les
données représentées dans différentes sources du Web. Ces liens sont rendus possibles par
la présence de références qui permettent à un utilisateur de passer d’une source à une autre
et donc d’une donnée à une autre (Figure 11).
Source 1
Source 2
Entrée A
Entrée B
Référence 1
Référence X
Référence 2
Référence Y
Référence 3
Figure 11 – Connection entre deux sources via une référence
Chacune des deux sources 1 et 2 contient un ensemble d’entrées comportant plusieurs références. La
référence 1 de la source 1 permet de lier la source 1 avec la source 2.
Dans l’approche d’intégration navigationnelle, les requêtes des utilisateurs sont transformées
en chemins où un chemin correspond à une suite de références permettant d’accéder à
l’information finale attendue. C’est une approche intéressante puisqu’elle peut permettre
d’accéder à des informations uniquement accessibles par le biais d’une navigation au sein de
plusieurs sources (Friedman et al., 1999). Il faut noter que pour une même requête, plusieurs
chemins peuvent accéder à une réponse, chacun ayant son propre niveau de satisfaction à
évaluer.
L’approche navigationnelle ne sous-entend pas une modélisation des données elles-mêmes
mais plutôt une modélisation représentant les sources comme un ensemble de pages avec
des interconnections et des points d’entrée, ainsi que des informations complémentaires telles
que la spécification du contenu des sources, des éventuelles contraintes de chemins, et des
paramètres facultatifs et obligatoires d’entrée (Hernandez and Kambhampati, 2004).
Le succès de l’approche navigationnelle en bioinformatique provient de l’existence d’un grand
nombre de liens entre les données. Ces liens sont largement utilisés par les chercheurs pour
naviguer d’une source à une autre afin de trouver une information. Par exemple, un chercheur
qui souhaite des informations sur les protéines impliquées dans une pathologie donnée va
naturellement traverser plusieurs sources telles que OMIM™, Entrez Gene et UniProt.
Cependant, ce procédé de navigation devient vite impossible si la recherche doit s’effectuer
en masse. Des systèmes d’intégration utilisant l’approche navigationnelle ont donc été
développés.
37
2.1.2.2. Particularités de l’approche navigationnelle en bioinformatique
(1) La diversité de liens
Les liens entre les données génomiques sont de natures variées.
On distingue dans un premier temps les liens qui conduisent à des informations sur une
même entité (par exemple, Protéine à Protéine, de Swiss-Prot à Protein du NCBI) des liens
qui apportent des informations sur une autre entité (par exemple, Gène à Pathologie de
GenBank à OMIM™).
Ensuite, on distingue les liens internes permettant d’accéder à des données d’une même
source (par exemple, GenBank vers GenBank) des liens externes permettant d’accéder à des
données d’une autre source (par exemple GenBank vers AmiGO). Les liens externes sont
également qualifiés de références croisées, ou cross-références, ils ne sont pas
nécessairement symétriques. Il y a par exemple un grand nombre de sources qui crossréférencent GenBank et qui ne sont pas référencées en retour.
Enfin, on distingue les liens matérialisés par des liens hypertextes qui assurent une navigation
d’une source à une autre, des liens matérialisés par des identifiants qui nécessitent alors une
connection manuelle aux sources.
(2) La diversité des chemins
Pour une requête donnée, il existe un très grand nombre de chemins possibles au travers des
sources. En effet, considérons par exemple la requête « lister toutes les citations de PubMed
qui sont reliées à une entrée OMIM™ relevant de telle pathologie ». Pour répondre à une telle
requête, un biologiste (ou un moteur de requêtes) doit naviguer au sein de plusieurs sources.
Il est possible de partir d’OMIM™ qui contient des informations sur les maladies génétiques
humaines, puis d’utiliser les différentes sources du NCBI.
La figure 12 illustre le graphe de liens existants entre les différentes sources du NCBI
requises pour répondre à la requête.
z
OMIM (pathologie)
Protein (protéine) z
z
z
GenBank (séquence
nucléotidique)
PubMed (citation)
Figure 12 – Graphe de liens entre les sources du NCBI (adapté de (Lacroix et al., 2004a))
Les points représentent les sources du NCBI (et les entités correspondantes). Les flèches représentent les
liens entre les sources.
38
En partant d’OMIM™, et en effectuant une recherche par mot clé sur une maladie donnée,
différents chemins sont possibles pour accéder aux citations PubMed.
Il est possible d’accéder directement aux citations PubMed à partir d’OMIM™, mais il est
également possible d’utiliser des sources intermédiaires, générant ainsi plusieurs chemins. Au
total, on trouve cinq chemins entre OMIM™ et PubMed en utilisant le graphe de la figure 12.
Ces chemins sont représentés sur la figure 13.
(C1) OMIM D PubMed
(C2) OMIM D GenBank D PubMed
(C3) OMIM D Protein D PubMed
(C4) OMIM D GenBank D Protein D PubMed
(C5) OMIM D Protein D GenBank D PubMed
Figure 13 – Les cinq chemins (C1 à C5) depuis OMIM jusqu’à PubMed en utilisant le graphe
de la figure 12 (adapté de (Lacroix et al., 2004a))
Or le choix des chemins a un impact sur le résultat, que ce soit sur le plan qualitatif ou
quantitatif (Lacroix et al., 2004a). Par exemple, utiliser un chemin passant par la source
Protein (Figure 13, chemin C3) peut amener plus de citations qu’un autre chemin passant par
la source GenBank (Figure 13, chemin C2). Le résultat va dépendre directement des sources
intermédiaires du chemin et donc des entités biologiques correspondantes traversées et du
contenu de chaque source.
2.1.2.3. Systèmes utilisant l’approche navigationnelle
Les systèmes développés utilisant l’approche navigationnelle varient en fonction de plusieurs
critères. On constate différents niveaux de transparence laissés à l’utilisateur pour le choix
des sources à interroger, une prise en compte ou non des différents chemins traversant les
sources pouvant être générés pour une même requête, et la manière dont sont évalués ces
différents chemins.
(1) Le système SRS
SRS (Sequence Retrieval System) est un système qui a été initialement développé par
l’EMBL puis par l’EBI afin de faciliter l’accès aux banques de séquences (Etzold and Argos,
1993; Etzold et al., 1996). Depuis 1999, SRS est valorisé et commercialisé par LION
Bioscience AG57. Il permet aujourd’hui d’interroger à l’aide d’une même interface, 400
banques de données (Zdobnov et al., 2002).
57
http://www.lionbioscience.com/
39
SRS est plus un système de recherche par mot clé qu’un véritable système d’intégration. En
effet, son approche d’intégration repose sur l’utilisation du langage de description et
d’exploration des données ICARUS (Interpreter of Commands And Recursive Syntax) qui
permet d’indexer toute source de données structurée. Ce langage est d’abord utilisé pour
parcourir les sources de données structurées afin d’identifier les données qui y sont décrites
puis créer des index pour chacune de ces données. Ces index sont stockés localement et
sont utilisés lors des interrogations pour la recherche d’informations. Même si ces index sont
stockés localement, SRS ne constitue pas un entrepôt de données puisque les données ellesmêmes ne sont pas intégrées.
Ainsi, le principal avantage de ce système est la possibilité de pouvoir indexer en même
temps une grande quantité de banques sans se soucier de l'organisation de celles-ci et donc
de pouvoir manipuler avec le même langage les principales banques généralistes et
beaucoup de banques spécialisées.
ICARUS autorise la création automatique d’un réseau de cross-références, permettant ainsi la
navigation inter-banques. Cette fonctionnalité fait qu’il est possible de relier entre elles des
collections ne présentant pas directement de cross-références.
La formulation de requêtes via SRS se fait par l’intermédiaire d’une interface Web. SRS
propose aux utilisateurs de choisir la source de données à interroger, ainsi que le mot clé ou
la séquence à rechercher. Plusieurs critères de sélection ou plusieurs sources peuvent être
utilisés par le biais d’opérateurs logiques ET, OU et NON. SRS délivre le résultat de la
recherche ainsi que toute information relative à la requête en exploitant le réseau de crossréférences. L’utilisateur peut ainsi accéder (par simples clics) à des informations
complémentaires contenues dans d’autres sources.
Si SRS utilise les cross-références présentes dans les sources de données biologiques pour
satisfaire au mieux les requêtes, ce système n’offre aucune transparence au niveau des
sources, et n’exploite en aucun cas la diversité de chemins pouvant être générée pour une
même requête.
Ce sont Mork et al. qui les premiers ont proposé une approche transparente et tenant compte
des différents chemins générés pour répondre à une requête donnée (Mork et al., 2001). Ils
ont ainsi développé le système BioMediator (Donelson et al., 2004; Mork et al., 2005; Shaker
et al., 2004). Lacroix et al. ont ensuite introduit les défis d’estimation (Lacroix et al., 2004a) et
d’optimisation des chemins (Lacroix et al., 2004b) en développant le système BioNavigation.
Ces deux systèmes sont discutés ci-dessous.
(2) Le système BioMediator
Le système BioMediator, initialement GeneSeek (Mork et al., 2001), a été développé à
l’université de Washington.
Les concepteurs de BioMediator optent pour un niveau de transparence où l’utilisateur
dépose une requête au système, puis récupère son ou ses résultats sans avoir à spécifier les
chemins à parcourir et donc les sources à interroger. Plusieurs chemins peuvent être
parcourus pour répondre à une même requête, et l’ensemble des résultats par chemin est
délivré à l’utilisateur. Les concepteurs assurent également l’intégrité des sources, puisque les
40
sources sont interrogées à distance lors de l’exécution des requêtes, faisant ainsi de
BioMediator un système hybride entre l’approche navigationnelle et l’approche médiateur.
Le fonctionnement du système BioMediator est le suivant : BioMediator définit des graphes où
les nœuds représentent des entrées de sources biologiques et où les arêtes représentent les
relations qui relient entre elles les entrées des différentes sources biologiques. Lors de
l’exécution d’une requête, c’est ce graphe qui est traversé, permettant ainsi de relier deux
entrées d’intérêt, ceci en concaténant différents chemins ou arêtes du graphe.
L’architecture de Biomediator se divise en plusieurs composants et repose principalement sur
une base de connaisance qui est représentée en Protégé, et accessible via l’API* (Application
Programming Interface) de Protégé. La base de connaissance contient :
ƒ
Un schéma de médiation qui comprend une hiérarchie de classes permettant de
décrire les entités biologiques (exemple de classes : Gène, Protéine) et une hiérarchie
de propriétés correspondant aux relations pouvant exister entre les entités biologiques
(exemple : code pour, associé à). La figure 14 illustre un exemple simple de schéma de
médiation.
Phénotype
associé à
cause
Structure
structural
Protéine
Gène
contient
code
Séquence
nucléique
reliè à
Figure 14 – Exemple de schéma de médiation (adapté de (Mork et al., 2002))
Les ovales représentent des entités biologiques et les flèches, les relations entre ces entités. La relation
‘relié à’ relie toute entité à une autre.
ƒ
ƒ
Le catalogue de toutes les sources ainsi que les entités du schéma de médiation
contenues par ces sources.
Des informations décrivant les cross-références entre sources.
Il faut noter que cette base de connaissance peut être modifiée. Les utilisateurs peuvent ainsi
orienter le système en fonction de leurs besoins et de leurs thématiques, en ajoutant de
nouvelles entités, relations et sources de données.
Ensuite un générateur de requête fournit une API pour que l’utilisateur formule des requêtes à
effectuer sur la base de connaissance. Ce générateur a l’originalité d’utiliser le langage de
requêtes PQL, spécialement développé par Mork et al. pour ainsi faciliter la construction de
chemins au travers de sources (Mork et al., 2002). PQL est un langage dérivé du StruQL, un
langage de requête pour données semi-structurées, permettant de construire des chemins au
travers des relations d’un document (Fernandez et al., 1997). Alors que StruQL implique
d’énumérer manuellement tous les chemins possibles, PQL contient des règles qui seront
utilisées pour construire les chemins, évitant ainsi de déterminer les sources à interroger.
41
Le metawrapper transforme les requêtes faites sur le schéma de médiation en requêtes
effectuées sur les sources et les wrappers appliquent les requêtes aux sources de données
elles-mêmes. Les résultats de la requête sont ensuite délivrés en format natif, c’est-à-dire
propre à la source (par exemple HTML ou ASN.1), puis convertis en XML par les wrappers, et
finalement présentés sous une forme plus conviviale par le processeur de requête. Les
résultats consistent en un ou plusieurs chemins, ainsi que les données retrouvées par ces
différents chemins.
Mork et al. ont au départ cherché à déterminer la validité des différents chemins (Mork et al.,
2001). Pour ce faire, ils ont utilisé comme critère, la cardinalité des références, qui correspond
au nombre d’entrées retrouvées par une référence, et ont attribué une confiance d’autant plus
haute que la cardinalité était réduite (Mork et al., 2002). Par la suite, Mork et al. ont préféré
que l’évaluation des « bons chemins » soit faite par l’utilisateur plutôt que par le système luimême. Ainsi, avec PQL, le système délivre l’ensemble des chemins possibles, plutôt qu’une
liste réduite.
(3) Le système BioNavigation
BioNavigation est un système d’intégration également basé sur l’approche navigationnelle. Il a
été développé à l’université d’Arizona par Lacroix et al. (Lacroix et al., 2005).
Tout comme BioMediator, ce système utilise les ontologies afin d’éviter à l’utilisateur, lors
d’une interrogation, d’avoir à spécifier les sources à utiliser. D’après Lacroix et al., ceci permet
aux utilisateurs de ne pas restreindre leurs requêtes aux caractéristiques et aux limitations
des sources qu’ils ont l’habitude d’utiliser. Ainsi, BioNavigation utilise deux niveaux de
représentation : le niveau physique qui décrit les sources, leurs contenus et leurs liens entre
elles, et le niveau logique ou « ontologie BioNavigation » qui décrit les entités biologiques, les
relations entre ces entités ainsi que les correspondances avec les sources contenant ces
entités (figure 15).
L’ontologie permet à l’utilisateur de visualiser et de naviguer au sein des différentes entités
biologiques et ainsi de sélectionner graphiquement celles qui sont nécessaires à la
construction d’une requête. Un utilisateur souhaitant récupérer les citations discutant d’un
gène particulier va d’abord graphiquement sélectionner l’entité ‘Gène’ puis la relation ‘discuté
dans’ puis l’entité ‘Citation’.
42
A – Niveau physique (graphe de sources)
B – Niveau logique (graphe d’entités)
discuté dans
PubMed
GenBank
DDBJ
Citation
NCBI
Protein
GeneCards
discuté
dans
EMBL
Genew
discute
de
discute
de
code
pour
Gène
Pathologie
C - Exemples de correspondances entre entités et
sources
Protéine
Protéine
discuté
dans
SwissProt
Entité
Citation
Gène
discute de
impliqué dans
Source de données
PubMed
GenBank
EMBL
DDBJ
NCBI Protein
SwissProt
Figure 15 – Niveaux de représentation dans BioNavigation et correspondances entre entités
biologiques et sources de données (adapté de (Lacroix et al., 2004b))
Le niveau physique (A) correspond aux différentes sources et aux liens qui existent entre elles. Les ovales
et les flèches représentent respectivement les sources et les relations.
Le niveau logique (B) correspond aux entités biologiques et aux liens qui existent entre elles. Les ovales
et les flèches représentent respectivement les entités et les relations.
Les entités biologiques du niveau logique sont implémentées par une ou plusieurs sources possibles
décrites dans le niveau physique (C).
Tout comme BioMediator, BioNavigation fournit à l’utilisateur l’ensemble des chemins
possibles pour une requête donnée. Mais BioNavigation apporte une plus-value en
fournissant à l’utilisateur des moyens pour évaluer et optimiser les choix de chemins.
Lacroix et al. ont en effet démontré qu’en fonction du choix du chemin, différents facteurs
peuvent varier comme le coût en temps d’exécution de la requête, la qualité et la quantité des
résultats obtenus (Lacroix and Edupuganti, 2004). Toutefois, ils avancent qu’il n’y a pas un
seul « meilleur chemin » pour répondre à une requête, mais plutôt plusieurs meilleurs
chemins puisque plusieurs paramètres peuvent permettre d’évaluer la satisfaction d’un
chemin. Ainsi, dans BioNavigation, lors de l’exécution d’une requête, tous les chemins
possibles sont générés et sont classés selon trois paramètres :
La cardinalité du chemin – C’est le nombre d’instances de chemins du résultat. Pour un
chemin de longueur 1 entre deux sources S1 et S2, c’est le nombre de paires liées (e1,e2), où
e1 est une entrée de S1 et e2 de S2.
La cardinalité de la cible – C’est le nombre d’objets retrouvés dans la source finale.
Le coût de l’évaluation – C’est le coût total de la requête incluant le coût d’exécution locale
et les délais d’accession aux sources.
43
Le classement ainsi obtenu permet à l’utilisateur de sélectionner le chemin qui le satisfait au
mieux en fonction de ses besoins. En effet, la cardinalité du chemin reflète la probabilité qu’il
existe un chemin entre deux sources, la cardinalité de la cible indique le nombre de résultats
en sortie et le coût de l’évaluation guide l’utilisateur dans le choix du chemin le plus efficace
en temps.
(4) Le système BioGuide
Des travaux récents apportent une dimension nouvelle à l’approche navigationnelle, il s’agit
de la prise en compte des notions de préférence et de stratégies des utilisateurs (CohenBoulakia et al., 2005; Cohen-Boulakia et al., 2004). En effet, Cohen-Boulakia et al., par le
biais d’enquêtes, ont démontré que les scientifiques expriment des préférences concernant le
choix des sources à interroger et des outils à utiliser, et qu’ils interrogent les sources
différemment, utilisant donc différentes stratégies.
Les préférences – Les enquêtes ont permis d’identifier 30 critères déterminant la préférence
des utilisateurs, et permettant donc de filtrer et/ou de classer les chemins générés pour une
requête donnée. Parmi ces critères citons la fiabilité et la facilité d’utilisation.
Les stratégies – De manière naturelle un utilisateur souhaitant accéder au résultat d’une
requête impliquant plusieurs sources, va naviguer au travers les sources pour lier les
différentes entités biologiques impliquées dans la requête. Mais il existe des différences de
stratégies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entités
au sein des sources, ii) explorent des entités intermédiaires à celles contenues dans la
requête et iii) visitent une source donnée une seule fois.
Le système BioGuide fournit une interface permettant à un utilisateur de formuler ses propres
requêtes, mais également de régler ses propres paramètres de préférences et de stratégies.
Un utilisateur peut ainsi filtrer sur différents niveaux : les chemins, les entités ou les sources. Il
peut ensuite combiner différentes stratégies. Cohen-Boulakia et al. ont démontré qu’une telle
approche permet non seulement de rassembler un plus grand nombre d’informations, mais
aussi de confronter et donc de comprendre des données divergentes entre chemins différents
(Cohen-Boulakia et al., 2005).
2.2.
2.2.1.
L’APPROCHE MATERIALISÉE : ENTREPÔT DE DONNÉES
Principe de l’approche entrepôt de données
L’entrepôt de données (data warehouse) est un système d’information particulier, qualifié de
décisionnel, permettant à ses utilisateurs de disposer d’informations pertinentes et d’outils
d’analyse puissants pour faciliter la prise de décision. Le concept d’entrepôt est né dans
l’entreprise et plus spécifiquement dans les secteurs du commerce et du marketing où pour
faire face à la concurrence, l’informatique décisionnelle s’est développée. Aujourd’hui,
l’utilisation de l’entrepôt de données s’est répandue dans divers domaines tels que, entre
autre, la biologie et la géographie.
44
2.2.1.1. Système d’information transactionnel versus décisionnel
L’entrepôt de données est différent des systèmes d’informations classiques qualifiés de
Systèmes d’Information transactionnel, car les besoins pour lesquels on veut le construire
sont différents (Franco, 1997).
Les systèmes d’information transactionnels sont communément appelés OLTP* (On Line
Transactionnel Processing) pour indiquer qu’ils servent à traiter des processus
transactionnels en ligne. Ces systèmes sont caractérisés par un nombre d’utilisateurs
important, des interrogations et des modifications fréquentes, et des volumes de données par
transaction relativement faibles. Dans ce cadre, le modèle de données est destiné à minimiser
les redondances pour préserver la fiabilité et la cohérence du système. De cette manière le
système garantit une réduction des temps d’exécution et facilite les procédures d’ajout, de
suppression et de modification.
À l'inverse, les entrepôts de données sont dédiés à la prise de décision. Ils sont qualifiés de
OLAP* (On Line Analytical Processing) car l’exploitation des informations contenues dans ces
systèmes est réalisée par des processus d’analyse en ligne des données (Codd, 1993). Ces
systèmes sont utilisés par un nombre restreint d’utilisateurs et privilégient le fait de pouvoir
poser une grande variété de requêtes de manière interactive et plus rapide qu’en OLTP sur
de grands volumes de données. Ces requêtes peuvent être simples, ou au contraire plus
complexes, permettant ainsi de mettre en relation des éléments qui a priori ne sont pas
corrélés au départ. Il faut donc une organisation qui permet de mémoriser de grands jeux de
données et qui facilite la recherche de connaissance. Ainsi, l’entrepôt de données est
entièrement construit selon une approche dimensionnelle. De plus, l’information qu’il contient
est mise à jour par des sources de données externes lors de procédures de chargement.
Aussi, le modèle de données doit assurer l’intégrité* des données lors de l’intégration. Ceci
implique une cohérence du schéma global de l’entrepôt et une alimentation réfléchie et
planifiée dans le temps.
2.2.1.2. La définition d’entrepôt
Inmon, précurseur du concept de l’entrepôt de données, fournit la définition suivante (Inmon,
2002) : « Le data warehouse est une collection de données orientées sujet, intégrées, non
volatiles, historisées et disponibles pour le support d’un processus d’aide à la décision. »
Orientation sujet – Les données d’un entrepôt s’organisent par sujets ou thèmes. L’intérêt de
ce type d’organisation est de disposer de l’ensemble des informations sur un sujet, et de
développer des analyses décisionnelles via une approche incrémentale sujet après sujet.
L’intégration des différents sujets dans une structure unique est nécessaire car les
informations communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique,
ce sont les datamarts* qui supportent l’orientation sujet, ils représentent physiquement des
sous-ensembles de l’entrepôt de données.
Données intégrées – Les données d’un entrepôt sont le résultat de l’intégration de données
en provenance de multiples sources. L’intégration implique une mise en forme et une
unification des données afin d’avoir un état de cohérence.
45
Données historisées – Dans une base de données, la donnée est mise à jour à chaque
nouvelle transaction. Dans un entrepôt de données, l’historique de la valeur des données est
conservé. Un référentiel de temps doit alors être associé aux données afin d’identifier les
valeurs particulières dans le temps.
Données non volatiles – La non volatilité est la conséquence de l’historisation décrite
précédemment. Une requête lancée à différentes dates, en précisant la date de référence de
l’information recherchée, donnera le même résultat. Les données sont non volatiles, elles ne
disparaissent pas après les mises à jour.
Données disponibles pour le support d’un processus d’aide à la décision – Des outils
d’analyse et d’interrogation doivent permettre aux utilisateurs de consulter facilement les
données.
Une schématisation de l’architecture d’un entrepôt de données est représentée figure 16.
Zone source
Zone de préparation
Extraction
Transformation
Chargement
Zone de présentation
Zone de restitution
Alimentation
Analyse
Sources de
données
Briques de
données
Datamarts
Outils d’analyse
(OLAP, data mining
et visualisation)
Figure 16 – Architecture d’un entrepôt de données
La zone de préparation des données représente un ensemble de processus chargés
d’extraire les données de la zone source, de les transformer, de les charger et de les stocker
dans l’entrepôt. La zone de présentation des données est chargée de répondre aux requêtes
émises par les utilisateurs. Elle offre donc des services d’interrogation contrairement à la zone
de préparation. C’est au niveau de la zone de présentation que se situent les datamarts,
alimentés depuis la zone de préparation et interrogés par les outils d’analyse de types OLAP,
fouille de données, communément appelée data mining et visualisation de la zone de
restitution.
46
Les données d’un entrepôt se structurent selon deux axes : synthétique et historique (figure
17).
Métadonnées
Données fortement agrégées
Niveau de
synthèse
Données agrégées
Données détaillées
z
z
Données détaillées historisées
Niveau
d’historique
Figure 17 - Architecture des données dans un entrepôt
L’axe synthétique établit une hiérarchie d’agrégation. Il comprend les données détaillées (qui
représentent les évènements les plus récents au bas de la hiérarchie), les données agrégées
(qui synthétisent les données détaillées) et les données fortement agrégées (qui synthétisent
à un niveau supérieur les données agrégées). L’axe historique comprend les données
détaillées historisées, qui représentent des évènements passés. Les méta-données
contiennent des informations concernant les données de l’entrepôt telles que leur provenance
et leur structure, ainsi que les méthodes pour réaliser l’agrégation.
2.2.1.3. La modélisation de l’entrepôt de données
La conception d’un entrepôt de données est très différente de celle des bases de données
transactionnelles, puisque les besoins en termes d’analyses sont différents. Un entrepôt de
données repose sur un modèle multidimensionnel de données.
(1) Le modèle multidimensionnel de données
Le modèle multidimensionnel de données est adapté aux besoins de l’analyse des données
d’un entrepôt. Ce modèle permet d’observer des données selon plusieurs perspectives ou
axes d’analyses. Ainsi, l’accès aux données par les utilisateurs est intuitif et l’interrogation
plus facile.
Le constructeur fondamental du modèle multidimensionnel est le cube de données. Un cube
organise les données en plusieurs dimensions* qui déterminent une mesure d’intérêt appelée
fait*. Une dimension spécifie la manière dont on regarde les données pour les analyser alors
qu’un fait est un objet d’analyse. Chaque dimension est formée par un ensemble d’attributs et
chaque attribut peut prendre différentes valeurs.
47
Les dimensions possèdent en général des hiérarchies associées qui organisent les attributs à
différents niveaux pour observer les données selon différentes granularités. Une dimension
peut avoir plusieurs hiérarchies associées, chacune spécifiant différentes relations d’ordre
entre ses attributs. Un exemple de cube de données est représenté figure 18.
Quantité
CyclineD1
Protéine
CyclineB
CyclineA
H24
Foie
Cerveau
H12
Rate
H0
Temps
Organe
Figure 18 - Exemple de cube de données
Dans ce cube, la mesure d’intérêt est la Quantité de Protéine produite dans un Organe à un Temps
donné. Le cube présente alors trois dimensions : Protéine, Organe et Temps. La mesure ou fait est la
Quantité de protéine.
(2) Les schémas de données
Le modèle multidimensionnel décrit précédemment est implanté directement par des
systèmes appelés SGBD* (Systèmes de Gestion de Bases de Données) pouvant être de
différents types, ils sont décrits dans la section suivante (section III.2.2.1.4).
Différents schémas peuvent être utilisés pour la représentation des données au sein de ces
SGBD. Ces schémas sont constitués du fait central et des dimensions. On distingue les
modèles en étoile, en flocon et en constellation (figure 19).
Modélisation en étoile – Une table centrale réunit tous les faits qui partagent le même
ensemble de dimensions, on parle de table de faits. Autour de cette table figurent tous les
éléments caractérisant les dimensions d’analyse. Ces caractéristiques sont regroupées dans
des tables de dimensions. Le modèle en étoile part du principe que ce sont principalement
les analyses des faits qui intéresseront l’utilisateur.
Modélisation en flocon – Le flocon est simplement une étoile dont les branches sont ellesmêmes décomposées en sous-hiérarchies. Modéliser en flocon c’est donc conserver le cœur
de l’étoile et affiner la modélisation des tables de dimensions pour les éclater en sous-tables.
Modélisation en constellation – Ce type de modélisation fusionne plusieurs modèles en
étoile qui utilisent des dimensions communes. Un modèle en constellation comprend donc
plusieurs faits et des dimensions communes.
48
Dimension 2
Attribut 1
Attribut 2
Dimension 1
Attribut 1
Attribut 2
Fait
Dimension 3
Mesure 1
Mesure 2
Attribut 1
Attribut 2
Dimension 4
Attribut 1
Attribut 2
Modèle en étoile
Catégorie
Attribut 1
Attribut 2
Dimension 2
Type
Attribut 1
Attribut 1
Attribut 2
Sous-type
Attribut 2
Attribut 1
Attribut 2
Sous-Cat
Attribut 1
Dimension 1
Attribut 2
Attribut 1
Attribut 2
Fait
Dimension 3
Mesure 1
Mesure 2
Attribut 1
Attribut 2
Ss-ss-Cat
Attribut 1
Dimension 4
Attribut 2
Attribut 1
Attribut 2
Modèle en flocon
Dimension A
Attribut 1
Attribut 2
Dimension 1
Attribut 1
Attribut 2
Fait 1
Dimension B
Fait 2
Dimension 2
Mesure 1
Mesure 2
Attribut 1
Mesure 1
Mesure 2
Attribut 1
Attribut 2
Dimension 2
Dimension 2
Attribut 1
Attribut 1
Attribut 2
Attribut 2
Attribut 2
Modèle en constellation
Figure 19 - Les différents schémas pour la représentation de données multidimensionnelles
49
2.2.1.4. Stockage et gestion
Les systèmes OLAP sont souvent classés par rapport au SGBD utilisé pour le stockage et la
gestion des données.
Les systèmes MOLAP (Multidimensionnal On Line Analytical Processing) – Ils utilisent un
SGBDM (SGBD Multidimensionnel) qui gère de manière native les structures
dimensionnelles. Ces systèmes présentent un temps de réponse faible aux calculs puisqu’ils
effectuent la pré-agrégation et le pré-calcul des données.
Les systèmes ROLAP (Relational On Line Analytical Processing) – Ils utilisent un SGBDR
(SGBD Relationnel). Dans ce cas, chaque fait correspond à une table et chaque dimension
correspond à une table. Ces systèmes peuvent stocker de grands volumes de données mais
peuvent présenter un temps de réponse élevé.
Les systèmes HOLAP (Hybrid On Line Analytical Processing) – Ils constituent des
systèmes hybrides ROLAP MOLAP. Dans ce cas, les données agrégées sont stockées dans
un SGBDM et les données détaillées sont stockées dans un SGBDR. Ainsi, il est possible de
gérer une grande quantité de données, et en même temps d’avoir un temps de réponse
acceptable.
Les systèmes OOLAP (Object On Line Analytical Processing) – Ils utilisent un SGBDO
(SGDBD orienté Objet). Un fait devient une classe de fait et une dimension devient une
classe de dimension. L’intérêt de l’approche OOLAP par rapport à ROLAP est sa plus
grande richesse de modélisation.
2.2.1.5. Analyse des données dans l’entrepôt
(1) Analyse multidimensionnelle
Les données dimensionnelles sont visualisées sous la forme d’un cube, qui représente un
schéma en étoile comportant trois dimensions (les trois dimensions du cube) et l’intersection
dans l’espace de ces axes constitue la mesure analysée. Bien sûr, lorsque le schéma
comporte plus de trois dimensions, il faut dessiner une forme à n dimensions, n étant le
nombre de dimensions du schéma en étoile considéré.
Ensuite, différentes opérations permettent de manipuler les données multidimensionnelles. Ce
sont les outils OLAP qui implantent ces opérations. On distingue les opérations classiques
(sélection, projection, produit cartésien, …), les opérations agissant sur la structure
multidimensionnelle (rotation, extraction) et les opérations agissant sur la granularité (forage).
OPÉRATIONS AGISSANT SUR LA STRUCTURE
Les opérations agissant sur la structure multidimensionnelle visent à changer le point de vue
des données observées.
Parmi les opérations les plus courantes, la rotation et l’extraction.
50
La rotation (slice) – Elle consiste à effectuer une rotation du cube, de manière à
représenter une face différente. La rotation est illustrée figure 20 ci-dessous.
Quantité
Quantité
Slice
Protéine
Organe
Foie
CyclineD1
Cerveau
CyclineB
CyclineA
Foie Cerveau Rate
H24
Rate
H24
H12
Temps
H0
H12
H0
CyclineA CyclineB CyclineD1
Organe
Figure 20 – La rotation
Temps
Protéine
L’extraction (dice) – Elle consiste à extraire une sous partie du cube de données, il en
résulte un sous-cube. L’extraction est illustrée figure 21 ci-dessous.
Quantité
Protéine
Quantité
Dice
CyclineD1
Protéine
CyclineD1
CyclineB
CyclineA
CyclineA
Foie Cerveau Rate
H24
H0
H24
H12
Temps
H0
Foie
Temps
Rate
Organe
Organe
Figure 21 – L’extraction
OPÉRATIONS AGISSANT SUR LA GRANULARITÉ
Le forage vers le haut (ou roll-up) – Il consiste à représenter les données du cube à un
niveau de granularité supérieur conformément à la hiérarchie définie sur la dimension. Une
fonction d’agrégation* (somme, moyenne, …) spécifiée pour la mesure et la dimension
indique comment sont calculées les valeurs du niveau supérieur à partir de celles du niveau
inférieur.
Le forage vers le bas (ou drill-down) – Il consiste à représenter les données du cube à un
niveau de granularité inférieur, donc sous une forme plus détaillée.
51
La figure 22 illustre un exemple de forage.
CyclineD1
Drill-down
CyclineB
CyclineA
Cyclines
Roll-up
Protéines du cycle
cellulaire
Figure 22 – Application des opérations roll-up et drill-down sur la dimension Protéine
(2) Data Mining
Le terme de data mining est souvent employé de manière abusive pour désigner des outils
permettant d’analyser des données volumineuses. En réalité, le terme de data mining doit être
attribué à un certain type d’analyse qui permet la recherche de connaissance cachée dans les
données, sous forme de modèles de comportement.
Contrairement aux outils OLAP, où l’utilisateur choisit les éléments qu’il veut observer ou
analyser, dans le cas du data mining, le système a l’initiative et découvre lui-même les
associations entre données, sans intervention de l’utilisateur. Il est alors possible de prédire
des évènements ou comportements, et de détecter des données inusuelles, exceptionnelles.
Plusieurs techniques de data mining ont été utilisées dans des outils statistiques spécialisés
pour l’analyse de quantités réduites de données, elles ont évolué pour s’intégrer avec les
entrepôts de données. Ainsi, le succès de l’entrepôt de données a dynamisé l’offre de data
mining.
D’un côté les techniques de data mining sont plus performantes lorsqu’elles sont utilisées
pour analyser les données d’un entrepôt, parce que les données de qualité qu’il intègre
évitent que l’outil passe du temps à faire des tâches préalables, tel que le nettoyage de
données. De l’autre côté, la capacité d’analyse unique que ces outils fournissent aux
utilisateurs de l’entrepôt provoque une augmentation de sa valeur stratégique.
2.2.1.6. Construction d’un entrepôt de données
D’après Inmon, « L’entrepôt de données n’est pas un produit ou un logiciel mais un
environnement. Il ne s’achète pas, il se bâtit. » (Inmon, 2002).
La construction d’un entrepôt de données se déroule en plusieurs étapes, et comprend la
définition des besoins, la conception du modèle de données, et enfin l’intégration des
données.
52
(1) La définition des besoins
Cette étape est préalable à l’implantation de tout nouveau système d’information. L’étude des
besoins doit déterminer le contenu de l’entrepôt et son organisation, ainsi que les requêtes
que les utilisateurs formuleront. Cette étape est réalisée par le biais d’interviews auprès des
futurs utilisateurs du système.
Les interviews permettent de recenser les données à étudier et dans quelles dimensions. Il
faut ensuite identifier les sources requises pour l’intégration de ces données.
La variété des besoins peut entraîner un découpage de l’entrepôt en plusieurs parties que
sont les datamarts.
(2) La conception du modèle de données
L’ambition de l’entrepôt de données est de fédérer un ensemble de données provenant de
sources variées, via un modèle global. La pertinence du système en termes de réponses aux
requêtes repose alors entièrement sur la pertinence de ce modèle global.
Pour réaliser ce modèle global, il faut agréger les données provenant des différentes sources.
Ainsi, des efforts sont à fournir pour :
ƒ
ƒ
ƒ
ƒ
ƒ
Respecter la fiabilité de l’information.
Respecter la cohérence des informations, une même donnée pouvant provenir de deux
sources différentes, il faut alors choisir la plus judicieuse.
Assurer la consolidation des informations, c'est-à-dire définir de manière unique une
donnée.
Unifier la représentation des données.
Vérifier la non-redondance des informations.
(3) L’intégration des données
L’intégration est la procédure qui permet de transférer les données des sources externes vers
l’entrepôt de données, en les adaptant. Elle est divisée en quatre étapes qui sont : 1)
l’extraction des données des sources, 2) la transformation des données aux niveaux structurel
et sémantique, 3) l’intégration des données et enfin 4) le stockage des données intégrées
dans le système cible.
Il faut noter que cette décomposition est seulement logique. L’étape d’extraction et une partie
de l’étape de transformation peuvent être groupées dans le même composant logiciel, tel
qu’un adaptateur (wrapper) ou un outil de migration de données. L’étape d’intégration est
souvent couplée avec des possibilités de transformation de données dans un même
composant logiciel, qui, habituellement, réalise le chargement dans l’entrepôt de données.
Toutes les étapes de traitement peuvent aussi être groupées dans un même logiciel. Quand
les étapes d’extraction et d’intégration sont séparées, les données nécessitent d’être stockées
entre les deux. Ceci peut être fait en utilisant un média par source ou un média pour toutes
les sources.
53
Une vue opérationnelle typique de ces composants est donnée par la figure 23.
Adaptateur
Source
Extraction / Transformation
Entrepôt
Source
Extraction / Transformation
Intégration/
Transformation/
Chargement
Figure 23 – Vue opérationnelle des composants utilisés pour la construction d’entrepôts de
données
Les composants logiciels sont représentés par des rectangles. Les ellipses désignent des stockages
intermédiaires des résultats de l’étape d’extraction/transformation. Toutes les données qui sont en
entrée du composant intégration utilisent le même modèle de représentation de données. Finalement,
un « wrapper » est associé à chaque source, fournissant ainsi une interface API à la source.
L’un des principaux problèmes posés par l’intégration des données consiste à effectuer la
transformation des données du format des sources vers le format de l’entrepôt de données.
Ce processus de transformation requiert la mise en correspondance structurelle et
sémantique entre le schéma des sources de données et le schéma global de l’entrepôt de
données (Bernstein and Rahm, 2000). Il s’agit de la correspondance inter-schémas ou
appariement de schémas (schema matching).
Il existe différentes approches de correspondance inter-schémas. Elles dépendent du type
d’information du schéma qui est utilisé et comment cette information est interprétée (Rahm
and Bernstein, 2001). Commençons par rappeler les définitions de schéma et de
correspondance inter-schémas.
Un schéma est un ensemble d’éléments connectés par une certaine structure. En pratique, il
existe différentes représentations, qui sont le modèle relationnel, le modèle orienté objet ou le
XML. Dans chacune des représentations, on distingue des éléments et des structures : les
entités et les relations dans le modèle relationnel, les objets et les relations dans le modèle
orienté objet et les éléments et les sous-éléments dans le XML.
Etant donné un schéma global G et une source de données dont le schéma est noté S, la
correspondance inter-schémas consiste à identifier les éléments des deux schémas (S et G)
qui se correspondent, et comment ces éléments sont reliés. On distingue différents types de
relations entre les éléments de deux schémas. Ils peuvent être directionnels (un élément de S
correspond à un élément de G) ou non directionnels (une combinaison d’éléments de S et G
se correspondent). Il peut s’agir de relations par le biais d’opérateurs (= ; > …) ou de fonctions
(addition, concaténation). Il peut s’agir de relations d’ensembles (chevauchement,
contenance) ou toute autre relation exprimée en langage naturel.
L’implémentation des correspondances inter-schémas se fait par des algorithmes, qui se
basent sur différents critères pour établir les correspondances. On distingue les critères de
classification suivants (Rahm and Bernstein, 2001) :
54
Instance versus schéma – Les correspondances peuvent être effectuées à partir des
instances (le contenu des données) ou seulement à partir de l’information contenue au niveau
du schéma.
Elément versus structure – Les correspondances peuvent être effectuées pour des
éléments individuels du schéma ou pour des combinaisons d’éléments, comme des sousstructures complexes de schémas.
Langage versus contrainte – Les correspondances peuvent se baser sur des approches
linguistiques (en utilisant les noms des éléments du schéma, par exemple égalité de nom,
synonymie, etc …) ou sur des approches de contraintes (en utilisant les relations).
Correspondance de cardinalité – La correspondance peut être basée sur la relation d’un ou
plusieurs éléments d’un schéma avec un ou plusieurs éléments de l’autre schéma, ceci
menant à quatre cas : 1:1, 1:n, n:1, n:m.
Information auxiliaire – Un certain nombre d’algorithmes de correspondance ne reposent
pas uniquement sur les schémas en entrée mais sur des informations auxiliaires, telles que
les dictionnaires, les schémas globaux ou des correspondances déjà effectuées.
Il faut noter que certains algorithmes effectuent les correspondances en se basant sur un seul
de ces critères, alors que certains combinent plusieurs critères.
2.2.2.
Les entrepôts de données en bioinformatique
Si beaucoup d’entrepôts de données se sont développés dans le secteur commercial depuis
les années 90, ce n’est que depuis récemment que l’utilisation de l’approche entrepôt s’est
répandue en bioinformatique (Kasprzyk et al., 2004). Ceci s’explique par le fait que les
données biologiques, contrairement aux données de l’entreprise, sont plutôt descriptives et
non numériques, et de nature complexes et hétérogènes. Ainsi, les processus de mise en
œuvre de l’entrepôt deviennent plus complexes. Cependant, de nombreux avantages de
l’approche ont tout de même motivé son utilisation dans le secteur de la
bioinformatique (Davidson et al., 2001; Hernandez and Kambhampati, 2004) :
La grande capacité de gestion et de stockage – L’entrepôt de données peut stocker de
larges volumes de données. Ceci est très bien adapté à la gestion de données provenant de
multiples sources privées et/ou répandues sur le Web, mais également à la gestion de
données issues des nouvelles technologies qualifiées de « haut débit ».
La représentation multidimensionnelle des données – L’organisation des données par
dimension est très adaptée à la manière dont sont spécialisées par thèmes les sources de
données génomiques sur le Web. Cependant, il faut prendre en considération le fait que
certaines sources ont des contenus chevauchants. Ainsi, plusieurs sources de données
peuvent être utilisées pour représenter une dimension, c'est-à-dire un thème.
La performance des requêtes – Les données sont matérialisées physiquement au sein d’un
schéma global. Les temps de connexion aux sources de données lors des requêtes sont
éliminés, et les requêtes sont optimisées car elles sont exécutées localement.
55
La transformation de données lors de l’intégration – Le processus de transformation des
données avant leur intégration dans un schéma global permet de réconcilier les contenus
provenant de sources de données chevauchantes (intégration verticale) et/ou
complémentaires (intégration horizontale) (voir section III.1.4). Ce processus permet de
résoudre les nombreux problèmes de nomenclature des gènes et de réconcilier cette
connaissance au sein d’un même schéma.
La modification des données par l’utilisateur – Les données étant disponibles localement,
l’utilisateur peut filtrer, valider ou invalider, rectifier ou annoter les données provenant des
sources. Ainsi, l’expertise de l’utilisateur peut être prise en compte.
Les possibilités d’analyse – Dans une approche de type entrepôt de données, on peut
combiner deux types d’analyse, les analyses « avec a priori » correspondant à des requêtes
bien définies par l’utilisateur, et des analyse « sans a priori » qui correspondent à du data
mining. Ainsi, on dispose d’un environnement qui permet 1) de naviguer au sein de données
diverses et réconciliées et 2) d’extraire de la connaissance à partir de données jusqu’alors
non confrontées.
On constate que parmi les entrepôts de données développés en bioinformatique, et décrits
dans la littérature, aucun n’emploie l’ensemble de ces avantages. Aussi, aucun système ne
correspond pour l’heure à l’architecture entrepôt de données tel qu’on l’a définie
précédemment, avec toutes ses possibilités et ses caractéristiques. On constate plutôt que
selon le type de données intégrées et les besoins en analyse, seules quelques particularités
de l’approche entrepôt de données sont employées. Nous allons illustrer notre commentaire
sur quatre entrepôts de données décrits dans la littérature.
Ainsi, l’entrepôt de données GUS (Genomics Unified Schema) (Davidson et al., 2001) tire
profit de l’élaboration d’un schéma global et d’une intégration sémantique forte pour fournir un
environnement qui associe un gène à ses éventuels transcrits et protéines. L’entrepôt Atlas
(Shah et al., 2005) se base également sur un modèle relationnel comportant plusieurs sousmodèles par catégorie de données intégrées. Les mêmes tables sont utilisées pour décrire
des entités équivalentes mais provenant de sources différentes. Atlas réalise ainsi une
intégration sémantique. Les entrepôts de données Columba (Trissl et al., 2005) et EnsMart
(Kasprzyk et al., 2004) exploitent quant à eux la modélisation multidimensionnelle en se
basant sur des schémas étoile, où les sources de données sont vues comme des dimensions
de l’entrepôt.
Ces entrepôts de données sont décrits plus en détail dans les sections qui suivent.
2.2.2.1. GUS
GUS (Genomics Unified Schema) est un entrepôt de données qui intègre des données sur les
séquences nucléiques et protéiques identifiées chez l’homme et la souris (Davidson et al.,
2001). Ces données sont intégrées à partir des principales banques de données de
séquences que sont GenBank/EMBL/DDBJ, dbEST et Swiss-Prot, et elles peuvent être
modifiées et/ou annotées par l’utilisateur.
56
GUS est basé sur un modèle relationnel et le schéma de données utilise le dogme biologique
(ADN D ARN D Protéine) pour sa représentation. Ainsi, les tables de GUS gèrent les
annotations sur les gènes, sur les ARNs dérivés de ces gènes et enfin sur les protéines
dérivées de ces ARNs.
Dans GUS, on attache beaucoup d’importance à la provenance des données ainsi qu’à
l’historique des annotations intégrées au fur et à mesure de la construction de l’entrepôt. Ceci
permet d’archiver l’histoire d’une annotation et d’appréhender la qualité de celle-ci selon si
elle a été obtenue par des méthodes prédictives ou bien par expérimentation. Le schéma de
GUS comporte donc des tables spécialement dédiées pour le stockage de la provenance et
de l’historique des données. Elles viennent s’ajouter aux tables servant à représenter les
sources de données. Avec un total de 180 tables, le schéma de GUS est très dense, aussi,
une couche objet a été ajoutée au dessus de l’implémentation relationnelle pour une meilleure
manipulation des entités biologiques intégrées.
Les mises à jour dans GUS s’effectuent tous les deux ou trois mois. Toutes les sources sont
analysées pour détecter les nouvelles entrées, les entrées modifiées ou intactes.
GUS peut être interrogé via le Web58.
2.2.2.2. Atlas
Atlas est un entrepôt de données biologique qui intègre des données sur les séquences, les
interactions moléculaires, les informations sur l’homologie, les annotations fonctionnelles de
gènes, et des ontologies biologiques (Shah et al., 2005).
La particularité d’Atlas est de catégoriser les sources de données intégrées en quatre types
de données que sont ‘séquence’, ‘interactions moléculaires’, ‘ressources génomiques’ et
‘ontologies’, et d’associer à chaque catégorie un modèle relationnel. Un seul modèle
relationnel est par exemple utilisé pour décrire les données provenant des sources GenBank,
RefSeq et UniProt, associées à la catégorie ‘séquence’.
Ensuite, les données sont interrogées par des APIs qui encapsulent le langage de requête
SQL pour un accès plus fin aux données. Une ontologie spécifique à Atlas est utilisée pour
cross-référencer les types biologiques intégrés, qui ne sont pas toujours reliés dans les
sources.
Des outils reposant sur les APIs développées sont disponibles. Ils permettent soit d’effectuer
des interrogations simples sur des types de données spécifiques, soit d’effectuer des
requêtes plus complexes qui infèrent des interactions moléculaires.
Atlas est disponible sur le site Web de UBiC59 (UBC (University of British Columbia)
Bionformatics Center). L’application peut être téléchargée, elle est distribuée sous une licence
publique GNU* (GNU’s Not UNIX).
58
59
http://www.allgenes.org/
http://bioinformatics.ubc.ca/atlas/
57
2.2.2.3. Columba
Columba est un entrepôt d’annotations sur les structures protéiques (Trissl et al., 2005). Il
intègre les entrées provenant de PDB ainsi que les annotations provenant de diverses
sources de données développées autour des protéines. Parmi les sources intégrées, citons
KEGG pour les informations sur les réseaux métaboliques, ENZYME60 (Bairoch, 2000) pour la
nomenclature des enzymes, SCOP61 (Reedy and Bourne, 2003) et CATH62 (Pearl et al., 2003)
pour les informations de repliement des protéines, Swiss-Prot et GO pour les annotations
fonctionnelles et NCBI Taxonomy63 pour les informations taxonomiques. Ainsi, Columba
fournit une information plus riche que PDB.
Le schéma de Columba repose sur un modèle relationnel. Il s’agit d’un schéma en étoile où
l’entrée de la source PDB est au centre et où chaque source qui renseigne la protéine
représente une dimension. Chaque dimension se spécialise via un sous-schéma (figure 24).
Figure 24 – Schéma étoile de Columba (extrait de (Trissl et al., 2005))
La partie grise foncée du milieu correspond à un sous-schéma de la source PDB. Les autres sousschémas ou dimensions, sont représentés par des boîtes blanches indiquant le nom de la source de
données et sont regroupés par type de contenu.
De cette manière les données de sources différentes ne sont jamais représentées dans une
même table, il n’y a donc pas d’intégration sémantique forte, telle que décrite dans la section
III.1.4.
60
http://www.expasy.org/enzyme/
http://scop.mrc-lmb.cam.ac.uk/scop/
http://www.biochem.ucl.ac.uk/bsm/cath/cath.html
63
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Taxonomy
61
62
58
Au contraire, dans le schéma de Columba, les redondances existent. Par exemple, on intègre
dans Columba l’annotation fonctionnelle provenant de GO et celle provenant des mots clés de
Swiss-Prot. Les concepteurs de Columba considèrent que les redondances ne sont pas des
informations dupliquées mais plutôt des données complémentaires intéressantes puisque
obtenues par différentes personnes et/ou dans différentes expériences. Il n’y a donc pas de
discrimination à faire. De plus, ils estiment que les utilisateurs ont leur préférence en termes
de choix des sources à interroger.
L’entrepôt de données Columba est accessible via le Web64. Des requêtes peuvent être
formulées soit à l’aide de mots clés et d’opérateurs de type AND, OR et NOT, soit par le biais
de formulaires permettant de guider l’utilisateur dans sa formulation. De cette manière,
l’utilisateur peut affiner sa requête pas à pas et ainsi obtenir des ensembles de structures
protéiques qui partagent certaines propriétés.
2.2.2.4. EnsMart
EnsMart est un entrepôt de données qui conceptuellement suit la même approche que
Columba. Il intègre des données génomiques multi-espèces, provenant des banques de
Ensembl (Kasprzyk et al., 2004). Le système est basé sur un schéma en étoile, où le gène est
placé au centre et où il est relié à différentes dimensions qui représentent les sources de
données intégrées. Ainsi, le gène est relié à sa position génomique, ses facteurs de
transcription et ses données d’expression.
EnsMart est accessible via le Web65. L’utilisateur compose ses requêtes via des formulaires
qui permettent de définir un ensemble de données à interroger, ainsi que des filtres à
appliquer.
3. DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN
BIOINFORMATIQUE
Nous avons décrit dans la section précédente, les différentes approches d’intégration utilisées
en bioinformatique. Elles se divisent en deux catégories que sont les approches non
matérialisées et les approches matérialisées.
Pour chaque type d’approche d’intégration, différents systèmes ont été présentés reflétant
ainsi l’état actuel des développements dans le domaine de l’intégration de données en
bioinformatique. Pour chaque système, nous avons tenté de mettre en évidence leurs
caractéristiques par rapport aux points de variation entre les systèmes d’intégration, tels que
décrits dans la section III.1. La table 5, au dos, illustre ces caractéristiques.
64
65
http://www.columba-db.de/
http://www.ensembl.org/Multi/martview
59
60
Totale ou choix
des sources
Totale ou choix
des sources
Schéma et
langage
Données
complémentaires
Données
chevauchantes
Données
chevauchantes
Données
chevauchantes
Structuré,
relationnel-objet
Structuré,
relationnel
Structuré,
relationnel
Structuré,
relationnel
multidimensionnel
Structuré,
relationnel
miltidimensionnel
Serrée
BioMediator
Serrée
Serrée
Serrée
Atlas
Columba
EnsMart
Totale
Totale ou choix
des sources
Choix des
sources
Totale
Schéma
Totale
Totale
Ascendant
Ascendant
Ascendant
Matérialisé
Matérialisé
Matérialisé
Matérialisé
Virtuel
Descendant
Ascendant
Virtuel
Virtuel
Virtuel
Virtuel
Virtuel
Virtuel
Virtuel vs
Matérialisé
Descendant
Descendant
Descendant
Descendant
Descendant
Descendant
Ascendant vs
Descendant
Table 5 – Table récapitulative des systèmes d’intégration décrits en section III.2 et de leurs points de variation
Serrée
Serrée
GUS
BioGuide
BioNavigation
Structuré,
relationnel-objet
Structuré,
relationnel-objet
Fichiers plats
Lâche
SRS
Serrée
Structuré,
relationnel-objet
Serrée
BACIIS
Tous types
Structuré,
relationnel-objet
Serrée
TAMBIS
Aucune, choix
des sources
Données
complémentaires
Données
majoritairement
complémentaires
Données
chevauchantes
Données
majoritairement
complémentaires
Données
majoritairement
complémentaires
Quelques
chevauchements
Quelques
chevauchements
Structuré, orienté
objet
Lâche
K2
Niveau de
transparence
Intégration
sémantique
Données
intégrées
Modèle de
données
Points de
variation
Intégration Serrée
vs Lâche
Systèmes
décrits
Approches non matérialisées
Approches matérialisées
Requêtes via un
graphe
Requêtes via un
graphe
Requêtes SQL
via formulaires
Web
Requêtes SQL
via APIs
Requêtes SQL
via formulaires
Web
Requêtes SQL
via formulaires
Web
Requêtes PQL
Navigation Web
Requêtes via
formulaires Web
Requêtes CPL
Requêtes OQL
Accès aux
données
L’approche matérialisée, ou entrepôt de données, telle que décrite en section III.2.2.1, fournit
deux avantages majeurs. Premièrement, le fait de stocker les données en local dans un
schéma global facilite l’optimisation et l’exécution des requêtes. De plus, les données étant
disponibles localement, l’approche permet aux utilisateurs d’ajouter leurs propres annotations,
permettant ainsi de modifier, de valider et/ou de nettoyer les données intégrées. Cet avantage
est illustré dans l’entrepôt GUS (section III.2.2.2.1).
Cependant, même si ce second point est idéal pour les utilisateurs du système, les
modifications ou validations efficaces sont très couteuses en temps et demandent un haut
degré d’expertise de la part de l’utilisateur. De plus, le fait d’ajouter des annotations
personnelles dans l’entrepôt complique fortement la tâche de mise à jour de l’entrepôt via les
sources de données, si des données ont été modifiées ou supprimées.
Malgré ces aspects négatifs, il est important de noter que l’entrepôt de données est la seule
approche permettant de lutter efficacement contre les données inconsistantes provenant de
différentes sources, mais également de fournir des moyens d’analyses avancés sur de grands
volumes de données. Ainsi, même si la phase d’intégration est très couteuse lors de la
conception d’un entrepôt de données, ceci est largement compensé par les capacités
d’analyses ultérieures.
Les approches non matérialisées de type médiation ou navigationnelle sont des approches
très récentes dans le domaine de la bioinformatique. Ce sont des approches conviviales et
intuitives qui, contrairement à l’approche entrepôt de données, sont plutôt dédiées à des
analyses ponctuelles, sur de faibles volumes de données. Leur avantage réside dans le fait
d’interroger les sources en ligne et donc de disposer de données à jour. Cependant, les
temps d’exécution sont très dépendants de la disponibilité et de l’accessibilité de ces sources
externes.
Parmi les approches non matérialisées, on distingue les approches fournissant une totale
transparence vis-à-vis des sources interrogées, telles que TAMBIS ou BioMediator, par le
biais d’ontologies définissant les entités biologiques requises dans la requête, et les
approches qui permettent de sélectionner les sources à interroger et/ou les stratégies
d’interrogation. Ainsi, BioNavigation propose des critères à l’utilisateur pour évaluer la
satisfaction d’une requête, et BioGuide propose à l’utilisateur de paramétrer ses préférences.
Parmi les approches non matérialisées il faut souligner l’importance qu’a prise l’intégration
navigationnelle, surtout depuis que des travaux sont menés pour optimiser les chemins, tels
que dans BioNavigation.
La plupart des approches non matérialisées n’effectuent qu’une intégration horizontale des
données en intégrant uniquement des sources de données complémentaires et rarement
chevauchantes (excepté BACIIS). En se limitant à des sources ayant des informations
différentes sur des entités, on limite les capacités du système d’intégration en termes de
fiabilité et de complétude. En effet, le système ne peut résoudre les problèmes liés aux
données absentes ou contradictoires, ni identifier les données de mauvaise qualité. De
même, le système ne peut sélectionner les sources qui bénéficient de meilleurs temps de
réponses aux requêtes et qui renvoient de meilleurs résultats sur les plans qualitatif et
quantitatif.
61
IV. INTÉGRATION POUR L’ANALYSE DU
TRANSCRIPTOME
Comme introduit en section I.1.3.3.1, la technologie des puces à ADN s’est révélée, dès son
apparition, être l’outil privilégié pour l’analyse du transcriptome. En permettant l’analyse
simultanée de l’expression de milliers de gènes dans une condition et/ou un organe donné,
elle offre de belles perspectives dans la compréhension du fonctionnement des cellules.
Aujourd’hui son utilisation est largement répandue, mais l’exploitation des données qu’elle
engendre n’est pas sans nécessiter la mise en œuvre de moyens bioinformatiques.
1. PUCES À ADN POUR L’ANALYSE DE TRANSCRIPTOME
1.1.
DÉFINITION DES PUCES À ADN
Les puces à ADN, ou « microarray » en anglais (de « array » = rang ordonné) consistent en
un support solide sur lequel des milliers de fragments d’ADN sont immobilisés selon une
disposition ordonnée à l’aide d’une micropipette robotisée. Grâce à cette technique, chacun
des fragments d’ADN ou des oligonucléotides* est représenté par un point ou « spot » en
anglais (de « spot » = tache) sur le support. Ils servent de sondes pour fixer de façon très
spécifique les fragments de gènes complémentaires (cibles), présents dans les échantillons
biologiques à tester : leur mise en contact permet de reconstituer la double hélice d’ADN. Ce
phénomène repose sur le principe d’hybridation entre des séquences complémentaires
d’ADN, conformément aux observations de E.Southern en 1975 (Southern, 1975). Ainsi les
puces à ADN permettent de détecter et de quantifier la présence de plusieurs milliers de
gènes en parallèle par hybridation entre des sondes et des cibles préalablement marquées
par un radioélément ou par une molécule fluorescente.
D’abord conçues sur des membranes poreuses de nylon (appelées « macroarrays » par
opposition aux « microarrays ») (Gress et al., 1992; Nguyen et al., 1995), les puces à ADN ont
été progressivement mises au point sur lames de verre à la fin des années 90 (Schena et al.,
1995). La miniaturisation, rendue possible par l’utilisation d’un support solide, de marqueurs
fluorescents et par les progrès de la robotique, permet aujourd’hui de fabriquer des puces
comportant une très haute densité de spots, susceptibles de recouvrir l’intégralité du génome
d’un organisme sur une simple lame de microscope.
62
1.2.
PRINCIPE DES PUCES À ADN POUR L’ÉTUDE DU TRANSCRIPTOME
La puce à ADN constitue un outil privilégié pour l’étude du transcriptome en permettant
d’obtenir les mesures d’expression de milliers de gènes en parallèle (Brown and Botstein,
1999; DeRisi et al., 1996; Lockhart and Winzeler, 2000).
Ceci s’effectue par des hybridations entre des sondes nucléotidiques ordonnées sur le
support solide, et des cibles marquées, présentes dans un mélange complexe (Duggan et al.,
1999; Lockhart et al., 1996; Schena, 1996; Schena et al., 1995). Les sondes représentent les
gènes du transcriptome à étudier. Pour chaque hybridation sonde-cible, un signal d’intensité
est recueilli, il permet d’apprécier le niveau d’expression de chaque gène étudié dans le tissu
et/ou la condition étudiés. Ce principe est illustré figure 25, dans le contexte de l’utilisation de
deux fluorochromes.
Figure 25 – Principe de l’étude de transcriptome par la technologie des puces à ADN
(adapté de (Duggan et al., 1999))
Les sondes – Les oligonucléotides ou clones d’ADNc sont déposés sur la lame de verre.
Les cibles – Les cibles Test et Référence sont couplées à deux marqueurs fluorescents différents (par
exemple, cyanine verte (Cy3) et cyanine rouge (Cy5)), puis assemblées pour former le mélange
complexe et être hybridées aux sondes préalablement déposées.
La lecture – Elle est réalisée par un scanner muni d’un microscope confocal, couplé à deux lasers,
possédant des longueurs d’onde spécifiques aux marqueurs fluorescents. L’excitation et l’émission des
fluorochromes produisent deux images en niveau de gris, qui sont converties en pseudo-couleur et
fusionnées pour être analysées par un logiciel d’analyse d’images.
63
1.3.
TECHNOLOGIES DES PUCES À ADN
De manière générale, en fonction du type de sonde déposée sur les lames de verre, on
distingue deux catégories de puces à ADN. Les puces dites « spottées » sont obtenues par
un dépôt robotisé de produits de PCR (puces à ADNc) ou de fragments oligonucléiques
(puces à oligonucléotides) et les puces où les oligonucléotides sont synthétisés in situ par
photolithographie (brevet de la société Affymetrix® 66).
On distingue également les puces pangénomiques (ou généralistes) qui proposent des
supports permettant l’étude de génomes entiers, des puces dédiées qui sont constituées à
partir de collections de gènes spécifiques d’un organe ou d’une condition, et qui permettent
ainsi de cibler les transcrits à étudier.
Selon la technologie de puce à ADN utilisée, le marquage des cibles, constituant les
échantillons à étudier, est différent. Il peut être radioactif ou fluorescent. De plus, certains
marquages fluorescents permettent d’identifier plusieurs cibles sur la même puce. Ainsi, les
cibles extraites de deux conditions différentes, l’une test et l’autre référence, peuvent être
marquées par deux fluorochromes différents ; le rapport des intensités obtenues pour chaque
fluorochrome permet de comparer les variations d’expression entre les deux conditions.
La lecture des résultats d’hybridation se fait grâce à un scanner (figure 25). Dans le cas de
technologies utilisant la fluorescence, le scanner est un microscope confocal couplé à un ou
plusieurs lasers où chaque laser excite spécifiquement un fluorochrome. Le signal émis est
amplifié par un photomultiplicateur et transformé en image. Une image en niveau de gris est
alors générée pour chaque fluorochrome puis convertie en fausses couleurs (allant
généralement du vert au rouge). Enfin, les deux images sont superposées.
Différentes étapes statistiques et informatiques sont ensuite requises pour extraire et analyser
les données issues de ces images.
2. ÉTAPES REQUISES POUR L’ANALYSE DES DONNÉES
Les images délivrées par les scanners ne constituent que le premier résultat délivré par la
technologie des puces à ADN. Le principe est d’alors en extraire des ratios d’expression pour
chaque gène entre la condition test et la condition référente. Deux approches sont alors
possibles : 1) une approche ciblée où on s’intéresse à un gène donné, ou 2) une approche
globale, où on s’intéresse à l’ensemble des gènes. Dans ce dernier cas, en fonction des
ratios, les gènes peuvent ensuite être regroupés sur la base de leur profil d’expression. Enfin,
les groupes de gènes doivent être interprétés biologiquement.
66
http://www.affymetrix.com/index.affx
64
2.1.
2.1.1.
ACQUISITION DES DONNÉES D’EXPRESSION
Traitement des images par logiciel d’analyse d’images
Les logiciels d’analyse d’images permettent d’extraire les données à partir des images
délivrées par le scanner, et ce pour chaque complexe sonde-cible (spot) dans chacun des
fluorochromes. Cette extraction se déroule en trois étapes (Yang et al., 2000):
La localisation des spots sur la puce – Elle permet d’identifier les positions des spots sur
l’image à l’aide de grilles de repères.
La segmentation – Elle découpe l’image en plusieurs régions et permet principalement de
classer les pixels en tant que signal et bruit de fond.
L’extraction des données qualitatives et semi-quantitatives – Les données qualitatives
constituent les informations sur le diamètre, la surface ou le pourcentage de pixels saturés par
spot. Les données semi-quantitatives constituent les intensités des signaux et du bruit de fond
ainsi que les rapports ou ratios des intensités obtenues par fluorochrome. Ces données
constituent les données primaires ou données brutes, et nécessitent d’être traitées et validées
avant toute analyse.
Parmi les logiciels d’analyse d’image, nous pouvons citer ScanAlyze (Eisen and Brown, 1999)
ainsi que Genepix® (Axon, Inc.67), ImaGene® (BioDiscovery, Inc.68) et QuantArray®
(PerkinElmer, Inc.69).
2.1.2.
Traitement des données primaires
Le traitement des données issues des logiciels d’analyse d’images permettent de minimiser
l’effet des biais expérimentaux sur les mesures et d’écarter les données de mauvaise qualité.
Ce traitement de données comporte différentes procédures (Le Meur, 2005; Le Meur et al.,
2004) :
La filtration – Elle consiste à écarter les spots défectueux sur des critères physiques et/ou
géométriques des spots, tels que la saturation du signal, le rapport signal sur bruit de fond.
La normalisation intra-lame – Elle vise à minimiser les biais de déséquilibre des niveaux
d’intensité entre les fluorochromes, généralement dus à une incorporation hétérogène des
fluorochromes ou l’usure inégale des aiguilles du robot de dépôt des sondes. Cette étape
permet de centrer la distribution des ratios sur 0.
La normalisation inter-lames (ou scaling) – Une expérience peut impliquer l’utilisation de
plusieurs lames. Dans ce cas, une normalisation inter-lames est requise afin de réduire la
variance des mesures entre les lames.
67
http://www.axon.com/
http://www.biodiscovery.com/
69
http://www.perkinelmer.com/
68
65
La recherche de valeurs aberrantes (ou outliers) – Elle consiste à repérer les valeurs
aberrantes parmi les mesures répétées d’un même clone ou séquence étudié sur une lame.
Ces valeurs aberrantes ont pour origine la faible spécificité d’une sonde ou bien une
hétérogénéité de bruit de fond à la surface des lames. Des tests statistiques sont employés.
L’élimination de reporters non reproductibles – Dans le cas des puces à ADNc, plusieurs
clones différents peuvent représenter le même gène sur une même lame, ils sont qualifiés de
gènes reporters. Or ces clones n’hybrident pas les cibles de la même manière, il faut identifier
et éliminer ceux qui hybrident mal.
De nombreux programmes ont été proposés pour effectuer ces différentes procédures de
traitement des données primaires. Des travaux plus ambitieux ont réuni en une application
l’ensemble de ces procédures, notamment citons MADSCAN70 (MicroArray Data Suites of
Computed ANalysis), une suite de traitements dynamiques et automatiques, accessible sur le
Web, pour l’obtention de données consolidées (Le Meur et al., 2004).
2.1.3.
Mise en évidence de gènes différentiellement exprimés
Le premier pas vers l’analyse de transcriptome par la technologie des puces à ADN est la
mise en évidence des gènes différentiellement exprimés, entre deux conditions différentes.
Pour mesurer cette différence, il faut pouvoir distinguer les variations biologiques qui sont le
reflet du fonctionnement de la cellule, des variations expérimentales qui viennent gêner
l’interprétation. Différentes approches sont utilisées (Le Meur, 2005):
Les tests paramétriques – Le test de Student est utilisé pour évaluer si la différence entre 2
échantillons est significative.
Les tests non paramétriques – Ils sont plus adaptés aux données bruitées telles que celles
engendrées par les puces à ADN. Parmi ces tests non paramétriques, le test des signes de
Wilcoxon, le test de Mann Withney et l’analyse SAM (Significance Analysis of Microarrays)
(Tusher et al., 2001).
L’approche bayésienne – Il s’agit d’une approche probabiliste. Elle est basée sur le
théorème de Bayes qui permet d’estimer la probabilité d’une certaine théorie au vu de
résultats d’observation si l’on connaît la probabilité a priori de la théorie. La théorie peut être
une hypothèse, un modèle ou une valeur numérique. Dans notre contexte, il s’agit de la
variance d’un échantillon.
L’analyse de variance, ANOVA (ANalysis Of VAriance) - Cette approche est tout
particulièrement adaptée à l’analyse de multiples facteurs (âge, sexe …), comme dans le cas
de puces à ADN. ANOVA permet de mettre en évidence l’impact de chaque facteur sur les
mesures.
70
http://cardioserve.nantes.inserm.fr/mad/madscan/
66
2.2.
2.2.1.
GESTION ET PARTAGE DES DONNÉES
Gestion des données
La mise en œuvre, au sein d’un laboratoire, de la technologie des puces à ADN requiert la
mise en place de moyens pour la gestion des données : il faut assurer le stockage, la
sécurisation et la manipulation de ces données.
En effet, la technologie, qualifiée de « haut débit », engendre très rapidement de larges
volumes de données à traiter. De plus, ces données sont de différents types, elles concernent
à la fois les résultats : les images acquises par le scanner, les tableaux de données brutes et
transformées mais également les informations sur les différentes étapes des expériences
menées : procédés d’obtention des échantillons et des lames, conditions d’hybridation etc …
Il existe un grand nombre de bases de données dédiées à la gestion des données issues de
la technologie des puces à ADN. Parmi celles-ci, nous pouvons citer Acuity® (Axon, INC.),
ArrayDB71 (Ermolaeva et al., 1998), BASE72 (BioArray Software Environment) (Saal et al.,
2002), Rosetta Resolver® (Rosetta Biosoftware73), SMD74 (Stanford Microarray Database)
(Ball et al., 2005; Sherlock et al., 2001).
2.2.2.
Partage des données
Le besoin en bases de données s’est très rapidement accompagné d’un besoin en définition
de standards afin de normaliser et ainsi de pouvoir échanger et diffuser les données issues de
la technologie des puces à ADN entre les différents laboratoires.
C’est la société MGED75 (Microarray Gene Expression Data), organisation de biologistes et
d’informaticiens développée sous l’influence d’Alvis Brazma et d’Alan Robinson de l’EBI, qui a
établi ces standards d’annotation d’expériences de puce à ADN. Les efforts menés par les
différents groupes de travail de MGED sont présentés ci-dessous :
MIAME (Minimum Information About Microarray Experiment) – Le projet MIAME vise à décrire
les informations minimales et nécessaires que les chercheurs doivent fournir pour la
description d’expériences de type puce à ADN (Brazma et al., 2001). Dans la pratique, ces
informations sont requises pour toute publication.
MAGE (MicroArray Gene Expression) – Ce projet a pour but de fournir des standards en
terme de représentation des données (Spellman et al., 2002). Le modèle MAGE-OM
(MicroArray Gene Expression-Object Model) est un modèle orienté objet qui définit en 132
classes les informations requises par le standard MIAME, et MAGE-ML (MicroArray Gene
Expression-Markup Language) est la représentation au format XML du modèle MAGE-OM.
71
http://genome.nhgri.nih.gov/arraydb/
http://base.thep.lu.se/
http://www.rosettabio.com/default.htm
74
http://genome-www5.stanford.edu/
75
http://www.mged.org/
72
73
67
Un logiciel a également été conçu pour exporter des données sous le format MAGE-ML :
MAGE-STK (MicroArray Gene Expression-Software ToolKit).
MGED-Ontology (MicroArray Gene Expression-Ontology) – Le groupe de travail MGED
Society Ontology Working Group76 travaille sur l’élaboration d’une ontologie pour la
description des échantillons biologiques et de leur utilisation au cours des expériences de
puces à ADN. Il s’agit d’un réseau de concepts qui reflètent les directives données par MIAME
ainsi que la structure fournie par MAGE.
La figure 26 illustre les interactions entre les différentes directives de MGED.
Base de données
MIAME
MAGE
MGED Ontology
Base de données
MIAME
Figure 26 – Relations entre les projets MIAME, MAGE et MGED Ontology
(adapté de (Stoeckert et al., 2002))
L’ontologie de MGED (MGED Ontology) formalise les descriptions requises pour l’annotation des
expériences de puces à ADN décrites par MIAME. Ces descriptions sont stockées dans des bases de
données, dites conformes à MIAME. MAGE décrit les standards qui permettent l’échange de données
entre bases de données conformes.
En pratique, ces standards décrits par MGED sont utilisés comme suit : tout d’abord les
données produites par les expériences de type puce à ADN doivent être stockées en suivant
les directives émises par MIAME, idéalement dans une base de données conforme à MIAME.
Ensuite, ces données conformes peuvent être publiées dans des revues et/ou déposées dans
des banques de données publiques spécialement dédiées à la diffusion d’expériences de
puces à ADN. Parmi ces banques de données, on peut citer ArrayExpress (Brazma et al.,
2003; Parkinson et al., 2005b) de l’EBI, GEO (Gene Expression Omnibus) (Barrett et al.,
2005; Edgar et al., 2002) du NCBI et CIBEX77 (Center for Information Biology gene
EXpression database) (Ikeo et al., 2003) de DDBJ. Ces banques constituent des répertoires
de données d’expression.
76
77
http://mged.sourceforge.net/ontologies/index.php
http://cibex.nig.ac.jp/index.jsp
68
2.3.
2.3.1.
ANALYSE DES DONNÉES D’EXPRESSION
Classification des données d’expression
La classification des données d’expression consiste à regrouper les gènes sur la base de leur
profil d’expression. De manière générale les algorithmes utilisés se basent sur le calcul de la
similarité ou de la dissimilarité entre objets (Gilbert et al., 2000). Le but étant de minimiser la
variabilité intra-groupe et de maximiser la variabilité inter-groupes.
On distingue les approches supervisées (supervized learning) des approches non
supervisées (unsupervized learning) (Leung and Cavalieri, 2003). Les approches non
supervisées établissent des groupements d’objets sans a priori, elles sont qualifiées
d’exploratoires. Les approches supervisées utilisent quant à elles des connaissances pour
établir des règles qui serviront ensuite à prédire la classification. Elles sont qualifiées de
prédictives.
Il existe un très grand nombre de méthodes de classification. Parmi les méthodes non
supervisées (ou clustering), on peut citer la classification ascendante hiérarchique (Eisen et
al., 1998), les méthodes de partitionnement tel que la méthode des k-moyennes* (ou Kmeans) ou les réseaux de Kohonen* (ou cartes auto organisatrices : SOM (Self Organizing
Map)) (Kohonen, 1998). Parmi les méthodes supervisées, l’approche des K plus proches
voisins* (ou KNN (K Nearest Neighbor)) ou la classification des centroïdes*.
On distingue également les analyses factorielles qui sont adaptées au caractère
multidimensionnel des données de puces à ADN à analyser, puisqu’elles permettent de
réduire le nombre de dimensions de l’espace des données. Parmi ces analyses, l’analyse en
composante principale* (ACP ou PCA (Principal Component Analysis)), également connue
sous le nom d’ « analyse par décomposition des données en valeur singulière » (ou SVD
(Singular Decomposition Value)) (Alter et al., 2000).
Il existe de nombreux outils pour appliquer toutes ces méthodes de classification. Le premier
outil à avoir été développé est Cluster qui réalise de la classification hiérarchique. Il est couplé
à l’outil de visualisation Treeview (Eisen et al., 1998). Depuis, de nombreux logiciels intégrés
ont vu le jour, combinant diverses approches de classification. Ils sont performants et offrent
des interfaces graphiques conviviales (interactives et dynamiques). Parmi ces outils, citons JExpress (Molmine78) (Dysvik and Jonassen, 2001) et Genesis79 (Sturn et al., 2002). Il existe
également des solutions basées sur des environnements de développement, très flexibles
puisque particulièrement bien adaptées à l’ajout de modules (ou plug-in*), mais nécessitant
une certaine expertise de la part des utilisateurs. Citons notamment, Matlab®, SAS® ou plus
récemment la suite BioConductor80 (Gentleman et al., 2004) de l’environnement R81 (Ihaka
and Gentleman, 1996), une suite intégrée de logiciels pour mener des analyses statistiques et
graphiques sur des données génomiques.
78
http://www.molmine.com/
http://genome.tugraz.at/Software/
http://www.bioconductor.org/
81
http://www.r-project.org/
79
80
69
2.3.2.
Extraction de connaissance
L’obtention de listes de gènes différentiellement exprimés n’est qu’un premier pas vers
l’analyse de données issues de l’étude de transcriptome. En effet, si l’obtention de données
d’expression consolidées est nécessaire, c’est leur interprétation biologique qui va permettre
de dégager de la connaissance des masses de données engendrées par la technologie des
puces à ADN. Le but ultime étant la compréhension de la causalité des mécanismes de
régulation et de la co-régulation, pour une meilleure connaissance du fonctionnement des
gènes.
2.3.2.1. Confrontation des données
L’interprétation biologique des données d’expression passe par une confrontation des
données expérimentales avec toute information disponible sur les gènes étudiés (Anderle et
al., 2003; Cornell et al., 2003; Holloway et al., 2002; Lockhart and Winzeler, 2000; PiatetskyShapiro and Tamayo, 2003; Slonim, 2002). Parmi les données à prendre en considération,
outre d’autres données d’expression, des données génomiques et biomédicales incluant les
données de la bibliographie, les données sur les séquences, les informations sur l’homologie,
la régulation, le phénotype et les fonctions.
Ainsi, l’ontologie GO est très largement utilisée pour l’annotation fonctionnelle des gènes. Elle
permet de mettre en évidence des catégories fonctionnelles plus ou moins représentées dans
les groupes de gènes. De nombreux outils se sont développés dans ce cadre qui varient
selon le type de données en entrée, les organismes supportés, l’emploi ou non de statistiques
et le type d’application (Pasquier et al., 2004). Parmi ces outils, on peut citer GOMiner82
(Zeeberg et al., 2005), OntoExpress83 (Draghici et al., 2003) et FatiGO84 (Al-Shahrour et al.,
2004).
Les banques de données généralistes et spécialisées présentées en section I.2 se révèlent
également comme une masse de données considérable utile pour enrichir l’information sur les
groupes de gènes différentiels. Il faut notamment souligner l’importance :
Des sources de données bibliographiques – Aussi, la banque de données bibliographiques
MEDLINE, principale source de littérature scientifique, est largement utilisée pour la
recherche d’informations. Certains outils adaptés à l’annotation des gènes visent à étudier les
co-occurrences de termes associés avec des noms de gènes dans les résumés d’articles
scientifiques. Citons par exemple l’outil MedMiner (Tanabe et al., 1999) qui cherche dans
GeneCards® et MEDLINE les informations de la littérature faisant référence à une
combinaison de termes fournis par l’utilisateur (par exemple, tel gène et telle pathologie, ou
tels gènes), ou encore l’outil PubGene™85 (PubGene Inc.86) qui recherche des co-citations de
gènes dans MEDLINE.
82
http://discover.nci.nih.gov/gominer/
http://vortex.cs.wayne.edu/projects.htm
http://www.fatigo.org/
85
http://www.pubgene.org/
86
http://www.pubgene.com/
83
84
70
Des banques de données de séquences – Ces sources de données contiennent des
informations permettant de fournir des explications à la co-régulation de gènes. En particulier,
les banques de séquences fournissent les localisations chromosomiques ainsi que les
séquences nucléiques des gènes. Or la co-localisation chromosomique peut être à l’origine de
la co-expression de gènes. En effet, de nombreuses études chez les eucaryotes ont démontré
que des gènes adjacents sur le génome présentent des profils d’expression similaires (chez
l’homme (Caron et al., 1995; Lercher et al., 2002), la drosophile (Boutanaev et al., 2002;
Cohen et al., 2000; Spellman and Rubin, 2002), la levure (Cohen et al., 2000) et
Caenorhabditis elegans (Lercher et al., 2003). Il y a plusieurs causes à la co-expression de
gènes adjacents (Williams and Bowles, 2004).
La première cause est la duplication des gènes au cours de l’évolution. Elle entraîne la
proximité de gènes dans le génome, et qui vont du fait de leur ancêtre commun, partager des
profils d’expression similaires.
Il est également suggéré que chez les eucaryotes, les gènes impliqués dans un réseau
métabolique particulier requérant une régulation coordonnée, se trouvent regroupés dans le
génome, à la manière des génomes procaryotes où les gènes partageant la même fonction
sont organisés en opérons*. Ce phénomène a été observé chez Arabidopsis thaliana pour
des gènes impliqués dans le développement de la racine et dans la fonction mitochondriale
(Birnbaum et al., 2003).
De plus, même en l’absence de régulation coordonnée, des gènes proches ou non dans les
génomes peuvent partager des éléments cis-régulateurs communs et ainsi conduire à des
profils d’expression similaires. Aussi, il est intéressant de disposer des séquences des gènes
co-exprimés pour rechercher la présence d’éventuels éléments cis-régulateurs ou de sites de
fixation de facteurs de transcription en commun pour ainsi interpréter la co-régulation.
Des banques de données d’expression – Les banques telles que GEO, ArrayExpress ou
CIBEX décrites en section IV.2.2.2 offrent la possibilité de comparer les profils d’expression
de gènes obtenus en réponse à diverses questions biologiques, et donc dans différentes
conditions expérimentales. Elles permettent de dégager des informations complémentaires
sur les gènes étudiés.
Des sources de données médicales – Les puces à ADN étant largement utilisées pour la
caractérisation moléculaire de pathologies, les sources de données telles qu’OMIM™ et les
ontologies telles que l’UMLS (défini en section II.3.2.2.2) se révèlent très utiles pour enrichir
en données médicales la connaissance sur les gènes étudiés.
Des banques de données d’organismes – La confrontation de données d’expression
obtenues chez des organismes complexes tels que l’homme avec des données provenant
d’études sur des organismes modèles peut permettre d’inférer de la connaissance sur la
fonction des gènes. C’est la génomique comparative. Il peut en effet exister des mécanismes
d’expression analogues entre gènes orthologues*.
La confrontation des données expérimentales avec les sources de données publiques et
complémentaires se révèle nécessaire à l’extraction de connaissances autour des données
engendrées par la technologie des puces à ADN.
71
Leur mise en relation dans un environnement intégré est susceptible de participer à une
meilleure compréhension du fonctionnement des gènes, et offre de belles perspectives dans
la compréhension des systèmes biologiques (systems biology).
2.3.2.2. Entrepôts de données pour l’extraction de connaissances
Parmi les approches d’intégration définies en section III.2, c’est l’approche entrepôt de
données, qui est la plus appropriée à l’intégration et à l’analyse de données autour du
transcriptome.
En effet, les volumes de données engendrés par les puces à ADN étant déjà par nature
importants, une réconciliation des annotations autour des gènes étudiés et leur présence en
local favorise un accès plus rapide aux informations (Alkharouf et al., 2005). Bien que des
approches telles que l’approche navigationnelle sont très intuitives et conviviales, l’analyse de
données de puces à ADN requiert des solutions fiables. Dès lors, il faut prendre en
considération les caractéristiques des sources publiques, c'est-à-dire, une faible capacité
d’interrogation, des données chevauchantes, l’utilisation de différents vocabulaires, et
proposer la solution la plus adéquate (Do et al., 2003). Ainsi, même si l’approche matérialisée
pose de réels défis en informatique tels que la création d’un schéma global, l’intégration de
données, la correspondance inter-schémas, et le nettoyage de données, elle se révèle plus
adaptée.
De plus, les possibilités d’analyse proposées par l’approche entrepôt de données sont très
puissantes. L’analyse multidimensionnelle ainsi que les techniques de data mining sont
particulièrement bien adaptées à l’analyse des données de transcriptome.
Parmi les entrepôts de données déjà développés autour des données transcriptomiques,
citons GIMS (Genome Information Management System) (Cornell et al., 2003), M-Chips
(Multi-Conditional Hybridization Intensity Processing System) (Fellenberg et al., 2002),
GenMapper (Do and Rahm, 2004) et GeWare (Kirsten et al., 2004).
(1) GIMS
GIMS87 (Genome Information Management System) (Cornell et al., 2003) est un entrepôt de
données développé à l’Université de Manchester. Il intègre des données sur le génome de
Saccharomyces cerevisiae ainsi que les données fonctionnelles associées. Plus précisément,
il intègre des données privées sur le transcriptome, des données d’interactions protéineprotéine, des données phénotypiques, des données sur les séquences provenant de MIPS88
(Mewes et al., 1997; Tetko et al., 2005), des données fonctionnelles provenant de GO, et des
données sur les réseaux métaboliques provenant de LIGAND89 (Goto et al., 2002).
GIMS repose sur un modèle orienté objet qui permet la liaison entre les données génomiques
et fonctionnelles de l’espèce Saccharomyces cerevisiae (Paton et al., 2000).
87
http://www.cs.man.ac.uk/img/gims/index.html
http://mips.gsf.de/
89
http://www.genome.ad.jp/ligand/
88
72
L’entrepôt de données est implémenté avec le SGBDO (Système de Gestion de bases de
Données Objet) FastObjects commercialisé par Versant90.
Une interface Java permet aux utilisateurs d’interroger l’entrepôt. Les requêtes effectuées sur
les données intégrées dans GIMS peuvent être de simples recherches (par exemple, trouver
les ARNms avec telle classification fonctionnelle) ou des recherches plus complexes (par
exemple, trouver les ARNms qui sont sur-exprimés de tel niveau dans telle expérience et dont
les produits ont telle localisation cellulaire). L’interface permet à la fois de naviguer au sein
des informations stockées, mais également d’accéder à des requêtes plus complexes
prédéfinies.
(2) M-Chips
M-Chips91 (Multi-Conditional Hybridization Intensity Processing System) (Fellenberg et al.,
2002) a été réalisé au DKFZ (centre allemand de recherche sur le cancer) d’Heidelberg.
Cet entrepôt est spécialement dédié à l’analyse statistique de données issues des puces à
ADN. Il est adapté à l’analyse de données issues de plusieurs organismes mais également à
l’analyse de données générées par les diverses technologies des puces à ADN (radioactivité
ou fluorescence, un fluorochrome ou deux).
Les données intégrées dans M-Chips sont de trois types, les intensités brutes d’expression,
les annotations de gènes (numéros d’accession du gène et de la protéine encodée,
localisation chromosomique) et les annotations sur les expériences (conditions
environnementales, génotypes, données cliniques, types de tissus, etc …). Les annotations
sur les expériences peuvent changer d’une espèce à une autre, mais la même structure de la
base est utilisée afin de permettre l’utilisation des mêmes algorithmes d’analyse.
Les fonctions d’analyse dans M-Chips sont implémentées en C, Perl et MATLAB. Elles
permettent la normalisation des données brutes et la classification des données d’expression.
(3) GenMapper et GeWare
GenMapper92 (Do and Rahm, 2004) et GeWare93 (Kirsten et al., 2004) sont deux entrepôts de
données développés à l’Université de Leipzig.
GENMAPPER
GenMapper (Genetic Mapper) (Do and Rahm, 2004) intègre des données génomiques,
biologiques et médicales provenant de 60 sources de données dont Entrez Gene, Unigene,
Swiss-Prot, GO, InterPro, KEGG et OMIM™.
L’une des caractéristiques de GenMapper est d’être basé non pas sur un schéma global (de
type étoile ou flocon), mais sur un schéma générique, appelé GAM (Generic Annotation
90
http://www.versant.com/
http://www.dkfz-heidelberg.de/mchips/
http://sun1.izbi.uni-leipzig.de:8080/GenMapper/
93
https://ducati.izbi.uni-leipzig.de/Geware
91
92
73
Management). Ce schéma permet une représentation uniforme de toutes les données
intégrées dans l’entrepôt. En effet, le schéma repose sur deux classes principales que sont
‘Source’ et ‘Objet’, ce qui permet de représenter dans GAM chaque source comme associée à
un ensemble d’objets (ou données contenues dans la source). Ainsi, le système est
particulièrement bien adapté à l’ajout de nouvelles sources de données. Le réseau de crossréférences existant entre les sources de données est exploité et contenu dans le schéma
GAM.
GenMapper propose une interface conviviale de conception de requête, où l’utilisateur choisit
son ou ses objets à analyser (par exemple, un ensemble de protéines). Il choisit ensuite les
informations qu’il souhaite obtenir sur les objets de départ. Une vue sur GAM est générée et
fournit à l’utilisateur une vision des données associées à ses objets de départ.
GenMapper n’intègre pas de données d’expression mais par ses capacités d’enrichissement
de données, il est largement utilisé pour l’annotation et la recherche d’informations sur des
groupes de gènes différentiellement exprimés.
GEWARE
GeWare (Gene Expression Warehouse) (Kirsten et al., 2004) est un entrepôt de données qui
intègre des données d’expression issues des puces à ADN Affymetrix, des informations sur
les expériences et des données sur les gènes étudiés. Il supporte différents types d’analyses
telles que le traitement des données d’expression, la visualisation de données, la création de
groupes de gènes et l’analyse de ces groupes, des analyses OLAP.
Il est basé sur un modèle multidimensionnel relationnel où la table centrale de faits
correspond aux données d’expression et où les dimensions correspondent aux annotations et
aux traitements pouvant être effectués dans l’entrepôt. Les dimensions sont organisées en
hiérarchies, les analyses OLAP permettent ainsi d’effectuer des opérations de drill-down et de
roll-up, pour accéder à différents niveaux d’annotations.
GeWare fournit une interface Web servant pour l’intégration des données et les analyses. Le
modèle générique GAM, décrit précédemment dans le système GenMapper, est utilisé pour
capturer les annotations sur les gènes étudiés dans GeWare, les données sont ensuite
transférées de GAM à la dimension concernée de GeWare.
2.3.2.3. Discussion sur les entrepôts de données dédiés à l’analyse de
transcriptome
Si les entrepôts de données décrits précédemment ont comme point commun le fait d’intégrer
des données dans le but d’analyser le transcriptome, les approches utilisées sont différentes,
chacune ayant ses avantages et ses inconvénients.
M-Chips permet l’analyse de données issues de l’étude de transcriptome de multiples
espèces et couvre l’ensemble des technologies de puces à ADN. Il fournit un environnement
de traitement des données primaires et de classification des données d’expression.
Cependant, il ne propose pas d’intégration d’informations complémentaires sur les gènes
étudiés, ne permettant pas d’interpréter biologiquement les données expérimentales.
74
GIMS intègre de multiples données génomiques et biologiques pour une meilleure
compréhension du transcriptome de Saccharomyces cerevisiae, mais aucun processus
d’intégration n’est décrit dans la littérature. Le système repose sur un modèle orienté objet
pour une meilleure représentation des différents types de données intégrés. GIMS fournit une
interface conviviale pour la visualisation de données et l’exécution de requêtes prédéfinies.
GenMapper intègre de nombreuses sources de données et tient son originalité de son modèle
générique GAM particulièrement bien adapté à l’ajout de nouvelles sources de données et à
l’exploitation des références internes et externes (cross-références) dans les sources.
L’inconvénient de l’utilisation du modèle GAM, c’est l’absence d’un schéma global unificateur.
Aussi, dans GenMapper, aucun processus de réconciliation des données n’est fourni, et
l’utilisateur se trouve confronté à des données contradictoires et redondantes. Il doit
également gérer les problèmes d’hétérogénéité sémantique entre les sources.
GeWare exploite l’organisation multidimensionnelle des données, caractéristique de
l’approche entrepôt de données. Ainsi, les données d’expression peuvent être analysées
selon différentes dimensions que sont les annotations sur les gènes, les annotations sur les
expériences et les algorithmes d’analyse de données d’expression. Tout comme pour
GenMapper, l’utilisation du modèle GAM pour capturer les annotations sur les gènes, prive le
système d’un schéma global où toutes les annotations autour des gènes étudiés sont
réconciliées.
75
CADRE ET BUTS DU TRAVAIL
CADRE ET BUTS DU TRAVAIL
L’étude du transcriptome hépatique a débuté à l’Unité INSERM 522 il y a plusieurs années,
afin de préciser les mécanismes qui contrôlent l'équilibre fonctionnel de l'hépatocyte, et ainsi
mieux comprendre les altérations qui surviennent dans certaines pathologies humaines,
principalement les pathologies de surcharge en fer, les hépatites virales et la carcinogenèse
hépatocellulaire. A mon arrivée en 2001, l’étude du transcriptome hépatique prenait une
nouvelle dimension avec la mise en place de la technologie des puces à ADN.
Les données d’expression générées par une telle technologie sont considérables et
requièrent des moyens bioinformatiques pour leur gestion et leur analyse. Cette analyse des
données nécessite une prise en compte d’informations diverses et complémentaires sur les
gènes en présence sur la puce à ADN. Celles-ci sont nombreuses et de natures variées. Il
s’agit d’informations sur les séquences des gènes, leurs localisations chromosomiques, les
protéines encodées, leurs distributions tissulaires, leurs implications dans des fonctions
moléculaires et des processus biologiques, leurs implications cliniques, leurs niveaux
d’expression dans différentes conditions physiopathologiques. Ajoutons à cela leur apparition
croissante dans la littérature scientifique. Une analyse percutante des résultats
expérimentaux se doit de considérer en plus des données d’expression, toute cette
connaissance disponible sur les gènes exprimés.
Un des défis actuels de la bioinformatique est de fournir des moyens pour intégrer cette
masse de données et de l’exploiter de façon automatique pour en extraire de nouvelles
connaissances. Cette tâche n’est pas triviale et révèle de nombreuses difficultés. En effet,
comme démontré en partie introductive de ce manuscrit, ces données sont réparties sur le
Web dans une multitude de sources de données dynamiques et très hétérogènes. Si depuis
quelques années des efforts ont été fourni par la communauté scientifique pour améliorer
l’interopérabilité entre ces différentes sources par la définition de standards et la proposition
de différentes approches d’intégration, la problématique reste entière.
Au cours de mon travail de thèse, mon objectif a été de fournir une solution d’intégration
tenant compte des défis mentionnés ci-dessus et adaptée à notre contexte : l’analyse de
transcriptome dans le cadre d’une recherche biomédicale. L’enjeu était double :
ƒ
Intégrer des informations allant du gène à la pathologie et réconcilier ces données afin
d’avoir une vue unifiée des informations disponibles sur un gène donné.
ƒ
Fournir une aide à la décision permettant d’orienter la recherche par extraction de
nouvelles connaissances.
Nous avons donc développé d’une part l’entrepôt de données GEDAW (Gene Expression
DAta Warehouse) et d’autre part, en collaboration avec l’équipe d’accueil EA3888 de
l’Université de Rennes 1, le système BioMeKE.
76
GEDAW intègre et réconcilie des données d’expression enrichies de sources et de
standards complémentaires dans les domaines de la génomique, de la biologie et de la
médecine dans lesquelles les utilisateurs puisent des informations à l’aide d’outils de
restitution et d’analyse. Une intégration forte des données du niveau biologique jusqu’au
niveau pathologique, rend possible la réponse aux interrogations complexes posées par les
chercheurs.
BioMeKE est un système basé sur les ontologies GO et UMLS qui délivre des annotations
biomédicales sur les gènes. BioMeKE a été utilisé en partie pour l’intégration de données
dans GEDAW.
Ce travail sera présenté en trois parties :
1 – La première partie concerne le système BioMeKE, et plus particulièrement son
implémentation qui repose essentiellement sur les ontologies GO et UMLS ainsi que ses
caractéristiques et son évaluation.
2 – Puis nous détaillerons la structure de l’entrepôt GEDAW : 1) l’architecture de l’entrepôt,
2) les sources de données et les standards utilisés pour l’intégration, 3) les processus
d’intégration mis en œuvre, 4) l’interface d’accès aux informations intégrées.
3 – Enfin, nous présenterons les analyses effectuées dans GEDAW et montrerons
l’efficacité du système pour la découverte de nouvelles connaissances dans le contexte du
transcriptome hépatique.
77
BIOMEKE
(BIOMEDICAL KNOWLEDGE EXTRACTION SYSTEM)
I. BIOMEKE POUR L’ANNOTATION
BIOMÉDICALE DE GÈNES
1. INTRODUCTION
L’annotation fonctionnelle de gènes se révèle très utile pour l’analyse de données engendrées
par des technologies qualifiées de « haut débit ». Si GO (Gene Ontology) fournit une
annotation sur les fonctions moléculaires et les processus biologiques associés aux gènes
ainsi que les localisations cellulaires associées aux produits de gènes, il ne fournit aucune
indication sur les pathologies ou syndromes associés à ces mêmes gènes. BioMeKE
(BioMedical Knowledge Extraction system) est un système intégrant GO et UMLS® (Unified
Medical Language System®) pour délivrer une annotation biomédicale des gènes.
2. MISE EN ŒUVRE ET DISCUSSION
Le Metathesaurus® de l’UMLS intègre plus de 100 vocabulaires dont MeSH, GO et Genew.
Les concepts du Metathesaurus sont reliés par différents types de relations : des relations
hiérarchiques, des relations d’association ou des co-occurrences dans MEDLINE, avec les
fréquences associées.
Méthodes et implémentation
Dans BioMeKE, l’annotation biomédicale via l’UMLS est réalisée en deux étapes. Dans un
premier temps, le nom du gène est recherché dans le Metathesaurus, en utilisant toute
l’information de nomenclature des gènes incluse dans Genew. Dans un second temps,
l’ensemble des concepts reliés au nom du gène dans le Metathesaurus est récupéré, il
constitue l’annotation biomédicale du gène.
BioMeKE est une application Java Web Start, qui prend en entrée une liste d’identifiants ou
de noms de gènes et qui fournit en sortie l’annotation biomédicale de ces gènes. Les
annotations sont soit consultables via une interface, soit délivrées au format XML.
Évaluation
Une évaluation du système a été réalisée sur un ensemble de 43 gènes connus pour être
impliqués dans le métabolisme du fer. Les 43 gènes ont été recherchés dans le
Metathesaurus, puis leurs annotations ont été récupérées et enfin évaluées par un expert du
domaine. Cette étude a révélé que les informations récupérées via les relations de cooccurrences étaient les plus informatives car largement complémentaires à GO, attendues par
l’expert pour des fréquences supérieures à 10 et inattendues pour des fréquences inférieures
à 10.
78
ARTICLE 1
BioMeKE : a UMLS-based system useful for
biomedical annotation of genes
G. Marquet, E. Guérin, O. Loréal and A. Burgun
[Article en révision pour publication dans la revue Bioinformatics]
BIOINFORMATICS
Vol. 00 no. 0 2005, pages 1–5
doi:10.1093/bioinformatics/bti283
Databases and Ontologies
BioMeKE: a UMLS-based system useful for biomedical annotation
of genes
Gwenaëlle Marquet 1*, Emilie Guérin 2, Olivier Loréal 2, Anita Burgun 1
1
2
EA 3888, IFR 140, Université de Rennes 1, Faculté de Médecine - 35043 Rennes Cedex - France
INSERM U522, IFR 140, Université de Rennes 1, CHRU Pontchaillou - 35033 Rennes Cedex - France
.
is built by merging more than 100 vocabularies, including MeSH1,
GO and Genew terms2 (Wain et al. 2004). MTH concepts are
related by a set of 22,623,179 relations, including hierarchical
relations, associative relations (‘other relations’) and cooccurrences in MEDLINE, with their frequencies.
The UMLS annotation in BioMeKE is performed in two steps.
Mapping gene or gene product names to MTH. The objective is
to extract the MTH concepts corresponding to the genes. For each
gene, the approved name and symbol, aliases, previous names and
symbols of the gene, provided by Genew are successively searched
for in the MTH. Filtering relying on five UMLS STs (Gene or
Genome; Amino Acid, Peptide or Protein; Nucleic Acid, Nucleoside
or Nucleotide; Molecular Function; Disease or Syndrome) is
performed to select only the MTH concepts that correspond to
genes or gene products.
Searching for MTH concepts to annotate the gene. This step
exploits the MTH relations. For a given MTH concept, the
annotation process selects concepts that are related to it through
one of the following relations: parent, other relations, and cooccurrence and assigned to at least one of the 22 relevant STs (see
supplementary information) that may be of interest for the
interpretation of post genomic data.
BioMeKE is implemented as a Java Swing application that relies
on JTree, JTable and other GUI components. We have wrapped
BioMeKE as a Java Web Start application. This technology
provides several advantages over standard java applets or
applications: the software Java Web Start is launched
automatically when the user downloads for the first time a Java
application using this technology; each time the user starts the
application, the software Java Web Start checks if a new version of
BioMeKE is available on the Web site and downloads it.
As BioMeKE uses the UMLS for the medical annotation, it
requires a UMLS license. This license can be obtained on the
UMLS site3. It is free for academic researchers.
ABSTRACT
Summary: The Unified Medical Language system (UMLS) is a
potential resource for providing associations between genes and
medical knowledge, which may complement Gene Ontology (GO)
annotation. We present BioMeKE (BioMedical Knowledge Extraction
system), a UMLS-based annotation system that exploits the
relations present in the UMLS. An evaluation of the system on a set
of 43 genes known to be involved or not in iron metabolism has
shown the interest of this method, for providing association between
genes and medical conditions. In conclusion, BioMeKE is useful to
study biomedical information related to large lists of genes such as
those obtained using high throughput technologies.
Availability: BioMeKE is freely available via Java Web Start at
http://www.med.univ-rennes1.fr/biomeke/
Contact: [email protected]
Supplementary
information:
http://www.med.univrennes1.fr/biomeke/suppinfo.php
1
INTRODUCTION
Functional annotations of genes as well as gene-disorder relations
play a major role for analyzing data obtained using high
throughput technologies. Gene Ontology™ (GO) annotation
represents (The Gene Ontology Consortium 2000) the molecular
functions, biological processes, and cellular components associated
with genes and gene products. GO annotation does not provide
information on pathologic conditions and disorders that have been
associated with genes. The Unified Medical Language System®
(UMLS) is a biomedical “ontology” whose coverage includes
signs, symptoms and diseases (Bodenreider 2004). Crossannotations between GO and UMLS could improve biomedical
knowledge. We present BioMeKE, Biological and Medical
Knowledge Extractor, a new Java-based application, which relies
on the UMLS to annotate sets of genes with biomedical concepts.
2
METHODS AND IMPLEMENTATION
The UMLS is made of two major components, the Metathesaurus®
(MTH), a repository of 1,179,177 concepts (2005AA release), and
the Semantic Network, a limited network of 135 Semantic Types
(ST). Each MTH concept is assigned to one or more ST. The MTH
© Oxford University Press 2005
1
MeSH is the National Library of Medicine's thesaurus used in MEDLINE.
Genew is the HUGO Gene Nomenclature Committee database. It
proposes nomenclature conventions for genes and now provides approved
gene names and symbols
3
http://www.nlm.nih.gov/research/umls/license.html
2
79
G.marquet et al.
Fig 1: BioMeKE output screen shot represents the UMLS annotation
(displayed by semantic types) and the official nomenclature for HFE.
BioMeKE takes as an input a list of gene or gene product
identifiers. Those identifiers may be of different kinds, e.g.
LocusLink ID, Uniprot ID. The result of annotation is displayed as
a tree structure. Moreover, the UMLS annotation can be classified
according to the UMLS semantic types or to the relationships (Fig
1). For each annotated gene, a XML file is created.
3
ILLUSTRATION AND EVALUATION
Consider the gene HFE (LocusLink: 3077), for which a biomedical
annotation was provided by BioMeKE. UMLS annotations provide
complementary biological information to GO annotations (Table 1)
including disorders associated to HFE (Fig 1).
9
9
GO annotations
MHC class I receptor activity
protein complex assembly
9
9
transport
iron ion transport
Multifactorial Inheritance
9
9
iron ion homeostasis
receptor mediated endocytosis
Bile Duct Neoplasms
Cholangiocarcinoma
9
9
immune response
antigen presentation,
Liver neoplasms
Primary carcinoma of the liver cells
9
endogenous antigen
antigen processing,
Intestinal Absorption
endogenous antigen via MHC
class I
9
9
cytoplasm
integral to plasma membrane
An evaluation was done on a set of 43 genes known to be involved
or not in iron metabolism (see supplementary information). All the
43 genes were mapped successfully to the MTH. We obtained
annotations for 19 genes. The strict overlap between the UMLS
annotation provided by BioMeKE and the GO annotation based on
SOURCE (Diehn et al 2003) represents 0.1% of the UMLS
annotation and 3.2% of the GO annotation. In order to evaluate the
accuracy of the medical annotations provided by BioMeKE, a
manual review of the UMLS annotation has been done by an
expert involved in research in iron metabolism and iron related
diseases (OL). It has shown that the hierarchical relations and
associative relations provide a large amount of information which
is complementary to GO and “expected,” i.e. corresponds to the
current expert domain knowledge. The UMLS co-occurrences
provide a large percentage of complementary annotation to GO. In
addition, considering those with a frequency ≥ 10, we found that
60.3% gave information which was expected for the expert.
Our approach has been generalized to the Genew database. 79%
(18,504) of the 23,398 HGNC identifiers in the March 2005
version of Genew were found in the MTH. Only 3,158 (13 %) have
annotations in the UMLS. A possible explanation is that we used
the 2005AA version of the UMLS, which is the first one
containing Genew terms. Therefore, not all the Genew concepts
have relations with other MTH concepts. 632 genes were provided
with annotation corresponding to disorders and/or physiology.
In conclusion, BioMeKE exploits the relations in the MTH and
provides concepts that are related to a gene through hierarchical
and associative relations, in particular diseases and medical
conditions associated with genes. BioMeKE is useful to study
biomedical information related to large lists of genes such as those
obtained using high throughput technologies.
ACKNOWLEDGEMENTS
This work was supported by grants from the Région Bretagne
(20046805, PRIR 139)
UMLS annotations
Genetic Function
Genetic Markers
REFERENCES
The Gene Ontology Consortium (2000) Gene ontology: tool for the
unification of biology. Nature Genet, 25, 25-9.
Bodenreider, O (2004) The Unified Medical Language System (UMLS):
integrating biomedical terminology. Nucleic Acids Res, 32 Database
issue, 267-70.
Diehn, M. et al (2003) SOURCE: a unified genomic resource of functional
annotations, ontologies, and gene expression data. Nucleic Acids Res,
31, 219-223
Wain, HM. et al. (2004) Genew: The Human Gene Nomenclature Database,
2004 updates. Nucleic Acids Res, 32 Database issue, 255-7.
Neoplastic Process
Organ or Tissue Function
Pathologic Function
Hyperpigmentation
Insulin Resistance
Tachycardia, Ventricular
Hypertrophy, Right Ventricular
Table 1: GO annotation and examples of complementary UMLS annotation
for HFE.
80
INFORMATIONS SUPPLÉMENTAIRES SUR
L’ARTICLE 1
1.
Liste des types sémantiques
2. Licence UMLS
3. Evaluation
Extrait du site Web :
http://www.med.univ-rennes1.fr/biomeke/suppinfo.php
BioMeKE
Supplementary information
list of Semantic Types UMLS license evaluation
1 - List of Semantic Types :
The 22 Semantic Types that may be interest for the interpretation of post genomic data.
Semantic type
Definition
Acquired
Abnormality
An abnormal structure, or one that is abnormal in size or location, found
in or deriving from a previously normal structure. Acquired
abnormalities are distinguished from diseases even though they may
result in pathological functioning (e.g., "hernias incarcerate").
Amino Acid,
Peptide, or
Protein
Amino acids and chains of amino acids connected by peptide linkages.
Anatomical
Structure
A normal or pathological part of the anatomy or structural organization
of an organism.
Biologic
Function
A state, activity or process of the body or one of its systems or parts.
Cell Function
A physiologic function inherent to cells or cell components.
Cell or
Molecular
Dysfunction
A pathologic function inherent to cells, parts of cells, or molecules.
Congenital
Abnormality
An abnormal structure, or one that is abnormal in size or location,
present at birth or evolving over time as a result of a defect in
embryogenesis.
Disease or
Syndrome
A condition which alters or interferes with a normal process, state, or
activity of an organism. It is usually characterized by the abnormal
functioning of one or more of the host's systems, parts, or organs.
Included here is a complex of symptoms descriptive of a disorder.
Embryonic
Structure
An anatomical structure that exists only before the organism is fully
formed; in mammals, for example, a structure that exists only prior to the
birth of the organism. This structure may be normal or abnormal.
Experimental
Model of Disease
A representation in a non-human organism of a human disease for the
purpose of research into its mechanism or treatment.
81
Finding
That which is discovered by direct observation or measurement of an
organism attribute or condition, including the clinical history of the
patient. The history of the presence of a disease is a 'Finding' and is
distinguished from the disease itself.
Gene or Genome
A specific sequence, or in the case of the genome the complete sequence,
of nucleotides along a molecule of DNA or RNA (in the case of some
viruses) which represent the functional units of heredity.
Genetic Function
Functions of or related to the maintenance, translation or expression of
the genetic material.
Injury or
Poisoning
A traumatic wound, injury, or poisoning caused by an external agent or
force.
Mental or
Behavioral
Dysfunction
A clinically significant dysfunction whose major manifestation is
behavioral or psychological. These dysfunctions may have identified or
presumed biological etiologies or manifestations.
Molecular
Function
A physiologic function occurring at the molecular level.
Neoplastic
Process
A new and abnormal growth of tissue in which the growth is
uncontrolled and progressive. The growths may be malignant or benign.
Organ or Tissue
Function
A physiologic function of a particular organ, organ system, or tissue.
Pathologic
Function
A disordered process, activity, or state of the organism as a whole, of a
body system or systems, or of multiple organs or tissues. Included here
are normal responses to a negative stimulus as well as patholologic
conditions or states that are less specific than a disease. Pathologic
functions frequently have systemic effects.
Phenomenon or
Process
A process or state which occurs naturally or as a result of an activity.
Population
Group
An indivdual or individuals classified according to their sex, racial
origin, religion, common place of living, financial or social status, or
some other cultural or behavioral attribute.
Tissue
An aggregation of similarly specialized cells and the associated
intercellular substance. Tissues are relatively non-localized in
comparison to body parts, organs or organ components.
82
2 - UMLS license:
BioMeKE uses the UMLS for the medical annotation.
The UMLS license is free for the academic researchers.
UMLS license extract :
" This Agreement is made by and between the National Library of Medicine, Department of
Health and Human Services (hereinafter referred to as "NLM") and the LICENSEE.
WHEREAS, the NLM was established by statute in order to assist the advancement of
medical and related sciences, and to aid the dissemination and exchange of scientific and
other information important to the progress of medicine and to the public health, (section 465
of the Public Health Service Act, as amended (42 U.S.C. section 286) and to carry out this
purpose has been authorized to develop the Unified Medical Language System® (UMLS) to
facilitate the retrieval and integration of machine-readable biomedical information from
disparate sources; WHEREAS, the NLM's UMLS project has produced the UMLS
Metathesaurus, a machine-readable vocabulary knowledge source, that is useful in a variety of
settings; WHEREAS, the LICENSEE is willing to use the UMLS Metathesaurus at its sole
risk and at no expense to NLM, which will result in information useful to NLM, may provide
immediate improvements in biomedical information transfer to segments of the biomedical
community, and is consistent with NLM's statutory functions, NOW THEREFORE, it is
mutually agreed as follows:
1. The NLM hereby grants a nonexclusive, non-transferable right to LICENSEE to use
the UMLS Metathesaurus and incorporate its content in any computer applications or systems
designed to improve access to biomedical information of any type subject to the restrictions in
other provisions of this Agreement. The names and addresses of licensees authorized to use
the UMLS products are public information.
2. No charges, usage fees or royalties will be paid to NLM."
.....UMLS web site
3 - Evaluation:
This evaluation has shown the interest of BioMeKE from a biomedical standpoint, especially
for the biologist who studies a broad list of genes obtained by a high throughput technology.
Two types of evaluation were done a quantitative evaluation and a qualitative evaluation.
The evaluation was done on a set of 43 genes known to be involved or not in iron metabolism.
Each gene has LocusLink ID that has been recovered via the LocusLink interface (view the
list of genes).
83
Mapping
locuslink
ID
CUI*
semantic
Types*
538
C1412688
GG
no
view
xml
5621
C1418941
GG
no
view
xml
57817
C1423607
GG
no
view
xml
6647
C1420306
GG
no
view
xml
3162
C1415619
GG
no
view
xml
3163
C1415620
GG
no
view
xml
4241
C1417130
GG
no
view
xml
4500
C1417400
GG
no
view
xml
79901
C1427130
GG
no
view
xml
80025
C1423814
GG
no
view
xml
9843
C1415510
GG
no
view
xml
9973
C1413192
GG
no
view
xml
6648
C1420307
GG
no
view
xml
6649
C1420308
GG
no
view
xml
7390
C1421375
GG
no
view
xml
7037
C1420708
GG
no
view
xml
1356
C1439306
GG
yes
view
xml
2420
C1414813
GG
no
view
xml
84
UMLS
XML
Evaluation
annotation file
yes
2495
C1414833
GG
no
view
xml
2512
C1414852
GG
no
view
xml
205
C1412307
GG
no
view
xml
2235
C1414580
GG
no
view
xml
2395
C0387678
AAPP
yes
view
xml
2941
C1415331
GG
no
view
xml
3240
C0018595,C1415692
AAPP/GG
yes
view
xml
yes
7018
C0040679,C1442762
AAPP/GG
yes
view
xml
yes
7036
C0908063,C1420707
AAPP/GG
yes
view
xml
yes
30061
C0915115,C1456396
AAPP/GG
yes
view
xml
yes
210
C1439270
GG
no
view
xml
1371
C0009985,C1413681
AAPP/GG
yes
view
xml
yes
3091
C1333897
GG
yes
view
xml
yes
3077
C0018995,C1384665
DS/GG
yes
view
xml
yes
2597
C0017857,C1414968
AAPP/GG
yes
view
xml
yes
4057
C0022942,C1416933
AAPP/GG
yes
view
xml
yes
540
C0296649,C1412689
AAPP/GG
yes
view
xml
yes
4891
C1420089
GG
no
view
xml
2057
C0059570,C1333342
AAPP/GG
yes
view
xml
yes
3263
C0019067,C1415712
AAPP/GG
yes
view
xml
yes
567
C0005149,C1412709
AAPP/GG
yes
view
xml
yes
85
yes
48
C0378502,C1412126
AAPP/GG
yes
view
xml
yes
3658
C1442498
GG
yes
view
xml
yes
7422
C0078058,C1336934,C1323364 AAPP/MF/GG
yes
view
xml
yes
7428
C0299505,C0019562,C0694897 AAPP/DS/GG
yes
view
xml
yes
* CUI : Each concept in the Metathesaurus (UMLS) has a unique and permanent concept
identifier (CUI)
* Semantic Types : GG --> Gene or Genome
AAAP --> Amino Acid, Peptide or Protein
MF --> Molecular Function
DS --> Disease or syndrome
Annotation
In order to evaluate the accuracy of the medical annotations provided by BioMeKE, a manual
review of the UMLS annotation has been done by an expert involved in research in iron
metabolism and iron related diseases (Olivier Loréal, INSERM U522) list of publication .
Two criteria were used:
•
Complementary information: was used to determine whether was redundant with
GO annotation or complementary to GO.
A UMLS annotation is regarded as complementary compared to GO when the expert
considers that it corresponds to new information. For example, the GO annotations for
EPOR are "erythropoietin receptor Activity", "signal transduction" and "integral to
plasma membrane" and among the UMLS annotation we find "Hematopoiesis". This
annotation is judged not complementary to GO
•
Expected information: was used to determine if a UMLS annotation was expected or
not expected. This criterion was evaluated only on the annotation that was judged
complementary to the first criteria: Expected annotation corresponds to a relation
between the gene and the UMLS concept that is valid from the expert's standpoint. For
example, 'Kidney Failure, Chronic' is judged expected by the expert and 'Epilepsy,
Temporal lobe' is judged not expected for the gene EPOR
86
Example of UMLS annotations annotated by the expert :
Gene EPOR LocusLink ID 2057
GO annotation :
erythropoietin receptor activity
signal transduction
integral to plasma membrane
UMLS Annotation
Complementary to GO Expected
Erythropoeitin receptor
no
yes
Anemia, Sickle cell
yes
yes
Kidney Failure, Chronic
yes
yes
Endometriosis, site unspecified
yes
no
Epilepsy, Temporal lobe
yes
no
Cytokine Receptor Gene
yes
no
Leukelia, Erythroblastic, Acute
yes
yes
Dysmyelopoietic Syndromes
yes
yes
Hematopoiesis
no
yes
Bone Marrow
yes
yes
Gene TF LocusLink ID 7018
GO annotation :
ferric iron binding
transport
iron ion transport
iron ion homeostasis
UMLS Annotation
Complementary to GO Expected
Serum, Urine and Miscellaneous Proteins
yes
yes
Oxidative Stress
yes
no
Hemocromatosis
yes
yes
Alzheimer's Disease
yes
yes
Staphylococcal Infectious
yes
no
Major histocompatibility Complex
yes
yes
Alternative Splicing
yes
yes
Alcohol-Related Disorders
yes
yes
iron metabolism
no
yes
Sertoli cell Tumor
yes
no
Primary carcinoma of the liver cells
yes
yes
Livers neoplasms
yes
yes
87
The annotation files can be download here.
Graphical representation of the manual result evaluation
Representation, for each relation type, of the percentage of UMLS annotation which were
complementary or not (disk) to GO annotation, and, inside of this complementary annotation,
those which were expected or not expected (bar) for the expert. The purple part of the disk
represents the UMLS annotation which is complementary to GO annotation whereas the
yellow part indicates UMLS annotation which is not giving complementary information. The
expected annotations were calculated on the complementary annotation. The hatched part
represents expected annotation and the white part represents annotations which were not
expected
88
L’ENTREPÔT GEDAW
II. INTÉGRATION DE DONNÉES DANS
L’ENTREPÔT GEDAW
1. INTRODUCTION
Arguant que l’interprétation biologique des données générées par les puces à ADN requiert
l’enrichissement des données d’expression par intégration d’informations, et que l’approche
entrepôt de données est adaptée à l’analyse en masse des données d’expression, nous
avons développé GEDAW.
GEDAW est un entrepôt de données orienté-objet dédié à l’analyse des données engendrées
par l’étude du transcriptome hépatique. Il intègre des données d’expression enrichies à partir
de sources et de standards des domaines de la génomique, de la biologie et de la médecine.
Nous nous sommes focalisés sur l’utilisation de sources et de standards structurés et semistructurés pour une intégration forte et systématique au sein d’un schéma global qui regroupe
les instances provenant des diverses sources intégrées.
2. MISE EN ŒUVRE ET DISCUSSION
Architecture
Le schéma de données de GEDAW est subdivisé en trois parties correspondant aux différents
types de données intégrés : 1) les données expérimentales, c'est-à-dire les mesures
d’expression de gènes en fonction de conditions expérimentales, 2) les annotations des
gènes étudiés (séquence du gène, de l’ARNm, de la protéine ainsi que leurs annotations) et
3) les annotations biomédicales.
Sources de données
Les sources de données utilisées pour l’instanciation de l’entrepôt sont soit locales soit
réparties sur le Web, chacune ayant son propre système de représentation. Elles ont été
choisies pour leurs propriétés de contenu et de structuration, pour ainsi permettre une
extraction efficace des entités d’intérêt. Les sources de données sont les suivantes :
ƒ
Une base de données relationnelle comme source de données expérimentales. Une
base de données a été développée au laboratoire pour la gestion des données issues de
la technologie des puces à ADN. Elle est en accord avec les standards MIAME. Cette
base a été conçue en dehors de l’entrepôt GEDAW pour ne pas le surcharger de détails
expérimentaux. Seuls les ratios normalisés ainsi que les libellés d’expériences sont
exportés vers GEDAW pour de futures analyses.
89
ƒ
ƒ
GenBank comme source de données génomiques. Les enregistrements au format
XML de la banque de données GenBank sont utilisés pour l’intégration de données
génomiques dans GEDAW.
Les ontologies GO et UMLS comme sources de données biomédicales. GO et
UMLS sont utilisées pour fournir respectivement l’annotation fonctionnelle et la
connaissance biomédicale sur les gènes étudiés. C’est l’application BioMeKE, présentée
précédemment qui délivre cette double annotation. L’application fournit dans le format
XML, les termes GO et les concepts UMLS associés à une liste de gènes.
Schéma et processus d’intégration
Un schéma orienté objet unique réunit toutes les informations expérimentales, génomiques et
biomédicales autour des éléments centraux que sont le gène, l’ARNm et la protéine. Le
langage Java est utilisé pour la description et l’instanciation des classes et le SGBDO
(Système de Gestion de Base de Données Objet) FastObjects est utilisé pour la persistance
des classes.
Parce que les sources de données sélectionnées sont structurées ou semi-structurées, nous
avons pu définir, lors du processus d’intégration, des règles de correspondance qui assurent
d’une part la correspondance entre les schémas des sources et le schéma de GEDAW, et
d’autre part la réconciliation des données. Ainsi, par le biais de règles structurales, agissant
au niveau du schéma, les éléments ou concepts de GenBank, de GO et de l’UMLS sont
sélectionnés, extraits et intégrés. De plus, des règles sémantiques, agissant au niveau des
instances, permettent la réconciliation de la nomenclature des gènes : l’identifiant GeneID
ainsi que les synonymes de noms de gènes fournis par BioMeKE sont utilisés pour regrouper
dans GEDAW les données associées à un même gène.
L’intégration dans GEDAW débute par le chargement des identifiants des gènes représentés
sur la puce. Puis les mesures d’expression ainsi que les données génomiques, biologiques et
médicales sont sélectionnées, transformées puis intégrées dans GEDAW.
Finalement, l’utilisateur accède à l’information intégrée et réconciliée via une interface Java.
L’interface permet de composer des requêtes OQL multicritères qui conduisent à l’interrelation de données diverses jusqu’alors non confrontées, ouvrant ainsi la voie à la suggestion
de nouvelles hypothèses.
90
ARTICLE 2
Integrating and warehousing liver gene
expression data and related biomedical
resources in GEDAW
E. Guérin, G. Marquet, A. Burgun, O. Loréal, L. Berti-Equille, U. Leser and F. Moussouni
Proceedings of Second International Workshop, Data Integration in Life Sciences
(DILS), San Diego, CA, USA, July 20-22, 2005
Appeared in Lecture Notes in Computer Science
Publisher: Springer-Verlag
ISSN: 0302-9743
Volume 3615: 158-174
Integrating and Warehousing Liver Gene Expression Data
and Related Biomedical Resources in GEDAW
E. Guérin 1, G. Marquet 2, A. Burgun 2, O.Loréal 1, L. Berti-Equille 3
U. Leser 4, F. Moussouni 1
1
INSERM U522 CHU Pontchaillou, 35033 Rennes, France
EA 3888 LIM, Faculté de Médecine 35043 Rennes, France
3
IRISA, Campus Universitaire de Beaulieu, 35042 Rennes, France
Dep. for Computer Science, Humboldt-Universität, 10099 Berlin Germany
2
4
Abstract. Researchers at the medical research institute Inserm U5221,
specialized in the liver, use high throughput technologies to diagnose liver
disease states. They seek to identify the set of dysregulated genes in different
physiopathological situations, along with the molecular regulation mechanisms
involved in the occurrence of these diseases, leading at mid-term to new
diagnostic and therapeutic tools. To be able to resolve such a complex question,
one has to consider both data generated on the genes by in-house transcriptome
experiments and annotations extracted from the many publicly available
heterogeneous resources in Biomedicine. This paper presents GEDAW, a gene
expression data warehouse that has been developed to assist such discovery
processes. The distinctive feature of GEDAW is that it systematically integrates
gene information from a multitude of structured data sources. Data sources
include: i) XML records of GENBANK to annotate gene sequence features,
integrated using a schema mapping approach, ii) an inhouse relational database
that stores detailed experimental data on the liver genes and is a permanent
source for providing expression levels to the warehouse without unnecessary
details on the experiments, and iii) a semi-structured data source called
BioMeKE-XML that provides for each gene its nomenclature, its functional
annotation according to Gene Ontology, and its medical annotation according to
the UMLS. Because GEDAW is a liver gene expression data warehouse, we
have paid more attention to the medical knowledge to be able to correlate
biology mechanisms and medical knowledge with experimental data. The paper
discusses the data sources and the transformation process that is applied to
resolve syntactic and semantic conflicts between the source format and the
GEDAW schema.
1 Introduction
In human health and life science, the rapid emergence of new biotechnological
platforms for high throughput investigations in genome, transcriptome and proteome,
prompts further advances in information management techniques to take in charge the
data and knowledge generated by these technologies. A tremendous amount of
1
Regulation of functional balances of normal and pathological liver
91
biomedical data is continuously deposited by scientists in public Web resources, and
is in return searched by other scientists to interpret results and generate and test
hypothesis.
The management of these data is challenging, mainly because : (i) data items are
rich and heterogeneous: experiment details, raw data, scientific interpretations,
images, literature, etc. ii) data items are distributed over many heterogeneous data
sources rendering a complex integration, iii) data are speculative and subject to errors
and omissions within these data sources, and bio-data quality is difficult to evaluate,
and iv) bio-medical knowledge is constantly morphing and in progress..
This paper reports on our experience in building GEDAW: an object-oriented Gene
Expression Data Warehouse to store and manage relevant information for analyzing
gene expression measurements [12]. GEDAW (Gene Expression DAta Warehouse)
aims on studying in silico liver pathologies by using expression levels of genes in
different physiopathological situations enriched with annotations extracted from the
variety of the scientific sources and standards in life science and medicine.
A comprehensive interpretation of a single gene expression measurement requires
the consideration of the available knowledge about this gene, including its sequence
and promoters, tissue-specific expression, chromosomal location, molecular
function(s) and classification, biological processes, mechanisms of its regulation,
expression in other pathological situations or other species, clinical follow-ups and,
increasingly important, bibliographic information. Beyond the process of data
clustering, this knowledge provides representations that can help the scientist to
address more complex questions and suggest new hypothesis, leading in our context
to a clearer identification of the molecular regulation mechanisms involved in the
occurrence of liver diseases and at mid-term to new diagnostic and therapeutic tools.
The required knowledge is spread world-wide and hosted on multiple
heterogeneous resources. Manually navigating them to extract relevant information on
a gene is highly time-comsuming and error-prone. Therefore, we have physically
integrated into GEDAW a number of important sources in life science and medicine
that are structured or semi-structured. Our final objective is to propose a more
systematic approach to integrate data on liver genes and to organize and analyze them
within a target question - which is in our case specific to an organ and a pathological
state. This is a complex task, with the most challenging questions being: i) bioknowledge representation and modeling, ii) semantic integration issues and iii)
integrated bio-data analysis.
Building a scientific data warehouse to store microarray expression data is a well
studied problem. Conceptual models for gene expression are for instance discussed in
[18].The Genomic Unified Schema (GUS) integrates diverse life science data types,
including a support of data cleansing, data mining and complex queries analyses, thus
making it quite generic [2]. The warehouse of [11] focuses on storing as possible
details on the experiments and the technologies used. In GEDAW we only focus on
the result of an experiment, i.e., expression measurements. No further experimental
details are stored within the warehouse. The Genome Information Management
System (GIMS) in which one of the authors has been participating, allows the storage
and management of microarray data on the scale of a genome, making GIMS, in
contrast to GEDAW, a genome-centric rather than gene-centric data warehouse [9].
Finally, [10] describe the GeneMapper Warehouse for expression data integrating a
92
number of genomic data sources. In contrast, GEDAW has a focus on medical and
“knowledge-rich” data sources.
1.1 Architecture for BioData Integration
GEDAW is a gene-centric data warehouse devoted to the study of liver pathologies
using a transcriptome approach. New results from medical science on the gene being
studied are extremely important to correlate gene expression patterns to liver
phenotypes. To connect to this information, we take advantage of the recent standards
developed in the medical informatics domain, i.e., the UMLS knowledge base. [3]
GEDAW schema includes three major divisions: (i) gene and gene features along
with transcripts and gene products division, (ii) expression measurements of liver
genes division generated by in-house experiments and (iii), universal vocabularies and
ontologies division. As illustrated in Figure 1, to store the gene expression division a
local relational database has been built, as a repository of array data storing as many
details as possible on the methods used, the protocols and the results obtained. It is a
MIAME (Minimum Information About Microarray Experiment) compliant source [6].
Swissprot
GOA
Medline
unify and
structure
BioMeKe
relational DB
Microarray
Data
...
XML
Derived
Document
Source
Genbank
Records
GO and
UMLS
annotations
Data
heterogeneous
knowledge
in life science
and medicine
Gene Nomenclature
and universal concepts
in Biomedecine
XML
Expression
profiles and
conditions
Experimental
Division
. . . Genew
More structured
knowledge
deployed
Sequence annotations
transformation
Biomedical
Ontologies
Gene Sequence
Features
Fig. 1. GEDAW System Architecture
The sources currently integrated are spread world wide and hosted on different
representation systems, each having its own schema. XML records from the
GENBANK [7] have been used to populate the gene sequence features division into
GEDAW.
Explicit relationships associating genes and their expression profiles with diseases
are also extremely needed to understand the pathogenesis of the liver. For this
purpose, we use the system BioMeKE [8,17] to curate the ontology division of each
expressed gene with relative concepts in life science and medicine. The BioMEdical
Knowledge Extraction module (BioMeKE) includes the Unified Medical Language
93
System® (UMLS) covering the whole biomedical domain, and the Gene Ontology™
(GO) that focuses on genomics. It includes additional terminologies, as that provided
by the HUman Genome Organisation (HUGO) Gene Nomenclature Committee
(HGNC) to resolve synonymy conflicts [19]. An XML document that annotates each
gene by exploring these biomedical terminologies is derived from BioMeKE. It is
then parsed and integrated into the warehouse.
1.2 Contribution
The aim of this paper is to share our experience on designing and implementing an
integration process for biomedical data in the presence of syntactic and semantic
conflicts. Other aspects such as biological data quality controlling, mining and
refreshing will be described elsewhere.
1.3 Outline
An overview on the biological background and the questions that motivate the design
of GEDAW are given in the next section. In section 3, the provenance, content and
the format of the structured resources used for integration in GEDAW are described.
In section 4, the integration process along with a brief schema design is presented.
The data mapping rules that have been defined for instances conciliation and
cleansing during the integration process are also presented. The generic interface used
for queries composition and execution is tackled in section 5. Section 6 concludes and
presents the perspectives of our future works.
2 Biological Background and Motivations
Transcriptome is the study of the transcriptional response of the cell to different
environment conditions such as, growth factors, chemicals, foods treatments, genetic
disturbance, etc. The cell may response by an excessive expression or repression of
certain genes in two different situations, for example normal vs. pathologic.
2.1 Transcriptome experiments
In the liver framework, the objective of transcriptome experiments is to emphasize
both co-expressed genes and gene networks in a specific pathology within the
hepatocyte.
To determine whether a single gene is expressed is a routine task for a biologist,
but this process becomes more complicated because the data generated are massive.
DNA-chips are indeed used and thousands of genes are deposited on a two
dimensional grid. The experiment generating thousands of data points requires an
efficient processing of the storage and the management of data. The key question is:
which of (and why?) the deposited genes are abnormally expressed in the injured
tissues? Each gene is represented by a spot, and its expression level is measured by
94
means of the spot intensity. This same gene does have other multiple features,
recorded in World Wide Web resources, and that must be considered to answer such
questions.
2.2 Biomedical Issues Underlying Data Integration
To study experimental data, the scientist expects an integrated environment that
captures his own experimental data enriched with information and expertise on the
expressed genes. Beyond the process of clustering expression measurements in gene
clusters, such an integrated environment should allow him to better focus on the
scientific interpretation derived from such a clustering that reveals such clusters.
Together with the collected gene data, the integrated environment should be able to
answer questions that need an integration of knowledge from the biological level to
the pathological level. Below we give three types of questions that scientists
frequently ask and that cannot be answered by simple SQL queries, but require the
application of data mining techniques.
1 The set of genes that have seen their expression modified in a given condition?
2 Within this set, is there a subset of genes that are co-regulated?
3 What are the elements that may explain a parallel (or opposite) modulation of
certain genes: membership to a functional class, homologies occurring in their
peptides sequences, or in their nucleic sequences particularly in the promoting
region?
Scientists may need to go thoroughly into sequences (question 3.) of the co-expressed
genes for discovering common motifs, because genes sharing similar expression
profiles must share transcription regulation mechanisms that include common
transcription factors. They also need to go thoroughly into disease information and
clinical follows-up in order to find out correlations between particular mutants'
phenotypes and expression patterns. The integrated environment should also be able
to answer questions such as:
1 Is there any correlation between gene expression levels and a certain pathological
phenotype?
2 What is the set of genes for which a dysregulation characterizes a pathological
sample by indicating a gravity level, a prognostic factor, a sensitivity level or on
a contrary a resistance to a certain treatment ?
Respective genes annotations that comes from the UMLS knowledge-base and the
Gene Ontology, along with gene expression profiles, are used to proceed such
questions. Relative conceptual terms in both ontologies are extracted from the unified
document-source, derived by BioMeKE.
2.3 GEDAW: An Object-Oriented Environment for Integrating Liver Genes
Data
Considering the different integration issues previously described, an object oriented
data warehouse called GEDAW (Gene Expression DAta Warehouse) has been
designed for integrating and managing : i) data being produced on the expressed
genes in public databanks and literature, ii) normalized experimental data produced
95
by Microarray experiments and iii) complementary biological, genomic, and medical
data.
3 Data Resources
Searching across heterogeneous distributed biological resources is increasingly
difficult and time-consuming for biomedical researchers. Bioinformatics is coming to
the forefront to address the problem of drawing effectively and efficiently information
from a growing collection of multiple and distributed databanks. Several resources
can be used to instantiate the liver warehouse GEDAW. We describe here the ones
that have been selected for having the most appropriate properties, enabling a
systematic extraction of gene attributes: 1) experiment resources, 2) genomic
databanks and 3) ontological resources. We demonstrate for each selected resource,
its provenance, content, structure and which gene attributes are being extracted.
3.1 Experimental Resources
To not burden the warehouse, a MIAME compliant relational database has been built
independently (Figure2), in order to store and manage experimental microarray data
[12]. This database stores as much as possible details on the microarray experiments,
including the techniques used, protocols, samples and results obtained (ratios and
images).
We will not go in further details concerning this database, except saying that it acts
as a permanent source of expression levels delivered by in-house transcriptome
experiments on injured liver tissues, and provides facilities to select and export data.
Part of those data is exported to the data warehouse.
In-house experiment on the liver:
maximum details on the protocols
used, the images obtained,
normalisation,…
PERSISTENT OBJECTS IN GEDAW
SOURCE 1
MGED
COMPLIANT
DATABASE
(with regards to
the imposed
description
DNA
select and
export
Transcriptome
mRNA
Ontology
annotation
Class
Proteins
Fig. 2. An external source to manage liver transcriptome experiments
96
3.2 Genomic Databanks Resources
In order to perform consistent analyses on the expressed genes, the integration of the
precise pre-existing annotations of their sequences is necessary. Sequence data to
consider include: 1) the DNA sequence and sequence components : known promoters,
known transcription binding sites, introns, exons, known regulators, 2) the mRNA
sequence, sequence components and alternative transcripts and 3) functional proteins.
Being conscious that an exhaustive gene annotation is available for a limited number
of genes, it is however helpful to infer new knowledge on yet unknown co-expressed
genes.
Data describing genomic sequences are available in several public databanks via
Internet: banks for nucleic acids (DNA, RNA), banks for protein (polypeptides,
proteins) such as SWISS-PROT , generalist or specialized databanks such as
GENBANK , EMBL (European Molecular Biology Laboratory), and DDBJ (DNA
DataBank of Japan). Each databank record describes a sequence with its several
annotations.
As an example, the description of the Homosapiens Hemochromatosis gene HFE,
which mutation causes a genetic liver disease having the same name is given in
GENBANK. The description of this gene is available in both HTML2 and XML3
formats. An XML format that focused on the sequence of HFE gene is also available4.
Each record is also identified by a unique accession number and may be retrieved
by key-words. Annotations include the description of the sequence: its function, its
size, the species for which it has been determined, the related scientific publications
(authors and references) and the description of the regions constituting the sequence
(start codon, stop codon, introns, exons, ORF, etc.). GENBANK (with more than 20
million records of different sequences) [7] is one of the first banks that propose XML
format for its records with a well-defined DTD specifying the structure and the
domain terminology for the records of genes and submitted sequences.
3.3 Ontological Resources
Relating genotype data on genes with their phenotype during the integration process
is essential to be able to associate gene expression levels to a pathological phenotype.
Tremendous web resources provide such information for a given gene. But their
heterogeneity is a major obstacle for a consistent semantic integration. They are
numerous and continually evolving, the number of biomolecular entities is very large,
the names of biological entities are associated with synonymy: a gene can have
multiple aliases (synonyms) in addition to its official symbol, and genes that are
functionally different across species may have the same name (ambiguity) [14,20],
different databases organize data according to different schemas and use different
vocabularies. Shared ontologies are used to conciliate and to attain as much as
possible data conflicts. Various standards in life science have been developed to
provide domain knowledge to be used for semantically driven integration of
information from different sources.
2
www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=1890179
www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&list_uids=1890179&dopt=xml
4 www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&list_uids=1890179&dopt=gbx
3
97
3.3.1 Gene Ontology
Gene Ontology™ (GO) is an ontology for molecular biology and genomics [13].
The three hierarchies of GO are molecular function (F), biological process (P) and
cellular component (C). GO terms are used as attributes of gene products to provide
information about the molecular functions, the biological processes, and the cellular
components related to the gene product. In our context of high throughput
transcriptome experiments, we use GO to annotate the genes expressed in different
situations in the liver. Furthermore, GO is broadly used by public databanks to
annotate genes. Therefore, it has become a standard and plays an important role in
biomedical research, by making possible to draw together information from multiple
resources. To illustrate with an example, to the ceruloplasmin concept (a gene
involved in iron transport, having a central role in iron metabolism and is secreted in
plasma by hepatocytes) is associated the set of concepts in each hierarchy of GO
ontology (Table 1).
Molecular function
Biological process
Cellular Component
Multicopper
Feoxidase iron
Transport mediator
Iron homeostasis
Extracellular space
Table 1. Ceruloplasmin annotations in Gene Ontology
3.3.2 UMLS Knowledge Base
The UMLS is developed by the US National Library of Medicine. It comprises two
major inter-related components: the Metathesaurus®, a large repository of concepts
(around 900,000 concepts), and the Semantic Network, a limited network of 135
Semantic Types [3]. The Metathesaurus is built by merging existing vocabularies,
including Medical Subject Headings (MeSH), which is used to index biomedical
literature in MEDLINE, and GO. In the Metathesaurus, synonymous terms are
clustered under a same concept, each having a Concept Unique Identifier (CUI). To
the ceruloplasmin concept is associated the CUI:C0007841 and a set of synonymous
terms (Table 2a) (2003AC release of the UMLS).
Although the UMLS was not specifically developed for bioinformaticists, it
includes also terminologies such as the NCBI taxonomy, OMIM terminology and GO
that are of great interest for biologists. It also includes the MeSH, which is used to
index MEDLINE abstracts. Therefore, the UMLS is a means to integrate resources
since it integrates (repetition) terminologies that are used to represent data in various
resources. The second motivation is that the UMLS contains 12 million relations
among the Metathesaurus concepts. The source vocabularies provide hierarchical
relations. RO (Other Relation) relations associate concepts from different kinds, such
as diseases and tissues, or diseases and kinds of cells. In addition, co-occurrences in
MEDLINE are also represented in the UMLS [3]. The last motivation is that the
UMLS includes an upper level ontology of the biomedical domain (the UMLS
Semantic Network) made of 135 Semantic Types. Each Metathesaurus concept is
assigned to one or more Semantic Types. Three major relations are then concerned
and extracted for each concept from UMLS :
• Parent concept (Table 2b): the parents of ceruloplasmin concept illustrate
hierarchical relations in UMLS.
• Related concepts in diseases (Table 2c), tissues or kind of cells.
98
•
Co-occurrences in Medline concepts (Table 2d), each with an additional
numeric frequency.
Synonymous
Ceruloplasmin
alpha(2)-Ceruloplasmin
Ceruloplasmin Ferroxidase
Ceruloplasmin Oxidase
CP - Ceruloplasmin
Fe(II):oxygen oxidoreductase
ferroxidase <1>
(a)
Parents concepts
Related concepts
Co-occurred
Concepts in
MEDLINE
Copper
Copper
Alpha-Globulins
Menkes Kinky Hair Syndrome Iron
Acute-Phase Proteins
Antioxidants
copper oxidase
Carrier Proteins
Hepatolenticular
Serum Ceruloplasmin Test
Alpha-Globulins
Degeneration
Ceruloplasmin Serum
Metalloproteins
Ferritin
Decreased
Oxidoreductases
Ceruloplasmin measurement Brain
Enzyme
Liver
Superoxide
Dismutase
(b)
(c)
(d)
Table 2. Ceruloplasmin annotations extracted from UMLS
3.3.3 Other Resources: Terminologies
At present, an additional terminology is mainly used to manage heterogeneity in
naming genes, gene products or diseases, as well as in identifying items in different
databanks. Given a term or a gene symbol, lexical knowledge is needed to deal with
synonyms and find the corresponding concept. Available resources in the biomedical
domain include the Genew database developed by the Human Gene Nomenclature
Committee to provide approved names and symbols for genes, as well as previous
gene names and symbols [19].
3.3.4 Mapping Ontologies into GEDAW
The use of ontologies and terminologies terms as attributes values for genes has been
made possible by the joint application project BioMeKE [17]. A local consistent
support into BioMeKE system of the terminologies described above enables the
extraction of respective nomenclature and conceptual terms in biology and medicine,
given a gene name, a symbol, or any gene relative identifier in biomedical databanks.
To navigate through these resources, a set of JAVA functions have been developed to:
•
•
•
•
Find all the synonyms of a term and all the identifiers of a gene or gene
product in Genew and the UMLS Metathesaurus,
Provide the cross-references between a gene and a protein (e.g. SWISSPROT ID) from Genew.
Represent the different paths to reach the information about a gene or a gene
product via all the available cross-references.
Search for information about a gene or a gene product, i.e. the set of
concepts related to this gene in GO (molecular function, biological process
and cellular component) and the set of concepts related to the gene in UMLS
including chemicals and drugs, anatomy, and disorders.
99
<biomeke_annotation>
<biomeke_annotation_nomenclature>
Gene
^<seq-id_locuslink>1356</seq-id_locuslink>
nomenclature
<seq-id_hgnc>2295</seq-id_hgnc>
<seq-name_hgnc>ceruloplasmin (ferroxidase)</seq-name_hgnc>
<seq-symbol_hgnc>CP</seq-symbol_hgnc> <seq-aliases_hgnc></seq-aliases_hgnc>
<seq-id_omim>117700</seq-id_omim>
<seq-id_refseq>NM_000096</seq-id_refseq>
<seq-id_swissprot>P00450</seq-id_swissprot>
<seq-id_pubmed></seq-id_pubmed>
GO
</biomeke_annotation_nomenclature>
annotations
<biomeke_GO_annotation_list>
<biomeke_GO_annotation-type value="molecular function">
<biomeke_GO_annotation>
<GO-accession>GO:0004322</GO-accession>
<GO-name>ferroxidase activity</GO-name>
<GO-evidence>TAS</GO-evidence> . . . etc
</biomeke_GO_annotation>
UMLS
<biomeke_UMLS_annotation_list>
annotations
<biomeke_UMLS_annotation-name>
<UMLS_name_search> Ceruloplasmin </UMLS_name_search>
<UMLS_CUI_search>C0007841 </UMLS_CUI_search>
</biomeke_UMLS_annotation-name>
<biomeke_UMLS_annotation-semantic-type value = " Amino Acid, Peptide, or Protein">
<biomeke_UMLS_annotation-relation value = "Parent">
<biomeke_UMLS_annotation>
<UMLS-name>acute phase protein 2</UMLS-name>
</biomeke_UMLS_annotation>
. . . etc
<biomeke_UMLS_annotation-relation value = "other relations">
<biomeke_UMLS_annotation>
<UMLS-name>Metalloproteins</UMLS-name>
</biomeke_UMLS_annotation>
. . . etc
<biomeke_UMLS_annotation-relation value = "Co-occurences">
<biomeke_UMLS_annotation>
<UMLS-name>ATP phosphohydrolase</UMLS-name>
<UMLS-freq>4</UMLS-freq>
. . . etc
Fig. 3. BioMeKE-xml document to annotate the ceruloplasmin Gene
These annotations are then considered by the expert, filtered and stored within the
warehouse for further classifications using gene expression profiles. Because the aim
of this paper is not to describe BioMeKE but rather to introduce its general scope and
outputs, we will not go in further details. We suggest the reader to get further details
in another paper devoted to this application [8,17].
To annotate each expressed gene, BioMeKE delivers an XML document (Figure 3)
to be parsed, transformed and stored into GEDAW within the Ontology_annotation
Class. This document-source standing as a structured data source derived by
BioMeKE.
4 Bio-Data Integration
Designing a single schema that integrates syntactically and semantically the whole
heterogeneous life science data sources is still a challenging question. Integrating the
source schemas is presently the most commonly used approach in literature [15]. By
restricting ourselves to structured or semi-structured data sources, we have been able
to use a schema mapping approach with the GAV paradigm [16]. In our context,
schema mapping is the process of transforming data conforming to a source schema to
the corresponding warehouse schema by the definition of a set of mapping rules. The
data sources include : i) GENBANK for the genomic features of the genes recorded in
100
XML format, ii) conceptual annotations derived from the biomedical ontologies and
terminologies using BioMeKE outputs as XML documents, iii) and gene expression
measurements selected from the in-house relational database.
By using a mapping approach from one source at a time, we have minimized as
much as possible the problem of identification of equivalent attributes between
sources, whereas the problem of duplicate detection is still important. Identifying
identical objects in the biomedical domain is a complex problem, since in general the
meaning of “identity” cannot be defined properly. In most applications, even the
identical sequences of two genes in different organisms are not treated as a single
object. In GENBANK, each sequence is treated as an entity in its own, since it was
derived using a particular technique, has particular annotation, and could have
individual errors. For example, there are more than 10 records for the same DNA
segment of the HFE gene. Thus, classical duplicate detection methods [22] do not
suffice. Duplicate detection and removal is usually performed either using a simple
similarity threshold approach, as in the case of GEDAW, or based on manual
intervention for each single object, such as in RefSeq. Data submission to public
biological databanks is often a rather unformalized process that usually does not
include name standardization or data quality controls. Erroneous data may be easily
entered and cross-referenced. Even if a tool like LocusLink5proposes a cluster of
records, across different biological databanks, as being semantically related,
biologists still must validate the correctness of the clustering and resolve value
differences among the records.
Gene
*
*
Region
is a
Non_transcribed_region
is a
is a
Promotor
Transcribed_region
Terminator
is a
Experience
*
Exon
tRNA
is a
*
is a
mRNA
*
*
*
Expression_levels
*
Ontology_annotation
*
Spliced_transcript
*
*
*
is a
mRNA_fragment
is a
UTR5
ORF
is a
is a
is a
UTR3
GO_annotation
UMLS_annotation
*
*
Polypeptide
Fig. 4. GEDAW UML Conceptual schema
In GEDAW, a unique schema (Figure 4) has been defined to describe different
aspects of a gene, to which has been added an ontological annotation class associated
to each gene transcript. The stored ontological annotations represent the more
specialized concepts associated to the genes. The ontology annotation class used for
storing the terms from both medical and biological terminologies includes attributes
like: ontology and annotation type along with category, value and description
attributes of a term. These attributes are extracted by parsing the XML files delivered
by BioMeKE.
5
www.ncbi.nlm.nih.gov/LocusLink
101
At the schema-level, the problem of format heterogeneity makes necessary to
transform data, so that they conform to the data model used by our warehousing
system. Information sources consist of sets of XML files, while the GEDAW target
schema is object-oriented. This translation problem is inherent in almost all data
integration approaches, but becomes much more complex in the biological domain
because the potentially different (and not formalized yet) biological interpretations of
schema elements and the fact that, together with the current state of knowledge,
schemas and interpretations tend to evolve quickly and independently in the different
sources.
In order to define an appropriate data aggregation of all the available information
items, data conflicts have to be resolved using rules for mapping the source records
and conciliating different values recorded for a same concept. Mapping rules are
defined to allow the data exchange from the public databanks into GEDAW (Figure
5). Apart from experimental data, public information items are automatically
extracted by scripts using the DTD (Document Type Definition) of the data source
translated into the GEDAW conceptual data model.
GenBank DTD
<!ELEMENT Bioseq (
Bioseq_id ,
Bioseq_descr? ,
Bioseq_inst ,
Bioseq_annot? )>
<!ELEMENT Bioseq_id ( Bioseq_id__E+ )>
<!ELEMENT Bioseq_descr ( Seqdescr
)>
<!ELEMENT Bioseq_inst ( Seq
- inst )>
<!ELEMENT Bioseq_annot ( Seq
- annot* )>
<!ELEMENT Seq-descr ( Seqdesc+ )>
<!ELEMENT Seqdesc (
Seqdesc_mol-type |
…
Seqdesc_title |
…
Seqdesc_molinfo)>
<!ELEMENT Seqdesc_title ( #PCDATA )>
<!ELEMENT MolInfo (
MolInfo_biomol? ,
MolInfo_tech? ,
MolInfo_techexp? ,
MolInfo_completeness? )>
<!ELEMENT MolInfo_biomol ( %INTEGER; )>
<!ATTLIST MolInfo_biomol value (
unknown |
genomic |
pre-RNA |
mRNA |
rRNA |
tRNA |
snRNA |
scRNA |
peptide |
other-genetic |
genomic-mRNA |
other ) #IMPLIED >
…
Gene
*
*
Region
is a
Non_transcribed_region
is a
is a
R1
Promotor
Transcribed_region
Terminator
is a
Experience
*
Exon
tRNA
is a
*
is a
mRNA
*
*
*
Expression_levels
*
Ontology_annotation
*
Spliced_transcript
*
*
R2
*
is a
mRNA_fragment
is a
UTR5
ORF
is a
is a
is a
UTR3
GO_annotation
UMLS_annotation
*
*
Polypeptide
Fig. 5. Example of mapping rules between GENBANK DTD and GEDAW schema
Three categories of mapping rules are proposed: 1) structural mapping rules, 2)
semantic mapping rules and 3) cognitive mapping rules according to the different
knowledge levels and perspectives for biological interpretation.
The structural mapping rules are defined at the schema level according to the
GEDAW model by identifying the existing correspondences with relevant DTD
elements (e.g., the Seqdesc_title element in GENBANK DTD is used to extract the
name "name" of the gene and the MolInfo_biomol value its type of molecule with
respectively structural mapping rules R1 and R2 in Figure 5). Then, the records of
interest are selectively structured and data are extracted.
Semantic and cognitive mapping rules are used for data unification at the instance
level: several rules may use available tools for determining analogies between
102
homologous data (such as sequence alignment, for example): the result of the BLAST
algorithm (implemented in a set of similarity search programs for Basic Local
Alignment Search Tool) allows considering that two sequences match. The
nomenclature section provided by BioMeKE (Figure 3) is also considerably used to
conciliate duplicate records. More semantic mapping rules have been built using this
information during the process of integration. For example, the Locus-ID is used to
cluster submitted sequences associated to a same gene (cross-referenced in
LocusLink) and the official gene name along with its aliases to relate different gene
appearance with different names, in literature for example.
Let us consider three distinct selectively structured records we may obtain from
GENBANK databank by querying the DNA sequence for gene HFE. A first record
identified by the accession number AF204869 describes a partial sequence (size =
3043) of the HFE gene with no annotation but one relevant information item about the
position of the promoter region. A second record identified by the accession number
AF184234 describes a partial sequence (size = 772) of the protein precursor of HFE
gene with a detailed but incomplete annotation. The third record identified by the
accession number Z92910 describes the complete sequence (size = 12146) of the HFE
gene with a complete annotation. In this example, BLAST(sequence(Z92910),
sequence(AF184234))=100% indicates the sequence in both records are perfectly
homologous and can be merged. Cognitive mapping rules may be used in this
example for conciliating data such as:
R3 : Descriptive Inclusion: record(Z92910) contains record(AF184234)
R4 : Position Offset: position(Z92910.exon)=6364+position(AF184234.exon)
In our context a liver cDNA microarray corresponding to 2479 cDNA clones
spotted onto glass slides has been designed. The data unification process described
above has lead to identify 612 distinct genes on the 2479 deposited clones. A
complete integration of 10 hybridization experiments took around one day runtime,
with around 11 Mbytes charged database size.
5 Integration Results Construction and User Interface
Now to recapitulate, the integration process of transcriptomic data into GEDAW is
operated in four steps. During the first step, to the probes (or clones) used by in-house
experiments, is associated a set of gene names, in terms of accession numbers of
similar sequences in GENBANK along with textual descriptions. The second step is
in charge of selecting the set of experiments for which the researcher wishes to
integrate and analyse the experiments results, and then of loading expression levels
measured for these genes. For each gene having its expression levels in different
physiopathological situations already stored in GEDAW, the full annotation of the
sequence associated to this gene is loaded from GENBANK by XML transformation
to Objects. BioMeKE is launched in Step 4 to bring for each integrated gene its
nomenclature and its ontological annotations in life science from Gene Ontology and
in medicine from UMLS. In step 5, the results are delivered to the expert, for a
filtering phase using either predefined mapping rules, output nomenclature, or simply
his expertise, to eliminate duplicate records of genes.
103
Fig. 6. Example of Query Composition
When the user poses a query, the whole integration results for each gene are
brought in. Further refinements on these data can be operated, by selecting for
example genes having expression levels between a minimum value and a maximum
value, those belonging to a given biological process or co-occurring in Medline with a
given concept, or having a known motif in their mRNA sequences and co-located on a
same chromosome. It could be also a conjunction of these criteria. In Figure 6, we
show an example of a query composed in the generic java-based interface we have
developed for GEDAW. Resulting sets are presently browsed using either FastObjects
interface, or delivered as Textfiles to the expert for further analyses.
6 Conclusion
The GEDAW system presented in this paper allows massive importation of biological
and medical data into an object-oriented data warehouse that supports transcriptome
analyses specific to the human liver. This paper focused on the relevant genomic,
biological and medical resources that have been used to build GEDAW. The
integration process of the full sequence annotations of the genes expressed is
described. It is performed by parsing and cleaning the corresponding XML
description in GENBANK, transforming the recorded genomic items to persistent
objects and storing them in the warehouse. This process is almost systematic because
another aspect related to the conciliation of duplicate records has been added.
Elements of formalization of expertise rules for mapping such data were given. This
ongoing work is still a difficult problem in information integration in life science and
has not yet satisfied answers by classical solutions proposed in existing mediation
systems.
In order to lead strong analysis on expressed genes and correlate expression
profiles to liver biology and pathological phenotype, a second way of annotation has
been added to the integration process. We chose to integrate Gene Ontology, due to
its available biological annotations in the most used bio-computer resources, mainly
Swissprot, GENBANK, Ensembl, TrEMBL and LocusLink databanks. It is also
referenced in other relevant ontologies, like MGED [21]. More important is our
104
consideration during integration of the medical annotations of the genes from UMLS,
a well considered knowledge base in Medical Informatics [3,4,5]. These ontological
annotations have been delivered by BioMeKE within the semi-structured document
source BioMeKE-xml. Also, because a gene may have different appearances with
different names in several bio-data banks and literature the approved nomenclature of
the gene and its synonyms have been collected in BioMeKE-xml. This information is
also a pre-requisite to resolve the problem of duplicate records.
An exhaustive integrated tool that facilitates access to diverse data on the
expressed genes is then provided to the researcher. Intensive querying of the
integrated database using OQL queries has been conducted with multiple criteria on
genes attributes. Current investigations are focusing on the application of advanced
data mining techniques for a combined analysis of expression levels on genes with
enriched annotations, and functional similarities are likely to reveal authentic clusters
of genes.
With regards to the limits of our warehousing approach, it is relevant as long as
data integration from the heterogeneous sources in Biomedicine and their refreshment
in the warehouse stay feasible automatically and with a reasonable performance. One
argument in favor of actually storing data in GEDAW instead of dynamically linking
to the corresponding sources concerns reproducibility purposes, i.e., being able to
analyze several gene expression data in reference to the same domain knowledge at
different times. BioMeKE system provides domain knowledge useful for acquiring
information from diverse resources. It is intended to be an ontology-based mediation
system that continuously supplies the gene expression warehouse with a
homogeneous access to multiple data sources in Biomedicine. A filtering task is
nevertheless performed by the expert on the delivered annotations before their storage
in the warehouse by using multiple criteria, like the frequency information of a
concept co-occurrences in Medline.
The standard ontologies such as GO and UMLS continue to evolve. They are
physically supported by BioMeKE system rather than accessed via the web, making
possible their refinement to expert knowledge in specific sub-domains like the liver or
the iron metabolism. An interesting point to quote is the acquisition of news concepts
and relationships from the analyses operated on the transcriptome data. Expressive
and formal representation of this new biomedical knowledge will then be gradually
added to the domain, allowing the expansion of queries on transcriptomic data.
Acknowledgements: This work was supported by grants from Region Bretagne
(20046805) and inter-EPST. Emilie Guérin was supported by a MRT fellowship and
grants from Region Bretagne.
References
[1] Achard, F., Vaysseix, G. and Barillot, E. (2001) XML, bioinformatics and data integration,
Bioinformatics, 17(2), 115-125.
[2] Babenko V, Brunk B, Crabtree J, Diskin S, Fischer S, Grant G, Kondrahkin Y, Li L, Liu J,
Mazzarelli J, Pinney D, Pizarro A, Manduchi E, McWeeney S, Schug J, Stoeckert C.(2003)
GUS The Genomics Unified Schema A Platform for Genomics Databases.
http://www.gusdb.org/
105
[3] Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical
terminology. Nucleic Acids Res. 2004 Jan 1;32(Database issue):D267-70.
[4] Bodenreider O, Burgun A. Aligning Knowledge Sources in the UMLS: Methods,
Quantitative Results, and Applications. Medinfo. 2004;2004:327-31.
[5] Bodenreider O, Mitchell JA, McCray AT. (2002) Evaluation of the UMLS as a terminology
and knowledge resource for biomedical informatics. Proc AMIA Symp. 2002; : 61-5.
[6] Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C, Aach J,
Ansorge W, Ball CA, Causton HC, Gaasterland T, Glenisson P, Holstege FC, Kim IF,
Markowitz V, Matese JC, Parkinson H, Robinson A, Sarkans U, Schulze-Kremer S, Stewart
J, Taylor R, Vilo J, Vingron M. Minimum information about a microarray experiment
(MIAME)-toward standards for microarray data.
Nat Genet. 2001 Dec;29(4):365-71.
[7] Benson D.A, Karsch-Mizrachi I, Lipman D.J, Ostell J, and Wheeler D.L. GENBANK:
update, Nucleic Acids Res., Jan 2004; 32: 23 - 26.
[8] Burgun A, Bodenreider O, Le Duff F, Moussouni F, Loréal O. Representation of roles in
biomedical ontologies : a case study in functional genomics. JAMIA (supl), Proc. AMIA
2002 Symp, 86-90
[9] Cornell M, Paton NW, Wu S, Goble CA, Miller CJ, Kirby P, Eilbeck K, Brass A, Hayes A,
Oliver SG (2001) GIMS - a data warehouse for storage and analysis of genome sequence
and functional data. Proc. 2nd IEEE International Symposium on Bioinformatics and
Bioengineering (BIBE) 15-22.
[10] Do, H.-H. and Rahm, E. (2004). "Flexible Integration of Molecular-biological Annotation
Data: The GenMapper Approach". EDBT'04, Heraklion, Greece, Springer LNCS.
[11] Fellenberg K, Hauser N.C, Brors B, Hoheisel J.D, and Vingron M. Microarray data
warehouse allowing for inclusion of experiment annotations in statistical analysis,
Bioinformatics, Mar 2002; 18: 423 - 433.
[12] Guerin E., Marquet G., Moussouni F., Burgun A., Mougin F., Loréal O. Deployment of
heterogeneous ressources of genomic, biological and medical knowledge on the liver to
build a datawarehouse. Proc. ECCB 2003, pp. 59-60
[13] Harris MA et. al. Gene Ontology Consortium. The Gene Ontology (GO) database and
informatics resource. Nucleic Acids Res. 2004 Jan 1;32(Database issue):D258-61.
[14] Kashyap V, Sheth A. (1996) Schematic and semantic similarities between database
objects: a context –based approach. Int. J. Very Large Data Bases, 5(4): 276-304
[15] Lakshmanan L, Sadri F, Subramanian I, : On the logical Foundation of Schema Integration
and Evolution in Heterogeneous Database Systems. DOOD International Conference (1993)
81-100
[16] Maurizio Lenzerini. Data integration: a theoretical perspective. In Proc. of PODS 2002.
[17] Marquet G, Burgun A, Moussouni F, Guerin E, Le Duff F, Loreal O. BioMeKE: an
ontology-based biomedical knowledge extraction system devoted to transcriptome analysis.
Stud Health Technol Inform. 2003;95:80-5.
[18] Paton N.W, Khan S.A, Hayes A, Moussouni F, Brass A, Eilbeck K, Goble C.A, Hubbard
S.J, and Oliver S.G. Conceptual modelling of genomic information, Bioinformatics, Jun
2000; 16: 548 - 557.
[19] Povey S, Lovering R, Bruford E, Wright M, Lush M, Wain H. (2001) The HUGO Gene
Nomenclature Committee (HGNC).Hum Genet.;109(6):678-80
[20] Tuason O, Chen L, Liu H, Blake JA, Friedman C.(2004) Biological nomenclatures: a
source of lexical knowledge and ambiguity. Pac Symp Biocomput. 2004;:238-49.
[21] MGED Microarray Gene Expression Data (MGED). A guide to microarray experiments-an open letter to the scientific journals. Lancet. 2002 Sep 28;360(9338):1019
[22] Galhardas, H., Florescu, D., Sasha, D., Simon, E. and Saita, C.-A. (2001). "Declarative
Data Cleaning: Model, Language, and Algorithms". 27th Conference on Very Large
Database Systems, Rome, Italy.
106
III. EXTRACTION DE CONNAISSANCES À
PARTIR DE GEDAW
1. INTRODUCTION
Outre l’enrichissement des données expérimentales avec une variété d’informations diverses
et complémentaires sur les gènes étudiés, le défi pour un environnement intégré dédié à
l’analyse de transcriptome est de fournir des moyens pour l’extraction de connaissances.
GEDAW est un environnement qui permet, à la fois l’intégration de données hétérogènes,
mais également l’analyse des données intégrées. Ceci s’effectue par le biais d’étapes
successives d’intégration et d’analyse, combinées dans des workflows (déroulements
d’étapes).
GEDAW a été utilisé pour l’extraction de nouvelles connaissances sur les pathologies
hépatiques, à partir de l’analyse de données issues de l’étude du transcriptome hépatique par
une puce à ADNc.
2. MISE EN ŒUVRE ET DISCUSSION
Analyses dans GEDAW
Plusieurs types d’analyses sont supportées par GEDAW : – des analyses internes,
correspondant à des APIs qui englobent le langage de requête OQL et le langage Java, et –
des analyses externes qui correspondent à l’utilisation d’outils ou de programmes externes à
GEDAW (par exemple, outils de classification ou d’analyse de séquences). Souvent, ces deux
types d’analyses sont combinés pour former des analyses complexes, requises pour l’étude
du transcriptome.
Classiquement, toute analyse dans GEDAW se décompose comme suit :
1) sélection d’objets répondant à un ou plusieurs critères et aboutissant à une récupération
d’informations ou à la création d’un groupe de gènes d’intérêt,
2) analyse interne ou externe pour respectivement visualiser ou analyser les données
présélectionnées.
Caractérisation de nouveaux gènes associés à des pathologies hépatiques
A partir des données engendrées par la puce à ADNc dédiée à l’étude du transcriptome
hépatique, nous avons appliqué ce type d’analyse pour l’identification et la caractérisation de
nouveaux gènes associés à des pathologies hépatiques.
107
Ainsi, nous avons dans un premier temps intégré dans GEDAW, les informations nécessaires
à l’analyse : les annotations génomiques et les informations biomédicales disponibles pour les
2472 gènes de la puce, ainsi que leurs mesures d’expression. Dans ce contexte, nous avons
intégré les ratios d’expressio mesurés entre les différentes phases de différenciation de la
lignée cellulaire hépatique HepaRG. Cette lignée représente un bon modèle d’étude du
passage des cellules d’un état hautement différencié à un état proliférant, comme observé
dans certaines pathologies hépatiques.
Nous avons procédé à une succession d’étapes d’analyse qui ont permis :
1) de sélectionner des gènes connus pour être associés à des pathologies hépatiques sur la
base de leurs annotations UMLS,
2) de dresser leurs profils d’expression,
3) par similarité de profil, d’associer de nouveaux gènes à ce groupe de gènes associés à des
pathologies hépatiques,
4) de caractériser biologiquement ces gènes par une analyse des termes GO qui leur étaient
associés dans GEDAW.
Résultats
La réconciliation des données via la nomenclature des gènes effectuée lors de la phase
d’intégration, nous a permis d’identifier 584 gènes distincts sur les 2472 ADNc déposés sur la
puce.
Puis, l’analyse nous a permis d’identifier 29 gènes non associés à des pathologies hépatiques
par l’UMLS mais ayant des profils similaires aux gènes déjà associés à ces mêmes
pathologies. Ces 29 gènes sont donc potentiellement associés à des pathologies hépatiques
et incluent :
ƒ
ƒ
ƒ
Des gènes connus pour être impliqués dans le métabolisme hépatique, tels que
l’apolipoprotéine H, l’alcool deshydrogenase ou les cytochromes P450.
Des gènes non clairement associés à la fonction hépatique comme l’apolipoprotéine L3,
ou l’adenosuccinate lyase.
Des gènes non encore décrits (genbank : AF119890 ; AF119840 ; AX198366).
L’analyse des termes GO associés à ces gènes nous a permis de remarquer que ces gènes
sont impliqués dans des processus biologiques différents et que leurs produits ont des
localisations cellulaires différentes. Ceci prouve que les mécanismes d’implication de ces
gènes dans des pathologies hépatiques sont différents.
Nous montrons ainsi que l’analyse de données issues de l’étude du transcriptome hépatique,
par notre approche d’entrepôt de données permet d’extraire de nouvelles connaissances. Si
l’hypothèse de l’association de ces gènes avec des pathologies hépatiques reste à être
confirmée biologiquement, mais également par d’autres analyses dans GEDAW, l’entrepôt se
révèle comme un environnement permettant la suggestion d’hypothèses à partir de larges
volumes de données expérimentales.
108
ARTICLE 3
Data warehouse approach to extract
knowledge from microarray data
E. Guérin, J. Chabalier, M.B. Troadec, G. Marquet, A. Burgun, C. Guguen-Guillouzo,
O. Loréal and F. Moussouni
[Article en soumission pour publication]
Data warehouse approach to extract knowledge from
microarray data
Emilie Guérin1§, Julie Chabalier2, Marie-Bérengère Troadec1, Gwénaëlle Marquet2, Anita
Burgun2, Christiane Guguen-Guillouzo1, Olivier Loréal1 and Fouzia Moussouni1
1
INSERM U522, IFR 140, Université de Rennes 1, CHU Pontchaillou, 35033 RENNES
Cedex, France
2
EA 3888, IFR 140, Université de Rennes 1, Faculté de Médecine, 35043 RENNES Cedex,
France
§
Corresponding author
Email addresses:
EG: [email protected]
JC: [email protected]
MBT: [email protected]
GM: [email protected]
AB: [email protected]
CG: [email protected]
OL: [email protected]
FM: [email protected]
109
Abstract
Background
By providing thousands of expression levels at once, microarray strategies produce a large
amount of data, requiring efficient techniques for their management. Moreover, to interpret
these measurements and enable further advances in biomedical research, it is essential to
associate knowledge in genomics, molecular biology and medicine for each gene. To facilitate
this task, we have designed GEDAW (Gene Expression Data Warehouse), an integrated
environment that stores and manages relevant data in order to extract knowledge from results
of high throughput methods.
Results
GEDAW is an object oriented data warehouse that integrates, in an unique schema, three
kinds of data : i) experimental, ii) genomic and iii) biomedical data. For a more systematic
approach of data integration, structured and semi-structured resources have been selected and
used to instantiate the GEDAW schema. A local relational database provides the experimental
details, GenBank delivers genomic annotations and the BioMeKE system provides biological
and medical ontological terms. By this way, we have been able to minimize problems of
redundancies within the warehouse thus allowing vigourous analyses.
Integrated knowledge is accessed by users through several defined API (Application
Programming Interface) that use the query language OQL (Object Query Language) and the
programming language Java. Complex analyses on experimental data are conducted through
analysis workflows that allow interaction between integrated knowledge and bioinformatic
programs. GEDAW has been used to extract knowledge from transcriptomic experiments,
using a liver dedicated cDNA microarray, thus leading to the identification of new potential
markers of liver diseases.
Conclusions
GEDAW is a functional data warehouse that allows to propose new biological hypotheses
from experimental microarray results.
110
Background
To date, the understanding of molecular mechanisms involved in physiological and
pathological processes requires an integration of multiple data which are found in numerous
resources. However, integrating data in life science is a hard task since data are spread over
the Web, often redundant, complementary, heterogeneous, evolving and sometimes
erroneous.
The problem of data integration in life science has been explored for many years and several
integration solutions have been proposed. These solutions are classified into three major
strategies: navigational, mediator-based and data warehousing approaches [1].
The new high throughput technologies, including microarray studies, produce large amounts
of data. Exploitation of these data requires important database solutions to manage experiment
results, with relevant information, and then to extract new knowledge by performing analyses.
Indeed, in biomedical research, a comprehensive interpretation of a gene expression
measurement requires the consideration of the full available knowledge about this gene
including: i) its genomic annotations, such as the chromosomal localization of the gene and
related sequences, ii) biological knowledge, such as the biological processes in which the
gene is involved and the target functions in these processes, and iii) medical knowledge, i.e.
the different symptoms, syndromes and diseases associated to the gene. A comprehensive
representation of this knowledge can help scientists to address more complex questions and
suggest new hypotheses, leading to a clearer identification of the molecular and biological
mechanisms involved in specific biological or pathological conditions. Manually selecting
and navigating each of the sources and the analysis tools to extract relevant information on a
gene among thousands of expressed genes is highly time-consuming and error-prone.
111
Therefore the challenge in high throughput approaches, including microarray strategy, is both
to integrate heterogeneous knowledge and, to perform appropriate analyses on these data,
using bioinformatic programs. This challenge requires the use of an integrated system.
Contrary to other integration approaches, including navigational and mediator-based
approaches, the warehousing approach is a strategy dealing with many requirements of such
analysis. Firstly, it enables users to filter, validate, modify and annotate the data obtained
from the sources [2] and thus it is appropriated to store both own experimental results and
related public data. Secondly, the materialized data warehousing approach allows to improve
efficiency of query optimization, as it can be realized locally [3]. This off-line querying and
accessing data system eliminates various problems such as network bottlenecks, low response
times, and occasional unavailability of sources [1]. This aspect is crucial during
transcriptomic data analyses which require multiple and various queries.
In this context, our objective was to create a system for the integration and analysis of
heterogeneous data, called GEDAW (Gene Expression DAta Warehouse). GEDAW is an
object oriented gene expression data warehouse whose originality is to allow both the
integration of heterogeneous data (including experimental, genomic and biomedical data) and
the analysis of gene expression measurements through integration and analysis workflows.
We have physically integrated a number of key sources and standards into GEDAW, in life
science and medical domains, that are structured or semi-structured. GEDAW is fully
operational and has been employed for studying in silico liver diseases by using expression
levels of genes determined trough microarray approach in different physiopathological
situations.
112
The paper is organized as follows. First, the system architecture of GEDAW is introduced.
We present then the resources used to populate GEDAW, and the conceptual data schema that
allows storing and managing data produced by our own experiments and data required for the
interpretation of these experiments. Thereafter, GEDAW workflows dedicated to integration
and analysis processes are presented. Before a discussion, we present an example of use of
GEDAW in the context of liver transcriptomic study, and the knowledge then extracted.
Results
System architecture
GEDAW is a gene-centric data warehouse devoted to the analysis of microarray data in the
context of biomedical research. Together with the collected experimental data, the integrated
environment must be able to answer questions that need an integration of knowledge from the
biological to the pathological level.
The GEDAW schema includes three major divisions: (i) the Experimental Division that
includes normalized gene expression measurements produced by microarray experiments and
relative hybridization conditions (ii) the Gene Sequence Features Division that stores genes
and gene features along with transcripts and gene products (iii) the Biomedical Ontologies
Division that contains biological and medical annotations provided by “ontologies”.
Data are imported from several local or web resources and transformed before storage within
the unique object schema for analysis. The users access data through APIs (Application
Programming Interface) that are provided in OQL (Object Query Language) and Java. Figure
1 shows the overall architecture of GEDAW.
Data resources
The resources which are currently integrated into GEDAW include several data repositories
that are hosted on different systems, each one having its specific schema. Three resources are
used to populate the three divisions of GEDAW.
113
•
Experimental Division: This division is populated through a local relational database that
has been built as a repository of array data storing as many details as possible on the
methods used, the protocols and the results obtained. It is a MIAME (Minimum
Information About Microarray Experiment) compliant source [4]. Importing data from
this database results in normalized expression levels per gene and per hybridization
condition for transcriptomic experiments.
•
Gene Sequence Features Division: This division stores gene sequence features including:
i) the DNA sequence and sequence features, ii) the mRNA sequence, sequence features
and alternative transcripts and iii) the functional protein sequences. Being conscious that
an exhaustive gene annotation is available for a limited number of genes, it is however
helpful to infer new knowledge on yet unknown co-expressed genes. Data describing
genomic sequences are available in several public databanks accessible through the Web.
We chose GenBank (with to date, more than 20 million records of different sequences) to
curate the Gene Sequence Features Division as it was one of the first banks to provide
XML (eXtensible Markup Language) format for its records with a well-defined DTD
(Document Type Definition) specifying the structure and the domain terminology for the
records of genes and submitted sequences.
•
Biomedical Ontologies Division: This division stores concepts extracted from standards in
life science and medicine. We chose the “ontologies” GO™ (Gene Ontology™) that
focuses on genomics [5] and UMLS® (Unified Medical Language System®) that covers
the whole biomedical domain [6]. We used the system BioMeKE (BioMEdical
Knowledge Extraction system) [7] to curate this division. BioMeKE includes both
“ontologies”, and additional terminologies, such as those contained in the database
Genew, provided by the HGNC (HUman Genome Organisation (HUGO) Gene
Nomenclature Committee) to resolve synonymy conflicts [8]. An XML document that
114
annotates each gene by exploring these biomedical “ontologies” is derived from
BioMeKE.
Data Warehouse Schema
Designing a single schema that integrates syntactically and semantically the whole
heterogeneous life science data sources is still a challenging question. Integrating the source
schemas is presently the most commonly used approach in the literature [9, 10]. By restricting
ourselves to structured (relational database) or semi-structured (XML records from GenBank
and BioMeKE) data sources, we have been able to use a schema mapping approach. In our
context, schema mapping is the process of transforming data conforming to a source schema
to the corresponding warehouse schema by the definition of a set of mapping rules.
In GEDAW, a unique schema (Figure 2) has been defined to describe different aspects of a
gene, based on the biological dogma (DNA-mRNA-Protein). Some other classes have been
added to represent experimental and ontological knowledge associated to each gene transcript.
So, the ExpressionLevel and the Experience classes are devoted to the storage of experimental
knowledge, whereas the OntologyAnnotation, the GOAnnotation and the UMLSAnnotation
classes are dedicated to the storage of ontological knowledge.
Workflows
Two workflows, for data integration and data analysis, are supported by GEDAW (Figure 3).
Integration Workflow
To integrate data into GEDAW, four successive steps are required (Figure 3A). First, the
genes of interest for study are selected. The successive automatic connections to the three
resources described previously then occur. A set of XML documents is delivered by
BioMeKE and GenBank, while our GEDAW target schema is object-oriented. Therefore, at
the schema-level, the problem of format heterogeneity makes it necessary to transform data,
115
so that they conform to the schema used by our warehousing system. Finally, the
instantiation of the GEDAW schema is performed.
To define an appropriate data aggregation of all the available information items, data conflicts
have to be resolved using rules for mapping the source records and conciliating different
values recorded for a same concept. Mapping rules have been defined to allow the data
exchange from the public databanks into GEDAW. A part from experimental data, public
information items are automatically extracted by scripts using the DTD of the data source
translated into the GEDAW schema. Two categories of mapping rules, structural mapping
rules and semantic mapping rules are proposed.
The structural mapping rules are defined at the schema level according to the GEDAW
schema by identifying the existing correspondences with relevant DTD elements. The records
of interest are selectively structured and data are extracted.
Semantic mapping rules are used for data unification at the instance level: the nomenclature
elements provided by BioMeKE are used to conciliate duplicate records. For example, the
Entrez Gene identifier (GeneID) [11] is used to cluster studied sequences associated to a same
gene and the HGNC gene name aliases are used to relate genes carrying different names. For
more details about the integration process, see [12].
Analysis Workflow
GEDAW supports several functions of microarray data analysis that consist either in internal
analyses, or in external analyses. Internal analyses correspond to APIs that use OQL and java
to retrieve information about the genes whereas external analyses correspond to external
bioinformatics tools applied to integrated data. These two kinds of analyses can be combined.
116
Generic analysis workflow:
In the context of microarray analysis, a classical analysis is subdivided in successive steps that
correspond to selection of objects, internal and external analyses, thus forming a workflow
that we call generic analysis workflow (Figure 3B). An analysis starts with a selection of
objects that results from a GEDAW query. The query leads either to retrieve relevant data
(for example a list of protein sequences in Fasta format if the query is: Retrieve the list of
protein sequences of proteins involved in the GO biological process lipid metabolism) or to
obtain a group of genes. A group of genes is defined as genes sharing a common factor that
can be a similar expression pattern (Expression group) or other kind of similarity as, for
example, involvement in a same biological process (Gene group). Once objects are selected,
they can be submitted to internal or external analyses.
Internal analysis can be a visualization of pre-selected data or an interpretation of a precreated group. Interpretation of a pre-created group is made by querying and searching for a
supplementary common characteristic among the genes of this group (for example, find the
biological process mostly represented among the genes of an Expression group). The result is
a better characterized group of genes that can then be used for further queries and analyses.
External analysis corresponds to the use of external tools, such as clustering and sequence
analysis, on pre-computed analysis results, e.g. Gene groups or Expression groups.
Example of analysis workflow:
Basing on the generic workflow of GEDAW, and extending it to a specific question, many
analysis workflows can be defined.
One of the workflows has been designed according to the hypothesis that genes sharing an
expression pattern can be associated and has been used in order to find new genes associated
to a disease.
117
The strategy is to create a group of genes that share both an association in a same disease and
a typical expression pattern, and then use these genes to find more genes implicated in the
disease by searching for an expression pattern similarity.
The genes can then be better characterized by studying the biological processes, using
integrated GO annotations. This microarray analysis is divided in four steps, thus forming an
analysis workflow extended from the generic workflow described in figure 3B. These steps
are described below:
1 – Selection of objects: selection of genes sharing a same UMLS annotation to create
a group
2 – Internal analysis: visualization of the group to see the gene names and the
expression ratios
3 – External analyses: the K-Means clustering is performed on the group to obtain
clusters of genes presenting different expression patterns. The Closest Neighbours analysis is
then performed to identify the genes represented on the microarray that have similar patterns
to those obtained by K-Means clustering. Genes found by Closest Neighbours extend the
initial clusters by expression pattern similarity.
4 – Internal analysis: the extended clusters are submitted to a biological
interpretation to characterize the genes that belong to it, by searching for the mostly
represented GO biological processes
Results of knowledge extraction with GEDAW
Taking advantage of the presence of medical knowledge in GEDAW, we used the workflow
described above to identify new genes that could be associated to liver diseases and to
characterize their expression patterns and the biological processes in which they are involved.
118
Liver diseases, including those from infectious, alcoholic, metabolic, toxic and vascular
etiologies, are a major public health problem [13]. Indeed, they are frequently complicated by
the occurrence of liver failure or the development of a cirrhosis or liver cancer. Despite such a
strong impact, molecular mechanisms involved in the occurrence of these diseases and of
their complications are not fully understood. Therefore, studies are conducted in order to
identify new molecular mechanisms, and thus to develop new diagnostic and therapeutic tools
which will allow a better management of patients.
In this study, we used a human liver dedicated cDNA microarray on which 2472 cDNAs are
deposited and we studied gene expression modulation during the hepatic HepaRG cell line
differentiation process [14]. This human cell line has the originality, under controlled culture
condition, to evolve from a bipotent proliferative population towards both differentiated
hepatocyte-like and biliary-like cells [15, 16]. Therefore, HepaRG cell line is a valuable
model for studying the shift between differentiated functional hepatocytes and biliary cells to
altered proliferative cells, as observed in some liver diseases.
Hybridization conditions and results are stored in our relational transcriptome database.
Therefore, more efficient analyses need to be performed into GEDAW.
The integration workflow was performed to store all the annotations about genes spotted on
the microarray. The data unification process described above identified 584 distinct genes on
the 2472 deposited cDNAs.
We then used a specific analysis workflow, extended from that presented in the precedent
part, to find and characterize genes associated to liver diseases (figure 4). More specifically,
we focused on studying the genes known to be associated to liver diseases and relating their
expression patterns to genes of the array. Here, we present the four successive steps of the
workflow and the results that have been found:
119
1. Selection of objects in GEDAW: creation of a Liver Disease Associated Genes
Group – Genes of the array that are annotated by liver disease terms are selected, i.e.
annotated in the UMLS by a term containing the string “liver” or “hepatic”. This
group is called Liver Disease Associated Genes Group.
2. Internal analysis: visualization of the Liver Disease Associated Genes Group –
Characteristics of the genes that belong to the Liver Disease Associated Genes Group
are visualized by the user, including the gene name and the number of co-occurrences
between the gene name and the liver disease term. We found nine terms associated to
liver diseases and nine genes annotated by at least one of those nine terms (see Table
1).
3. External analyses: K-Means and Closest Neighbours - Two successive external
analyses are performed on the set of genes that belong to the Liver Disease Associated
Genes Group in order to propose new genes associated to liver diseases: the K-Means
clustering and then the Closest neighbours analysis. In the context of HepaRG
differentiation experiments, four differentiation stages have been studied through six
comparisons (Figure 5). Therefore six expression ratios per gene have been delivered
to the K-Means program.
Four distinct patterns have been found by the K-Means analysis. The first pattern is
that of haptoglogin, the second one is that of albumin and transferrin, the third one is
that of cytochrome p450 2E1 and the last one is that of remaining genes of the Known
Liver Disease Marker Group: HFE, AFP, FN1, EPO and CAT. This last pattern
corresponding to invariant genes in our conditions has not been used for the further
Closest Neighbours analysis. The Closest Neighbours analysis created three gene
clusters associating genes of the array that have similar patterns of those found by the
K-Means clustering (Figure 6). Each cluster contains 11 genes. Cluster 1 was created
120
from the pattern of haptoglobin, cluster 2 from that of albumin and transferrin, and
cluster 3 from cytochrome p450 2E1. The patterns of clusters 1 and 2 correspond to
genes highly expressed during the early stage of differentiation (SC/C), whereas the
pattern of cluster 3 corresponds to genes highly expressed in the late stage of
differentiation (D/SC). The patterns of the clusters 1 and 2 are different in the last
comparison that is made between stabilized differentiated cells and proliferating cells
(D/P) (Figures 5 and 6).
The genes found in the three clusters are considered as potential genes of interest
during liver diseases, and belong to a new group called the Potential Liver Disease
Associated Genes Group. Some of those genes are known by the experts to be
implicated in liver metabolism, such as the apolipoprotein H (APOH in cluster 2) [17],
the alcohol deshydrogenase (ADH1B in cluster 2) [18] and the cytochromes
(CYP2E1, CYP4F2 and CYP2A6 in cluster 3) [19]. However, some are not clearly
associated to hepatic function, such as the apolipoprotein L3 (APOL3 in cluster 2)
[20] or the adenylosuccinate lyase (ADSL in cluster 3) and some have not yet been
described [GenBank: AF119890 and AF119840, corresponding to mRNA sequences;
AX198366, corresponding to DNA sequence].
4. Internal analysis: Gene Ontology characterization of Potential Liver Disease
Associated Genes Group – We studied the GO biological processes and the GO
cellular components represented in these three clusters of genes belonging to the
Potential Liver Disease Associated Genes Group, to characterize the genes. The results
are presented in Table 2. Six GO biological processes are frequently represented
among the three clusters: response to stimulus [GO:0050896], immune response
[GO:0006955], signal transduction [GO:0007165], regulation of physiological
process [GO:0050791], transport [GO:0006810], metabolism [GO:0008152]; and
121
three GO cellular components: extracellular region [GO:0005576], intracellular
[GO:0005622] and membrane [GO:0016020].
The proportions of genes per cluster annotated by these terms have been calculated. In
cluster 1, the biological processes mostly represented are response to stimulus and
immune response; in cluster 2, the over-represented biological process is response to
stimulus whereas the under-represented one is regulation of physiological process. In
these two clusters the cellular component mostly represented is extracellular region.
In cluster 3, the over-represented biological process is metabolism whereas the underrepresented ones are immune response, signal transduction, regulation of
physiological process and transport. There is no over or under-represented cellular
component in cluster 3.
Therefore, it appears that the clusters 1 and 2 are mainly composed of genes involved
in immune response and coding for secreted products. The cluster 3 is mainly
composed of genes involved in metabolism, and coding for not secreted products.
First, this analysis suggests that genes having different expression patterns can be
involved in a same biological process and/or can share a same cellular localization. It
is the case for the two clusters 1 and 2.
Secondly, this analysis shows that the genes that we found are involved in different
biological processes and that their products have different cellular localizations. This
demonstrates that the mechanisms of involvement of these genes in liver diseases and
their ways of action are different. These genes need to be biologically investigated to
have a better understanding of their implication in liver diseases.
122
Discussion
This paper has presented our experience in building GEDAW, a Gene Expression Data
Warehouse and using it to extract relevant knowledge from liver microarray experiments.
GEDAW integrates experimental, genomic and biomedical data around genes in the context
of transcriptome studies by the use of microarray technology. The result is an object
warehouse where complementary data are conciliated and locally available for retrieval and
analysis. Thereafter, the system provides a powerful environment for efficient analysis on
experimental data taking advantage of the integrated biomedical knowledge through
workflows of successive internal and external analyses. Internal analyses consist in APIs that
use OQL and Java to retrieve information about the genes, whereas external analyses consist
in applying external bioinformatics tools on integrated data.
We believe that our approach presents advantages for mainly two reasons:
ƒ
Integration and cleaning processes are challenging and time consuming during a
warehouse design. By restricting to structured and semi-structured resources during the
integration process, we are able to have a more systematic integration process, thus
allowing conciliating the data in a unique object schema and minimizing the problem of
identification of partial duplicates (i.e. accession numbers that correspond to a same
biological entity).
ƒ
In contrast to other integration approaches, the warehouse approach allows selecting its
data in order to keep only useful data for decision making. In our case, the result is an
access to normalized expression ratios enriched with local and selected instances of
GenBank, GO, UMLS and Genew. We do not overload the warehouse with experimental
details, but we select items from each resource. The major benefits are a rapid access to
123
data during the analysis stage as data are local, and a more powerful use of bioinformatics
programs, as data are selected and cleaned.
The strength of the system has been evaluated in the context of liver transcriptome study.
Starting from a group of genes annotated in GEDAW by UMLS terms associated to liver
disease, we have been able to identify new genes potentially associated to occurrence and/or
development of liver diseases. We found that only a small number of genes represented on the
array were annotated by the UMLS under “liver disease” terms. This is related to the fact that,
to date, only 13% of the genes represented in the Genew database have annotations in UMLS.
Indeed, our approach, by combining different kinds of information around the genes (UMLS
terms and experimental ratios, in this typical case) allowed identifying new genes of interest,
proving that knowledge can be extracted from microarray data with GEDAW. Some of those
genes were known to be associated to liver metabolism, whereas some not. They have been
biologically characterized and are associated to different biological processes. Their impact in
biological pathways as well as their use as biological markers or therapeutic targets remains to
be evaluated. This work will be conducted by molecular biology, including gene expression
study in physiopathological conditions in patients and in animal models.
With regards to the limits of our warehousing approach, it is relevant as long as systematic
data integration from the heterogeneous biomedical sources and their refreshment in the
warehouse is feasible and with a reasonable performance. The update of GenBank, UMLS,
GO and Genew is regularly made. One argument in favour of actually storing data in
GEDAW instead of dynamically linking to the corresponding sources concerns
reproducibility purposes, i.e., being able to analyse several gene expression data in reference
to the same domain knowledge at different times.
124
Comparison with other systems
Building a scientific data warehouse to store microarray expression data has been previously
explored, but the other systems differ from GEDAW on several aspects. The Genomic
Unified Schema (GUS) integrates diverse life science data types including microarray data,
and a support of data cleaning, data mining and complex queries analyses, thus making it
quite generic [21]. The M-Chips data warehouse project focuses on providing structures and
algorithms more suitable for statistical analyses of microarray data, by including as much as
possible details on transcriptome experiments and the technologies used, that may undergo a
drop in performances [22]. In GEDAW, we focus on the results of an experiment, i.e.,
normalized expression measurements. No further experimental details are stored within the
warehouse, but rather in an external relational database. The Genome Information
Management System (GIMS) allows the storage and management of microarray data on the
scale of a genome, making GIMS, in contrast to GEDAW, a genome-centric rather than genecentric data warehouse [23]. Finally, the GenMapper warehouse focuses on integrating a great
number of genomic data sources around expression data [24]. In contrast, GEDAW is focused
on medical and “knowledge-rich” data sources.
Future work
As demonstrated in our example, knowledge extraction from experimental data in GEDAW is
performed through internal and external analyses that are linked in a specific order, thus
forming a workflow. Even if the microarray analysis shown in the paper is not the only one
that can be performed in GEDAW, we are interested in diversifying the range of analyses to
improve our system. This work could be conducted by two ways.
The first way is the use of Web Services in order to benefit from a greater diversity of
bioinformatics programs and to take part of their interoperability. The interest of using the
Web Services to perform successive analytical tasks in the context of a workflow has been
125
demonstrated [25]. So, we envisage using Taverna [26], which is part of the myGrid project
[27], and that provides a graphical workbench tool for both creating and running sequences of
Web Services.
The second way is the use of data mining techniques. Data mining is an automated mean of
discovering previously undetected relationships and patterns among data items of big
databases. It is one stage in an overall KDD (Knowledge Discovery from Databases) process
that involves: the selection of the appropriate resources, the data cleaning, transforming data
to the warehouse format, which have already be done in GEDAW, and then data mining,
evaluation of the mined data and visualization. Basing on the several techniques of
classification, regression, link analysis, segmentation or deviation detection, the data mining
will allow extracting patterns from our data without the implication of the expert to address
specific questions. In contrast to analyses already performed in GEDAW, those methods will
allow creating much more relationships between the genes, not only on the base of their
expression pattern. The final issue is to reveal new hypotheses from experimental data and to
refine, approve or reject hypotheses already suggested.
Conclusions
GEDAW is a data warehouse devoted to extraction of knowledge from microarray data. It
integrates in a same environment complementary data about studied genes thus providing a
repository of local and pertinent data that is used through analysis workflows. The
effectiveness of the system has been demonstrated in the context of liver transcriptome study,
allowing the emission of new hypotheses.
126
Authors' contributions
EG designed and implemented the GEDAW schema, the overall architecture and the
workflows. JC helped in designing the workflows. MBT designed the cDNA microarray and
provided data on HepaRG differentiation. GM and AB designed the BioMeKE system. CG
and OL co-supervised the project and OL was responsible for the analysis strategy. FM was
the investigator of the GEDAW project and guided its development. All the authors
contributed to the writing of this manuscript.
Acknowledgements
This work was supported by grants from “Region Bretagne” PRIR 139.
EG was supported by the University of Rennes 1, GM by “Region Bretagne” and MBT by
“Ministère de la recherche”.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
T Hernandez, S Kambhampati: Integration of biological sources: current systems
and challenges ahead. SIGMOD record 2004, 33:51-60.
S Davidson, J Crabtree, B Brunk, J Schug, V Tannen, C Overton, C Stoeckert:
K2/Kleisli and GUS: experiments in integrated access to genomic data sources.
IBM Syst. J. 2001, 40:512-531.
S Davidson, C Overton, P Buneman: Challenges in integrating biological data
sources. Journal of Computational Biology 1995, 2:557-572.
A Brazma, P Hingamp, J Quackenbush, G Sherlock, P Spellman, C Stoeckert, J Aach,
W Ansorge, CA Ball, HC Causton, et al: Minimum information about a microarray
experiment (MIAME)-toward standards for microarray data. Nat Genet 2001,
29:365-71.
M Ashburner, CA Ball, JA Blake, D Botstein, H Butler, JM Cherry, AP Davis, K
Dolinski, SS Dwight, JT Eppig, et al: Gene ontology: tool for the unification of
biology. The Gene Ontology Consortium. Nat Genet 2000, 25:25-9.
O Bodenreider: The Unified Medical Language System (UMLS): integrating
biomedical terminology. Nucleic Acids Res 2004, 32:D267-70.
G Marquet, E Guérin, A Burgun, F Moussouni, F Mougin, O Loréal: Biological and
medical ontology-based annotation of genes in the context of transcriptome
analysis. In: ECCB, European Conference on Computational Biology; 2003; Paris.
S Povey, R Lovering, E Bruford, M Wright, M Lush, H Wain: The HUGO Gene
Nomenclature Committee (HGNC). Hum Genet 2001, 109:678-80.
SP Shah, Y Huang, T Xu, MM Yuen, J Ling, BF Ouellette: Atlas - a data warehouse
for integrative bioinformatics. BMC Bioinformatics 2005, 6:34.
S Trissl, K Rother, H Mueller, T Steinke, I Koch, R Preissner, C Froemmel, U Leser:
Columba: an integrated database of proteins, structures, and annotations. BMC
Bioinformatics 2005, 6:81.
127
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
D Maglott, J Ostell, KD Pruitt, T Tatusova: Entrez Gene: gene-centered
information at NCBI. Nucleic Acids Res 2005, 33:D54-8.
E Guérin, G Marquet, A Burgun, O Loréal, L Berti-Equille, U Leser, F Moussouni:
Integrating and Warehousing Liver Gene Expression Data and Related
Biomedical Resources in GEDAW. In: Data Integration in Life Sciences; 2005; San
Diego, California, USA. 158-174.
S Sherlock, J Dolley: Diseases of the liver and biliary system, 11 edn: Blackwell
Science; 2002.
M Troadec, D Glaise, G Lamirault, M Le Cunff, E Guérin, N Le Meur, L Détivaud, P
Zindy, P Leroyer, I Guisle, et al: Hepatocyte iron loading capacity is associated to
differentiation and repression of motility in the HepaRG cell line. Genomics in
press.
P Gripon, S Rumin, S Urban, J Le Seyec, D Glaise, I Cannie, C Guyomard, J Lucas, C
Trepo, C Guguen-Guillouzo: Infection of a human hepatoma cell line by hepatitis
B virus. Proc Natl Acad Sci U S A 2002, 99:15655-60.
R Parent, MJ Marion, L Furio, C Trepo, MA Petit: Origin and characterization of a
human bipotent liver progenitor cell line. Gastroenterology 2004, 126:1147-56.
A Steinkasserer, DJ Cockburn, DM Black, Y Boyd, E Solomon, RB Sim: Assignment
of apolipoprotein H (APOH: beta-2-glycoprotein I) to human chromosome
17q23----qter; determination of the major expression site. Cytogenet Cell Genet
1992, 60:31-3.
DW Crabb, M Matsumoto, D Chang, M You: Overview of the role of alcohol
dehydrogenase and aldehyde dehydrogenase and their variants in the genesis of
alcohol-related pathology. Proc Nutr Soc 2004, 63:49-63.
JP Villeneuve, V Pichette: Cytochrome P450 and liver diseases. Curr Drug Metab
2004, 5:273-82.
NM Page, DJ Butlin, K Lomthaisong, PJ Lowry: The human apolipoprotein L gene
cluster: identification, classification, and sites of distribution. Genomics 2001,
74:71-8.
V Babenko, B Brunk, J Crabtree, S Diskin, S Fischer, G Grant, Y Kondrahkin, L Li, J
Liu, J Mazzarelli, et al: GUS The Genomics Unified Schema A Platform for
Genomics Databases. 2003.
K Fellenberg, NC Hauser, B Brors, JD Hoheisel, M Vingron: Microarray data
warehouse allowing for inclusion of experiment annotations in statistical analysis.
Bioinformatics 2002, 18:423-33.
M Cornell, NW Paton, C Hedeler, P Kirby, D Delneri, A Hayes, SG Oliver: GIMS:
an integrated data storage and analysis environment for genomic and functional
data. Yeast 2003, 20:1291-306.
H-H Do, E Rahm: Flexible Integration of Molecular-Biological Annotation Data:
The GenMapper Approach, 2992 edn; 2004.
RD Stevens, HJ Tipney, CJ Wroe, TM Oinn, M Senger, PW Lord, CA Goble, A
Brass, M Tassabehji: Exploring Williams-Beuren syndrome using myGrid.
Bioinformatics 2004, 20 Suppl 1:I303-I310.
T Oinn, M Addis, J Ferris, D Marvin, M Senger, M Greenwood, T Carver, K Glover,
MR Pocock, A Wipat, et al: Taverna: a tool for the composition and enactment of
bioinformatics workflows. Bioinformatics 2004, 20:3045-54.
RD Stevens, AJ Robinson, CA Goble: myGrid: personalised bioinformatics on the
information grid. Bioinformatics 2003, 19 Suppl 1:i302-4.
128
Figures
Figure 1 - Overall system architecture of GEDAW
Data are imported from several resources and transformed before their storage within the
unique object schema for analysis. Three resources having their own schema representation
are used to populate the GEDAW schema: a local relational database, GenBank and
BioMeKE. Users access data through API that are provided in OQL and Java.
Figure 2 - UML GEDAW schema
The schema uses the class diagram notation of the UML (Unified Modeling Language).
Classes are represented by rectangles, lines show the relationships between classes, numbers
and “*” indicate the number of objects that may participate in the relationship.
Relation of specialization is depicted by an arrow from sub-class towards the root class. The
mRNAFrag class is specialized into the 3UTR, 5UTR and ORF classes. Relation of
composition is shown by a black diamond shaped ended arrow. The Region class composes
the Gene class. Relation of aggregation is shown by white diamond shaped ended arrow.
ExpressionGroup class is an aggregate of the ExpressionLevel class.
Figure 3. Workflows in GEDAW
Workflows are divided in successive tasks that are represented by rectangles. GEDAW
supports two kinds of Workflows.
A - Integration Workflow
The Integration Workflow describes the successive steps of the integration process from the
three resources into GEDAW. The studied genes are firstly selected, then there are successive
and independent connections to the three resources: the Relational Transcriptome database,
GenBank and BioMeKE. Several mapping rules are used so that the elements of the resources
schemas could be integrated in the GEDAW object schema. The final step is the GEDAW
schema instantiation.
129
B - Analysis Workflow
The Analysis Workflow that describes the successive steps of the analysis process in
GEDAW. Each analysis starts with a selection of objects in GEDAW. The selected objects
can be either data about a gene/group of genes, or a group of genes that have been created
based on expression level criteria (Gene Expression group) or other similar criteria (Gene
Group). Then, the selected objects are submitted either to internal analysis or to external
analysis. Internal analysis can be either data visualization or interpretation of created gene
groups. External analysis is the use of external programs like clustering or sequence analysis.
Figure 4 - Specific analysis workflow in GEDAW
The specific analysis workflow is extended from the generic Analysis Workflow described in
Figure 3B. This Workflow is divided in 4 successive tasks that are numbered: 1) Selection of
genes that are annotated by liver disease terms, they constitute the Liver Disease Associated
Genes Group, 2) Data about the genes of the Liver Disease Associated Genes Group are
visualized, 3) K-Means and then Closest neighbours algorithms are applied to the genes of the
Liver Disease Associated Genes Group. The genes represented on the array sharing the same
pattern as the genes of the Liver Disease Associated Genes Group belong to a new group: the
Potential Liver Disease Associated Genes Group, 4) The genes of the Potential Liver Disease
Associated Genes Group are characterized by a GO analysis to find the biological processes
mostly represented.
Figure 5 – Experimental design of HepaRG differentiation hybridizations
HepaRG differentiation process is studied through four stages: (P) proliferating cells, 3 days
post-spreading, (C) confluent cells, 5-6 days post-spreading, (SC) super confluent cells, 12-15
days post-spreading and finally (D) stabilized differentiated cells, 30 days post-spreading with
the last 15 days in basal medium supplemented with 2% of DMSO (dimethyl sulfoxyde). The
six comparisons that have been made for the study are represented by the arrows.
130
Figure 6 – Pattern characterization of the Potential Liver Disease Associated Genes
Group
For each cluster, the expression pattern is represented with the list of genes associated to the
cluster. The patterns are composed of six points that correspond to the six comparisons of the
HepaRG differentiation study (see Figure 5). The genes are defined with their respective
HGNC approved symbols. Red symbols correspond to the genes that belong to the Liver
Disease Associated Genes Group, whereas the black symbols correspond to genes of the
Potential Liver Disease Associated Genes Group that have been identified by the Closest
Neighbours.
Tables
Table 1 – Numbers of co-occurrence between UMLS medical terms and gene names
UMLS Terms \ Gene symboles
HFE TF ALB AFP FN1 CYP2E1 EPO CAT HP
Alcoholic Liver Diseases
Liver Abscess
Liver Cirrhosis
Liver Cirrhosis, Alcoholic
Liver Cirrhosis, Experimental
Liver diseases
Liver neoplasms
Hepatic encephalopathy
Porphyrias, Hepatic
2
6
16
2
19
16
4
6
Cumulated numbers
61
30 29
13
2
5
11
5
10
4
4
8
6
2
7
3
4
8
18
19
16
16
2
2
4
20
2
2
2
The table shows the UMLS liver disease terms that have been used for the search, the genes
that are annotated by those terms and the numbers of co-occurrences between the UMLS liver
disease terms and the gene names.
131
Table 2 – Biological characterization of the three clusters of Potential Liver Disease
Associated Genes Group
A
Cluster 1 Cluster 2 Cluster 3
Response to stimulus
Immune response
Signal transduction
Regulation of physiological process
Transport
Metabolism
B
Cluster 1 Cluster 2 Cluster 3
Extracellular region
Intracellular
Membrane
The biological characterization of the three clusters has been performed with Gene Ontology.
The results concerning the frequency of annotated genes per the six mostly frequent
Biological processes are represented in A. The results concerning the frequency of annotated
genes per the six mostly frequent Cellular components are represented in B. A same colour
code has been used for the tables A and B: red corresponds to - over 66% of genes -, green
corresponds to - upon 33% of genes -, and white corresponds to - between 33 and 66% of
genes.
132
Figure 1
133
Figure 2
Figure 3
A
B
Selection of studied genes
Selection of objects in GEDAW
Connection to resources
Relational
Transcriptome
Database
Genbank
Data
retrieval
Gene group
Gene expression
group
BioMeKE
Internal analysis
Visualization
Transformation Process
Interpretation
of groups
Mapping rules
External analysis
Clustering, sequence analysis
Instantiation of GEDAW schema
134
Figure 4
Selection / Management of objects in GEDAW
Potential Liver Disease
Associated Genes Group
1 Liver Disease Associated
Genes Group
2
4 Internal analysis
Internal analysis
Visualization of Liver Disease
Associated Genes Group
GO characterization of Potential Liver
Disease Associated Genes Group
3 External analysis
K-Means Clustering and Closest Neighbours
Figure 5
Proliferating cells (P)
Confluent cells (C)
Stabilized differentiated
cells (D)
Super confluent cells (SC)
Figure 6
Cluster 1
Cluster 2
Cluster 3
135
D/
C
D/
P
SC
/P
D/
SC
C/
P
SC
/C
D/
C
D/
P
SC
/P
D/
SC
C/
P
SC
/C
D/
C
D/
P
SC
/P
C/
P
SC
/C
D/
SC
CYP2E1
CYP4F2
FABP1
ADSL
CYP2A6
RODH
PLG
ELMO1
F9
SERPIND1
DGAT2
ALB
TF
GC
APOH
ADH1B
APOL3
SERPINA1
RAB27A
AF119890
AF119840
AX198366
HP
ORM2
SAA1
SERPINA3
FGA
A2M
RAB27A
FGG
SERPINA1
APOH
ORM1
DISCUSSION GÉNÉRALE ET
PERSPECTIVES
DISCUSSION GÉNÉRALE ET PERSPECTIVES
L’approche entrepôt de données est née dans l’entreprise, dans les secteurs concurrentiels
du commerce et du marketing. L’intérêt de l’utilisation d’une telle approche en
bioinformatique s’est vite fait sentir. En effet, les atouts liés au stockage local de données et
donc à l’optimisation de requêtes sont très adaptés aux larges volumes de données qui
caractérisent les données biologiques.
Cependant, mettre en œuvre une approche entrepôt de données pour gérer et analyser des
données biologiques est une tâche complexe. La nature des données que l’on doit intégrer
est très différente de celle des données d’entreprise. Les données ne sont plus quantitatives
mais souvent qualitatives, elles sont très nombreuses et diverses, elles sont pour la plupart
réparties sur le Web, dans des sources indépendantes et très dynamiques, caractérisées par
une grande hétérogénéité syntaxique et sémantique.
De ce fait, les étapes de construction de l’entrepôt n’en deviennent que plus complexes,
incluant la modélisation des données biologiques ainsi que la mise en œuvre de processus
d’intégration gérant la forte hétérogénéité et les mises à jour.
La contrepartie de tous ces efforts, c’est la grande capacité d’analyse ensuite fournie par
l’entrepôt, elle est bien souvent à l’origine de la motivation de la construction d’un tel
environnement.
L’analyse de données issues de l’étude de transcriptome requérant un accès à une grande
diversité de données réparties dans de multiples sources ainsi que des analyses fréquentes
et massives, nous avons donc nous-mêmes opté pour le développement d’un entrepôt de
données et ainsi proposé des solutions à une intégration systématique et réconciliée de
données hétérogènes.
GEDAW est un entrepôt de données orienté objet dédié à la gestion et à l’analyse de
données issues de l’étude du transcriptome. Il repose sur un schéma global unique et intègre
des données d’expression enrichies d’informations provenant de sources et de standards
des domaines de la génomique, de la biologie et de la médecine.
L’entrepôt supporte à la fois des processus d’intégration automatiques assurant une
transformation et une réconciliation forte des données, mais également des analyses sur les
données intégrées pour l’extraction de connaissances.
GEDAW a été utilisé dans le cadre de l’intégration et de l’analyse de données issues de
l’étude du transcriptome hépatique. Son efficacité a été prouvée par la mise en évidence de
nouvelles associations de gènes avec des pathologies hépatiques.
Parallèlement à la conception de GEDAW, nous avons développé le système BioMeKE qui
intègre les ontologies GO et UMLS pour fournir une annotation fonctionnelle et biomédicale
des gènes. BioMeKE a été utilisé pour l’intégration des données biologiques et médicales
dans GEDAW.
136
BIOMEKE
La particularité de BioMeKE est de réaliser une annotation biomédicale des gènes. Pour
cela, il intègre non seulement des ressources biologiques et génomiques telles que Genew,
GO et GOA, mais également l’ontologie UMLS, riche de plus de 100 terminologies
biomédicales.
Si beaucoup de systèmes ont été développés pour l’annotation de gènes via GO, peu de
solutions sont proposées pour fournir des informations médicales sur les gènes. La banque
de données OMIM™ répertorie les gènes humains associés à des maladies mais se limite
aux anomalies génétiques. C’est également le cas avec le système Gene2Disease qui score
les possibilités d’associations de gènes avec 450 maladies génétiques qui ont été associées
à des régions chromosomiques mais sans assignation de gènes (Perez-Iratxeta et al., 2002).
MedGene évalue les co-occurrences entre noms de gènes et noms de maladies mais se
limite aux pathologies contenues dans la terminologie MeSH (Hu et al., 2003). GenesTrace
permet d’associer des maladies avec des noms de gènes en effectuant une correspondance
(ou mapping) entre les concepts de l’UMLS et les termes de GO (Cantor et al., 2005). Ainsi,
tout comme BioMeKE, il utilise l’UMLS mais ne se base pas sur le même procédé
d’annotation, fournissant donc une annotation différente. Avec BioMeKE c’est le nom du
gène et non le nom de la pathologie qui est recherché dans le Metathesaurus. Les deux
outils GenesTrace et BioMeKE peuvent être considérés comme complémentaires.
Lors de la phase d’évaluation de BioMeKE, nous avons constaté que peu de gènes ont pour
le moment des annotations dans l’UMLS. En effet, si dans la version de l’UMLS utilisée
(2005 AA) 79% des gènes de la base de Genew étaient retrouvés dans le Metathesaurus,
seuls 13% d’entre eux avaient des annotations. Cependant, même si nous espérons que de
plus en plus de gènes seront annotés dans les prochaines versions de l’UMLS, nous avons
démontré que la connaissance apportée sur les gènes lorsque des annotations biomédicales
sont disponibles est largement complémentaire à celle fournie par GO et de ce fait très
intéressante à prendre en compte.
GEDAW
Positionnement de notre approche d’intégration
Les différents systèmes d’intégration développés en bioinformatique ainsi que leurs
caractéristiques ont été présentés tout au long de ce manuscrit. Notre approche se distingue
des autres sur différents points.
M-Chips et GIMS sont deux entrepôts de données dédiés à l’analyse de données issues de
l’analyse de transcriptome, mais diffèrent de GEDAW sur la nature des données intégrées.
M-Chips vise à fournir à ses utilisateurs un environnement permettant le traitement des
données primaires issues de la technologie des puces à ADN ainsi que la classification des
137
données d’expression. Ainsi, il intègre un maximum de données sur les expériences
menées. Ces données incluent les données d’expression et les annotations sur les
expériences. Les seules données complémentaires intégrées sont pour chaque gène des
références vers des banques de séquences. Les données fournies par ces sources externes
ne sont cependant pas intégrées localement.
L’entrepôt GIMS intègre des données provenant de sources diverses mais reste focalisé sur
la représentation de données autour du génome de Saccharomyces cerevisae.
L’entrepôt GEDAW quant à lui est dédié à l’interprétation des données d’expression. Pour
cela, l’environnement d’une part intègre des données d’expression enrichies d’informations
allant du gène à la pathologie et d’autre part fournit des moyens pour interroger et corréler
ces différents types d’informations intégrés.
Si les entrepôts de données GenMapper et GeWare proposent une intégration de données
plus riche en termes de diversité de types de données intégrées, ils n’offrent cependant
aucune solution de réconciliation des données au sein d’un schéma global qui unifie les
informations disponibles sur les gènes.
Pour concevoir GEDAW, nous avons utilisé un processus d’intégration qualifié d’ascendant
(ou bottom-up) (section III.1.6 pour détails) où nous sommes d’abord partis du besoin de
représenter au sein d’un même schéma telles et telles données, pour ensuite choisir les
sources de données ainsi que les processus d’intégration appropriés. Par cette approche,
nous relions de manière cohérente, les données d’expression avec les données génomiques
et les connaissances biomédicales, tout en assurant la réconciliation des données autour de
la nomenclature des gènes.
Ainsi, pour l’intégration, nous nous sommes focalisés sur l’utilisation de sources de données
structurées (base de données relationnelle d’expression) ou semi-structurées (fichiers XML
délivrés par GenBank et BioMeKE). De cette manière nous avons pu développer par le biais
de règles de correspondance, une intégration systématique et réconciliée des données au
sein d’un schéma global.
Contrairement à d’autres approches d’intégration de type matérialisée ou virtuelle, dans
GEDAW nous intégrons des sources de données aux contenus complémentaires mais non
chevauchants. En effet, GenBank est utilisé comme source de données génomique,
l’application BioMeKE délivre les annotations fonctionnelles et biomédicales via les
ontologies UMLS et GO et notre base de données relationnelle fournit les données
d’expression. Dans GEDAW, nous réalisons donc plutôt une intégration horizontale que
verticale des données, privilégiant ainsi la réconciliation des données à l’exhaustivité des
sources de données. La contre partie est que nous privons l’utilisateur et le système de toute
sélection éventuelle de sources à interroger, et que le système ne peut résoudre les
problèmes liés à des données manquantes ou de mauvaise qualité par confrontation de
sources de données divergentes. Cependant, nous arguons que la réconciliation des
données prime sur la diversité des sources de données pour fournir des moyens d’analyse
optimisés.
Si le problème des données redondantes n’est pas posé du fait de l’emploi d’une source par
domaine, dans GEDAW, nous avons du faire face à un autre type de redondance lié à la
grande hétérogénéité sémantique des données génomiques. Il fallait regrouper les
138
séquences et les noms associés à un même gène pour permettre leur identification au sein
de l’entrepôt. Cette tâche est effectuée lors du processus d’intégration via BioMeKE qui en
plus des annotations fonctionnelles et biomédicales délivre la nomenclature des gènes
établie par le HGNC. Ainsi, l’identifiant GeneID de la source Entrez Gene est utilisé pour
regrouper toutes les séquences associées à un même gène, et les synonymes de noms de
gènes sont utilisés pour regrouper les gènes qui apparaissent dans GEDAW sous différents
noms.
Ajout de nouvelles sources et extension de schéma
Les sources actuellement utilisées pour l’intégration de données dans GEDAW ont été
choisies pour leurs propriétés de contenu et de structuration.
Ainsi, GenBank a été choisie comme source de données sur les séquences et annotations
associées pour avoir été la première banque de séquences à délivrer ses enregistrements
au format XML. Depuis, la banque de données nucléique de l’EMBL ainsi que la banque
DDBJ ont adopté un même format d’échange.
D’autre part nous avons choisi d’utiliser l’application BioMeKE pour intégrer une annotation
des gènes adaptée à nos besoins. Outre le fait de bénéficier des annotations sur les
processus biologiques et les fonctions moléculaires impliquant nos gènes ainsi que les
localisations cellulaires de nos produits de gènes, nous voulions disposer de l’information sur
les maladies ou syndromes associés. BioMeKE exploite l’ontologie GO et la richesse de
vocabulaires intégrés dans l’UMLS pour délivrer une annotation biomédicale riche. Les
annotations provenant à la fois de GO et de l’UMLS sont délivrées au format XML puis
intégrées dans GEDAW.
Si aujourd’hui, l’environnement permet un accès unifié à une diversité de données, l’ajout de
nouvelles sources couvrant d’autres domaines de connaissance est envisageable et
permettrait d’interpréter au mieux les données d’expression. Notamment, il pourrait être
intéressant d’intégrer des données sur les voies métaboliques telles que décrites dans la
banque de données KEGG ou encore des données d’expression provenant de répertoires
publics tels que GEO ou ArrayExpress pour comparer et confronter nos propres données.
Il faut souligner que, contrairement aux entrepôts GenMapper ou GeWare, qui sont
particulièrement adaptés à l’ajout de nouvelles sources de données par l’utilisation d’un
modèle générique appelé GAM, qui modélise les sources de données plutôt que leur
contenu, dans GEDAW, l’ajout de source supplémentaire implique une modification du
schéma global. Cependant, cette modification de schéma consiste plus en une extension de
schéma afin d’y ajouter de nouvelles classes permettant de décrire le domaine d’intérêt,
qu’en une modification profonde du schéma. Sur ce point il faut souligner que le modèle
orienté objet de part ses caractéristiques intrinsèques, s’adapte très bien à l’ajout de
nouvelles classes. Les concepts d’héritage, de modularité objet et d’encapsulation en font un
modèle très adaptable et évolutif.
139
Rafraîchissement
L’une des caractéristiques de l’approche entrepôt de données est le stockage local des
données. Or dans les domaines de la génomique, de la biologie et de la médecine, les
sources de données sont très dynamiques. Leurs contenus sont très changeants du fait de
leur autonomie et des perpétuelles avancées en recherche. Aussi, tout système utilisant ces
sources et qui repose sur une approche entrepôt de données n’est cohérent que si les
données sont régulièrement mises à jour, on parle de rafraîchissement.
Le rafraichissement des données d’un entrepôt de données peut s’opérer de deux manières.
La rematérialisation consiste à intégrer de nouveau l’ensemble des données qui proviennent
de la source ayant subi une mise à jour. La maintenance incrémentale, quant à elle, consiste
à modifier uniquement les données qui ont changé. Cependant, cette dernière solution
nécessite l’utilisation de déclencheurs ou triggers et impose à l’utilisateur le développement
de procédures utilisant ces triggers.
Dans GEDAW, nous utilisons une rematérialisation régulière pour respecter l’état actuel des
connaissances sur les gènes étudiés. Ces mises à jour concernent la banque de données
GenBank et l’application BioMeKE qui intègre dès leur apparition les nouvelles versions de
GO et de l’UMLS.
Dans GEDAW, nous ne conservons pas la trace des données provenant des versions
antérieures de GenBank et des ontologies GO et UMLS. Dans ce sens, la non volatilité des
données caractérisant l’approche entrepôt de données n’est pas respectée. Dans notre
contexte, nous sommes plus intéressés par le fait d’interroger des données à jour, reflétant
l’état actuel de la connaissance, que par la traçabilité des annotations dans les banques, tel
que dans l’entrepôt de données GUS.
Les données d’expression, sont quant à elles conservées dans GEDAW, c’est le concept
d’historisation des données. Ainsi, des requêtes effectuées sur les données d’expression, à
différentes dates, donneront toujours le même résultat. En revanche, les résultats de
requêtes menées sur les annotations génomiques, fonctionnelles et biomédicales des gènes
évoluent en fonction de la version des sources de données, et donc des dernières avancées
de la recherche. De cette manière, nous espérons, au fur et à mesure du temps, acquérir de
plus amples et précises informations sur les gènes d’intérêt et ainsi pouvoir proposer de
nouvelles interprétations ou hypothèses sur les données expérimentales.
Exploitation de l’environnement intégré
GEDAW fournit un environnement intégré d’analyse de données de transcriptome.
Les analyses supportées par GEDAW sont guidées par l’expert. Elles sont de deux types, il
peut s’agir d’analyses internes ou d’analyses externes.
Les analyses internes consistent en une sélection d’objets ou de groupes d’objets et
permettent d’accéder par simples interrogations à l’information réconciliée sur les gènes.
Elles sont implémentées par différentes APIs qui englobent à la fois le langage de requêtes
140
OQL mais également le langage Java, pour une meilleure manipulation des objets. Les
analyses externes consistent en l’utilisation d’outils extérieurs à l’entrepôt.
Bien souvent, l’analyse de données de transcriptome requiert une combinaison de ces deux
types d’analyses, pour formuler des analyses complexes. L’utilisation de telles analyses est
illustrée dans le cadre de l’étude de transcriptome hépatique.
L’interaction entre GEDAW et des outils d’analyse extérieurs est bénéfique sur deux points.
Premièrement, l’emploi d’outils permet d’exploiter au mieux les données intégrées dans
l’entrepôt. Par exemple, l’utilisation d’outils tels que des algorithmes d’alignement de
séquences, ou de recherche de motifs exploite au mieux les données de type ‘séquences’
intégrées dans GEDAW.
De plus, et c’est là le second point positif, le fait d’exécuter des programmes sur des
données qui convergent vers une thématique donnée (dans notre cas présent le
transcriptome hépatique), qui sont réconciliées, non redondantes et éventuellement déjà préregroupées selon des critères de sélection ne fait que renforcer à la fois la pertinence et la
qualité des analyses menées. Dans l’entrepôt, les données peuvent être considérées comme
pré-traitées et non comme des données brutes.
Si les analyses pré-intégrées dans GEDAW ont prouvé leur efficacité dans le cadre de
l’analyse de transcriptome hépatique, nous envisageons de tirer d’avantage profit des
possibilités d’analyses offertes par l’approche entrepôt de données.
En particulier, nous envisageons d’utiliser des techniques de data mining, qui contrairement
aux analyses déjà implémentées dans GEDAW, ne sont pas guidées par l’expert. Le data
mining consiste à rechercher de la connaissance cachée dans les données, sous forme de
modèles de comportement. Il met en œuvre des techniques de raisonnement afin de classer,
estimer, prédire, grouper par similitudes, segmenter, décrire ou optimiser des données. Par
le biais de telles techniques nous envisageons soit de dégager de nouvelles corrélations
entre les gènes soit d’approfondir nos hypothèses sur la co-expression de gènes.
Nous envisageons également de profiter des avantages fournis par la technologie des
services Web. Aujourd’hui une grande diversité d’applications bioinformatiques sont
disponibles en tant que services Web (Stein, 2002). Il s’agit d’applications publiées,
localisées et invoquées sur le Web, qui utilisent des protocoles standards d’échange et
offrent une grande modularité. Un environnement tel que myGrid utilise les concepts des
services Web et des workflows pour fournir un accès personnalisé à des applications
réparties sur différentes ressources (Stevens et al., 2003). Dans notre contexte, l’utilisation
d’un tel environnement s’envisage à la fois dans le cadre d’analyses ponctuelles faisant
appel à un service donné, mais également dans le cadre d’analyses plus complexes sous la
forme de workflows nécessitant pour une étape particulière l’utilisation d’un service Web. Les
avantages pour nous seraient l’accès à une grande diversité de programmes
bioinformatiques, caractérisés par leur disponibilité, leur modularité ainsi que leur
transparence d’utilisation. De plus nous bénéficierions du stockage et du calcul distants.
Actuellement, l’environnement GEDAW est dédié à l’analyse de données issues de l’étude
du transcriptome hépatique. Dans ce contexte, il intègre les données disponibles sur les
2470 séquences d’ADNc déposées sur la puce à ADN dédiée ainsi que les données
d’expression issues des hybridations réalisées au laboratoire.
141
L’environnement est accessible par les utilisateurs sur une machine du laboratoire. La
consultation des données se fait soit par l’interface du SGBDO FastObjects soit par le biais
de l’interface Java développée à cet effet. De simples requêtes OQL ou des analyses plus
complexes pré-programmées peuvent y être exécutées, et les résultats sont consultés via
l’interface ou via des fichiers délivrés à l’utilisateur.
Si GEDAW a démontré son intérêt pour l’analyse de transcriptome hépatique, nous
envisageons par la suite un élargissement du domaine d’application.
L’utilisation de GEDAW s’envisage en effet dans le contexte de l’étude de transcriptomes
variés, concernant d’autres organes ou d’autres organismes. Nous pouvons également
facilement étendre l’utilisation de GEDAW à d’autres technologies d’étude de transcriptome,
telles que des puces à ADN pangénomiques, ou toute autre technologie générant des
données d’expression.
CONCLUSION GÉNÉRALE
L’ère de la post-génomique, accompagnée d’une profusion de sources de données, a tout
naturellement fait naître des besoins d’intégration de données dans le domaine de la
bioinformatique.
Les solutions d’intégration proposées doivent faire face à des données très volumineuses en
perpétuelle évolution et caractérisées par une grande hétérogénéité. Elles ont pour but de
les confronter pour ainsi favoriser la découverte de nouvelles connaissances.
Les développements du système BioMeKE et de l’entrepôt de données GEDAW ont
participé aux efforts de la communauté bioinformatique pour fournir des solutions à
l’interopérabilité des sources de données et cela dans un contexte particulier d’analyse de
transcriptome. L’évaluation de BioMeKE et l’utilisation de GEDAW ont d’ores et déjà
démontré leur apport pour l’enrichissement ou l’extraction de connaissances.
142
GLOSSAIRE
GLOSSAIRE
Agrégation : action de calculer les valeurs associées aux positions parents des dimensions
hiérarchiques. Cette agrégation peut être une somme, une moyenne, ou tout
autre processus plus complexe comme la deuxième plus forte valeur.
API (Application Programming Interface) : interface pour langages de programmation,
matérialisées par des primitives, permettant à une application d’accéder à des
programmes système pour, par exemple, communiquer ou extraire des
données.
Boîte TATA : heptamère conservé riche en AT (adénine, thymine), localisé sur l'ADN en
amont du site d'initiation de la transcription. Elle favorise le positionnement de
l'ARN polymérase. Chez les Eucaryotes, la boîte TATA est localisée à environ
30 nucléotides en amont du site d'initiation de la transcription et est nommée
boîte de Hogness. Elle n'est présente que dans les gènes transcrits par l'ARN
polymérase II. Chez les Procaryotes, la boîte TATA est localisée à environ 10
nucléotides en amont du site d'initiation de la transcription, et est nommée
boîte de Pribnow.
Classification des centroïdes : méthode de classification supervisée qui permet une
répartition rapide des données en plusieurs classes. Pour chaque classe
connue, le barycentre est calculé. Ensuite, toutes les distances possibles (le
plus souvent distance euclidienne) entre l’échantillon à classer et les
différents barycentres des différentes classes sont calculées. L’échantillon
inconnu est alors agrégé à la classe pour laquelle la distance au barycentre
est la plus faible.
Composante principale (analyse en) : méthode statistique pour l’exploration de données
multivariées présentée pour la première fois an 1933 par Hotelling. L’objectif
de l’ACP est de réduire la dimension de l’espace des données en déformant
le moins possible la réalité. Pour cela, elle détermine une suite d’axes
orthogonaux, non corrélés, conservant au mieux les distances entre les
individus. Les composantes principales sont définies par les vecteurs propres
ou eigenvector. La conservation des distances (aux données d’origine) par
chaque axe est mesurée par la variance des coordonnées des individus sur
cet axe, encore appelée valeur propre ou eigenvalue.
Cristallographie aux rayons X : méthode expérimentale basée sur les propriétés
diffractantes des cristaux pour les rayons X. L'enregistrement d'une figure de
diffraction d'un cristal permet, par transformée de Fourier, de calculer la
densité électronique tridimensionnelle de sa maille élémentaire.
Data mining : ensemble des technologies avancées susceptibles d’analyser l’information
d’un entrepôt de données pour en tirer des tendances, pour segmenter
l’information ou pour trouver des corrélations dans les données.
Datamart :
base de données orientée sujet mise à disposition des utilisateurs dans un
contexte décisionnel décentralisé.
Dimension : axe d’analyse correspondant le plus souvent aux sujets d’intérêt de l’entrepôt
de données; exemple: dimension temporelle, dimension protéique …
143
Double hybride : système développé en 1989. Il consiste à introduire dans une cellule les
gènes codant les deux protéines étudiées. Si ces protéines interagissent, la
cellule adoptera un phénotype aisément repérable, par exemple le produit
d'un gène rapporteur.
Electrophorèse sur gel : permet de séparer et de visualiser par marquage (fluorescence,
composés métalliques) les protéines d'un extrait cellulaire (selon leur charge
électrique et leur masse moléculaire).
Epissage :
processus englobant l'excision des introns et la réunion des exons dans
l'ARN. L'épissage est une des étapes de la maturation de l'ARN messager
(après la transcription). L'épissage s'effectue grâce à des séquences
spécifiques situées aux extrémités 5' et 3' de chaque exon.
Fait :
objet d’analyse dans le cadre d’un modèle multidimensionnel, souvent une
donnée numérique.
Génome :
ensemble du matériel génétique (patrimoine héréditaire) d'un individu ou
d'une espèce. Il est constitué de molécules d'acides nucléiques (ADN ou
ARN). Les gènes, c'est-à-dire les parties d'ADN porteuses d'une information
génétique, ne constituent qu'une partie du génome.
Génomique fonctionnelle ou Post-génomique : étude de la fonction des gènes par
analyse de leur séquence et de leurs produits d’expression : les ARNm
(transcriptome) et les protéines (protéome). Elle s’intéresse à leur mode de
régulation, et à leurs interactions. L’analyse des protéines peut aller jusqu’à la
détermination de leur structure tridimensionnelle.
GNU (GNU's Not UNIX) : projet de la Free Software Foundation visant à concevoir, réaliser
et distribuer un système d’exploitation libre et complet inspiré d’Unix.
HTML (HyperText Markup Language) : langage de description de pages Web. Un standard
initié par le W3C et compatible tous systèmes.
Intégrité:
ensemble de contraintes appliquées aux mises à jour d’une base de données
permettant de garantir leur cohérence.
Internet :
INTERconnected NETworks. Réseau international de réseaux interconnectés.
Interopérabilité : l'interopérabilité est le fait que plusieurs systèmes, qu'ils soient identiques
ou radicalement différents, puissent communiquer sans ambiguïté et opérer
ensemble.
K plus proches voisins (méthode des) : méthode de classification supervisée. Soit un
nombre d’échantillons appartenant à des classes connues, l’échantillon
inconnu est associé à la classe qui possède les k échantillons qui lui sont le
plus proches (similaires).
k-moyennes (méthode des) : méthode de partitionnement introduite par MacQueen en
1967. C’est une variante des méthodes d’agrégations autour de centres
mobiles. Le but de cet algorithme est de minimiser la distance de chaque
objet (e.g. gènes) par rapport au centre du groupe auquel il appartient. La
méthode des k-moyennes distribue les données en k groupes choisis a priori
et répartis autour de k-centres appelés noyaux ou centroïdes.
Modèle de données : ensemble de règles permettant de formaliser le monde réel sous la
forme d’un schéma de données. Les modèles les plus connus sont le modèle
relationnel et le modèle orienté-objet. Voir aussi schéma de données.
144
Modèle orienté objet : le modèle " objet " est caractérisé principalement par trois concepts:
- le polymorphisme : un certain nombre de contrôles de type et de cohérence
ne sont effectués qu'au moment de l'exécution de l'application, ce qui
confère toute sa souplesse à ce modèle.
- l'encapsulation : chaque objet est autonome, contient ses attributs et ses
méthodes et ne " donne à voir " que les méthodes ou les attributs utiles aux
autres objets.
- l'héritage : les classes sont organisées en arborescence et une classe peut
hériter des attributs et des méthodes de la classe dont elle descend, ce qui
évite d'avoir à réécrire en plusieurs exemplaires ces attributs et méthodes.
Modèle relationnel : le modèle relationnel a été proposé par E.F. Codd en 1970. Il est basé
sur une organisation des données sous forme de tables. La manipulation des
données se fait selon le concept mathématique de relation de la théorie des
ensembles, c'est-à-dire l'algèbre relationnelle. Elle est constituée d'un
ensemble d'opérations formelles sur les relations. Les opérations
relationnelles permettent de créer une nouvelle relation (table) à partir
d'opérations élémentaires sur d'autres tables (par exemple l'union,
l'intersection, ou encore la différence).
MOLAP (Multidimensionnal On Line Analytical Processing) : équivalent à OLAP, utilisant
une base de données multidimensionnelle. Pour le premier, les jointures sont
déja faites, ce qui explique les performances. Dans le second, les jointures
entre les tables de dimension et de fait sont effectuées au moment de la
requête.
Northern blot : permet de repérer une séquence particulière (sonde) dans un mélange
d'ARN. Le terme Northern a été créé par jeu de mot analogique avec le
transfert de Southern. Voir aussi Southern blot.
Nucléotide : unité de construction des acides nucléiques, résultant de l'addition d'un sucre
(ribose pour l'ARN et désoxyribose pour l'ADN), d'un groupement phosphate
et d'une base azotée à l'origine de l'information. Il existe quatre nucléotides
différents pour l'ADN : adénine (A), thymine (T), guanine (G), cytosine (C) et
quatre nucléotides différents pour l'ARN : uracile (U), guanine (G), cytosine
(C), adénine (A). C'est la succession des bases résultant de l'enchaînement
des nucléotides dans l'acide nucléique qui constitue le message génétique.
OLAP (On Line Analytical Processing) : caractérise l’architecture nécessaire à la mise en
place d’un système d’information décisionnel. S’oppose à OLTP. Le terme
OLAP désigne souvent une catégorie d’outils d’exploration de données qui
permettent de visualiser des valeurs dans plusieurs dimensions.
Oligonucléotide : petit segment d’ADN (quelques dizaines de nucléotides) simple brin.
OLTP (On Line Transactionnel Processing) : type d’environnement de traitement de
l’information dans lequel une réponse doit être donnée dans un temps
acceptable et consistant.
Opéron :
unité de transcription constituée par un promoteur (courte séquence
nécessaire à l'initiation de la transcription), un opérateur (site auquel un
répresseur se lie, pour empêcher le déclenchement de la transcription) et un
ou plusieurs gènes.
Orthologues (gènes) : gènes d'espèces différentes dont les séquences sont homologues,
dérivent d'un même gène ancestral et ont divergés à la suite d'un évènement
de spéciation.
145
PCR (Polymerase Chain Reaction) : réaction de polymérisation en chaîne. Technique
d’amplification enzymatique (utilisant la Taq polymérase) in vitro d’un
fragment d’ADN à partir d’amorces nucléotidiques spécifiques, permettant
d’obtenir un très grand nombre de copies de ce fragment.
Phénotype : manifestation apparente de la constitution du génome sous la forme d'un trait
morphologique, d'un syndrome clinique, d'une variation qualitative ou
quantitative du produit final d'un gène (protéine). Le phénotype correspond à
la réalisation du génotype mais aussi des effets du milieu, de l'environnement.
Photolithographie : la photolithographie est la technique de base permettant la fabrication
de microstructures. Elle consiste à transférer les motifs désirés sur un
substrat. La technique nécessite, d'abord, la fabrication d’un masque
représentant les motifs à transférer. Ensuite, une couche de résine
photosensible aux rayons UV est appliquée sur le substrat de façon uniforme.
La résine est exposée au travers du masque à l’aide d’une lampe UV pour un
temps déterminé. Le substrat est finalement immergé dans une base forte afin
de « développer » (comme en photographie) l’image transférée. La résine
restant sur le substrat va servir de masque pour la gravure.
Plug-in :
aussi appelé « greffon ». Logiciel tiers venant se greffer à un logiciel principal
afin de lui apporter de nouvelles fonctions. Le logiciel principal fixe un
standard d'échange d'informations auquel ses greffons se conforment. Le
greffon n'est généralement pas conçu pour fonctionner seul.
Polyadénylation : processus d’ajout d’une série d’environ 250 Adénines (queue polyA) à la
fin de la séquence de l’ARNm primaire par l’enzyme RNA Polymerase II. On
pense qu'il aiderait au passage du mRNA du noyau vers le cytoplasme et
protégerait le mRNA au cours de la traduction.
Portail Web : un portail Web est un site Web qui offre une porte d'entrée unique sur un
large panel de ressources et de services centrés sur un domaine ou une
communauté particulière.
Protéome :
ensemble des protéines exprimé par le génome d'une espèce donnée. Il
assure le développement, la croissance et le fonctionnement de la cellule
(donc de l'organisme).
Puce à ADN : petit support solide sur lequel sont fixés à des positions déterminées un très
grand nombre de molécules d’ADN ou d’oligonucléotides, constituant une
matrice pour des hybridations moléculaires.
Réseaux de Kohonen : encore appelés cartes organisatrices (SOM (Self Organizing Map)).
Ce sont des réseaux de neurones qui utilisent une méthode d’apprentissage
incrémentale dite compétitive. Cette méthode est dérivée de l’approche kmoyennes sur laquelle des contraintes spatiales (topologiques) sont ajoutées
sous la forme d’un réseau virtuel. Ce réseau, ou carte, permet de réduire
l’espace multidimensionnel des données d’entrée en un espace à 1 (ligne), 2
(grille) ou 3 (parallélépipède) dimensions. Les cartes 1D et 2D sont les plus
utilisées.
ROLAP (Relational On Line Analytical Processing) : cette technique permet de faire de
l'analyse multidimensionnelle à partir de données stockées dans des bases
relationnelles.
146
SAGE (Serial Analysis of Gene Expression) : cette technique permet d’estimer l’abondance
d’un ARNm particulier dans une population d’ARNm. Des ADNc sont
synthétisés à partir de l’ensemble des ARNm, puis digérés par une enzyme
de restriction qui coupe fréquemment l’ADN, et les fragments obtenus sont
liés les uns aux autres (concatémères ou étiquettes en série). Après
amplification et séquençage des produits, une analyse informatique basée sur
la fréquence d’apparition de l’étiquette correspondante donne le niveau
d’expression de l’ARNm étudié.
Schéma de données : un schéma est la description au moyen d'un langage déterminé d'un
ensemble particulier de données. Il doit permettre la description et la
représentation:
- des entités et des données qui les constituent
- des liens (association, relations, correspondances) qui les relient
- de certaines assertions (propriétés ou contraintes d'intégrité) que doivent
vérifier les données de la base.
Service Web : technologie permettant à des applications de dialoguer à distance via Internet
indépendamment des plates-formes et des langages sur lesquelles elles
reposent.
SGBD (Système de Gestion de Bases de Données) : un SGBD est une collection de
logiciels permettant de créer, de gérer et d’interroger efficacement une base
de données indépendamment du domaine d’application.
Southern blot : permet de repérer une séquence particulière (sonde) dans un génome
entier (cible) ou tout autre mélange complexe d'ADN :
- L'ADN cible est découpé en fragments, par digestion enzymatique.
- Les fragments hybridés sont révélés par autoradiographie.
- Les fragments sont séparés par ordre de taille par électrophorèse, puis
transférés et fixés sur une membrane de nylon mise en présence de la
sonde radioactive qui va s'hybrider spécifiquement aux séquences qui lui
sont complémentaires.
Spectrométrie de masse : méthode d'analyse des constituants d'une préparation par
séparation des particules chargées issues d'ionisation. La séparation
s'effectue sur la base de la masse des ions et fournit un spectre
caractéristique des constituants.
Spectrométrie RMN (Résonance Magnétique Nucléaire) : méthode expérimentale basée
sur l'interaction des moments magnétiques nucléaires des atomes d'une
molécule avec un champ magnétique extérieur. Un spectre RMN permet
d'identifier la nature des atomes d'une molécule, de déterminer certaines
interactions locales entre ces atomes, et permettre d'en déduire la structure
tridimensionnelle.
Traduction : processus permettant la synthèse d'une chaîne polypeptidique (protéine) à
partir d'un brin d'ARN messager. La traduction a lieu au niveau des
ribosomes.
Transcription : la transcription est la synthèse d'une molécule d'ARN complémentaire (ARN
messager) à une séquence d'ADN. La transcription est initiée par une ARN
polymérase.
Les ARNm sont traduits tels quels chez les procaryotes. Chez les eucaryotes,
l'ARNm subit une maturation avant la traduction.
Transcriptome : ensemble des ARN messagers transcrits à partir du génome.
147
Web sémantique : n'est pas un Web distinct mais bien un prolongement du Web que l'on
connaît et dans lequel on attribue à l'information une signification clairement
définie, ce qui permet aux ordinateurs et aux humains de travailler en plus
étroite collaboration.
Web :
World Wide Web, « Toile d’araignée Mondiale ». Système basé sur des liens
hypertextes, permettant l’accès aux ressources du réseau Internet.
XML (eXtensible Markup Language) : standard du W3C qui permet de décrire les données
et de les structurer de telle sorte qu'elles puissent être échangées entre un
large nombre d'applications en différents environnements hardware et
software.
148
BIBLIOGRAPHIE
BIBLIOGRAPHIE
Adams, M. D., Celniker, S. E., and al. (2000). The genome sequence of Drosophila melanogaster.
Science 287, 2185-95.
Alkharouf, N. W., Jamison, D. C., and Matthews, B. F. (2005). Online Analytical Processing (OLAP): A
Fast and Effective Data Mining Tool for Gene Expression Databases. J Biomed Biotechnol
2005, 181-8.
Al-Shahrour, F., Diaz-Uriarte, R., and Dopazo, J. (2004). FatiGO: a web tool for finding significant
associations of Gene Ontology terms with groups of genes. Bioinformatics 20, 578-80.
Alter, O., Brown, P. O., and Botstein, D. (2000). Singular value decomposition for genome-wide
expression data processing and modeling. Proc Natl Acad Sci 97, 10101-6.
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990). Basic local alignment
search tool. J Mol Biol 215, 403-10.
Anderle, P., Duval, M., Draghici, S., Kuklin, A., Littlejohn, T. G., Medrano, J. F., Vilanova, D., and
Roberts, M. A. (2003). Gene expression databases and data mining. Biotechniques Suppl,
36-44.
Avery, O. T., MacLeod, C. M., and McCarty, M. (1944). Studies on the chemical nature of the
substance inducing transformation of pneumococcal types. Inductions of transformation by a
desoxyribonucleic acid fraction isolated from pneumococcus type III. J Exp Med 79, 137-158.
Bairoch, A. (2000). The ENZYME database in 2000. Nucleic Acids Res 28, 304-5.
Bairoch, A., Apweiler, R., Wu, C. H., Barker, W. C., Boeckmann, B., Ferro, S., Gasteiger, E., Huang,
H., Lopez, R., Magrane, M., Martin, M. J., Natale, D. A., O'Donovan, C., Redaschi, N., and
Yeh, L. S. (2005). The Universal Protein Resource (UniProt). Nucleic Acids Res 33, 154-9.
Bairoch, A., and Boeckmann, B. (1993). The SWISS-PROT protein sequence data bank, recent
developments. Nucleic Acids Res 21, 3093-6.
Baker, P. G., Brass, A., Bechhofer, S., Goble, C., Paton, N., and Stevens, R. (1998). TAMBIS-Transparent Access to Multiple Bioinformatics Information Sources. Proc Int Conf Intell Syst
Mol Biol 6, 25-34.
Baker, P. G., Goble, C. A., Bechhofer, S., Paton, N. W., Stevens, R., and Brass, A. (1999). An
ontology for bioinformatics applications. Bioinformatics 15, 510-20.
Balakrishnan, R., Christie, K. R., Costanzo, M. C., Dolinski, K., Dwight, S. S., Engel, S. R., Fisk, D. G.,
Hirschman, J. E., Hong, E. L., Nash, R., Oughtred, R., Skrzypek, M., Theesfeld, C. L., Binkley,
G., Dong, Q., Lane, C., Sethuraman, A., Weng, S., Botstein, D., and Cherry, J. M. (2005).
Fungal BLAST and Model Organism BLASTP Best Hits: new comparison resources at the
Saccharomyces Genome Database (SGD). Nucleic Acids Res 33, 374-7.
Ball, C. A., Awad, I. A., Demeter, J., Gollub, J., Hebert, J. M., Hernandez-Boussard, T., Jin, H.,
Matese, J. C., Nitzberg, M., Wymore, F., Zachariah, Z. K., Brown, P. O., and Sherlock, G.
(2005). The Stanford Microarray Database accommodates additional microarray platforms and
data formats. Nucleic Acids Res 33, 580-2.
Bard, J., Rhee, S. Y., and Ashburner, M. (2005). An ontology for cell types. Genome Biol 6, R21.
Barrett, T., Suzek, T. O., Troup, D. B., Wilhite, S. E., Ngau, W. C., Ledoux, P., Rudnev, D., Lash, A.
E., Fujibuchi, W., and Edgar, R. (2005). NCBI GEO: mining millions of expression profiles-database and tools. Nucleic Acids Res 33, 562-6.
Beadle, G. W., and Tatum, E. L. (1941). Genetic control of biochemical reactions in Neurospora. Proc.
Natl. Acad. Sci 27, 499-506.
Benson, D. A., Karsch-Mizrachi, I., Lipman, D. J., Ostell, J., and Wheeler, D. L. (2005). GenBank.
Nucleic Acids Res 33, 34-8.
149
Bernstein, P., and Rahm, E. (2000). Data Warehouse Scenarios for Model Management. In "19th
International Conference on Conceptuel Modeling" (A. H. F. Laender, S. W. Liddle, and V. C.
Storey, Eds.), pp. 1-15. Lecture Notes in Computer Science, Springer-Verlag, Salt Lake City,
Utah, USA.
Bilofsky, H. S., Burks, C., Fickett, J. W., Goad, W. B., Lewitter, F. I., Rindone, W. P., Swindell, C. D.,
and Tung, C. S. (1986). The GenBank genetic sequence databank. Nucleic Acids Res 14, 1-4.
Birnbaum, K., Shasha, D. E., Wang, J. Y., Jung, J. W., Lambert, G. M., Galbraith, D. W., and Benfey,
P. N. (2003). A gene expression map of the Arabidopsis root. Science 302, 1956-60.
Birney, E., Bateman, A., Clamp, M. E., and Hubbard, T. J. (2001). Mining the draft human genome.
Nature 409, 827-828.
Blagosklonny, M. V., and Pardee, A. B. (2002). Conceptual biology: unearthing the gems. Nature 416,
373.
Bodenreider, O. (2004). The Unified Medical Language System (UMLS): integrating biomedical
terminology. Nucleic Acids Res 32, 267-70.
Bodenreider, O., Mitchell, J. A., and McCray, A. T. (2002). Evaluation of the UMLS as a terminology
and knowledge resource for biomedical informatics. Proc AMIA Symp, 61-5.
Boguski, M. S., Lowe, T. M., and Tolstoshev, C. M. (1993). dbEST--database for "expressed
sequence tags". Nat Genet 4, 332-3.
Borodovsky, M., Rudd, K. E., and Koonin, E. V. (1994). Intrinsic and extrinsic approaches for detecting
genes in a bacterial genome. Nucleic Acids Res 22, 4756-67.
Boutanaev, A. M., Kalmykova, A. I., Shevelyov, Y. Y., and Nurminsky, D. I. (2002). Large clusters of
co-expressed genes in the Drosophila genome. Nature 420, 666-9.
Brazma, A., Hingamp, P., Quackenbush, J., Sherlock, G., Spellman, P., Stoeckert, C., Aach, J.,
Ansorge, W., Ball, C. A., Causton, H. C., Gaasterland, T., Glenisson, P., Holstege, F. C., Kim,
I. F., Markowitz, V., Matese, J. C., Parkinson, H., Robinson, A., Sarkans, U., Schulze-Kremer,
S., Stewart, J., Taylor, R., Vilo, J., and Vingron, M. (2001). Minimum information about a
microarray experiment (MIAME)-toward standards for microarray data. Nat Genet 29, 365-71.
Brazma, A., Parkinson, H., Sarkans, U., Shojatalab, M., Vilo, J., Abeygunawardena, N., Holloway, E.,
Kapushesky, M., Kemmeren, P., Lara, G. G., Oezcimen, A., Rocca-Serra, P., and Sansone, S.
A. (2003). ArrayExpress--a public repository for microarray gene expression data at the EBI.
Nucleic Acids Res 31, 68-71.
Brown, P. O., and Botstein, D. (1999). Exploring the new world of the genome with DNA microarrays.
Nat Genet 21, 33-7.
Buneman, P. (1997). Semistructured Data. In "Symposium on Principles of Database Systems", pp.
117-121. ACM Press, Tucson, Arizona, USA.
Camon, E., Barrell, D., Lee, V., Dimmer, E., and Apweiler, R. (2004a). The Gene Ontology Annotation
(GOA) Database--an integrated resource of GO annotations to the UniProt Knowledgebase. In
Silico Biol 4, 5-6.
Camon, E., Magrane, M., Barrell, D., Binns, D., Fleischmann, W., Kersey, P., Mulder, N., Oinn, T.,
Maslen, J., Cox, A., and Apweiler, R. (2003). The Gene Ontology Annotation (GOA) project:
implementation of GO in SWISS-PROT, TrEMBL, and InterPro. Genome Res 13, 662-72.
Camon, E., Magrane, M., Barrell, D., Lee, V., Dimmer, E., Maslen, J., Binns, D., Harte, N., Lopez, R.,
and Apweiler, R. (2004b). The Gene Ontology Annotation (GOA) Database: sharing
knowledge in Uniprot with Gene Ontology. Nucleic Acids Res 32, 262-6.
Cantor, M. N., Sarkar, I. N., Bodenreider, O., and Lussier, Y. A. (2005). Genestrace: phenomic
knowledge discovery via structured terminology. Pac Symp Biocomput, 103-14.
Caron, H., Peter, M., van Sluis, P., Speleman, F., de Kraker, J., Laureys, G., Michon, J., Brugieres, L.,
Voute, P. A., Westerveld, A., and et al. (1995). Evidence for two tumour suppressor loci on
chromosomal bands 1p35-36 involved in neuroblastoma: one probably imprinted, another
associated with N-myc amplification. Hum Mol Genet 4, 535-9.
Chargaff, E. (1950). Chemical specificity of nucleic acids and mechanism of their enzymatic
degradation. Experientia 6, 201-9.
Chung, S., and Wooley, J. (2003). Challenges faced in the integration of biological information. In
"Bioinformatics, Managing Scientific Data" (Z. Lacroix and T. Critchlow, Eds.), pp. 11-34.
Morgan Kaufmann Publishers, an imprint of Elsevier Science.
150
Claverie, J. M., Poirot, O., and Lopez, F. (1997). The difficulty of identifying genes in anonymous
vertebrate sequences. Comput Chem 21, 203-14.
Codd, E. T. (1993). Providing OLAP (On-Line Analytical Processing) to Users-Analysts : An IT
Mandate.
Cohen, B. A., Mitra, R. D., Hughes, J. D., and Church, G. M. (2000). A computational analysis of
whole-genome expression data reveals chromosomal domains of gene expression. Nat Genet
26, 183-6.
Cohen-Boulakia, S., Davidson, S., and Froidevaux, C. (2005). A User-Centric Framework for
Accessing Biological Sources and Tools. In "Data Integration in Life Sciences" (B. Ludäscher
and L. Raschid, Eds.), Vol. 3615, pp. 3-18. Springer-Verlag, San Diego, USA.
Cohen-Boulakia, S., Lair, S., Stransky, N., Graziani, S., Radvanyi, F., Barillot, E., and Froidevaux, C.
(2004). Selecting biomedical data sources according to user preferences. Bioinformatics 20,
86-93.
Combet, C., Jambon, M., Deleage, G., and Geourjon, C. (2002). Geno3D: automatic comparative
molecular modelling of protein. Bioinformatics 18, 213-4.
Cornell, M., Paton, N. W., Hedeler, C., Kirby, P., Delneri, D., Hayes, A., and Oliver, S. G. (2003).
GIMS: an integrated data storage and analysis environment for genomic and functional data.
Yeast 20, 1291-306.
Davidson, S., Crabtree, J., Brunk, B., Schug, J., Tannen, V., Overton, C., and Stoeckert, C. (2001).
K2/Kleisli and GUS: experiments in integrated access to genomic data sources. IBM Syst. J.
40, 512-531.
Davidson, S., Overton, C., and Tannen, V. (1997). BioKleisli: A Digital Library for Biomedical
Researchers. Journal on Digital Libraries 1, 36-53.
DeRisi, J., Penland, L., Brown, P. O., Bittner, M. L., Meltzer, P. S., Ray, M., Chen, Y., Su, Y. A., and
Trent, J. M. (1996). Use of a cDNA microarray to analyse gene expression patterns in human
cancer. Nat Genet 14, 457-60.
Do, H. H., Kristen, T., and Rahm, E. (2003). Comparative Evaluation of Microarray-based Gene
Expression Databases. In "Proceedings of BTW", pp. 482-501.
Do, H.-H., and Rahm, E. (2004). Flexible Integration of Molecular-Biological Annotation Data: The
GenMapper Approach. In "9th International Conference on Extending Database Technology"
(E. Bertino, S. Christodoulakis, D. Plexousakis, V. Christophides, M. Koubarakis, K. Bohm,
and E. Ferrari, Eds.), pp. 811-822, Heraklion, Crete, Greece.
Donelson, L., Tarczy-Hornoch, P., Mork, P., Dolan, C., Mitchell, J. A., Barrier, M., and Mei, H. (2004).
The BioMediator system as a data integration tool to answer diverse biologic queries. Medinfo
11, 768-72.
Draghici, S., Khatri, P., Bhavsar, P., Shah, A., Krawetz, S. A., and Tainsky, M. A. (2003). Onto-Tools,
the toolkit of the modern biologist: Onto-Express, Onto-Compare, Onto-Design and OntoTranslate. Nucleic Acids Res 31, 3775-81.
Drysdale, R. A., and Crosby, M. A. (2005). FlyBase: genes and gene models. Nucleic Acids Res 33,
390-5.
Duggan, D. J., Bittner, M., Chen, Y., Meltzer, P., and Trent, J. M. (1999). Expression profiling using
cDNA microarrays. Nat Genet 21, 10-4.
Dysvik, B., and Jonassen, I. (2001). J-Express: exploring gene expression data using Java.
Bioinformatics 17, 369-70.
Eckman, B. A., Kosky, A. S., and Laroco, L. A., Jr. (2001). Extending traditional query-based
integration approaches for functional characterization of post-genomic data. Bioinformatics 17,
587-601.
Edgar, R., Domrachev, M., and Lash, A. E. (2002). Gene Expression Omnibus: NCBI gene expression
and hybridization array data repository. Nucleic Acids Res 30, 207-10.
Eilbeck, K., Lewis, S. E., Mungall, C. J., Yandell, M., Stein, L., Durbin, R., and Ashburner, M. (2005).
The Sequence Ontology: a tool for the unification of genome annotations. Genome Biol 6,
R44.
Eisen, M. B., and Brown, P. O. (1999). DNA arrays for analysis of gene expression. Methods Enzymol
303, 179-205.
151
Eisen, M. B., Spellman, P. T., Brown, P. O., and Botstein, D. (1998). Cluster analysis and display of
genome-wide expression patterns. Proc Natl Acad Sci 95, 14863-8.
Eppig, J. T., Bult, C. J., Kadin, J. A., Richardson, J. E., Blake, J. A., Anagnostopoulos, A., Baldarelli,
R. M., Baya, M., Beal, J. S., Bello, S. M., Boddy, W. J., Bradt, D. W., Burkart, D. L., Butler, N.
E., Campbell, J., Cassell, M. A., Corbani, L. E., Cousins, S. L., Dahmen, D. J., Dene, H.,
Diehl, A. D., Drabkin, H. J., Frazer, K. S., Frost, P., Glass, L. H., Goldsmith, C. W., Grant, P.
L., Lennon-Pierce, M., Lewis, J., Lu, I., Maltais, L. J., McAndrews-Hill, M., McClellan, L., Miers,
D. B., Miller, L. A., Ni, L., Ormsby, J. E., Qi, D., Reddy, T. B., Reed, D. J., Richards-Smith, B.,
Shaw, D. R., Sinclair, R., Smith, C. L., Szauter, P., Walker, M. B., Walton, D. O., Washburn, L.
L., Witham, I. T., and Zhu, Y. (2005). The Mouse Genome Database (MGD): from genes to
mice--a community resource for mouse biology. Nucleic Acids Res 33, 471-5.
Ermolaeva, O., Rastogi, M., Pruitt, K. D., Schuler, G. D., Bittner, M. L., Chen, Y., Simon, R., Meltzer,
P., Trent, J. M., and Boguski, M. S. (1998). Data management and analysis for gene
expression arrays. Nat Genet 20, 19-23.
Etzold, T., and Argos, P. (1993). SRS--an indexing and retrieval tool for flat file data libraries. Comput
Appl Biosci 9, 49-57.
Etzold, T., Ulyanov, A., and Argos, P. (1996). SRS: information retrieval system for molecular biology
data banks. Methods Enzymol 266, 114-28.
Fellenberg, K., Hauser, N. C., Brors, B., Hoheisel, J. D., and Vingron, M. (2002). Microarray data
warehouse allowing for inclusion of experiment annotations in statistical analysis.
Bioinformatics 18, 423-33.
Fernandez, F., Florescu, D., Levy, A., and Suciu, D. (1997). A Query Language for a Web-Site
Management System. SIGMOD record 26, 4-11.
Fickett, J. W. (1996). Finding genes by computer: the state of the art. Trends Genet 12, 316-20.
Fields, S., and Song, O. (1989). A novel genetic system to detect protein-protein interactions. Nature
340, 245-6.
Fincham, J. R. (1990). Plant genetics: Mendel--now down to the molecular level. Nature 343, 208-9.
Fleischmann, R. D., Adams, M. D., White, O., Clayton, R. A., Kirkness, E. F., Kerlavage, A. R., Bult, C.
J., Tomb, J. F., Dougherty, B. A., Merrick, J. M., and et al. (1995). Whole-genome random
sequencing and assembly of Haemophilus influenzae Rd. Science 269, 496-512.
Franco, J. (1997). "Le Data Warehouse Le Data Mining." Eyrolles, Paris.
Friedman, M., Levy, A., and Millstein, T. (1999). Navigational Plans For Data Integration. In "National
Conference on Artificial Intelligence", pp. 67-73, Orlando, Florida, USA.
Galperin, M. Y. (2005). The Molecular Biology Database Collection: 2005 update. Nucl. Acids Res. 33,
5-24.
Garrod, A. E. (1923). "Inborn errors of metabolism." London : Oxford University Press.
Gasteiger, E., Gattiker, A., Hoogland, C., Ivanyi, I., Appel, R. D., and Bairoch, A. (2003). ExPASy: The
proteomics server for in-depth protein knowledge and analysis. Nucleic Acids Res 31, 3784-8.
Ge, H., Walhout, A. J., and Vidal, M. (2003). Integrating 'omic' information: a bridge between genomics
and systems biology. Trends Genet 19, 551-60.
Gentleman, R. C., Carey, V. J., Bates, D. M., Bolstad, B., Dettling, M., Dudoit, S., Ellis, B., Gautier, L.,
Ge, Y., Gentry, J., Hornik, K., Hothorn, T., Huber, W., Iacus, S., Irizarry, R., Leisch, F., Li, C.,
Maechler, M., Rossini, A. J., Sawitzki, G., Smith, C., Smyth, G., Tierney, L., Yang, J. Y., and
Zhang, J. (2004). Bioconductor: open software development for computational biology and
bioinformatics. Genome Biol 5, R80.
George, D. G., Barker, W. C., and Hunt, L. T. (1986). The protein identification resource (PIR). Nucleic
Acids Res 14, 11-5.
Gilbert, D. R., Schroeder, M., and van Helden, J. (2000). Interactive visualization and exploration of
relationships between biological objects. Trends Biotechnol 18, 487-94.
Goto, S., Okuno, Y., Hattori, M., Nishioka, T., and Kanehisa, M. (2002). LIGAND: database of
chemical compounds and reactions in biological pathways. Nucleic Acids Res 30, 402-4.
Gress, T. M., Hoheisel, J. D., Lennon, G. G., Zehetner, G., and Lehrach, H. (1992). Hybridization
fingerprinting of high-density cDNA-library arrays with cDNA pools derived from whole tissues.
Mamm Genome 3, 609-19.
152
Gruber, T. (1993). A translation approach to portable ontology specifications. Knowledge Acquisition
5, 199-220.
Gygi, S. P., Rochon, Y., Franza, B. R., and Aebersold, R. (1999). Correlation between protein and
mRNA abundance in yeast. Mol Cell Biol 19, 1720-30.
Hamm, G. H., and Cameron, G. N. (1986). The EMBL data library. Nucleic Acids Res 14, 5-9.
Hamosh, A., Scott, A. F., Amberger, J., Valle, D., and McKusick, V. A. (2000). Online Mendelian
Inheritance in Man (OMIM). Hum Mutat 15, 57-61.
Hamosh, A., Scott, A. F., Amberger, J. S., Bocchini, C. A., and McKusick, V. A. (2005). Online
Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic
disorders. Nucleic Acids Res 33, D514-7.
Hart, K., Wong, L., Overton, C., and Buneman, P. (1994). Using a Query Language to Integrate
Biological Data. In "1st meeting on the Interconnection of Molecular Biology Databases",
Stanford, California, USA.
Hernandez, T., and Kambhampati, S. (2004). Integration of biological sources: current systems and
challenges ahead. SIGMOD record 33, 51-60.
Hershey, A. D., and Chase, M. (1952). Independant functions of viral proteins and nucleic acid in
growth of bacteriophage. J. Gen. Physiol. 36, 39-56.
Hogenesch, J. B., Ching, K. A., Batalov, S., Su, A. I., Walker, J. R., Zhou, Y., Kay, S. A., Schultz, P.
G., and Cooke, M. P. (2001). A comparison of the Celera and Ensembl predicted gene sets
reveals little overlap in novel genes. Cell 106, 413-5.
Holloway, A. J., van Laar, R. K., Tothill, R. W., and Bowtell, D. D. (2002). Options available--from start
to finish--for obtaining data from DNA microarrays II. Nat Genet 32 Suppl, 481-9.
Hu, Y., Hines, L. M., Weng, H., Zuo, D., Rivera, M., Richardson, A., and LaBaer, J. (2003). Analysis of
genomic and proteomic data using advanced literature mining. J Proteome Res 2, 405-12.
Hucka, M., Finney, A., Sauro, H. M., Bolouri, H., Doyle, J. C., Kitano, H., Arkin, A. P., Bornstein, B. J.,
Bray, D., Cornish-Bowden, A., Cuellar, A. A., Dronov, S., Gilles, E. D., Ginkel, M., Gor, V.,
Goryanin, II, Hedley, W. J., Hodgman, T. C., Hofmeyr, J. H., Hunter, P. J., Juty, N. S.,
Kasberger, J. L., Kremling, A., Kummer, U., Le Novere, N., Loew, L. M., Lucio, D., Mendes,
P., Minch, E., Mjolsness, E. D., Nakayama, Y., Nelson, M. R., Nielsen, P. F., Sakurada, T.,
Schaff, J. C., Shapiro, B. E., Shimizu, T. S., Spence, H. D., Stelling, J., Takahashi, K., Tomita,
M., Wagner, J., and Wang, J. (2003). The systems biology markup language (SBML): a
medium for representation and exchange of biochemical network models. Bioinformatics 19,
524-31.
Ihaka, R., and Gentleman, R. (1996). R: A LAnguage for Data Analysis and Graphics. Journal of
Computational and Graphical Statistics 5, 299-314.
Ikeo, K., Ishi-i, J., Tamura, T., Gojobori, T., and Tateno, Y. (2003). CIBEX: center for information
biology gene expression database. C R Biol 326, 1079-1082.
Inmon, W. H. (2002). "Buildind the Data Warehouse." John Wiley & Sons, Inc., New York.
International Human Genome Sequencing Consortium. (2001). Initial sequencing and analysis of the
human genome. Nature 409, 860-921.
International Human Genome Sequencing Consortium. (2004). Finishing the euchromatic sequence of
the human genome. Nature 431, 931-45.
Jackson, I. J. (2001). Mouse genomics: Making sense of the sequence. Current Biology 11, 311-314.
Kanehisa, M., and Goto, S. (2000). KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids
Res 28, 27-30.
Kanz, C., Aldebert, P., Althorpe, N., Baker, W., Baldwin, A., Bates, K., Browne, P., van den Broek, A.,
Castro, M., Cochrane, G., Duggan, K., Eberhardt, R., Faruque, N., Gamble, J., Diez, F. G.,
Harte, N., Kulikova, T., Lin, Q., Lombard, V., Lopez, R., Mancuso, R., McHale, M., Nardone,
F., Silventoinen, V., Sobhany, S., Stoehr, P., Tuli, M. A., Tzouvara, K., Vaughan, R., Wu, D.,
Zhu, W., and Apweiler, R. (2005). The EMBL Nucleotide Sequence Database. Nucleic Acids
Res 33, 29-33.
Kaplan, J. (2002). Genomics and medicine: hopes and challenges. Gene Ther 9, 658-61.
Karp, P. D. (1995). A Strategy for Database Interoperation. Journal of Computational Biology 2, 573586.
153
Kasprzyk, A., Keefe, D., Smedley, D., London, D., Spooner, W., Melsopp, C., Hammond, M., RoccaSerra, P., Cox, T., and Birney, E. (2004). EnsMart: a generic system for fast and flexible
access to biological data. Genome Res 14, 160-9.
Keseler, I. M., Collado-Vides, J., Gama-Castro, S., Ingraham, J., Paley, S., Paulsen, I. T., Peralta-Gil,
M., and Karp, P. D. (2005). EcoCyc: a comprehensive database resource for Escherichia coli.
Nucleic Acids Res 33, 334-7.
Kirsten, T., Do, H. H., and Rahm, E. (2004). A Data Warehouse for Multidimensional Gene Expression
Analysis. Working Paper, University of Leipzig.
Kohonen, T. (1998). The self-organizing map. Neurocomputing 21, 1-6.
Lacroix, Z., and Edupuganti, V. (2004). How biological source capabilities may affect the data
collection process. In "Computational Systems Bioinformatics", pp. 596-597. IEEE Computer
Society, Stanford, USA.
Lacroix, Z., Murthy, H., Naumann, F., and Raschid, L. (2004a). Links and Paths through Life Sciences
Data Sources. In "Data Integration in Life Sciences" (E. Rahm, Ed.), pp. 203-211. Lecture
Notes in Computer Science, Springer-Verlag, Leipzig, Germany.
Lacroix, Z., Parekh, K., Vidal, M., Cardenas, M., and Marquez, N. (2005). BioNavigation: Selecting
Optimum Paths Through Biological Resources to Evaluate Ontological Navigational Queries.
In "Data Integration in Life Sciences" (B. Ludäscher and L. Raschid, Eds.), pp. 275-283.
Lecture Notes in Computer Science, Springer-Verlag, San Diego, California, USA.
Lacroix, Z., Raschid, L., and Vidal, M. (2004b). Efficient Techniques to Explore and Rank Paths in Life
Science Data Sources. In "Data Integration in Life Sciences" (E. Rahm, Ed.), pp. 187-202.
Lecture Notes in Computer Science, Springer-Verlag, Leipzig, Germany.
Le Meur, N. (2005). De l'acquisition des données de puces à ADN vers leur interprétation : importance
du traitement des données primaires. Thèse de doctorat devant l'Université de Nantes.
Le Meur, N., Lamirault, G., Bihouee, A., Steenman, M., Bedrine-Ferran, H., Teusan, R., Ramstein, G.,
and Leger, J. J. (2004). A dynamic, web-accessible resource to process raw microarray scan
data into consolidated gene expression values: importance of replication. Nucleic Acids Res
32, 5349-58.
Lercher, M. J., Blumenthal, T., and Hurst, L. D. (2003). Coexpression of neighboring genes in
Caenorhabditis elegans is mostly due to operons and duplicate genes. Genome Res 13, 23843.
Lercher, M. J., Urrutia, A. O., and Hurst, L. D. (2002). Clustering of housekeeping genes provides a
unified model of gene order in the human genome. Nat Genet 31, 180-3.
Leung, Y. F., and Cavalieri, D. (2003). Fundamentals of cDNA microarray data analysis. Trends Genet
19, 649-59.
Levy, A. (1999). Combining Artificial Intelligence and Databases for Data Integration. Lecture Notes in
Computer Science 1600, 249-268.
Lewis, S., Ashburner, M., and Reese, M. G. (2000). Annotating eukaryote genomes. Curr Opin Struct
Biol 10, 349-54.
Lindberg, C. (1990). The Unified Medical Language System (UMLS) of the National Library of
Medicine. J Am Med Rec Assoc 61, 40-2.
Lockhart, D. J., Dong, H., Byrne, M. C., Follettie, M. T., Gallo, M. V., Chee, M. S., Mittmann, M., Wang,
C., Kobayashi, M., Horton, H., and Brown, E. L. (1996). Expression monitoring by
hybridization to high-density oligonucleotide arrays. Nat Biotechnol 14, 1675-80.
Lockhart, D. J., and Winzeler, E. A. (2000). Genomics, gene expression and DNA arrays. Nature 405,
827-36.
Mahoui, M., Kulkarni, H., Li, N., Ben-Miled, Z., and Börner, K. (2005). Semantic Correspondence in
Federated Life Science Data Integration Systems. In "Data Integration in Life Sciences" (B.
Ludäscher and L. Raschid, Eds.), pp. 137-144. Springer-Verlag, San Diego, California, USA.
Mathe, C., Sagot, M. F., Schiex, T., and Rouze, P. (2002). Current methods of gene prediction, their
strengths and weaknesses. Nucleic Acids Res 30, 4103-17.
Maxam, A. M., and Gilbert, W. (1977). A new method for sequencing DNA. Proc Natl Acad Sci 74,
560-4.
McCray, A. T., and Nelson, S. J. (1995). The representation of meaning in the UMLS. Methods Inf
Med 34, 193-201.
154
McKusick, V. A. (1989). HUGO news. The Human Genome Organisation: history, purposes, and
membership. Genomics 5, 385-7.
Mewes, H. W., Albermann, K., Heumann, K., Liebl, S., and Pfeiffer, F. (1997). MIPS: a database for
protein sequences, homology data and yeast genome information. Nucleic Acids Res 25, 2830.
Mi, H., Lazareva-Ulitsky, B., Loo, R., Kejariwal, A., Vandergriff, J., Rabkin, S., Guo, N., Muruganujan,
A., Doremieux, O., Campbell, M. J., Kitano, H., and Thomas, P. D. (2005). The PANTHER
database of protein families, subfamilies, functions and pathways. Nucleic Acids Res 33,
D284-8.
Mignone, F., Gissi, C., Liuni, S., and Pesole, G. (2002). Untranslated regions of mRNAs. Genome
Biology 3, reviews0004.1 - reviews0004.10.
Miller, R. (1998). Using Schematically Heterogeneous Structures. In "ACM SIGMOD International
Conference on Management of Data" (L. Haas and A. Tiwary, Eds.), pp. 189-200. ACM Press,
Seattle, Washington, USA.
Mootha, V. K., Lepage, P., Miller, K., Bunkenborg, J., Reich, M., Hjerrild, M., Delmonte, T., Villeneuve,
A., Sladek, R., Xu, F., Mitchell, G. A., Morin, C., Mann, M., Hudson, T. J., Robinson, B., Rioux,
J. D., and Lander, E. S. (2003). Identification of a gene causing human cytochrome c oxidase
deficiency by integrative genomics. Proc Natl Acad Sci 100, 605-10.
Morgan, T. H., Sturtevant, A. H., Muller, H. J., and Bridges, C. (1915). "The mechanism of mendelian
heredity." New-York.
Mork, P., Halevy, A., and Tarczy-Hornoch, P. (2001). A model for data integration systems of
biomedical data applied to online genetic databases. Proc AMIA Symp, 473-7.
Mork, P., Shaker, R., Halevy, A., and Tarczy-Hornoch, P. (2002). PQL: a declarative query language
over dynamic biological schemata. Proc AMIA Symp, 533-7.
Mork, P., Shaker, R., and Tarczy-Hornoch, P. (2005). The Multiple Roles of Ontologies in the
BioMediator Data Integration System. In "Data Integration in the Life Sciences" (B. Ludäscher
and L. Raschid, Eds.). Springer-Verlag, San Diego, California, USA.
Muller, H. J. (1927). Artificial transmutation of the gene. Science 66.
Mullis, K., Faloona, F., Scharf, S., Saiki, R., Horn, G., and Erlich, H. (1986). Specific enzymatic
amplification of DNA in vitro: the polymerase chain reaction. Cold Spring Harb Symp Quant
Biol 51 Pt 1, 263-73.
Nguyen, C., Rocha, D., Granjeaud, S., Baldit, M., Bernard, K., Naquet, P., and Jordan, B. R. (1995).
Differential gene expression in the murine thymus assayed by quantitative hybridization of
arrayed cDNA clones. Genomics 29, 207-16.
Pandey, A., and Mann, M. (2000). Proteomics to study genes and genomes. Nature 405, 837-46.
Parkinson, H., Sarkans, U., Shojatalab, M., Abeygunawardena, N., Contrino, S., Coulson, R., Farne,
A., Lara, G. G., Holloway, E., Kapushesky, M., Lilja, P., Mukherjee, G., Oezcimen, A., Rayner,
T., Rocca-Serra, P., Sharma, A., Sansone, S., and Brazma, A. (2005a). ArrayExpress--a
public repository for microarray gene expression data at the EBI. Nucleic Acids Res 33, 553-5.
Parkinson, H., Sarkans, U., Shojatalab, M., Abeygunawardena, N., Contrino, S., Coulson, R., Farne,
A., Lara, G. G., Holloway, E., Kapushesky, M., Lilja, P., Mukherjee, G., Oezcimen, A., Rayner,
T., Rocca-Serra, P., Sharma, A., Sansone, S., and Brazma, A. (2005b). ArrayExpress--a
public repository for microarray gene expression data at the EBI. Nucleic Acids Res 33, D5535.
Pasquier, C., Girardot, F., Jevardat de Fombelle, K., and Christen, R. (2004). THEA: ontology-driven
analysis of microarray data. Bioinformatics 20, 2636-43.
Paton, N. W., Khan, S. A., Hayes, A., Moussouni, F., Brass, A., Eilbeck, K., Goble, C. A., Hubbard, S.
J., and Oliver, S. G. (2000). Conceptual modelling of genomic information. Bioinformatics 16,
548-57.
Pearl, F. M., Bennett, C. F., Bray, J. E., Harrison, A. P., Martin, N., Shepherd, A., Sillitoe, I., Thornton,
J., and Orengo, C. A. (2003). The CATH database: an extended protein family resource for
structural and functional genomics. Nucleic Acids Res 31, 452-5.
Pearson, P. L., Matheson, N. W., Flescher, D. C., and Robbins, R. J. (1992). The GDB Human
Genome Data Base Anno 1992. Nucleic Acids Res 20 Suppl, 2201-6.
155
Perez-Iratxeta, C., Bork, P., and Andrade, M. A. (2002). Association of genes to genetically inherited
diseases using data mining. Nat Genet 31, 316-9.
Piatetsky-Shapiro, G., and Tamayo, P. (2003). Microarray Data Mining : Facing the Challenges. In
"ACM SIGKDD, Explorations" (S. Sarawagi, Ed.), Vol. 5, pp. 1-5.
Pruitt, K. D., Tatusova, T., and Maglott, D. R. (2005). NCBI Reference Sequence (RefSeq): a curated
non-redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res
33, 501-4.
Rahm, E., and Bernstein, P. (2001). A survey of approaches to automatic schema matching. Very
Large DataBases Journal 10, 334-350.
Rebhan, M., Chalifa-Caspi, V., Prilusky, J., and Lancet, D. (1997). GeneCards: integrating information
about genes, proteins and diseases. Trends Genet 13, 163.
Rector, A. L., Bechhofer, S., Goble, C. A., Horrocks, I., Nowlan, W. A., and Solomon, W. D. (1997).
The GRAIL concept modelling language for medical terminology. Artif Intell Med 9, 139-71.
Reedy, B. V., and Bourne, P. E. (2003). Protein structure evolution and the SCOP database. Methods
Biochem Anal 44, 239-48.
Saal, L. H., Troein, C., Vallon-Christersson, J., Gruvberger, S., Borg, A., and Peterson, C. (2002).
BioArray Software Environment (BASE): a platform for comprehensive management and
analysis of microarray data. Genome Biol 3, 1-6.
Sanger, F., Nicklen, S., and Coulson, A. R. (1977). DNA sequencing with chain-terminating inhibitors.
Proc Natl Acad Sci U S A 74, 5463-7.
Sarkans, U., Parkinson, H., Lara, G. G., Oezcimen, A., Sharma, A., Abeygunawardena, N., Contrino,
S., Holloway, E., Rocca-Serra, P., Mukherjee, G., Shojatalab, M., Kapushesky, M., Sansone,
S. A., Farne, A., Rayner, T., and Brazma, A. (2005). The ArrayExpress gene expression
database: a software engineering and implementation perspective. Bioinformatics 21, 1495501.
Schena, M. (1996). Genome analysis with gene expression microarrays. Bioessays 18, 427-31.
Schena, M., Shalon, D., Davis, R. W., and Brown, P. O. (1995). Quantitative monitoring of gene
expression patterns with a complementary DNA microarray. Science 270, 467-70.
Schmutz, J., Wheeler, J., Grimwood, J., Dickson, M., Yang, J., Caoile, C., Bajorek, E., Black, S.,
Chan, Y. M., Denys, M., Escobar, J., Flowers, D., Fotopulos, D., Garcia, C., Gomez, M.,
Gonzales, E., Haydu, L., Lopez, F., Ramirez, L., Retterer, J., Rodriguez, A., Rogers, S.,
Salazar, A., Tsai, M., and Myers, R. M. (2004). Quality assessment of the human genome
sequence. Nature 429, 365-8.
Schwede, T., Kopp, J., Guex, N., and Peitsch, M. C. (2003). SWISS-MODEL: An automated protein
homology-modeling server. Nucleic Acids Res 31, 3381-5.
Shah, S. P., Huang, Y., Xu, T., Yuen, M. M., Ling, J., and Ouellette, B. F. (2005). Atlas - a data
warehouse for integrative bioinformatics. BMC Bioinformatics 6, 34.
Shaker, R., Mork, P., Brockenbrough, J., Donelson, L., and Tarczy-Hornoch, P. (2004). The
BioMediator System as a Tool for Integrating Biologic Databases on the Web. In "Very Large
Data Bases" (M. Nascimento, M. Tamer, D. Kossmann, R. Miller, J. Blakeley, and K. Bernhard
Schiefer, Eds.). Kaufman, Morgan, Toronto, Canada.
Sherlock, G., Hernandez-Boussard, T., Kasarskis, A., Binkley, G., Matese, J. C., Dwight, S. S.,
Kaloper, M., Weng, S., Jin, H., Ball, C. A., Eisen, M. B., Spellman, P. T., Brown, P. O.,
Botstein, D., and Cherry, J. M. (2001). The Stanford Microarray Database. Nucleic Acids Res
29, 152-5.
Shklar, M., Strichman-Almashanu, L., Shmueli, O., Shmoish, M., Safran, M., and Lancet, D. (2005).
GeneTide--Terra Incognita Discovery Endeavor: a new transcriptome focused member of the
GeneCards/GeneNote suite of databases. Nucleic Acids Res 33, 556-61.
Shows, T. B., Alper, C. A., Bootsma, D., Dorf, M., Douglas, T., Huisman, T., Kit, S., Klinger, H. P.,
Kozak, C., Lalley, P. A., Lindsley, D., McAlpine, P. J., McDougall, J. K., Meera Khan, P.,
Meisler, M., Morton, N. E., Opitz, J. M., Partridge, C. W., Payne, R., Roderick, T. H.,
Rubinstein, P., Ruddle, F. H., Shaw, M., Spranger, J. W., and Weiss, K. (1979). International
system for human gene nomenclature (1979) ISGN (1979). Cytogenet Cell Genet 25, 96-116.
Slonim, D. K. (2002). From patterns to pathways: gene expression data analysis comes of age. Nat
Genet 32 Suppl, 502-8.
156
Southern, E. M. (1975). Detection of specific sequences among DNA fragments separated by gel
electrophoresis. J Mol Biol 98, 503-17.
Spellman, P. T., Miller, M., Stewart, J., Troup, C., Sarkans, U., Chervitz, S., Bernhart, D., Sherlock, G.,
Ball, C., Lepage, M., Swiatek, M., Marks, W. L., Goncalves, J., Markel, S., Iordan, D.,
Shojatalab, M., Pizarro, A., White, J., Hubley, R., Deutsch, E., Senger, M., Aronow, B. J.,
Robinson, A., Bassett, D., Stoeckert, C. J., Jr., and Brazma, A. (2002). Design and
implementation of microarray gene expression markup language (MAGE-ML). Genome Biol 3,
1-9.
Spellman, P. T., and Rubin, G. M. (2002). Evidence for large domains of similarly expressed genes in
the Drosophila genome. J Biol 1, 5.
Stein, L. (2002). Creating a bioinformatics nation. Nature 417, 119-20.
Stevens, R., Goble, C., Horrocks, I., and Bechhofer, S. (2002). Building a bioinformatics ontology
using OIL. IEEE Trans Inf Technol Biomed 6, 135-41.
Stevens, R. D., Robinson, A. J., and Goble, C. A. (2003). myGrid: personalised bioinformatics on the
information grid. Bioinformatics 19 Suppl 1, i302-4.
Stoeckert, C. J., Jr., Causton, H. C., and Ball, C. A. (2002). Microarray databases: standards and
ontologies. Nat Genet 32 Suppl, 469-73.
Stuart, J. M., Segal, E., Koller, D., and Kim, S. K. (2003). A gene-coexpression network for global
discovery of conserved genetic modules. Science 302, 249-55.
Sturn, A., Quackenbush, J., and Trajanoski, Z. (2002). Genesis: cluster analysis of microarray data.
Bioinformatics 18, 207-8.
Sturtevant, A. H. (1913). The linear arrangement of six sex-linked factors in drosophila, as shown by
their mode of association. Journal of Experimental Zoology 14, 43-59.
Sujansky, W. (2001). Heterogeneous Database Integration in Biomedicine. Journal of Biomedical
Informatics 34, 285-298.
Tanabe, L., Scherf, U., Smith, L. H., Lee, J. K., Hunter, L., and Weinstein, J. N. (1999). MedMiner: an
Internet text-mining tool for biomedical information, with application to gene expression
profiling. Biotechniques 27, 1210-4, 1216-7.
Tateno, Y., Saitou, N., Okubo, K., Sugawara, H., and Gojobori, T. (2005). DDBJ in collaboration with
mass-sequencing teams on annotation. Nucleic Acids Res 33, 25-8.
Tetko, I. V., Brauner, B., Dunger-Kaltenbach, I., Frishman, G., Montrone, C., Fobo, G., Ruepp, A.,
Antonov, A. V., Surmeli, D., and Mewes, H. W. (2005). MIPS bacterial genomes functional
annotation benchmark dataset. Bioinformatics 21, 2520-1.
The Arabidopsis genome initiative. (2000). Analysis of the genome sequence of the flowering plant
Arabidopsis thaliana. Nature 408, 796-815.
The C.elegans Sequencing Consortium. (1998). Genome sequence of the nematode C. elegans: a
platform for investigating biology. Science 282, 2012-8.
The Gene Ontology Consortium. (2000). Gene ontology: tool for the unification of biology. Nat Genet
25, 25-9.
The Gene Ontology Consortium. (2001). Creating the gene ontology resource: design and
implementation. Genome Res 11, 1425-33.
The Gene Ontology Consortium. (2004). The Gene Ontology (GO) database and informatics resource.
Nucleic Acids Res 32, 258-61.
The yeast genome directory. (1997). The yeast genome directory. Nature 387, 5.
Trissl, S., Rother, K., Mueller, H., Steinke, T., Koch, I., Preissner, R., Froemmel, C., and Leser, U.
(2005). Columba: an integrated database of proteins, structures, and annotations. BMC
Bioinformatics 6, 81.
Tusher, V. G., Tibshirani, R., and Chu, G. (2001). Significance analysis of microarrays applied to the
ionizing radiation response. Proc Natl Acad Sci 98, 5116-21.
Velculescu, V. E., Zhang, L., Vogelstein, B., and Kinzler, K. W. (1995). Serial analysis of gene
expression. Science 270, 484-7.
Venter, J. C., Adams, M. D., Myers, E. W., Li, P. W., and al. (2001). The sequence of the human
genome. Science 291, 1304-51.
157
Wain, H. M., Lush, M. J., Ducluzeau, F., Khodiyar, V. K., and Povey, S. (2004). Genew: the Human
Gene Nomenclature Database, 2004 updates. Nucleic Acids Res 32, 255-7.
Watson, J. D., and Crick, F. H. (1953). Molecular structure of nucleic acids; a structure for deoxyribose
nucleic acid. Nature 171, 737-8.
Wheeler, D. L., Barrett, T., Benson, D. A., Bryant, S. H., Canese, K., Church, D. M., DiCuccio, M.,
Edgar, R., Federhen, S., Helmberg, W., Kenton, D. L., Khovayko, O., Lipman, D. J., Madden,
T. L., Maglott, D. R., Ostell, J., Pontius, J. U., Pruitt, K. D., Schuler, G. D., Schriml, L. M.,
Sequeira, E., Sherry, S. T., Sirotkin, K., Starchenko, G., Suzek, T. O., Tatusov, R., Tatusova,
T. A., Wagner, L., and Yaschenko, E. (2005). Database resources of the National Center for
Biotechnology Information. Nucleic Acids Res 33, 39-45.
Wiederhold, G. (1992). Mediators in the Architecture of Future Information Systems. IEEE Computer
25, 38-49.
Williams, E. J., and Bowles, D. J. (2004). Coexpression of neighboring genes in the genome of
Arabidopsis thaliana. Genome Res 14, 1060-7.
Wroe, C. J., Stevens, R., Goble, C. A., and Ashburner, M. (2003). A methodology to migrate the gene
ontology to a description logic environment using DAML+OIL. Pac Symp Biocomput, 624-35.
Yang, Y. H., Buckley, M. J., Dudoit, S., and Speed, T. P. (2000). Comparison of methods for image
analysis on cDNA microarray analysis. Report of University of California, Department of
Statistics, Berkeley.
Zdobnov, E. M., Lopez, R., Apweiler, R., and Etzold, T. (2002). The EBI SRS server--recent
developments. Bioinformatics 18, 368-73.
Zeeberg, B. R., Qin, H., Narasimhan, S., Sunshine, M., Cao, H., Kane, D. W., Reimers, M., Stephens,
R., Bryant, D., Burt, S. K., Elnekave, E., Hari, D. M., Wynn, T. A., Cunningham-Rundles, C.,
Stewart, D. M., Nelson, D., and Weinstein, J. N. (2005). High-Throughput GoMiner, an
'industrial-strength' integrative Gene Ontology tool for interpretation of multiple-microarray
experiments, with application to studies of Common Variable Immune Deficiency (CVID). BMC
Bioinformatics 6, 168.
158
RÉFÉRENCES INTERNET
RÉFÉRENCES INTERNET
INSTITUTIONS / CONSORTIUMS / CENTRES DE RESSOURCES / SOCIÉTÉS
Définition
Department of Energy Office of Science
URL
http://www.doegenomes.org/
Pages
page 2
Human Genome Organization (HUGO)
http://www.gene.ucl.ac.uk/hugo/
page 3
Human Genome Project (HGP)
http://www.ornl.gov/sci/techresources/Human_Genome/home.sht page 3
Department Of Energy (DOE)
http://www.energy.gov/engine/content.do
page 3
National Institutes of Health (NIH)
http://www.nih.gov/
page 3
The Institute for Genome Research (TIGR)
http://www.tigr.org/
page 3
National Center for Biotechnology Information (NCBI)
http://www.ncbi.nlm.nih.gov/
page 4
European Molecular Biology Laboratory (EMBL)
http://www.embl-heidelberg.de/
page 8
National Institute of Health (NIH)
http://www.nih.gov/
page 8
National Biomedical Research Foundation (NBRF)
http://pir.georgetown.edu/nbrf/
page 8
Swiss Institute of bioinformatics (SIB)
http://www.isb-sib.ch/
page 8
European Bioinformatics Institute (EBI)
http://www.ebi.ac.uk/
page 8
World Wide Web Consortium (W3C)
http://www.w3.org/
page 16
National Library of Medicine (NLM)
http://www.nlm.nih.gov/
page 18
HUGO Gene Nomenclature Committee (HGNC)
http://www.gene.ucl.ac.uk/nomenclature/
page 22
LION Bioscience AG
http://www.lionbioscience.com/
page 39
Affymetrix
http://www.affymetrix.com/index.affx
page 64
Axon, Inc.
http://www.axon.com/
page 65
BioDiscovery, Inc.
http://www.biodiscovery.com/
page 65
PerkinElmer, Inc.
http://www.perkinelmer.com/
page 65
Rosetta Biosoftware
http://www.rosettabio.com/default.htm
page 67
Microarray Gene Expression Data (MGED)
http://www.mged.org/
page 67
MGED Society Ontology Working Group
http://mged.sourceforge.net/ontologies/index.php
page 68
Molmine
http://www.molmine.com/
page 69
PubGene Inc.
http://www.pubgene.com/
page 70
Versant
http://www.versant.com/
page 73
ONTOLOGIES / TERMINOLOGIES
Définition
Unified Medical Language System (UMLS)
URL
http://www.nlm.nih.gov/research/umls/
Pages
page 18
Gene Ontology (GO)
http://www.geneontology.org/
page 19
Gene Ontology Molecular Function
http://www.geneontology.org/GO.doc.shtml#molecular_function
page 19
Gene Ontology Biological Process
http://www.geneontology.org/GO.doc.shtml#biological_process
page 19
Gene Ontology Cellular Component
http://www.geneontology.org/GO.doc.shtml#cellular_component page 19
Gene Ontology Annotation (GOA)
http://www.ebi.ac.uk/GOA/
page 21
Le Metathesaurus de l'UMLS
http://www.nlm.nih.gov/pubs/factsheets/umlsmeta.html
page 22
Medical Subject Headings (MeSH)
http://www.nlm.nih.gov/mesh/meshhome.html
page 22
Systematized Nomenclature of Medicine (SNOMED)
http://www.snomed.org/
page 22
Le lexique médical Specialist de l'UMLS
http://www.nlm.nih.gov/pubs/factsheets/umlslex.html
page 23
Le réseau sémantique de l'UMLS
http://www.nlm.nih.gov/pubs/factsheets/umlssemn.html
page 23
Open Biomedical Ontologies (OBO)
http://obo.sourceforge.net/
page 24
159
RÉFÉRENCES INTERNET
BANQUES DE DONNÉES ET PORTAILS WEB
Définition
Protein structure DataBank (PDB)
URL
http://www.rcsb.org/pdb
Pages
page 7
GenBank
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
page 8
DNA Data Bank (DDBJ)
http://www.ddbj.nig.ac.jp/
Protein Information Resource-International Protein Sequence http://pir.georgetown.edu/pirwww/search/textpsd.shtml
page 8
page 8
Swiss-Prot
http://www.expasy.org/sprot/
page 8
Universal Protein Resource (UniProt)
http://www.expasy.uniprot.org/
page 8
ArrayExpress
http://www.ebi.ac.uk/arrayexpress/index.html
page 12
Mouse Genome Database (MGD)
http://www.informatics.jax.org/
page 15
Gene Expression Omnibus (GEO)
http://www.ncbi.nlm.nih.gov/geo/
page 17
PANTHER Pathway
https://panther.appliedbiosystems.com/pathway/
page 18
FlyBase
http://flybase.bio.indiana.edu/
page 19
Saccharomyces Genome Database (SGD)
http://www.yeastgenome.org/
page 19
Online Mendelian Inheritance in Man (OMIM)
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
page 22
Genew
http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl
page 26
Portail Entrez
http://www.ncbi.nlm.nih.gov/Entrez
page 32
Expert Protein Analysis System ExPASy
http://www.expasy.org/
page 32
GeneCards
http://www.genecards.org/
page 32
Kyoto Encyclopedia of Genes and Genomes (KEGG)
http://www.genome.ad.jp/kegg/
page 35
Encyclopedia of Escherichia coli (EcoCyc)
http://ecocyc.org/
page 35
Expressed Sequence Tags database (dbEST)
http://www.ncbi.nlm.nih.gov/dbEST/
page 35
human Genome DataBase (GDB)
http://gdbwww.gdb.org/
page 35
Sequence Retrieval System (SRS)
http://srs.ebi.ac.uk/
page 35
ENZYME
http://www.expasy.org/enzyme/
page 58
SCOP
http://scop.mrc-lmb.cam.ac.uk/scop/
page 58
CATH
http://www.biochem.ucl.ac.uk/bsm/cath/cath.html
page 58
NCBI Taxonomy
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Taxonomy
page 58
Center for Information Biology gene EXpression database
http://cibex.nig.ac.jp/index.jsp
page 68
MIPS
http://mips.gsf.de/
page 72
LIGAND
http://www.genome.ad.jp/ligand/
page 73
OUTILS
Définition
Swiss-Model
URL
http://swissmodel.expasy.org//SWISS-MODEL.html
Pages
page 7
Geno3D
http://geno3d-pbil.ibcp.fr/
page 7
MicroArray Data Suites of Computed Analysis (MADSCAN)
http://cardioserve.nantes.inserm.fr/mad/madscan/
page 66
ArrayDB
http://genome.nhgri.nih.gov/arraydb/
page 67
BioArray Software Environment (BASE)
http://base.thep.lu.se/
page 67
Stanford Microarray Database (SMD)
http://genome-www5.stanford.edu/
page 67
Genesis
http://genome.tugraz.at/Software/
page 69
BioConductor
http://www.bioconductor.org/
page 69
Environnement R
http://www.r-project.org/
page 69
GOMiner
http://discover.nci.nih.gov/gominer/
page 70
OntoExpress
http://vortex.cs.wayne.edu/projects.htm
page 70
FatiGO
http://www.fatigo.org/
page 70
PubGene
http://www.pubgene.org/
page 70
160
RÉFÉRENCES INTERNET
LANGAGES
Définition
URL
MicroArray and Gene Expression-Markup Language (MAGE- http://www.mged.org/Workgroups/MAGE/mage-ml.html
Pages
page 17
Systems Biology Markup Language (SBML)
http://sbml.org/index.psp
page 17
Bioinformatic Sequence Markup Language (BSML)
Web Ontology Language (OWL)
http://www.bsml.org/
http://www.w3.org/TR/owl-features/
page 24
page 17
ENTREPÔTS DE DONNEES
Définition
Entrepôt de données GUS
URL
http://www.allgenes.org/
Entrepôt de données Atlas
http://bioinformatics.ubc.ca/atlas/
page 57
L’entrepôt de données Columba
http://www.columba-db.de/
page 59
L’entrepôt de données EnsMart
http://www.ensembl.org/Multi/martview
page 59
Genome Information Management System (GIMS)
http://www.cs.man.ac.uk/img/gims/index.html
page 72
Multi-Conditional Hybridization Intensity Processing System
http://www.dkfz-heidelberg.de/mchips/
page 73
GenMapper
http://sun1.izbi.uni-leipzig.de:8080/GenMapper/
page 73
GeWare
https://ducati.izbi.uni-leipzig.de/Geware
page 73
161
Pages
page 57
LISTE DE PUBLICATIONS
PERSONNELLES
LISTE DES PUBLICATIONS PERSONNELLES
PUBLICATIONS
Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Détivaud, L., Zindy, P.,
Leroyer, P., Guisle, I., Duval, H., Gripon, P., Théret, N., Boudjema, K., Guguen-Guillouzo, C.,
Brissot, P., Léger, J. and Loréal, O. (2005) Hepatocyte iron loading capacity is associated to
differentiation and repression of motility in the HepaRG cell line. Genomics, In press.
Guérin, E., Marquet, G., Burgun, A., Loréal, O., Berti-Equille, L., Leser, U. and Moussouni, F. (2005)
Integrating and warehousing liver gene expression data and related biomedical resources in
GEDAW. Lecture Notes in Bioinformatics, 3615, 158-174.
Marquet, G., Burgun, A., Moussouni, F., Guérin, E., Le Duff, F. and Loréal, O. (2003) BioMeKE : an
ontology-based biomedical knowledge extraction system devoted to transcriptome analysis. Stud
Health Technol Inform, 95, 80-85.
Guérin, E., Moussouni, F. (2001) Transcriptome hépatique : modélisation par une approche UML.
Cahiers du numérique, L’information médicale numérique, Editions Hermès, 2, n°2, 177-196.
EN SOUMISSION
Marquet, G., Guérin, E., Loréal, O. and Burgun, A. (2005) BioMeKE : a UMLS-based system useful
for biomedical annotation of genes.
Guérin, E., Chabalier, J., Troadec, MB., Marquet, G., Burgun, A., Guguen-Guillouzo, C., Loréal, O.
and Moussouni, F. (2005) Data warehouse approach to extract knowledge from microarray data.
COMMUNICATIONS ORALES
Guérin, E., Marquet, G., Burgun, A., Loréal, O., Berti-Equille, L., Leser, U. and Moussouni, F.
Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW.
2nd International Workshop on Data Integration in the Life Science. San Diego, California, USA, 20-22
July 2005.
Guérin, E., Chabalier, J., Marquet, G., Burgun, A., Loréal, O. and Moussouni, F.
GEDAW : un environnement intégré pour l’analyse du transcriptome.
Réunion satellite Ontologie, Grille et Intégration Sémantique pour la Biologie de JOBIM. Lyon, France,
4 Juillet 2005.
Marquet, G., Guérin, E., Moussouni, F., Loréal, O. and Burgun A.
UMLS-based biomedical annotation of functional genomic data.
JOBIM. Lyon, France, 6-8 Juillet 2005.…
Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Zindy, P., Leroyer, P.,
Guisle, I., Duval, H., Gripon, P., Théret, N., Guguen-Guillouzo, C., Brissot, P., Léger, J., Loréal, O.
Hepatocyte iron loading capacity is associated to differentiation and repression of motility in the
HepaRG cell line.
Colloque de Génomique Fonctionnelle du foie. Rouen, France, 18-20 Mai 2005.
162
Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Zindy, P., Leroyer, P.,
Guisle, I., Duval, H., Gripon, P., Théret, N., Guguen-Guillouzo, C., Brissot, P., Léger, J., Loréal, O.
Hepatocyte iron loading capacity is associated to differentiation and repression of motility in the
HepaRG cell line.
39th annual scientific Meeting of the European Society for Clinical Investigation. Athens, Greece, 6-9
April 2005.
Troadec MB, Glaise D, Lamirault G, Le Cunff M, Guérin E, Le Meur N, Zindy P, Leroyer P, Guisle I,
Duval H, Gripon P, Théret N, Guguen-Guillouzo C, Brissot P, Léger JJ, Loréal O.
Hepatocyte differentiation and iron storage capacity: A study of gene expression modulation through a
transcriptomic approach on the human liver HepaRG cell line.
European Iron Club. Rennes, France, 8-11 Septembre 2004.
Guérin, E., Moussouni, F.
GEDAW : un environnement intégré pour l’analyse du transcriptome.
OuestChips. Rennes, France, 31 Mai 2005.
Moussouni, F., Burgun, A., Le Duff, F., Guérin, E. and Loréal, O.
Respective contributions of MIAME, GeneOntology and UMLS for transcriptome analysis.
From genotype to phenotype: Linking Bioinformatics and Medical Informatics Ontologies. Manchester,
UK, 23-24 March 2002.
Guérin, E., Moussouni, F., Courselaud, B. and Loréal, O.
Modélisation d’un entrepôt de données dédié à l’analyse du transcriptome hépatique.
JOBIM. Saint Malo, France, 10-12 Mai 2002.
POSTERS
Troadec, MB., Glaise, D., Lamirault, G., Le Cunff, M., Guérin, E., Le Meur, N., Detiavaud, L., Zindy,
P., Leroyer, P., Guisle, I., Duval, H., Gripon, P., Théret, N., Boudjema, K., Guguen-Guillouzo, C.,
Brissot, P., Léger, J., Loréal O.
Human Hepatocyte Iron Loading Capacity Is Associated To Differentiation Status And Repression Of
Motility In The HepaRG Cell Line.
Bioiron. Prague, Czech Republic, 22-27 May 2005.
Chabalier, J., Guérin, E., Bedrine-Ferran, H., Marquet, G. and Burgun, A.
A transversal approach for transcriptomic data analysis based on an object environment.
ECCB. Madrid, Spain, 28 Sept-1 Oct 2005.
Guérin, E., Marquet, G., Burgun, A., Loréal, O. and Moussounni F.
GEDAW : Un environnement intégré pour l'analyse du transcriptome.
JOBIM. Lyon, France, 6-8 Juillet 2005.…
Guérin, E., Marquet, G., Moussouni, F., Burgun, A., Mougin, F. and Loréal, O.
Deployment of heterogeneous resources of genomic, biological and medical knowledge on the liver to
build a datawarehouse.
ECCB. Paris, France, 27-30 Septembre 2003.
Marquet, G., Guérin, E., Burgun, A., Moussouni, F., Mougin, F. and Loréal, O.
Biological and medical ontology-based annotation of genes in the context of transcriptome analysis.
ECCB. Paris, France, 27-30 Septembre 2003.
Mougin, F., Marquet, G., Burgun, A., Guérin, E., Moussouni, F. and Loréal, O.
Use of metadata for biomedical heterogeneous data sources integration.
ECCB. Paris, France, 27-30 Septembre 2003.
Marquet, G., Burgun, A., Moussouni, F., Guérin, E. and Loréal, O.
An integrative approach of biomedical knowledge via ontologies for liver transcriptome analysis.
Workshop Ontology in biology. Heidelberg, Germany, 7-8 November 2002.
163
Intégration de données pour l’analyse de transcriptome :
Mise en œuvre par GEDAW (Gene Expression DAta Warehouse)
A l’ère de la post-génomique, l’intégration de données est devenue essentielle à
l’exploitation des larges volumes de données disponibles sur le Web. Ces données sont
diverses, réparties dans de nombreuses sources dynamiques et caractérisées par une
grande hétérogénéité tant structurale que sémantique. Si depuis quelques années des
efforts ont été fournis pour faciliter leur interopérabilité, l’intégration de ces données reste
complexe.
D’autre part, l’interprétation des données issues des puces à ADN requiert non seulement
une confrontation de données complémentaires sur les gènes, mais aussi des moyens de
restitution et d’analyse adaptés à de grandes quantités de données.
Dans ce contexte, nous avons développé une approche d’intégration dédiée à l’analyse de
transcriptome. GEDAW est un entrepôt de données orienté objet qui intègre une variété de
sources et de standards des domaines de la génomique, de la biologie et de la médecine.
L’entrepôt supporte à la fois des processus d’intégration automatiques assurant une
transformation et une réconciliation forte des données, mais également des analyses sur les
données intégrées pour l’extraction de connaissances.
GEDAW a été utilisé dans le cadre de l’intégration et de l’analyse de données issues de
l’étude du transcriptome hépatique. Il a notamment permis de mettre en évidence de
nouvelles associations gènes - pathologies hépatiques.
Mots clés : intégration de données, entrepôt de données, post-génomique, transcriptome.
Data integration devoted to transcriptome analysis :
Implementation with GEDAW (Gene Expression DAta Warehouse)
At the era of post-genomic, data integration has become essential to exploit the broad
volumes of data available on the Web. These data are various, distributed in many dynamic
sources and characterized by a great structural and semantic heterogeneity. Even though
efforts have been made to facilitate their interoperability, data integration is still a complex
task.
In addition, interpretation of microarray data requires a confrontation of complementary data
on genes as well as restitution and analysis means adapted to large quantities of data.
In this context, we developed an integration approach devoted to transcriptome analysis.
GEDAW is an object oriented data warehouse that integrates a variety of sources and
standards in the fields of genomics, biology and medicine. The warehouse supports at the
same time automatic processes of integration ensuring a transformation and a strong
reconciliation of the data, but also the analyses on the integrated data for knowledge
extraction.
GEDAW has been used within the framework of integration and analysis of data resulting
from the study of the hepatic transcriptome. It allowed to highlight new associations genes hepatic diseases.
Keywords : data integration, data warehouse, post-genomic, transcriptome.