fichier PDF
Transcription
fichier PDF
Wiart Laurent BANQUES DE DONNEES ET LOGICIELS D’INTERROGATION EBI, 2002 Wiart Laurent Bioinformatique Table des Matières 1.HISTORIQUE..............................................................................................................................................................3 1.1.LA NAISSANCE DES BANQUES DE DONNÉES DE SÉQUENCES .......................................................................................................3 2.LES BANQUES GÉNÉRALISTES..............................................................................................................................3 2.1.SÉQUENCES NUCLÉIQUES...............................................................................................................................................3 2.1.1.EMBL..............................................................................................................................................................3 2.1.2.GenBank.........................................................................................................................................................3 2.1.3.DDBJ..............................................................................................................................................................4 2.2.SÉQUENCES PROTÉIQUES...............................................................................................................................................4 2.2.1.PIR..................................................................................................................................................................4 2.2.2.SwissProt........................................................................................................................................................5 2.2.3.TrEMBL..........................................................................................................................................................5 2.2.4.GenPept..........................................................................................................................................................5 3.QUELQUES CHIFFRES..............................................................................................................................................5 4.LES BANQUES SPÉCIALISÉES................................................................................................................................6 4.1.BANQUES DÉDIÉES AUX GÉNOMES.....................................................................................................................................7 4.1.1.Le projet Génome Humain...............................................................................................................................7 4.1.2.Tigr.................................................................................................................................................................7 4.2.MOTIFS NUCLÉOTIDIQUES..............................................................................................................................................7 4.3.MOTIFS PROTÉIQUES....................................................................................................................................................7 4.3.1.Prosite.............................................................................................................................................................7 4.3.2.Blocks.............................................................................................................................................................8 4.4.BANQUES DE DOMAINES PROTÉIQUES.................................................................................................................................8 4.4.1.Prodom...........................................................................................................................................................8 4.5.BANQUES DE STRUCTURES PROTÉIQUES..............................................................................................................................8 4.5.1.PDB................................................................................................................................................................8 4.5.2.NRL3D............................................................................................................................................................9 4.6.LES SYSTÈMES D’INTERROGATION....................................................................................................................................9 4.6.1.Acnuc..............................................................................................................................................................9 4.6.2.SRS.................................................................................................................................................................9 4.6.3.Entrez..............................................................................................................................................................9 4.7.SERVEURS D’APPLICATIONS............................................................................................................................................9 EBI, Janvier 2002 2 Wiart Laurent Bioinformatique 1. Historique Les apports de la Bioinformatique sont multiples : • Compiler et organiser les données (bases de données). • Traitement systématique des séquences : caractérisation des fonction biologiques. • Elaborer des stratégies pour apporter des connaissances (ex : matrices de substitution pour les acides aminés). 1.1.La naissance des banques de données de séquences Fin 1960 : Margaret Dayhoff : «Atlas of protein sequences » 1984 : PIR (Protein Identification Ressource) 1979 : Création de GenBank au NCBI (National Center for Biotechnology Information) 1980 : EMBL (European Molecular Biology Laboratory) 1984 : DDBJ (DNA Databank of Japan) 1986 : SwissProt 2. Les Banques Généralistes 2.1.Séquences Nucléiques Ces banques contiennent l’ensemble des séquences publiées car les numéros d’enregistrement (accession number) des séquences sont exigés par les éditeurs lors de la publication. Problèmes : • Redondance • Erreurs de séquencage • Fautes de frappe • Présence de fragments de vecteurs dans les séquences 2.1.1.EMBL Créée en 1980. Fut financée par l’EMBO (European Molecular Biology Organisation) Au départ, maintenue à Heidelberg, en Allemagne, puis déplacée au NCBI de Cambridge. EBI, Janvier 2002 3 Wiart Laurent Bioinformatique 2.1.2.GenBank Créée en 1979. Soutenue par le NIH (National Institute of Health). Au départ à Los Alamos, maintenant diffusée par le NCBI. dbGSS : Genome Survey Sequence dbHTG : High Throughput Genome sequences (Sequencage ht débit du génome humain ). dbCON : contigged (nouvelle partie recensant tous les contigs). Les bases de données et les outils du NCBI : • OMIM : Online Mendelian Inheritance in Man (catalogue de maladies génétiques). • MMDB : Molecular Modeling Database • Unigene : Unique Human Gene Sequence collection (clusters d’EST et des entrées GenBank) • CGAP : Cancer Genome Anatomy Project. CGAP is an interdisciplinary program established and administered by the National Cancer Institute to generate the information and technological tools needed to decipher the molecular anatomy of the cancer cell. • Entrez : Système d’interrogation de l’ensemble des ressources du NCBI • ORF Finder • Electronic PCR : pour tester la présence de STS dans une séquence. • BankIt, Sequin : logiciels on line ou a télécharger afin de soumettre des séquences. 2.1.3.DDBJ Créée en 1984 au Japon. L’ensemble de ces 3 banques ont un format unique : « DDBJ/EMBL/GenBank Feature Table » et un contenu quasi identique. Elles font partie du consortium international :International Nucleotide Sequence Database. 2.2.Séquences Protéiques La quasi totalité des séquences protéiques est issue de la traduction des séquences nucléiques. 2.2.1.PIR Protein Information Ressource. Etablie en 1984 par le NBRF. Entre 65 et 78, le NBRF compilait dans un atlas les données sur les protéines. EBI, Janvier 2002 4 Wiart Laurent Bioinformatique En 1988, collaboration du NBRF (National Biomedical Research Foundation), du MIPS (Martinsried Institute for Protein Sequences) et du JIPID (Japan International Protein Information Database) => PIR PSD (Protein Sequence Database). Cette banque de données contient plusieurs sections : séquences classées et annotées, séquences classées et vérifiées, séquences non vérifiées, etc. Une mise à jour tous les 3 mois. The PIR−PSD has been partitioned into several sections, PIR1, PIR2, PIR3, and PIR4, partly because of history and partly for convenience. There is currently no clear distinction between PIR1 and PIR2, which together comprise the majority (>99%) of PSD sequences. Entries in both PIR1 and PIR2 sections are merged, classified, and annotated by the same procedures. Entries in PIR3 have not been subjected to verification of sequence and bibliographic information and they are not classified, merged, or annotated. The PIR4 section contains sequences identified as being neither naturally occurring nor naturally expressed, but are otherwise carefully reviewed and fully annotated. This section includes sequences known to be conceptual translations of pseudogenes, mistranslations or otherwise unexpressed potential ORF’s that may have mistakenly been assigned identifiers as coding regions by other databases. It also includes engineered or synthetic sequences, sequences resulting from fusion, cross−over or frame−shift mutations, and sequences of natural polypeptides that are not synthesized on ribosomes. 2.2.2.SwissProt Créée sous l’impulsion d’Amos Bairoch en 1987. Elle contient beaucoup moins de séquences que PIR, mais les séquences sont passées par une phase de validation réalisée par des experts. Il y a donc peu de redondance, les séquences sont corrigées et annotées ⇒ Qualité de l’information. 2.2.3.TrEMBL Traduction et annotation automatique des séquences de l’EMBL. Ce sont des séquences non encore intégrées à SwissProt. TREMBL recouvre deux ensembles, SPTREMBL et REMTREMBL, qui contiennent tous les features CDS (CoDing Sequences) de l’EMBL au format Swissprot (informatisation assurée à l’EBI). Les séquences de Sptrembl et Sptremblnew seront, à terme, intégrées dans Swissprot. Celles en revanche de la banque Remtrembl (REMaining TREMBL : EST, STS, etc), pour diverses raisons, ne le seront pas. EBI, Janvier 2002 5 Wiart Laurent Bioinformatique Chercheurs EMBLNew TrEMBLNew EMBL Traduction automatique. «manuelle» TrEMBL SPTrEMBL SwissProt REMTrEMBL (EST, STS, tout ce qui n’est pas des protéines) SWALL 2.2.4.GenPept Traduction automatique des séquences de GenBank. 3. Quelques chiffres DNA database DDBJ EMBL GenBank Protein database PIR SwissProt PDB Rel. Date Entries Bases 45 66 123 04/01 03/01 04/01 11,434,113 11,169,673 11,545,572 12,207,092,905 11,916,112,872 12,418,544,023 Rel. Date Sequences Residues 68 39 96 03/01 07/00 06/01 219,241 86,593 15,385 76,174,552 31,411,157 Rate of increase 10% 11.2% 6% Rate of increase 11% 8% Les tous derniers génomes complets séquencés : Buchnera sp. APS Pseudomonas aeruginosa Pasteurella multocida Lactococcus lactis Mycobacterium leprae EBI, Janvier 2002 acc# acc# acc# acc# acc# BA000003 AE004091 AE004439 AE005176 AL450380 6 Wiart Laurent Mesorhizobium loti Moraxella catarrhalis Bacteriophage RM 378 Ectocarpus sliculosus virus Escherichia coli O157 Bioinformatique acc# acc# acc# acc# acc# BA000012 AX067464 AX059140 AF204951 BA000007 4. Les Banques spécialisées Ce sont des banques qui synthétisent l’information pour un organisme particulier (Escherichia coli : ECD) ou pour un domaine particulier (facteurs de transcription : TFD). Quelques exemples : • Bactéries : ECD (E. coli), MICADO (B. subtilis) • Drosophile : FlyBase • Souris : EMG • Enzymes et voies métaboliques : KEGG, EMP Motif : Element structural que l’on retrouve sur un certain nombre de protéines 1 motif ⇒ 1 famille ⇒ 1 fonction Domaine : Un fragment conservé dans une ou plusieurs familles, au cours de l’évolution. C’est un élément structural conservé au cours de l’évolution. Ces domaines peuvent être retrouvés dans des protéines de fonctions différentes. Servent en phylogénie. 4.1.Banques dédiées aux génomes 4.1.1.Le projet Génome Humain Débuté en 1990 sous l’égide du DOE (Department of Energy, equivalent au CEA francais) et le NIH (National Institute of Health). Les objectifs : • Etablir une carte génétique avec des marqueurs permettant une résolution de 2 à 5 cM. • Etablir une carte physique avec des marqueurs espacés de 100 kb (STS). • Développer des techniques de séquençage automatique. • Séquencer des génomes d’organismes modèles. • Elaborer des outils informatiques : Bases de données, algorithmes, internet. • Etablir une bioéthique. Les organismes modèles : E coli, B subtilis, S. cerevisiae, Drosophile, Souris, Tetraodon, A. thaliana, Porc, Riz, Maïs. Chacun des génomes fait l’objet d’une banque spécialisée rassemblant de nombreuses informations : cartes physique et génétique, marqueurs, séquences, gènes, phénotypes, ? EBI, Janvier 2002 7 Wiart Laurent Bioinformatique Les organismes français engagées dans ce projet sont : Le CNS, le Généthon et le CEPH. 4.1.2.Tigr The Institute for Genomic Research créée en 1992 par Craig Venter. Le premier génome complet (H. influenzae, 1.8 Mb) y a été séquencé. Ont suivi M. genitalium (le plus petit génome connu : 580 000 pb), Methanococcus jannaschii (Archae). L’approche du TIGR est originale, elle est basée sur la technique ShotGun mise au point par Venter. 4.2.Motifs Nucléotidiques Aussi bien pour les sites de restriction (REBASE), que pour les facteurs de transcription eucaryotes (TFD), promoteurs, etc. 4.3.Motifs Protéiques 4.3.1.Prosite Les séquences de SwissProt sont regroupées par familles afin de créer les entrées de Prosite : documentation des motifs, motifs hautement spécifiques. Prosite est basé sur le même principe que SwissProt : un réseau de spécialistes garantit la qualité des informations. PROSITE est organisée en 2 parties : la première est la description sous forme d’expression régulière, la seconde documente le motif. La description se fait sous forme d’expression régulière : C−[SAGDN]−[STN]−x(0,1)−[SA]−T−C−[VMA]−x(3)−[LYF]−x(3)−[LYF] [AB] x: (0,1) {A} A ou B un résidu quelconque 0 ou une fois tout sauf A 4.3.2.Blocks La construction se fait automatiquement à partir des entrées de PROSITE, on obtient des alignements multiples de blocs de séquences sans indel. Juin 2000 : release 12, 4071 blocs EBI, Janvier 2002 8 Wiart Laurent Bioinformatique 4.4.Banques de domaines protéiques 4.4.1.Prodom Lors de la construction, plusieurs étapes : 1) Les séquences protéiques sont regroupées en fonction de l’homologie de séquences 2) Construction de séquences localement homologues 3) Organisation des données protéiques autour de la structure en domaines Chaque famille de domaines est représentée par un alignement multiple ou par une séquences consensus. 4.5.Banques de structures protéiques 4.5.1.PDB Protein Data Bank est une banque de structures tridimensionnelles de protéines déterminées par diffraction aux rayons X ou RMN. 15435 structures au 1er juin 2001. COLUMNS DATA TYPE FIELD DEFINITION −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 1 − 6 Record name "ATOM " 7 − 11 Integer serial Atom serial number. 13 − 16 Atom name Atom name. 17 Character altLoc Alternate location indicator. 18 − 20 Residue name resName Residue name. 22 Character chainID Chain identifier. 23 − 26 Integer resSeq Residue sequence number. 27 AChar iCode Code for insertion of residues. 31 − 38 Real(8.3) x Orthogonal coordinates for X in Angstroms. 39 − 46 Real(8.3) y Orthogonal coordinates for Y in Angstroms. 47 − 54 Real(8.3) z Orthogonal coordinates for Z in Angstroms. 55 − 60 Real(6.2) occupancy Occupancy. 61 − 66 Real(6.2) tempFactor Temperature factor (atoms disordered in the crystal have high temperature factors) 73 − 76 LString(4) segID Segment identifier, left−justified. 77 − 78 LString(2) element Element symbol, right−justified. 79 − 80 LString(2) charge Charge on the atom. 4.5.2.NRL3D Crée le lien entre les entrées PDB et PIR. 4.6.Les systèmes d’interrogation EBI, Janvier 2002 9 Wiart Laurent Bioinformatique 4.6.1.Acnuc Développé au sein du PBIL (Pôle Bioinformatique Lyonnais). Ressemble à un système de SGBD mais ne permet d’interroger qu’une seule banque à la fois. Peut interroger GenBank, EMBL, SwissProt, PIR, TrEMBL. Ce système permet de répondre à des questions complexes telles que : « je recherche les CDS de la calcitonine dans GenBank dont la taille est supérieure à 200 pb ». 4.6.2.SRS Plusieurs logiciels : pour indexer les banques de données, pour interroger. SRS permet d’interroger plusieurs banques de données en même temps (jusqu’à 90). Le langage d’interrogation est similaire à celui d’Acnuc mais ne permet pas des requêtes aussi précises. 4.6.3.Entrez Système d’interrogation du NCBI. Ne permet d’interroger que les bases de données du NCBI. 4.7.Serveurs d’applications On y trouve un certain nombre d’applications, notamment BLAST et FASTA : • • • • • NCBI : www.ncbi.nlm.nih.gov EBI : www.ebi.ac.uk EXPASY :www.expasy.ch PBIL :pbil.univ−lyon1.fr INFOBIOGEN : www.infobiogen.fr EBI, Janvier 2002 10