fichier PDF

Transcription

fichier PDF
Wiart Laurent
BANQUES DE DONNEES ET
LOGICIELS
D’INTERROGATION
EBI, 2002
Wiart Laurent
Bioinformatique
Table des Matières
1.HISTORIQUE..............................................................................................................................................................3
1.1.LA NAISSANCE DES BANQUES DE DONNÉES DE SÉQUENCES .......................................................................................................3
2.LES BANQUES GÉNÉRALISTES..............................................................................................................................3
2.1.SÉQUENCES NUCLÉIQUES...............................................................................................................................................3
2.1.1.EMBL..............................................................................................................................................................3
2.1.2.GenBank.........................................................................................................................................................3
2.1.3.DDBJ..............................................................................................................................................................4
2.2.SÉQUENCES PROTÉIQUES...............................................................................................................................................4
2.2.1.PIR..................................................................................................................................................................4
2.2.2.SwissProt........................................................................................................................................................5
2.2.3.TrEMBL..........................................................................................................................................................5
2.2.4.GenPept..........................................................................................................................................................5
3.QUELQUES CHIFFRES..............................................................................................................................................5
4.LES BANQUES SPÉCIALISÉES................................................................................................................................6
4.1.BANQUES DÉDIÉES AUX GÉNOMES.....................................................................................................................................7
4.1.1.Le projet Génome Humain...............................................................................................................................7
4.1.2.Tigr.................................................................................................................................................................7
4.2.MOTIFS NUCLÉOTIDIQUES..............................................................................................................................................7
4.3.MOTIFS PROTÉIQUES....................................................................................................................................................7
4.3.1.Prosite.............................................................................................................................................................7
4.3.2.Blocks.............................................................................................................................................................8
4.4.BANQUES DE DOMAINES PROTÉIQUES.................................................................................................................................8
4.4.1.Prodom...........................................................................................................................................................8
4.5.BANQUES DE STRUCTURES PROTÉIQUES..............................................................................................................................8
4.5.1.PDB................................................................................................................................................................8
4.5.2.NRL3D............................................................................................................................................................9
4.6.LES SYSTÈMES D’INTERROGATION....................................................................................................................................9
4.6.1.Acnuc..............................................................................................................................................................9
4.6.2.SRS.................................................................................................................................................................9
4.6.3.Entrez..............................................................................................................................................................9
4.7.SERVEURS D’APPLICATIONS............................................................................................................................................9
EBI, Janvier 2002
2
Wiart Laurent
Bioinformatique
1. Historique
Les apports de la Bioinformatique sont multiples :
• Compiler et organiser les données (bases de données).
• Traitement systématique des séquences : caractérisation des fonction biologiques.
• Elaborer des stratégies pour apporter des connaissances (ex : matrices de substitution pour les
acides aminés).
1.1.La naissance des banques de données de séquences
Fin 1960 : Margaret Dayhoff : «Atlas of protein sequences »
1984 : PIR (Protein Identification Ressource)
1979 : Création de GenBank au NCBI (National Center for Biotechnology Information)
1980 : EMBL (European Molecular Biology Laboratory)
1984 : DDBJ (DNA Databank of Japan)
1986 : SwissProt
2. Les Banques Généralistes
2.1.Séquences Nucléiques
Ces banques contiennent l’ensemble des séquences publiées car les numéros d’enregistrement
(accession number) des séquences sont exigés par les éditeurs lors de la publication.
Problèmes :
• Redondance
• Erreurs de séquencage
• Fautes de frappe
• Présence de fragments de vecteurs dans les séquences
2.1.1.EMBL
Créée en 1980.
Fut financée par l’EMBO (European Molecular Biology Organisation)
Au départ, maintenue à Heidelberg, en Allemagne, puis déplacée au NCBI de Cambridge.
EBI, Janvier 2002
3
Wiart Laurent
Bioinformatique
2.1.2.GenBank
Créée en 1979.
Soutenue par le NIH (National Institute of Health).
Au départ à Los Alamos, maintenant diffusée par le NCBI.
dbGSS : Genome Survey Sequence
dbHTG : High Throughput Genome sequences (Sequencage ht débit du génome humain ).
dbCON : contigged (nouvelle partie recensant tous les contigs).
Les bases de données et les outils du NCBI :
• OMIM : Online Mendelian Inheritance in Man (catalogue de maladies génétiques).
• MMDB : Molecular Modeling Database
• Unigene : Unique Human Gene Sequence collection (clusters d’EST et des entrées GenBank)
• CGAP : Cancer Genome Anatomy Project. CGAP is an interdisciplinary program established and
administered by the National Cancer Institute to generate the information and technological tools
needed to decipher the molecular anatomy of the cancer cell.
• Entrez : Système d’interrogation de l’ensemble des ressources du NCBI
• ORF Finder
• Electronic PCR : pour tester la présence de STS dans une séquence.
• BankIt, Sequin : logiciels on line ou a télécharger afin de soumettre des séquences.
2.1.3.DDBJ
Créée en 1984 au Japon.
L’ensemble de ces 3 banques ont un format unique : « DDBJ/EMBL/GenBank Feature Table » et un
contenu quasi identique.
Elles font partie du consortium international :International Nucleotide Sequence Database.
2.2.Séquences Protéiques
La quasi totalité des séquences protéiques est issue de la traduction des séquences nucléiques.
2.2.1.PIR
Protein Information Ressource.
Etablie en 1984 par le NBRF.
Entre 65 et 78, le NBRF compilait dans un atlas les données sur les protéines.
EBI, Janvier 2002
4
Wiart Laurent
Bioinformatique
En 1988, collaboration du NBRF (National Biomedical Research Foundation), du MIPS (Martinsried
Institute for Protein Sequences) et du JIPID (Japan International Protein Information Database) => PIR
PSD (Protein Sequence Database).
Cette banque de données contient plusieurs sections : séquences classées et annotées, séquences
classées et vérifiées, séquences non vérifiées, etc.
Une mise à jour tous les 3 mois.
The PIR−PSD has been partitioned into several sections, PIR1, PIR2, PIR3, and PIR4, partly because
of history and partly for convenience. There is currently no clear distinction between PIR1 and PIR2,
which together comprise the majority (>99%) of PSD sequences. Entries in both PIR1 and PIR2
sections are merged, classified, and annotated by the same procedures. Entries in PIR3 have not been
subjected to verification of sequence and bibliographic information and they are not classified, merged,
or annotated. The PIR4 section contains sequences identified as being neither naturally occurring nor
naturally expressed, but are otherwise carefully reviewed and fully annotated. This section includes
sequences known to be conceptual translations of pseudogenes, mistranslations or otherwise
unexpressed potential ORF’s that may have mistakenly been assigned identifiers as coding regions by
other databases. It also includes engineered or synthetic sequences, sequences resulting from fusion,
cross−over or frame−shift mutations, and sequences of natural polypeptides that are not synthesized on
ribosomes.
2.2.2.SwissProt
Créée sous l’impulsion d’Amos Bairoch en 1987.
Elle contient beaucoup moins de séquences que PIR, mais les séquences sont passées par une phase de
validation réalisée par des experts.
Il y a donc peu de redondance, les séquences sont corrigées et annotées ⇒ Qualité de l’information.
2.2.3.TrEMBL
Traduction et annotation automatique des séquences de l’EMBL. Ce sont des séquences non encore
intégrées à SwissProt.
TREMBL recouvre deux ensembles, SPTREMBL et REMTREMBL, qui contiennent tous les
features CDS (CoDing Sequences) de l’EMBL au format Swissprot (informatisation assurée à l’EBI).
Les séquences de Sptrembl et Sptremblnew seront, à terme, intégrées dans Swissprot. Celles en
revanche de la banque Remtrembl (REMaining TREMBL : EST, STS, etc), pour diverses raisons, ne le
seront pas.
EBI, Janvier 2002
5
Wiart Laurent
Bioinformatique
Chercheurs
EMBLNew
TrEMBLNew
EMBL
Traduction
automatique.
«manuelle»
TrEMBL
SPTrEMBL
SwissProt
REMTrEMBL
(EST, STS, tout ce
qui n’est pas des protéines)
SWALL
2.2.4.GenPept
Traduction automatique des séquences de GenBank.
3. Quelques chiffres
DNA
database
DDBJ
EMBL
GenBank
Protein
database
PIR
SwissProt
PDB
Rel.
Date
Entries
Bases
45
66
123
04/01
03/01
04/01
11,434,113
11,169,673
11,545,572
12,207,092,905
11,916,112,872
12,418,544,023
Rel.
Date
Sequences
Residues
68
39
96
03/01
07/00
06/01
219,241
86,593
15,385
76,174,552
31,411,157
Rate of
increase
10%
11.2%
6%
Rate of
increase
11%
8%
Les tous derniers génomes complets séquencés :
Buchnera sp. APS
Pseudomonas aeruginosa
Pasteurella multocida
Lactococcus lactis
Mycobacterium leprae
EBI, Janvier 2002
acc#
acc#
acc#
acc#
acc#
BA000003
AE004091
AE004439
AE005176
AL450380
6
Wiart Laurent
Mesorhizobium loti
Moraxella catarrhalis
Bacteriophage RM 378
Ectocarpus sliculosus virus
Escherichia coli O157
Bioinformatique
acc#
acc#
acc#
acc#
acc#
BA000012
AX067464
AX059140
AF204951
BA000007
4. Les Banques spécialisées
Ce sont des banques qui synthétisent l’information pour un organisme particulier (Escherichia coli :
ECD) ou pour un domaine particulier (facteurs de transcription : TFD).
Quelques exemples :
• Bactéries : ECD (E. coli), MICADO (B. subtilis)
• Drosophile : FlyBase
• Souris : EMG
• Enzymes et voies métaboliques : KEGG, EMP
Motif : Element structural que l’on retrouve sur un certain nombre de protéines
1 motif ⇒ 1 famille ⇒ 1 fonction
Domaine : Un fragment conservé dans une ou plusieurs familles, au cours de l’évolution. C’est un
élément structural conservé au cours de l’évolution. Ces domaines peuvent être retrouvés dans des
protéines de fonctions différentes. Servent en phylogénie.
4.1.Banques dédiées aux génomes
4.1.1.Le projet Génome Humain
Débuté en 1990 sous l’égide du DOE (Department of Energy, equivalent au CEA francais) et le NIH
(National Institute of Health).
Les objectifs :
• Etablir une carte génétique avec des marqueurs permettant une résolution de 2 à 5 cM.
• Etablir une carte physique avec des marqueurs espacés de 100 kb (STS).
• Développer des techniques de séquençage automatique.
• Séquencer des génomes d’organismes modèles.
• Elaborer des outils informatiques : Bases de données, algorithmes, internet.
• Etablir une bioéthique.
Les organismes modèles : E coli, B subtilis, S. cerevisiae, Drosophile, Souris, Tetraodon, A. thaliana,
Porc, Riz, Maïs. Chacun des génomes fait l’objet d’une banque spécialisée rassemblant de nombreuses
informations : cartes physique et génétique, marqueurs, séquences, gènes, phénotypes, ?
EBI, Janvier 2002
7
Wiart Laurent
Bioinformatique
Les organismes français engagées dans ce projet sont : Le CNS, le Généthon et le CEPH.
4.1.2.Tigr
The Institute for Genomic Research créée en 1992 par Craig Venter.
Le premier génome complet (H. influenzae, 1.8 Mb) y a été séquencé. Ont suivi M. genitalium (le plus
petit génome connu : 580 000 pb), Methanococcus jannaschii (Archae).
L’approche du TIGR est originale, elle est basée sur la technique ShotGun mise au point par Venter.
4.2.Motifs Nucléotidiques
Aussi bien pour les sites de restriction (REBASE), que pour les facteurs de transcription eucaryotes
(TFD), promoteurs, etc.
4.3.Motifs Protéiques
4.3.1.Prosite
Les séquences de SwissProt sont regroupées par familles afin de créer les entrées de Prosite :
documentation des motifs, motifs hautement spécifiques. Prosite est basé sur le même principe que
SwissProt : un réseau de spécialistes garantit la qualité des informations.
PROSITE est organisée en 2 parties : la première est la description sous forme d’expression régulière,
la seconde documente le motif.
La description se fait sous forme d’expression régulière :
C−[SAGDN]−[STN]−x(0,1)−[SA]−T−C−[VMA]−x(3)−[LYF]−x(3)−[LYF]
[AB]
x:
(0,1)
{A}
A ou B
un résidu quelconque
0 ou une fois
tout sauf A
4.3.2.Blocks
La construction se fait automatiquement à partir des entrées de PROSITE, on obtient des alignements
multiples de blocs de séquences sans indel.
Juin 2000 : release 12, 4071 blocs
EBI, Janvier 2002
8
Wiart Laurent
Bioinformatique
4.4.Banques de domaines protéiques
4.4.1.Prodom
Lors de la construction, plusieurs étapes :
1) Les séquences protéiques sont regroupées en fonction de l’homologie de séquences
2) Construction de séquences localement homologues
3) Organisation des données protéiques autour de la structure en domaines
Chaque famille de domaines est représentée par un alignement multiple ou par une séquences
consensus.
4.5.Banques de structures protéiques
4.5.1.PDB
Protein Data Bank est une banque de structures tridimensionnelles de protéines déterminées par
diffraction aux rayons X ou RMN.
15435 structures au 1er juin 2001.
COLUMNS
DATA TYPE
FIELD
DEFINITION
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
1 − 6
Record name
"ATOM "
7 − 11
Integer
serial
Atom serial number.
13 − 16
Atom
name
Atom name.
17
Character
altLoc
Alternate location indicator.
18 − 20
Residue name
resName
Residue name.
22
Character
chainID
Chain identifier.
23 − 26
Integer
resSeq
Residue sequence number.
27
AChar
iCode
Code for insertion of residues.
31 − 38
Real(8.3)
x
Orthogonal coordinates for X in Angstroms.
39 − 46
Real(8.3)
y
Orthogonal coordinates for Y in Angstroms.
47 − 54
Real(8.3)
z
Orthogonal coordinates for Z in Angstroms.
55 − 60
Real(6.2)
occupancy
Occupancy.
61 − 66
Real(6.2)
tempFactor
Temperature factor (atoms disordered in
the crystal have high temperature factors)
73 − 76
LString(4)
segID
Segment identifier, left−justified.
77 − 78
LString(2)
element
Element symbol, right−justified.
79 − 80
LString(2)
charge
Charge on the atom.
4.5.2.NRL3D
Crée le lien entre les entrées PDB et PIR.
4.6.Les systèmes d’interrogation
EBI, Janvier 2002
9
Wiart Laurent
Bioinformatique
4.6.1.Acnuc
Développé au sein du PBIL (Pôle Bioinformatique Lyonnais). Ressemble à un système de SGBD mais
ne permet d’interroger qu’une seule banque à la fois.
Peut interroger GenBank, EMBL, SwissProt, PIR, TrEMBL.
Ce système permet de répondre à des questions complexes telles que : « je recherche les CDS de la
calcitonine dans GenBank dont la taille est supérieure à 200 pb ».
4.6.2.SRS
Plusieurs logiciels : pour indexer les banques de données, pour interroger.
SRS permet d’interroger plusieurs banques de données en même temps (jusqu’à 90). Le langage
d’interrogation est similaire à celui d’Acnuc mais ne permet pas des requêtes aussi précises.
4.6.3.Entrez
Système d’interrogation du NCBI.
Ne permet d’interroger que les bases de données du NCBI.
4.7.Serveurs d’applications
On y trouve un certain nombre d’applications, notamment BLAST et FASTA :
•
•
•
•
•
NCBI : www.ncbi.nlm.nih.gov
EBI : www.ebi.ac.uk
EXPASY :www.expasy.ch
PBIL :pbil.univ−lyon1.fr
INFOBIOGEN : www.infobiogen.fr
EBI, Janvier 2002
10

Documents pareils