Cours de Bioinformatique Appliquée (Partie 1)

Transcription

Enseignement de Bioinformatique Appliquée
CM 10h – TD 16h (4 séances de 4h) – Travail Personnel 8h
Travail Personnel
-Rapport de TD
-Libre service informatique
-Clinique pédagogique
(Salle 1er étage BU)
Horaires TD
5 groupes (11, 12, 13, 14, 15-BIM)
Séance 1
-Lundi 15 Sept 8-12h (14,15-BIM)
-Mardi 16 Sept 8-12h (11,12,13)
Séance 2
-Mardi 23 Sept 8-12h (11,12,13)
Séance 3
-Mardi 30 Sept 8-12h (11,12,13)
Séance 4
-Lundi 06 Oct 8-12h (14,15-BIM)
-Mardi 07 Oct 8-12h (11,12,13)
Supports de CM et TD
Etudiants non inscrits à luminy????
Horaires de CM
-08 Sept 14-16h
-09 Sept 10-12h
-15 Sept 14-16h
-22 Sept 14-16h
-29 Sept 14-16h
http://biologie.univ-mrs.fr/
[email protected]
Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II
Cours de Bioinformatique Appliquée
(Partie 1)
1
Qu’est-ce que la bioinformatique?
Domaine interdisciplinaire basé sur les acquis de la biologie, des mathématiques et
de l’informatique. Biologie « in silico ». C’est une discipline en pleine révolution. Au
coeur de cette révolution, l’informatique joue un rôle central pour :
▪ Acquisition des données (décoder les régions importantes des génomes)
(Séquençage et Annotation des génomes)
▪ Archivage, Stockage et Diffusion des données biologiques
(Banques et bases de données)
▪ Recherche, Analyse, Interpretation et Exploitation des données
(Processus automatisés => algorithmes spécifiques)
(Prédiction fonctionnelle)
Bioinformatiques
▪ Bioinfo de paillasse
▪ Analyse des séquences
support au clonage,
séquençage,
& PCR...
identification gènes,
comparaisons de séquences,
prédiction motifs...
▪ Phylogénie
▪ Structure des protéines
évolution à l'échelle
moléculaire...
calcul,
visualisation,
prédiction...
▪ Liaison génétique
▪ Génomique fonctionnelle
gènes candidats de maladies
génétiques...
transcriptome,
protéome,
interactome...
2
Deux définitions possibles
▪ Applications de l’informatique à la biologie
(computational biology)
▪ Analyse de l’information biologique
(bioinformatics)
Elle est surtout utilisée pour:
▪L’identification des gènes
▪La prédiction fonctionnelle de ces gènes
Repères historiques (1)
1953: Structure en double hélice de l ’ADN (Watson-Crick)
1956: Séquence en acides aminés de la première protéine: insuline (Sanger)
1958: Première structure 3D de protéine (myoglobine, Kendrew)
1955-1965: Premiers langages informatiques, premier ordinateur commercial
1965: Première compilation de protéines Atlas of Protein Sequences (50 entrées)
M. Dayhoff (Imprimé jusqu’en 1978, puis format électronique PIR-PSD)
1970: 1er programme pour la comparaison de séquences protéiques
Alignement optimal entre deux séquences (Needleman & Wunsh)
1971: PDB - Protein Data Bank (structures 3D macromolécules)
1974: Algorithme de prédiction de structure secondaire de protéine
Chou-Fasman
1977: Mise au point des techniques de séquençage de l’ADN
1978: Matrice de substitution (PAM) (Dayhoff et. al.)
3
1980: Constitution des banques de données: EMBL (Heidelberg -> Cambridge (EBI))
1981: Similarités de séquences dans les banques (Smith & Waterman)
1984: Logiciel d’analyse de séquence (UW GCG)
Devereux et. al.
1985: CABIOS (première revue de bioinformatique)
1986: Swiss-Prot (A. Bairoch) SIB: Swiss Institute of bioinformatics
1986: Genbank (Los Alamos NIH (National Institute of Health))
1987: Genbank, EMBL et DDBJ s’échangent leur contenu et adoptent un système de
conventions communes (The DDBJ/EMBL/Genbank feature Table Definition)
1988: Processus de double publication. Dépôt des séquences dans une banque avant
soumission de l’article associé aux revues scientifiques.
1988: FASTA - Sim. de séq. dans les banques
Pearson & Lipman
1988-90: Lancement du programme international de séquençage Génome Humain (HUGO)
1988: Double publication des séquences (banque puis publication avec AC)
1989: Internet
1990: BLAST – Sim. de séq. dans les banques
Atschul et. al.
1991: Prédiction struct. III protéines
Bowie et. al.
1992: Création du centre de séquençage Sanger (moitié de la "production" mondiale)
1993: GeneMark - Programme de Prédiction gènes génomes bactériens
Borodovsky et. al.
1995: Séquençage 'shotgun' génome Haemophilus 1.8Mb
Venter et. al.
1996: Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb)
Goffeau et al.
4
1997: Clonage de la brebis Dolly.
1997: PFam - Banque de domaines protéiques
Sonnhammer et. al.
1997: GENSCAN - Prédiction gènes génomes eucaryotes
Burge et. al.
1998: Séquençage du 1er organisme pluricellulaire, Caenorhabditis elegans (120 MB)
1999: Publication de la séquence complète du chromosome 22
2000: -Publication du "working draft" (brouillon) de la première carte complète du génome
humain (3000 MB).
-Séquençage du 1er génome de plante, Arabidopsis thaliana
2001: Publication des travaux de séquençage du génome humain presque complet.
2002: Projet protéome humain (HPP)
2003: Séquençage de plusieurs organismes eucaryotes
2006: Séquençage à très grande échelle (454 flex technology, Solexa technology)
Plan du cours
I. Les banques de données en biologie
1. Généralités
2. Les banques de données bibliographiques
3. Les banques de séquences
4. Centres de ressources
5. Les systèmes d’interrogation des banques
II. Analyse de séquences
1. Introduction
2. Analyse d’une séquence
3. Comparaison de 2 séquences
4. Recherche de protéines homologues
5
Banques de données / Bases de données
Collection de données (séquence, format, structure) en « fichier texte »:
• organisation séquentielle des données
Format simple, lisible
Pas facilement interrogeable.
Données portables dans différents environnements informatiques
Banques
Banques
Bases
Bases
Notion de tables (objet défini) et de relations entre les tables
Modélisation avec liens logiques entre les données (sans redondance)
Requêtes multicritères (langage de requêtes et de manipulation de données)
Exploitées à l’aide de Systèmes de Gestion de Bases de Données (SGBD)
Rôle des banques/bases de données
Collecter
Collecter les
les informations
informations
- séquences, cartographie physique, génétique…
- données structurales, relationnelles…
- auprès de: biologistes, littératures, autres bases de données
Stocker
Stocker et
et organiser
organiser
- logique cohérente
Distribuer
Distribuer l’information
l’information
- large diffusion (libre, Internet)
Faciliter
Faciliter l’exploitation
l’exploitation
- interface conviviales
- définition des critères de recherche
- comparaison de données
6
Banque/Base de données bibliographiques (Pubmed)
National Center for Biotechnology Information
7
8
Les banques généralistes
Bibliothèques
Bibliothèques de
de fiches
fiches descriptives
descriptives (entrées)
(entrées) de
de séquences
séquences nucléiques
nucléiques ou
ou
protéiques,
protéiques, quelque
quelque soit
soit l'organisme
l'organisme dont
dont elles
elles sont
sont issues,
issues, et
et quelle
quelle que
que soit
soit
leur
leur nature
nature (ADN,
(ADN, ADNc,
ADNc, ARN,
ARN, protéine).
protéine).
Elles
Elles contiennent
contiennent sous
sous forme
forme de
de commentaires
commentaires structurés
structurés des
des informations
informations
variées,
variées, issues
issues d'expertises
d'expertises biologiques
biologiques ou
ou d'analyses
d'analyses bioinformatiques
bioinformatiques
(annotation).
(annotation).
Mission:
Mission: Rendre
Rendre publiques
publiques les
les données
données issues
issues des
des fonds
fonds publics,
publics, donc
donc collectives
collectives
Les banques nucléiques
Les
Les 33 banques
banques nucléotidiques
nucléotidiques principales
principales coexistent
coexistent et
et coopèrent:
coopèrent:
•• Elles
Elles collectent
collectent des
des informations
informations de
de séquences
séquences (associées
(associées ou
ou non
non àà une
une
publication)
publication) par
par soumission
soumission directe
directe des
des auteurs
auteurs (95%
(95% de
de l'ensemble
l'ensemble des
des
données)
données) mais
mais également
également par
par balayage
balayage systématique
systématique de
de la
la littérature
littérature
scientifique
scientifique (principalement
(principalement les
les brevets).
brevets).
EMBL: Banque européenne créée en 1980 (Heidelberg, DE) et financée par l'EMBO (European
Moleculary Biology Organisation), elle est aujourd'hui diffusée par l'EBI (European
Bioinformatics Institute, Cambridge, GB)
Genbank: Créée en 1982 par la société IntelliGenetics (Los Alamos, US) et diffusée maintenant
par le NCBI (National Center for Biotechnology Information, Bethesda, US)
DDBJ (DNA Data Bank of Japan) : Créée en 1986 et diffusée par le NIG (National Institute of
Genetics, Japon).
Depuis
Depuis 1987,
1987, ces
ces banques
banques échangent
échangent quotidiennement
quotidiennement leurs
leurs fichiers
fichiers afin
afin de
de
garantir
garantir dans
dans chacune
chacune d'elles
d'elles un
un ensemble
ensemble de
de données
données le
le plus
plus complet
complet possible.
possible.
Chaque
Chaque enregistrement
enregistrement ou
ou «« entrée
entrée »» correspond
correspond àà une
une séquence
séquence nucléique.
nucléique.
9
EMBL = GENBANK = DDBJ
Organisation de l’information
Format
Format général
général
• « flat file» ou fichier plat
• les banques sont distribuées sous forme de fichiers texte (ASCII)
• les données sont organisées séquentiellement
22 parties
parties dans
dans une
une fiche
fiche
Les
Les champs
champs
• des informations relatives à la séquence (annotation)
• la séquence elle-même
• ils facilitent l’accès à l’information
• chaque champ regroupe des informations de même type
Les séquences biologiques sont souvent:
-redondantes
-dispersées dans différentes banques de données
-ont des nomenclatures diverses et variées (synonymes)
Pour identifier ces séquences, les différentes banques de données leur assignent des
Numéros d'Accession uniques au sein de leurs collections respectives. Pour pointer
sans ambiguité sur un tel objet, on utilise la notation:
Banque:NuméroAccession
10
Les champs d’une fiche: EMBL
Code à 2 lettres
Identifiant
Identifiant
Numéro
Numéro d’accession
d’accession
Description
Description
Annotation
Mots
Mots clés
clés
Organisme
Organisme
Classification
Classification taxonomique
taxonomique
Références
Références
Références
Références croisées
croisées
ID
XX
AC
XX
SV
XX
DT
DT
XX
DE
XX
KW
XX
OS
OC
OC
XX
RN
RP
RX
RX
RA
RA
RA
RT
RT
RL
XX
RN
RP
RA
RT
RL
RL
RL
XX
DR
DR
XX
FH
FH
AF199028
Nature
Division
standard; mRNA; HUM; 1009 BP.
AF199028;
AF199028.1
20-JUL-2000 (Rel. 64, Created)
20-JUL-2000 (Rel. 64, Last updated, Version 1)
Homo sapiens B7-like protein (GL50) mRNA, complete cds.
.
Homo sapiens (human)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
Eutheria; Primates; Catarrhini; Hominidae; Homo.
[1]
1-1009
MEDLINE; 20126021.
PUBMED; 10657606.
Ling V., Wu P.W., Finnerty H.F., Bean K.M., Spaulding V., Fouser L.A.,
Leonard J.P., Hunter S.E., Zollner R., Thomas J.L., Miyashiro J.S.,
Jacobs K.A., Collins M.;
"Identification of GL50, a novel B7-like protein that functionally binds to
ICOS receptor";
J. Immunol. 164(4):1653-1657(2000).
[2]
1-1009
Ling V.;
;
Submitted (26-OCT-1999) to the EMBL/GenBank/DDBJ databases.
Immunology, Genetics Institute, 87 CambridgePark Drive, Cambridge, MA
02140, USA
GOA; O75144.
SWISS-PROT; O75144; ICOL_HUMAN.
Key
Location/Qualifiers
Annotation
Les champs d’une fiche: EMBL
Caractéristiques
Caractéristiques
Sequence
Séquence
Séquence «« header
header »»
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
XX
SQ
Séquence
Séquence
Fin
Fin fiche
fiche
source
CDS
1..1009
/db_xref="taxon:9606"
/mol_type="mRNA"
/organism="Homo sapiens"
/cell_type="peripheral blood lymphocyte"
24..953
/codon_start=1
/db_xref="GOA:O75144"
/db_xref="SWISS-PROT:O75144"
/note="ICOS-ligand"
/gene="GL50"
/product="B7-like protein"
/protein_id="AAF34739.1"
/translation="MRLGSPGLLFLLFSSLRADTQEKEVRAMVGSDVELSCACPEGSRF
DLNDVYVYWQTSESKTVVTYHIPQNSSLENVDSRYRNRALMSPAGMLRGDFSLRLFNVT
PQDEQKFHCLVLSQSLGFQEVLSVEVTLHVAANFSVPVVSAPHSPSQDELTFTCTSING
YPRPNVYWINKTDNSLLDQALQNDTVFLNMRGLYDVVSVLRIARTPSVNIGCCIENVLL
QQNLTVGSQTGNDIGERDKITENPVSTGEKNAATWSILAVLCLLVVVAVAIGWVCRDRC
LQHSYAGAWAVSPETELTESWNLLLLLS"
Sequence 1009 BP; 232
ggcccgaggt ctccgcccgc
tcagcagcct tcgagctgat
tggagctcag ctgcgcttgc
attggcaaac cagtgagtcg
tggaaaacgt ggacagccgc
ggggcgactt ctccctgcgc
gcctggtgtt gagccaatcc
atgtggcagc aaacttcagc
agctcacctt cacgtgtaca
ataagacgga caacagcctg
tgcggggctt gtatgacgtg
ttggctgctg catagagaac
gaaatgacat cggagagaga
acgcggccac gtggagcatc
taggctgggt gtgcagggac
gtccggagac agagctcact
tgttctctat gcaacttcca
A; 289 C; 281 G; 207 T; 0 other;
accatgcggc tgggcagtcc tggactgctc
actcaggaga aggaagtcag agcgatggta
cctgaaggaa gccgttttga tttaaatgat
aaaaccgtgg tgacctacca catcccacag
taccggaacc gagccctgat gtcaccggcc
ttgttcaacg tcacccccca ggacgagcag
ctgggattcc aggaggtttt gagcgttgag
gtgcccgtcg tcagcgcccc ccacagcccc
tccataaacg gctaccccag gcccaacgtg
ctggaccagg ctctgcagaa tgacaccgtc
gtcagcgtgc tgaggatcgc acggaccccc
gtgcttctgc agcagaacct gactgtcggc
gacaagatca cagagaatcc agtcagtacc
ctggctgtcc tgtgcctgct tgtggtcgtg
cgatgcctcc aacacagcta tgcaggtgcc
gaatcctgga acctgctcct tctgctctcg
ataaaacctc ttcatttgaa aaaaaaaaa
ttcctgctct
ggcagcgacg
gtttacgtat
aacagctcct
ggcatgctgc
aagtttcact
gttacactgc
tcccaggatg
tactggatca
ttcttgaaca
agcgtgaaca
agccagacag
ggcgagaaaa
gcggtggcca
tgggctgtga
tgactgactg
60
120
180
240
300
360
420
480
540
600
660
720
780
840
900
960
1009
//
11
Les champs d’une fiche: GENBANK
Nature
Identifiant
Identifiant
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
Numéro
d’accession
Organisme
Organisme
Classification
taxonomique
Références
Références
Caractéristiques
Caractéristiques
AF199028
1009 bp
mRNA
linear
PRI 17-FEB-2000
Homo sapiens B7-like protein (GL50) mRNA, complete cds.
AF199028
AF199028.1 GI:6983943
.
Homo sapiens (human)
Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE
1 (bases 1 to 1009)
AUTHORS
Ling,V., Wu,P.W., Finnerty,H.F., Bean,K.M., Spaulding,V.,
Fouser,L.A., Leonard,J.P., Hunter,S.E., Zollner,R., Thomas,J.L.,
Miyashiro,J.S., Jacobs,K.A. and Collins,M.
TITLE
Cutting edge: identification of GL50, a novel B7-like protein that
functionally binds to ICOS receptor
JOURNAL
J. Immunol. 164 (4), 1653-1657 (2000)
MEDLINE
20126021
PUBMED
10657606
REFERENCE
2 (bases 1 to 1009)
AUTHORS
Ling,V.
TITLE
Direct Submission
JOURNAL
Submitted (26-OCT-1999) Immunology, Genetics Institute, 87
FEATURES
Location/Qualifiers
source
1..1009
/organism="Homo sapiens"
/mol_type="mRNA"
/cell_type="peripheral blood lymphocyte"
gene
1..1009
/gene="GL50"
CDS
24..953
/gene="GL50"
/note="ICOS-ligand"
/codon_start=1
/product="B7-like protein"
/protein_id="AAF34739.1"
/db_xref="GI:6983944"
/translation="MRLGSPGLLFLLFSSLRADTQEKEVRAMVGSDVELSCACPEGSR
FDLNDVYVYWQTSESKTVVTYHIPQNSSLENVDSRYRNRALMSPAGMLRGDFSLRLFN
VTPQDEQKFHCLVLSQSLGFQEVLSVEVTLHVAANFSVPVVSAPHSPSQDELTFTCTS
INGYPRPNVYWINKTDNSLLDQALQNDTVFLNMRGLYDVVSVLRIARTPSVNIGCCIE
NVLLQQNLTVGSQTGNDIGERDKITENPVSTGEKNAATWSILAVLCLLVVVAVAIGWV
CRDRCLQHSYAGAWAVSPETELTESWNLLLLLS"
Les champs d’une fiche: GENBANK
Séquence
Séquence
Fin
Fin fiche
fiche
BASE COUNT
232 a
289 c
ORIGIN
1 ggcccgaggt ctccgcccgc
61 tcagcagcct tcgagctgat
121 tggagctcag ctgcgcttgc
181 attggcaaac cagtgagtcg
241 tggaaaacgt ggacagccgc
301 ggggcgactt ctccctgcgc
361 gcctggtgtt gagccaatcc
421 atgtggcagc aaacttcagc
481 agctcacctt cacgtgtaca
541 ataagacgga caacagcctg
601 tgcggggctt gtatgacgtg
661 ttggctgctg catagagaac
721 gaaatgacat cggagagaga
781 acgcggccac gtggagcatc
841 taggctgggt gtgcagggac
901 gtccggagac agagctcact
961 tgttctctat gcaacttcca
//
281 g
accatgcggc
actcaggaga
cctgaaggaa
aaaaccgtgg
taccggaacc
ttgttcaacg
ctgggattcc
gtgcccgtcg
tccataaacg
ctggaccagg
gtcagcgtgc
gtgcttctgc
gacaagatca
ctggctgtcc
cgatgcctcc
gaatcctgga
ataaaacctc
207 t
tgggcagtcc
aggaagtcag
gccgttttga
tgacctacca
gagccctgat
tcacccccca
aggaggtttt
tcagcgcccc
gctaccccag
ctctgcagaa
tgaggatcgc
agcagaacct
cagagaatcc
tgtgcctgct
aacacagcta
acctgctcct
ttcatttgaa
tggactgctc
agcgatggta
tttaaatgat
catcccacag
gtcaccggcc
ggacgagcag
gagcgttgag
ccacagcccc
gcccaacgtg
tgacaccgtc
acggaccccc
gactgtcggc
agtcagtacc
tgtggtcgtg
tgcaggtgcc
tctgctctcg
aaaaaaaaa
ttcctgctct
ggcagcgacg
gtttacgtat
aacagctcct
ggcatgctgc
aagtttcact
gttacactgc
tcccaggatg
tactggatca
ttcttgaaca
agcgtgaaca
agccagacag
ggcgagaaaa
gcggtggcca
tgggctgtga
tgactgactg
12
Croissance des entrées Embl
07
07 septembre
septembre 2007
2007
13
Origine des entrées Embl
Origine géographique des entrées Embl
14
Quelques surprises !
Informations
Informations inattendues
inattendues
FT source 1..124
FT
FT
/organelle="plastid:chloroplast"
FT
/organism="Nicotiana tabacum"
FT
/isolate="Cuban cahibo cigar, gift from President Fidel Castro"
Ou
Ou encore
encore
FT source
FT
FT
FT
FT
FT
FT
FT
1..17084
/chromosome="complete mitochondrial genome"
/organelle="mitochondrion"
/organism="Didelphis virginiana"
/dev_stage="adult"
/isolate="fresh road killed individual"
/tissue_type="liver"
« Défauts» des banques nucléiques
Aucun
Aucun contrôle
contrôle des
des banques:
banques:
Hétérogénéité:
Hétérogénéité:
• les auteurs sont responsables de la qualité des séquences
soumises.
• ADN nucléaire, mitochondrial, chloroplastique, ARNm, ARNt, ARNs,
ARNr, chromosomes entiers ...
• gènes, fragments … (10 bp à 350000 bp)
Variabilité
Variabilité de
de l'état
l'état des
des
connaissances
connaissances sur
sur les
les séquences:
séquences:
• Annotation effectuée ou non
• Annotation hétérogènes: automatique ou expérimentale
Erreurs
Erreurs dans
dans les
les séquences
séquences (qualité
(qualité inégale):
inégale):
• origine du fragment
• cultures infectés
• présence de séquences de vecteurs de clonage
• erreurs de saisie
Redondance
Redondance des
des données:
données: plusieurs
plusieurs entrées
entrées pour
pour une
une même
même séquence
séquence
• Certains gènes sont séquencés à la fois sous forme d'ARNm et de fragments génomiques.
• Certaines séquences ont été saisies plusieurs fois dans la banque.
15
Les banques protéiques
• Données
expérimentales: isolation, séquençage
• Données in silico: déduction à partir de la séquence nucléique par
Simple traduction automatique (ex: TrEmbl)
Traduction avec une expertise manuelle (ex: Swissprot)
Les banques issues de la traduction des banques nucléiques
TrEMBL
TrEMBL et
et GenPept
GenPept
• les séquences protéiques traduites automatiquement
séquences dites codantes dans EMBL et GenBank.
des
TrEMBL: distribuée par l'EBI. Contient la traduction des parties codantes (CDS) des
séquences nucléotidiques stockées dans EMBL à l'exception de celles déjà présentes dans
SWISSPROT.
GenPept: distribuée par Frederick Biomedical Supercomputing Center. Ce n’est pas une
banque officielle du «NCBI-GenBank ». Contient la traduction de tous les CDS de GenBank.
NRprot: distribuée par le NCBI. Réunion de plusieurs banques: SwissProt, Nrl-3D, PIR,
Genpept, en ne gardant qu'un exemplaire des séquences strictement identiques.
ATTENTION:
ATTENTION:
-Si
-Si les
les Banques
Banques nucléotidiques
nucléotidiques contiennent
contiennent des
des séquences
séquences non
non vérifiées,
vérifiées, les
les
séquences
séquences protéiques
protéiques et
et annotations
annotations peuvent
peuvent également
également contenir
contenir des
des erreurs
erreurs de
de prédictions
prédictions des
des CDS,
CDS,
d’annotations.
d’annotations.
16
Expertise manuelle/expérimentale
Les banques issues de la traduction des banques nucléiques
(avec expertise manuelle / expérimentale)
• Protein Information Resource - Protein Sequence Database
• Création en 1984 (anciennement l'Atlas of Protein Sequences Dayhoff).
• Collaboration entre le Munich Information Center for Protein
Sequence (MIPS) et le Japan International Protein Information Database
(JIPID).
PIR-PSD
PIR-PSD
PIR-NREF
PIR-NREF
SwissProt
SwissProt
• Non-redundant REFerence protein database
• Les données sont issues de la littérature, des soumissions directes (PIRPSD, SwissProt, RefSeq, GenPept, and PDB) et de la traduction des
séquences nucléiques issues des banques nucléiques (EMBL, GenBank,
DDBJ).
• Création en 1986 par Amos Bairoch au SIB de Genève
• Collaboration entre l'EMBL et l'Institut Suisse de Bioinformatique
SwissProt / TrEMBL
UniProt = SwissProt + TrEMBL + PIR
Annotation Automatique
(Prosite,PFAM,
Rulebase, ENZYME,
MGD, Flybase…)
EMBL
flatfile
Annotation Manuelle
SP-TrEMBL
Elimination de la
redondance
Traduction des CDS
et format
SWISS-PROT
(Match identiques,
fragment inclu dans
une autre séquence,
variantes,conflits…)
SWISS-PROT
392667 entrées
(22 juillet 2008)
REM-TrEMBL
TrEMBL
6070084 entrées
(Immunoglobulines, récepteurs
T, CMH, brevet, pseudogènes,
séquences tronquées, gènes
artificiels,
synthétiques ou
chimériques, pseudo-gènes)
(22 juillet 2008)
17
SwissProt
Chaque entrée se divise en trois parties:
• le noyau (minimun requis):
composé de la séquence, des références bibliographiques et des données
taxonomiques.
• les annotations:
complexes et variées (informations sur la fonction de la protéine, sur les
modifications post-transcriptionnelles, les sites et les domaines
structuraux ou fonctionnels, la structure secondaire et quaternaire, des
informations de similarité, etc).
• les références croisées: à partir de chaque fiche, un certains nombre de
liens existent sur des banques thématiques en fonction des propriétés des
séquences.
Les champs d’une fiche: SwissProt
Identifiant
Identifiant
Numéro
d’accession
Description
Description
Organisme
Organisme
Classification
taxonomique
Annotation fonctionnelle
Références
Références
Commentaires
Commentaires
ID
AC
DT
DT
DT
DE
GN
OS
OC
OC
RN
RP
RC
RX
RA
RT
RT
RL
RN
RP
RC
RX
RA
RA
RT
RT
RL
:
:
CC
CC
CC
CC
CC
CC
CC
PURA_ECOLI
STANDARD;
PRT;
431 AA.
P12283;
01-OCT-1989 (REL. 12, CREATED)
01-FEB-1996 (REL. 33, LAST SEQUENCE UPDATE)
15-DEC-1998 (REL. 37, LAST ANNOTATION UPDATE)
ADENYLOSUCCINATE SYNTHETASE (EC 6.3.4.4) (IMP--ASPARTATE LIGASE).
PURA OR ADEK.
ESCHERICHIA COLI.
BACTERIA; PROTEOBACTERIA; GAMMA SUBDIVISION; ENTEROBACTERIACEAE;
ESCHERICHIA.
[1]
SEQUENCE FROM N.A., AND SEQUENCE OF 1-10.
STRAIN=K12;
MEDLINE; 89066719.
WOLFE S.A., SMITH J.M.;
"Nucleotide sequence and analysis of the purA gene encoding
adenylosuccinate synthetase of Escherichia coli K12.";
J. BIOL. CHEM. 263:19147-19153(1988).
[2]
SEQUENCE FROM N.A.
STRAIN=K12 / MG1655;
MEDLINE; 95334362.
BURLAND V.D., PLUNKETT G. III, SOFIA H.J., DANIELS D.L.,
BLATTNER F.R.;
"Analysis of the Escherichia coli genome VI: DNA sequence of the
region from 92.8 through 100 minutes.";
NUCLEIC ACIDS RES. 23:2105-2119(1995).
-!- FUNCTION: PLAYS AN IMPORTANT ROLE IN THE DE NOVO PATHWAY OF PURINE
NUCLEOTIDE BIOSYNTHESIS.
-!- CATALYTIC ACTIVITY: GTP + IMP + L-ASPARTATE = GDP +
ORTHOPHOSPHATE + ADENYLOSUCCINATE.
-!- PATHWAY: FIRST COMMITTED STEP IN AMP BIOSYNTHESIS.
-!- SUBUNIT: HOMODIMER.
-!- SIMILARITY: WITH OTHER ADENYLOSUCCINATE SYNTHETASES.
18
SwissProt
Annotation fonctionnelle
Références
Références croisées
croisées
Mots
Mots clés
clés
Caractéristiques
Caractéristiques
DR
DR
DR
DR
DR
DR
DR
:
DR
DR
DR
DR
DR
DR
DR
DR
DR
KW
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
SQ
Séquence
Séquence
Fin
Fin fiche
fiche
EMBL; J04199; AAA24446.1; -.
EMBL; U14003; AAA97073.1; -.
EMBL; AE000490; AAC77134.1; -.
PIR; A31965; AJECDS.
PDB; 1ADE; 26-JAN-96.
PDB; 1ADI; 10-JUN-96.
PDB; 1GIM; 23-DEC-96.
PDB; 1KSZ; 08-OCT-97.
PDB; 1NHT; 08-OCT-97.
PDB; 1SON; 04-SEP-97.
PDB; 1SOO; 04-SEP-97.
PDB; 1JUY; 24-JUN-97.
ECOGENE; EG10790; PURA.
PROSITE; PS00513; ADENYLOSUCCIN_SYN_2; 1.
PROSITE; PS01266; ADENYLOSUCCIN_SYN_1; 1.
PFAM; PF00709; Adenylsucc_synt; 1.
PURINE BIOSYNTHESIS; LIGASE; GTP-BINDING; 3D-STRUCTURE.
INIT_MET
0
0
NP_BIND
12
18
GTP (POTENTIAL).
ACT_SITE
140
140
ACT_SITE
147
147
PROBABLE.
MUTAGEN
12
12
G->V: SIGNIFICANT REDUCTION IN ACTIVITY.
MUTAGEN
15
15
MUTAGEN
17
17
MUTAGEN
18
18
K->R: SIGNIFICANT REDUCTION IN ACTIVITY.
MUTAGEN
19
19
I->T: SIGNIFICANT REDUCTION IN ACTIVITY.
MUTAGEN
140
140
K->I: TOTAL LOSS OF ACTIVITY.
MUTAGEN
147
147
R->L: REDUCED ACTIVITY.
CONFLICT
416
416
G -> D (IN REF. 1).
SEQUENCE
431 AA; 47213 MW; 26EA38AC CRC32;
GNNVVVLGTQ WGDEGKGKIV DLLTERAKYV VRYQGGHNAG HTLVINGEKT VLHLIPSGIL
RENVTSIIGN GVVLSPAALM KEMKELEDRG IPVRERLLLS EACPLILDYH VALDNAREKA
RGAKAIGTTG RGIGPAYEDK VARRGLRVGD LFDKETFAEK LKEVMEYHNF QLVNYYKAEA
VDYQKVLDDT MAVADILTSM VVDVSDLLDQ ARQRGDFVMF EGAQGTLLDI DHGTYPYVTS
SNTTAGGVAT GSGLGPRYVD YVLGILKAYS TRVGAGPFPT ELFDETGEFL CKQGNEFGAT
TGRRRRTGWL DTVAVRRAVQ LNSLSGFCLT KLDVLDGLKE VKLCVAYRMP DGREVTTTPL
AADDWKGVEP IYETMPGWSE STFGVKDRSG LPQAALNYIK RIEELTGVPI DIISTGPDRT
ETMILRDPFD A
//
19
Erreurs d’annotation
• Les erreurs d'annotation sont fréquentes dans les banques.
• Elles sont souvent dues à l'utilisation des méthodes informatiques
automatiques pour l'analyse des données de séquençage systématique.
• Les annotations fonctionnelles (même automatique) sont propagées de
manière répétitive de séquence en séquence, sans référence à la première
source, ceci menant à une propagation transitive et catastrophique des erreurs
d'annotations.
• Dans certaines banques généralistes (à l'exception de SwissProt), il est
impossible de savoir si une séquence a été annotée suite à une expérimentation
ou suite à une analyse informatique.
Il
Il serait
serait nécessaire
nécessaire de
de pouvoir
pouvoir répondre
répondre aux
aux questions
questions suivantes
suivantes lorsqu'on
lorsqu'on s'intéresse
s'intéresse àà
une
une séquence
séquence précise:
précise:
•• La
La fonction
fonction a-t-elle
a-t-elle été
été attribuée
attribuée expérimentalement?
expérimentalement?
•• Si
Si non:
non: Est-ce
Est-ce un
un programme
programme ou
ou une
une personne
personne qui
qui aa prédit
prédit cette
cette fonction?
fonction?
•• Si
Si c'est
c'est un
un programme:
programme: Lequel?
Lequel?
•• Si
Si c'est
c'est une
une personne:
personne: A
A l'aide
l'aide de
de quel(s)
quel(s) algorithme(s)?
algorithme(s)?
Banques spécialisées/thématiques
Les banques généralistes présentent des avantages (exhaustivité) et des limites (imprécisions,
redondance, …).
La
La version
version électronique
électronique de
de la
la revue
revue NAR
NAR de
de Janvier
Janvier 2008
2008 permet
permet d’accéder
d’accéder àà une
une liste
liste de
de 1078
1078
bases:
bases: http://www3.oup.co.uk/nar/database/a/
http://www3.oup.co.uk/nar/database/a/ (libre
(libre diffusion)
diffusion)
Les banques thématiques: elles peuvent réunir au sein d'une même structure
des séquences nucléotidiques ou protéiques sélectionnées selon un critère
précis (un même génome, une structure moléculaire, regroupement en famille,
présence d'un motif ou d'un domaine protéique...), mais il existe également
des banques qui abordent des aspects de la biologie moléculaire non
directement liés aux séquences (métabolisme, réseaux de régulations, données
d'expression...)
20
Sur un organisme particulier
21
Quelques banques de motifs ou de domaines protéiques
•
PROSITE ( http://www.expasy.ch/prosite/)
- Dictionnaire de sites et motifs protéiques
PRINTS (Protein Motif Fingerprint Database)
(http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/printsman.html)
- Groupe conservé de motifs utilisé pour caractériser une famille de protéines
BLOCKS (http://www.blocks.fhcrc.org/)
- Alignements multiples de régions sans gap correspondant aux régions les plus
conservées des protéines
PFAM (Protein Family database) (http://www.sanger.ac.uk/Pfam/help/)
- Banque de familles de protéines et de domaines
PRODOM (Protein Domain database) (http://protein.toulouse.inra.fr/prodom.html)
- Compilation automatisée des domaines homologues (alignements multiples et
concensus) détectés dans SWISSPROT
Interpro (Integrated Resource of Protein Domains and Functional Sites)
(http://www.ebi.ac.uk/interpro/)
SWISS-PROT, PRINTS, TrEMBL, Pfam, PROSITE, ProDom, Smart, TIGRFAMs,
PIR SuperFamily
•
•
•
•
•
Les banques de structures
•
•
•
PDB (Protein Data Bank) (http://www.rcsb.org/pdb/)
- Séquences primaires de la PDB accessibles dans NRL-3D (PIR)
PROCAT (http://www.biochem.ucl.ac.uk/bsm/PROCAT/PROCAT.html)
- Représentation 3D des sites actifs des enzymes
PRESAGE (http://presage.berkeley.edu/)
- Collection d'annotations sur chaque protéine reflétant les connaissances
en termes de structures et de fonctions de celle-ci.
45632 structures
22
Centre de ressources (Données bibliographiques et/ou séquences)
- PASTEUR: http://www.pasteur.fr/
- NAR: http://www3.oup.co.uk/nar/database/a/
- EBI: http://www.ebi.ac.uk/Databases/index.html
- NCBI: http://www.ncbi.nlm.nih.gov/
- Expasy: http://www.expasy.org/
- ISB: http://www.isb-sib.ch/
- Genome Net: http://www.genome.ad.jp/
Interrogation des banques de données
Recherche
Recherche d’informations
d’informations
• Interroger plusieurs bases (> 1000)
• Relier entre elles les données extraites (Intégrer les données)
• Problème majeur: HETEROGENEITE des données (nature, formats)
Comment
Comment intégrer
intégrer ces
ces données
données biologiques,
biologiques, hétérogènes
hétérogènes et
et distribuées,
distribuées, afin
afin qu’elles
qu’elles soient
soient
accessibles
accessibles et
et exploitables
exploitables aussi
aussi facilement
facilement que
que si
si elles
elles figuraient
figuraient dans
dans une
une seule
seule et
et même
même
base
base ??
-Ajouter, au-dessus des bases existantes, une couche logicielle
• offre les interfaces nécessaires entre les bases
• fait apparaître l’ensemble comme une seule base virtuelle
-Résoudre les problèmes d’incompatibilité syntaxique et sémantique
23
Interrogation des bases de données
SRS
SRS (Sequence
(Sequence Retrieval
Retrieval System).
System).
Logiciel créé par Thure Etzold et proposé par de
nombreux sites serveurs : il permet une interrogation
simple ou croisée sur un éventail large de bases en
biologie moléculaire. Chaque site SRS propose un
ensemble spécifique de bases données.
ENTREZ
ENTREZ (NCBI
(NCBI WWW
WWW Entrez
Entrez Browser)
Browser)
Interrogation des séquences moléculaires de
Medline, GenBank, EMBL, DDBJ, PIR,
SwissProt, PRF et PDB.
………
…
http://downloads.lionbio.co.uk/publicsrs.html
24
25
26
Pour une recherche simple
27
Pour une recherche élaborée
28
ATPase
29
30
31

Cours de Bioinformatique Appliquée (Partie 1)

Transcription

Documents pareils

UNIVERSIDADES FRANCESAS PARTICIPANTES DO COLÉGIO

Suzanne Giorgio

419.376 - Roularta

Mise en page 1 - Hôtel Agora à Aix les Bains

BTS Opticien lunetier

marseille - Les Régionales

DUT Gestion des Entreprises et des Administrations (GEA) Option

ECOLE D`ARCHITECTURE DE MARSEILLE LUMINY

Plaquette de présentation - Santé

[unes - 2] blp/unes/30.pages 05/05/16