Cours de Bioinformatique Appliquée (Partie 1)
Transcription
Cours de Bioinformatique Appliquée (Partie 1)
Enseignement de Bioinformatique Appliquée CM 10h – TD 16h (4 séances de 4h) – Travail Personnel 8h Travail Personnel -Rapport de TD -Libre service informatique -Clinique pédagogique (Salle 1er étage BU) Horaires TD 5 groupes (11, 12, 13, 14, 15-BIM) Séance 1 -Lundi 15 Sept 8-12h (14,15-BIM) -Mardi 16 Sept 8-12h (11,12,13) Séance 2 -Lundi 22 Sept 8-12h (14,15-BIM) -Mardi 23 Sept 8-12h (11,12,13) Séance 3 -Lundi 29 Sept 8-12h (14,15-BIM) -Mardi 30 Sept 8-12h (11,12,13) Séance 4 -Lundi 06 Oct 8-12h (14,15-BIM) -Mardi 07 Oct 8-12h (11,12,13) Supports de CM et TD Etudiants non inscrits à luminy???? Horaires de CM -08 Sept 14-16h -09 Sept 10-12h -15 Sept 14-16h -22 Sept 14-16h -29 Sept 14-16h http://biologie.univ-mrs.fr/ [email protected] Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Cours de Bioinformatique Appliquée (Partie 1) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 1 Qu’est-ce que la bioinformatique? Domaine interdisciplinaire basé sur les acquis de la biologie, des mathématiques et de l’informatique. Biologie « in silico ». C’est une discipline en pleine révolution. Au coeur de cette révolution, l’informatique joue un rôle central pour : ▪ Acquisition des données (décoder les régions importantes des génomes) (Séquençage et Annotation des génomes) ▪ Archivage, Stockage et Diffusion des données biologiques (Banques et bases de données) ▪ Recherche, Analyse, Interpretation et Exploitation des données (Processus automatisés => algorithmes spécifiques) (Prédiction fonctionnelle) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Bioinformatiques ▪ Bioinfo de paillasse ▪ Analyse des séquences support au clonage, séquençage, & PCR... identification gènes, comparaisons de séquences, prédiction motifs... ▪ Phylogénie ▪ Structure des protéines évolution à l'échelle moléculaire... calcul, visualisation, prédiction... ▪ Liaison génétique ▪ Génomique fonctionnelle gènes candidats de maladies génétiques... transcriptome, protéome, interactome... Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 2 Deux définitions possibles ▪ Applications de l’informatique à la biologie (computational biology) ▪ Analyse de l’information biologique (bioinformatics) Elle est surtout utilisée pour: ▪L’identification des gènes ▪La prédiction fonctionnelle de ces gènes Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Repères historiques (1) 1953: Structure en double hélice de l ’ADN (Watson-Crick) 1956: Séquence en acides aminés de la première protéine: insuline (Sanger) 1958: Première structure 3D de protéine (myoglobine, Kendrew) 1955-1965: Premiers langages informatiques, premier ordinateur commercial 1965: Première compilation de protéines Atlas of Protein Sequences (50 entrées) M. Dayhoff (Imprimé jusqu’en 1978, puis format électronique PIR-PSD) 1970: 1er programme pour la comparaison de séquences protéiques Alignement optimal entre deux séquences (Needleman & Wunsh) 1971: PDB - Protein Data Bank (structures 3D macromolécules) 1974: Algorithme de prédiction de structure secondaire de protéine Chou-Fasman 1977: Mise au point des techniques de séquençage de l’ADN 1978: Matrice de substitution (PAM) (Dayhoff et. al.) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 3 Repères historiques (2) 1980: Constitution des banques de données: EMBL (Heidelberg -> Cambridge (EBI)) 1981: Similarités de séquences dans les banques (Smith & Waterman) 1984: Logiciel d’analyse de séquence (UW GCG) Devereux et. al. 1985: CABIOS (première revue de bioinformatique) 1986: Swiss-Prot (A. Bairoch) SIB: Swiss Institute of bioinformatics 1986: Genbank (Los Alamos NIH (National Institute of Health)) 1987: Genbank, EMBL et DDBJ s’échangent leur contenu et adoptent un système de conventions communes (The DDBJ/EMBL/Genbank feature Table Definition) 1988: Processus de double publication. Dépôt des séquences dans une banque avant soumission de l’article associé aux revues scientifiques. 1988: FASTA - Sim. de séq. dans les banques Pearson & Lipman Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Repères historiques (3) 1988-90: Lancement du programme international de séquençage Génome Humain (HUGO) 1988: Double publication des séquences (banque puis publication avec AC) 1989: Internet 1990: BLAST – Sim. de séq. dans les banques Atschul et. al. 1991: Prédiction struct. III protéines Bowie et. al. 1992: Création du centre de séquençage Sanger (moitié de la "production" mondiale) 1993: GeneMark - Programme de Prédiction gènes génomes bactériens Borodovsky et. al. 1995: Séquençage 'shotgun' génome Haemophilus 1.8Mb Venter et. al. 1996: Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb) Goffeau et al. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 4 Repères historiques (4) 1997: Clonage de la brebis Dolly. 1997: PFam - Banque de domaines protéiques Sonnhammer et. al. 1997: GENSCAN - Prédiction gènes génomes eucaryotes Burge et. al. 1998: Séquençage du 1er organisme pluricellulaire, Caenorhabditis elegans (120 MB) 1999: Publication de la séquence complète du chromosome 22 2000: -Publication du "working draft" (brouillon) de la première carte complète du génome humain (3000 MB). -Séquençage du 1er génome de plante, Arabidopsis thaliana 2001: Publication des travaux de séquençage du génome humain presque complet. 2002: Projet protéome humain (HPP) 2003: Séquençage de plusieurs organismes eucaryotes 2006: Séquençage à très grande échelle (454 flex technology, Solexa technology) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Plan du cours I. Les banques de données en biologie 1. Généralités 2. Les banques de données bibliographiques 3. Les banques de séquences 4. Centres de ressources 5. Les systèmes d’interrogation des banques II. Analyse de séquences 1. Introduction 2. Analyse d’une séquence 3. Comparaison de 2 séquences 4. Recherche de protéines homologues Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 5 Banques de données / Bases de données Collection de données (séquence, format, structure) en « fichier texte »: • organisation séquentielle des données Format simple, lisible Pas facilement interrogeable. Données portables dans différents environnements informatiques Banques Banques Bases Bases Notion de tables (objet défini) et de relations entre les tables Modélisation avec liens logiques entre les données (sans redondance) Requêtes multicritères (langage de requêtes et de manipulation de données) Exploitées à l’aide de Systèmes de Gestion de Bases de Données (SGBD) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Rôle des banques/bases de données Collecter Collecter les les informations informations - séquences, cartographie physique, génétique… - données structurales, relationnelles… - auprès de: biologistes, littératures, autres bases de données Stocker Stocker et et organiser organiser - logique cohérente Distribuer Distribuer l’information l’information - large diffusion (libre, Internet) Faciliter Faciliter l’exploitation l’exploitation - interface conviviales - définition des critères de recherche - comparaison de données Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 6 Banque/Base de données bibliographiques (Pubmed) National Center for Biotechnology Information Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Banque/Base de données bibliographiques (Pubmed) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 7 Banque/Base de données bibliographiques (Pubmed) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Banque/Base de données bibliographiques (Pubmed) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 8 Les banques généralistes Bibliothèques Bibliothèques de de fiches fiches descriptives descriptives (entrées) (entrées) de de séquences séquences nucléiques nucléiques ou ou protéiques, protéiques, quelque quelque soit soit l'organisme l'organisme dont dont elles elles sont sont issues, issues, et et quelle quelle que que soit soit leur leur nature nature (ADN, (ADN, ADNc, ADNc, ARN, ARN, protéine). protéine). Elles Elles contiennent contiennent sous sous forme forme de de commentaires commentaires structurés structurés des des informations informations variées, variées, issues issues d'expertises d'expertises biologiques biologiques ou ou d'analyses d'analyses bioinformatiques bioinformatiques (annotation). (annotation). Mission: Mission: Rendre Rendre publiques publiques les les données données issues issues des des fonds fonds publics, publics, donc donc collectives collectives Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Les banques nucléiques Les Les 33 banques banques nucléotidiques nucléotidiques principales principales coexistent coexistent et et coopèrent: coopèrent: •• Elles Elles collectent collectent des des informations informations de de séquences séquences (associées (associées ou ou non non àà une une publication) publication) par par soumission soumission directe directe des des auteurs auteurs (95% (95% de de l'ensemble l'ensemble des des données) données) mais mais également également par par balayage balayage systématique systématique de de la la littérature littérature scientifique scientifique (principalement (principalement les les brevets). brevets). EMBL: Banque européenne créée en 1980 (Heidelberg, DE) et financée par l'EMBO (European Moleculary Biology Organisation), elle est aujourd'hui diffusée par l'EBI (European Bioinformatics Institute, Cambridge, GB) Genbank: Créée en 1982 par la société IntelliGenetics (Los Alamos, US) et diffusée maintenant par le NCBI (National Center for Biotechnology Information, Bethesda, US) DDBJ (DNA Data Bank of Japan) : Créée en 1986 et diffusée par le NIG (National Institute of Genetics, Japon). Depuis Depuis 1987, 1987, ces ces banques banques échangent échangent quotidiennement quotidiennement leurs leurs fichiers fichiers afin afin de de garantir garantir dans dans chacune chacune d'elles d'elles un un ensemble ensemble de de données données le le plus plus complet complet possible. possible. Chaque Chaque enregistrement enregistrement ou ou «« entrée entrée »» correspond correspond àà une une séquence séquence nucléique. nucléique. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 9 EMBL = GENBANK = DDBJ Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Organisation de l’information Format Format général général • « flat file» ou fichier plat • les banques sont distribuées sous forme de fichiers texte (ASCII) • les données sont organisées séquentiellement 22 parties parties dans dans une une fiche fiche Les Les champs champs • des informations relatives à la séquence (annotation) • la séquence elle-même • ils facilitent l’accès à l’information • chaque champ regroupe des informations de même type Les séquences biologiques sont souvent: -redondantes -dispersées dans différentes banques de données -ont des nomenclatures diverses et variées (synonymes) Pour identifier ces séquences, les différentes banques de données leur assignent des Numéros d'Accession uniques au sein de leurs collections respectives. Pour pointer sans ambiguité sur un tel objet, on utilise la notation: Banque:NuméroAccession Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 10 Les champs d’une fiche: EMBL Code à 2 lettres Identifiant Identifiant Numéro Numéro d’accession d’accession Description Description Annotation Mots Mots clés clés Organisme Organisme Classification Classification taxonomique taxonomique Références Références Références Références croisées croisées ID XX AC XX SV XX DT DT XX DE XX KW XX OS OC OC XX RN RP RX RX RA RA RA RT RT RL XX RN RP RA RT RL RL RL XX DR DR XX FH FH AF199028 Nature Division standard; mRNA; HUM; 1009 BP. AF199028; AF199028.1 20-JUL-2000 (Rel. 64, Created) 20-JUL-2000 (Rel. 64, Last updated, Version 1) Homo sapiens B7-like protein (GL50) mRNA, complete cds. . Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. [1] 1-1009 MEDLINE; 20126021. PUBMED; 10657606. Ling V., Wu P.W., Finnerty H.F., Bean K.M., Spaulding V., Fouser L.A., Leonard J.P., Hunter S.E., Zollner R., Thomas J.L., Miyashiro J.S., Jacobs K.A., Collins M.; "Identification of GL50, a novel B7-like protein that functionally binds to ICOS receptor"; J. Immunol. 164(4):1653-1657(2000). [2] 1-1009 Ling V.; ; Submitted (26-OCT-1999) to the EMBL/GenBank/DDBJ databases. Immunology, Genetics Institute, 87 CambridgePark Drive, Cambridge, MA 02140, USA GOA; O75144. SWISS-PROT; O75144; ICOL_HUMAN. Key Location/Qualifiers Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Annotation Les champs d’une fiche: EMBL Caractéristiques Caractéristiques Sequence Séquence Séquence «« header header »» FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT XX SQ Séquence Séquence Fin Fin fiche fiche source CDS 1..1009 /db_xref="taxon:9606" /mol_type="mRNA" /organism="Homo sapiens" /cell_type="peripheral blood lymphocyte" 24..953 /codon_start=1 /db_xref="GOA:O75144" /db_xref="SWISS-PROT:O75144" /note="ICOS-ligand" /gene="GL50" /product="B7-like protein" /protein_id="AAF34739.1" /translation="MRLGSPGLLFLLFSSLRADTQEKEVRAMVGSDVELSCACPEGSRF DLNDVYVYWQTSESKTVVTYHIPQNSSLENVDSRYRNRALMSPAGMLRGDFSLRLFNVT PQDEQKFHCLVLSQSLGFQEVLSVEVTLHVAANFSVPVVSAPHSPSQDELTFTCTSING YPRPNVYWINKTDNSLLDQALQNDTVFLNMRGLYDVVSVLRIARTPSVNIGCCIENVLL QQNLTVGSQTGNDIGERDKITENPVSTGEKNAATWSILAVLCLLVVVAVAIGWVCRDRC LQHSYAGAWAVSPETELTESWNLLLLLS" Sequence 1009 BP; 232 ggcccgaggt ctccgcccgc tcagcagcct tcgagctgat tggagctcag ctgcgcttgc attggcaaac cagtgagtcg tggaaaacgt ggacagccgc ggggcgactt ctccctgcgc gcctggtgtt gagccaatcc atgtggcagc aaacttcagc agctcacctt cacgtgtaca ataagacgga caacagcctg tgcggggctt gtatgacgtg ttggctgctg catagagaac gaaatgacat cggagagaga acgcggccac gtggagcatc taggctgggt gtgcagggac gtccggagac agagctcact tgttctctat gcaacttcca A; 289 C; 281 G; 207 T; 0 other; accatgcggc tgggcagtcc tggactgctc actcaggaga aggaagtcag agcgatggta cctgaaggaa gccgttttga tttaaatgat aaaaccgtgg tgacctacca catcccacag taccggaacc gagccctgat gtcaccggcc ttgttcaacg tcacccccca ggacgagcag ctgggattcc aggaggtttt gagcgttgag gtgcccgtcg tcagcgcccc ccacagcccc tccataaacg gctaccccag gcccaacgtg ctggaccagg ctctgcagaa tgacaccgtc gtcagcgtgc tgaggatcgc acggaccccc gtgcttctgc agcagaacct gactgtcggc gacaagatca cagagaatcc agtcagtacc ctggctgtcc tgtgcctgct tgtggtcgtg cgatgcctcc aacacagcta tgcaggtgcc gaatcctgga acctgctcct tctgctctcg ataaaacctc ttcatttgaa aaaaaaaaa ttcctgctct ggcagcgacg gtttacgtat aacagctcct ggcatgctgc aagtttcact gttacactgc tcccaggatg tactggatca ttcttgaaca agcgtgaaca agccagacag ggcgagaaaa gcggtggcca tgggctgtga tgactgactg 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1009 // Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 11 Les champs d’une fiche: GENBANK Nature Identifiant Identifiant LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM Numéro Numéro d’accession d’accession Organisme Organisme Classification Classification taxonomique taxonomique Références Références Caractéristiques Caractéristiques AF199028 1009 bp mRNA linear PRI 17-FEB-2000 Homo sapiens B7-like protein (GL50) mRNA, complete cds. AF199028 AF199028.1 GI:6983943 . Homo sapiens (human) Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 1009) AUTHORS Ling,V., Wu,P.W., Finnerty,H.F., Bean,K.M., Spaulding,V., Fouser,L.A., Leonard,J.P., Hunter,S.E., Zollner,R., Thomas,J.L., Miyashiro,J.S., Jacobs,K.A. and Collins,M. TITLE Cutting edge: identification of GL50, a novel B7-like protein that functionally binds to ICOS receptor JOURNAL J. Immunol. 164 (4), 1653-1657 (2000) MEDLINE 20126021 PUBMED 10657606 REFERENCE 2 (bases 1 to 1009) AUTHORS Ling,V. TITLE Direct Submission JOURNAL Submitted (26-OCT-1999) Immunology, Genetics Institute, 87 FEATURES Location/Qualifiers source 1..1009 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /cell_type="peripheral blood lymphocyte" gene 1..1009 /gene="GL50" CDS 24..953 /gene="GL50" /note="ICOS-ligand" /codon_start=1 /product="B7-like protein" /protein_id="AAF34739.1" /db_xref="GI:6983944" /translation="MRLGSPGLLFLLFSSLRADTQEKEVRAMVGSDVELSCACPEGSR FDLNDVYVYWQTSESKTVVTYHIPQNSSLENVDSRYRNRALMSPAGMLRGDFSLRLFN VTPQDEQKFHCLVLSQSLGFQEVLSVEVTLHVAANFSVPVVSAPHSPSQDELTFTCTS INGYPRPNVYWINKTDNSLLDQALQNDTVFLNMRGLYDVVSVLRIARTPSVNIGCCIE NVLLQQNLTVGSQTGNDIGERDKITENPVSTGEKNAATWSILAVLCLLVVVAVAIGWV CRDRCLQHSYAGAWAVSPETELTESWNLLLLLS" Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Les champs d’une fiche: GENBANK Séquence Séquence Fin Fin fiche fiche BASE COUNT 232 a 289 c ORIGIN 1 ggcccgaggt ctccgcccgc 61 tcagcagcct tcgagctgat 121 tggagctcag ctgcgcttgc 181 attggcaaac cagtgagtcg 241 tggaaaacgt ggacagccgc 301 ggggcgactt ctccctgcgc 361 gcctggtgtt gagccaatcc 421 atgtggcagc aaacttcagc 481 agctcacctt cacgtgtaca 541 ataagacgga caacagcctg 601 tgcggggctt gtatgacgtg 661 ttggctgctg catagagaac 721 gaaatgacat cggagagaga 781 acgcggccac gtggagcatc 841 taggctgggt gtgcagggac 901 gtccggagac agagctcact 961 tgttctctat gcaacttcca // 281 g accatgcggc actcaggaga cctgaaggaa aaaaccgtgg taccggaacc ttgttcaacg ctgggattcc gtgcccgtcg tccataaacg ctggaccagg gtcagcgtgc gtgcttctgc gacaagatca ctggctgtcc cgatgcctcc gaatcctgga ataaaacctc 207 t tgggcagtcc aggaagtcag gccgttttga tgacctacca gagccctgat tcacccccca aggaggtttt tcagcgcccc gctaccccag ctctgcagaa tgaggatcgc agcagaacct cagagaatcc tgtgcctgct aacacagcta acctgctcct ttcatttgaa tggactgctc agcgatggta tttaaatgat catcccacag gtcaccggcc ggacgagcag gagcgttgag ccacagcccc gcccaacgtg tgacaccgtc acggaccccc gactgtcggc agtcagtacc tgtggtcgtg tgcaggtgcc tctgctctcg aaaaaaaaa ttcctgctct ggcagcgacg gtttacgtat aacagctcct ggcatgctgc aagtttcact gttacactgc tcccaggatg tactggatca ttcttgaaca agcgtgaaca agccagacag ggcgagaaaa gcggtggcca tgggctgtga tgactgactg Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 12 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Croissance des entrées Embl 07 07 septembre septembre 2007 2007 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 13 Origine des entrées Embl Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Origine géographique des entrées Embl Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 14 Quelques surprises ! Informations Informations inattendues inattendues FT source 1..124 FT /db_xref="taxon:4097" FT /organelle="plastid:chloroplast" FT /organism="Nicotiana tabacum" FT /isolate="Cuban cahibo cigar, gift from President Fidel Castro" Ou Ou encore encore FT source FT FT FT FT FT FT FT 1..17084 /chromosome="complete mitochondrial genome" /db_xref="taxon:9267" /organelle="mitochondrion" /organism="Didelphis virginiana" /dev_stage="adult" /isolate="fresh road killed individual" /tissue_type="liver" Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II « Défauts» des banques nucléiques Aucun Aucun contrôle contrôle des des banques: banques: Hétérogénéité: Hétérogénéité: • les auteurs sont responsables de la qualité des séquences soumises. • ADN nucléaire, mitochondrial, chloroplastique, ARNm, ARNt, ARNs, ARNr, chromosomes entiers ... • gènes, fragments … (10 bp à 350000 bp) Variabilité Variabilité de de l'état l'état des des connaissances connaissances sur sur les les séquences: séquences: • Annotation effectuée ou non • Annotation hétérogènes: automatique ou expérimentale Erreurs Erreurs dans dans les les séquences séquences (qualité (qualité inégale): inégale): • origine du fragment • cultures infectés • présence de séquences de vecteurs de clonage • erreurs de saisie Redondance Redondance des des données: données: plusieurs plusieurs entrées entrées pour pour une une même même séquence séquence • Certains gènes sont séquencés à la fois sous forme d'ARNm et de fragments génomiques. • Certaines séquences ont été saisies plusieurs fois dans la banque. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 15 Les banques protéiques • Données expérimentales: isolation, séquençage • Données in silico: déduction à partir de la séquence nucléique par Simple traduction automatique (ex: TrEmbl) Traduction avec une expertise manuelle (ex: Swissprot) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Les banques issues de la traduction des banques nucléiques TrEMBL TrEMBL et et GenPept GenPept • les séquences protéiques traduites automatiquement séquences dites codantes dans EMBL et GenBank. des TrEMBL: distribuée par l'EBI. Contient la traduction des parties codantes (CDS) des séquences nucléotidiques stockées dans EMBL à l'exception de celles déjà présentes dans SWISSPROT. GenPept: distribuée par Frederick Biomedical Supercomputing Center. Ce n’est pas une banque officielle du «NCBI-GenBank ». Contient la traduction de tous les CDS de GenBank. NRprot: distribuée par le NCBI. Réunion de plusieurs banques: SwissProt, Nrl-3D, PIR, Genpept, en ne gardant qu'un exemplaire des séquences strictement identiques. ATTENTION: ATTENTION: -Si -Si les les Banques Banques nucléotidiques nucléotidiques contiennent contiennent des des séquences séquences non non vérifiées, vérifiées, les les séquences séquences protéiques protéiques et et annotations annotations peuvent peuvent également également contenir contenir des des erreurs erreurs de de prédictions prédictions des des CDS, CDS, d’annotations. d’annotations. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 16 Expertise manuelle/expérimentale Les banques issues de la traduction des banques nucléiques (avec expertise manuelle / expérimentale) • Protein Information Resource - Protein Sequence Database • Création en 1984 (anciennement l'Atlas of Protein Sequences Dayhoff). • Collaboration entre le Munich Information Center for Protein Sequence (MIPS) et le Japan International Protein Information Database (JIPID). PIR-PSD PIR-PSD PIR-NREF PIR-NREF SwissProt SwissProt • Non-redundant REFerence protein database • Les données sont issues de la littérature, des soumissions directes (PIRPSD, SwissProt, RefSeq, GenPept, and PDB) et de la traduction des séquences nucléiques issues des banques nucléiques (EMBL, GenBank, DDBJ). • Création en 1986 par Amos Bairoch au SIB de Genève • Collaboration entre l'EMBL et l'Institut Suisse de Bioinformatique Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II SwissProt / TrEMBL UniProt = SwissProt + TrEMBL + PIR Annotation Automatique (Prosite,PFAM, Rulebase, ENZYME, MGD, Flybase…) EMBL flatfile Annotation Manuelle SP-TrEMBL Elimination de la redondance Traduction des CDS et format SWISS-PROT (Match identiques, fragment inclu dans une autre séquence, variantes,conflits…) SWISS-PROT 392667 entrées (22 juillet 2008) REM-TrEMBL TrEMBL 6070084 entrées (Immunoglobulines, récepteurs T, CMH, brevet, pseudogènes, séquences tronquées, gènes artificiels, synthétiques ou chimériques, pseudo-gènes) (22 juillet 2008) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 17 SwissProt Chaque entrée se divise en trois parties: • le noyau (minimun requis): composé de la séquence, des références bibliographiques et des données taxonomiques. • les annotations: complexes et variées (informations sur la fonction de la protéine, sur les modifications post-transcriptionnelles, les sites et les domaines structuraux ou fonctionnels, la structure secondaire et quaternaire, des informations de similarité, etc). • les références croisées: à partir de chaque fiche, un certains nombre de liens existent sur des banques thématiques en fonction des propriétés des séquences. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Les champs d’une fiche: SwissProt Identifiant Identifiant Numéro Numéro d’accession d’accession Description Description Organisme Organisme Classification Classification taxonomique taxonomique Annotation fonctionnelle Références Références Commentaires Commentaires ID AC DT DT DT DE GN OS OC OC RN RP RC RX RA RT RT RL RN RP RC RX RA RA RT RT RL : : CC CC CC CC CC CC CC PURA_ECOLI STANDARD; PRT; 431 AA. P12283; 01-OCT-1989 (REL. 12, CREATED) 01-FEB-1996 (REL. 33, LAST SEQUENCE UPDATE) 15-DEC-1998 (REL. 37, LAST ANNOTATION UPDATE) ADENYLOSUCCINATE SYNTHETASE (EC 6.3.4.4) (IMP--ASPARTATE LIGASE). PURA OR ADEK. ESCHERICHIA COLI. BACTERIA; PROTEOBACTERIA; GAMMA SUBDIVISION; ENTEROBACTERIACEAE; ESCHERICHIA. [1] SEQUENCE FROM N.A., AND SEQUENCE OF 1-10. STRAIN=K12; MEDLINE; 89066719. WOLFE S.A., SMITH J.M.; "Nucleotide sequence and analysis of the purA gene encoding adenylosuccinate synthetase of Escherichia coli K12."; J. BIOL. CHEM. 263:19147-19153(1988). [2] SEQUENCE FROM N.A. STRAIN=K12 / MG1655; MEDLINE; 95334362. BURLAND V.D., PLUNKETT G. III, SOFIA H.J., DANIELS D.L., BLATTNER F.R.; "Analysis of the Escherichia coli genome VI: DNA sequence of the region from 92.8 through 100 minutes."; NUCLEIC ACIDS RES. 23:2105-2119(1995). -!- FUNCTION: PLAYS AN IMPORTANT ROLE IN THE DE NOVO PATHWAY OF PURINE NUCLEOTIDE BIOSYNTHESIS. -!- CATALYTIC ACTIVITY: GTP + IMP + L-ASPARTATE = GDP + ORTHOPHOSPHATE + ADENYLOSUCCINATE. -!- PATHWAY: FIRST COMMITTED STEP IN AMP BIOSYNTHESIS. -!- SUBUNIT: HOMODIMER. -!- SIMILARITY: WITH OTHER ADENYLOSUCCINATE SYNTHETASES. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 18 SwissProt Annotation fonctionnelle Références Références croisées croisées Mots Mots clés clés Caractéristiques Caractéristiques DR DR DR DR DR DR DR : DR DR DR DR DR DR DR DR DR KW FT FT FT FT FT FT FT FT FT FT FT FT SQ Séquence Séquence Fin Fin fiche fiche EMBL; J04199; AAA24446.1; -. EMBL; U14003; AAA97073.1; -. EMBL; AE000490; AAC77134.1; -. PIR; A31965; AJECDS. PDB; 1ADE; 26-JAN-96. PDB; 1ADI; 10-JUN-96. PDB; 1GIM; 23-DEC-96. PDB; 1KSZ; 08-OCT-97. PDB; 1NHT; 08-OCT-97. PDB; 1SON; 04-SEP-97. PDB; 1SOO; 04-SEP-97. PDB; 1JUY; 24-JUN-97. ECOGENE; EG10790; PURA. PROSITE; PS00513; ADENYLOSUCCIN_SYN_2; 1. PROSITE; PS01266; ADENYLOSUCCIN_SYN_1; 1. PFAM; PF00709; Adenylsucc_synt; 1. PURINE BIOSYNTHESIS; LIGASE; GTP-BINDING; 3D-STRUCTURE. INIT_MET 0 0 NP_BIND 12 18 GTP (POTENTIAL). ACT_SITE 140 140 ACT_SITE 147 147 PROBABLE. MUTAGEN 12 12 G->V: SIGNIFICANT REDUCTION IN ACTIVITY. MUTAGEN 15 15 G->V: SIGNIFICANT REDUCTION IN ACTIVITY. MUTAGEN 17 17 G->V: SIGNIFICANT REDUCTION IN ACTIVITY. MUTAGEN 18 18 K->R: SIGNIFICANT REDUCTION IN ACTIVITY. MUTAGEN 19 19 I->T: SIGNIFICANT REDUCTION IN ACTIVITY. MUTAGEN 140 140 K->I: TOTAL LOSS OF ACTIVITY. MUTAGEN 147 147 R->L: REDUCED ACTIVITY. CONFLICT 416 416 G -> D (IN REF. 1). SEQUENCE 431 AA; 47213 MW; 26EA38AC CRC32; GNNVVVLGTQ WGDEGKGKIV DLLTERAKYV VRYQGGHNAG HTLVINGEKT VLHLIPSGIL RENVTSIIGN GVVLSPAALM KEMKELEDRG IPVRERLLLS EACPLILDYH VALDNAREKA RGAKAIGTTG RGIGPAYEDK VARRGLRVGD LFDKETFAEK LKEVMEYHNF QLVNYYKAEA VDYQKVLDDT MAVADILTSM VVDVSDLLDQ ARQRGDFVMF EGAQGTLLDI DHGTYPYVTS SNTTAGGVAT GSGLGPRYVD YVLGILKAYS TRVGAGPFPT ELFDETGEFL CKQGNEFGAT TGRRRRTGWL DTVAVRRAVQ LNSLSGFCLT KLDVLDGLKE VKLCVAYRMP DGREVTTTPL AADDWKGVEP IYETMPGWSE STFGVKDRSG LPQAALNYIK RIEELTGVPI DIISTGPDRT ETMILRDPFD A // Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 19 Erreurs d’annotation • Les erreurs d'annotation sont fréquentes dans les banques. • Elles sont souvent dues à l'utilisation des méthodes informatiques automatiques pour l'analyse des données de séquençage systématique. • Les annotations fonctionnelles (même automatique) sont propagées de manière répétitive de séquence en séquence, sans référence à la première source, ceci menant à une propagation transitive et catastrophique des erreurs d'annotations. • Dans certaines banques généralistes (à l'exception de SwissProt), il est impossible de savoir si une séquence a été annotée suite à une expérimentation ou suite à une analyse informatique. Il Il serait serait nécessaire nécessaire de de pouvoir pouvoir répondre répondre aux aux questions questions suivantes suivantes lorsqu'on lorsqu'on s'intéresse s'intéresse àà une une séquence séquence précise: précise: •• La La fonction fonction a-t-elle a-t-elle été été attribuée attribuée expérimentalement? expérimentalement? •• Si Si non: non: Est-ce Est-ce un un programme programme ou ou une une personne personne qui qui aa prédit prédit cette cette fonction? fonction? •• Si Si c'est c'est un un programme: programme: Lequel? Lequel? •• Si Si c'est c'est une une personne: personne: A A l'aide l'aide de de quel(s) quel(s) algorithme(s)? algorithme(s)? Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Banques spécialisées/thématiques Les banques généralistes présentent des avantages (exhaustivité) et des limites (imprécisions, redondance, …). La La version version électronique électronique de de la la revue revue NAR NAR de de Janvier Janvier 2008 2008 permet permet d’accéder d’accéder àà une une liste liste de de 1078 1078 bases: bases: http://www3.oup.co.uk/nar/database/a/ http://www3.oup.co.uk/nar/database/a/ (libre (libre diffusion) diffusion) Les banques thématiques: elles peuvent réunir au sein d'une même structure des séquences nucléotidiques ou protéiques sélectionnées selon un critère précis (un même génome, une structure moléculaire, regroupement en famille, présence d'un motif ou d'un domaine protéique...), mais il existe également des banques qui abordent des aspects de la biologie moléculaire non directement liés aux séquences (métabolisme, réseaux de régulations, données d'expression...) Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 20 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Sur un organisme particulier Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 21 Quelques banques de motifs ou de domaines protéiques • PROSITE ( http://www.expasy.ch/prosite/) - Dictionnaire de sites et motifs protéiques PRINTS (Protein Motif Fingerprint Database) (http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/printsman.html) - Groupe conservé de motifs utilisé pour caractériser une famille de protéines BLOCKS (http://www.blocks.fhcrc.org/) - Alignements multiples de régions sans gap correspondant aux régions les plus conservées des protéines PFAM (Protein Family database) (http://www.sanger.ac.uk/Pfam/help/) - Banque de familles de protéines et de domaines PRODOM (Protein Domain database) (http://protein.toulouse.inra.fr/prodom.html) - Compilation automatisée des domaines homologues (alignements multiples et concensus) détectés dans SWISSPROT Interpro (Integrated Resource of Protein Domains and Functional Sites) (http://www.ebi.ac.uk/interpro/) SWISS-PROT, PRINTS, TrEMBL, Pfam, PROSITE, ProDom, Smart, TIGRFAMs, PIR SuperFamily • • • • • Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Les banques de structures • • • PDB (Protein Data Bank) (http://www.rcsb.org/pdb/) - Séquences primaires de la PDB accessibles dans NRL-3D (PIR) PROCAT (http://www.biochem.ucl.ac.uk/bsm/PROCAT/PROCAT.html) - Représentation 3D des sites actifs des enzymes PRESAGE (http://presage.berkeley.edu/) - Collection d'annotations sur chaque protéine reflétant les connaissances en termes de structures et de fonctions de celle-ci. 45632 structures Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 22 Centre de ressources (Données bibliographiques et/ou séquences) - PASTEUR: http://www.pasteur.fr/ - NAR: http://www3.oup.co.uk/nar/database/a/ - EBI: http://www.ebi.ac.uk/Databases/index.html - NCBI: http://www.ncbi.nlm.nih.gov/ - Expasy: http://www.expasy.org/ - ISB: http://www.isb-sib.ch/ - Genome Net: http://www.genome.ad.jp/ Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Interrogation des banques de données Recherche Recherche d’informations d’informations • Interroger plusieurs bases (> 1000) • Relier entre elles les données extraites (Intégrer les données) • Problème majeur: HETEROGENEITE des données (nature, formats) Comment Comment intégrer intégrer ces ces données données biologiques, biologiques, hétérogènes hétérogènes et et distribuées, distribuées, afin afin qu’elles qu’elles soient soient accessibles accessibles et et exploitables exploitables aussi aussi facilement facilement que que si si elles elles figuraient figuraient dans dans une une seule seule et et même même base base ?? -Ajouter, au-dessus des bases existantes, une couche logicielle • offre les interfaces nécessaires entre les bases • fait apparaître l’ensemble comme une seule base virtuelle -Résoudre les problèmes d’incompatibilité syntaxique et sémantique Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 23 Interrogation des bases de données SRS SRS (Sequence (Sequence Retrieval Retrieval System). System). Logiciel créé par Thure Etzold et proposé par de nombreux sites serveurs : il permet une interrogation simple ou croisée sur un éventail large de bases en biologie moléculaire. Chaque site SRS propose un ensemble spécifique de bases données. ENTREZ ENTREZ (NCBI (NCBI WWW WWW Entrez Entrez Browser) Browser) Interrogation des séquences moléculaires de Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB. Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II ……… … http://downloads.lionbio.co.uk/publicsrs.html Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 24 http://downloads.lionbio.co.uk/publicsrs.html Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II http://downloads.lionbio.co.uk/publicsrs.html Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 25 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 26 Pour une recherche simple Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 27 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Pour une recherche élaborée Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 28 ATPase Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 29 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 30 Licence Biologie – L2SV (2008-2009): Bioinformatique appliquée – Emmanuel Talla, Aix Marseille II 31