1 Gé l 1. Génomes complets 2. Architecture des génomes 3
Transcription
1 Gé l 1. Génomes complets 2. Architecture des génomes 3
Plan 1. Gé 1 Génomes complets l 2. Architecture des génomes 3. Annotation des génomes a) b) c) Annotation structurale : localisation des éléments génétiques Annotation fonctionnelle Intégrations Annotation Fonctionnelle Recherche de la fonction des gènes ou des protéines Génomique fonctionnelle - transcriptomique p mq - protéomique - interactomique... Données b bl bibliographiques h Prédictions in silico Génomique 1 Annotation fonctionnelle gène protéine Fasta, Blastp Psi-Blast Banques protéiques généralistes UniProt RefSeq Protéines homologues Génomique Propagation des erreurs Banque ? Protéine query Les erreurs d’annotation BLASTP Protéine mal annotée Génomique 2 PH1475 (SPT:O59144) Annotation 351AA long hypothetical Glycerol 1-Phaphate dehydrogenase 1e-07 1e-05 SPT:P72010 P72010 GLYCEROL 1-PHAPHATE DEHYDROGENASE. 3/2001 SPTNEW:AAK41055 Aak41055 GLYCEROL-1-PHOSPHATE DEHYDROGENASE ... SPT:Q9UXE7 Q9uxe7 GLYCEROL 1-PHOSPHATE DEHYDROGENASE. 3/2001 SPT:Q9YER2 Q9yer2 370AA LONG HYPOTHETICAL GLYCEROL DEHYDROGE... SPTNEW:BAB60393 Bab60393 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENA... SPT:Q9HJ16 Q9hj16 GLYCEROL 1-PHOSPHATE DEHYDROGENASE RELATED... SPT:Q9HS49 Q9hs49 VNG0406C. 3/2001 SW:Y712_METJA Q58122 HYPOTHETICAL PROTEIN MJ0712. 8/2001 SPT:O28599 O28599 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE (GLD... SPT:Q9X7U9 Q9x7u9 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 SPT:Q9L1H9 Q9l1h9 PUTATIVE DEHYDROGENASE. 6/2001 SW:ARAM_BACSU P94527 ARABINOSE OPERON PROTEIN ARAM. 8/2001 SPT:O85004 O85004 PUTATIVE GLYCEROL-2-PHOSPHATE DEHYDROGENAS... SPT:Q9KBR3 Q9kbr3 L-ARABINOSE UTILIZATION PROTEIN. 10/2000 SPT:Q9WYC1 Q9wyc1 ARAM PROTEIN, PUTATIVE. 6/2001 SPT:Q9RGD4 Q9rgd4 GLYCEROL DEHYDROGENASE (EC 1.1.1.6). 6/2001 SW:GLDA_CITFR P45511 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... SPT:Q9HHR2 Q9hhr2 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE. 6/2001 SW:GLDA_ECOLI P32665 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... SPTNEW:BAB38297 Bab38297 GLYCEROL DEHYDROGENASE. 6/2001 SPTNEW:AAG59146 Aag59146 GLYCEROL DEHYDROGENASE, (NAD). 6/2001 SPT:Q99XT5 Q99xt5 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 SW:GLDA_BACST P32816 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... SW:GLDA_PSEPU P50173 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... SW:YB67_SYNY3 P74246 HYPOTHETICAL OXIDOREDUCTASE SLR1167. 8/... SPT:O13702 O13702 PUTATIVE GLYCEROL DEHYDROGENASE (EC 1.1.1.... SW:YBDH_ECOLI P45579 HYPOTHETICAL OXIDOREDUCTASE IN CSTA-AHP... SPTNEW:AAG54934 Aag54934 PUTATIVE OXIDOREDUCTASE. 6/2001 SW:AROB BUCAI P57604 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... SPT:Q9RNG6 Q9rng6 3-DEHYDROQUINATE SYNTHETASE HOMOLOG (FRAGM... SPT:Q9A434 Q9a434 3-DEHYDROQUINATE SYNTHASE. 6/2001 SPT:Q9U2M4 Q9u2m4 Y38F1A.6 PROTEIN. 6/2001 SW:ADHB_CLOAB Q04945 NADH-DEPENDENT BUTANOL DEHYDROGENASE B ... SPT:Q9JVW5 Q9jvw5 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... SW:CLCE_PSEAE O87612 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... SPT:Q9PNT2 Q9pnt2 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... SW:CLCE_PSESB O30847 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... SW:AROB_SALTY P77980 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... SW:AROB_BACSU P31102 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... SPT:P70784 P70784 TECR. 6/2001 Propagation des erreurs Banque 356 337 337 320 283 277 277 265 248 182 176 157 154 145 120 87 81 80 79 79 79 78 78 70 65 64 63 62 59 57 53 52 52 52 52 52 52 51 50 50 3e-97 2e-91 2e-91 2e-86 2e-75 2e-73 2e-73 5e-70 9e-65 5e-45 5e-43 3e-37 1e-36 1e-33 3e-26 4e-16 2e-14 4e-14 7e-14 9e-14 9e-14 2e-13 2e-13 5e-11 2e-09 2e-09 6e-09 8e-09 9e-08 5e-07 7e-06 9e-06 9e-06 1e-05 1e-05 2e-05 2e-05 3e-05 4e-05 6e-05 Les erreurs d’annotation BLASTP ? Protéine query Protéines modulaires Protéine mal annotée Protéine query BLASTP Banque Génomique 3 Annotation des protéines gène INTE ERPRO Prints Prodom Prosite protéine Smart CD seearch Fasta, Blastp Psi-Blast Smart Pfam Banques protéiques généralistes SwissProt Motifs, domaines, SpTrEMBL PIR Protéines homologues Génomique Propagation des erreurs Les erreurs d’annotation Banque BLASTP ? Protéine query Protéines modulaires Protéine mal annotée Protéine query Paralogie Banque BLASTP BLASTP ? Protéine query Fonction 1 paralogue Fonction 2 Banque Génomique 4 Relations d’homologie Rappel orthologie paralogie ancêtre X0 Espèce 0 X0 spéciation X1 X2 espèce 1 espèce 2 duplication Y0 Z0 espèce 0 xénologie Gène ancestral commun X espèce 1 Y espèce 2 Transfert horizontal X et Y espèce 1 Fonction souvent Fonction souvent conservée légèrement différente Devenir des paralogues Après è duplication… 1 gène conserve fonction initiale, l’autre dégénère 1 gène conserve fonction initiale, l’autre évolue rapidement => pseudogène => nouvelle fonction le gène ancestral a plusieurs fonctions, les 2 gènes perdent une partie de leur fonction => complémentation maintien de la fonction ancestrale mais spécialisation ex: expression tissu-spécifique 5 Importance de la paralogie 6% 3% 7% 2% 3% 0% 5% 0% 0% 0% 43% ATPase et GTPase NAD/FAD utilizing enzymes DNA binding proteins 47% Signal transduction systems 36% 42% Synechocystis sp. (57%) Methanococcus jannaschii (53%) Fe-S oxidoreductases S-adenosylmethionine methyltransferase Other families of paralogs 8% 12% 2% 0% 1% 2% 3% 0% 1% 20% 59% 27% 65% No paralogs Prokaryotic genomes: the emerging paradigm of genome-based microbiology Koonin & Galperin Current Opinion in Genetics & development 7:757-763 (1997) Haemophilus influenzae (41%) Mycoplasma genitalium (35%) Génomique Importance de la paralogie Segmentally duplicated regions in the Arabidopsis genome. The Arabidopsis Genome Initiative. Nature 408:796-815 (2000) 6 Importance de la paralogie 3 des 5 classes de protéases chez l’homme, la souris et le rat Génomique Rat Genome Sequencing Project Consortium, Nature 2004 Identification des orthologues gi|2129084|pir||C64499 isocitrate dehydrogenase (EC 1.1.1.-... gi|7431325|pir||A69113 isocitrate dehydrogenase - Methanoba... gi|6685584|sp|O27441|LEU3_METTH 3-ISOPROPYLMALATE DEHYDROGE... gi|2129085|pir||H64389 isocitrate dehydrogenase (NADP+) (EC... gi|3915940|sp|Q58130|LEU3_METJA 3-ISOPROPYLMALATE DEHYDROGE... gi|11498236|ref|NP_069462.1| 3-isopropylmalate dehydrogenas... gi|14521551|ref|NP_127027.1| 3-isopropylmalate dehydrogenas... gi|7473536|pir||E75368 probable isocitrate dehydrogenase - ... gi|15023878|gb|AAK78948.1|AE007613_4 (AE007613) Isocitrate ... gi|6686294|sp|P50455|LEU3_SULS7 3-ISOPROPYLMALATE DEHYDROGE... gi|11251519|pir||A82539 g | |p || isocitrate dehydrogenase y g XF2596 [ [im... gi|7492685|pir||T38621 probable isopropyl malate dehydrogen... gi|6015753|emb|CAB57580.1| (Y18930) 3-isopropylmalate dehyd... gi|6322097|ref|NP_012172.1| Homo-isocitrate dehydrogenase; ... gi|14520655|ref|NP_126130.1| 3-isopropylmalate dehydrogenas... gi|462385|sp|P33197|IDH_THETH ISOCITRATE DEHYDROGENASE [NAD... gi|281496|pir||A43934 isocitrate dehydrogenase (NADP+) (EC ... gi|15282623|ref|NP_201775.1| 3-isopropylmalate dehydrogenas... gi|6685603|sp|Q9WZ26|LEU3_THEMA 3-ISOPROPYLMALATE DEHYDROGE... gi|6225524|sp|Q9ZDR0|IDH_RICPR ISOCITRATE DEHYDROGENASE [NA... 666 310 303 295 294 278 274 271 262 253 251 249 246 239 235 231 231 228 224 224 0.0 1e-83 2e-81 5e-79 6e-79 4e-74 1e-72 6e-72 3e-69 1e-66 5e-66 3e-65 2e-64 3e-62 3e-61 7e-60 8e-60 8e-59 8e-58 8e-58 7 Identification des orthologues Comparaison par Blastp des protéines des génomes complets « all-against-all » protein sequence comparison • recherche des protéines dont le meilleur hit est à l’intérieur du même génome Identification des paralogues « récents » • recherche des meilleurs hits réciproques (« reciprocal best hits ») P1 best hit reciprocal best hit P10 P2 P3 P26 P4 P50 Méthode utilisée dans COG P5 … http://www.ncbi.nlm.nih.gov/COG Génome A Génome B Arbres phylogénétiques Famille X Sp2 Sp3 Sp4 Sp5 Famille Y Sp1 Sp4 Sp5 Sp6 Sp7 Sp8 Sp9 8 Annotation fonctionnelle gène Pfam Prodom Prosite Prédictions ab initio IN NTERPRO Prints protéine Hélices transmembranaires Peptide signal Fasta, Blastp Psi-Blast Smart Structures secondaires ... Blocks Banques protéiques généralistes COG SwissProt Motifs, domaines, familles SpTrEMBL PIR Protéines homologues Localisation, structure, ... Génomique Bilan des annotations 9 Bilan des annotations Erreur d’annotations : 8% (Brenner, Trends Genet. 1999) L’annotation est un processus dynamique => Intégration de nouvelles données Bilan des annotations Estimated percentages of error for different functional descriptions in three microbial genomes Devos & Valencia, Trends In Genetics, 2001 10 Bilan des annotations Misannotation over time in the NR database (from Genbank) for the 37 families investigated. Schnoes et al, Plos Computational Biology, 2009 Plan 1. Gé 1 Génomes complets l 2. Architecture des génomes 3. Annotation des génomes a) b) c) Annotation structurale : localisation des éléments génétiques Annotation fonctionnelle Intégration 11 Localisation des éléments génétiques • éléments répétés • régions de régulation • gènes codant pour des ARNs non traduits • gènes protéiques, pseudogènes… Protéines • recherche de similarité • recherche de domaines fonctionnels • recherche de motifs « signature » Intégration biologique • reconstitution des processus biologiques Voies métaboliques,… • reconstitution des interactions,… • modélisation des systèmes… Une tâche infinie !!! Intégration : catégories fonctionnelles E. coli K12 12 Intégration : GO Ontologie utilisée pour annoter les gènes et leurs produits (ARN,protéines) (ARN protéines) => vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à n’importe quel organisme Structure de l’ontologie : un graphe => noeuds = concepts liens : is_a et part_of 3 ontologies: fonction moléculaire localisation cellulaire processus biologique Intégration des données Gene Ontology Annotation for Human 13 KEGG (Kyoto Encyclopedia of Genes and Genomes) http://www.genome.jp/kegg/ KEGG pathways Global metabolic map 14 KEGG metabolic pathways Ex: Homo sapiens Kegg pathways Ex : DNA replication 15 STRING http://string.embl.de/ STRING 16 From genome to systems biology Borodina & Nielsen, Current Opinion in Biotechnology, 2005 17