1 Gé l 1. Génomes complets 2. Architecture des génomes 3

Transcription

1 Gé l 1. Génomes complets 2. Architecture des génomes 3
Plan
1. Gé
1
Génomes complets
l
2. Architecture des génomes
3. Annotation des génomes
a)
b)
c)
Annotation structurale : localisation des éléments génétiques
Annotation fonctionnelle
Intégrations
Annotation Fonctionnelle
Recherche de la fonction
des gènes ou des protéines
Génomique fonctionnelle
- transcriptomique
p mq
- protéomique
- interactomique...
Données
b bl
bibliographiques
h
Prédictions in silico
Génomique
1
Annotation fonctionnelle
gène
protéine
Fasta, Blastp
Psi-Blast
Banques protéiques généralistes
UniProt
RefSeq
Protéines homologues
Génomique
Propagation des erreurs
Banque
?
Protéine query
Les erreurs
d’annotation
BLASTP
Protéine mal
annotée
Génomique
2
PH1475
(SPT:O59144)
Annotation
351AA long hypothetical
Glycerol 1-Phaphate
dehydrogenase
1e-07
1e-05
SPT:P72010 P72010 GLYCEROL 1-PHAPHATE DEHYDROGENASE. 3/2001
SPTNEW:AAK41055 Aak41055 GLYCEROL-1-PHOSPHATE DEHYDROGENASE ...
SPT:Q9UXE7 Q9uxe7 GLYCEROL 1-PHOSPHATE DEHYDROGENASE. 3/2001
SPT:Q9YER2 Q9yer2 370AA LONG HYPOTHETICAL GLYCEROL DEHYDROGE...
SPTNEW:BAB60393 Bab60393 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENA...
SPT:Q9HJ16 Q9hj16 GLYCEROL 1-PHOSPHATE DEHYDROGENASE RELATED...
SPT:Q9HS49 Q9hs49 VNG0406C. 3/2001
SW:Y712_METJA Q58122 HYPOTHETICAL PROTEIN MJ0712. 8/2001
SPT:O28599 O28599 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE (GLD...
SPT:Q9X7U9 Q9x7u9 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001
SPT:Q9L1H9 Q9l1h9 PUTATIVE DEHYDROGENASE. 6/2001
SW:ARAM_BACSU P94527 ARABINOSE OPERON PROTEIN ARAM. 8/2001
SPT:O85004 O85004 PUTATIVE GLYCEROL-2-PHOSPHATE DEHYDROGENAS...
SPT:Q9KBR3 Q9kbr3 L-ARABINOSE UTILIZATION PROTEIN. 10/2000
SPT:Q9WYC1 Q9wyc1 ARAM PROTEIN, PUTATIVE. 6/2001
SPT:Q9RGD4 Q9rgd4 GLYCEROL DEHYDROGENASE (EC 1.1.1.6). 6/2001
SW:GLDA_CITFR P45511 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL...
SPT:Q9HHR2 Q9hhr2 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE. 6/2001
SW:GLDA_ECOLI P32665 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL...
SPTNEW:BAB38297 Bab38297 GLYCEROL DEHYDROGENASE. 6/2001
SPTNEW:AAG59146 Aag59146 GLYCEROL DEHYDROGENASE, (NAD). 6/2001
SPT:Q99XT5 Q99xt5 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001
SW:GLDA_BACST P32816 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL...
SW:GLDA_PSEPU P50173 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL...
SW:YB67_SYNY3 P74246 HYPOTHETICAL OXIDOREDUCTASE SLR1167. 8/...
SPT:O13702 O13702 PUTATIVE GLYCEROL DEHYDROGENASE (EC 1.1.1....
SW:YBDH_ECOLI P45579 HYPOTHETICAL OXIDOREDUCTASE IN CSTA-AHP...
SPTNEW:AAG54934 Aag54934 PUTATIVE OXIDOREDUCTASE. 6/2001
SW:AROB BUCAI P57604 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3)....
SPT:Q9RNG6 Q9rng6 3-DEHYDROQUINATE SYNTHETASE HOMOLOG (FRAGM...
SPT:Q9A434 Q9a434 3-DEHYDROQUINATE SYNTHASE. 6/2001
SPT:Q9U2M4 Q9u2m4 Y38F1A.6 PROTEIN. 6/2001
SW:ADHB_CLOAB Q04945 NADH-DEPENDENT BUTANOL DEHYDROGENASE B ...
SPT:Q9JVW5 Q9jvw5 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/...
SW:CLCE_PSEAE O87612 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ...
SPT:Q9PNT2 Q9pnt2 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/...
SW:CLCE_PSESB O30847 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ...
SW:AROB_SALTY P77980 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3)....
SW:AROB_BACSU P31102 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3)....
SPT:P70784 P70784 TECR. 6/2001
Propagation des erreurs
Banque
356
337
337
320
283
277
277
265
248
182
176
157
154
145
120
87
81
80
79
79
79
78
78
70
65
64
63
62
59
57
53
52
52
52
52
52
52
51
50
50
3e-97
2e-91
2e-91
2e-86
2e-75
2e-73
2e-73
5e-70
9e-65
5e-45
5e-43
3e-37
1e-36
1e-33
3e-26
4e-16
2e-14
4e-14
7e-14
9e-14
9e-14
2e-13
2e-13
5e-11
2e-09
2e-09
6e-09
8e-09
9e-08
5e-07
7e-06
9e-06
9e-06
1e-05
1e-05
2e-05
2e-05
3e-05
4e-05
6e-05
Les erreurs
d’annotation
BLASTP
?
Protéine query
Protéines modulaires
Protéine mal
annotée
Protéine query
BLASTP
Banque
Génomique
3
Annotation des protéines
gène
INTE
ERPRO
Prints
Prodom
Prosite
protéine
Smart
CD seearch
Fasta, Blastp
Psi-Blast
Smart
Pfam
Banques protéiques généralistes
SwissProt
Motifs, domaines,
SpTrEMBL
PIR
Protéines homologues
Génomique
Propagation des erreurs
Les erreurs
d’annotation
Banque
BLASTP
?
Protéine query
Protéines modulaires
Protéine mal
annotée
Protéine query
Paralogie
Banque
BLASTP
BLASTP
?
Protéine query
Fonction 1
paralogue
Fonction 2
Banque
Génomique
4
Relations d’homologie
Rappel
orthologie
paralogie
ancêtre
X0
Espèce 0
X0
spéciation
X1
X2
espèce 1 espèce 2
duplication
Y0
Z0
espèce 0
xénologie
Gène ancestral
commun
X
espèce 1
Y
espèce 2
Transfert horizontal
X et Y
espèce 1
Fonction souvent
Fonction souvent
conservée
légèrement différente
Devenir des paralogues

Après
è duplication…

1 gène conserve fonction initiale, l’autre dégénère

1 gène conserve fonction initiale, l’autre évolue rapidement
=> pseudogène
=> nouvelle fonction

le gène ancestral a plusieurs fonctions, les 2 gènes perdent
une partie de leur fonction
=> complémentation

maintien de la fonction ancestrale mais spécialisation
ex: expression tissu-spécifique
5
Importance de la paralogie
6%
3%
7% 2%
3%
0%
5%
0%
0%
0%
43%
ATPase et GTPase
NAD/FAD utilizing enzymes
DNA binding proteins
47%
Signal transduction systems
36%
42%
Synechocystis sp. (57%)
Methanococcus jannaschii (53%)
Fe-S oxidoreductases
S-adenosylmethionine methyltransferase
Other families of paralogs
8%
12%
2%
0%
1%
2%
3%
0%
1%
20%
59%
27%
65%
No paralogs
Prokaryotic genomes: the emerging paradigm
of genome-based microbiology
Koonin & Galperin
Current Opinion in Genetics & development
7:757-763 (1997)
Haemophilus influenzae (41%) Mycoplasma genitalium (35%)
Génomique
Importance de la paralogie
Segmentally duplicated regions in the Arabidopsis genome.
The Arabidopsis Genome Initiative. Nature 408:796-815 (2000)
6
Importance de la paralogie
3 des 5 classes de protéases chez l’homme, la souris et le rat
Génomique
Rat Genome Sequencing Project Consortium, Nature 2004
Identification des orthologues
gi|2129084|pir||C64499 isocitrate dehydrogenase (EC 1.1.1.-...
gi|7431325|pir||A69113 isocitrate dehydrogenase - Methanoba...
gi|6685584|sp|O27441|LEU3_METTH 3-ISOPROPYLMALATE DEHYDROGE...
gi|2129085|pir||H64389 isocitrate dehydrogenase (NADP+) (EC...
gi|3915940|sp|Q58130|LEU3_METJA 3-ISOPROPYLMALATE DEHYDROGE...
gi|11498236|ref|NP_069462.1| 3-isopropylmalate dehydrogenas...
gi|14521551|ref|NP_127027.1| 3-isopropylmalate dehydrogenas...
gi|7473536|pir||E75368 probable isocitrate dehydrogenase - ...
gi|15023878|gb|AAK78948.1|AE007613_4 (AE007613) Isocitrate ...
gi|6686294|sp|P50455|LEU3_SULS7 3-ISOPROPYLMALATE DEHYDROGE...
gi|11251519|pir||A82539
g
|
|p ||
isocitrate dehydrogenase
y
g
XF2596 [
[im...
gi|7492685|pir||T38621 probable isopropyl malate dehydrogen...
gi|6015753|emb|CAB57580.1| (Y18930) 3-isopropylmalate dehyd...
gi|6322097|ref|NP_012172.1| Homo-isocitrate dehydrogenase; ...
gi|14520655|ref|NP_126130.1| 3-isopropylmalate dehydrogenas...
gi|462385|sp|P33197|IDH_THETH ISOCITRATE DEHYDROGENASE [NAD...
gi|281496|pir||A43934 isocitrate dehydrogenase (NADP+) (EC ...
gi|15282623|ref|NP_201775.1| 3-isopropylmalate dehydrogenas...
gi|6685603|sp|Q9WZ26|LEU3_THEMA 3-ISOPROPYLMALATE DEHYDROGE...
gi|6225524|sp|Q9ZDR0|IDH_RICPR ISOCITRATE DEHYDROGENASE [NA...
666
310
303
295
294
278
274
271
262
253
251
249
246
239
235
231
231
228
224
224
0.0
1e-83
2e-81
5e-79
6e-79
4e-74
1e-72
6e-72
3e-69
1e-66
5e-66
3e-65
2e-64
3e-62
3e-61
7e-60
8e-60
8e-59
8e-58
8e-58
7
Identification des orthologues
Comparaison par Blastp des protéines des génomes complets
« all-against-all » protein sequence comparison
• recherche des protéines dont le meilleur hit est à l’intérieur du même génome
 Identification des paralogues « récents »
• recherche des meilleurs hits réciproques (« reciprocal best hits »)
P1
best hit
reciprocal best hit
P10
P2
P3
P26
P4
P50
Méthode utilisée dans COG
P5
…
http://www.ncbi.nlm.nih.gov/COG
Génome A
Génome B
Arbres phylogénétiques
Famille X
Sp2
Sp3
Sp4
Sp5
Famille Y
Sp1
Sp4
Sp5
Sp6
Sp7
Sp8
Sp9
8
Annotation fonctionnelle
gène
Pfam
Prodom
Prosite
Prédictions
ab initio
IN
NTERPRO
Prints
protéine
Hélices
transmembranaires
Peptide signal
Fasta, Blastp
Psi-Blast
Smart
Structures secondaires
...
Blocks
Banques protéiques généralistes
COG
SwissProt
Motifs, domaines,
familles
SpTrEMBL
PIR
Protéines homologues
Localisation,
structure, ...
Génomique
Bilan des annotations
9
Bilan des annotations
Erreur d’annotations :
8%
(Brenner, Trends Genet. 1999)
L’annotation est un processus dynamique
=> Intégration de nouvelles données
Bilan des annotations
Estimated percentages of error for different functional descriptions in three microbial genomes
Devos & Valencia, Trends In Genetics, 2001
10
Bilan des annotations
Misannotation over time in the NR database (from Genbank)
for the 37 families investigated.
Schnoes et al, Plos Computational Biology, 2009
Plan
1. Gé
1
Génomes complets
l
2. Architecture des génomes
3. Annotation des génomes
a)
b)
c)
Annotation structurale : localisation des éléments génétiques
Annotation fonctionnelle
Intégration
11
 Localisation des
éléments génétiques
• éléments répétés
• régions de régulation
• gènes codant pour des ARNs non traduits
• gènes protéiques, pseudogènes…
 Protéines
• recherche de similarité
• recherche de domaines fonctionnels
• recherche de motifs « signature »
 Intégration biologique
• reconstitution des processus biologiques
Voies métaboliques,…
• reconstitution des interactions,…
• modélisation des systèmes…
Une tâche infinie !!!
Intégration : catégories fonctionnelles
E. coli K12
12
Intégration : GO
Ontologie utilisée pour annoter les gènes et leurs produits (ARN,protéines)
(ARN protéines)
=> vocabulaire standardisé permettant la définition non ambigüe des concepts,
s’applique à n’importe quel organisme
Structure de l’ontologie : un graphe
=> noeuds = concepts
 liens : is_a et part_of
3 ontologies:
 fonction moléculaire
 localisation cellulaire
 processus biologique
Intégration des données
Gene Ontology
Annotation for
Human
13
KEGG
(Kyoto Encyclopedia of Genes and Genomes)
http://www.genome.jp/kegg/
KEGG pathways
Global metabolic map
14
KEGG metabolic pathways
Ex: Homo sapiens
Kegg pathways
Ex : DNA replication
15
STRING
http://string.embl.de/
STRING
16
From genome to systems biology
Borodina & Nielsen, Current Opinion in Biotechnology, 2005
17

Documents pareils