Prédiction des gènes protéiques

Transcription

Prédiction des gènes protéiques
Plan
3 Annotation
3.
A
i des
d génomes
é
a)
Annotation structurale : localisation des éléments génétiques






b)
c)
éléments répétés
gènes des ARN stables (ARNr, ARNt...)
gènes protéiques
Nb de gènes, taille du génome et complexité
pseudogènes
régions régulatrices
Annotation fonctionnelle
Intégrations
Prédiction des gènes protéiques
I
Importance
t
d
des ORF
ORFs chez
h les
l Procaryotes
P
t
les longues “Open Reading Frames” ont une forte probabilité de correspondre à
un véritable gène
• longs cadres ouverts de lecture
• recherche d’un codon initiateur
Open Reading Frame (=ORF)
*
start
gène
*
=> Approche empirique pour certains génomes
1
Approche empirique
APE1088
APE1093
APE1087
(1)
APE1091
(2)
APE1090
APE1096
APE1097
APE1095
APE1092
APE1094
APE1089
Exemple
p : une région
g
annotée du génome
g
de Aeropyrum
py
pernix
p
Gène fortement conservé
Gène faiblement conservé
Absence de similarité
Gènes non prédits lors de l’annotation initiale
(1) Protéine ribosomique L39e
(2) Protéine conservée chez les Archées
Annotation initiale : 2694 gènes protéiques
Ré-annotation
: estimation maximale de 1873 gènes (Natale et al, 2000)
Prédiction des gènes protéiques
• Importance
I
t
d
des ORF
ORFs chez
h les
l Procaryotes
P
t
• Difficultés chez les Eucaryotes
• faible densité de codage
• taille des gènes (cf taille et nombre des introns)
• splicing alternatif
• Méthodes utilisées
• Prédictions ab initio  méthodes intrinsèques
• Méthodes basées sur la similarité  méthodes extrinsèques
• Méthodes qui combinent les 2 approches précédentes
2
Prédictions ab initio chez les Procaryotes
Quelques programmes : Genemark, Glimmer, Ecoparse,...
GLIMMER : Gene Locator and Interpolated Markov Modeler
Les étapes :
1 - définition de l’ensemble de gènes de référence (training set)
2 - construction des modèles
IMM (Interpolated Markov Models) dans GLIMMER 1.0
ICM (Interpolated Context Models) dans GLIMMER 2.0
3 - évaluation
é l ti d
des séquences
é
codantes
d t potentielles
t ti ll en f
fonction
ti d
des modèles
dèl
4 – résolution des problèmes de chevauchements (overlaps)
Génomique
1- Définition de l’ensemble de référence
• Identification de toutes les “Open Reading Frames” (ORFs)
dans les 6 cadres avec une longueur > seuil (~ 90 bp par défaut)
• Sélection des ORFs qui vont constituer la banque de référence
- à partir de gènes connus (expérimentalement)
- à partir du génome longueur > 500 bp
absence de chevauchement avec une ORF > 500 bp
 Obtenir un ensemble importants de gènes “fiables”
5’
33’
Génomique
3
2 - Construction du modèle

Calcul des fréquences des oligomères (longueur 1 à 9)
 Estimation de la probabilité d’occurrence d’une base connaissant son
contexte (i bases précédentes avec i<=8)
exemple :
P(AATCG)=P(G|AATC)=
f(AATCG)
f(AATCA)+f(AATCC)+f(AATCG)+f(AATCT)
avec f fréquence
observée
•Pondération (λ) de l’importance des différents oligomères dans le
modèle (en fonction de leur occurrence)
Génomique
3 - Evaluation des gènes potentiels
Comparaison de chaque gène potentiel (>90 bp) au modèle :
La probabilité que le modèle M génère la séquence S est :
PS M IMM8(S x)
n
x 1
Gène potentiel
IMM8(Sx) : score de l’oligomère Sx dans le modèle de 8e ordre
S : oligomère
Sx
li
è se terminant
i
à position
ii x
n : longueur de la séquence.
x
n
1
ATG…………..……ATCTCAAATAC………………TAA
Sx
IMMk ( S x )   k ( S x 1 ) * Pk ( S x )  1  k ( S x 1 ) * IMMk 1 ( S x )
IMM8(Sx)= λ8(TCTCAAAT) X P8 (TCTCAAATA) + [1-λ8(TCTCAAAT)] X IMM7(Sx)
Si λ8 (TCTCAAAT)=0.9 :
IMM8(Sx)= 0.9 X P(A|TCTCAAAT) + 0.1X λ7(CTCAAAT) X P7(CTCAAATA)
Génomique
4
4 - Résolution des problèmes de chevauchement
Non
B
5’
5
3’
3
B
Score de A >Score de B
3’
A 5’
A
Exemple
Recherche d’un autre
codon initiateur
Cas possibles
A
B
3’
5’
B
5’
5’
B
3’
3’
3’
gène A
3’
3’
3’
5’
gène B
A 5’
5’
5’
A
5’
Nouveau codon start
gènes A et B
3’
A
B
3’
5’
5’
3’
Pas d’autre codon start
A
5’
3’
Longueur A >> longueur B
A
B
3’
5’
5’
3’
Overlap maintenu
Génomique
Glimmer is a system for finding genes in microbial DNA, especially the genomes of bacteria and archaea. Glimmer (Gene
Locator and Interpolated Markov Modeler) uses interpolated Markov models (IMMs) to identify the coding regions and
distinguish them from noncoding DNA.
http://www.tigr.org/softlab/glimmer/glimmer.html#refs
Génomique
5
Sous-prédictions
 Gènes de petite taille
N° d’accès
Description
Longueur
(aa)
P58077
50S ribosomal protein L21e
107
 Gènes de composition
biaisée
P58085
50S ribosomal protein L29p
66
P58026
50S ribosomal protein L34e
95
O29720
DNA gyrase subunit B
632
 Gènes présentant des
frameshifts
P58001
Probable exodeoxyribonuclease VII
small subunit
72
P58061
Probable protein export membrane
protein SECG
77
P58189
50S ribosomal protein L31e
95
P58078
30S ribosomal protein S27e
65
P58193
Probable translation factor SUII
h
homolog
l
99
P58008
Hypothetical protein TM0562.1
192
P58093
Hypothetical protein VCA0360.1
80
Exemples de protéines codées par des gènes découverts lors de la
ré-annotation de 26 génomes (d’après Bocs et al. 2002)
Génomique
Composition et surprédiction
Codons stop : TAA, TAG, TGA
(riches en A et T)
Moins de codons stop dans les
génomes riches en GC
Plus d’ORF longs par hasard
Estimation du pourcentage de sur-prédictions par rapport au nombre de gènes
prédits en fonction du %GC (d’après Skovgaard et al. 2001)
Génomique
6
Problème du codon initiateur
Importance du contexte évolutif
B
A
C
T
E
R
I
A
A
R
C
H
A
E
A
MRIRLEHGAGGEL
B
A
C
T
E
R
I
A
A
R
C
H
A
E
A
Hydrogenase expression/formation proteins (Nter)
Génomique
Ortho-protéogénomique
Couplage
Protéogénomique
Nouvelle méthode de marquage
des peptides N-terminaux
Mycobacterium smegmatis
946 protéines identifiées
443 peptides N-terminaux
29 protéines non prédites
19% erreurs
annotation initiale TIGR
Génomique comparative
Protocole de propagation
16 génomes de Mycobacterium
3 727 séquences validées
601 séquences corrigées
Taux d’erreur : 9 à 21%
Moyenne : 1 gène sur 7 !
Gallien et al., Genome Research 2009
7
Ortho-protéogénomique
84%
16%
70
75% des extensions > 5 aa
60
No
ombre de séquences
ATG
GTG
TTG
50
40
30
20
0
10
0
>29
27
24
21
18
15
12
9
6
Longueur de l’extension (aa)
3
1
4
7
10
13
16
19
Longueur de la délétion (aa)
Couplage aux approches extrinsèques
 Recherche de similarité pour les gènes potentiels
 valider un grand nombre de gènes
 Recherche de similarité dans les régions intergéniques
 « récupérer » des petits gènes
 Utilisation de la synténie (conservation de l’ordre) entre génomes
proches
 éviter certaines erreurs
P. abyssi et P. furiosus
Pyrococcus horikoshii
Hyp.
Enolase
tRNA
rpoN
Enolase
rpoK
tRNA
rpoN
Génomique
8
Prédiction de gènes ab initio chez les Eucaryotes
Principe :
• signaux de transcription
• Transcription Start Site (TSS)
• TATA-box
• signal de polyadenylation (hexamère consensus AATAAA)
• Signaux de splicing :
5’
intron
3’
exon
exon
Site donneur
(C,A)AG | GT(A,G)AGT
Site accepteur
(T,C)n N(C,T)AG | G
• distribution des longueurs et des caractéristiques de composition
Exons
Introns
Régions intergéniques
Génomique
Prédiction de gènes ab initio
chez les Eucaryotes
Quelques programmes :
GENIE
GENSCAN
HMMGENE
GeneMarkHMM
GRAIL
GeneFinder
Wise2/Genewise
Grail/Exp
Genie EST
GenomeScan
Twinscan
...
HMM
HMM
HMM
HMM
neural network
Rule-based system
ab initio +
similarity data
Modèle général de la structure des
séquences génomiques (Genscan)
Prediction of complete Gene Structures in Human Genomic DNA.
Burge and Karlin JMB 268:78-94 (1997)
Génomique
9
Programmes de prédiction ab initio
Wang et al, Genomics, Proteomics, Bioinformatics 2004
Limites des approches intrinsèques
Importance
p
de l’ensemble d’apprentissage
pp
g
=> amélioration si apprentissage directement sur espèce à annoter
=> amélioration si grand nombre de gènes connus expérimentalement
Défauts majeurs:
=> très faible spécificité
=> bornes exactes mal prédites
=> petits exons et introns atypiques mal prédits
=> éléments régulateurs non prédits (ou très mal)
Sensibilité réduite pour les gènes à évolution rapide
(Ka/Ks élevé dans comparaisons interspéciques)
Ka : nb de substitutions non synonymes
Ks : nb de substitutions synonymes
Si Ka/Ks ~ 1 => évolution neutre
Si Ka/Ks <1 => contraintes sélectives
Si Ka/Ks > 1 => évolution adaptative
10
Prédiction par approches comparatives
(extrinsèques)
5’
EST
3’ 5’ EST
3’
contig 5’
3’
3’
EST 5’
• séquence génomique  banque des ADNc et EST pour identifier exons et
introns
q
génomique
g
q traduite dans les 6 cadres  banque
q de protéines
p
• séquence
(BLASTX)
• comparaison de séquences génomiques très proches pour identifier les
régions conservées (exons, signaux de transcription) => synténie
Windsor & Mitchell-Olds, Curr. Opinion in Biotechnology, 2006
11
Approche mixte
Résultats obtenus lors de l’annotation du génome de D. melanogaster
Prédictions ab initio
Programmes
sim
milarité
Similarité
Genie et
Genscan
Genie
Genscan
Non
prédits
Total
EST et protéines
6 040
288
239
49
6 616
EST seules
1 357
143
107
34
1 641
Protéines seules
2 541
157
220
78
2 996
Absence de similarité
1 980
307
-
0
2 348
11 918
895
627
161
13 601
Total
d’après Adams et al., 2000
Evaluation of gene predictions (EGASP project)
Accuracy (compared to ENCODE)
Related
genome
Ab initio
Protein and
expression data
All available
evidence
Ab initio + similarity
Picardi & Pesole, Methods Mol Biol. 2010
12
Plan
3 Annotation
3.
A
i des
d génomes
é
Annotation structurale : localisation des éléments génétiques
a)






éléments répétés
gènes des ARN stables (ARNr, ARNt)
gènes protéiques
Nb de gènes, taille du génome et complexité
pseudogènes
régions régulatrices
Annotation fonctionnelle
Intégrations
b)
c)
Nombre de gènes et taille du génome
9000
Procaryotes => 1gène protéique / 1Kb
8000
S. coelicolor
7000
Nombre de gènes
N
6000
E. coli 1
C. acetobutylicum
5000
M. acetivorans
4000
3000
A. pernix
2000
T. acidophilum
1000
M. leprae
M. genitalium
0
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
Taille du génome (Kb)
13
60 000 predicted genes,
26 000 evidence-supported
genes
Large Dna viruses
Bacteria
Archaea
Unicellular eukaryotes
Multicellular eukaryotes
Koonin, 2009 The International Journal of Biochemistry & Cell Biology
Nombre de gènes et taille du génome
Fraction de l’euchromatine occupée par
des éléments répétés de type transposons
Eucaryotes
1
2
3
4
5
6
7
8
9
1
2
3
4
5
6
7
8
9
H. sapiens
A. gambiae
D. melanogaster
C.elegans
A. thaliana
P. falciparum
S. pombe
S. cerevisiae
E. cuniculi
Fraction non codante
Fraction codante
E. cuniculi
D. melanogaster
C. elegans
A thaliana
A. gambiae
H. sapiens
0%
20%
40%
60%
80%
100%
Introns : de 1 à 2 par génome chez
certains diplomonads à une moyenne de
5 à 8 introns par gène chez les vertébrés.
14
Complexité et nb de gènes chez les Eucaryotes
H. sapiens
A thaliana
C. elegans
A. gambiae
D. melanogaster
S cerevisiae
S.
P. falciparum
S. pombe
E. cuniculi
0
5000
10000 15000
20000 25000
30000 35000
Nombre de gènes estimés
Complexité et nb de gènes chez les Eucaryotes
Nb de gènes/10 kb
15
Complexité/organisation modulaire des protéines
Y=yeast,
y
, W=worm,, F=fly,
y,
V=vertebrate, H=human
The genome international sequencing consortium Nature 409:860-921 (2001)
Complexité : importance de l’ARN

Génération des ARNm:




Sites d’initiation de la transcription alternatifs
Epissage alternatif
Sites de polyadénylation alternatifs
Après génération des isoformes d’ARNm matures:


Régulation
é
de la traduction par les miRNA
Sites alternatifs de début de traduction...
16
Alternative splicing
Alternative
l
i 5’’ splice-site
li
i selection
l
i
Alternative 3’ splice-site selection
Cassette-exon inclusion or skipping
Intron retention
Nilsen & Graveley, Nature, 2010
Mc Guire et al, Genome Biology, 2008
Génomique
17
Alternative splicing and diversity:
the Dscam gene in Drosophila
38 000 different mRNA isoforms
38 000 distinct receptors
Axon guidance
receptor
Alternative splicng: increasing diversity in the proteomic world. Graveley. TRENDS in Genetics. 17:100-107 (2001)
Examples of
alternative mRNA
processing
mRNA isoforms
Processing
pA : site de polyadénylation
Licatalosi and Darnell, NATuRe RevIewS Genetics, 2010
18

Documents pareils