Prédiction de gènes - ESI

Transcription

Prédiction de gènes - ESI
Prédiction de gènes
Présentation du problème
Open Reading Frame
Fonctionnement
Exemples
Limites
Procaryotes versus eucaryotes
Validation des résultats:
1) comparaison de séquences
2) utilisation de données statistiques
HMM (Modèles de Markov cachés)
Définition
Cas procaryote
Cas eucaryote
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
1
Problème
But: Identifier des régions d’ADN génomique qui encode
des protéines
Méthodes:
Détection des ORF (Open Reading Frame)
- Méthode naïve
- Consiste à localiser des régions assez grandes ( + de 100 paires de bases)
situées entre un codon START et un codon STOP
Comparaison de séquences
- souvent utilisée comme validation d’un ORF
- recherche la similarité entre l’ORF trouvé et les séquences d’ARNm
ou protéiques disponibles dans les banques de données
Statistique
- utiliser des statistiques particulières sur des régions de séquences, des
espèces etc. pour valider ou trouver une région codante
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
2
Open Reading Frame
Un “Open Reading Frame” ou “cadre de lecture ouvert” est une région
de plus de 100bp située entre un codon START -> Methyanine et un
codon STOP:
http://www.accessexcellence.org/RC/VL/GG/genetic.html
http://psyche.uthct.edu/shaun/SBlack/geneticd.html
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
3
Open Reading Frame (suite)
Chaque région d’ADN à 6 cadres de lecture différents: 3 dans le sens
5’ - 3’ et 3 dans le sens 3’ - 5’ (3 sur un brin et 3 sur le brin complémentaire)
5' 3'
atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa
1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa
M P K L N S V E G F S S F E D D V * 2 tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat
C P S * I A * R G F H H L R T M Y 3 gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata
A Q A E * R R G V F I I * G R C I http://bioweb.uwlax.edu/GenWeb/Molecular/Seq_Anal/Translation/translation.html
3' 5'
ttatacatcgtcctcaaatgatgaaaacccctctacgctattcagcttgggcat
-1 tta tac atc gtc ctc aaa tga tga aaa ccc ctc tac gct att cag ctt ggg cat
L Y I V L K * * K P L T A I Q L G H -2 tat aca tcg tcc tca aat gat gaa aac ccc tct acg cta ttc agc ttg ggc
Y T S S S N D E N P S T L F S L G -3 ata cat cgt cct caa atg atg aaa acc cct cta cgc tat tca gct tgg gct
I H R P Q R M K T P L R Y S A W A Habituellement, seulement un cadre de lecture est utilisé lors de la traduction
d’un gène et c’est le + long
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
4
Open Reading Frame (suite)
Plusieurs logiciels donnent une représentation graphique des cadres
de lecture ouverts
Voici un exemple de représentation graphique donné par le logiciel
DNA STRIDER (freeware pour MAC, disponible sur
http://www.cellbiol.com/soft.htm):
© David W. Mount, Bioinformatics Sequence and Genome Analysis, Second Edition, p. 367
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
5
Remarques et limitations
- un cadre de lecture qui n’encadre pas un gène devrait avoir de courts
ORFs dû à la présence d’une grande quantité de codons STOP
- Tous les ORF ne sont pas des gènes -> validation avec comparaison
de séquences ou statistiques
- Comment choisir le bon codon START?
# Pas toujours le codon le plus éloigné du codon STOP
# On va valider en cherchant des séquences connues pour être situées
en début de gènes chez l’espèce étudié
- Il est possible d’avoir plus d’un gène sur un ARNm
- Il arrive qu’il y ait des gènes qui se chevauchent codant deux
protéines différentes
# Ces gènes sont trouvés dans des cadres de lecture différents
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
6
Remarques et limitations (suite)
- le code génétique d’un génome en particulier peut varier du code
universel
- les gènes courts ne peuvent être détectés par cette méthode
- problème avec les gènes d’eucaryotes qui contiennent des exons et
des introns. Dans ce cas chaque partie codante (exon) n’est pas
délimitée par un codon START et un codon STOP
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
7
Procaryotes versus eucaryotes
Prédiction chez les procaryotes:
Ce qui nous facilite la vie:
Plus de 80% du génome est codant
Les gènes ont une structure très simple: pas d’intron, régions
transcrites mais non traduites très courtes
Ce qui nous complique la vie:
Comment choisir le bon codon START dans un ORF?
Gènes incomplets, pseudogènes, erreurs de séquençage
Gènes chevauchants
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
8
Procaryotes versus eucaryotes
Prédiction chez les eucaryotes:
Ce qui nous complique la vie:
Comment choisir le bon codon START dans un ORF?
Gènes incomplets, pseudogènes, erreurs de séquençage
Gènes chevauchants
La structure des gènes est beaucoup plus complexe
# Présence d’exons non codants (longues régions transcrites mais non
traduites)
# Présence d’introns
# Épissage alternatif
Faible pourcentage de séquences transcrites (chez l’humain, environ 2%)
La densité en gènes varie selon les régions d’un génome (contenu GC)
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
9
Problème introns-exons
Problème: Chez les eucaryotes, les ORFs peuvent être
interrompus par la présence des introns (qui
contiennent habituellement plusieurs codons
STOP)
Solution possible:
- construire des modèles informatiques basés sur des statistiques de
longueurs, de compositions ou autres caractéristiques des séquences
présentes dans les introns d’un organisme particulier
- ces modèles peuvent reconnaître les introns et les frontières entre
introns-exons
- les introns peuvent alors être enlevés ce qui joint les exons dans un
long ORF qui peut être transcrit pour prédire la séquence protéique
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
10
Validation des ORFs
On peut utiliser des méthodes statistiques ou de la comparaison de
séquences pour valider notre ORF:
1) Il a été remarqué que pour les codons présents dans un ORF, la 3ième base
est beaucoup plus souvent identique que dans les séquences aléatoires
- Cette statistique est vraie peu importe l’espèce avec laquelle on travail
- Il existe un logiciel: TESTCODE (genetics comp. groups,
http://www.gcg.com) pour valider un ORF selon cette statistique
2) Comparer l’ORF traduit en séquences d’acides aminés avec les séquences
présentes dans les banques de données existantes.
3) On peut tester si les codons de notre ORF correspondent à des codons utilisés
dans d’autres gènes du même organisme
- pour ce test, on a besoin d’information sur le % d’apparition en moyenne
d’un codon particulier dans les gènes d’un espèce
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
11
Validation des ORFs (suite)
UUU 17.1(512809)
UUC 20.5(613217)
UUA 7.4(221399)
UUG 12.7(381325)
UCU 14.9(446155)
UCC 17.7(529657)
UCA 12.0(358579)
UCG 4.5(134506)
UAU 12.1(361956)
UAC 15.5(463626)
UAA 0.7( 21406)
UAG 0.6( 17116)
UGU 10.3(308142)
UGC 12.6(377700)
UGA 1.2( 36979)
UGG 13.1(392380)
CUU 13.0(388166) CCU 17.4(520986) CAU 10.6(319087) CGU 4.6(138576)
CUC 19.7(591041) CCC 20.1(601567) CAC 15.1(451362) CGC 10.7(321492)
CUA 7.0(210542) CCA 16.8(503114) CAA 12.0(358796) CGA 6.2(186498)
CUG 40.2(1205731) CCG 7.1(211675) CAG 34.4(1030691) CGG 11.7(349511)
AUU 15.8(472168)
AUC 21.1(633572)
AUA 7.2(216924)
AUG 22.2(664767)
ACU 13.0(389477)
ACC 19.2(574769)
ACA 14.9(446261)
ACG 6.2(185097)
AAU
AAC
AAA
AAG
16.7(499386)
19.2(575759)
23.9(717175)
32.2(965496)
GUU 10.9(328023)
GUC 14.7(439612)
GUA 7.0(210447)
GUG 28.6(858400)
GCU 18.5(555789)
GCC 28.4(849789)
GCA 15.9(477991)
GCG 7.6(227382)
GAU
GAC
GAA
GAG
21.9(656552) GGU 10.8(323268)
25.5(765702) GGC 22.6(678626)
28.8(862606) GGA 16.4(491144)
40.0(1198968) GGG 16.5(495078)
UUU
UUC
UUA
UUG
Escherichia coli B
http://www.kazusa.or.jp/codon/
BIN1001, H2005, Sylvie Hamel
Université de Montréal
AGU
AGC
AGA
AGG
Homo sapiens
12.0(360406)
19.5(584628)
11.7(350438)
11.7(350668)
28.9(
18.8(
17.5(
18.6(
109)
71)
66)
70)
UCU 8.5(
UCC 8.0(
UCA 6.1(
UCG 11.4(
32)
30)
23)
43)
UAU 18.6(
UAC 8.5(
UAA 1.9(
UAG 0.3(
70)
32)
7)
1)
UGU 4.2(
UGC 5.8(
UGA 0.8(
UGG 12.7(
16)
22)
3)
48)
CUU 12.7(
CUC 14.1(
CUA 3.4(
CUG 54.9(
48)
53)
13)
207)
CCU 5.8(
CCC 2.4(
CCA 7.4(
CCG 24.9(
22)
9)
28)
94)
CAU 9.3(
CAC 7.2(
CAA 13.5(
CAG 24.7(
35)
27)
51)
93)
CGU 16.4(
CGC 18.8(
CGA 2.4(
CGG 5.0(
62)
71)
9)
19)
AUU 33.9(
AUC 31.0(
AUA 5.0(
AUG 37.4(
128)
117)
19)
141)
ACU 7.7(
ACC 25.2(
ACA 6.1(
ACG 14.6(
29)
95)
23)
55)
AAU 21.2(
AAC 15.9(
AAA 29.2(
AAG 8.8(
80)
60)
110)
33)
AGU 9.0(
AGC 14.3(
AGA 2.4(
AGG 2.1(
34)
54)
9)
8)
GUU
GUC
GUA
GUG
74)
54)
40)
128)
GCU
GCC
GCA
GCG
GAU
GAC
GAA
GAG
113)
57)
111)
68)
GGU 24.4(
GGC 33.1(
GGA 8.2(
GGG 14.3(
92)
125)
31)
54)
19.6(
14.3(
10.6(
33.9(
13.8(
25.5(
19.6(
32.6(
52)
96)
74)
123)
Prédiction de gènes
30.0(
15.1(
29.4(
18.0(
12
Validation des ORFs (suite)
4) Chaque espèce à des “patterns” spécifiques d’utilisation des codons
synonymes (codons représentants le même acide aminé)
5) Les codons utilisés dans les gènes fortement exprimés diffèrent des codons
utilisés dans les gènes faiblement exprimés
6) Les organismes ayant un contenu GC important ont très souvent un G ou
un C à la troisième position des codons apparaissant dans des ORFs
7) ....
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
13
Chaînes de Markov
Une chaîne de Markov est une séquence d’événements aléatoires
X0, X1, . . . , faisant partie d’un ensemble possible d’états S = {s1, s2, . . . , sN } ,
qui satisfait la propriété de Markov:
P(Xn+1 = s | X0 = s0, X1 = s1, . . . Xn = sn) = P(Xn+1 = s | Xn = sn)
i.e le prochain état dans lequel on sera ne dépend que de l’état où l’on est
présentement et non des états passés
Une chaîne de Markov a une distribution de probabilités initiale
! = {!1, !2, . . . , !N }
où
P(X0 = si) = !i
et un ensemble de probabilités de transitions
pi j = P(Xn+1 = s j | Xn = si)
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
14
Chaînes de Markov (suite)
Exemple de chaînes de Markov*:
Ensemble d’états S = {a, b, c}
Dans ce graphe, les flèches indiquent
les transitions possibles et les étiquettes
indiquent les probabilités de transitions
0.2
0.8
0.3
1.0
0.2
0.5
Ex: P(Xn+1 = b | Xn = c) = 0.3
a
b
c
a b c
0 0 1
0.8 0.2 0
0.2 0.3 0.5
* adapté de HMM-based gene prediction de M. Alexandersson
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
15
HMM: Modèles de Markov cachés
Dans les modèles de Markov cachés, on a une chaîne de Markov X0, X1, . . .
prenant des valeurs dans un ensemble d’états S = {s1, s2, . . . , sN }.
Par contre ici, au lieu d’observer les valeurs de X0, X1, . . . , on observe des
valeurs Y0,Y1, . . . qui sont une fontion des états de S.
Exemple:
HMM-based gene prediction de M. Alexandersson
Ici, les états sont deux dés, le dé A et le dé B. Par contre, les valeurs
observées seront 1, 2, 3, 4, 5 ou 6.
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
16
HMM: Modèles de Markov cachés (suite)
Supposons que A est un dé normal et B, un
dé truqué.
HMM-based gene prediction de M. Alexandersson
Comme pour la chaîne de Markov, on a des
probabilités de transitions entre le dé A et et le
dé B (données par les transitions du graphe)
Ici, on aura aussi une distribution pour les événements de sorties (ici 1,2,3,4,5,6)
ei(y) = P(Yn = y | Xn = si)
Comme A est un dé normal, on a que
eA(1) = eA(2) = eA(3) = eA(4) = eA(5) = eA(6) = 1/6
B est un dé biaisé
eB(1) = eB(2) = eB(3) = eB(4) = eB(5) = 1/10
eB(6) = 5/10 = 1/2
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
17
HMM: Modèles de Markov cachés (suite)
Utilisation des HMMs:
Étant donnée une séquence de sortie, trouver le meilleur chemin (celui ayant
la plus grande probabilité) parmi l’ensemble d’états pour cette sortie.
Dans notre exemple: supposons qu’on observe la sortie 66361. On se demande
quelle est la suite de dés la plus probable pour cette sortie, d’après notre modèle:
HMM-based gene prediction de M. Alexandersson
Au total, il y a ici 25 chemins possibles. On peut les calculer tous ou utiliser
un algorithme appelé : algorithme de Viterbi
http://www.cim.mcgill.ca/~latorres/Viterbi/va_main.html
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
18
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
19
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
20
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
21
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
22
Quelques logiciels de prédiction
utilisant les HMM
FGENES (Solovyev et al., 1995)
http://genomic.sanger.ac.uk/gf/gf.shtml
Genehacker (Hirosawa et al., 1997)
http://www-btls.jst.go.jp/GeneHacker/
GeneMark (Lukashin et al., 1998)
Genie (Kulp et al., 1996)
http://opal.biology.gatech.edu/GeneMark/
http://www.cse.ucsc.edu/~dkulp/cgi-bin/genie
...
BIN1001, H2005, Sylvie Hamel
Université de Montréal
Prédiction de gènes
23

Documents pareils