Prédiction de gènes - ESI
Transcription
Prédiction de gènes - ESI
Prédiction de gènes Présentation du problème Open Reading Frame Fonctionnement Exemples Limites Procaryotes versus eucaryotes Validation des résultats: 1) comparaison de séquences 2) utilisation de données statistiques HMM (Modèles de Markov cachés) Définition Cas procaryote Cas eucaryote BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 1 Problème But: Identifier des régions d’ADN génomique qui encode des protéines Méthodes: Détection des ORF (Open Reading Frame) - Méthode naïve - Consiste à localiser des régions assez grandes ( + de 100 paires de bases) situées entre un codon START et un codon STOP Comparaison de séquences - souvent utilisée comme validation d’un ORF - recherche la similarité entre l’ORF trouvé et les séquences d’ARNm ou protéiques disponibles dans les banques de données Statistique - utiliser des statistiques particulières sur des régions de séquences, des espèces etc. pour valider ou trouver une région codante BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 2 Open Reading Frame Un “Open Reading Frame” ou “cadre de lecture ouvert” est une région de plus de 100bp située entre un codon START -> Methyanine et un codon STOP: http://www.accessexcellence.org/RC/VL/GG/genetic.html http://psyche.uthct.edu/shaun/SBlack/geneticd.html BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 3 Open Reading Frame (suite) Chaque région d’ADN à 6 cadres de lecture différents: 3 dans le sens 5’ - 3’ et 3 dans le sens 3’ - 5’ (3 sur un brin et 3 sur le brin complémentaire) 5' 3' atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa 1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa M P K L N S V E G F S S F E D D V * 2 tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat C P S * I A * R G F H H L R T M Y 3 gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata A Q A E * R R G V F I I * G R C I http://bioweb.uwlax.edu/GenWeb/Molecular/Seq_Anal/Translation/translation.html 3' 5' ttatacatcgtcctcaaatgatgaaaacccctctacgctattcagcttgggcat -1 tta tac atc gtc ctc aaa tga tga aaa ccc ctc tac gct att cag ctt ggg cat L Y I V L K * * K P L T A I Q L G H -2 tat aca tcg tcc tca aat gat gaa aac ccc tct acg cta ttc agc ttg ggc Y T S S S N D E N P S T L F S L G -3 ata cat cgt cct caa atg atg aaa acc cct cta cgc tat tca gct tgg gct I H R P Q R M K T P L R Y S A W A Habituellement, seulement un cadre de lecture est utilisé lors de la traduction d’un gène et c’est le + long BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 4 Open Reading Frame (suite) Plusieurs logiciels donnent une représentation graphique des cadres de lecture ouverts Voici un exemple de représentation graphique donné par le logiciel DNA STRIDER (freeware pour MAC, disponible sur http://www.cellbiol.com/soft.htm): © David W. Mount, Bioinformatics Sequence and Genome Analysis, Second Edition, p. 367 BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 5 Remarques et limitations - un cadre de lecture qui n’encadre pas un gène devrait avoir de courts ORFs dû à la présence d’une grande quantité de codons STOP - Tous les ORF ne sont pas des gènes -> validation avec comparaison de séquences ou statistiques - Comment choisir le bon codon START? # Pas toujours le codon le plus éloigné du codon STOP # On va valider en cherchant des séquences connues pour être situées en début de gènes chez l’espèce étudié - Il est possible d’avoir plus d’un gène sur un ARNm - Il arrive qu’il y ait des gènes qui se chevauchent codant deux protéines différentes # Ces gènes sont trouvés dans des cadres de lecture différents BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 6 Remarques et limitations (suite) - le code génétique d’un génome en particulier peut varier du code universel - les gènes courts ne peuvent être détectés par cette méthode - problème avec les gènes d’eucaryotes qui contiennent des exons et des introns. Dans ce cas chaque partie codante (exon) n’est pas délimitée par un codon START et un codon STOP BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 7 Procaryotes versus eucaryotes Prédiction chez les procaryotes: Ce qui nous facilite la vie: Plus de 80% du génome est codant Les gènes ont une structure très simple: pas d’intron, régions transcrites mais non traduites très courtes Ce qui nous complique la vie: Comment choisir le bon codon START dans un ORF? Gènes incomplets, pseudogènes, erreurs de séquençage Gènes chevauchants BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 8 Procaryotes versus eucaryotes Prédiction chez les eucaryotes: Ce qui nous complique la vie: Comment choisir le bon codon START dans un ORF? Gènes incomplets, pseudogènes, erreurs de séquençage Gènes chevauchants La structure des gènes est beaucoup plus complexe # Présence d’exons non codants (longues régions transcrites mais non traduites) # Présence d’introns # Épissage alternatif Faible pourcentage de séquences transcrites (chez l’humain, environ 2%) La densité en gènes varie selon les régions d’un génome (contenu GC) BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 9 Problème introns-exons Problème: Chez les eucaryotes, les ORFs peuvent être interrompus par la présence des introns (qui contiennent habituellement plusieurs codons STOP) Solution possible: - construire des modèles informatiques basés sur des statistiques de longueurs, de compositions ou autres caractéristiques des séquences présentes dans les introns d’un organisme particulier - ces modèles peuvent reconnaître les introns et les frontières entre introns-exons - les introns peuvent alors être enlevés ce qui joint les exons dans un long ORF qui peut être transcrit pour prédire la séquence protéique BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 10 Validation des ORFs On peut utiliser des méthodes statistiques ou de la comparaison de séquences pour valider notre ORF: 1) Il a été remarqué que pour les codons présents dans un ORF, la 3ième base est beaucoup plus souvent identique que dans les séquences aléatoires - Cette statistique est vraie peu importe l’espèce avec laquelle on travail - Il existe un logiciel: TESTCODE (genetics comp. groups, http://www.gcg.com) pour valider un ORF selon cette statistique 2) Comparer l’ORF traduit en séquences d’acides aminés avec les séquences présentes dans les banques de données existantes. 3) On peut tester si les codons de notre ORF correspondent à des codons utilisés dans d’autres gènes du même organisme - pour ce test, on a besoin d’information sur le % d’apparition en moyenne d’un codon particulier dans les gènes d’un espèce BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 11 Validation des ORFs (suite) UUU 17.1(512809) UUC 20.5(613217) UUA 7.4(221399) UUG 12.7(381325) UCU 14.9(446155) UCC 17.7(529657) UCA 12.0(358579) UCG 4.5(134506) UAU 12.1(361956) UAC 15.5(463626) UAA 0.7( 21406) UAG 0.6( 17116) UGU 10.3(308142) UGC 12.6(377700) UGA 1.2( 36979) UGG 13.1(392380) CUU 13.0(388166) CCU 17.4(520986) CAU 10.6(319087) CGU 4.6(138576) CUC 19.7(591041) CCC 20.1(601567) CAC 15.1(451362) CGC 10.7(321492) CUA 7.0(210542) CCA 16.8(503114) CAA 12.0(358796) CGA 6.2(186498) CUG 40.2(1205731) CCG 7.1(211675) CAG 34.4(1030691) CGG 11.7(349511) AUU 15.8(472168) AUC 21.1(633572) AUA 7.2(216924) AUG 22.2(664767) ACU 13.0(389477) ACC 19.2(574769) ACA 14.9(446261) ACG 6.2(185097) AAU AAC AAA AAG 16.7(499386) 19.2(575759) 23.9(717175) 32.2(965496) GUU 10.9(328023) GUC 14.7(439612) GUA 7.0(210447) GUG 28.6(858400) GCU 18.5(555789) GCC 28.4(849789) GCA 15.9(477991) GCG 7.6(227382) GAU GAC GAA GAG 21.9(656552) GGU 10.8(323268) 25.5(765702) GGC 22.6(678626) 28.8(862606) GGA 16.4(491144) 40.0(1198968) GGG 16.5(495078) UUU UUC UUA UUG Escherichia coli B http://www.kazusa.or.jp/codon/ BIN1001, H2005, Sylvie Hamel Université de Montréal AGU AGC AGA AGG Homo sapiens 12.0(360406) 19.5(584628) 11.7(350438) 11.7(350668) 28.9( 18.8( 17.5( 18.6( 109) 71) 66) 70) UCU 8.5( UCC 8.0( UCA 6.1( UCG 11.4( 32) 30) 23) 43) UAU 18.6( UAC 8.5( UAA 1.9( UAG 0.3( 70) 32) 7) 1) UGU 4.2( UGC 5.8( UGA 0.8( UGG 12.7( 16) 22) 3) 48) CUU 12.7( CUC 14.1( CUA 3.4( CUG 54.9( 48) 53) 13) 207) CCU 5.8( CCC 2.4( CCA 7.4( CCG 24.9( 22) 9) 28) 94) CAU 9.3( CAC 7.2( CAA 13.5( CAG 24.7( 35) 27) 51) 93) CGU 16.4( CGC 18.8( CGA 2.4( CGG 5.0( 62) 71) 9) 19) AUU 33.9( AUC 31.0( AUA 5.0( AUG 37.4( 128) 117) 19) 141) ACU 7.7( ACC 25.2( ACA 6.1( ACG 14.6( 29) 95) 23) 55) AAU 21.2( AAC 15.9( AAA 29.2( AAG 8.8( 80) 60) 110) 33) AGU 9.0( AGC 14.3( AGA 2.4( AGG 2.1( 34) 54) 9) 8) GUU GUC GUA GUG 74) 54) 40) 128) GCU GCC GCA GCG GAU GAC GAA GAG 113) 57) 111) 68) GGU 24.4( GGC 33.1( GGA 8.2( GGG 14.3( 92) 125) 31) 54) 19.6( 14.3( 10.6( 33.9( 13.8( 25.5( 19.6( 32.6( 52) 96) 74) 123) Prédiction de gènes 30.0( 15.1( 29.4( 18.0( 12 Validation des ORFs (suite) 4) Chaque espèce à des “patterns” spécifiques d’utilisation des codons synonymes (codons représentants le même acide aminé) 5) Les codons utilisés dans les gènes fortement exprimés diffèrent des codons utilisés dans les gènes faiblement exprimés 6) Les organismes ayant un contenu GC important ont très souvent un G ou un C à la troisième position des codons apparaissant dans des ORFs 7) .... BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 13 Chaînes de Markov Une chaîne de Markov est une séquence d’événements aléatoires X0, X1, . . . , faisant partie d’un ensemble possible d’états S = {s1, s2, . . . , sN } , qui satisfait la propriété de Markov: P(Xn+1 = s | X0 = s0, X1 = s1, . . . Xn = sn) = P(Xn+1 = s | Xn = sn) i.e le prochain état dans lequel on sera ne dépend que de l’état où l’on est présentement et non des états passés Une chaîne de Markov a une distribution de probabilités initiale ! = {!1, !2, . . . , !N } où P(X0 = si) = !i et un ensemble de probabilités de transitions pi j = P(Xn+1 = s j | Xn = si) BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 14 Chaînes de Markov (suite) Exemple de chaînes de Markov*: Ensemble d’états S = {a, b, c} Dans ce graphe, les flèches indiquent les transitions possibles et les étiquettes indiquent les probabilités de transitions 0.2 0.8 0.3 1.0 0.2 0.5 Ex: P(Xn+1 = b | Xn = c) = 0.3 a b c a b c 0 0 1 0.8 0.2 0 0.2 0.3 0.5 * adapté de HMM-based gene prediction de M. Alexandersson BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 15 HMM: Modèles de Markov cachés Dans les modèles de Markov cachés, on a une chaîne de Markov X0, X1, . . . prenant des valeurs dans un ensemble d’états S = {s1, s2, . . . , sN }. Par contre ici, au lieu d’observer les valeurs de X0, X1, . . . , on observe des valeurs Y0,Y1, . . . qui sont une fontion des états de S. Exemple: HMM-based gene prediction de M. Alexandersson Ici, les états sont deux dés, le dé A et le dé B. Par contre, les valeurs observées seront 1, 2, 3, 4, 5 ou 6. BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 16 HMM: Modèles de Markov cachés (suite) Supposons que A est un dé normal et B, un dé truqué. HMM-based gene prediction de M. Alexandersson Comme pour la chaîne de Markov, on a des probabilités de transitions entre le dé A et et le dé B (données par les transitions du graphe) Ici, on aura aussi une distribution pour les événements de sorties (ici 1,2,3,4,5,6) ei(y) = P(Yn = y | Xn = si) Comme A est un dé normal, on a que eA(1) = eA(2) = eA(3) = eA(4) = eA(5) = eA(6) = 1/6 B est un dé biaisé eB(1) = eB(2) = eB(3) = eB(4) = eB(5) = 1/10 eB(6) = 5/10 = 1/2 BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 17 HMM: Modèles de Markov cachés (suite) Utilisation des HMMs: Étant donnée une séquence de sortie, trouver le meilleur chemin (celui ayant la plus grande probabilité) parmi l’ensemble d’états pour cette sortie. Dans notre exemple: supposons qu’on observe la sortie 66361. On se demande quelle est la suite de dés la plus probable pour cette sortie, d’après notre modèle: HMM-based gene prediction de M. Alexandersson Au total, il y a ici 25 chemins possibles. On peut les calculer tous ou utiliser un algorithme appelé : algorithme de Viterbi http://www.cim.mcgill.ca/~latorres/Viterbi/va_main.html BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 18 BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 19 BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 20 BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 21 BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 22 Quelques logiciels de prédiction utilisant les HMM FGENES (Solovyev et al., 1995) http://genomic.sanger.ac.uk/gf/gf.shtml Genehacker (Hirosawa et al., 1997) http://www-btls.jst.go.jp/GeneHacker/ GeneMark (Lukashin et al., 1998) Genie (Kulp et al., 1996) http://opal.biology.gatech.edu/GeneMark/ http://www.cse.ucsc.edu/~dkulp/cgi-bin/genie ... BIN1001, H2005, Sylvie Hamel Université de Montréal Prédiction de gènes 23