Prédiction des gènes protéiques
Transcription
Prédiction des gènes protéiques
Plan 3 Annotation 3. A i des d génomes é a) Annotation structurale : localisation des éléments génétiques b) c) éléments répétés gènes des ARN stables (ARNr, ARNt...) gènes protéiques Nb de gènes, taille du génome et complexité pseudogènes régions régulatrices Annotation fonctionnelle Intégrations Prédiction des gènes protéiques I Importance t d des ORF ORFs chez h les l Procaryotes P t les longues “Open Reading Frames” ont une forte probabilité de correspondre à un véritable gène • longs cadres ouverts de lecture • recherche d’un codon initiateur Open Reading Frame (=ORF) * start gène * => Approche empirique pour certains génomes 1 Approche empirique APE1088 APE1093 APE1087 (1) APE1091 (2) APE1090 APE1096 APE1097 APE1095 APE1092 APE1094 APE1089 Exemple p : une région g annotée du génome g de Aeropyrum py pernix p Gène fortement conservé Gène faiblement conservé Absence de similarité Gènes non prédits lors de l’annotation initiale (1) Protéine ribosomique L39e (2) Protéine conservée chez les Archées Annotation initiale : 2694 gènes protéiques Ré-annotation : estimation maximale de 1873 gènes (Natale et al, 2000) Prédiction des gènes protéiques • Importance I t d des ORF ORFs chez h les l Procaryotes P t • Difficultés chez les Eucaryotes • faible densité de codage • taille des gènes (cf taille et nombre des introns) • splicing alternatif • Méthodes utilisées • Prédictions ab initio méthodes intrinsèques • Méthodes basées sur la similarité méthodes extrinsèques • Méthodes qui combinent les 2 approches précédentes 2 Prédictions ab initio chez les Procaryotes Quelques programmes : Genemark, Glimmer, Ecoparse,... GLIMMER : Gene Locator and Interpolated Markov Modeler Les étapes : 1 - définition de l’ensemble de gènes de référence (training set) 2 - construction des modèles IMM (Interpolated Markov Models) dans GLIMMER 1.0 ICM (Interpolated Context Models) dans GLIMMER 2.0 3 - évaluation é l ti d des séquences é codantes d t potentielles t ti ll en f fonction ti d des modèles dèl 4 – résolution des problèmes de chevauchements (overlaps) Génomique 1- Définition de l’ensemble de référence • Identification de toutes les “Open Reading Frames” (ORFs) dans les 6 cadres avec une longueur > seuil (~ 90 bp par défaut) • Sélection des ORFs qui vont constituer la banque de référence - à partir de gènes connus (expérimentalement) - à partir du génome longueur > 500 bp absence de chevauchement avec une ORF > 500 bp Obtenir un ensemble importants de gènes “fiables” 5’ 33’ Génomique 3 2 - Construction du modèle Calcul des fréquences des oligomères (longueur 1 à 9) Estimation de la probabilité d’occurrence d’une base connaissant son contexte (i bases précédentes avec i<=8) exemple : P(AATCG)=P(G|AATC)= f(AATCG) f(AATCA)+f(AATCC)+f(AATCG)+f(AATCT) avec f fréquence observée •Pondération (λ) de l’importance des différents oligomères dans le modèle (en fonction de leur occurrence) Génomique 3 - Evaluation des gènes potentiels Comparaison de chaque gène potentiel (>90 bp) au modèle : La probabilité que le modèle M génère la séquence S est : PS M IMM8(S x) n x 1 Gène potentiel IMM8(Sx) : score de l’oligomère Sx dans le modèle de 8e ordre S : oligomère Sx li è se terminant i à position ii x n : longueur de la séquence. x n 1 ATG…………..……ATCTCAAATAC………………TAA Sx IMMk ( S x ) k ( S x 1 ) * Pk ( S x ) 1 k ( S x 1 ) * IMMk 1 ( S x ) IMM8(Sx)= λ8(TCTCAAAT) X P8 (TCTCAAATA) + [1-λ8(TCTCAAAT)] X IMM7(Sx) Si λ8 (TCTCAAAT)=0.9 : IMM8(Sx)= 0.9 X P(A|TCTCAAAT) + 0.1X λ7(CTCAAAT) X P7(CTCAAATA) Génomique 4 4 - Résolution des problèmes de chevauchement Non B 5’ 5 3’ 3 B Score de A >Score de B 3’ A 5’ A Exemple Recherche d’un autre codon initiateur Cas possibles A B 3’ 5’ B 5’ 5’ B 3’ 3’ 3’ gène A 3’ 3’ 3’ 5’ gène B A 5’ 5’ 5’ A 5’ Nouveau codon start gènes A et B 3’ A B 3’ 5’ 5’ 3’ Pas d’autre codon start A 5’ 3’ Longueur A >> longueur B A B 3’ 5’ 5’ 3’ Overlap maintenu Génomique Glimmer is a system for finding genes in microbial DNA, especially the genomes of bacteria and archaea. Glimmer (Gene Locator and Interpolated Markov Modeler) uses interpolated Markov models (IMMs) to identify the coding regions and distinguish them from noncoding DNA. http://www.tigr.org/softlab/glimmer/glimmer.html#refs Génomique 5 Sous-prédictions Gènes de petite taille N° d’accès Description Longueur (aa) P58077 50S ribosomal protein L21e 107 Gènes de composition biaisée P58085 50S ribosomal protein L29p 66 P58026 50S ribosomal protein L34e 95 O29720 DNA gyrase subunit B 632 Gènes présentant des frameshifts P58001 Probable exodeoxyribonuclease VII small subunit 72 P58061 Probable protein export membrane protein SECG 77 P58189 50S ribosomal protein L31e 95 P58078 30S ribosomal protein S27e 65 P58193 Probable translation factor SUII h homolog l 99 P58008 Hypothetical protein TM0562.1 192 P58093 Hypothetical protein VCA0360.1 80 Exemples de protéines codées par des gènes découverts lors de la ré-annotation de 26 génomes (d’après Bocs et al. 2002) Génomique Composition et surprédiction Codons stop : TAA, TAG, TGA (riches en A et T) Moins de codons stop dans les génomes riches en GC Plus d’ORF longs par hasard Estimation du pourcentage de sur-prédictions par rapport au nombre de gènes prédits en fonction du %GC (d’après Skovgaard et al. 2001) Génomique 6 Problème du codon initiateur Importance du contexte évolutif B A C T E R I A A R C H A E A MRIRLEHGAGGEL B A C T E R I A A R C H A E A Hydrogenase expression/formation proteins (Nter) Génomique Ortho-protéogénomique Couplage Protéogénomique Nouvelle méthode de marquage des peptides N-terminaux Mycobacterium smegmatis 946 protéines identifiées 443 peptides N-terminaux 29 protéines non prédites 19% erreurs annotation initiale TIGR Génomique comparative Protocole de propagation 16 génomes de Mycobacterium 3 727 séquences validées 601 séquences corrigées Taux d’erreur : 9 à 21% Moyenne : 1 gène sur 7 ! Gallien et al., Genome Research 2009 7 Ortho-protéogénomique 84% 16% 70 75% des extensions > 5 aa 60 No ombre de séquences ATG GTG TTG 50 40 30 20 0 10 0 >29 27 24 21 18 15 12 9 6 Longueur de l’extension (aa) 3 1 4 7 10 13 16 19 Longueur de la délétion (aa) Couplage aux approches extrinsèques Recherche de similarité pour les gènes potentiels valider un grand nombre de gènes Recherche de similarité dans les régions intergéniques « récupérer » des petits gènes Utilisation de la synténie (conservation de l’ordre) entre génomes proches éviter certaines erreurs P. abyssi et P. furiosus Pyrococcus horikoshii Hyp. Enolase tRNA rpoN Enolase rpoK tRNA rpoN Génomique 8 Prédiction de gènes ab initio chez les Eucaryotes Principe : • signaux de transcription • Transcription Start Site (TSS) • TATA-box • signal de polyadenylation (hexamère consensus AATAAA) • Signaux de splicing : 5’ intron 3’ exon exon Site donneur (C,A)AG | GT(A,G)AGT Site accepteur (T,C)n N(C,T)AG | G • distribution des longueurs et des caractéristiques de composition Exons Introns Régions intergéniques Génomique Prédiction de gènes ab initio chez les Eucaryotes Quelques programmes : GENIE GENSCAN HMMGENE GeneMarkHMM GRAIL GeneFinder Wise2/Genewise Grail/Exp Genie EST GenomeScan Twinscan ... HMM HMM HMM HMM neural network Rule-based system ab initio + similarity data Modèle général de la structure des séquences génomiques (Genscan) Prediction of complete Gene Structures in Human Genomic DNA. Burge and Karlin JMB 268:78-94 (1997) Génomique 9 Programmes de prédiction ab initio Wang et al, Genomics, Proteomics, Bioinformatics 2004 Limites des approches intrinsèques Importance p de l’ensemble d’apprentissage pp g => amélioration si apprentissage directement sur espèce à annoter => amélioration si grand nombre de gènes connus expérimentalement Défauts majeurs: => très faible spécificité => bornes exactes mal prédites => petits exons et introns atypiques mal prédits => éléments régulateurs non prédits (ou très mal) Sensibilité réduite pour les gènes à évolution rapide (Ka/Ks élevé dans comparaisons interspéciques) Ka : nb de substitutions non synonymes Ks : nb de substitutions synonymes Si Ka/Ks ~ 1 => évolution neutre Si Ka/Ks <1 => contraintes sélectives Si Ka/Ks > 1 => évolution adaptative 10 Prédiction par approches comparatives (extrinsèques) 5’ EST 3’ 5’ EST 3’ contig 5’ 3’ 3’ EST 5’ • séquence génomique banque des ADNc et EST pour identifier exons et introns q génomique g q traduite dans les 6 cadres banque q de protéines p • séquence (BLASTX) • comparaison de séquences génomiques très proches pour identifier les régions conservées (exons, signaux de transcription) => synténie Windsor & Mitchell-Olds, Curr. Opinion in Biotechnology, 2006 11 Approche mixte Résultats obtenus lors de l’annotation du génome de D. melanogaster Prédictions ab initio Programmes sim milarité Similarité Genie et Genscan Genie Genscan Non prédits Total EST et protéines 6 040 288 239 49 6 616 EST seules 1 357 143 107 34 1 641 Protéines seules 2 541 157 220 78 2 996 Absence de similarité 1 980 307 - 0 2 348 11 918 895 627 161 13 601 Total d’après Adams et al., 2000 Evaluation of gene predictions (EGASP project) Accuracy (compared to ENCODE) Related genome Ab initio Protein and expression data All available evidence Ab initio + similarity Picardi & Pesole, Methods Mol Biol. 2010 12 Plan 3 Annotation 3. A i des d génomes é Annotation structurale : localisation des éléments génétiques a) éléments répétés gènes des ARN stables (ARNr, ARNt) gènes protéiques Nb de gènes, taille du génome et complexité pseudogènes régions régulatrices Annotation fonctionnelle Intégrations b) c) Nombre de gènes et taille du génome 9000 Procaryotes => 1gène protéique / 1Kb 8000 S. coelicolor 7000 Nombre de gènes N 6000 E. coli 1 C. acetobutylicum 5000 M. acetivorans 4000 3000 A. pernix 2000 T. acidophilum 1000 M. leprae M. genitalium 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Taille du génome (Kb) 13 60 000 predicted genes, 26 000 evidence-supported genes Large Dna viruses Bacteria Archaea Unicellular eukaryotes Multicellular eukaryotes Koonin, 2009 The International Journal of Biochemistry & Cell Biology Nombre de gènes et taille du génome Fraction de l’euchromatine occupée par des éléments répétés de type transposons Eucaryotes 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 H. sapiens A. gambiae D. melanogaster C.elegans A. thaliana P. falciparum S. pombe S. cerevisiae E. cuniculi Fraction non codante Fraction codante E. cuniculi D. melanogaster C. elegans A thaliana A. gambiae H. sapiens 0% 20% 40% 60% 80% 100% Introns : de 1 à 2 par génome chez certains diplomonads à une moyenne de 5 à 8 introns par gène chez les vertébrés. 14 Complexité et nb de gènes chez les Eucaryotes H. sapiens A thaliana C. elegans A. gambiae D. melanogaster S cerevisiae S. P. falciparum S. pombe E. cuniculi 0 5000 10000 15000 20000 25000 30000 35000 Nombre de gènes estimés Complexité et nb de gènes chez les Eucaryotes Nb de gènes/10 kb 15 Complexité/organisation modulaire des protéines Y=yeast, y , W=worm,, F=fly, y, V=vertebrate, H=human The genome international sequencing consortium Nature 409:860-921 (2001) Complexité : importance de l’ARN Génération des ARNm: Sites d’initiation de la transcription alternatifs Epissage alternatif Sites de polyadénylation alternatifs Après génération des isoformes d’ARNm matures: Régulation é de la traduction par les miRNA Sites alternatifs de début de traduction... 16 Alternative splicing Alternative l i 5’’ splice-site li i selection l i Alternative 3’ splice-site selection Cassette-exon inclusion or skipping Intron retention Nilsen & Graveley, Nature, 2010 Mc Guire et al, Genome Biology, 2008 Génomique 17 Alternative splicing and diversity: the Dscam gene in Drosophila 38 000 different mRNA isoforms 38 000 distinct receptors Axon guidance receptor Alternative splicng: increasing diversity in the proteomic world. Graveley. TRENDS in Genetics. 17:100-107 (2001) Examples of alternative mRNA processing mRNA isoforms Processing pA : site de polyadénylation Licatalosi and Darnell, NATuRe RevIewS Genetics, 2010 18