Détection exhaustive des gènes orthologues entre deux génomes
Transcription
Détection exhaustive des gènes orthologues entre deux génomes
Détection exhaustive des gènes orthologues entre deux génomes complets GTGC - 12 octobre 2006 Claire Guillet, Laurent Guéguen et Laurent Duret Laboratoire de Biométrie et Biologie Evolutive - Lyon 1 Problématique Recherche des gènes apparus ou disparus spécifiquement dans une (plusieurs) lignée(s) de mammifères => Première étape : détection des gènes orthologues (= qui dérivent d’un ancêtre commun par spéciation) par: - similarité des séquences - phylogénie GTGC 2006 2 1) Meilleure similarité réciproque (ou RBH) G1 G2 G3 G4 G5 Ga Gb G1 G2 G3 G4 G5 Gc Gd I- génome A contre génome B Ga Gb Gc Gd II- génome B contre génome A GTGC 2006 3 1) Meilleure similarité réciproque (ou RBH) G1 G2 G3 G4 G5 Ga Gb Gc Gd Meilleures similarités réciproques => gènes orthologues Avantages : Assez sensible Inconvénients : Suppose que les gènes ont une relation d’orthologie 1:1 GTGC 2006 4 2) Utilisation de la phylogénie : Réconciliation d’arbres 1- Construire l’arbre phylogénétique des gènes ; éventuellement réconciliation avec arbre des espèces Homme Souris Souris Rat Arbre phylogénétique des espèces Homme Rat Arbre pour une famille de gènes GTGC 2006 5 2) Utilisation de la phylogénie : Réconciliation d’arbres 1- Construire l’arbre phylogénétique des gènes ; éventuellement réconciliation avec arbre des espèces Gène 1 Gène 2 Duplication Homme1 Souris1 Rat1 Homme2 Souris2 Rat2 Arbre des gènes réconcilié avec l’arbre des espèces GTGC 2006 6 2) Utilisation de la phylogénie : Recherche de motifs d’arbre 1- Construction de l’arbre réconcilié 2- Rechercher un motif d’arbre (par exemple, tous les gènes orthologues entre l’homme et la souris mais pas de duplication) Avantages : Plus spécifique + Détection des familles d’orthologues n:m Inconvénients : manque de sensibilité (à cause critères construction arbres phylogénétiques) GTGC 2006 7 3) Utilisation de la conservation de la synténie Au total, ~ 60-70% de gènes orthologues entre les génomes humain et murin -> on attend 96 % !! Utilisation de la conservation de l’ordre des gènes : Si on a deux paires d’orthologues sûrs, deux gènes moyennement similaires mais situés entre les deux peuvent aussi être orthologues A C B A’ C’ B’ GTGC 2006 8 Procédure - Résultats 1) Sélection d’un jeu d’orthologues sûrs ; qui vont délimiter des intervalles sur chaque génome et des intervalles orthologues entre deux génomes 2) Utilisation de ces intervalles pour placer les gènes restants: recherche de similarités de séquence au sein des intervalles orthologues, au niveau protéique et nucléique GTGC 2006 9 I- Jeu d’orthologues sûrs 1) Construction des intervalles ⇒ à partir des orthologues non ambigus = orthologues 1:1 prédits par RBH et par phylogénie A B ancres intervalles A’ B’ GTGC 2006 10 1) Construction des intervalles : autres prédictions d’orthologie 1) Placer les autres gènes prédits orthologues (par RBH ou par phylogénie uniquement) dans les intervalles ordre: orthologues 1:1 puis orthologues n:m 2) Confirmer ou invalider ces relations GTGC 2006 11 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 12 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 13 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 14 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 15 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 16 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 17 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 18 1) Construction des intervalles : autres prédictions d’orthologie GTGC 2006 19 1) Construction des intervalles : résultats Génome humain Orthologues non ambigus 22 038 gènes 46% 10 087 gènes RBH + synténie 2 831 gènes Phylogénie + synténie 13% 10% 31% Orphelins + rejetés 6 992 gènes 2 128 gènes GTGC 2006 20 I- Jeu d’orthologues sûrs 2) Caractéristiques des ancres: co-orientation Orientation (= sens de transcription sur le génome) Co-orientation (=même sens de transcription sur les deux génomes) - On attend : Dans intervalles orthologues : tous les gènes co-orientés En dehors : moitié de co-orientation - Majorité des gènes ajoutés sont co-orientés (89 à 96 %) gènes prédits orthologues mais invalidés : 50 % GTGC 2006 21 2) Caractéristiques des ancres: gènes sans introns Mécanismes de duplication de gènes : - duplication segmentaire, souvent en tandem (donc conservation de la synténie) - rétrotranscription : perte des introns souvent perte de la synténie Proportion du nombre de gènes sans introns dans les différents jeux de gènes: => Les ancres ont moins de gènes sans introns (donc moins de rétrotranscription) GTGC 2006 Au total, 18% de gènes sans introns 6 % pour les orthologues non ambigus ; 8 à 15 % pour les gènes prédits et validés comme ancres 30 à 40 % pour les autres 22 I- Jeu d’orthologues sûrs Conclusions Jeu d’ancres «sûres»: 15 000 gènes pour l’homme (68 % du génome), dont 1 300 orthologues 1:1, 2 000 orthologues n:m 15 400 gènes chez la souris (62 % du génome), dont 1 300 orthologues 1:1 et 2400 orthologues n:m Vérification par: co-orientation, mesure du nombre de gènes sans introns GTGC 2006 23 II- Etude des gènes non retenus comme ancres Environ 6 000 gènes chez l’homme et 9 000 chez la souris qui n’ont pas de prédiction d’orthologie - Recherche de similarités de séquences, protéiques et nucléiques, au sein des intervalles orthologues - Alignement génomique (en cours) GTGC 2006 24 II- Gènes non retenus comme ancres 1) Recherche de similarités de séquences protéiques - Recherche de similarités de séquence par BLASTp, très peu strict (E-value < 20), entre les deux protéomes => pour chaque gène, liste des ‘hits’ et E-value associée E-value : indice de confiance sur le hit ( = nombre de séquences attendues par hasard dans la banque avec une telle similarité) - Modification de la E-value pour tenir compte du fait que le hit soit trouvé dans un intervalle orthologue ou non => peu concluant GTGC 2006 25 1) Recherche de similarités de séquence 1) Un ou plusieurs hits dans un intervalle orthologue, avec E-value suffisamment faible --> orthologues 2) Le meilleur hit est en dehors de l’intervalle, Evalue suffisamment faible 3) Pas de hits --> orphelins GTGC 2006 26 1) Recherche de similarités de séquence au niveau protéique : résultats Nombre de gènes ayant au moins un hit Homme 630 (11%) Souris 1 300 (16%) Co-orientation Gènes sans introns Homme 46 % 25 % Souris 54 % 35 % GTGC 2006 27 1) Recherche de similarités de séquence au niveau protéique : résultats Nombre de gènes ayant au moins un hit Homme 630 (11%) Souris 1 300 (16%) Similarités hors intervalles Homme 2 261 Souris 3 773 orphelins 2 258 3 126 GTGC 2006 28 2) Recherche de similarités de séquences au niveau nucléique Pour essayer de détecter des gènes non annotés =>recherche de similarité par tBLASTn (Comparaison de toutes les protéines d’un génome, contre les deux brins de l’autre génome traduits dans les 6 phases) -> Pour chaque gène: liste de ses hits avec leur position sur le génome ->Regarde si hit appartient à un intervalle orthologue GTGC 2006 29 2) Recherche de similarités de séquences au niveau nucléique : premiers résultats Nombre de gènes ayant Nombre de hits hors au moins un hit d’un CDS Homme 320 (14% gènes traités) 262 Souris 331 (11%) 258 GTGC 2006 30 3) Alignement génomique 2 objectifs: - Vérification des prédictions d’orthologie (vérifier pour chaque famille que les coordonnées du gène humain correspondent à une séquence alignée sur le génome murin) - Pour les orphelins: essayer de détecter une région orthologue Exon Exon dégénéré GTGC 2006 31 Conclusions - Perspectives Gènes orthologues: • En partant des orthologues non-ambigus , on arrive en utilisant la synténie à ~ 70 % d’orthologues sûrs (homme), et ~ 60% (souris). • Détection de similarité au sein des intervalles orthologues (3%) -> mais orthologie à vérifier • Validation de la méthode en l'appliquant à d’autres génomes GTGC 2006 32 Conclusions - Perspectives Gènes qui ont séquences similaires mais pas conservation de la synténie -> Faux positifs (méthodologie, similarité de domaines) -> Gènes transloqués ou rétrotranscrits Gènes orphelins : 10 % ! -> erreurs d’annotations -> Gènes perdus dans un des deux génomes: comparaison avec le chien ou d’autres espèces ->Gènes spécifiques d’une lignée . Fonctions particulières ? GTGC 2006 33 Merci pour votre attention ! GTGC 2006 34