Détection exhaustive des gènes orthologues entre deux génomes

Transcription

Détection exhaustive des gènes orthologues entre deux génomes
Détection exhaustive des
gènes orthologues entre
deux génomes complets
GTGC - 12 octobre 2006
Claire Guillet, Laurent Guéguen et Laurent Duret
Laboratoire de Biométrie et Biologie Evolutive - Lyon 1
Problématique
Recherche des gènes apparus ou disparus
spécifiquement dans une (plusieurs)
lignée(s) de mammifères
=> Première étape : détection des gènes
orthologues (= qui dérivent d’un ancêtre
commun par spéciation)
par: - similarité des séquences
- phylogénie
GTGC 2006
2
1) Meilleure similarité réciproque (ou RBH)
G1
G2
G3
G4
G5
Ga
Gb
G1
G2
G3
G4
G5
Gc
Gd
I- génome A contre génome B
Ga
Gb
Gc
Gd
II- génome B contre génome A
GTGC 2006
3
1) Meilleure similarité réciproque (ou RBH)
G1
G2
G3
G4
G5
Ga
Gb
Gc
Gd
Meilleures similarités réciproques => gènes orthologues
Avantages : Assez sensible
Inconvénients : Suppose que les gènes ont une
relation d’orthologie 1:1
GTGC 2006
4
2) Utilisation de la phylogénie :
Réconciliation d’arbres
1- Construire l’arbre phylogénétique des gènes ;
éventuellement réconciliation avec arbre des espèces
Homme Souris
Souris
Rat
Arbre phylogénétique
des espèces
Homme
Rat
Arbre pour une
famille de gènes
GTGC 2006
5
2) Utilisation de la phylogénie :
Réconciliation d’arbres
1- Construire l’arbre phylogénétique des gènes ;
éventuellement réconciliation avec arbre des espèces
Gène 1
Gène 2
Duplication
Homme1 Souris1 Rat1 Homme2 Souris2 Rat2
Arbre des gènes réconcilié avec l’arbre des espèces
GTGC 2006
6
2) Utilisation de la phylogénie :
Recherche de motifs d’arbre
1- Construction de l’arbre réconcilié
2- Rechercher un motif d’arbre
(par exemple, tous les gènes orthologues entre l’homme et la
souris mais pas de duplication)
Avantages : Plus spécifique
+ Détection des familles d’orthologues n:m
Inconvénients : manque de sensibilité (à cause
critères construction arbres phylogénétiques)
GTGC 2006
7
3) Utilisation de la
conservation de la synténie
Au total, ~ 60-70% de gènes orthologues entre les génomes
humain et murin
-> on attend 96 % !!
Utilisation de la conservation de
l’ordre des gènes :
Si on a deux paires
d’orthologues sûrs, deux
gènes moyennement
similaires mais situés entre
les deux peuvent aussi
être orthologues
A
C
B
A’
C’
B’
GTGC 2006
8
Procédure - Résultats
1) Sélection d’un jeu d’orthologues sûrs ; qui vont
délimiter des intervalles sur chaque génome et
des intervalles orthologues entre deux génomes
2) Utilisation de ces intervalles pour placer les
gènes restants: recherche de similarités de
séquence au sein des intervalles orthologues,
au niveau protéique et nucléique
GTGC 2006
9
I- Jeu d’orthologues sûrs
1) Construction des intervalles
⇒ à partir des orthologues non ambigus =
orthologues 1:1 prédits par RBH et par phylogénie
A
B
ancres
intervalles
A’
B’
GTGC 2006
10
1) Construction des intervalles :
autres prédictions d’orthologie
1) Placer les autres gènes prédits orthologues
(par RBH ou par phylogénie uniquement)
dans les intervalles
ordre: orthologues 1:1 puis orthologues n:m
2) Confirmer ou invalider ces relations
GTGC 2006
11
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
12
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
13
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
14
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
15
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
16
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
17
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
18
1) Construction des intervalles :
autres prédictions d’orthologie
GTGC 2006
19
1) Construction des intervalles :
résultats
Génome humain
Orthologues
non ambigus
22 038 gènes
46%
10 087 gènes
RBH + synténie
2 831 gènes
Phylogénie
+ synténie
13%
10%
31%
Orphelins
+ rejetés
6 992 gènes
2 128 gènes
GTGC 2006
20
I- Jeu d’orthologues sûrs
2) Caractéristiques des ancres:
co-orientation
Orientation (= sens de transcription sur le génome)
Co-orientation (=même sens de transcription sur les deux génomes)
- On attend :
Dans intervalles orthologues :
tous les gènes co-orientés
En dehors : moitié
de co-orientation
- Majorité des gènes ajoutés sont co-orientés (89 à 96 %)
gènes prédits orthologues mais invalidés : 50 %
GTGC 2006
21
2) Caractéristiques des ancres:
gènes sans introns
Mécanismes de duplication de gènes :
- duplication segmentaire, souvent en tandem
(donc conservation de la synténie)
- rétrotranscription : perte des introns
souvent perte de la synténie
Proportion du nombre de
gènes sans introns dans les
différents jeux de gènes:
=> Les ancres ont moins de
gènes sans introns (donc
moins de rétrotranscription)
GTGC 2006
Au total, 18% de gènes sans
introns
6 % pour les orthologues non
ambigus ; 8 à 15 % pour les
gènes prédits et validés
comme ancres
30 à 40 % pour les autres
22
I- Jeu d’orthologues sûrs
Conclusions
Jeu d’ancres «sûres»:
15 000 gènes pour l’homme (68 % du génome),
dont 1 300 orthologues 1:1, 2 000 orthologues n:m
15 400 gènes chez la souris (62 % du génome),
dont 1 300 orthologues 1:1 et 2400 orthologues n:m
Vérification par:
co-orientation, mesure du nombre de gènes sans
introns
GTGC 2006
23
II- Etude des gènes non retenus
comme ancres
Environ 6 000 gènes chez l’homme et 9 000 chez
la souris qui n’ont pas de prédiction d’orthologie
- Recherche de similarités de séquences,
protéiques et nucléiques, au sein des
intervalles orthologues
- Alignement génomique (en cours)
GTGC 2006
24
II- Gènes non retenus comme ancres
1) Recherche de similarités de séquences
protéiques
- Recherche de similarités de séquence par BLASTp, très peu
strict (E-value < 20), entre les deux protéomes
=> pour chaque gène, liste des ‘hits’ et E-value associée
E-value : indice de confiance sur le hit
( = nombre de séquences attendues par hasard
dans la banque avec une telle similarité)
- Modification de la E-value pour tenir compte du fait que le hit
soit trouvé dans un intervalle orthologue ou non
=> peu concluant
GTGC 2006
25
1) Recherche de similarités de séquence
1) Un ou plusieurs hits
dans un intervalle
orthologue, avec E-value
suffisamment faible
--> orthologues
2) Le meilleur hit est en
dehors de l’intervalle, Evalue suffisamment faible
3) Pas de hits
--> orphelins
GTGC 2006
26
1) Recherche de similarités de séquence
au niveau protéique : résultats
Nombre de gènes ayant
au moins un hit
Homme 630 (11%)
Souris
1 300 (16%)
Co-orientation
Gènes sans introns
Homme
46 %
25 %
Souris
54 %
35 %
GTGC 2006
27
1) Recherche de similarités de séquence
au niveau protéique : résultats
Nombre de gènes ayant
au moins un hit
Homme 630 (11%)
Souris
1 300 (16%)
Similarités hors
intervalles
Homme 2 261
Souris
3 773
orphelins
2 258
3 126
GTGC 2006
28
2) Recherche de similarités de
séquences au niveau nucléique
Pour essayer de détecter des gènes non annotés
=>recherche de similarité par tBLASTn
(Comparaison de toutes les protéines d’un génome, contre les
deux brins de l’autre génome traduits dans les 6 phases)
-> Pour chaque gène: liste de ses hits avec
leur position sur le génome
->Regarde si hit appartient à un intervalle
orthologue
GTGC 2006
29
2) Recherche de similarités de
séquences au niveau nucléique :
premiers résultats
Nombre de gènes ayant
Nombre de hits hors
au moins un hit
d’un CDS
Homme 320 (14% gènes traités) 262
Souris
331 (11%)
258
GTGC 2006
30
3) Alignement génomique
2 objectifs:
- Vérification des prédictions d’orthologie (vérifier
pour chaque famille que les coordonnées du gène humain
correspondent à une séquence alignée sur le génome
murin)
- Pour les orphelins: essayer de détecter une
région orthologue
Exon
Exon
dégénéré
GTGC 2006
31
Conclusions - Perspectives
Gènes orthologues:
• En partant des orthologues non-ambigus , on arrive en
utilisant la synténie à ~ 70 % d’orthologues sûrs (homme),
et ~ 60% (souris).
• Détection de similarité au sein des intervalles orthologues (3%)
-> mais orthologie à vérifier
• Validation de la méthode en l'appliquant à d’autres génomes
GTGC 2006
32
Conclusions - Perspectives
Gènes qui ont séquences similaires mais pas conservation de
la synténie
-> Faux positifs (méthodologie, similarité de domaines)
-> Gènes transloqués ou rétrotranscrits
Gènes orphelins : 10 % !
-> erreurs d’annotations
-> Gènes perdus dans un des deux génomes:
comparaison avec le chien ou d’autres espèces
->Gènes spécifiques d’une lignée
. Fonctions particulières ?
GTGC 2006
33
Merci pour votre attention !
GTGC 2006
34

Documents pareils