Correction du Contrôle continu octobre 2014

Transcription

Correction du Contrôle continu octobre 2014
Correction du Contrôle continu octobre 2014
Questions de cours
Question 1 (3 points)
Pourquoi utiliser un modèle évolutif (1 point)
Nous utilisons un modèle évolutif pour réaliser une reconstruction phylogénétique car la
distance observée qui correspond aux nombres de substitutions observées entre deux
séquences sur le nombre de sites alignés sous-estime la distance évolutive quand les
séquences sont issues d'organismes éloignés dans l'évolution. Ceci à pour cause l'existence de
substitutions multiples qui ont pu se produire au même site mais qui ne sont pas observables.
Ce phénomène est plus critique dans le cas des séquences d’acides nucléiques car elles
possèdent un alphabet plus pauvre que les séquences protéiques : quatre lettres au lieu de 20.
Pour tenter de corriger le biais du aux mutations multiples, des hypothèses sont faites sur la
façon dont les bases se sont substituées à un locus donné conduisant à la construction d'un
modèle évolutif.
Modèle de Jukes et Cantor et modèle de Tamura (2 points)
La différence entre les modèles d’évolution est liée à la définition des ij correspondant au
taux de substitution instantané d’une base d’un état i vers un état j (i≠j).
Dans le cas du modèle de Jukes et Cantor, toutes les substitutions sont équiprobables donc un
seul taux de substitution instantané  pour chacun des changements possibles (tous les ij =
). C'est le modèle évolutif le plus simple mais qui correspond à une vision très
simplificatrice de l'évolution.
Dans le cas du modèle de Tamura, les substitutions se produisent suivant deux taux distincts,
l’un pour les transitions, l’autre pour les transversions, les transitions étant plus fréquentes
(transition = A<->G ou T<->C). De plus, le modèle précédent de Jukes et Cantor, impose que
les fréquences des bases à l’équilibre soient toutes égales à ¼, donc que le taux global de GC
soit égal à ½. Or ceci est rarement vérifié sur les séquences réelles. Des modèles alternatifs
ont été proposés pour rendre compte de cette réalité biologique. Le modèle de Tamura intègre
un paramètre supplémentaire  représentant la fréquence de GC de la ou des séquence(s)
considérée(s).
Le modèle de Tamura représentant mieux la réalité biologique, il est plus approprié pour la
construction d'un arbre phylogénétique à partir de séquences d'ARNr 16S.
Question 2 (3 points)
Méthode de reconstruction (1 point)
Nous avons ici des données morphologiques représentées par la présence/absence d'un
caractère dérivé. L'approche que nous utiliserons sera donc une approche cladistique utilisant
la méthode de parcimonie pour la construction de l'arbre phylogénétique.
Reconstruction de l'arbre : (2 points)
Première étape : On construit un arbre avec les 3 premières espèces et on reporte sur les
branches le numéro du caractère transformé. Ici la mousse sert de groupe externe car elle ne
possède aucun des caractères dérivés analysés. Nous obtenons l'arbre présenté ci-dessous.
Seconde étape : Nous allons rajouter la quatrième espèce sur cet arbre. Il y a trois possibilités
car trois branches internes. Pour chaque arbre, nous allons placer sur ces branches l'apparition
des caractères dérivés permettant d'expliquer la topologie. Nous conserverons l'arbre le plus
parcimonieux, c'est-à-dire celui dont la topologie s'explique par le minimum de changements.
Dans note cas, il s'agit de l'arbre encadré dont la topologie s'explique par 4 changements. Pour
les deux autres arbres, nous avons supposé que les caractères 2 et 3 étaient apparus
indépendamment sur les branches menant au chêne et au pin. Nous aurions pu faire
l'hypothèse qu'ils étaient apparus avant la séparation chêne/pin et auraient subi une réversion
sur la branche menant à la fougère. Le nombre de changement aurait été équivalent.
Problème (basé sur les travaux publiés de Takenaka et al., Mol. Biol. Evol. 29(6): 1669-1681, 2012)
Takenata et collaborateurs ont étudié la capacité de bioluminescence des Copepods qui sont les taxa
les plus nombreux de la faune zoo-planctonique trouvée dans les océans. Un fort élément de preuve de
la présence de bioluminescence dans un organisme particulier est l'identification moléculaire et
l'analyse fonctionnelle de la luciférase. Des échantillons de plancton ont donc été collectés et les
Copepods vivants ont été sélectionnés. Pour déterminer les espèces de Copepods vivantes présentes
dans les échantillons, les séquences d'ARNr 18S ont été obtenue par PCR et comparées à celles
présentes dans les bases de données. Ces séquences auxquelles ont été ajoutées des séquences
d'organismes n'appartenant pas aux taxa des Copepods ont permis d'établir un arbre phylogénétique
des espèces (Figure 1). Il a été réalisé à l'aide de la méthode PhyML.
De même, les séquences cDNA des luciférases présentes dans les ARN totaux de ces organismes ont
été amplifiées en utilisant des primers déterminés à partir des régions conservées identifiées à partir
des séquences de ce gène présentes dans les banques de données. Pour les analyses évolutives, les
séquences en acides aminés de la luciférase déduites de celles des cDNA obtenus ont été utilisées
(Figure 2A : arbre obtenu avec la méthode PhyML, Figure 2B : arbre obtenu avec la méthode
Neighbor Joining (NJ)). Parmi les espèces de Copepods identifiées dans les échantillons, les gènes
codant pour la luciférase ont été identifiés par cette étude uniquement dans : Metridia pacifica,
Metridia longa, Metridia okhotensis, Pleuromamma abdominalis, Lucicutia ovaliformis, Heterostylites
major, Heterorhabdus tanneri et Gaussia princeps. Des études antérieures avaient montré la présence
de ce gène dans les espèces de Copepods suivantes : Pleuromamma scutullata, Pleuromamma xiphias,
Metridia asymmetrica, Metridia curticauda et Metridia lucens GU594642.
1) Une fois le jeu de données (i.e., les séquences) à analyser établi, décrivez les différentes étapes qui
doivent être réalisées pour construire un arbre phylogénétique. (2 points)
Un alignement multiple sera tout d'abord construit en utilisant un logiciel à cet effet (Muscle,
ClustalO,..). Cet alignement pourra être amélioré par correction manuelle ci-nécessaire. Ensuite,
une recherche du modèle évolutif le mieux adapté aux données sera réalisé à l'aide de Protest
(données de séquences protéiques) ou de JModelTest (données de séquences nucléiques). Le
résultat de ces deux méthodes nous informera aussi sur la nécessité ou non d'utiliser la
correction Gamma permettant de prendre en compte plusieurs classes de vitesse d'évolution des
sites. Pour les modèles évolutifs, dans le cas des séquences protéiques nous disposons notamment
des modèles PAM, JTT, WAG et LG. Dans le cas des séquences nucléiques, un plus grand
nombre de modèles sont disponibles (Jukes et Cantor, Kimura 2 paramètres, Tamura, Tamura
et Nei etc.). Ces modèles tentent de modéliser ce qui est connu sur l'évolution des séquences et
tentent de corriger le biais du aux substitutions multiples que l'on ne peut pas observer
directement à partir des séquences actuelles et qui conduisent à une sous estimation des
distances évolutives.
L'arbre phylogénétique sera construit en utilisant ce modèle et une méthode de maximum de
vraisemblance (PhyML). La robustesse de chacune des branches de la topologie sera évaluée par
l'utilisation de la méthode du bootstrap. Deux arbres pourront être construits pour le même jeu
de données et ceci avec deux méthodes différentes (PhML et BioNJ par exemple). Si les deux
arbres sont congruents, cela renforcera notre confiance dans la topologie obtenue.
2) A quoi correspondent les nombre figurant sur les branches des arbres des Figures 1 et 2 (0,5
point)? Comment sont-ils obtenus (1 point) ? Quel est l'intérêt de calculer ces valeurs ? (0,5 point)
Les nombres sur les branches correspondent aux valeurs de bootstrap.
Ils sont obtenus par ré-échantillonnage par tirage aléatoire avec remise des positions alignées
pour construire un alignement de même longueur. Un arbre phylogénétique sera construit en
utilisant cet alignement aléatoire. Ce processus est réitéré plusieurs fois (100 au minimum).
Ensuite, le nombre de fois où chaque branche de la topologie de départ est retrouvée dans ces
arbres "aléatoires" est calculé. La valeur de bootstrap correspondra au pourcentage de fois où
la branche a été retrouvée.
Cette méthode permet de tester individuellement la validité de chaque branche interne de
l’arbre et d'estimer sa robustesse. De manière générale, une faible valeur de bootstrap indique
que la quantité d’information supportant la bipartition induite par une branche interne est faible.
Si on applique les critères standards utilisés en statistique, il ne faudrait considérer comme
robuste que les branches ayant un support de bootstrap ≥ 95%. Des travaux ont montré que ce
seuil était trop élevé et que des supports de 70% pouvaient correspondre à des branches valides.
3) Analyse de l'arbre phylogénétique des espèces (Figure 1) :
a) Pourquoi avoir utilisé pour la construction de cet arbre des séquences d'espèces de Crustacés
n'appartenant pas aux taxa des Copepods ? (0,5 point)
Pour disposer d'un groupe externe qui permettra d'identifier la racine des séquences
d'intérêt à savoir positionner l'ancêtre hypothétique commun des Copepods.
b) Pourquoi avoir utilisé les séquences de l'ARNr 18S (équivalent eucaryote de l'ARNr 16S
procaryote) et non une approche de type super matrice permettant une reconstruction
phylogénétique utilisant un ensemble de séquences de gènes orthologues ? (0.5 point)
Pour réaliser un arbre phylogénétique par une approche super-matrice il faut pouvoir
identifier un ensemble de gènes orthologues appartenant aux génomes coeur des
organismes analysés. Pour cela il faut donc disposer du génome complet de ces
organismes, ce qui n'est pas le cas ici.
c) Sur cet arbre, les espèces de Copepods possédant des gènes de luciférase forment-elles un
groupe monophylétique, paraphylétique ou polyphylétique ? Argumentez votre réponse. (1
points)
Il forme un groupe monophylétique car l'ensemble des organismes pour lequel le gène de
la luciférase a été identifié est issu d'un même ancêtre hypothétique, celui des
Angaptiloidea.
4) Analyse des arbres construits à partir des séquences protéiques de luciférase obtenues dans cette
étude (Figure 2). L'arbre de la Figure 2A a été obtenu avec la méthode PhyML et celui de la figure 2B
avec la méthode Neighbor Joining (NJ)
a) A quelle classe de méthodes appartiennent chacune de ces méthodes ? (0.5 points)
NJ méthode de distance, PhyML méthode du maximum de vraisemblance.
b) Le modèle évolutif le plus adapté aux données s'est avéré être le modèle WAG accompagné
d'une correction par la loi Gamma. Pourquoi utilise-t-on une correction par la loi Gamma ? (1
point)
Le cadre conceptuel utilisé, le modèle de Markov en temps continu, impose des
hypothèses liées à ce modèle, notamment celle d'uniformité du processus, c'est à dire que
tous les sites d'une séquence suivent le même processus et que les probabilités et taux de
substitution sont applicables à tous les sites. Conséquences, on suppose que les sites
évoluent à la même vitesse. Or nous savons que cela est faux. En effet, les contraintes
fonctionnelles engendrent des taux d’évolution (r) différents selon les sites. Il a été
démontré que ce taux r est modélisable par une loi Gamma (séquences nucléiques
ou protéiques). L'utilisation de la distribution Gamma permet donc de prendre
en compte l’existence de vitesses d’évolution différentes. Si nous utilisons une
correction Gamma 4 catégories, nous considérerons que les sites évoluent suivant
quatre taux d'évolution différents.
c) Pourquoi avoir utilisé pour les analyses évolutives les séquences en acides aminés de la
luciférase et non les séquences des cDNA ? (0,5 point)
Les arbres ont été construits à partir de séquences protéiques et non nucléiques
car lorsque les espèces sont distantes dans l'évolution, les séquences nucléiques
peuvent avoir subi des substitutions multiples qui conduiront à une sousestimation de leurs distances évolutives. On peut même dans certains cas avoir
perdu le signal phylogénétique. Ceci est du au petit alphabet de ces séquences (4
lettres, les 4 bases). On préfère donc travailler au niveau protéique.
d) Les deux arbres obtenus sont-ils congruents ? Argumentez votre réponse. (2 points)
Les deux arbres ne sont pas totalement congruent (n'ont pas tout à fait la même
topologie). La séquence GLuc est positionnée différemment sur chaque arbre. Sur
l'arbre NJ la branche Gluc est sister group du sous-arbre Mluc, MoLuc1, MpLuc et
Paluc1 et sur l'arbre PhyML GLuc est sister group de l'autre sous-arbre (Paluc2,
MoLuc2 et MpLuc2).
e) Les gènes codant pour les séquences MoLuc1 et MoLuc2 sont-ils homologues, orthologues,
paralogues? Argumentez votre réponse. (1 point)
Les séquences MoLuc1 et MoLuc2 sont homologues et paralogues. Homologues car elles
possèdent un ancêtre commun et paralogues car elles sont issues d'un événement de
duplication (les deux séquences sont trouvées dans le même génome).
f) On se concentrera sur l'arbre obtenu avec PhyML (Figure 2A). Quelle évolution le gène de la
luciférase a-t-il subit dans les espèces analysées ? Pour répondre à cette question, vous vous
attacherez à décrire les évènements de duplication, perte de gènes et transferts horizontaux qui
ont pu se produire. Vous préciserez sur quelles branches de l'arbre ces évènements ont eu la
plus grande chance de s'être produits. (2 points) Est-ce que des évènements de même type
(duplication ou perte de gènes) se seraient produits de façon indépendante ? Si oui, lesquels. (1
points)
Le gène codant pour la luciférase aurait été acquis dans l'ancêtre commun des
Augaptiloidea car il n'a été identifié jusqu'à aujourd'hui que dans les organismes de ce
groupe. Il aurait par la suite subi une duplication dans l'ancêtre des organismes
(Gaussia, Pleuromamma et Metridia) et un des deux gènes aurait été perdu dans
Gaussia. Il aurait également subi une duplication dans le génome de H. tanneri et dans
celui de H. major.
Aucun transfert horizontal n'ait détectable car l'arbre obtenu avec les séquences de
luciférase
ne
montre
pas
d'incongruence
avec
celui
des
espèces.
Les 3 événements de duplication décrits ci-dessus se seraient produits de façon
indépendante. En effet, si un seul événement de duplication s'était produit dans l'ancêtre
de tous ces organismes, les deux gènes auraient du former deux sous-arbres distincts or
ce n'est pas le cas. On observe trois sous-arbres comprenant deux copies du gènes.

Documents pareils