Study about Genomic Signatures of Natural Selection using in si
Transcription
Study about Genomic Signatures of Natural Selection using in si
Études des classes alléliques haplotypiques par simulations de coalescence in silico Philippe Nadeau1,3 et Damian Labuda 2,3 1 Département de Biochimie, Université de Montréal, Montréal, Québec, Canada; Courriel: [email protected] 2 Département de pédiatrie, Université de Montréal, Montréal, Québec, Canada; INTRODUCTION SNPs Seq1 Seq2 Seq3 Seq4 Seq5 Seq6 Seq7 Seq8 Seq9 Seq10 > > > > > > > > > > 1 2 3 4 GTTAGCTATGCTAGCGTGCA GTTAGCTATGCTAGTGTACA GATAGCTATCCTAGTGTGCA GATAGCTATGCTAGTGTACA GATAGCTATCCTAGTGTACA GTTAGCTATGCTAGTGTACA GTTAGCTATGCTAGTGTACA GATAGCTATCCTAGTGTGCA GATAGCTATGCTAGTGTACA GATAGCTATGCTAGTGTACA 3 Centre de recherche du CHU Sainte-Justine, Montréal, Québec, Canada OBJECTIFS SNPs Hap1 Hap2 Hap3 Hap4 Hap5 Hap6 Hap7 Hap8 Hap9 Hap10 > > > > > > > > > > 1234 TGCG TGTA ACTG AGTA ACTA TGTA TGTA ACTG AGTA AGTA RÉSULTATS PRÉ PRÉLIMINAIRES ¾ Déterminer la sensibilité et la spécificité de Sv2 à la sélection naturelle par rapport à la dérive génétique lors d'évènements démographiques (goulot d’étranglement de la taille, structure en sous-populations distinctes et augmentation de la taille). ¾ Déterminer l'influence de différent type de sélection naturelle (sélection positive, sélection négative et sélection balancée) sur la distribution des HAC. DONNÉ DONNÉES Échantillon d’haplotypes: 100 haplotypes sont générés par simulation de coalescence in silico et ne sont pas pairés par individu. Les SNPs sont bialléliques et l’état des sites polymorphes vaut 0 (ancestral) ou 1 (dérivé). Figure 1: Exemple d'un échantillon de dix séquences génomiques provenant de cinq individus de même espèce où l'on retrouve quatre SNPs. Les nucléotides individuels polymorphes (SNPs) sont soulignés. Ils ont un état ancestral (en noir) lorsque le nucléotide correspond à celui se retrouvant chez l'ancêtre commun des individus échantillonnés et un état dérivé (en rouge) s'il y a eu une mutation. Les dix séquences peuvent être résumés par leur haplotype correspondant, soit uniquement par les nucléotides polymorphes consécutifs. Simulations de coalescence: Un arbre de coalescence est construit à rebours dans le temps (de la génération actuel à la génération de l’ancêtre commun) et des mutations y sont ajoutées, selon les paramètres désirés. La simulation se base sur le modèle reproductif de Wright-Fisher qui suppose une taille de population constante, un accouplement aléatoire et un absence de sélection. Il est possible d'inclure des extensions à ces suppositions de bases afin de permettre la recombinaison entre les séquences, une fluctuation de la taille de la population et différents types de sélection à l’intérieur du model. Modèle des sites infinis (ISM): Toutes les mutations surviennent à des positions différentes, car on suppose que la séquence génomique est très grande et que le taux de mutation est très faible. Les sites polymorphes sont uniquement bialléliques, c'est à dire qu'ils sont soient ancestraux ou dérivés. Les statistiques se basant sur ce modèle utilisent les fréquences alléliques des SNPs (Tajima‘s D et Fay and Wu‘s H). Programmes de simulation: Le programme ms (Hudson, 2002) peut simuler le model neutre et des évènements démographiques. Le programme SelSim (Spencer et Coop, 2004) peut simuler le model neutre et la sélection naturelle agissant sur l’un des SNPs simulés. Statistique initialement proposé pour représenter l'information des HAC: Sv2 = ∑( j2Nj )/n où j est le nombre de mutations ou la classe allélique haplotypique pour 0 ≤ j ≤ ∞ , Nj est la taille de la classe j et n est la taille de l'échantillon (n = ∑Nj) Coalescent process Classes alléliques haplotypiques (HAC): Une nouvelle approche pour représenter les haplotypes par le nombre de sites dérivés qu'ils portent, ce qui correspond aussi à leur distance avec la séquence ancestrale. Des haplotypes différents mais possédant le même nombre de sites dérivés sont regroupés dans la même classe. La taille de ces classes peut donc varier autant lorsque la fréquence des allèles ou des haplotypes varient. Most Recent Common Ancestor 0000 0100 Chronology Modèles des haplotypes infinis (IAM): Toutes les mutations créent un nouvel haplotype, car il existe énormément d'haplotypes possibles, soit 4n haplotypes pour une séquence de n sites. Les séquences sont représentées uniquement comme étant identiques ou différentes, par leur haplotype, à chacune des autres séquences. Les statistiques qui se basent sur ce modèle utilisent les fréquences haplotypiques. 0010 0011 -/--0001 0010 1100 1100 0100 0010 0001 Haplotypes Sample Figure 3: Possibilité d’arbre de coalescence pour un échantillon de cinq haplotypes. Il y a cinq haplotypes à la génération actuelle, puis survient six coalescences (en vert) et une recombinaison (en bleu) avant d’arriver à l’ancêtre commun le plus récent (MRCA). Les quatre mutations (étoiles en rouge) sont ajoutées par la suite créant ainsi quatre SNPs. Parmi ces cinq haplotypes, nous retrouvons quatre haplotypes distincts {1100, 0100, 0010, 0001}. Figure 4: Étendue des valeurs de S, k, Tajima’s D, Fay and Wu’s H et Sv2 pour 10000 simulations obtenue pour cinq démographies différentes. S est le nombre de sites polymorphes ou SNPs. k est le nombre d’haplotypes distincts. Tajima’s D est la normalisation de la différence de θs et θπ. Fay and Wu’s H est la différence entre θπ et θH. Sv2 est la statistique présentée dans l’introduction. CONCLUSIONS MÉTHODES Figure 2: Distribution des classes de fréquences alléliques, des fréquences haplotypiques décroissantes et des classes alléliques haplotypiques pour la région de 2kb en amont du gène GSTM3. Les valeurs observées sont présentées en histogramme et les valeurs attendues pour le modèle neutre sont présentées sous forme de courbe. (Labuda et al., 2007) Tableau I: Valeurs fournis au programme ms pour les simulations étudiées jusqu’à présents. Soient cinq simulations, une neutre et quatre goulots d’étranglement à des intensités ou des moments différents. Nombre de simulation 10000 Nombre d’haplotype par simulation 100 (équivalent à 50 individus) Taux de mutation populationnel (θ=4Nenµ) 10 Taux de recombinaison populationnel: (ρ=4Ner) 0 Goulot d'étranglement: - réduction de la taille de la population 0% 95% 95% 95% 99% - début de la réduction (4Ne générations) NA 0,0065 0,0055 0,0005 0,0065 - fin de la réduction (4Ne générations) NA 0,0085 0,0095 0,0025 0,0085 HYPOTHÈ HYPOTHÈSES Tableau II: Valeurs correspondantes des paramètres si la taille effective de la population et le taux de mutation sont estimées. La taille des séquences est issue de θ=10=4Nenµ. La génération actuelle est 0 et celle de la MRCA est 4Ne. Taille effective de la population (Ne) 10000 ¾ La distribution de la taille des classes alléliques haplotypiques varie lorsque la région du génome étudiée dans la population échantillonnée est, ou a été, sous sélection naturelle (Labuda et al., 2007). ¾ La statistique Sv2 développée au laboratoire permet de quantifier la distribution des HAC et ainsi détecter sa variation (résultats non publiés). Taux de mutation par génération par nucléotide (µ) Taille en nucléotides des séquences (n) Goulot d'étranglement: - début de la réduction (en générations) NA 260 220 20 260 - fin de la réduction (en générations) 340 380 100 340 NA [1,5 E-8; 2,5 E-8] Hudson, R.R. (2002) Generating samples under a Wright-Fisher neutral model of genetic variation, Bioinformatics 18:337-338. Labuda, D., Labbe, C., Langlois, S., Lefebvre, J.F., Freytag, V., Moreau, C., Sawicki, J., Beaulieu, P., Pastinen, T., Hudson, T.J. and Sinnett, D. (2007) Patterns of variation in DNA segments upstream of transcription start sites, Human Mutation 28:441-450. Spencer, C.C. and Coop, G. (2004) SelSim: a program to simulate population genetic data with natural selection and recombination, Bioinformatics 20:3673-3675. ¾ Un goulot d’étranglement provoque une baisse du nombre de SNPs qui est cependant moins intense que la baisse de diversité, puisque Tajima’s D devient positif. ¾ L'étendu et la variance des valeurs de Sv2 sont très grands. ¾ La statistique Sv2 ne semble pas être affectée par les goulots d'étranglement simulés. ¾ La statistique Sv2 a une réaction similaire à celle de Fay and Wu’s H. TRAVAUX FUTURES ¾ Générer des simulations avec de la recombinaison et pour différents taux. ¾ Tester l’effet du biais échantillonnage que subissent les données empiriques sur [10kb; 17kb] REFERENCES ¾ Le goulot d’étranglement le plus sévère est celui à 99%. les différentes statistiques. ¾ Générer des simulations avec différents types et intensités de sélection naturelle à l’aide du programme SelSim. REMERCIMENTS Merci aux autres étudiants et employé bio-informaticiens du laboratoire, principalement Jean-François Lefebvre, Julie Hussin et Véronique Ladret. Supporté financièrement par les bourses d'excellence biT, une bourse des programmes stratégiques de formation des IRSC en bio-informatique.