Study about Genomic Signatures of Natural Selection using in si

Transcription

Study about Genomic Signatures of Natural Selection using in si
Études des classes alléliques haplotypiques par
simulations de coalescence in silico
Philippe Nadeau1,3 et Damian Labuda 2,3
1
Département de Biochimie, Université de Montréal, Montréal, Québec, Canada;
Courriel: [email protected]
2
Département de pédiatrie, Université de Montréal, Montréal, Québec, Canada;
INTRODUCTION
SNPs
Seq1
Seq2
Seq3
Seq4
Seq5
Seq6
Seq7
Seq8
Seq9
Seq10
>
>
>
>
>
>
>
>
>
>
1
2
3 4
GTTAGCTATGCTAGCGTGCA
GTTAGCTATGCTAGTGTACA
GATAGCTATCCTAGTGTGCA
GATAGCTATGCTAGTGTACA
GATAGCTATCCTAGTGTACA
GTTAGCTATGCTAGTGTACA
GTTAGCTATGCTAGTGTACA
GATAGCTATCCTAGTGTGCA
GATAGCTATGCTAGTGTACA
GATAGCTATGCTAGTGTACA
3
Centre de recherche du CHU Sainte-Justine, Montréal, Québec, Canada
OBJECTIFS
SNPs
Hap1
Hap2
Hap3
Hap4
Hap5
Hap6
Hap7
Hap8
Hap9
Hap10
>
>
>
>
>
>
>
>
>
>
1234
TGCG
TGTA
ACTG
AGTA
ACTA
TGTA
TGTA
ACTG
AGTA
AGTA
RÉSULTATS PRÉ
PRÉLIMINAIRES
¾ Déterminer la sensibilité et la spécificité de Sv2 à la sélection naturelle par
rapport à la dérive génétique lors d'évènements démographiques (goulot
d’étranglement de la taille, structure en sous-populations distinctes et
augmentation de la taille).
¾ Déterminer l'influence de différent type de sélection naturelle (sélection positive,
sélection négative et sélection balancée) sur la distribution des HAC.
DONNÉ
DONNÉES
Échantillon d’haplotypes: 100 haplotypes sont générés par simulation de
coalescence in silico et ne sont pas pairés par individu. Les SNPs sont bialléliques
et l’état des sites polymorphes vaut 0 (ancestral) ou 1 (dérivé).
Figure 1: Exemple d'un échantillon de dix séquences génomiques provenant
de cinq individus de même espèce où l'on retrouve quatre SNPs. Les
nucléotides individuels polymorphes (SNPs) sont soulignés. Ils ont un état
ancestral (en noir) lorsque le nucléotide correspond à celui se retrouvant chez
l'ancêtre commun des individus échantillonnés et un état dérivé (en rouge) s'il y a
eu une mutation. Les dix séquences peuvent être résumés par leur haplotype
correspondant, soit uniquement par les nucléotides polymorphes consécutifs.
Simulations de coalescence: Un arbre de coalescence est construit à rebours
dans le temps (de la génération actuel à la génération de l’ancêtre commun) et des
mutations y sont ajoutées, selon les paramètres désirés. La simulation se base sur
le modèle reproductif de Wright-Fisher qui suppose une taille de population
constante, un accouplement aléatoire et un absence de sélection. Il est possible
d'inclure des extensions à ces suppositions de bases afin de permettre la
recombinaison entre les séquences, une fluctuation de la taille de la population et
différents types de sélection à l’intérieur du model.
Modèle des sites infinis (ISM): Toutes les mutations surviennent à des positions
différentes, car on suppose que la séquence génomique est très grande et que le
taux de mutation est très faible. Les sites polymorphes sont uniquement
bialléliques, c'est à dire qu'ils sont soient ancestraux ou dérivés. Les statistiques
se basant sur ce modèle utilisent les fréquences alléliques des SNPs (Tajima‘s D
et Fay and Wu‘s H).
Programmes de simulation: Le programme ms (Hudson, 2002) peut simuler le
model neutre et des évènements démographiques. Le programme SelSim
(Spencer et Coop, 2004) peut simuler le model neutre et la sélection naturelle
agissant sur l’un des SNPs simulés.
Statistique initialement proposé pour représenter l'information des HAC:
Sv2 = ∑( j2Nj )/n
où j est le nombre de mutations ou la classe allélique haplotypique pour 0 ≤ j ≤ ∞ ,
Nj est la taille de la classe j et
n est la taille de l'échantillon (n = ∑Nj)
Coalescent process
Classes alléliques haplotypiques (HAC): Une nouvelle approche pour
représenter les haplotypes par le nombre de sites dérivés qu'ils portent, ce qui
correspond aussi à leur distance avec la séquence ancestrale. Des haplotypes
différents mais possédant le même nombre de sites dérivés sont regroupés dans
la même classe. La taille de ces classes peut donc varier autant lorsque la
fréquence des allèles ou des haplotypes varient.
Most Recent Common Ancestor
0000
0100
Chronology
Modèles des haplotypes infinis (IAM): Toutes les mutations créent un nouvel
haplotype, car il existe énormément d'haplotypes possibles, soit 4n haplotypes
pour une séquence de n sites. Les séquences sont représentées uniquement
comme étant identiques ou différentes, par leur haplotype, à chacune des autres
séquences. Les statistiques qui se basent sur ce modèle utilisent les fréquences
haplotypiques.
0010
0011
-/--0001
0010
1100
1100
0100
0010
0001
Haplotypes Sample
Figure 3: Possibilité d’arbre de coalescence pour un échantillon de cinq
haplotypes. Il y a cinq haplotypes à la génération actuelle, puis survient six
coalescences (en vert) et une recombinaison (en bleu) avant d’arriver à l’ancêtre
commun le plus récent (MRCA). Les quatre mutations (étoiles en rouge) sont
ajoutées par la suite créant ainsi quatre SNPs. Parmi ces cinq haplotypes, nous
retrouvons quatre haplotypes distincts {1100, 0100, 0010, 0001}.
Figure 4: Étendue des valeurs de S, k, Tajima’s D, Fay and Wu’s H et Sv2
pour 10000 simulations obtenue pour cinq démographies différentes. S est le
nombre de sites polymorphes ou SNPs. k est le nombre d’haplotypes distincts.
Tajima’s D est la normalisation de la différence de θs et θπ. Fay and Wu’s H est la
différence entre θπ et θH. Sv2 est la statistique présentée dans l’introduction.
CONCLUSIONS
MÉTHODES
Figure 2: Distribution des classes de fréquences alléliques, des fréquences
haplotypiques décroissantes et des classes alléliques haplotypiques pour la
région de 2kb en amont du gène GSTM3. Les valeurs observées sont
présentées en histogramme et les valeurs attendues pour le modèle neutre sont
présentées sous forme de courbe. (Labuda et al., 2007)
Tableau I: Valeurs fournis au programme ms pour les simulations étudiées
jusqu’à présents. Soient cinq simulations, une neutre et quatre goulots
d’étranglement à des intensités ou des moments différents.
Nombre de simulation
10000
Nombre d’haplotype par simulation
100 (équivalent à 50 individus)
Taux de mutation populationnel (θ=4Nenµ)
10
Taux de recombinaison populationnel: (ρ=4Ner)
0
Goulot d'étranglement:
- réduction de la taille de la population
0% 95%
95%
95%
99%
- début de la réduction (4Ne générations) NA 0,0065 0,0055 0,0005 0,0065
- fin de la réduction (4Ne générations)
NA 0,0085 0,0095 0,0025 0,0085
HYPOTHÈ
HYPOTHÈSES
Tableau II: Valeurs correspondantes des paramètres si la taille effective de la
population et le taux de mutation sont estimées. La taille des séquences est
issue de θ=10=4Nenµ. La génération actuelle est 0 et celle de la MRCA est 4Ne.
Taille effective de la population (Ne)
10000
¾ La distribution de la taille des classes alléliques haplotypiques varie lorsque la
région du génome étudiée dans la population échantillonnée est, ou a été, sous
sélection naturelle (Labuda et al., 2007).
¾ La statistique Sv2 développée au laboratoire permet de quantifier la distribution
des HAC et ainsi détecter sa variation (résultats non publiés).
Taux de mutation par génération par nucléotide
(µ)
Taille en nucléotides des séquences (n)
Goulot d'étranglement:
- début de la réduction (en générations)
NA
260
220
20
260
- fin de la réduction (en générations)
340
380
100
340
NA
[1,5 E-8; 2,5 E-8]
Hudson, R.R. (2002) Generating samples under a Wright-Fisher neutral model of genetic variation, Bioinformatics 18:337-338.
Labuda, D., Labbe, C., Langlois, S., Lefebvre, J.F., Freytag, V., Moreau, C., Sawicki, J., Beaulieu, P., Pastinen, T., Hudson, T.J. and Sinnett, D.
(2007) Patterns of variation in DNA segments upstream of transcription start sites, Human Mutation 28:441-450.
Spencer, C.C. and Coop, G. (2004) SelSim: a program to simulate population genetic data with natural selection and recombination,
Bioinformatics 20:3673-3675.
¾ Un goulot d’étranglement provoque une baisse du nombre de SNPs qui est
cependant moins intense que la baisse de diversité, puisque Tajima’s D devient
positif.
¾ L'étendu et la variance des valeurs de Sv2 sont très grands.
¾ La statistique Sv2 ne semble pas être affectée par les goulots d'étranglement
simulés.
¾ La statistique Sv2 a une réaction similaire à celle de Fay and Wu’s H.
TRAVAUX FUTURES
¾ Générer des simulations avec de la recombinaison et pour différents taux.
¾ Tester l’effet du biais échantillonnage que subissent les données empiriques sur
[10kb; 17kb]
REFERENCES
¾ Le goulot d’étranglement le plus sévère est celui à 99%.
les différentes statistiques.
¾ Générer des simulations avec différents types et intensités de sélection naturelle
à l’aide du programme SelSim.
REMERCIMENTS
Merci aux autres étudiants et employé bio-informaticiens du laboratoire,
principalement Jean-François Lefebvre, Julie Hussin et Véronique Ladret.
Supporté financièrement par les bourses d'excellence biT, une bourse
des programmes stratégiques de formation des IRSC en bio-informatique.

Documents pareils