DNA pool sequencing, une nouvelle approche pour la

Transcription

DNA pool sequencing, une nouvelle approche pour la
DNA pool sequencing, une nouvelle approche pour la détection de SNP : Application
chez le peuplier
I. Paolucci1, V Jorge2, I. Bourgait2, M. C. Le paslier3, D. Brunel3 P. Faivre Rampant2
1 UMRGV/INRA, 2 rue Gaston Crémieux, 91057 Evry cedex
2 UAGPF 2163 Avenue de la Pomme de Pin, BP 20619 Ardon, 45166 Olivet cedex
3 EPGV/CNG, 2 rue Gaston Crémieux, 91057 Evry cedex
Introduction
Malgré l’acquisition récente de nombreuses connaissances sur la structure et le
fonctionnement du génome du peuplier, on dispose de peu d’informations sur le niveau de
polymorphisme des gènes d’intérêt (Zhang et al, Journal of integrative Biology, 2005,
47 :1493-1499 ; Unneberg et al, Tree, Genetics and Genome, 2005, 1 :109-115). Or, l’accès à
ce niveau de connaissance est indispensable pour connaître la diversité des espèces, l’étendue
du déséquilibre de liaison et mener des études de génétique d’association. Le développement
de marqueurs de type SNP « Single Nucleotide Polymorphism » dans les gènes d’intérêt ou
ayant un rôle adaptatif sont les marqueurs génétiques les mieux adaptés à ces études. La
détection de SNP, est une étape incontournable qu’il convient d’optimiser. Chez les arbres,
espèces fortement hétérozygotes les méthodes généralement utilisées passaient par une étape
de clonage des différents allèles chez quelques individus, les allèles étaient ensuite séquencés
et le polymorphisme était visualisé après alignement des séquences. L’étape de clonage étant
longue et coûteuse, le développement des SNP était par conséquent très limité.
Depuis peu, nous avons testé le séquencage direct de produits PCR correspondant à des
fragments de gènes. Lorsque l’amplicon correspond à une région exonique, les SNP au sein
d’un même individu sont détectés sans difficultés. En revanche dans les introns et les régions
UTR, les polymorphismes sont souvent des insertion/délétion qui rendent impossible la
détection de SNP (Paolucci et al, Plant & Animal genome XVI, San Diego, janv 08). Dans
l’étude présentée ici, nous avons testé la possibilité de mélanger des amplicons avant
séquençage afin de réduire le cout et le temps de réalisation de cette étape incontournable
pour le développement du génotypage haut-débit.
Matériel et Méthodes
Matériel végétal et extraction d’ADN
Vingt cinq individus des espèces P. trichocarpa et P. nigra ont été pris au hasard dans les
collections présentes à Orléans. Les ADN ont été extrait à l’aide du kit 96 Qiagen.
Conception des amorces
Six couples d’amorces ont tout d’abord étés dessinés d’après l’annotation V1.1 du génome de
peuplier. Puis d’après nos premiers résultats infructueux, nous avons ré-annotés les gènes.
Vingt neuf gènes d’intérêt ont alors été ré-annotés en utilisant les EST disponibles dans la
base de données ForEST (I. Bourgait, INRA Orléans). Des amorces ont été définies d’après
une séquence consensus de façon à amplifier en priorité les régions exoniques à l’aide du
logiciel Primer 3 (S. Rozene et al.2000 " In S. Krawetz, S. Misener, eds. Bioinformatics
Methods and Protocols in the series Methods in Molecular Biology. Humana Press, Totowa,
NJ, pages 365-386).
Amplification PCR, préparation des mélanges et séquençage
La stratégie de séquençage en mélange a été testée à l’aide de 9 couples d’amorces (tableau
1). Les amplifications, réalisées dans des conditions standard de PCR, ont été vérifiées sur gel
d’agarose avant la préparation des mélanges. Pour chaque gène, les amplicons ont été
mélangés en proportion égale dans 2 pools différents de 2 individus, 3 pools différents de 3
individus et ainsi de suite jusqu’à 5. Les mélanges ont été réalisés indépendamment pour les
deux espèces P. trichocarpa et P. nigra. Les individus constituant les pools ont été pris au
hasard. Le séquençage des fragments a été effectué en Sanger. L’ensemble des
chromatogrammes ainsi obtenus a été analysé à l’aide du logiciel GENALYS (Takahashi M et
al, 2003, J Bioinform Comput Biol 1:253-265). Les chromatogrammes issus des mélanges ont
Supprimé : ¶
tout d’abord été étudiés pour détecter des SNP. Les SNP trouvés ont ensuite été validés par
l’analyse des chromatogrammes issus du séquençage d’un seul amplicon correspondant à
l’amplification d’un fragment de gène chez un individu.
Résultats
Sur les 36 amorces définies après ré-annotation des gènes (6 sur 29 étaient mal annotés), 34
génèrent des produits d’amplification chez P. trichocarpa, et 32 chez P. nigra. Lors de ce
travail, nous avons pu identifier des SNP in silico. Certains d’entre eux ont été validés par
séquençage. Le bilan de cette activité n’est pas détaillé dans ce rapport mais les données
seront transférées aux bases de données ForEST d’Orléans et GnpSNP de l’URGI
(urgi.versailles.inra.fr/projects/GnpSnp). Sur les 9 gènes mis à l’étude, nous avons obtenu des
résultats probants pour 3 d’entre eux, ceux dont la position en exons et introns a été vérifiée.
Les résultats manquants sont dus 1- à la présence d’insertion délétion dans les introns et/ou
les régions UTR, 2- à la non spécificité des amorces qui conduisent à l’amplification de
plusieurs loci ; 3- à la mauvaise qualité des séquences. Les chromatogrammes issus du
séquençage des amplicons en mélange et des amplicons seuls pour le gène oxydo-reductase
sont présentés dans la figure ci-dessous. Cette figure montre que les SNP sont toujours
détectés dans les mélanges de 2 ou 3 individus, qu’elle que soit la proportion relative du SNP
dans le mélange. Pour les mélanges de 4 et 5 amplicons le résultat dépend de la proportion
relative du SNP dans le mélange. Les SNP sont détectés si leur fréquence relative est au
moins égale à 20%. Pour chacun des 3 gènes analysés, nous avons pu faire le même constat.
Comme il a été précisé dans le matériel et méthodes, nous avons tout d’abord cherché à
identifier les SNP en analysant les chromatogrammes issus des pools et non tenter de
retrouver les SNP dans les pools identifiés au préalable après l’analyse des individus seuls, de
façon à ne pas influencer la lecture. La fréquence des SNP correctement détectés pour chaque
gène est présentée dans le tableau 2. Dans nos conditions nous n’avons pas répertorié de faux
positifs.
Discussion et conclusions
La stratégie séquençage d’ADN en mélange a été testée dans cette étude pour optimiser la
détection de points de polymorphisme dans la séquence de fragments de gènes d’intérêt chez
P. trichocarpa et P. nigra. Nous montrons que la stratégie est applicable chez les peupliers
pour la détection de SNP dans les régions exoniques, car il existe en moyenne 1 SNP toutes
200 bases. Cependant, La réussite de cette stratégie est directement liée à la qualité des
séquences obtenues. Aujourd’hui la majorité des opérations de séquençage sont confiées à des
prestataires de service. D’après notre expérience, nous avons remarqué que la qualité des
séquences est non seulement variable entre les prestataires, mais également dans le temps
pour un même prestataire. Lorsque les séquences sont de très bonne qualité, montrant des pics
réguliers, un bruit de fond équivalent ou proche de la ligne de base, la surface des pics peut
alors être prise en compte pour la détection des SNP présents dans un mélange. Nous
sommes alors en mesure de détecter des SNP sans difficultés dans les mélanges de 2 et 3
amplicons. Pour les mélanges de 4 et 5 fragments la détection du SNP dépend de sa fréquence
dans le mélange, notre limite de détection étant de 20%. Ainsi pour les espèces hétérozygotes
comme le peuplier, le séquençage d’ADN en mélange de 2 ou 3 individus peut être envisagé
dans le cadre de la recherche de polymorphisme entre des parents utilisés en croisement pour
le développement de marqueurs utiles à la cartographie génétique, par exemple. La stratégie
peut également être utile au génotypage de quelques individus qui ne justifierait pas l’emploi
de méthode haut débit.
Légendes des tableaux
Tableau 1 : liste des gènes et des amorces utilisés pour tester le DNA pool sequencing
Tableau 2 : fréquence des SNP observés dans les mélanges, les % de 97 et 95 trouvés lors de
l’analyse des pools de 3 individus s’expliquent par des séquences de mauvaise qualité
Tableau 1 :
Gènes
Thaumatine
Localisation
LG/Scaffold
XVIII:9865561
Putative Arabino
galactan-protein
Hypotetical protein 4
152:13274
Serine/Threonine Kinase
XIX:982966
Proteinase inhibitor
XIX: 953787
Arabino galactan-protein
XIX:5173638
Oxido-reductase
XIX: 1005449
Phosphatidylinositol
transfer protein
XIX: 971321
Phytochelatin synthetase
family protein (Cobra)
IV:13482111
VIII:9365771
amorces
(F and R)
CTTGATCCAACGGCACTAGC
CTGGATATGCTCACGAAAGG
TGTCTCTAGATTTCGGTGATAAGC
CAATCCGGTTGTGTGAACC
AAAAGCAGCCCCTAATAGCC
TTTCCTCCAAAACCAACTTAGC
TGCAGAAACCTGCTATCTCG
AAGGGGGAAATCAATGATGC
GCAAACGTTTTAAGCAAACTAAAG
ATTGACATTAACCCCAGCATC
TGTATGGCACACCACAAAGC
CCCTCAATTCTCATCCATGC
CTGGAGGAAGAGGTGTGG
GAGAGGATTTTAGCACGAGA
AGGACTAAGCAAAGATGGTG
TTAATCAGAGCAAGGTTTGG
T°m
UTR/exon /intron
58
Taille
amplicon
987
59
556
355/201/-
58
1003
272/648/83
59
630
444/186/-
57
637
295/228/112
59
608
428/180/-
55
856
149/356/351
55
825
-/358/467
TGCTCTTTTCTTGTTCAGGT
GCAGACCATCAGGAGTAAG
55
728
-/537/191
Tableau 2 :
gènes
espèces
Oxydo-réductase
P. trichocarpa
P. nigra
P. trichocarpa
P. nigra
P. trichocarpa
P. nigra
Pinositol T2
Ptr-COBL4
Nombre
SNP
2
26
7
8
5
4
de
% de SNP détectés dans les pools
5
4
3
2
70
87
100
100
78
88
97
100
80
85
95
100
82
90
100
100
76
85
100
100
90
94
100
100
Figure : Détection de SNP dans l’exon du gène Oxydo-reductase
AA
1 individu
GG
A/G
2 A/ 8 G
3 A/ 7 G
Pools 5
3 A/ 7 G
2 A/ 8 G
4 A/ 6 G
0 A/ 8 G
3 A/ 5 G
Pools 4
1 A/ 7 G
2 A/ 6 G
4 A/ 2 G
Pools 3
0 A/ 6 G
0 A/ 6 G
2 A/ 2 G
Pools 2
1 A/ 3 G
309/678/-

Documents pareils