DNA pool sequencing, une nouvelle approche pour la
Transcription
DNA pool sequencing, une nouvelle approche pour la
DNA pool sequencing, une nouvelle approche pour la détection de SNP : Application chez le peuplier I. Paolucci1, V Jorge2, I. Bourgait2, M. C. Le paslier3, D. Brunel3 P. Faivre Rampant2 1 UMRGV/INRA, 2 rue Gaston Crémieux, 91057 Evry cedex 2 UAGPF 2163 Avenue de la Pomme de Pin, BP 20619 Ardon, 45166 Olivet cedex 3 EPGV/CNG, 2 rue Gaston Crémieux, 91057 Evry cedex Introduction Malgré l’acquisition récente de nombreuses connaissances sur la structure et le fonctionnement du génome du peuplier, on dispose de peu d’informations sur le niveau de polymorphisme des gènes d’intérêt (Zhang et al, Journal of integrative Biology, 2005, 47 :1493-1499 ; Unneberg et al, Tree, Genetics and Genome, 2005, 1 :109-115). Or, l’accès à ce niveau de connaissance est indispensable pour connaître la diversité des espèces, l’étendue du déséquilibre de liaison et mener des études de génétique d’association. Le développement de marqueurs de type SNP « Single Nucleotide Polymorphism » dans les gènes d’intérêt ou ayant un rôle adaptatif sont les marqueurs génétiques les mieux adaptés à ces études. La détection de SNP, est une étape incontournable qu’il convient d’optimiser. Chez les arbres, espèces fortement hétérozygotes les méthodes généralement utilisées passaient par une étape de clonage des différents allèles chez quelques individus, les allèles étaient ensuite séquencés et le polymorphisme était visualisé après alignement des séquences. L’étape de clonage étant longue et coûteuse, le développement des SNP était par conséquent très limité. Depuis peu, nous avons testé le séquencage direct de produits PCR correspondant à des fragments de gènes. Lorsque l’amplicon correspond à une région exonique, les SNP au sein d’un même individu sont détectés sans difficultés. En revanche dans les introns et les régions UTR, les polymorphismes sont souvent des insertion/délétion qui rendent impossible la détection de SNP (Paolucci et al, Plant & Animal genome XVI, San Diego, janv 08). Dans l’étude présentée ici, nous avons testé la possibilité de mélanger des amplicons avant séquençage afin de réduire le cout et le temps de réalisation de cette étape incontournable pour le développement du génotypage haut-débit. Matériel et Méthodes Matériel végétal et extraction d’ADN Vingt cinq individus des espèces P. trichocarpa et P. nigra ont été pris au hasard dans les collections présentes à Orléans. Les ADN ont été extrait à l’aide du kit 96 Qiagen. Conception des amorces Six couples d’amorces ont tout d’abord étés dessinés d’après l’annotation V1.1 du génome de peuplier. Puis d’après nos premiers résultats infructueux, nous avons ré-annotés les gènes. Vingt neuf gènes d’intérêt ont alors été ré-annotés en utilisant les EST disponibles dans la base de données ForEST (I. Bourgait, INRA Orléans). Des amorces ont été définies d’après une séquence consensus de façon à amplifier en priorité les régions exoniques à l’aide du logiciel Primer 3 (S. Rozene et al.2000 " In S. Krawetz, S. Misener, eds. Bioinformatics Methods and Protocols in the series Methods in Molecular Biology. Humana Press, Totowa, NJ, pages 365-386). Amplification PCR, préparation des mélanges et séquençage La stratégie de séquençage en mélange a été testée à l’aide de 9 couples d’amorces (tableau 1). Les amplifications, réalisées dans des conditions standard de PCR, ont été vérifiées sur gel d’agarose avant la préparation des mélanges. Pour chaque gène, les amplicons ont été mélangés en proportion égale dans 2 pools différents de 2 individus, 3 pools différents de 3 individus et ainsi de suite jusqu’à 5. Les mélanges ont été réalisés indépendamment pour les deux espèces P. trichocarpa et P. nigra. Les individus constituant les pools ont été pris au hasard. Le séquençage des fragments a été effectué en Sanger. L’ensemble des chromatogrammes ainsi obtenus a été analysé à l’aide du logiciel GENALYS (Takahashi M et al, 2003, J Bioinform Comput Biol 1:253-265). Les chromatogrammes issus des mélanges ont Supprimé : ¶ tout d’abord été étudiés pour détecter des SNP. Les SNP trouvés ont ensuite été validés par l’analyse des chromatogrammes issus du séquençage d’un seul amplicon correspondant à l’amplification d’un fragment de gène chez un individu. Résultats Sur les 36 amorces définies après ré-annotation des gènes (6 sur 29 étaient mal annotés), 34 génèrent des produits d’amplification chez P. trichocarpa, et 32 chez P. nigra. Lors de ce travail, nous avons pu identifier des SNP in silico. Certains d’entre eux ont été validés par séquençage. Le bilan de cette activité n’est pas détaillé dans ce rapport mais les données seront transférées aux bases de données ForEST d’Orléans et GnpSNP de l’URGI (urgi.versailles.inra.fr/projects/GnpSnp). Sur les 9 gènes mis à l’étude, nous avons obtenu des résultats probants pour 3 d’entre eux, ceux dont la position en exons et introns a été vérifiée. Les résultats manquants sont dus 1- à la présence d’insertion délétion dans les introns et/ou les régions UTR, 2- à la non spécificité des amorces qui conduisent à l’amplification de plusieurs loci ; 3- à la mauvaise qualité des séquences. Les chromatogrammes issus du séquençage des amplicons en mélange et des amplicons seuls pour le gène oxydo-reductase sont présentés dans la figure ci-dessous. Cette figure montre que les SNP sont toujours détectés dans les mélanges de 2 ou 3 individus, qu’elle que soit la proportion relative du SNP dans le mélange. Pour les mélanges de 4 et 5 amplicons le résultat dépend de la proportion relative du SNP dans le mélange. Les SNP sont détectés si leur fréquence relative est au moins égale à 20%. Pour chacun des 3 gènes analysés, nous avons pu faire le même constat. Comme il a été précisé dans le matériel et méthodes, nous avons tout d’abord cherché à identifier les SNP en analysant les chromatogrammes issus des pools et non tenter de retrouver les SNP dans les pools identifiés au préalable après l’analyse des individus seuls, de façon à ne pas influencer la lecture. La fréquence des SNP correctement détectés pour chaque gène est présentée dans le tableau 2. Dans nos conditions nous n’avons pas répertorié de faux positifs. Discussion et conclusions La stratégie séquençage d’ADN en mélange a été testée dans cette étude pour optimiser la détection de points de polymorphisme dans la séquence de fragments de gènes d’intérêt chez P. trichocarpa et P. nigra. Nous montrons que la stratégie est applicable chez les peupliers pour la détection de SNP dans les régions exoniques, car il existe en moyenne 1 SNP toutes 200 bases. Cependant, La réussite de cette stratégie est directement liée à la qualité des séquences obtenues. Aujourd’hui la majorité des opérations de séquençage sont confiées à des prestataires de service. D’après notre expérience, nous avons remarqué que la qualité des séquences est non seulement variable entre les prestataires, mais également dans le temps pour un même prestataire. Lorsque les séquences sont de très bonne qualité, montrant des pics réguliers, un bruit de fond équivalent ou proche de la ligne de base, la surface des pics peut alors être prise en compte pour la détection des SNP présents dans un mélange. Nous sommes alors en mesure de détecter des SNP sans difficultés dans les mélanges de 2 et 3 amplicons. Pour les mélanges de 4 et 5 fragments la détection du SNP dépend de sa fréquence dans le mélange, notre limite de détection étant de 20%. Ainsi pour les espèces hétérozygotes comme le peuplier, le séquençage d’ADN en mélange de 2 ou 3 individus peut être envisagé dans le cadre de la recherche de polymorphisme entre des parents utilisés en croisement pour le développement de marqueurs utiles à la cartographie génétique, par exemple. La stratégie peut également être utile au génotypage de quelques individus qui ne justifierait pas l’emploi de méthode haut débit. Légendes des tableaux Tableau 1 : liste des gènes et des amorces utilisés pour tester le DNA pool sequencing Tableau 2 : fréquence des SNP observés dans les mélanges, les % de 97 et 95 trouvés lors de l’analyse des pools de 3 individus s’expliquent par des séquences de mauvaise qualité Tableau 1 : Gènes Thaumatine Localisation LG/Scaffold XVIII:9865561 Putative Arabino galactan-protein Hypotetical protein 4 152:13274 Serine/Threonine Kinase XIX:982966 Proteinase inhibitor XIX: 953787 Arabino galactan-protein XIX:5173638 Oxido-reductase XIX: 1005449 Phosphatidylinositol transfer protein XIX: 971321 Phytochelatin synthetase family protein (Cobra) IV:13482111 VIII:9365771 amorces (F and R) CTTGATCCAACGGCACTAGC CTGGATATGCTCACGAAAGG TGTCTCTAGATTTCGGTGATAAGC CAATCCGGTTGTGTGAACC AAAAGCAGCCCCTAATAGCC TTTCCTCCAAAACCAACTTAGC TGCAGAAACCTGCTATCTCG AAGGGGGAAATCAATGATGC GCAAACGTTTTAAGCAAACTAAAG ATTGACATTAACCCCAGCATC TGTATGGCACACCACAAAGC CCCTCAATTCTCATCCATGC CTGGAGGAAGAGGTGTGG GAGAGGATTTTAGCACGAGA AGGACTAAGCAAAGATGGTG TTAATCAGAGCAAGGTTTGG T°m UTR/exon /intron 58 Taille amplicon 987 59 556 355/201/- 58 1003 272/648/83 59 630 444/186/- 57 637 295/228/112 59 608 428/180/- 55 856 149/356/351 55 825 -/358/467 TGCTCTTTTCTTGTTCAGGT GCAGACCATCAGGAGTAAG 55 728 -/537/191 Tableau 2 : gènes espèces Oxydo-réductase P. trichocarpa P. nigra P. trichocarpa P. nigra P. trichocarpa P. nigra Pinositol T2 Ptr-COBL4 Nombre SNP 2 26 7 8 5 4 de % de SNP détectés dans les pools 5 4 3 2 70 87 100 100 78 88 97 100 80 85 95 100 82 90 100 100 76 85 100 100 90 94 100 100 Figure : Détection de SNP dans l’exon du gène Oxydo-reductase AA 1 individu GG A/G 2 A/ 8 G 3 A/ 7 G Pools 5 3 A/ 7 G 2 A/ 8 G 4 A/ 6 G 0 A/ 8 G 3 A/ 5 G Pools 4 1 A/ 7 G 2 A/ 6 G 4 A/ 2 G Pools 3 0 A/ 6 G 0 A/ 6 G 2 A/ 2 G Pools 2 1 A/ 3 G 309/678/-