TP Barcoding et Metabarcoding

Transcription

TP Barcoding et Metabarcoding
TP Barcoding et Metabarcoding
Licence EDEN 2015 – Module HLBE514
Benoit Nabholz ([email protected])
1) Barcoding
Nous allons utiliser le jeux de données d'Hogner (Hogner et al. 2012) sur le rougequeue à front blanc
(Phoenicurus phoenicurus) vue en cours. Les auteurs ont échantillonnés 384 individus à travers
l’Europe et ont séquencé 700 bp du gène Cytochrome oxydase I (COXI).
Vous pouvez ouvrir le fichier Phoenicurus_phoenicurus_COXI.fasta (dans le répertoire
bardcodeData) à l'aide d'un éditeur de texte.
Les séquences sont stockées dans le format FASTA = le nom de la séquence commence par « > » et la
séquence d'ADN est en-dessous. Ici, le nom de la séquence est composé d'un code puis du nom de
l'espèce. Ce code correspond a un numéro de référence pour retrouver cette séquence dans la base de
données NCBI/GenBank.
1. Connectez-vous à GenBank (http://www.ncbi.nlm.nih.gov/genbank/) et tapez le numéros
d’accession d'une séquence prise au hasard dans la barre de recherche du site. Quelles
informations sont à votre disposition ?
2. A présent ouvrer le fichier à l'aide de logiciel seaview (http://doua.prabi.fr/software/seaview),
que constatez-vous ?
3. Réaliser un alignement en utilisant la fonction « Align » → « Align all ». Que constatez-vous ?
Enregistre votre alignement.
4. Réalisez une phylogénie avec la fonction « Tree » → « Distance method » → « Distance :
K2P ». L'option K2P indique que vous souhaitez calculer les distances génétiques en utilisant le
modèle de Kimura à 2 paramètres où modèle K80 (voir :
http://en.wikipedia.org/wiki/Models_of_DNA_evolution#K80_model_.28Kimura.2C_1980.29.
5B2.5D ). Que contatez-vous ? Quelle est la divergence moléculaire entre les deux clades ?
La présence de deux clades divergents peut s'expliquer par l'isolement de deux populations de
rougequeues à front blanc (et potentiellement l'existence d'une espèce cryptique). Cependant, sans point
de comparaison avec des espèces proches, il est difficile de savoir si cette isolement est vraiment
important. Pour aller plus loin, il faut inclure dans la phylogénie d'autres espèces proches.
Pour rapidement identifier des séquences d'espèces proches, nous pouvons réaliser un BLAST. Le
BLAST (pour « Basic Local Alignment Search Tool ») permet de trouver des ressemblances locales
entre une séquence cible et un (très) grosse base de données pouvant contenir des dizaines de millions
de séquences. Le programme compare une séquence d'ADN ou une protéine avec une base de donnée
et calcule des statistiques qui nous informe de la similarité entre la séquence cible et les séquences dans
la base.
5. Réalisez un BLAST en ligne sur le site : http://blast.ncbi.nlm.nih.gov/Blast.cgi. Choissisez le
programme « nucleotide blast » . Vous utiliserez comme cible (« Query sequence ») une des
séquences de votre jeux de données. Utilisez l'option « Organism » en cochant la case exclude,
pour exclure le taxon Phoenicurus phoenicurus.
Par défaut, le résultats du BLAST nous donne les 100 meilleures séquences (identifier sur des critères
de similarités et de longueur de la région identifiée).
6. Quelle séquences allez vous retenir pour votre analyses ? Essayer de télécharger les séquences
choisies.
Le fichier « Phoenicurus_outgroup_COXI.fasta » contient les séquences de P. ochurus, P. aureus, P.
auroreus, P. erythrogastrus, Luscinia calliope et L. cyane.
7. Réalisez une phylogénie avec les séquences de Phoenicurus_outgroup_COXI.fasta plus les
séquences du fichier Phoenicurus_COXI.fasta. Comparez votre phylogenie avec celle de
d'Hogner et al. 2012 ? Que constatez-vous ?
Pour aller au-delà de cette simple approche visuelle avec une poignée d'espèces, on peut se posez la
question de savoir si la distance intraspecifique observée chez le rougequeue à front blanc est vraiment
« extrême » par rapport aux espèces proches. Pour cela, nous allons réaliser une comparaison avec
beaucoup plus de séquences. L'alignement All_Muscicapidae_COXI.fasta contient 885 séquences
appartenant à 97 espèces de Muscicapidae (la famille du rougequeue). Ces séquences ont était récupéré
sur le site : http://www.barcodinglife.org/ dédié aux projets de barcoding. Essayer de retrouver ce jeux
de donner sur le site ? L'alignement – trop long pour être réalisé en TP – a étaient réalisé au préalable.
8. Réalisez une phylogènie avec une méthode de distance et le modèle K2P. Enregistrez votre
phylogénie : « Save unrooted tree ».
9. Nous allons maintenant calculez la distance intraspecifique maximale et moyenne pour
l'ensemble des espèces présentes dans notre arbre. Pour cela, nous allons utilise le logiciel R et
du paquet « ape » (http://ape-package.ird.fr/). Toute les commandes pour effectuer le calcul sont
disponibles dans le fichier « distance_phylogenetique.R »
Que pensez vous de vos résultats ?
2) Metabarcoding
Nous allons utiliser le jeux de données de Thomsen et al. (Thomsen et al. 2012). Ce jeux de données
est composé des séquences obtenues par séquençage d'ADN environnemental. Les auteurs ont extrait
de l'ADN d'eau de mer échantillonnée dans une localité portuaire au Danemark. L'ADN contenues dans
l'eau a été amplifiés à l'aide d'amorces ciblant les séquences de COXI de Téléostéens (soit générale, soit
spécifique de certaines espèces : par ex. Clupea harengus, Platichthys flesus ou Salmo trutta). Enfin, le
séquençage a été obtenue à l'aide de la méthode dite du 454 (Roche GS FLX 454 pyrosequencing).
Les 20 315 séquences obtenues sont visibles dans le fichier ERR148285.fastq (répertoire
metabarcodeData).
Le format FASTQ
Des détails sur ce jeux de données sont disponibles sur la base de données SRA du NCBI (
http://www.ncbi.nlm.nih.gov/sra/?term=ERR148285 ). Les séquences sont stocker au format FASTQ (
http://fr.wikipedia.org/wiki/FASTQ ) contenant à la fois les séquences d'ADN (immédiatement sous la
ligne commençant par « @ ») et la qualité de ces séquences (immédiatement sous la ligne commençant
par « +») :
@Nom sequence
ATGC
+Nom sequence
JJI!
Les scores de qualité sont représentés sous forme de caractère ASCII
(http://en.wikipedia.org/wiki/ASCII#ASCII_printable_characters = a partir du caractère 33 pour le
séquençage 454). Un score de qualité est un entier relié de façon logarithmique à une probabilité
d'erreur de séquençage.
Analyse du jeux de données
Pour limiter les temps de calcul, nous allons travailler sur une jeux de données réduit aux 500
premières séquences : ERR148285.sample.fasta
Nous allons d'abords réaliser un assemblage du jeux de données. C'est à dire que nous allons
concaténer les séquences similaires en « contig ». Cette étape est schématiser ci-dessous :
Contigs
Sequences
(« reads »)
Nous allons réaliser cette étape à l'aide du logiciel cap3. Cette étape s’effectue en ligne de commande :
1. Ouvrez une console → dirigez vous dans le répétoire de travail :
cd PATH/TP_metabarcoding/metabarcodeData/
puis lancer l'assembleur :
./cap3 ERR148285.sample.fasta >ERR148285.out
Le programme va crée plusieurs types de fichiers. Le fichier dont le nom ce termine par «.out »
récapitule les actions du programme. Vous pouvez l'ouvrir avec un éditeur de texte et vous diriger vers
la partie : « DETAILED DISPLAY OF CONTIGS ». Là, vous pouvez constatez que le premier contig
est constitué de la concaténation de trois séquences.
Le fichier dont le nom ce termine par « .cap.contigs » contient les séquences des « contigs » à
proprement parler.
2. A votre avis que contient le fichier dont le nom ce termine par « .cap.singlets » ?
3. Pour identifier quelle est l'origine biologique des fragments d'ADN séquencés. Réalisez un
BLAST de la première séquence du fichier ERR148285.sample.fasta.cap.contigs.
Que constatez-vous ?
4. Réaliser la même chose avec la deuxième séquence du fichier. Qu'elle espèces semble avoir
était séquencé ? Comment être sur qu'il s'agit bien de cette espèce ?
5. Afin de ne pas réaliser tous les BLAST à la main il est possible d'automatiser la procédure en
utilisant le programme BLAST en ligne de commande. Ce programme interroge la base de
données GenBank automatiquement. Cette étape est malgré tous un peu longue et nous allons
utiliser un jeux de données réduit pour limiter le temps de calcul
(ERR148285.contigs.pour.blast.fasta). Tapez cette commande dans la console :
blastn -remote -db nr -query ERR148285.contigs.pour.blast.fasta -out
ERR148285.blast.out -outfmt '6 qseqid sseqid pident length qlen qstart qend sstart
send evalue' -evalue 1e-20
Le résultat du BLAST est stockez dans le ficher ERR148285.blast.out.
6. A l'aide du Analyse_BLAST.R traiter la sortie du BLAST pour isoler les meilleurs résultats du
BLAST. Une fois que vous avez récupérer les numéros d’accession des meilleurs BLAST, vous
pouvez récupérer les séquences sur la base de données nucléotide du NCBI/GenBank. Quelles
sont les espèces présentes dans votre jeux de données ?

Documents pareils