FROGS: Find Rapidly OTU with Galaxy Solution
Transcription
FROGS: Find Rapidly OTU with Galaxy Solution
FROGS: Find Rapidly OTU with Galaxy Solution Frédéric ESCUDIE1*, Lucas AUER2*, Maria BERNARD3, Laurent CAUQUIL4, Katia VIDAL4, Sarah MAMAN4, Mahendra MARIADASSOU5, Guillermina HERNANDEZ-RAQUET2, Géraldine PASCAL4. 1 Bioinformatics platform Toulouse Midi-Pyrenees, MIAT, INRA Auzeville CS 52627 31326 Castanet Tolosan cedex, France 2 Université de Toulouse, INSA, UPS, LISBP, F-31077 Toulouse Cedex 4, France ; INRA, UMR792 ISBP, F-31400 Toulouse, France 3 INRA, UMR1313, SIGENAE, F-78352 Jouy-en-Josas, France 4 INRA, UMR1388, F-31326 Castanet-Tolosan, France, Université de Toulouse INPT ENSAT, UMR1388, F-31326 Castanet-Tolosan, France, Université de Toulouse INPT ENVT, UMR1388, F-31076 Toulouse, France 5 INRA, Unité MaIAGE, F-78352 Jouy-en-Josas, France Résumé: Le séquençage haut-débit d’amplicons d'ARN 16S/18S a ouvert de nouveaux horizons dans l'étude des communautés bactériennes. Avec l'arrivée de données Illumina de grande profondeur les pipelines de traitement actuel peinent à s'exécuter rapidement. Les solutions plus efficaces sont souvent orientées vers les spécialistes. Ces outils ont pour objectif de traiter les séquences ADNr afin d’offrir aux biologistes à la fois une table d'abondance contenant les OTU (unités taxonomiques opérationnelles) et leur affiliation taxonomique. Dans ce contexte nous avons développé le pipeline FROGS : « Find Rapidly OTU with Galaxy Solution ». Ce pipeline met l'accent sur la facilité d'utilisation de la chaîne de traitement, sa rapidité d'exécution, sa scalabilité et sa portabilité. Mis au point pour la plateforme Galaxy, FROGS a été conçu pour être exécuté avec ou sans séquences démultiplexées. Un outil de prétraitement permet le contigage de séquences avec flash (1.2.11) (optionnel), nettoie les données avec cutadapt (1.7.1), supprime les chimères avec UCHIME (v7) du package USEARCH (1.1.3) et la déréplication se fait par un script python maison. L'outil de clusterisation fonctionne avec SWARM (1.2.2) qui utilise un seuil de clustering local et non un seuil de clustering global comme d'autres logiciels le font. L'outil d'affiliation retourne affiliation taxonomique pour chaque OTU utilisant à la fois RDPClassifier et NCBI blast+ (2.2.29) sur la banque de données Silva SSU 119. Et enfin, les outils de filtres et de statistiques descriptives permettent aux utilisateurs de traiter et d’analyser cette table aux travers d’illustrations graphiques dynamiques. FROGS a été développé pour être très rapide même sur de grandes quantités de données par l'utilisation d’outils de pointe et une conception optimisée. De plus, il est portable sur toutes les plateformes Galaxy avec le minimum de dépendances informatiques et architecturales. FROGS a été testé sur plusieurs jeux de données simulées basés sur l’amplification PCR des régions V3-V4 des ADNr 16S à partir d’une base de données de référence. L'outil se montre extrêmement rapide, robuste et hautement sensible pour la détection des OTU avec très peu de faux-positifs comparé aux autres pipelines largement utilisés par la communauté.