Réunion France Génomique : Work Package 2.6
Transcription
Réunion France Génomique : Work Package 2.6
Réunion France Génomique : Work Package 2.6 Contents Réunion ChIP-sep France Génomique 1 Tour de table / présentation / intérêt pour le groupe de travail . . . . . . . . . . . . . . . . . . . . 1 Analyse de ChIP-seq avec seqMINER (Tao Ye, IGBMC Strasbourg) . . . . . . . . . . . . . . . . . 1 Outils bioinformatiques et services d’analyse de données ChIP-seq (Nicolas Servant, Curie) . . . . 2 Analyse de motifs dans les pics de ChIP-seq avec la suite logicielle RSAT (Jacques van Helden, TAGC Marseille) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Projet France Génomique : Intégration des outils RSAT sous Galaxy/Nebula (Jocelyn Brayet & Nicolas Servant) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Le développement de workflows sous Eoulsan - Application à l’analyse de ChIP-seq (Laurent Jourdren & Celine Hernandez) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Le Cloud de l’Institut Français de Bioinformatique (Christophe Blanchet) . . . . . . . . . . . . . . 5 Exécution et implémentation de workflows au TGCC sous CBPIPE (Christophe Battail) . . . . . . 7 Xavier Benigni (CNG - CDD France Génomique Methyl-seq) . . . . . . . . . . . . . . . . . . . . . 8 Thématiques à développer pour le WP2.6 France Génomique . . . . . . . . . . . . . . . . . . . . . 9 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Actions France Génomique pour les mois à venir . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Réunion ChIP-sep France Génomique • 13 avril 2015 • Institut de Biologie de l’ENS • 28 participants Tour de table / présentation / intérêt pour le groupe de travail • • • • • • • Espèces majoritaires : Humain/Souris Panorama des peak-callers Réplicats biologiques ? Combien ? Analyse différentielle de données ChIP-seq Normalisation Benchmarking Présentation de Claire Rioualen et Jocelyn Brayet (CDD France Génomique) Analyse de ChIP-seq avec seqMINER (Tao Ye, IGBMC Strasbourg) L’objectif initial était de pallier l’absence d’outils pour analyser des datasets multiples. La méthode est basée sur le principe de l’analyse des microarrays. 1 Fonctionnalités de seqMiner • • • • • • • • Interface conviviale : menus présentant les jeux de données Input : l’utilisateur fournit des reads alignés en format bed ou bam Matrice de densité de reads : bins non-chevauchants de 200bp Heatmaps : élaboration de cartes graphiques (heatmaps) de reads par rapport à des cordonnées de référence (par exemple tous les TSS de genes) Clustering des régions (par exemple autour des TSS) sur base de la densité de reads Export : on peut exporter les matrices pour les ré-utiliser en R Gene Profile : on peut charger des jeux de données de polymérase ou méthylation Annotation : couverture autour des TSS, etc. Implémentation • • • • • • • • Système java L’utilisateur peut configurer la mémoire maximale allouée au programme Multi-threaded : les tâches peuvent être parallélisées sur plusieurs processeurs Clustering des pics sur base de la densité de reads k-means parce que c’est le seul qui marche bien normalisation par le rang Interface utilisateur permet de choisir la version de l’annotation génomique (RefSeq, Ensembl, versions différentes) Questions • Comment prends-tu en compte la normalisation ? R : la matrice est normalisée automatiquement avant le clustering • L’outil est-il maintenu ? R : seqMiner n’est plus maintenu et nécessiterait certainement des mises à jour pour gérer les jeux de données récents plus volumineux. À noter également que la librairie JAVA utilisée n’est plus maintenue. Outils bioinformatiques et services d’analyse de données ChIP-seq (Nicolas Servant, Curie) Outils developpés au sein du laboratoire et de la plate-forme HMcan • • • • Détection des marques d’histones dans les cellules cancéreuses Prédictions non biaisées par les régions présentant une augmentation du nombre de copies Corrige les profils en retirant le biais de copy number Normalisation du GC-content Nebula • Instance Galaxy dediée au ChIP-seq • Ouverte à la communauté, mais avec une limitation de taille et de transfert des données (50Gb) • Mise à jour de Nebula avec ajout des outils RSAT 2 Questions qui se posent pour l’analyse des données • • • • • • • • • • 5-8 projets de ChIP-seq par an Beaucoup plus de projets de marques d’histones que de facteurs de transcription Quels types de banques ? Single-end 50bp De plus en plus de projets en paired-end 100bp, car les gens se posent des questions sur les régions répétéées On a souvent des gens qui génèrent les banques avec des quantités de matériel difféérentes. Dans certains cas on fait beaucoup plus d’immunoprécipitation pour un type cellulaire que pour un autre, du fait de la nature du projet biologique, et on se retrouve avec 10M de reads dans un cas pour 50M pour les autres Pourquoi a-t-on autant de duplicats ? Faut-il les retirer ou les conserver ? Tao : MACS retire les duplicats par défaut Tout dépend de la préparation de la librairie : si on fait une digestion à la MNase, elle coupe toujours au même endroit, donc on perd de l’information en supprimant Samuel : possibilité de molecular barcoding pour barcoder chaque fragment Stéphane : comment es-tu sûr que la ligation est bonne pour tous les fragments ? Tu ajoutes un barcode pour enlever un biais, mais certains barcodes se séquencent moins bien que d’autres, donc on ajoute un biais pour en enlever un autre Questions • Dans un contexte de nombre de reads différent par échantillon, il est possible de sous-échantillonner certains échantillons. Comment tires-tu au sort ? Si le tirage est neutre, quel est l’interêt de sélectionner un sous-ensemble plutôt que de normaliser par un scaling factor ? Analyse de motifs dans les pics de ChIP-seq avec la suite logicielle RSAT (Jacques van Helden, TAGC Marseille) • • • • • • 50 outils différents implémentés dans RSAT Une forte expérience et un travail collaboratif RSAT est dédié à l’analyse de motifs Plusieurs outils ChIP-seq (peakMotif, MatrixScan, etc.) orientés facteur de transcription 6 serveurs organisés en fonction des organismes et annotations disponibles Coming soon - motif clustering Projet France Génomique : Intégration des outils RSAT sous Galaxy/Nebula (Jocelyn Brayet & Nicolas Servant) Intégration de RSAT dans Galaxy Nebula • • • • Script XML : Genese du formulaire Galaxy Collecte des paramètres utilisateurs Script python : gère la connexion au serveur RSAT, la requête décrite par le fichier XML, et le traitement des résultats pour les rendre lisibles sous Galaxy • Actuellement intégrés • peak-motifs • convert-matrix (encore en développement) 3 • • • • • matrix-scan (encore en développement) Affichage des résultats Sélection des rapports HTML : composition des séquences, motifs Accès aux fichiers détaillés : par exemple les fichiers bed des sites Aide Perspectives • • • • Finaliser les trois outils qui sont déjà installés Esthétique des sorties Intégrer d’autres outils RSAT pour faire un ToolShed Porter une VM de Nebula sur le Cloud Questions • Stéphanie Legras : les outils seront-ils disponibles dans ToolShed ? Réponse : Oui quand on aura intégré suffisamment d’outils. • Jacques : il faudrait discuter de l’amélioration des rapports, en utilisant le format markdown. • Stéphanie Legras : • Sur quel serveur est-on renvoyés ? Réponse : on peut configurer. • Quand le ToolShed sera-t-il disponible ? Nous serions interessés d’installer ces outils sur notre serveur Galaxy. Nicolas : assez rapidement. Le développement de workflows sous Eoulsan - Application à l’analyse de ChIPseq (Laurent Jourdren & Celine Hernandez) Implémentation • • • • Simplicité d’installation Java Image docker sur le dépôt de la plateforme Partage sur github : on peut contribuer au développement Workflow • • • • • • • • • • • • • Read mapping : choix entre des mappers alternatifs Samtools rmdup Peak-calling (MACS2) Calcul de l’IDR (irreproducible discovery rate, defini par ENCODE) Input Fichier workflow en format XML, qui décrit les étapes de l’analyse Fichier design, qui décrit les échantillons Les étapes les plus coûteuses peuvent être distribuées sur un cluster hadoop ou sur le cloud amazon (systeme s3) Nouvelle version Amélioration du moteur workflow Nouvelle version tous les deux mois Prochaine version = alpha6 Déjà utilisé en production 4 • Tests systématiques des fonctionnalités Perspectives • Prochainement, intégration des outils ChIP-seq de l’équipe Thieffry • Filtrage des pics liés a une liste noire • Intégration avec RSAT via Web services (de façon similaire a ce qu’a fait Jocelyn sous Galaxy) Questions • Jacques : interface d’édition du fichier workflow ? • Jacques : pouvez-vous exporter un flowchart des étapes du workflow (comme dans snakemake) ? • Dominique Rocha : comment est définie la liste noire ? Céline : on utilise la “black list” d’ENCODE. Le Cloud de l’Institut Français de Bioinformatique (Christophe Blanchet) Missions de l’IFB • Support pour les programmes nationaux de biologie • Infrastructure IT • Interface entre les communautés sciences du vivant et informatique / bioinformatique IFB core • Gestion administrative et technique • 6 centres régionaux + IFB core Déploiement du cloud pour les sciences du vivant • • • • • But : aider les scientifiques et ingénieurs à deployer leurs outils e-infrastructure Collections biologiques Outils bioinformatiques À terme, le cloud sera une fédération de clouds entre le noeud national et les noeuds des 6 centres régionaux • 31 plateformes • 11.000 coeurs • 6 PetaOctets de stockage Implémentation du cloud • • • • • • • Technologie : StratusLab 3000 coeurs prévus à la fin de cette année À la fin de l’année prochaine, 10.000 coeurs + 2Po de stockage Hébergement a l’IDRIS Connexion au réseau RenaTer en 10Gb Description des services déploiement de coeurs 5 • stockage • Portail web developpé en-dessous de StratusLab pour faciliter la gestion d’un ensemble de ressources (machines virtuelles isolées, machines virtuelles spécifiques, ou cluster de machines virtuelles pour répartir les calculs sur un ensemble de “workers”) Déplacer les machines virtuelles ou les données ? Le déplacement des machines virtuelles présente plusieurs avantages : * Plus légères que les données * Protection de données à caractère personnel (par exemple hôpitaux) Appliance Une appliance est une image d’une machine virtuelle prête à être utilisée par un utilisateur. Quand on démarre une appliance, on obtient une instance de la machine virtuelle. Accessibilité des données de référence • BioMaj pour déployer des réplicats locaux des banques de données • On peut imaginer de placer des images des données de référence Catalogues de ressources • • • • • Data registry Software registry : docker hub VM registry Service RAINbio, qui s’appuie sur le catalogue européen des services, développe par Elixir. Copie sur le cloud IFB des bases de données publiques (Uniprot, EMBL, PFAM, . . . ) qui deviendront automatiquement disponibles pour toutes les DB qu’on va lancer • Catalogue des services : quelle VM fournit des outils correspondant à un sujet ? Coupler ce catalogue avec celui des outils disponibles -> conception de pipelines Actuellement disponibles • • • • • • • • • • • Un ensemble d’appliances scientifiques CLI : R, RSAT, PhyML, Aria, bioCompute Des VM accessibles en Web Galaxy, RSAT, R Remote desktop : affichage interactif à l’écran Protéomique, écologie des populations, imagerie Utilitaires Ensemble de systèmes de gestion de donnees (BioMaj, NFS, Casandra, Neo4j) Base Hadoop pour déployer ses propres clusters hadoop Docker pré-installé sur une VM pour pouvoir installer ses propres machines Rôle de l’IFB core : assister les développeurs pour créer des appliances Formation Le cloud a déjà fourni des VM pour des tutoriaux (ex : ECCB 2014) ou des formations (Marseille, Rouen, . . . ). 6 Perspectives • • • • • • • Créer plus d’appliances bioinformatiques Développements spécifiques aux domaines Premier round : microbial bioinformatics, evolutionary bioinformatics Appel à projets 2015 Pilotes techniques Interopérabilité des appliances ... Questions • • • • Jacques : comment combiner les fonctionnalités deployées sur plusieurs machines virtuelles ? intégration de couches multiples via Docker ? inter-communications entre les machines virtuelles ? via Web services par exemple Exécution et implémentation de workflows au TGCC sous CBPIPE (Christophe Battail) TGCC • Très grand centre de calcul du CEA • Pas un cloud mais un cluster CBPIPE • • • • • • • • • • • • • • • • • • CNG Bioinformatics PIPEline Design interface unifiée de workflows en bioinformatique capacité d’analyser les grandes quantités de données produites par le CNG, France Génomique ou d’autres projets à large échelle reproductibilité personnalisation facile des workflows : choix des traitements + paramétrage exécution soit sur une seule machine, soit sur cluster local, soit au TGCC Implémentation gestionnaire de workflows bpipe, qui repose lui-même sur slurm (gestionnaire de taches), personnalisé pour le rendre utilisable au TGCC Mise en modules Une centaine d’outils déjà disponibles au TGCC pour le NGS (alignement, recherche de pics, . . . ) Déploiement des modules très rapides (3 commandes) pour passer du test sur un petit cluster (LIRAC) vers le TGCC Optimisation de workflows bioinformatiques parallélisation par . . . ou par . . . Use cases RNA-seq Exome-seq ChIP-seq : pour le moment limité au contrôle de qualité. “Le ChIP-seq est un des parents pauvres du pipeline de CBPIPE”, mais ils veulent le développer car ils ont de fortes demandes en ChIP-seq. Collaborations avec 7 • • • • Sophie Chantalat ChIP-seq ATAC/DNAse1-seq Fabien Pichon Préparation et utilisation des workflows • • • • • • • • • • Sample sheet : édition d’une feuille de description des échantillons (column-tabulated text file) Chargement de module CBPIPE dans l’environnement du cluster TGCC/CCRT Outil en ligne de commande sélection des organismes sélection du pipeline (actuellement, pas beaucoup d’outils chip-seq, à développer) entrer son code France Génomique (qui définit le crédit en heures de calcul et en stockage) indiquer le répertoire de sortie indiquer la sample sheet options de sortie Pipelines primaires (par exemple un par échantillon) et secondaires (comparaisons entre sorties des pipelines primaires) • Formalisme de personnalisation des workflows : on construit le pipeline comme une phrase, qui représente un graphe acyclique dirigé, avec des opérateurs de branchement, de réunification, . . . • Une cinquantaine de modules déjà implémentés Questions • Jacques : comment CBpipe se compare-t-il à d’autres systèmes de gestion des tâches ? • make • snakemake Xavier Benigni (CNG - CDD France Génomique Methyl-seq) • • • • Évaluation d’outils de peak-calling pour le bisulfite Mise en place d’un workflow complet déployable pour les utilisateurs & évaluation installable localement image docker ou VMWare Problèmes rencontrés • Avec ce type de données on dépasse rapidement les quotas de temps alloués par les ressources IT -> il faut travailler sur l’optimisation et la parallélisation . Actuellement ce qui prend le plus de temps est le mapping. Utilisation des données de la littérature + données propres pour l’évaluation. Les résultats sont très hétérogènes, et ils approfondissent actuellement pour comprendre pourquoi. Exemple : read mapping avec jeu artificiel ou il devrait y avoir 0% de matches donne quand même 25% de matches. • Trimming : cutadapt ne fonctionne pas pour ces données • Après le peak-calling : annotation automatique • Analyse différentielle : traitement d’un jeu de données pour arriver à un résultat • Disponibilité : • France Génomique • CCRT • Machine virtuelle sur VMWare ou Docker 8 Questions • Nicolas : quels sont les critères pour évaluer la qualité des résultats ? Xavier : jeux de données artficiels (génome aléatoire), avec un pourcentage variable de mapping garanti (0%, 50%, 100% selon le jeu). • Dominique Rocha : le pipeline sert à analyser du bisulfite, donc génome entier ? Vous parliez de 10M reads. Xavier : • Les jeux de 13M de reads servent uniquement à évaluer la faisabilité. On tombe rapidement sur un mur du temps, quand on atteint plusieurs dizaines de millions de reads, le mieux est de paralléliser. • La difficulté c’est le merge. On pourrait faire du mapping par chromosome mais cela représenterait d’autres problèmes. • La difficulté vient du fait que le mapping repose sur un jeu de données dégénéré, car on travaille avec 3 lettres -> on utilise des heuristiques pour éviter le chevauchement. Production de doc, pour expliquer comment travailler, en indiquant qu’il faut faire des allers-retours. Thématiques à développer pour le WP2.6 France Génomique 1. Design • • • • • Nombre de réplicats Guidelines Estimation du background mock input génomique 2. Préparation des échantillons • Fixation ou pas ? (pas nécessaire pour les histones qui sont naturellement bien fixés) • Question de la congélation des échantillons • éviter la sonication avant/après congélation 3. Séquençage • • • • Pertinence et gestion des données en paired-end Longueur des reads Profondeur Librairies : comment traiter les cas où les échantillons ont des quantités très différentes ? 4. Pré-processing • Traitement des duplicats • Définition des régions black-listées (cas des régions toujours enrichies) 5. Peak calling • Choix des programmes et paramètres en fonction du type de données (notamment broad ou narrow) • IDR (irreproducible discovery rate, défini par ENCODE) 9 6. Annotation des pics/regions • Densité autour des TSS • Outils : HOMER, CEAS, GREAT, . . . 6b. Motifs • Jacques propose une méthode consistant à comparer l’enrichissement de motifs à la fin du protocole en testant différents paramètres • Problème soulevé : suivant les data, il peut y avoir une proportion plus ou moins importante de pics non associés à des motifs (Morgane) 7. Analyse différentielle • • • • • • Scaling / mise à l’échelle vs normalisation classique Densité de reads sous les pics dont les limites sont distinctes Analyse temporelle Polymorphismes SNP CNV 7b. Intégration • • • • RNA-seq DNase-seq (ATAC-seq. . . ) Facteurs vs marques d’histones HiC-seq 8. Workflows • Standardisation des pipelines • Méta-analyses Autres • • • • • • • • • Jeux de référence / pré-requis génomiques Espèces polyploïdes Coordonnées de gènes Stockage des données Méthode de compression fastq ? Clustering Choix de la méthode de clustering pour des grands nombres de régions Nombre de clusters Métrique de distance 10 Discussion 1. Design des expériences Nombre de réplicats Sur la plupart des projets le coût determine a priori le nombre de réplicats (exception pour certains projets médicaux). Ce qui devrait guider le choix du nombre de réplicats : • taille d’effet • sensibilité desirée • approche qu’on utilisera en aval : si on utilise des approches bayésiennes on a besoin de moins de réplicats • Sous-estimation de l’importance de l’input : même à coût constant la question du design se pose. Dans les guidelines on conseille de faire au moins un input par lignée. On conseille d’avoir beaucoup plus de profondeur dans l’input que dans les ChIP-seq. Or l’input est essentiel puisqu’il détermine le background et donc la position des pics. À relativiser par rapport aux objectifs : dans ce type de projets, on veut établir des catalogues plutôt que d’établir un modèle quantitatif. On veut cependant pouvoir s’assurer que le même jeu de données soit réutilisable dans le contexte de méta-analyses. Très souvent pour un biologiste, des différences de < 10% ne l’intéressent pas pour faire des réplicats. Pour répondre à la plupart des questions, un seul réplicat suffit. Les réplicats servent pour l’analyse différentielle, et leur nombre dépend de l’effet de taille. Quand on travaille sur de l’animal, on est aussi limité par des raisons éthiques (sacrifice d’animaux). Ce qui influence aussi est la nature de échantillons : lignées cellulaires, tissus, individus différents. La question des réplicats dépend de la question qu’on veut poser, et de ce qu’on va faire des résultats. Si de toutes façons le but est de pêcher quelques candidats dont on fait les validations après, il est moins important d’avoir un grand nombre de réplicats. Samuel : en 2012 Tim Bailey a proposé dans Plos Computational Biology une série de guidelines pour le ChIP-seq qui étaient plus à jour que celles d’ENCODE (mais moins detaillées). Certains points de leurs guidelines sont douteux, et certains jeux de données également. Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data. Bailey et al. (2013). DOI : 10.1371/journal.pcbi.1003326. Résumé Ne pas négliger l’input * Lui accorder toute la profondeur requise. * Peut-on utiliser le même input pour des manips avec ou sans si-RNA de contrôle ? * Validité de l’input comme contrôle. On s’attend à ce que nos protéines viennent se fixer dans les régions accessibles. * Philippe Veber a déjà testé l’impact de l’input sur les résultats. * Stéphanie : si le principe est que la chromatine est dans des états différents selon le point temporel, la condition, il est évident qu’il faut faire un input par condition. Malheureusement on doit parfois couper dans le budget. Input : mock ou séquences génomiques ? • le problème du mock est que comme l’IP ne fonctionne pas (par design) on a très peu d’échantillons. L’intérêt est de vérifier ce qui se lie de facon non-spécifique, mais quand on cherche des pics cela ne sert pas vraiment. 11 3. Séquençage Single-end ou paired-end ? • Le paired end permet en principe de s’affranchir d’un tas de problèmes du peak-calling, en particulier l’estimation du décalage entre les reads sur les brins W et C. • Ça coûte plus de 2 fois plus cher, car il faut séquencer 2 fois plus profond sur 2 fois plus de nucléotides (2 reads) pour avoir la même profondeur. • Tout dépend de la librairie. • Le paired-end est vraiment intéressant pour ce qui est répétitions, et permet d’estimer la longueur des fragments de façon empirique plutôt que de l’inférer sur base de statistiques moyennes. • Samuel a fait des essais en analysant les paired-ends avec MACS2, en utilisant les options paired-end ou non. Il obtient de meilleurs résultats avec l’option paired-end. • Sur des espèces qui ne sont pas des génomes modèles. • Si on veut détecter des variants régulatoires. Profondeur des reads Stéphanie : On a pour habitude de dire qu’on a besoin de plus de reads pour des broad peaks que pour des narrow peaks. Je travaille sur du ChIP-seq depuis 2008, et j’ai vu des réplicats sur 2 ou 3 projets, et quand je faisais des chevauchements entre les deux j’avais très peu de résultats. Je me suis dit qu’on n’avait pas séquencé suffisamment profondément. Souvent sur les régions longues les gens utilisent des peak-callers avec les paramètres par défaut qui ont été définis pour des régions courtes. Je pense que si on ajuste bien les paramètres pour les régions longues, on pourrait peut-être s’en sortir. Jacques : pour un problème particulier, j’ai testé la combinaison de SICER pour détecter des regions larges et SWEMBL pour détecter des pics précis, et retenu les régions qui chevauchent au moins un pic, et les pics qui tombent dans une region. Samuel : en principe c’est ce que fait l’option broad peak de MACS, mais cela ne fonctionne pas vraiment comme on s’y attendrait. Stéphanie : pour du H3K4me3 on a besoin d’une super couverture, souvent on n’arrive pas à extraire grand chose dans les conditions où on travaille. ChIP-exo Dominique : pour résoudre les problèmes de broad peaks, est-ce qu’on ne devrait pas faire du ChIP-exo ? Morgane : le ChIP-exo est fantastique, mais pour l’analyser c’est très difficile. • pas de contrôle • impossible de faire un input • le concept de mock IP ne fonctionne pas (il y a une publi où ils le font, c’est incomprehensible que l’article ait été accepté comme cela) Le premier papier de Piug a l’air super-intéressant, mais si on regarde l’échelle, on voit qu’ils ont 7 reads avec CTCF. Avec d’autres facteurs on voit parfois le dimère, parfois l’hétérodimère. On voit à la base près, mais c’est un très mauvais signal. Le signal est trés différent selon que le TF se lie seul, avec un partenaire,. . . Quand on fait l’IP on protège non seulement l’ADN attaché au facteur, mais aussi tout ce qui est cross-lié. 8. Workflows Galaxy • Créer des convertisseurs vers d’autres gestionnaires de workflows ? 12 • • • • • EOULSAN (C)BPIPE Snakemake Méta-langage de description de workflows Il faudrait généraliser ces outils au NGS en général, et pas seulement au ChIP-seq ! Actions France Génomique pour les mois à venir Claire Rioualen & Jacques van Helden - France Génomique 1. 2. 3. 4. 5. 6. 7. Identification des acteurs impliqués dans l’analyse des données ChIP-seq Catalogue des ressources bioinformatiques en matière de ChIP-seq Déploiement d’une machine virtuelle dediée a l’analyse de la régulation (generegVM) Développement de matériel de formation Identification et catégorisation des demandes d’utilisateurs en matière d’analyse ChIP-seq Participation à des formations NGS Conception de workflows ChIP-seq Instance de serveur Galaxy équipée d’outils ChIP-seq (extension de Nebula, en collaboration avec Curie). Étude pilote de workflows programmatiques incluant des Web services Evaluation (“benchmarking”) de la pertinence biologique des pics de ChIP-seq Jocelyn Brayet & Nicolas Servant - France Génomique 1. 2. 3. 4. Livrable des premiers outils RSAT dans Galaxy Mise à disposition via un ToolShed (lequel ?? France Génomique ??) Formation NGS Mise en place de VM de Nebula et portage sur le Cloud Autres • • • • • • • • • • • • Mise en commun des protocoles, bonnes pratiques, paramètres, expériences. . . Création d’un wiki Questions ouvertes / éléments d’information / pistes envisageables Voir Renater ou Google groups établir une liste de tests statistiques, estimateurs/indicateurs de qualité, explications pour chaque étape de l’analyse ChIP-seq. Liste de descriptions statistiques pour comparer des expériences. Avoir des descripteurs de qualité IDR, Backlist ENCODE, etc. pourrait être tres utile. ENCODE Practical guidelines for the comprehensive analysis of ChIP-seq data, T. Bailey et al., 2013 ... Supports de formation en anglais Catalogue des outils (seqanswers/omicstool/IFB/Elixir) L’IFB va mettre en place un catalogue de “services” francais en lien avec Elixir. Quel est l’intérêt par rapport a des outils déjà existants comme OmicsTools ?? Liste des outils à tester 13