Réunion France Génomique : Work Package 2.6

Transcription

Réunion France Génomique : Work Package 2.6
Réunion France Génomique : Work Package 2.6
Contents
Réunion ChIP-sep France Génomique
1
Tour de table / présentation / intérêt pour le groupe de travail . . . . . . . . . . . . . . . . . . . .
1
Analyse de ChIP-seq avec seqMINER (Tao Ye, IGBMC Strasbourg) . . . . . . . . . . . . . . . . .
1
Outils bioinformatiques et services d’analyse de données ChIP-seq (Nicolas Servant, Curie) . . . .
2
Analyse de motifs dans les pics de ChIP-seq avec la suite logicielle RSAT (Jacques van Helden,
TAGC Marseille) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Projet France Génomique : Intégration des outils RSAT sous Galaxy/Nebula (Jocelyn Brayet &
Nicolas Servant) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Le développement de workflows sous Eoulsan - Application à l’analyse de ChIP-seq (Laurent
Jourdren & Celine Hernandez) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Le Cloud de l’Institut Français de Bioinformatique (Christophe Blanchet) . . . . . . . . . . . . . .
5
Exécution et implémentation de workflows au TGCC sous CBPIPE (Christophe Battail) . . . . . .
7
Xavier Benigni (CNG - CDD France Génomique Methyl-seq) . . . . . . . . . . . . . . . . . . . . .
8
Thématiques à développer pour le WP2.6 France Génomique . . . . . . . . . . . . . . . . . . . . .
9
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Actions France Génomique pour les mois à venir . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Réunion ChIP-sep France Génomique
• 13 avril 2015
• Institut de Biologie de l’ENS
• 28 participants
Tour de table / présentation / intérêt pour le groupe de travail
•
•
•
•
•
•
•
Espèces majoritaires : Humain/Souris
Panorama des peak-callers
Réplicats biologiques ? Combien ?
Analyse différentielle de données ChIP-seq
Normalisation
Benchmarking
Présentation de Claire Rioualen et Jocelyn Brayet (CDD France Génomique)
Analyse de ChIP-seq avec seqMINER (Tao Ye, IGBMC Strasbourg)
L’objectif initial était de pallier l’absence d’outils pour analyser des datasets multiples. La méthode est basée
sur le principe de l’analyse des microarrays.
1
Fonctionnalités de seqMiner
•
•
•
•
•
•
•
•
Interface conviviale : menus présentant les jeux de données
Input : l’utilisateur fournit des reads alignés en format bed ou bam
Matrice de densité de reads : bins non-chevauchants de 200bp
Heatmaps : élaboration de cartes graphiques (heatmaps) de reads par rapport à des cordonnées de
référence (par exemple tous les TSS de genes)
Clustering des régions (par exemple autour des TSS) sur base de la densité de reads
Export : on peut exporter les matrices pour les ré-utiliser en R
Gene Profile : on peut charger des jeux de données de polymérase ou méthylation
Annotation : couverture autour des TSS, etc.
Implémentation
•
•
•
•
•
•
•
•
Système java
L’utilisateur peut configurer la mémoire maximale allouée au programme
Multi-threaded : les tâches peuvent être parallélisées sur plusieurs processeurs
Clustering des pics sur base de la densité de reads
k-means parce que c’est le seul qui marche bien
normalisation par le rang
Interface utilisateur
permet de choisir la version de l’annotation génomique (RefSeq, Ensembl, versions différentes)
Questions
• Comment prends-tu en compte la normalisation ? R : la matrice est normalisée automatiquement avant
le clustering
• L’outil est-il maintenu ? R : seqMiner n’est plus maintenu et nécessiterait certainement des mises à
jour pour gérer les jeux de données récents plus volumineux. À noter également que la librairie JAVA
utilisée n’est plus maintenue.
Outils bioinformatiques et services d’analyse de données ChIP-seq (Nicolas Servant, Curie)
Outils developpés au sein du laboratoire et de la plate-forme
HMcan
•
•
•
•
Détection des marques d’histones dans les cellules cancéreuses
Prédictions non biaisées par les régions présentant une augmentation du nombre de copies
Corrige les profils en retirant le biais de copy number
Normalisation du GC-content
Nebula
• Instance Galaxy dediée au ChIP-seq
• Ouverte à la communauté, mais avec une limitation de taille et de transfert des données (50Gb)
• Mise à jour de Nebula avec ajout des outils RSAT
2
Questions qui se posent pour l’analyse des données
•
•
•
•
•
•
•
•
•
•
5-8 projets de ChIP-seq par an
Beaucoup plus de projets de marques d’histones que de facteurs de transcription
Quels types de banques ? Single-end 50bp
De plus en plus de projets en paired-end 100bp, car les gens se posent des questions sur les régions
répétéées
On a souvent des gens qui génèrent les banques avec des quantités de matériel difféérentes. Dans
certains cas on fait beaucoup plus d’immunoprécipitation pour un type cellulaire que pour un autre, du
fait de la nature du projet biologique, et on se retrouve avec 10M de reads dans un cas pour 50M pour
les autres
Pourquoi a-t-on autant de duplicats ? Faut-il les retirer ou les conserver ?
Tao : MACS retire les duplicats par défaut
Tout dépend de la préparation de la librairie : si on fait une digestion à la MNase, elle coupe toujours
au même endroit, donc on perd de l’information en supprimant
Samuel : possibilité de molecular barcoding pour barcoder chaque fragment
Stéphane : comment es-tu sûr que la ligation est bonne pour tous les fragments ? Tu ajoutes un barcode
pour enlever un biais, mais certains barcodes se séquencent moins bien que d’autres, donc on ajoute un
biais pour en enlever un autre
Questions
• Dans un contexte de nombre de reads différent par échantillon, il est possible de sous-échantillonner
certains échantillons. Comment tires-tu au sort ? Si le tirage est neutre, quel est l’interêt de sélectionner
un sous-ensemble plutôt que de normaliser par un scaling factor ?
Analyse de motifs dans les pics de ChIP-seq avec la suite logicielle RSAT (Jacques
van Helden, TAGC Marseille)
•
•
•
•
•
•
50 outils différents implémentés dans RSAT
Une forte expérience et un travail collaboratif
RSAT est dédié à l’analyse de motifs
Plusieurs outils ChIP-seq (peakMotif, MatrixScan, etc.) orientés facteur de transcription
6 serveurs organisés en fonction des organismes et annotations disponibles
Coming soon - motif clustering
Projet France Génomique : Intégration des outils RSAT sous Galaxy/Nebula
(Jocelyn Brayet & Nicolas Servant)
Intégration de RSAT dans Galaxy Nebula
•
•
•
•
Script XML :
Genese du formulaire Galaxy
Collecte des paramètres utilisateurs
Script python : gère la connexion au serveur RSAT, la requête décrite par le fichier XML, et le traitement
des résultats pour les rendre lisibles sous Galaxy
• Actuellement intégrés
• peak-motifs
• convert-matrix (encore en développement)
3
•
•
•
•
•
matrix-scan (encore en développement)
Affichage des résultats
Sélection des rapports HTML : composition des séquences, motifs
Accès aux fichiers détaillés : par exemple les fichiers bed des sites
Aide
Perspectives
•
•
•
•
Finaliser les trois outils qui sont déjà installés
Esthétique des sorties
Intégrer d’autres outils RSAT pour faire un ToolShed
Porter une VM de Nebula sur le Cloud
Questions
• Stéphanie Legras : les outils seront-ils disponibles dans ToolShed ? Réponse : Oui quand on aura
intégré suffisamment d’outils.
• Jacques : il faudrait discuter de l’amélioration des rapports, en utilisant le format markdown.
• Stéphanie Legras :
• Sur quel serveur est-on renvoyés ? Réponse : on peut configurer.
• Quand le ToolShed sera-t-il disponible ? Nous serions interessés d’installer ces outils sur notre serveur
Galaxy. Nicolas : assez rapidement.
Le développement de workflows sous Eoulsan - Application à l’analyse de ChIPseq (Laurent Jourdren & Celine Hernandez)
Implémentation
•
•
•
•
Simplicité d’installation
Java
Image docker sur le dépôt de la plateforme
Partage sur github : on peut contribuer au développement
Workflow
•
•
•
•
•
•
•
•
•
•
•
•
•
Read mapping : choix entre des mappers alternatifs
Samtools rmdup
Peak-calling (MACS2)
Calcul de l’IDR (irreproducible discovery rate, defini par ENCODE)
Input
Fichier workflow en format XML, qui décrit les étapes de l’analyse
Fichier design, qui décrit les échantillons
Les étapes les plus coûteuses peuvent être distribuées sur un cluster hadoop ou sur le cloud amazon
(systeme s3)
Nouvelle version
Amélioration du moteur workflow
Nouvelle version tous les deux mois
Prochaine version = alpha6
Déjà utilisé en production
4
• Tests systématiques des fonctionnalités
Perspectives
• Prochainement, intégration des outils ChIP-seq de l’équipe Thieffry
• Filtrage des pics liés a une liste noire
• Intégration avec RSAT via Web services (de façon similaire a ce qu’a fait Jocelyn sous Galaxy)
Questions
• Jacques : interface d’édition du fichier workflow ?
• Jacques : pouvez-vous exporter un flowchart des étapes du workflow (comme dans snakemake) ?
• Dominique Rocha : comment est définie la liste noire ? Céline : on utilise la “black list” d’ENCODE.
Le Cloud de l’Institut Français de Bioinformatique (Christophe Blanchet)
Missions de l’IFB
• Support pour les programmes nationaux de biologie
• Infrastructure IT
• Interface entre les communautés sciences du vivant et informatique / bioinformatique
IFB core
• Gestion administrative et technique
• 6 centres régionaux + IFB core
Déploiement du cloud pour les sciences du vivant
•
•
•
•
•
But : aider les scientifiques et ingénieurs à deployer leurs outils
e-infrastructure
Collections biologiques
Outils bioinformatiques
À terme, le cloud sera une fédération de clouds entre le noeud national et les noeuds des 6 centres
régionaux
• 31 plateformes
• 11.000 coeurs
• 6 PetaOctets de stockage
Implémentation du cloud
•
•
•
•
•
•
•
Technologie : StratusLab
3000 coeurs prévus à la fin de cette année
À la fin de l’année prochaine, 10.000 coeurs + 2Po de stockage
Hébergement a l’IDRIS
Connexion au réseau RenaTer en 10Gb
Description des services
déploiement de coeurs
5
• stockage
• Portail web developpé en-dessous de StratusLab pour faciliter la gestion d’un ensemble de ressources
(machines virtuelles isolées, machines virtuelles spécifiques, ou cluster de machines virtuelles pour
répartir les calculs sur un ensemble de “workers”)
Déplacer les machines virtuelles ou les données ?
Le déplacement des machines virtuelles présente plusieurs avantages : * Plus légères que les données *
Protection de données à caractère personnel (par exemple hôpitaux)
Appliance
Une appliance est une image d’une machine virtuelle prête à être utilisée par un utilisateur. Quand on
démarre une appliance, on obtient une instance de la machine virtuelle.
Accessibilité des données de référence
• BioMaj pour déployer des réplicats locaux des banques de données
• On peut imaginer de placer des images des données de référence
Catalogues de ressources
•
•
•
•
•
Data registry
Software registry : docker hub
VM registry
Service RAINbio, qui s’appuie sur le catalogue européen des services, développe par Elixir.
Copie sur le cloud IFB des bases de données publiques (Uniprot, EMBL, PFAM, . . . ) qui deviendront
automatiquement disponibles pour toutes les DB qu’on va lancer
• Catalogue des services : quelle VM fournit des outils correspondant à un sujet ? Coupler ce catalogue
avec celui des outils disponibles -> conception de pipelines
Actuellement disponibles
•
•
•
•
•
•
•
•
•
•
•
Un ensemble d’appliances scientifiques
CLI : R, RSAT, PhyML, Aria, bioCompute
Des VM accessibles en Web
Galaxy, RSAT, R
Remote desktop : affichage interactif à l’écran
Protéomique, écologie des populations, imagerie
Utilitaires
Ensemble de systèmes de gestion de donnees (BioMaj, NFS, Casandra, Neo4j)
Base Hadoop pour déployer ses propres clusters hadoop
Docker pré-installé sur une VM pour pouvoir installer ses propres machines
Rôle de l’IFB core : assister les développeurs pour créer des appliances
Formation
Le cloud a déjà fourni des VM pour des tutoriaux (ex : ECCB 2014) ou des formations (Marseille, Rouen,
. . . ).
6
Perspectives
•
•
•
•
•
•
•
Créer plus d’appliances bioinformatiques
Développements spécifiques aux domaines
Premier round : microbial bioinformatics, evolutionary bioinformatics
Appel à projets 2015
Pilotes techniques
Interopérabilité des appliances
...
Questions
•
•
•
•
Jacques : comment combiner les fonctionnalités deployées sur plusieurs machines virtuelles ?
intégration de couches multiples via Docker ?
inter-communications entre les machines virtuelles ?
via Web services par exemple
Exécution et implémentation de workflows au TGCC sous CBPIPE (Christophe
Battail)
TGCC
• Très grand centre de calcul du CEA
• Pas un cloud mais un cluster
CBPIPE
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
CNG Bioinformatics PIPEline
Design
interface unifiée de workflows en bioinformatique
capacité d’analyser les grandes quantités de données produites par le CNG, France Génomique ou
d’autres projets à large échelle
reproductibilité
personnalisation facile des workflows : choix des traitements + paramétrage
exécution soit sur une seule machine, soit sur cluster local, soit au TGCC
Implémentation
gestionnaire de workflows bpipe, qui repose lui-même sur slurm (gestionnaire de taches), personnalisé
pour le rendre utilisable au TGCC
Mise en modules
Une centaine d’outils déjà disponibles au TGCC pour le NGS (alignement, recherche de pics, . . . )
Déploiement des modules très rapides (3 commandes) pour passer du test sur un petit cluster (LIRAC)
vers le TGCC
Optimisation de workflows bioinformatiques
parallélisation par . . . ou par . . .
Use cases
RNA-seq
Exome-seq
ChIP-seq : pour le moment limité au contrôle de qualité. “Le ChIP-seq est un des parents pauvres
du pipeline de CBPIPE”, mais ils veulent le développer car ils ont de fortes demandes en ChIP-seq.
Collaborations avec
7
•
•
•
•
Sophie Chantalat
ChIP-seq
ATAC/DNAse1-seq
Fabien Pichon
Préparation et utilisation des workflows
•
•
•
•
•
•
•
•
•
•
Sample sheet : édition d’une feuille de description des échantillons (column-tabulated text file)
Chargement de module CBPIPE dans l’environnement du cluster TGCC/CCRT
Outil en ligne de commande
sélection des organismes
sélection du pipeline (actuellement, pas beaucoup d’outils chip-seq, à développer)
entrer son code France Génomique (qui définit le crédit en heures de calcul et en stockage)
indiquer le répertoire de sortie
indiquer la sample sheet
options de sortie
Pipelines primaires (par exemple un par échantillon) et secondaires (comparaisons entre sorties des
pipelines primaires)
• Formalisme de personnalisation des workflows : on construit le pipeline comme une phrase, qui représente
un graphe acyclique dirigé, avec des opérateurs de branchement, de réunification, . . .
• Une cinquantaine de modules déjà implémentés
Questions
• Jacques : comment CBpipe se compare-t-il à d’autres systèmes de gestion des tâches ?
• make
• snakemake
Xavier Benigni (CNG - CDD France Génomique Methyl-seq)
•
•
•
•
Évaluation d’outils de peak-calling pour le bisulfite
Mise en place d’un workflow complet déployable pour les utilisateurs & évaluation
installable localement
image docker ou VMWare
Problèmes rencontrés
• Avec ce type de données on dépasse rapidement les quotas de temps alloués par les ressources IT -> il
faut travailler sur l’optimisation et la parallélisation . Actuellement ce qui prend le plus de temps est le
mapping. Utilisation des données de la littérature + données propres pour l’évaluation. Les résultats
sont très hétérogènes, et ils approfondissent actuellement pour comprendre pourquoi. Exemple : read
mapping avec jeu artificiel ou il devrait y avoir 0% de matches donne quand même 25% de matches.
• Trimming : cutadapt ne fonctionne pas pour ces données
• Après le peak-calling : annotation automatique
• Analyse différentielle : traitement d’un jeu de données pour arriver à un résultat
• Disponibilité :
• France Génomique
• CCRT
• Machine virtuelle sur VMWare ou Docker
8
Questions
• Nicolas : quels sont les critères pour évaluer la qualité des résultats ? Xavier : jeux de données artficiels
(génome aléatoire), avec un pourcentage variable de mapping garanti (0%, 50%, 100% selon le jeu).
• Dominique Rocha : le pipeline sert à analyser du bisulfite, donc génome entier ? Vous parliez de 10M
reads. Xavier :
• Les jeux de 13M de reads servent uniquement à évaluer la faisabilité. On tombe rapidement sur un mur
du temps, quand on atteint plusieurs dizaines de millions de reads, le mieux est de paralléliser.
• La difficulté c’est le merge. On pourrait faire du mapping par chromosome mais cela représenterait
d’autres problèmes.
• La difficulté vient du fait que le mapping repose sur un jeu de données dégénéré, car on travaille avec 3
lettres -> on utilise des heuristiques pour éviter le chevauchement. Production de doc, pour expliquer
comment travailler, en indiquant qu’il faut faire des allers-retours.
Thématiques à développer pour le WP2.6 France Génomique
1. Design
•
•
•
•
•
Nombre de réplicats
Guidelines
Estimation du background
mock
input génomique
2. Préparation des échantillons
• Fixation ou pas ? (pas nécessaire pour les histones qui sont naturellement bien fixés)
• Question de la congélation des échantillons
• éviter la sonication avant/après congélation
3. Séquençage
•
•
•
•
Pertinence et gestion des données en paired-end
Longueur des reads
Profondeur
Librairies : comment traiter les cas où les échantillons ont des quantités très différentes ?
4. Pré-processing
• Traitement des duplicats
• Définition des régions black-listées (cas des régions toujours enrichies)
5. Peak calling
• Choix des programmes et paramètres en fonction du type de données (notamment broad ou narrow)
• IDR (irreproducible discovery rate, défini par ENCODE)
9
6. Annotation des pics/regions
• Densité autour des TSS
• Outils : HOMER, CEAS, GREAT, . . .
6b. Motifs
• Jacques propose une méthode consistant à comparer l’enrichissement de motifs à la fin du protocole en
testant différents paramètres
• Problème soulevé : suivant les data, il peut y avoir une proportion plus ou moins importante de pics
non associés à des motifs (Morgane)
7. Analyse différentielle
•
•
•
•
•
•
Scaling / mise à l’échelle vs normalisation classique
Densité de reads sous les pics dont les limites sont distinctes
Analyse temporelle
Polymorphismes
SNP
CNV
7b. Intégration
•
•
•
•
RNA-seq
DNase-seq (ATAC-seq. . . )
Facteurs vs marques d’histones
HiC-seq
8. Workflows
• Standardisation des pipelines
• Méta-analyses
Autres
•
•
•
•
•
•
•
•
•
Jeux de référence / pré-requis génomiques
Espèces polyploïdes
Coordonnées de gènes
Stockage des données
Méthode de compression fastq ?
Clustering
Choix de la méthode de clustering pour des grands nombres de régions
Nombre de clusters
Métrique de distance
10
Discussion
1. Design des expériences
Nombre de réplicats Sur la plupart des projets le coût determine a priori le nombre de réplicats (exception
pour certains projets médicaux). Ce qui devrait guider le choix du nombre de réplicats :
• taille d’effet
• sensibilité desirée
• approche qu’on utilisera en aval : si on utilise des approches bayésiennes on a besoin de moins de
réplicats
• Sous-estimation de l’importance de l’input : même à coût constant la question du design se pose.
Dans les guidelines on conseille de faire au moins un input par lignée. On conseille d’avoir beaucoup
plus de profondeur dans l’input que dans les ChIP-seq. Or l’input est essentiel puisqu’il détermine le
background et donc la position des pics.
À relativiser par rapport aux objectifs : dans ce type de projets, on veut établir des catalogues plutôt que
d’établir un modèle quantitatif. On veut cependant pouvoir s’assurer que le même jeu de données soit
réutilisable dans le contexte de méta-analyses.
Très souvent pour un biologiste, des différences de < 10% ne l’intéressent pas pour faire des réplicats. Pour
répondre à la plupart des questions, un seul réplicat suffit. Les réplicats servent pour l’analyse différentielle,
et leur nombre dépend de l’effet de taille.
Quand on travaille sur de l’animal, on est aussi limité par des raisons éthiques (sacrifice d’animaux).
Ce qui influence aussi est la nature de échantillons : lignées cellulaires, tissus, individus différents. La question
des réplicats dépend de la question qu’on veut poser, et de ce qu’on va faire des résultats. Si de toutes façons
le but est de pêcher quelques candidats dont on fait les validations après, il est moins important d’avoir un
grand nombre de réplicats.
Samuel : en 2012 Tim Bailey a proposé dans Plos Computational Biology une série de guidelines pour le
ChIP-seq qui étaient plus à jour que celles d’ENCODE (mais moins detaillées). Certains points de leurs
guidelines sont douteux, et certains jeux de données également.
Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data. Bailey et al. (2013). DOI :
10.1371/journal.pcbi.1003326.
Résumé Ne pas négliger l’input * Lui accorder toute la profondeur requise. * Peut-on utiliser le même
input pour des manips avec ou sans si-RNA de contrôle ? * Validité de l’input comme contrôle. On s’attend
à ce que nos protéines viennent se fixer dans les régions accessibles. * Philippe Veber a déjà testé l’impact de
l’input sur les résultats. * Stéphanie : si le principe est que la chromatine est dans des états différents selon
le point temporel, la condition, il est évident qu’il faut faire un input par condition. Malheureusement on
doit parfois couper dans le budget.
Input : mock ou séquences génomiques ?
• le problème du mock est que comme l’IP ne fonctionne pas (par design) on a très peu d’échantillons.
L’intérêt est de vérifier ce qui se lie de facon non-spécifique, mais quand on cherche des pics cela ne sert
pas vraiment.
11
3. Séquençage
Single-end ou paired-end ?
• Le paired end permet en principe de s’affranchir d’un tas de problèmes du peak-calling, en particulier
l’estimation du décalage entre les reads sur les brins W et C.
• Ça coûte plus de 2 fois plus cher, car il faut séquencer 2 fois plus profond sur 2 fois plus de nucléotides
(2 reads) pour avoir la même profondeur.
• Tout dépend de la librairie.
• Le paired-end est vraiment intéressant pour ce qui est répétitions, et permet d’estimer la longueur des
fragments de façon empirique plutôt que de l’inférer sur base de statistiques moyennes.
• Samuel a fait des essais en analysant les paired-ends avec MACS2, en utilisant les options paired-end
ou non. Il obtient de meilleurs résultats avec l’option paired-end.
• Sur des espèces qui ne sont pas des génomes modèles.
• Si on veut détecter des variants régulatoires.
Profondeur des reads Stéphanie : On a pour habitude de dire qu’on a besoin de plus de reads pour des
broad peaks que pour des narrow peaks. Je travaille sur du ChIP-seq depuis 2008, et j’ai vu des réplicats sur 2
ou 3 projets, et quand je faisais des chevauchements entre les deux j’avais très peu de résultats. Je me suis
dit qu’on n’avait pas séquencé suffisamment profondément.
Souvent sur les régions longues les gens utilisent des peak-callers avec les paramètres par défaut qui ont été
définis pour des régions courtes. Je pense que si on ajuste bien les paramètres pour les régions longues, on
pourrait peut-être s’en sortir.
Jacques : pour un problème particulier, j’ai testé la combinaison de SICER pour détecter des regions larges
et SWEMBL pour détecter des pics précis, et retenu les régions qui chevauchent au moins un pic, et les pics
qui tombent dans une region.
Samuel : en principe c’est ce que fait l’option broad peak de MACS, mais cela ne fonctionne pas vraiment
comme on s’y attendrait.
Stéphanie : pour du H3K4me3 on a besoin d’une super couverture, souvent on n’arrive pas à extraire grand
chose dans les conditions où on travaille.
ChIP-exo Dominique : pour résoudre les problèmes de broad peaks, est-ce qu’on ne devrait pas faire du
ChIP-exo ? Morgane : le ChIP-exo est fantastique, mais pour l’analyser c’est très difficile.
• pas de contrôle
• impossible de faire un input
• le concept de mock IP ne fonctionne pas (il y a une publi où ils le font, c’est incomprehensible que
l’article ait été accepté comme cela)
Le premier papier de Piug a l’air super-intéressant, mais si on regarde l’échelle, on voit qu’ils ont 7 reads avec
CTCF. Avec d’autres facteurs on voit parfois le dimère, parfois l’hétérodimère. On voit à la base près, mais
c’est un très mauvais signal. Le signal est trés différent selon que le TF se lie seul, avec un partenaire,. . .
Quand on fait l’IP on protège non seulement l’ADN attaché au facteur, mais aussi tout ce qui est cross-lié.
8. Workflows
Galaxy
• Créer des convertisseurs vers d’autres gestionnaires de workflows ?
12
•
•
•
•
•
EOULSAN
(C)BPIPE
Snakemake
Méta-langage de description de workflows
Il faudrait généraliser ces outils au NGS en général, et pas seulement au ChIP-seq !
Actions France Génomique pour les mois à venir
Claire Rioualen & Jacques van Helden - France Génomique
1.
2.
3.
4.
5.
6.
7.
Identification des acteurs impliqués dans l’analyse des données ChIP-seq
Catalogue des ressources bioinformatiques en matière de ChIP-seq
Déploiement d’une machine virtuelle dediée a l’analyse de la régulation (generegVM)
Développement de matériel de formation
Identification et catégorisation des demandes d’utilisateurs en matière d’analyse ChIP-seq
Participation à des formations NGS
Conception de workflows ChIP-seq Instance de serveur Galaxy équipée d’outils ChIP-seq (extension de
Nebula, en collaboration avec Curie). Étude pilote de workflows programmatiques incluant des Web
services Evaluation (“benchmarking”) de la pertinence biologique des pics de ChIP-seq
Jocelyn Brayet & Nicolas Servant - France Génomique
1.
2.
3.
4.
Livrable des premiers outils RSAT dans Galaxy
Mise à disposition via un ToolShed (lequel ?? France Génomique ??)
Formation NGS
Mise en place de VM de Nebula et portage sur le Cloud
Autres
•
•
•
•
•
•
•
•
•
•
•
•
Mise en commun des protocoles, bonnes pratiques, paramètres, expériences. . .
Création d’un wiki
Questions ouvertes / éléments d’information / pistes envisageables
Voir Renater ou Google groups
établir une liste de tests statistiques, estimateurs/indicateurs de qualité, explications pour chaque étape
de l’analyse ChIP-seq. Liste de descriptions statistiques pour comparer des expériences. Avoir des
descripteurs de qualité IDR, Backlist ENCODE, etc. pourrait être tres utile.
ENCODE
Practical guidelines for the comprehensive analysis of ChIP-seq data, T. Bailey et al., 2013
...
Supports de formation en anglais
Catalogue des outils (seqanswers/omicstool/IFB/Elixir)
L’IFB va mettre en place un catalogue de “services” francais en lien avec Elixir. Quel est l’intérêt par
rapport a des outils déjà existants comme OmicsTools ??
Liste des outils à tester
13

Documents pareils