PDF - 1.8 Mo - Master Sciences et Technologie
Transcription
PDF - 1.8 Mo - Master Sciences et Technologie
Séquençage massif en parallèle Défis technologiques et informatiques Jean-Baptiste Rivière, PhD [email protected] 10/09/2014 Séquençage massif en parallèle Défis technologiques de Sanger à Illumina Le génome humain ● Organisme diploïde, 23 paires de chromosomes. ● 3,3 milliards de paires de bases. ● 20 687 gènes et 6,3 isoformes par locus. ● Par individu, en moyenne : – 3 à 4 millions de variations ponctuelles. – > 1 000 variations structurales. 1990 – Début du Human Genome Project ● ● ● Initié par le US Department of Energy (DOE) et le NIH. Projet collaboratif international prévu sur 15 ans Objectif : décoder le génome humain pour accélérer les progrès en génétique, de la médecine à l'évolution de l'humain. 2003 – Fin du Human Genome Project Human Genome Project 13 ans > 3 milliards $ 2003 Principe du séquençage Sanger Développements technologiques Vers le séquençage en routine de génomes entiers Human Genome Project Génome de James Watson Génome individuel Génome Individuel Génome Individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3000-5000 $ 3 jours 1000 $ 1h 100 $ 2003 2007 2013 2015 2025 Quelques définitions ● ● ● ● Séquençage haut débit (SHD) : terme générique et peu spécifique (utilisation à éviter). Séquençage nouvelle génération (NGS) ou massif en parallèle : regroupe les technologies de 2nde et 3ème génération. Séquençage de 2nde génération : séquençage d'un ensemble de molécules nucléotidiques à l'aide de techniques de “wash-and-scan” (ou cycles). “Wash-and-scan” : technique basée sur des polymérases et réactifs qui doivent être enlevés à chaque cycle après l'incorporation des bases à lire. Quelques définitions ● ● ● ● Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de “wash-and-scan”. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'ADN d'intérêt. Varie en fonction de la technologie. Principe du NGS Principe du NGS Préparation des libraires Bridge PCR Emulsion PCR Semiconductor sequencing (Ion Torrent) Sequencing by ligation (SOLiD) Pyrosequencing (454) Reversible terminator sequencing (Illumina) Séquençage Solexa/Illumina ● ● Preuve de principe de la technologie par le séquençage d'un génome humain (2008). Séquençage bidirectionnel de lectures 35 pb et profondeur de séquençage > 30X en moyenne. Bridge (ou “cluster”) PCR ● ● ● L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à une surface tapissée de séquences adaptatrices et amplifiés par PCR. Résultat : obtention de groupes d'amplicons à la surface de la flowcell (appelés clusters). Principe du séquençage Illumina Principe du séquençage Illumina ● ● ● Hybridation d'une amorce de séquençage universelle. Extension d'une seule base à chaque cycle par l'utilisation de nucléotides modifiés (“reversible terminators”) et marqués par fluorescence (une couleur par base). Cycle individuel de séquençage : (1) ajout d'une base, (2) acquisition d'image, (3) clivage chimique du groupement “terminator” et du marquage fluorescent pour le cycle suivant. Séquenceurs Illumina Caractéristiques techniques Lectures Débit Lectures/run Précision Temps d'exécution HiSeq 2000/2500 HiScan SQ Genome Analyzer IIx MiSeq 2x100 pb 2x100 pb 2x150 pb 2x250 pb 600 Gb 140 Gb 96 Gb 7,5 Gb 3 milliards 700 millions 320 millions 15 millions 99,9% 99,9% 99,9% 99,9% 11 jours 8 jours 14 jours 39h Principe des index ● Principe : utilisation de séquences nucléotidiques synthétiques appelées “index” (ou “barcodes”) pour identifier et combiner plusieurs échantillons dans une même expérience de séquençage. Avantages et limites d'Illumina ● Avantages Technologie avec le débit le plus important et le coût/base le plus faible actuellement. – Technologie adoptée par la communauté scientifique (ex : disponibilité de nombreux outils bio-informatiques en libre accès). Limites – ● – – Précision inférieure au Sanger (les erreurs principales sont des substitutions) Lectures de petite taille Avantages du NGS vs Sanger ● ● ● ● Construction in vitro de librairies à séquencer et amplification clonale subséquente (vs transformation de E. coli et sélection de colonies). Parallelisation bien supérieure par une miniaturisation du processus de séquençage permettant des millons de réactions de séquençage sur une surface donnée. Diminution des volumes de réactifs de séquençage grâce à la miniaturisation du processus et la fixation des fragments sur un support solide. Conséquence : coût bien inférieur pour un débit bien supérieur. Désavantages du NGS vs Sanger ● ● ● ● Taille des lectures limitée (problématique pour les régions non uniques dans le génome et l'analyse bioinformatique). Précision (taux d'erreurs) inférieure au séquençage Sanger (au minimum 10 fois moindre). Problématiques liées aux 2 technologies : – Régions fortement répétées (ex: triplets nucléotidiques). – Régions riches en nucléotides G et C. Point à considérer : ce n'est que le début du NGS, des améliorations sont à prévoir. Séquençage massif en parallèle Défis informatiques Exemple de l'exome Séquençage de l'exome ● ● Exome : exons codants du génome (1-2 % des séquences du génome) 20,000 variations codantes Principe de la capture de l'exome Identification de gènes responsables par séquençage d'exomes Boycott et al., Nature Reviews Genetics, 2013 Quel que soit le mode de transmission Boycott et al., Nature Reviews Genetics, 2013 Concept #1 “There is a real disconnect between the ability to collect next-generation sequence data (easy) and the ability to analyze it meaningfully (hard)” Dave O’Connor Concept #2 Outils bio-informatiques ● ● Logiciels d'analyses – Traitement des données brutes – Identification & annotation des variations Navigateurs de génomes – ● Bases de données – ● Visualisation et annotation des données Bases de données de variations & phénotypiques Outils de prédiction in silico – Prédiction de l'impact des variations Traitement des données ● ● ● ● Fichiers Fastq récupérés BWA Samtools GATK Livraison & gestion des données Données Données brutes brutes Fichiers Fichiers FASTQ FASTQ Analyses Analyses Stockage Stockage haute haute performance performance Sauvegarde Sauvegarde Stockage Stockage basse basse performance performance Séquences Séquences brutes brutes Contrôle Qualité Alignement Alignement des des séquences séquences Identification Identification des des variations variations Annotation Annotation et et priorisation priorisation Validation Validation des des résultats résultats Types de fichiers ● Fichiers textes/binaires ● Fichiers de référence ● – Séquences de référence (ex: fasta) – Listes d'intervales chromosomiques (ex: bed) – Listes de gènes, transcrits, variants, etc. Fichiers de données à analyser – Séquences brutes (ex: fastq) – Séquences alignées (ex: SAM/BAM) – Listes de variants (ex: vcf) Types de fichiers Séquences Séquences brutes brutes (FASTQ) (FASTQ) Séquences Séquences alignées alignées (SAM/BAM) (SAM/BAM) Liste Liste de de variants variants (VCF) (VCF) Notion de scores de qualité ● ● Généralement représenté à l'aide de l'échelle de Phred (pratique pour les probabilités faibles) Score de qualité : Q(A) = -10 log10 (P(~A)) où P(~A) est la probabilité que A est faux CQ des données brutes ● Logiciel : FastQC ● Taille des lectures ● Taux d'erreurs moyen par cycle ● Duplicats de PCR ● ● Détection de fragments surreprésentés (séquences adaptatrices) Biais GC Alignement des données FASTQ FASTQ SAM SAM Contrôle Contrôle Qualité Qualité Picard Picard BAM BAM (clean, (clean, sort, sort, dedup) dedup) GATK GATK BAM BAM (realign, (realign, recal) recal) Exemple de réalignement autour d'une délétion CQ des données alignées ● Logiciels : Picard & GATK ● Estimation de la complexité des librairies ● ● ● Pourcentage de lectures alignées au génome de référence (hg19) Pourcentage de duplicatas de PCR Profondeur de séquençage utile (exons codants RefSeq) Samples Mean depth of coverage % bases ≥ 10X % bases ≥ 20X % bases ≥ 60X % bases ≥ 100X 65 exomes 94X 93 90 67 41 Identification des variations ● ● Logiciels : GATK (SNV & indels) – XHMM (CVNs) Régions ciblées : exons codants RefSeq Variations Variations brutes brutes (VCF) (VCF) GATK GATK UnifiedGenotyper UnifiedGenotyper Filtre Filtre des des variations variations (VCF) (VCF) GATK GATK VariantFiltration VariantFiltration Annotation des variations Variations Variations non-annotées non-annotées (VCF) (VCF) GATK GATK Variations Variations annotées annotées (VCF) (VCF) SeattleSeq SeattleSeqAnnotation Annotation Annotation Annotation Omim Omim (VCF) (VCF) Annotation Annotation ClinVar ClinVar (VCF) (VCF) Variations “rares” ● ● ● Filtres de qualité – Variants “PASS” – Profondeur : 10X – Allèle mutant dans ≥ 4 lectures et ≥ 10% des lectures NS/SS/I : Variations non-synonymes, d'épissage, ins/dels affectant la séquence codante & synonymes à proximité de sites d'épissage Variations “rares” ● ● ● Fréquence dans les bases de données – < 1% dans dbSNP – < 1% dans EVS (6,500 exomes) – < 5% dans les autres exomes locaux Filtre OMIM : gène associé à une pathologie génétique dans OMIM Autres filtres/stratégies possibles en fonction du design expérimental Priorisation des variations – Recherche Boycott et al., Nature Reviews Genetics, 2013 Priorisation – Diagnostic Variations codantes non-synonymes / d'épissage > 10 000 Variations rares (< 1 %) 500 Gènes de pathologie Humaine (OMIM) 80 Classification & Validation 0-5 Classification – Diagnostic Richards et al., Genetics in Medicine 2008 Navigateurs de génome ● Accès aux données du génome humain à l'aide d'un interface graphique ● Accès à de très nombreuses données d'annotation ● Les 2 principaux : – UCSC Genome Browser – Ensembl Genome Browser UCSC Genome Browser UCSC Genome Browser Visualisation des variations (IGV) Bases de données de variants ● ● SNPs et indels – Single Nucleotide Polymorphism Database (dbSNP) – Exome Variant Server (EVS) – 1000 Genomes Project CNVs – Database of Genomic Variants (DGV) Exome Variant Server Exome Variant Server Exome Variant Server Bases de données de variations en pathologie humaine ● ● Généralistes – Single Nucleotide Polymorphism Database (dbSNP) – Human Gene Mutation Database (HGMD) – Online Mendelian Inheritance in Man (OMIM) – Database of Chromosomal Imbalance and Phenotype in Humans Using Ensembl Resource ( DECIPHER) Spécialisées – Locus Specific DataBases (LSDB) – Catalogue of somatic mutations in cancer (COSMIC) COSMIC Outils de prédiction in silico ● ● ● Prédiction informatique de l'effet de variations génétiques Exemple 1: mutations non-synonymes – SIFT – Polyphen Exemple 2: effet sur l'épissage – Human Splicing Finder (HSF) Conclusion ● Constat : la génétique ne se fait plus sans informatique (au sens large, incluant la bio-informatique), particulièrement en recherche, mais également en mileu hospitalier. – Nécessité d'intégrer des outils informatiques variés dans la pratique professionnelle – Nécessité d'intégrer l'informatique dans la formation des étudiants & professionnels Se former à la bio-informatique ● ● ● ● ● Niveau 0 : Se documenter sur le sujet. Niveau 1 : Utiliser et maîtriser les outils ayant une interface graphique (bases de données publiques, navigateurs de génome, Galaxy, outils de prédiction in silico). Niveau 2 : Se familiariser avec Linux (ex : Ubuntu) ou utiliser le terminal du Mac. Niveau 3 : Apprendre un (des) langage(s) de programmation (ex : Python, Perl, R). Niveau 4 : Analyser des données réelles dans ses études ou sa pratique professionnelle.