PDF - 1.8 Mo - Master Sciences et Technologie

Transcription

PDF - 1.8 Mo - Master Sciences et Technologie
Séquençage massif en parallèle
Défis technologiques et
informatiques
Jean-Baptiste Rivière, PhD
[email protected]
10/09/2014
Séquençage massif en parallèle
Défis technologiques
de Sanger à Illumina
Le génome humain
●
Organisme diploïde, 23 paires de chromosomes.
●
3,3 milliards de paires de bases.
●
20 687 gènes et 6,3 isoformes par locus.
●
Par individu, en moyenne :
–
3 à 4 millions de variations ponctuelles.
–
> 1 000 variations structurales.
1990 – Début du Human Genome Project
●
●
●
Initié par le US Department of
Energy (DOE) et le NIH.
Projet collaboratif international
prévu sur 15 ans
Objectif : décoder le génome
humain pour accélérer les
progrès en génétique, de la
médecine à l'évolution de
l'humain.
2003 – Fin du Human Genome Project
Human
Genome
Project
13 ans
> 3 milliards $
2003
Principe du séquençage Sanger
Développements technologiques
Vers le séquençage en routine
de génomes entiers
Human
Genome
Project
Génome
de James
Watson
Génome
individuel
Génome
Individuel
Génome
Individuel
13 ans
> 3 milliards $
2 mois
2 millions $
15 jours
3000-5000 $
3 jours
1000 $
1h
100 $
2003
2007
2013
2015
2025
Quelques définitions
●
●
●
●
Séquençage haut débit (SHD) : terme générique et
peu spécifique (utilisation à éviter).
Séquençage nouvelle génération (NGS) ou massif en
parallèle : regroupe les technologies de 2nde et 3ème
génération.
Séquençage de 2nde génération : séquençage d'un
ensemble de molécules nucléotidiques à l'aide de
techniques de “wash-and-scan” (ou cycles).
“Wash-and-scan” : technique basée sur des
polymérases et réactifs qui doivent être enlevés à
chaque cycle après l'incorporation des bases à lire.
Quelques définitions
●
●
●
●
Séquençage de 3ème génération : processus de
séquençage de molécules uniques ne nécessitant
pas de “wash-and-scan”.
Lecture : fragment nucléotidique individuel dont la
séquence est déterminée par un instrument.
Longueur de lecture : correspond au nombre de
bases individuelles composant une lecture donnée.
Préparation de librairies : procédure expérimentale
précédant le séquençage des fragments d'ADN
d'intérêt. Varie en fonction de la technologie.
Principe du NGS
Principe du NGS
Préparation des libraires
Bridge PCR
Emulsion PCR
Semiconductor
sequencing
(Ion Torrent)
Sequencing by ligation
(SOLiD)
Pyrosequencing
(454)
Reversible terminator
sequencing
(Illumina)
Séquençage Solexa/Illumina
●
●
Preuve de principe de la technologie par le
séquençage d'un génome humain (2008).
Séquençage bidirectionnel de lectures 35 pb et
profondeur de séquençage > 30X en moyenne.
Bridge (ou “cluster”) PCR
●
●
●
L'ADN est fragmenté et lié à des adapteurs.
Les fragments sont liés à une surface tapissée de
séquences adaptatrices et amplifiés par PCR.
Résultat : obtention de groupes d'amplicons à la
surface de la flowcell (appelés clusters).
Principe du séquençage Illumina
Principe du séquençage Illumina
●
●
●
Hybridation d'une amorce de séquençage
universelle.
Extension d'une seule base à chaque cycle
par l'utilisation de nucléotides modifiés
(“reversible terminators”) et marqués par
fluorescence (une couleur par base).
Cycle individuel de séquençage : (1) ajout
d'une base, (2) acquisition d'image, (3) clivage
chimique du groupement “terminator” et du
marquage fluorescent pour le cycle suivant.
Séquenceurs Illumina
Caractéristiques techniques
Lectures
Débit
Lectures/run
Précision
Temps
d'exécution
HiSeq
2000/2500
HiScan SQ
Genome
Analyzer IIx
MiSeq
2x100 pb
2x100 pb
2x150 pb
2x250 pb
600 Gb
140 Gb
96 Gb
7,5 Gb
3 milliards
700 millions
320 millions
15 millions
99,9%
99,9%
99,9%
99,9%
11 jours
8 jours
14 jours
39h
Principe des index
●
Principe : utilisation de séquences
nucléotidiques synthétiques appelées “index”
(ou “barcodes”) pour identifier et combiner
plusieurs échantillons dans une même
expérience de séquençage.
Avantages et limites d'Illumina
●
Avantages
Technologie avec le débit le plus important et
le coût/base le plus faible actuellement.
– Technologie adoptée par la communauté
scientifique (ex : disponibilité de nombreux
outils bio-informatiques en libre accès).
Limites
–
●
–
–
Précision inférieure au Sanger (les erreurs
principales sont des substitutions)
Lectures de petite taille
Avantages du NGS vs Sanger
●
●
●
●
Construction in vitro de librairies à séquencer et
amplification clonale subséquente (vs transformation
de E. coli et sélection de colonies).
Parallelisation bien supérieure par une
miniaturisation du processus de séquençage
permettant des millons de réactions de séquençage
sur une surface donnée.
Diminution des volumes de réactifs de séquençage
grâce à la miniaturisation du processus et la fixation
des fragments sur un support solide.
Conséquence : coût bien inférieur pour un débit bien
supérieur.
Désavantages du NGS vs Sanger
●
●
●
●
Taille des lectures limitée (problématique pour les
régions non uniques dans le génome et l'analyse bioinformatique).
Précision (taux d'erreurs) inférieure au séquençage
Sanger (au minimum 10 fois moindre).
Problématiques liées aux 2 technologies :
–
Régions fortement répétées (ex: triplets
nucléotidiques).
–
Régions riches en nucléotides G et C.
Point à considérer : ce n'est que le début du NGS,
des améliorations sont à prévoir.
Séquençage massif en parallèle
Défis informatiques
Exemple de l'exome
Séquençage de l'exome
●
●
Exome : exons codants du génome (1-2 % des
séquences du génome)
20,000 variations codantes
Principe de la capture de l'exome
Identification de gènes responsables
par séquençage d'exomes
Boycott et al., Nature Reviews Genetics, 2013
Quel que soit le mode de transmission
Boycott et al., Nature Reviews Genetics, 2013
Concept #1
“There is a real disconnect between the
ability to collect next-generation sequence
data (easy) and the ability to analyze it
meaningfully (hard)”
Dave O’Connor
Concept #2
Outils bio-informatiques
●
●
Logiciels d'analyses
–
Traitement des données brutes
–
Identification & annotation des variations
Navigateurs de génomes
–
●
Bases de données
–
●
Visualisation et annotation des données
Bases de données de variations & phénotypiques
Outils de prédiction in silico
–
Prédiction de l'impact des variations
Traitement des données
●
●
●
●
Fichiers Fastq
récupérés
BWA
Samtools
GATK
Livraison & gestion des données
Données
Données brutes
brutes
Fichiers
Fichiers
FASTQ
FASTQ
Analyses
Analyses
Stockage
Stockage
haute
haute performance
performance
Sauvegarde
Sauvegarde
Stockage
Stockage
basse
basse performance
performance
Séquences
Séquences brutes
brutes
Contrôle
Qualité
Alignement
Alignement des
des séquences
séquences
Identification
Identification des
des variations
variations
Annotation
Annotation et
et priorisation
priorisation
Validation
Validation des
des résultats
résultats
Types de fichiers
●
Fichiers textes/binaires
●
Fichiers de référence
●
–
Séquences de référence (ex: fasta)
–
Listes d'intervales chromosomiques (ex: bed)
–
Listes de gènes, transcrits, variants, etc.
Fichiers de données à analyser
–
Séquences brutes (ex: fastq)
–
Séquences alignées (ex: SAM/BAM)
–
Listes de variants (ex: vcf)
Types de fichiers
Séquences
Séquences brutes
brutes
(FASTQ)
(FASTQ)
Séquences
Séquences
alignées
alignées
(SAM/BAM)
(SAM/BAM)
Liste
Liste de
de variants
variants
(VCF)
(VCF)
Notion de scores de qualité
●
●
Généralement représenté à l'aide de l'échelle de Phred
(pratique pour les probabilités faibles)
Score de qualité : Q(A) = -10 log10 (P(~A))
où P(~A) est la probabilité que A est faux
CQ des données brutes
●
Logiciel : FastQC
●
Taille des lectures
●
Taux d'erreurs moyen par cycle
●
Duplicats de PCR
●
●
Détection de fragments
surreprésentés (séquences
adaptatrices)
Biais GC
Alignement des données
FASTQ
FASTQ
SAM
SAM
Contrôle
Contrôle
Qualité
Qualité
Picard
Picard
BAM
BAM
(clean,
(clean, sort,
sort, dedup)
dedup)
GATK
GATK
BAM
BAM
(realign,
(realign, recal)
recal)
Exemple de réalignement
autour d'une délétion
CQ des données alignées
●
Logiciels : Picard & GATK
●
Estimation de la complexité des librairies
●
●
●
Pourcentage de lectures alignées au génome
de référence (hg19)
Pourcentage de duplicatas de PCR
Profondeur de séquençage utile (exons
codants RefSeq)
Samples
Mean depth
of coverage
% bases
≥ 10X
% bases
≥ 20X
% bases
≥ 60X
% bases
≥ 100X
65 exomes
94X
93
90
67
41
Identification des variations
●
●
Logiciels : GATK (SNV & indels) – XHMM
(CVNs)
Régions ciblées : exons codants RefSeq
Variations
Variations brutes
brutes (VCF)
(VCF)
GATK
GATK UnifiedGenotyper
UnifiedGenotyper
Filtre
Filtre des
des variations
variations (VCF)
(VCF)
GATK
GATK VariantFiltration
VariantFiltration
Annotation des variations
Variations
Variations non-annotées
non-annotées (VCF)
(VCF)
GATK
GATK
Variations
Variations annotées
annotées (VCF)
(VCF)
SeattleSeq
SeattleSeqAnnotation
Annotation
Annotation
Annotation Omim
Omim (VCF)
(VCF)
Annotation
Annotation ClinVar
ClinVar (VCF)
(VCF)
Variations “rares”
●
●
●
Filtres de qualité
–
Variants “PASS”
–
Profondeur : 10X
–
Allèle mutant dans ≥ 4 lectures et ≥ 10% des
lectures
NS/SS/I : Variations non-synonymes,
d'épissage, ins/dels affectant la séquence
codante & synonymes à proximité de sites
d'épissage
Variations “rares”
●
●
●
Fréquence dans les bases de données
–
< 1% dans dbSNP
–
< 1% dans EVS (6,500 exomes)
–
< 5% dans les autres exomes locaux
Filtre OMIM : gène associé à une pathologie
génétique dans OMIM
Autres filtres/stratégies possibles en fonction
du design expérimental
Priorisation des variations – Recherche
Boycott et al., Nature Reviews Genetics, 2013
Priorisation – Diagnostic
Variations codantes
non-synonymes / d'épissage
> 10 000
Variations rares (< 1 %)
500
Gènes de pathologie
Humaine (OMIM)
80
Classification &
Validation
0-5
Classification – Diagnostic
Richards et al., Genetics in Medicine 2008
Navigateurs de génome
●
Accès aux données du génome humain à l'aide d'un
interface graphique
●
Accès à de très nombreuses données d'annotation
●
Les 2 principaux :
–
UCSC Genome Browser
–
Ensembl Genome Browser
UCSC Genome Browser
UCSC Genome Browser
Visualisation des variations (IGV)
Bases de données de variants
●
●
SNPs et indels
–
Single Nucleotide Polymorphism Database (dbSNP)
–
Exome Variant Server (EVS)
–
1000 Genomes Project
CNVs
–
Database of Genomic Variants (DGV)
Exome Variant Server
Exome Variant Server
Exome Variant Server
Bases de données de variations
en pathologie humaine
●
●
Généralistes
–
Single Nucleotide Polymorphism Database (dbSNP)
–
Human Gene Mutation Database (HGMD)
–
Online Mendelian Inheritance in Man (OMIM)
–
Database of Chromosomal Imbalance and
Phenotype in Humans Using Ensembl Resource (
DECIPHER)
Spécialisées
–
Locus Specific DataBases (LSDB)
–
Catalogue of somatic mutations in cancer (COSMIC)
COSMIC
Outils de prédiction in silico
●
●
●
Prédiction informatique de l'effet de variations
génétiques
Exemple 1: mutations non-synonymes
–
SIFT
–
Polyphen
Exemple 2: effet sur l'épissage
–
Human Splicing Finder (HSF)
Conclusion
●
Constat : la génétique ne se fait plus sans informatique
(au sens large, incluant la bio-informatique),
particulièrement en recherche, mais également en
mileu hospitalier.
–
Nécessité d'intégrer des outils informatiques variés
dans la pratique professionnelle
–
Nécessité d'intégrer l'informatique dans la formation
des étudiants & professionnels
Se former à la bio-informatique
●
●
●
●
●
Niveau 0 : Se documenter sur le sujet.
Niveau 1 : Utiliser et maîtriser les outils ayant une
interface graphique (bases de données publiques,
navigateurs de génome, Galaxy, outils de prédiction
in silico).
Niveau 2 : Se familiariser avec Linux (ex : Ubuntu)
ou utiliser le terminal du Mac.
Niveau 3 : Apprendre un (des) langage(s) de
programmation (ex : Python, Perl, R).
Niveau 4 : Analyser des données réelles dans ses
études ou sa pratique professionnelle.