Nouveaux algorithmes d`identification de transcrits chimères dans

Transcription

Nouveaux algorithmes d`identification de transcrits chimères dans
Nouveaux algorithmes d’identification de transcrits chimères dans les données de RNA-Sequencing
pour l’amélioration du diagnostic en cancérologie
N. Philippe1,3, M. Salson2, F. Rufflé1, T. Commes1, E. Rivals3
Contact: [email protected]
1 - Institut de Recherche en Biothérapie au CHU de Montpellier
2 - Laboratoire d’Informatique Fondamentale de Lille
3 - Laboratoire d’Informatique de Robotique et de Microélectronique de Montpellier
Résumé
Un défi de la transcriptomique par séquençage haut débit est d’explorer l’ensemble du répertoire de transcription. L’identification et la caractérisation de nouveaux transcrits, parmi lesquels on trouve les
ARN non-codants et les ARN chimères, représentent un enjeu majeur en cancérologie. Nous proposons de relever ce défi à l’aide d’un logiciel, nommé CRAC, capable d’identifier des ARN chimères potentiels
à partir de courts fragments de RNA-Sequencing ou reads. Comparé aux méthodes de mapping existantes, CRAC a l’avantage d’intégrer l’information contenue dans les reads à son propre algorithme de
mapping avec une double indexation (reads et génome). Ce procédé permet de distinguer les erreurs de séquences des causes biologiques et notamment inférer les jonctions d’épissage ou les chimères. Ainsi,
nous positionnons la précision et la sensibilité de CRAC par rapport aux autres outils d’analyse. Dans une application en cancérologie dans les leucémies myéloïdes, CRAC permet d’identifier des chimères avec
précision. À cette détection, nous couplons une analyse bioinformatique, intégrant la fiabilité des séquences et leurs annotations génomiques permettant une caractérisation et une classification précise des
chimères. Un des objectifs sera de faire de la médecine personnalisée en constituant une chimèrothèque qui pourra répertorier des chimères comme des marqueurs cliniques pour le diagnostic et le pronostic.
Cette chimèrothèque pourra être étendue à un plus grand ensemble de tumeurs.
Chimère par trans-épissage (SLC45A3-ELK4, MSMB-NCOA4)
Chimère par gène de fusion (BCR-ABL)
Algorithme
CRAC traite les reads un par un. Pour chacun, il s’intéresse à toutes ses sous-séquences de taille k qui varient selon la position dans le read, ou k-mers (un nombre de m − k + 1 possibilités de k-mers pour
un read de taille m). Puis, pour chaque k-mer, CRAC enregistre deux « signaux » :
1. la localisation exacte du k-mer sur le génome de référence en fonction du chromosome et du brin, et son nombre d’occurrence(s) (nombre de fois où le k-mer est localisé).
2. le support du k-mer défini comme le nombre de reads différents qui partagent ce même k-mer. La valeur minimum du support est 1 car le k-mer est présent au moins une fois (dans le read en cours).
SNV
or
error
`
CRAC
Read
Read
Substitution
reads analysis
`=L
mapping
according to P−loc
FM−index
Genome
L
no break
break(s)
location
k-mers
no mutation
`
fall
Read
support
unique
`<L
30 reads share the kmer starting here
SN
30
SNV
bio
undetermined
or
insertion
Read
or
deletion
multiple
or
splice
or
Deletion
30
undetermined
or
`
Er
ro
r
seq error
duplicated
Analysis of the support variation
V
ambiguous
or
Genome
L
k
no fall
ambiguous
Insertion
k-mer mappability
Gk arrays
or
no loc
chimera
`>L
1
1
L
There is only one read
with this erroneous k-mer
k-mer that does not exactly map to the genome
Starting position of a k-mer that does not exactly map to the genome
k-mer that exactly maps to the genome
Starting position of a k-mer that exactly maps to the genome
Genome
La stratégie de CRAC est d’analyser en parallèle le support du k-mer et la
localisation exacte du k-mer. Ce procédé permet de catégoriser, dans une
seule étape, aussi bien les erreurs de séquences que les mutations biologiques,
les variants d’épissage ou encore les chimères.
Résultats
Analyse d’une banque de RNA-Seq de cellules de LAM (inversion 16) :
• ∼ 40 millions de reads non-orientés de 100 pb
Évaluation comparative sur les outils de prédiction de jonctions
d’épissage
• Détection de 511 chimères différentes
• Détection de 17 chimères sur des chromosomes différents
Tool
CRAC
GSNAP
MapSplice
TopHat
75bp
Sensitivity Precision
79.43
84.17
79.89
84.96
99.5
97.03
97.68
89.59
200bp
Sensitivity Precision
86.02
72.94
84.72
54.07
99.18
97.09
98.82
94.69
Évaluation comparative sur les outils de prédiction de chimères
Tool
75bp
Sensitivity Precision
CRAC
MapSplice
TopHatFusion
TopHatFusionPost
53.89
2.33
32.73
12.26
93.84
0
42.02
97.22
200bp
Sensitivity Precision
64.86
2.63
90.18
0.01
Conclusions
Points forts:
Travaux futurs:
• Très faible taux de faux positifs
• Reconstruction de transcrits (assemblage)
• Entre 60 et 70 % des causes sont détectées
(les causes non trouvées sont dues à une très faible
couverture)
• Proposition de marqueurs cliniques pour le pronostic et
le diagnostic
• Détection plus précise et plus sensible que GSNAP,
MapSplice et TopHat pour les jonctions d’épissage
• Détection de variants de chimères dans les leucémies
myéloïdes (caryotype normal ou tumoral)
CRAC sera particulièrement adapté pour les données du futur : plus
massives et plus longues
Le logiciel CRAC est disponible sur http://crac.gforge.inria.fr/ ou http://www.atgc-montpellier.fr/crac/

Documents pareils