Nouveaux algorithmes d`identification de transcrits chimères dans
Transcription
Nouveaux algorithmes d`identification de transcrits chimères dans
Nouveaux algorithmes d’identification de transcrits chimères dans les données de RNA-Sequencing pour l’amélioration du diagnostic en cancérologie N. Philippe1,3, M. Salson2, F. Rufflé1, T. Commes1, E. Rivals3 Contact: [email protected] 1 - Institut de Recherche en Biothérapie au CHU de Montpellier 2 - Laboratoire d’Informatique Fondamentale de Lille 3 - Laboratoire d’Informatique de Robotique et de Microélectronique de Montpellier Résumé Un défi de la transcriptomique par séquençage haut débit est d’explorer l’ensemble du répertoire de transcription. L’identification et la caractérisation de nouveaux transcrits, parmi lesquels on trouve les ARN non-codants et les ARN chimères, représentent un enjeu majeur en cancérologie. Nous proposons de relever ce défi à l’aide d’un logiciel, nommé CRAC, capable d’identifier des ARN chimères potentiels à partir de courts fragments de RNA-Sequencing ou reads. Comparé aux méthodes de mapping existantes, CRAC a l’avantage d’intégrer l’information contenue dans les reads à son propre algorithme de mapping avec une double indexation (reads et génome). Ce procédé permet de distinguer les erreurs de séquences des causes biologiques et notamment inférer les jonctions d’épissage ou les chimères. Ainsi, nous positionnons la précision et la sensibilité de CRAC par rapport aux autres outils d’analyse. Dans une application en cancérologie dans les leucémies myéloïdes, CRAC permet d’identifier des chimères avec précision. À cette détection, nous couplons une analyse bioinformatique, intégrant la fiabilité des séquences et leurs annotations génomiques permettant une caractérisation et une classification précise des chimères. Un des objectifs sera de faire de la médecine personnalisée en constituant une chimèrothèque qui pourra répertorier des chimères comme des marqueurs cliniques pour le diagnostic et le pronostic. Cette chimèrothèque pourra être étendue à un plus grand ensemble de tumeurs. Chimère par trans-épissage (SLC45A3-ELK4, MSMB-NCOA4) Chimère par gène de fusion (BCR-ABL) Algorithme CRAC traite les reads un par un. Pour chacun, il s’intéresse à toutes ses sous-séquences de taille k qui varient selon la position dans le read, ou k-mers (un nombre de m − k + 1 possibilités de k-mers pour un read de taille m). Puis, pour chaque k-mer, CRAC enregistre deux « signaux » : 1. la localisation exacte du k-mer sur le génome de référence en fonction du chromosome et du brin, et son nombre d’occurrence(s) (nombre de fois où le k-mer est localisé). 2. le support du k-mer défini comme le nombre de reads différents qui partagent ce même k-mer. La valeur minimum du support est 1 car le k-mer est présent au moins une fois (dans le read en cours). SNV or error ` CRAC Read Read Substitution reads analysis `=L mapping according to P−loc FM−index Genome L no break break(s) location k-mers no mutation ` fall Read support unique `<L 30 reads share the kmer starting here SN 30 SNV bio undetermined or insertion Read or deletion multiple or splice or Deletion 30 undetermined or ` Er ro r seq error duplicated Analysis of the support variation V ambiguous or Genome L k no fall ambiguous Insertion k-mer mappability Gk arrays or no loc chimera `>L 1 1 L There is only one read with this erroneous k-mer k-mer that does not exactly map to the genome Starting position of a k-mer that does not exactly map to the genome k-mer that exactly maps to the genome Starting position of a k-mer that exactly maps to the genome Genome La stratégie de CRAC est d’analyser en parallèle le support du k-mer et la localisation exacte du k-mer. Ce procédé permet de catégoriser, dans une seule étape, aussi bien les erreurs de séquences que les mutations biologiques, les variants d’épissage ou encore les chimères. Résultats Analyse d’une banque de RNA-Seq de cellules de LAM (inversion 16) : • ∼ 40 millions de reads non-orientés de 100 pb Évaluation comparative sur les outils de prédiction de jonctions d’épissage • Détection de 511 chimères différentes • Détection de 17 chimères sur des chromosomes différents Tool CRAC GSNAP MapSplice TopHat 75bp Sensitivity Precision 79.43 84.17 79.89 84.96 99.5 97.03 97.68 89.59 200bp Sensitivity Precision 86.02 72.94 84.72 54.07 99.18 97.09 98.82 94.69 Évaluation comparative sur les outils de prédiction de chimères Tool 75bp Sensitivity Precision CRAC MapSplice TopHatFusion TopHatFusionPost 53.89 2.33 32.73 12.26 93.84 0 42.02 97.22 200bp Sensitivity Precision 64.86 2.63 90.18 0.01 Conclusions Points forts: Travaux futurs: • Très faible taux de faux positifs • Reconstruction de transcrits (assemblage) • Entre 60 et 70 % des causes sont détectées (les causes non trouvées sont dues à une très faible couverture) • Proposition de marqueurs cliniques pour le pronostic et le diagnostic • Détection plus précise et plus sensible que GSNAP, MapSplice et TopHat pour les jonctions d’épissage • Détection de variants de chimères dans les leucémies myéloïdes (caryotype normal ou tumoral) CRAC sera particulièrement adapté pour les données du futur : plus massives et plus longues Le logiciel CRAC est disponible sur http://crac.gforge.inria.fr/ ou http://www.atgc-montpellier.fr/crac/