Quantification de variants génomiques et de variants d`épissage à
Transcription
Quantification de variants génomiques et de variants d`épissage à
Quantification de variants génomiques et de variants d'épissage à partir de données RNAseq L'application des nouvelles techniques de séquençage à l'ensemble des molécules d'ARNm présents dans une cellule via le protocole RNAseq est en train de changer en profondeur le domaine de la transcriptomique. Il est maintenant envisageable d'identifier et quantifier l'expression de tous les variants (variants génomiques, variants de transcription et d'épissage) de tous les gènes présents dans une condition expérimentale donnée. Ce type d'analyse est y compris envisageable sans utiliser de génome de référence, par assemblage de novo, c'est-à-dire qu'elle s'applique à la fois aux espèces modèles et non modèles. Une difficulté majeure est cependant posée par la faible taille des lectures issues de ces nouveaux séquenceurs, typiquement 100nt. Cette faible taille pose problème dès lors que les transcrits à assembler contiennent des répétitions de plus de 100nt. Deux types de répétitions sont à envisager: 1les répétitions génomiques (gènes paralogues, éléments transposables, séquences de faible complexité...) et 2- les répétitions transcriptomiques dues à l'épissage alternatif (certains exons sont partagés par plusieurs variants d'épissage). Les équipes d'acceuil ont déjà proposé plusieurs contributions dans le domaine de l'analyse de données RNAseq. D'une part, le logiciel KisSplice permet d'identifier et quantifier les SNPs, indels et évènements d'épissage à partir de données RNAseq. Dans le cas où un gène ne présente localement que deux variants, KisSplice donne de bons résultats, mais dès lors qu'un exon est impliqué dans au moins 3 variants, la quantification des variants n'est actuellement pas satisfaisante. D'autre part, le locigiel FlipFlop permet de quantifier non pas les évènements, mais les transcrits complets, à partir de données RNAseq pré-alignées sur un génome de référence. FlipFlop donne de bons résultats en présence d'un génome de référence, mais n'est actuellement pas applicable pour les espèces non modèles. Le but du stage serait de proposer une intégration des méthodes développées dans FlipFlop (regression pénalisée, flot dans les graphes) pour améliorer la quantification des variants dans KisSplice. De multiples extensions à ce travail sont envisageables, suivant l'avancée du travail et les intérêts du candidat. Le stage sera encadré par Vincent Lacroix de l'équipe BAOBAB/BAMBOO et Laurent Jacob de l'équipe Statistique en Grande Dimension Pour la Génomique, au laboratoire de Biométrie et Biologie Évolutive. Contacts: [email protected] [email protected] Biblio: Sacomoto G, Kielbassa J, Chikhi R, Uricaru R, Antoniou P, Sagot M-F, Peterlongo P, Lacroix V (2012) KISSPLICE: de-novo calling alternative splicing events from RNA-seq data, BMC Bioinformatics, vol. 13 pp.S5-S5 Elsa Bernard, Laurent Jacob, Julien Mairal, Jean-Philippe Vert Efficient RNA Isoform Identification and Quantification from RNA-Seq Data with Network Flows, to appear in Bioinformatics, hal-00803134