Quantification de variants génomiques et de variants d`épissage à

Transcription

Quantification de variants génomiques et de variants d`épissage à
Quantification de variants génomiques et de variants d'épissage à partir de données RNAseq
L'application des nouvelles techniques de séquençage à l'ensemble des molécules d'ARNm présents
dans une cellule via le protocole RNAseq est en train de changer en profondeur le domaine de la
transcriptomique. Il est maintenant envisageable d'identifier et quantifier l'expression de tous les
variants (variants génomiques, variants de transcription et d'épissage) de tous les gènes présents dans
une condition expérimentale donnée.
Ce type d'analyse est y compris envisageable sans utiliser de génome de référence, par assemblage de
novo, c'est-à-dire qu'elle s'applique à la fois aux espèces modèles et non modèles.
Une difficulté majeure est cependant posée par la faible taille des lectures issues de ces nouveaux
séquenceurs, typiquement 100nt. Cette faible taille pose problème dès lors que les transcrits à
assembler contiennent des répétitions de plus de 100nt. Deux types de répétitions sont à envisager: 1les répétitions génomiques (gènes paralogues, éléments transposables, séquences de faible
complexité...) et 2- les répétitions transcriptomiques dues à l'épissage alternatif (certains exons sont
partagés par plusieurs variants d'épissage).
Les équipes d'acceuil ont déjà proposé plusieurs contributions dans le domaine de l'analyse de données
RNAseq. D'une part, le logiciel KisSplice permet d'identifier et quantifier les SNPs, indels et
évènements d'épissage à partir de données RNAseq. Dans le cas où un gène ne présente localement que
deux variants, KisSplice donne de bons résultats, mais dès lors qu'un exon est impliqué dans au moins
3 variants, la quantification des variants n'est actuellement pas satisfaisante. D'autre part, le locigiel
FlipFlop permet de quantifier non pas les évènements, mais les transcrits complets, à partir de données
RNAseq pré-alignées sur un génome de référence. FlipFlop donne de bons résultats en présence d'un
génome de référence, mais n'est actuellement pas applicable pour les espèces non modèles.
Le but du stage serait de proposer une intégration des méthodes développées dans FlipFlop (regression
pénalisée, flot dans les graphes) pour améliorer la quantification des variants dans KisSplice.
De multiples extensions à ce travail sont envisageables, suivant l'avancée du travail et les intérêts du
candidat.
Le stage sera encadré par Vincent Lacroix de l'équipe BAOBAB/BAMBOO et Laurent Jacob de
l'équipe Statistique en Grande Dimension Pour la Génomique, au laboratoire de Biométrie et Biologie
Évolutive.
Contacts: [email protected]
[email protected]
Biblio:
Sacomoto G, Kielbassa J, Chikhi R, Uricaru R, Antoniou P, Sagot M-F, Peterlongo P, Lacroix V (2012)
KISSPLICE: de-novo calling alternative splicing events from RNA-seq data, BMC Bioinformatics, vol.
13 pp.S5-S5
Elsa Bernard, Laurent Jacob, Julien Mairal, Jean-Philippe Vert
Efficient RNA Isoform Identification and Quantification from RNA-Seq Data with Network Flows, to
appear in Bioinformatics, hal-00803134

Documents pareils