orf finder ncbi

Transcription

orf finder ncbi
Biologie moléculaire-2017
1
A BIOINFORMATIQUE FONCTIONNELLE
PRÉDIRE LA FONCTION D’UNE PROTÉINE INCONNUE
Supposons que vous avez trouvé la séquence d'acides aminés d'une protéine inconnue et que vous
souhaitez trouver sa fonction potentielle. Une approche serait de déterminer s'il y a des protéines
similaires avec un niveau élevé de similarité et de déterminer quels domaines potentiels conservés ces
celles-ci partagent. Pour ce faire, nous allons utiliser une nouvelle fonction Blast; Blastp.
1. Obtenir la séquence de la protéine de fonction inconnue de Mus musculus à partir du site Web de
ce cours sous la rubrique séquences.
2. Allez sur le site NCBI et cliquez sur Blast. Cliquez sur « protein BLAST » (blastp). Copier la
séquence protéique de la souris et la coller dans la boîte de «Recherche».
Indiquer l’organisme ici
3. Dans le menu déroulant « Database », sélectionnez « reference protein (refseq_protein) ». Pour
cet exercice, nous allons demander si des protéines similaires peuvent être trouvées chez les
humains. Pour ce faire, taper et choisir Homo sapiens dans la boîte « Organism ».
4. Choisir d’afficher les résultats dans une nouvelle fenêtre, puis cliquer sur le bouton BLAST.
5. Une nouvelle fenêtre, semblable à celle indiquée ci-dessous, sera affichée avec une
représentation schématique de couleur de la séquence de la protéine de la souris montrant les
emplacements de tous les domaines fonctionnels / structurels qui sont présents dans la protéine.
Biologie moléculaire-2017
2
6. Cliquez sur « domain (s) » pour savoir ce qu'ils sont. Vous serez amené à une nouvelle page,
comme illustrée ci-dessous.
7. Pour en savoir plus sur la fonction des domaines, cliquez sur les symboles [+] sur la gauche. Cela
devrait vous donner quelques indices sur l'identité de la protéine de la souris.
8. Si vous allez plus bas sur la page à travers des résultats de BLAST, dans la fenêtre originale
montrant le diagramme des domaines de la protéine de souris, vous verrez plusieurs alignements
de séquences un après l'autre. Chaque alignement est une comparaison de séquence entre la
protéine de souris et une protéine humaine. Le premier alignement compare la protéine de souris
à une protéine humaine qui possède la meilleure correspondance; le second alignement compare
la protéine de souris et une protéine humaine qui est la deuxième meilleure correspondance;
etc…
9. Pour déduire la fonction d'une protéine dont on sait peu, on peut comparer la séquence de la
"protéine inconnue" à d'autres protéines de fonction connue. Si la protéine inconnue est très
similaire en séquence à une protéine de fonction connue, alors il y a une bonne chance que la
protéine inconnue a la même fonction que la protéine connue.
10. Pour votre devoir, répétez cet exercice avec la protéine de fonction inconnue de Danio rerio
(poisson zèbre) et la comparer aux protéines d’Homo sapiens (homme), Mus musculus (souris),
et Saccharomyces cerevisiae (levure).
11. Choisir et sauvegarder les meilleures correspondances de protéines dans chaque cas.
12. Alignez les trois protéines retrouvées à la protéine inconnue initiale. Obtenir le pourcentage
d'identité au niveau de la protéine afin de déterminer laquelle partage le plus haut degré
d'identité.
Biologie moléculaire-2017
3
TROUVER DES CADRES DE LECTURES OUVERTS (ORF)
Le séquençage est devenu chose tellement courante, que dans les dernières années nous avons obtenu
les séquences complètes de nombreux génomes procaryotes et eucaryotes. Ces séquences sont de peu
d’utilités à moins de pouvoir en dériver leurs fonctions; domaine de la génomique fonctionnelle.
Entre autres, la génomique fonctionnelle implique la recherche et l’identification des séquences
codantes – les gènes. Une des méthodes de bio-informatiques utilisées à cette fin est la recherche de
cadres de lectures ouverts (ORF). Ceux-ci typiquement commencent par un codon d’initiation de la
traduction (AUG) et se termine par un codon de terminaison de la traduction (UAA, UAG ou UGA).
Les gènes qui possèdent des ORF codent nécessairement pour des protéines. Mais, il est à retenir que
pas tous les gènes codent pour des protéines et donc pas tous les gènes possèdent des ORFs.
Contrairement à plusieurs génomes, les génomes viraux sont relativement petits et simples, ce qui fait
qu'ils sont plutôt faciles à séquencer. Le séquençage de ces derniers permet leurs identifications
rapides, l'étude de leurs évolutions et l'identification de nouveau virus. Étant donné leurs simplicités,
cela devrait donc être tâche facile de retrouver les gènes dans ces séquences. Dans l’exercice suivant,
vous ferez la recherche d’ORF potentiel dans des séquences provenant de deux segments d'ARN d'un
génome viral.
1. Allez au site NCBI et cliquez sur le lien « Open Reading Frame Finder (ORF Finder) » qui se
retrouve dans le menu "Resource List (A-Z)".
Biologie moléculaire-2017
4
2. Copier-coller dans la boîte de recherche la séquence Viral1 du fichier texte "séquence génome
viral", disponible sur la page web de ce cours.
3. Cliquer sur « Submit » pour soumettre votre requête. Une nouvelle page comme celle montrée
ci-dessous sera affichée.
Cette page présente tous les cadres de lectures ouverts dans les six cadres de lectures possibles. Les
positions et les longueurs, en bases, de chacun des ORF sont présentées de façon graphique et
textuelle. Les symboles [+] et [-] sous l’entête « Strand » indiqué si l’ORF identifiés est sur la
séquence entrée de la requête ou l’inverse du complément respectivement. « Start » et « Stop »
indique la position en paire de base du début et de la fin du cadre de lecture ouvert respectivement.
« Length (bp|aa) » indique la longueur en paires de base et en acides aminés de l’ORF identifié.
4. Pour afficher la séquence d’acides aminés d’un ORF donné, cliquer sur l’ORF d’intérêt dans le
panneau de droite. La séquence d’acides aminés de l’ORF sera affichée dans le panneau de
gauche. Vous pouvez sélectionner la séquence affichée et la copier pour des utilisations
ultérieurs.
Biologie moléculaire-2017
5
5. Pour obtenir la séquence nucléotidique de l’ORF choisi, cliquer sur « Tools » et choisir l’option
« Sequence text view».
La séquence sera présentée dans une nouvelle fenêtre avec l’ORF choisi indiqué entre des
parenthèses carrées.
Biologie moléculaire-2017
6
7. À partir de cette fenêtre, vous pouvez selectionner et copier la séquence. Notez, si la séquence se
retrouve sur le brin (-), il est suggéré qu’initallement vous choissisiez l’option « Flip strands ».
8. Afin de déterminer la fonction possible de cette protéine et donc ce gène, nous ferons une
recherche Blastp telle que vous l’avez fait dans l’exercice précédent. Cette fois-ci, ne pas
spécifier pas un organisme spécifique.
7. Obtenir le fichier pour le gène avec la meilleure correspondance et obtenir de ce fichier les
informations suivantes:




8.
La définition
L'organisme duquel ce gène provient
The nom du produit protéique
Le nom du gène
Répéter les étapes 1-8 avec la deuxième séquence virale «viral2».
UTILISER BLASTX
Une autre façon d'accomplir la même tâche que celle que vous avez faite dans l'exercice précédent est
d'utiliser la fonction BLASTX des options NCBI BLAST. BLASTX recherchera une requête
nucléotidique traduite contre une base de données de protéines pour vous donner des informations
très similaires.
1. Allez sur le site NCBI et cliquez sur BLASTX (translated nucleotide ►protein). Copier-coller la
séquence "viral1" dans la boîte de «Recherche».
2. Dans le menu déroulant « Database », sélectionnez « reference proteins (refseq_protein ) ». Ne
pas choisir un organisme spécifique.
3. Choisir d’afficher les résultats dans une nouvelle fenêtre, puis cliquer sur le bouton BLAST.
Biologie moléculaire-2017
7
4. Comme précédemment une nouvelle fenêtre sera affichée avec une représentation schématique de
couleur de la séquence de la protéine montrant les emplacements des domaines fonctionnels /
structurels qui sont présents dans la protéine.
5. Plus bas sur la page sont les alignements, tels que celui illustré ci-dessous :
Biologie moléculaire-2017
8
Interprétation de l'alignement:




« Length »: indique la longueur en acides aminés de la protéine trouvée.
« Identities »: indique le nombre d'acides aminés qui sont identiques entre les deux protéines
et le pourcentage global d'identité.
Positives: indique la somme du nombre d'acides aminés identiques et des changements
conservés entre les deux protéines et le pourcentage global de similarité.
« Frame »: indique le cadre de lecture qui a été utilisé pour obtenir le meilleur alignement des
protéines.
RETROUVER DES SNPS :
Les polymorphismes de nucléotides uniques (SNP) représentent des substitutions d’un seul
nucléotide qui surviennent dans une séquence par des mutations. Ceux-ci peuvent avoir un effet
drastique sur la fonction d’un gène et ont souvent été associés à différentes maladies. Les virus sont
parmi les organismes qui évoluent le plus rapidement. Par exemple le taux de mutation chez
l'influenza et si élevé que de nouveaux vaccins doivent être préparés chaque année. La séquence
« viral3», dans le document «séquence génome viral» représente le même gène que la séquence
viral1, mais qui a été isolé une différente année. Utilisez les connaissances en bio-informatiques que
vous avez acquises pour obtenir les informations suivantes au sujet de la séquence viral3.




Faire un alignement nucléotidique afin de déterminer quels SNP ont été acquis dans la
séquence viral.
Est-ce que ces SNP change le cadre de lecture?
Si ces SNP ne change pas le cadre de lecture, est-ce qu’ils changent quels acides aminés sont
codés?
Si des changements d’acides aminés sont survenus, ceux-ci sont-ils des changements
conservés, semi-conservés ou non conservés?

Documents pareils