BIN1001 – Intégration biosciences/informatique Laboratoire

Transcription

BIN1001 – Intégration biosciences/informatique Laboratoire
BIN1001 – Intégration biosciences/informatique
Laboratoire EMBOSS. Hiver 2005
Ouvrir le site Web d’emboss http ://emboss.sourceforge.net/. Consulter la liste de programmes se trouvant dans la suite Emboss.
I. ENVIRONNEMENT
a. Se connecter à esibac.
b. Copier le fichier sequence-d1.txt contenant la séquence S dans votre répertoire de
travail. S est la squence utilisée au devoir 1 :
cp ~dbin1001/public_html/h05/devoirs/sequence-d1.txt .
c. Taper en ligne de commande :
source /usr/local/emboss/.cshrc_emboss
d. Vérifiez que vous avez accès maintenant aux programmes de la suite EMBOSS :
Que fait le programme wossname ? (Consultez la documentation en ligne) taper
wossname (ou ’wossname | more’ si nécessaire) en ligne de commande.
II. RECHERCHE D’ORFs
plotorf
1. Lire la description de plotorf. Comment un ORF est-il définit dans cette description ?
2. Pour utiliser plotorf, taper en ligne de commande plotorf. Entrez le nom du
fichier de la séquence S. Identifier les différents cadres de lecture. Pouvez-vous
dire quelle est la position de chaque ORF trouvé ? La longueur de tels ORFs ?
1
getorf
1. Lire la description de getorf. Comment un ORF est-il définit ici ? À quoi correspondent les paramètres -table, -minsize et -find ?
2. Pour utiliser getorf, taper en ligne de commande getorf suivie des options que
vous aurez choisies (taper ’getorf -minsize 300’ par exemple pour rechercher
les ORFs d’au moins 300 nucléotides). Combien d’ORFs (tels que définis en cours)
getorf trouve-t-il dans la séquence S ? Combien de ces ORFs ont plus de 100
nucléotides ? Pouvez-vous dire dans quel cadre de lecture chaque ORF a-t-il été
trouvé ?
Conserver le fichier résultat (outfile.orf) de getorf pour la suite.
sixpack
1. Lire la description de sixpack. Comment un ORF est-il définit ici ?
2. A quoi correspondent les paramètres -mstart, -nofirstorf et -nolastorf ?
Pouvez-vous obtenir les séquences nucléiques (non traduites) des ORFs en utilisant sixpack ? Le paramètre -orfminsize a-t-il la même signification que le
paramètre -minsize de getorf ? Quels sont les ORFs de S d’au plus moins 100
nucléotides que vous trouvez avec sixpack ?
Conserver le fichier résultat (outfile.fasta) de sixpack pour la suite.
Comparez vos résultats
1. Comparez les résultats que vous avez obtenus avec plotorf getorf avec ceux obtenus avec sixpack. Pour mieux visualiser les différences entre les deux fichiers
sauvegardés précédemment, utilisez xdiff (faire si nécessaire man xdiff). Les
programmes getorf et sixpack retournent-ils les mêmes ORFs ? Si ce n’est pas le
cas, comment expliquez-vous les différences ?
2. Ouvrir le site Web de NCBI à l’adresse http ://www.ncbi.nlm.nih.gov/. Sélectionnez
’ORF finder’ (dans la section droite de la page). Rentrez la séquence S. Obtenezvous les mêmes ORFs qu’avec getorf, sixpack ? Si ce n’est pas le cas, pourquoi ?
3. Dans quelles situations utiliseriez-vous chacun des outils vus précédemment pour
rechercher des ORFs ? Pourquoi ?
2
4. La séquence S est extraite du génome d’un organisme réel. De quel organisme
s’agit-il ? (Pour cette question, pensez à utilisez Blast sur le site Web de NCBI).
Si vous aviez connaissance à priori de l’organisme auquel la séquence appartient,
qu’auriez vous fait différemment dans votre recherche d’ORFs/gènes ?
Pour la suite de ce TP, soit O la séquence en acide nucléiques de l’ORF le plus long que
vous avez trouvé dans les questions précédentes et soit P la séquence que vous obtenez
après traduction de O en utilisant le code génétique standard (utiliser si nécessaire le
programme transeq de la suite Emboss pour faire cette traduction). Et enfin, soit Q
la séquence d’acide aminés obtenue par traduction de S en utilisant le code génétique
standard (universel).
III. DOTPLOTS
Rechercher les deux séquences de protéines P78325 et P34179 sur le site Web de NCBI.
dottup
1. Lire la description de dottup. Que voyez-vous lorsque vous faite un dotplot de la
séquence S contre elle même ? Expliquez.
2. À quoi correspond le paramètre ’taille du mot’ ? Comparez les graphes obtenus
lorsque vous choisissez respectivement les valeurs 10 et 5 pour ce paramètre. D’oú
proviennent les différences ? Expliquez.
3. dottup accepte en entrée des séquences d’acides nucléiques ou de protéines. Il
procède en recherchant les segments ”identiques” dans les deux séquences qui
lui sont passées. Tracer le dotplot de P78325 et P34179. Que remarquez-vous ?
Quelles limitations voyez-vous à l’utilisation de cette approche dans la détection
de similarités ?
4. Que se passe-t-il lorsque vous essayez de tracer le dotplot de P versus O ? Expliquez.
Dotlet1
1. Ouvrir le site web de Dotlet à http ://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html.
Lire les deux sections ”need help ?” et ”learn by example ?”
2. Pour dessiner un dotplot de 2 séquences avec Dotlet, vous devez utiliser le menu
de Dotlet pour rentrer (une après l’autre) les 2 séquences. Le menu de Dotlet vous
1
Dotlet ne fait pas partie de la suite Emboss
3
propose aussi de modifier trois paramètres (en haut à droite). À quoi correspond
chacun de ces trois paramètres ?
3. Utiliser Dotlet pour tracer le dotplot des deux séquences P78325 et P34179.
Pouvez-vous voir des régions de similarité entre ces deux séquences ? Que se passet-il lorsque vous modifiez la matrice de similarité utilisée ? Expliquer.
4. Que se passe-t-il lorsque vous essayez de tracer avec Dotlet le dotplot de P versus
O ? Expliquez.
IV. ALIGNEMENTS LOCAUX ET GLOBAUX
msbar
1. Lire la description de msbar. Introduisez en utilisant msbar un nombre (que vous
aurez choisi au hasard entre 20 et 50) de substitutions et/ou insertions/délétions
dans la séquence P.
Conservez la nouvelle séquence P’ obtenue pour réaliser les alignements qui suivent.
needle & water
1. Lire les descriptions de needle et de water. Quelle est la principale différence entre
ces deux outils ? Expliquez.
2. Quels scores d’alignements optimaux obtenez-vous lorsque vous effectuez les alignements de P avec Q et de P’ avec Q en utilisant water ?
3. Donnez un alignement optimal entre P et P’ en utilisant needle ? Quel est son
score ? Que serait ce score si l’on introduisait plus de mutations dans P’ ? Expliquez.
Pour les alignements réalisés dans cette question section, utilisez toujours les paramètres
(pénalités d’ouverture de gap, pénalités d’extension de gap ...) qui sont donnés par
défaut par le programme que vous utilisez.
V. REMISE
Dans votre compte rendu de ce laboratoire, joindre à vos réponses aux questions les
séquences P, P’ et O. Joindre aussi les fichiers outfile.orf et outfile.fasta.
Inclure dans vos réponses les commandes que vous avez exécutées pour répondre aux
questions.
4