BIN1001 – Intégration biosciences/informatique Laboratoire
Transcription
BIN1001 – Intégration biosciences/informatique Laboratoire
BIN1001 – Intégration biosciences/informatique Laboratoire EMBOSS. Hiver 2005 Ouvrir le site Web d’emboss http ://emboss.sourceforge.net/. Consulter la liste de programmes se trouvant dans la suite Emboss. I. ENVIRONNEMENT a. Se connecter à esibac. b. Copier le fichier sequence-d1.txt contenant la séquence S dans votre répertoire de travail. S est la squence utilisée au devoir 1 : cp ~dbin1001/public_html/h05/devoirs/sequence-d1.txt . c. Taper en ligne de commande : source /usr/local/emboss/.cshrc_emboss d. Vérifiez que vous avez accès maintenant aux programmes de la suite EMBOSS : Que fait le programme wossname ? (Consultez la documentation en ligne) taper wossname (ou ’wossname | more’ si nécessaire) en ligne de commande. II. RECHERCHE D’ORFs plotorf 1. Lire la description de plotorf. Comment un ORF est-il définit dans cette description ? 2. Pour utiliser plotorf, taper en ligne de commande plotorf. Entrez le nom du fichier de la séquence S. Identifier les différents cadres de lecture. Pouvez-vous dire quelle est la position de chaque ORF trouvé ? La longueur de tels ORFs ? 1 getorf 1. Lire la description de getorf. Comment un ORF est-il définit ici ? À quoi correspondent les paramètres -table, -minsize et -find ? 2. Pour utiliser getorf, taper en ligne de commande getorf suivie des options que vous aurez choisies (taper ’getorf -minsize 300’ par exemple pour rechercher les ORFs d’au moins 300 nucléotides). Combien d’ORFs (tels que définis en cours) getorf trouve-t-il dans la séquence S ? Combien de ces ORFs ont plus de 100 nucléotides ? Pouvez-vous dire dans quel cadre de lecture chaque ORF a-t-il été trouvé ? Conserver le fichier résultat (outfile.orf) de getorf pour la suite. sixpack 1. Lire la description de sixpack. Comment un ORF est-il définit ici ? 2. A quoi correspondent les paramètres -mstart, -nofirstorf et -nolastorf ? Pouvez-vous obtenir les séquences nucléiques (non traduites) des ORFs en utilisant sixpack ? Le paramètre -orfminsize a-t-il la même signification que le paramètre -minsize de getorf ? Quels sont les ORFs de S d’au plus moins 100 nucléotides que vous trouvez avec sixpack ? Conserver le fichier résultat (outfile.fasta) de sixpack pour la suite. Comparez vos résultats 1. Comparez les résultats que vous avez obtenus avec plotorf getorf avec ceux obtenus avec sixpack. Pour mieux visualiser les différences entre les deux fichiers sauvegardés précédemment, utilisez xdiff (faire si nécessaire man xdiff). Les programmes getorf et sixpack retournent-ils les mêmes ORFs ? Si ce n’est pas le cas, comment expliquez-vous les différences ? 2. Ouvrir le site Web de NCBI à l’adresse http ://www.ncbi.nlm.nih.gov/. Sélectionnez ’ORF finder’ (dans la section droite de la page). Rentrez la séquence S. Obtenezvous les mêmes ORFs qu’avec getorf, sixpack ? Si ce n’est pas le cas, pourquoi ? 3. Dans quelles situations utiliseriez-vous chacun des outils vus précédemment pour rechercher des ORFs ? Pourquoi ? 2 4. La séquence S est extraite du génome d’un organisme réel. De quel organisme s’agit-il ? (Pour cette question, pensez à utilisez Blast sur le site Web de NCBI). Si vous aviez connaissance à priori de l’organisme auquel la séquence appartient, qu’auriez vous fait différemment dans votre recherche d’ORFs/gènes ? Pour la suite de ce TP, soit O la séquence en acide nucléiques de l’ORF le plus long que vous avez trouvé dans les questions précédentes et soit P la séquence que vous obtenez après traduction de O en utilisant le code génétique standard (utiliser si nécessaire le programme transeq de la suite Emboss pour faire cette traduction). Et enfin, soit Q la séquence d’acide aminés obtenue par traduction de S en utilisant le code génétique standard (universel). III. DOTPLOTS Rechercher les deux séquences de protéines P78325 et P34179 sur le site Web de NCBI. dottup 1. Lire la description de dottup. Que voyez-vous lorsque vous faite un dotplot de la séquence S contre elle même ? Expliquez. 2. À quoi correspond le paramètre ’taille du mot’ ? Comparez les graphes obtenus lorsque vous choisissez respectivement les valeurs 10 et 5 pour ce paramètre. D’oú proviennent les différences ? Expliquez. 3. dottup accepte en entrée des séquences d’acides nucléiques ou de protéines. Il procède en recherchant les segments ”identiques” dans les deux séquences qui lui sont passées. Tracer le dotplot de P78325 et P34179. Que remarquez-vous ? Quelles limitations voyez-vous à l’utilisation de cette approche dans la détection de similarités ? 4. Que se passe-t-il lorsque vous essayez de tracer le dotplot de P versus O ? Expliquez. Dotlet1 1. Ouvrir le site web de Dotlet à http ://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html. Lire les deux sections ”need help ?” et ”learn by example ?” 2. Pour dessiner un dotplot de 2 séquences avec Dotlet, vous devez utiliser le menu de Dotlet pour rentrer (une après l’autre) les 2 séquences. Le menu de Dotlet vous 1 Dotlet ne fait pas partie de la suite Emboss 3 propose aussi de modifier trois paramètres (en haut à droite). À quoi correspond chacun de ces trois paramètres ? 3. Utiliser Dotlet pour tracer le dotplot des deux séquences P78325 et P34179. Pouvez-vous voir des régions de similarité entre ces deux séquences ? Que se passet-il lorsque vous modifiez la matrice de similarité utilisée ? Expliquer. 4. Que se passe-t-il lorsque vous essayez de tracer avec Dotlet le dotplot de P versus O ? Expliquez. IV. ALIGNEMENTS LOCAUX ET GLOBAUX msbar 1. Lire la description de msbar. Introduisez en utilisant msbar un nombre (que vous aurez choisi au hasard entre 20 et 50) de substitutions et/ou insertions/délétions dans la séquence P. Conservez la nouvelle séquence P’ obtenue pour réaliser les alignements qui suivent. needle & water 1. Lire les descriptions de needle et de water. Quelle est la principale différence entre ces deux outils ? Expliquez. 2. Quels scores d’alignements optimaux obtenez-vous lorsque vous effectuez les alignements de P avec Q et de P’ avec Q en utilisant water ? 3. Donnez un alignement optimal entre P et P’ en utilisant needle ? Quel est son score ? Que serait ce score si l’on introduisait plus de mutations dans P’ ? Expliquez. Pour les alignements réalisés dans cette question section, utilisez toujours les paramètres (pénalités d’ouverture de gap, pénalités d’extension de gap ...) qui sont donnés par défaut par le programme que vous utilisez. V. REMISE Dans votre compte rendu de ce laboratoire, joindre à vos réponses aux questions les séquences P, P’ et O. Joindre aussi les fichiers outfile.orf et outfile.fasta. Inclure dans vos réponses les commandes que vous avez exécutées pour répondre aux questions. 4