ion dynamique suivante : nt les valeurs des param`etres
Transcription
ion dynamique suivante : nt les valeurs des param`etres
Exercices autour de l’alignement 2 à 2 M2 2015-2016, Algorithmes pour la bio-informatique Raluca Uricaru, Université de Bordeaux Feuille de TD 3 - Alignement de séquences Exercice 1: Pour commencer Exercice 1. L’algorithme d’alignement global des deux séquences TTGTCAAGT et ATTGCAGTAGC donne la table de proL’algorithme d’alignement grammation dynamique suivante : global des deux séquences TTGTCAAGT et ATTGCAGTAGC donne la matrice de programmation dynamique suivante : A T T G C A G T A G C 0 −3 −6 −9 −12 −15 −18 −21 −24 −27 −30 −33 T −3 −1 −1 −4 −7 −10 −13 −16 −19 −22 −25 −28 T −6 −4 1 1 −2 −5 −8 −11 −14 −17 −20 −23 G −9 −7 −2 0 3 0 −3 −6 −9 −12 −15 −18 T −12 −10 −5 0 0 2 −1 −4 −4 −7 −10 −13 C −15 −13 −8 −3 −1 2 1 −2 −5 −5 −8 −8 A −18 −13 −11 −6 −4 −1 4 1 −2 −3 −6 −9 A −21 −16 −14 −9 −7 −4 1 3 0 0 −3 −6 G −24 −19 −17 −12 −7 −7 −2 3 2 −1 2 −1 T −27 −22 −17 −15 −10 −8 −5 0 5 2 −1 1 Quelles sont les valeurs qui ont été utilisées pour une identité, une substitution, une insertion et une délétionles ? Construire alignement globalpour optimal. Quelles sont valeurs un des paramètres une identité, une substitution, une insertion et une délétion qui ont été utilisées ? Construire un alignement optimal. Exercice 2. Maintenant c’est à vous de calculer la matrice de programmation dynamique pour 2 séquences : LIEIALIN Exerciceet RNILV, 2 : Alignements co-optimaux avec comme paramètres – gap : -6 – matrice de substitution BLOSUM62 (http://www.ncbi.nlm.nih.gov/Class/FieldGuide/ On considère leBLOSUM62.txt). problème de l’alignement global entresur deux séquences, avec l’algorithme de sur Needleman Cherchez des renseignements les matrices de substitution, et en particulier et Wunsh. Desla alignements sont co-optimaux s’ils ont le même score de similarité et que ce score est matrice BLOSUM62. maximal. Une fois la matrice remplie, faites le "backtracking" afin de déterminer un alignement global optimal. Exercice 3. Cet exercice est inspiré des documents de Anne-Muriel Arigon ainsi que du tutoriel http://web.mit. edu/7.02/resources/Blast-tutorial/useblast.shtml. Question 1. Pour le jeu de scores -2 pour une insertion ou une délétion, -1 pour une substitution et Vous allez utiliser Blast (http://blast.be-md.ncbi.nlm.nih.gov/Blast.cgi) pour com+1 pour une identité, construisez un exemple de deux séquences, acceptant au moins deux alignements parer la séquence Ara-LacZ (www.labri.fr/~ruricaru/downloads/lacz.fa) avec les séquences optimaux nucléotidiques distincts. de la base de données. 1. Cliquez sur ’nucleotide blast’ dans la section ’Basic BLAST’. Vous pouvez explorez les différentes possibilités offertes par BLAST en cliquant sur les icônes points d’interrogation, par exemple à côté du Question 2. menu Ecrire un algorithme partir de laan matrice de programmation dynamique de pal’algorithme déroulant ’Database’,qui ou ààcôté de ’Enter Entrez query to limit search’. Ouvrez les listes des de Needleman et Wunsh détermine le nombre d’alignements co-optimaux. ramètres en cliquant sur ’Algorithm parameters’, et explorer toujours à l’aide des points d’interrogation les différentes options. Exercice 2. Lancer une recherche BLAST (avec blastn) pour la séquence Ara-LacZ, avec comme base de données et en vérifiant que la case ’Low complexity regions’ est cochée. Attendre le résultat de la recherche, 3 :nr/nt Alignement semi-global ça peut prendre quelques dizaines de secondes. Vous accéderez automatiquement à la page des résultats. 3. Vous voyez maintenant le résultat de la recherche BLAST. La page résultat est divisée en 3 parties : L’alignement semi-global entre deux séquences U et résultats V est le meilleur alignement – Une vue graphique générale des séquences avec différentes couleurs ; global entre un préfixe de liste des et leur E-value U et un suffixe –deensuite V , oulaentre unséquences suffixe avec de Uleur etscore un préfixe de V .; Autrement dit, l’alignement semi-global – enfin, une vue plus détaillée, fournissant pour chaque résultat, l’alignement avec notre séconstruit un alignement global où les gaps de début et de finséquence ne sont pas pénalisés. quence requête. 4. Revenez à la partie graphique. Notre séquence est représentée par la ligne épaisse rouge, graduée de 1 à 180 (notre séquence fait exactement 184 nucléotides de long). Le score de chacun des alignements est indiqué par une des 5 couleurs différentes. Plus le score est grand, plus la qualité est bonne et plus le pourcentage d’identité est élevé. Plusieurs segment de similarité trouvés dans une même séquence sont reliés par une ligne discontinue. Utilisez votre curseur de souris pour vous placer sur une barre d’alignement colorée, vous verrez apparaître le nom de la séquence ainsi que le score d’alignement et la E-value dans la zone de texte située au-dessus du graphique. 5. Regardez les différentes séquences résultats obtenues et trouvez dans le liste le gène AraC de E. coli. Rendez-vous à son alignement avec notre séquences requête. Le segment aligné de notre séquence requête commence à la position 90 et finit à la position 184. 6. Copier la séquence protéique du gène AraC, retourner sur la page d’accueil de BLAST et choisissez cette fois ’protein blast’. Lancez la recherche avec comme base de donnée Swissprot et la case ’Low complexity regions’ cochée. 7. Recommencez cette recherche BLAST mais avec la base de données PDB cette fois. La PDB contient seulement les séquences dont la structure est connue. Est-ce que la structure d’AraC est connue ? Si oui, visualisez la.