ion dynamique suivante : nt les valeurs des param`etres

Transcription

ion dynamique suivante : nt les valeurs des param`etres
Exercices autour de l’alignement 2 à 2
M2 2015-2016, Algorithmes pour la bio-informatique
Raluca Uricaru, Université de Bordeaux
Feuille de TD 3 - Alignement de séquences
Exercice 1: Pour commencer
Exercice
1.
L’algorithme
d’alignement
global des deux séquences TTGTCAAGT et ATTGCAGTAGC donne la table de proL’algorithme
d’alignement
grammation dynamique suivante : global des deux séquences TTGTCAAGT et ATTGCAGTAGC donne la matrice de programmation dynamique suivante :
A
T
T
G
C
A
G
T
A
G
C
0
−3
−6
−9
−12
−15
−18
−21
−24
−27
−30
−33
T
−3
−1
−1
−4
−7
−10
−13
−16
−19
−22
−25
−28
T
−6
−4
1
1
−2
−5
−8
−11
−14
−17
−20
−23
G
−9
−7
−2
0
3
0
−3
−6
−9
−12
−15
−18
T
−12
−10
−5
0
0
2
−1
−4
−4
−7
−10
−13
C
−15
−13
−8
−3
−1
2
1
−2
−5
−5
−8
−8
A
−18
−13
−11
−6
−4
−1
4
1
−2
−3
−6
−9
A
−21
−16
−14
−9
−7
−4
1
3
0
0
−3
−6
G
−24
−19
−17
−12
−7
−7
−2
3
2
−1
2
−1
T
−27
−22
−17
−15
−10
−8
−5
0
5
2
−1
1
Quelles sont les valeurs qui ont été utilisées pour une identité, une substitution, une insertion et une délétionles
? Construire
alignement
globalpour
optimal.
Quelles sont
valeurs un
des
paramètres
une identité, une substitution, une insertion et une délétion
qui ont été utilisées ? Construire un alignement optimal.
Exercice 2.
Maintenant c’est à vous de calculer la matrice de programmation dynamique pour 2 séquences : LIEIALIN
Exerciceet RNILV,
2 : Alignements
co-optimaux
avec comme paramètres
– gap : -6
– matrice de substitution BLOSUM62 (http://www.ncbi.nlm.nih.gov/Class/FieldGuide/
On considère leBLOSUM62.txt).
problème de l’alignement
global entresur
deux
séquences,
avec l’algorithme
de sur
Needleman
Cherchez des renseignements
les matrices
de substitution,
et en particulier
et Wunsh. Desla alignements
sont co-optimaux s’ils ont le même score de similarité et que ce score est
matrice BLOSUM62.
maximal. Une fois la matrice remplie, faites le "backtracking" afin de déterminer un alignement global optimal.
Exercice 3.
Cet exercice est inspiré des documents de Anne-Muriel Arigon ainsi que du tutoriel http://web.mit.
edu/7.02/resources/Blast-tutorial/useblast.shtml.
Question 1. Pour le jeu de scores -2 pour une insertion ou une délétion, -1 pour une substitution et
Vous allez utiliser Blast (http://blast.be-md.ncbi.nlm.nih.gov/Blast.cgi) pour com+1 pour une
identité, construisez un exemple de deux séquences, acceptant au moins deux alignements
parer la séquence Ara-LacZ (www.labri.fr/~ruricaru/downloads/lacz.fa) avec les séquences
optimaux nucléotidiques
distincts. de la base de données.
1. Cliquez sur ’nucleotide blast’ dans la section ’Basic BLAST’. Vous pouvez explorez les différentes
possibilités offertes par BLAST en cliquant sur les icônes points d’interrogation, par exemple à côté du
Question 2. menu
Ecrire
un algorithme
partir
de laan
matrice
de programmation
dynamique
de pal’algorithme
déroulant
’Database’,qui
ou ààcôté
de ’Enter
Entrez query
to limit search’. Ouvrez
les listes des
de Needleman et
Wunsh
détermine
le nombre
d’alignements
co-optimaux.
ramètres
en cliquant
sur ’Algorithm
parameters’,
et explorer
toujours à l’aide des points d’interrogation
les différentes options.
Exercice
2. Lancer une recherche BLAST (avec blastn) pour la séquence Ara-LacZ, avec comme base de données
et en vérifiant que la
case ’Low complexity regions’ est cochée. Attendre le résultat de la recherche,
3 :nr/nt
Alignement
semi-global
ça peut prendre quelques dizaines de secondes. Vous accéderez automatiquement à la page des résultats.
3. Vous voyez maintenant le résultat de la recherche BLAST. La page résultat est divisée en 3 parties :
L’alignement semi-global
entre deux
séquences
U et résultats
V est le
meilleur
alignement
– Une vue graphique
générale
des séquences
avec
différentes
couleurs ; global entre un préfixe de
liste des
et leur E-value
U et un suffixe –deensuite
V , oulaentre
unséquences
suffixe avec
de Uleur
etscore
un préfixe
de V .; Autrement dit, l’alignement semi-global
–
enfin,
une
vue
plus
détaillée,
fournissant
pour
chaque
résultat,
l’alignement avec notre séconstruit un alignement global où les gaps de début et de finséquence
ne sont
pas pénalisés.
quence requête.
4. Revenez à la partie graphique. Notre séquence est représentée par la ligne épaisse rouge, graduée de 1
à 180 (notre séquence fait exactement 184 nucléotides de long). Le score de chacun des alignements est
indiqué par une des 5 couleurs différentes. Plus le score est grand, plus la qualité est bonne et plus le
pourcentage d’identité est élevé. Plusieurs segment de similarité trouvés dans une même séquence sont
reliés par une ligne discontinue.
Utilisez votre curseur de souris pour vous placer sur une barre d’alignement colorée, vous verrez apparaître le nom de la séquence ainsi que le score d’alignement et la E-value dans la zone de texte située
au-dessus du graphique.
5. Regardez les différentes séquences résultats obtenues et trouvez dans le liste le gène AraC de E. coli.
Rendez-vous à son alignement avec notre séquences requête. Le segment aligné de notre séquence requête commence à la position 90 et finit à la position 184.
6. Copier la séquence protéique du gène AraC, retourner sur la page d’accueil de BLAST et choisissez
cette fois ’protein blast’. Lancez la recherche avec comme base de donnée Swissprot et la case ’Low
complexity regions’ cochée.
7. Recommencez cette recherche BLAST mais avec la base de données PDB cette fois. La PDB contient
seulement les séquences dont la structure est connue. Est-ce que la structure d’AraC est connue ? Si oui,
visualisez la.