Pour le calcul de la matrice de distance

Transcription

Pour le calcul de la matrice de distance
Pour le calcul de la matrice de distance :
ATTENTION a ceux qui ont récupéré la matrice issue par PHYBAL:
Il s'agit de scores d'alignement non normalisés par rapport a la longueur de
l'alignement. ces scores reflètent la similarité entre séquences et non la
distance.
Pour le calcul des distances, je vous suggère de suivre le transparent a la
page 90 dans le cours L3_alignment (que je vous colle ci-dessous). cad
pour chaque alignement pairwise, il faut calculer le nombre d'identités et le
diviser par la longueur de l'alignement. cela donne une matrice de similarité.
en suite on calcule la distance en faisant 1 - similarité.
NOTE: si vous voulez utiliser la matrice issue de PHYBAL, alors il faut
suivre un approche comme dans "Scoredist: A simple and robust protein
sequence distance estimator" (vous le trouve en ligne sur le web) mais cela
n'est pas nécessaire pour le projet.
Etape 1: Alignement par paires
• Aligner chaque séquence contre les autres en donnant
une matrice de similarité
• Similarité = appariements exactes / longueur des
séquences (pourcentage d’ identité)
v1
v2
v3
v4
v1
v2 v3 v4
.17 .87 .28 .59 .33 .62 -
(.17 means 17 % identical)
distance = 1 - similarité