Pour le calcul de la matrice de distance
Transcription
Pour le calcul de la matrice de distance
Pour le calcul de la matrice de distance : ATTENTION a ceux qui ont récupéré la matrice issue par PHYBAL: Il s'agit de scores d'alignement non normalisés par rapport a la longueur de l'alignement. ces scores reflètent la similarité entre séquences et non la distance. Pour le calcul des distances, je vous suggère de suivre le transparent a la page 90 dans le cours L3_alignment (que je vous colle ci-dessous). cad pour chaque alignement pairwise, il faut calculer le nombre d'identités et le diviser par la longueur de l'alignement. cela donne une matrice de similarité. en suite on calcule la distance en faisant 1 - similarité. NOTE: si vous voulez utiliser la matrice issue de PHYBAL, alors il faut suivre un approche comme dans "Scoredist: A simple and robust protein sequence distance estimator" (vous le trouve en ligne sur le web) mais cela n'est pas nécessaire pour le projet. Etape 1: Alignement par paires • Aligner chaque séquence contre les autres en donnant une matrice de similarité • Similarité = appariements exactes / longueur des séquences (pourcentage d’ identité) v1 v2 v3 v4 v1 v2 v3 v4 .17 .87 .28 .59 .33 .62 - (.17 means 17 % identical) distance = 1 - similarité