Cours4
Transcription
Cours4
Alignement multiple de séquences LV348 -BI Sophie Pasek [email protected] Alignement multiple Similarité multiple <=> structure, fonction, origine commune ● Identification de domaines/motifs conservés ● Point de départ de nombreuses démarches : phylogénie, description de domaines/motifs sur le plan structural et fonctionnel ● Un alignement multiple : Historique Légende : Date Nombre de séquences traitées Comment comparer plus de 2 séquences entre elles ? Dimensionnalité du problème : N = 2 séquences => matrice 2D N = 3 séquences => cube L'alignement est un chemin obtenu dans l'espace (x,y,z) Méthode exacte (NWS) Pour un alignement de 3 séquences : 7 possibilités de déplacement entre les cellules 3D Pour n séquences : 2n-1 opérations à chaque position Pour un alignement de taille L: compléxité en o(2 nLn) => Le problème est NP-complet Méthode exacte (NWS) Méthodes heuristiques : Idée : Aligner les séquences par paires : => on sait faire ! ● Aligner les paires entre elles : => Comment aligner une paire avec une autre paire ou une séquence avec une paire ? ● => Star approach => Les Profils Star approach Paires Alignement Les Profil : = matrice N*P associée à un alignement de P positions pour des séquences utilisant un alphabet de N lettres Le ratio fij/fi donne la probabilité d'apparition du résidu i à la position j Profil, passage au logg-odds Le ratio fij/fi donne la probabilité d'apparition du résidu i à la position j Passage au logarithme en base 10 (on préfère additionner des logarithmes plutôt que de multiplier des probabilités parfois très faibles) Si la probabilité est nulle, on reporte -10 On obtient une PSSM : Position Scoring Matrix = Matrice Poidsposition Comment aligner une séquence à un profil Approche progressive Choix optimal local à chaque étape => Solution optimale globale (?) 1) Alignement optimal des 2 séquences les plus proches 2) Fusion des 2 séquences en profil 3) Alignement du profil avec la séquence la plus proche 4) Fusion profil/séquence en un nouveau profil 5) etc. jusqu'à ce que toutes les séquences soient incorporées dans l'alignement Approche progressive : ClustalW L'ordre d'alignement des séquences/profils est « guidé » ● On minimise la distance évolutive entre les séquences (= divergence récente) pour construire un arbre phylogénétique ● L'ordre d'alignement des séquences/profils est déterminé par cet arbre guide ● Approche progressive Feng-Doolittle(1987) Thompson, Higgins & Gibson (1994) => ClustalW 1) Calcul de tous les scores par paire et conversion en distance = 1 – similarité 2) Construction de l'arbre guide (différentes méthodes) 3) Alignement progressif en suivant l'ordre donné par l'arbre Approche progressive : ClustalW 1) Calcul de tous les scores par paire S1 6 alignment par paire S2 S3 S1 - S2 0.3 - S3 0.6 0.1 - S4 0.1 0.8 0.2 2) Construction d'arbres guides S4 - 2) Construction d'arbres guides La topologie de l'arbre doit être le reflet le plus fidèle possible de la matrice des distances Méthode UPGMA (Unweighted Pair Group Method with Arithmetic mean) ● ● Méthode NJ (Neighbor Joining) 2) Construction d'arbres guides Méthode UPGMA (Unweighted Pair Group Method with Arithmetic mean) : 1) Regroupement des 2 séquences présentant la distance minimale 2) Mise à jour de la matrice des distances 3) Itérations jusqu'à obtenir un seul cluster Construction d'arbres guides Méthode UPGMA (Unweighted Pair Group Method with Arithmetic mean) : Approche progressive : ClustalW 6 alignment par paire 3) Alignement progressif en suivant l'ordre donné par l'arbre Score alignement multiple : LCS : une colonne a un score positif ssi les lettres sont identiques (strictes) Entropie de Shannon : Mesure la diversité présente par colonne (inversement proportionnel au score) Somme des Pairs (SP-score) : Somme des scores par paires Quelques outils disponibles ClustalW (1994): Calcul de la matrice de distance entre paires de séquences (prog dynamique ou k-mers communs) Alignement progressif en suivant l'arbre guide obtenu par Neighbor-Joining. Pondération des séquences en fonction de leur similarité Traitement spécifique des pénalités de gap (les pénalités de g. open et de g. extend sont modulées selon différents facteurs Quelques outils disponibles MUSCLE (2004) : Un arbre guide initial peu précis est généré à partir du comptage des k-mers communs (très rapide) Alignement progressif avec cet arbre Un arbre guide plus précis est généré à partir du 1er alignement Second alignement progressif avec nouvel arbre Quelques outils disponibles MUSCLE (2004) : Quelques outils disponibles Dialign : Alignement local sans gap par paires => diagonales dans dotplot. Recherche de diagonales compatibles MAFFT : L'arbre guide est généré en utilisant des transformées de Fourrier. Les séquences sont représentées par des vecteurs de résidus selon leur volume et leur polarité. ClustalΩ : Séquence représentée comme un vecteur de distances. Arbre guide (UPGMA ou NJ) Alignement basé sur des HMMs => peut aligner +100000 séquences ! Peut ajouter des séquences