USI3_c5_AligMultClustalW [Mode de compatibilité]
Transcription
USI3_c5_AligMultClustalW [Mode de compatibilité]
Le contexte Lorsque l’on compare une séquence contre une banque par BLAST, un grand nombre de séquences similaires peuvent être données en sortie. Cela nous permet de poser des hypothèses sur notre séquence inconnue (Fonction, …): On peut ensuite regarder les alignements 2 à 2 entre les séquences similaires trouvées dans la banque et la séquence query: Alignement multiple 1 2 Le contexte Exemple d’alignement multiple Mais, comment comparer toutes ces séquences et étudier leur relations ? Comparer les séquences en une seule fois : Alignement multiple Un alignement multiple permet d’étudier un groupe de protéines ou de gènes apparentés, afin d’établir des relations d’évolution et mettre en évidence des motifs communs, jouant un rôle dans la fonction ou la structure de ces protéines homologues. Permet rapidement de retrouver les acides aminés strictement conservés dans toutes les séquences homologues, jouant souvent un rôle direct dans la fonction. Un alignement multiple se conçoit à partir de 3 séquences et peut concerner jusqu’à plusieurs centaines de séquences. 3 4 1 Exemple: Définition de l’alignement multiple Un alignement multiple consiste à superposer les résidus d'une séquence avec ceux de plusieurs autres séquences (jusqu'à plusieurs Entrée : k séquences (pas forcement la même longueur) centaines). Comme pour les alignements 2 à 2, cela nécessite souvent d'introduire des indels pour construire un alignement optimal. TYY1_HUMAN TF3B_BUFAM ZN77_HUMAN ZN76_HUMAN P44_XENBO TSH_DROME XFIN_XENLA EVI1_HUMAN TRA1_CAEEL TF3A_BUFAM SRYC_DROME ZG2-9_XENL ZG58_XENLA YKQ8_CAEEL BASO_HUMAN SUHW_DROAN ZN10_HUMAN P43_XENBO IKAR_MOUSE YVCPFDGCNKKFAQSTNLKSHIL--THYRCPRENCDRTYTTKFNLKSHIL--TFH YTCPEPHCGRGFTSATNYKNHVR--IHFRCGYKGCGRLYTTAHHLKVHER--AHYRCSYEDCQTVSPTWTALQTHLK--KHFRCVW--CKQSFPTLEALTTHMKDSKHFRCSE--CSRSFTHNSDLTAHMR--KHYRCKY--CDRSFSISSNLQRHVRN-IHYKCEFADCEKAFSNASDRAKHQNR-THCKCETENCNLAFTTASNMRLHFKR-AHFKCNY--CPRDFTNFPNWLKHTRR-RHFVCTV--CGKTYKYKHGLNTHLHS-H-FVCTE--CNLSFAGLANLRSHQHL-H-YKCTV--CRKDISSSESLRTHMFK-QHH FQCDI--CKKTFKNACSVKIHHKN-MHYACKI--CGKDFTRSYHLKRHQKY-SSC YKCNQ--CGIIFSQNSPFIVHQI--AHLKCSVPGCKRSFRKKRALRIHVS--EHFECNM--CGYHSQDRYEFSSHITRGEH- *************** ********** ************ *********** 25 26 25 25 25 25 23 24 26 26 24 23 23 25 24 25 23 25 25 Sortie: un tableau contenant les k séquences, avec des indels ***********-**** ***--**-**-**-** ***-********--** *****---**-***** 5 Pourquoi réaliser un alignement multiple? Comment choisir les séquences ? Caractériser les régions conservées et les régions variables. Les séquences doivent présenter toute une similitude entre elles. Nous faisons l'hypothèse que les séquences sont apparentées pour pouvoir faire l'alignement multiple. ->Jeu de séquences homologues. Trouver des caractéristiques communes à une famille de protéines. Relier la séquence à la structure et à la fonction. Caractériser les régions nécessaires à la fonction: Protéines: site actif, motif de liaison, … ADN: régions transcrites, site de liaison aux protéines,… ARN: régions avec des contraintes de structures, régions codantes, … Construite ensuite l'arbre homologues considérées. phylogénétique des 6 Si la question biologique le permet, comme par exemple lors de l'étude d'une famille de gènes codants, il faut toujours préférer les séquences protéiques car elles sont mieux conservées que les séquences nucléiques. séquences Préférez des séquences de taille similaire. Différencier entre gènes orthologues et paralogues. 7 8 2 Notion de séquence consensus Alignement 2 à 2 2 séquences quelconques Détecter une similarité syntaxique Il y a-t-il une fonction commune ? A partir de l’alignement multiple, on peut déterminer la séquence consensus: On attribut à chaque position l’acide aminé ou le nucléotide qui est le plus souvent retrouvé (totalement conservé ou partiellement). Alignement multiple Famille de séquences avec la même fonction UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO A quelle conservation syntaxique cela correspondil ? 130 140 150 160 170 180 | | | | | | TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP *:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..*** 9 Notion de séquence consensus Notion de séquence consensus A partir de l’alignement multiple, on peut déterminer la séquence consensus: On attribut à chaque position l’acide aminé ou le nucléotide qui est le plus souvent retrouvé (totalement conservé ou partiellement). UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO Prim.cons. 10 A partir de l’alignement multiple, on peut déterminer la séquence consensus: On attribut à chaque position l’acide aminé ou le nucléotide qui est le plus souvent retrouvé (totalement conservé ou partiellement). 130 140 150 160 170 180 | | | | | | TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP A cette position, on TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP trouve 9 T, 7 V et 1 TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP I, T est donc la VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP lettre consensus VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP (majoritaire) VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP *:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..*** UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO T Prim.cons. 11 130 140 150 160 170 180 | | | | | | TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP A cette position, on TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP trouve 17 P donc P VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP est le consensus VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP (unanimité) VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP *:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..*** TIMGP 12 3 Notion de séquence consensus Notion de séquence consensus A partir de l’alignement multiple, on peut déterminer la séquence consensus: On attribut à chaque position l’acide aminé ou le nucléotide qui est le plus souvent retrouvé (totalement conservé ou partiellement). UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO Prim.cons. A partir de l’alignement multiple, on peut déterminer la séquence consensus: UB2E3_MOUSE UBCD2_DROME UB2D2_HUMAN UB2D3_HUMAN UB2D4_RAT UB2D1_HUMAN UBCD1_DROME UBC1_COLGL UBC1_MAGGR UBC2_ARATH UBC2_MEDSA UBC1_ARATH UBC2_WHEAT UBC1_CAEEL UBE2B_HUMAN UBC2_CANAL UBC2_SCHPO 130 140 150 160 170 180 | | | | | | TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP A cette position, on TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP trouve 4 P, 3 N, 4 VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP D, 2 S, 1 Q, E et A VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP Pas de consensus qui VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP sort VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP *:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..*** TIMGP2 Prim.cons. 130 140 150 160 170 180 | | | | | | TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP A cette position, on TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP trouve 13 S, 2 V et VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP 2 E, donc S est la VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP lettre consensus VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP *:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..*** TIMGP2DSPYEGG2FFLTIHFPEDYPFKPPKVRFTTRIYHPNINSNGSICLDILQNQWSP Mais on ne conserve pas en mémoire le résultat de "l'élection" (courte majorité ou plébiscite) ! 13 Démarche Exemple: Il est tout à fait envisageable d'utiliser des algorithmes optimaux (de type Needleman-Wunsch) pour faire des alignements non plus 2 à 2 mais à n séquences. Regardons les résidus totalement conservés: TYY1_HUMAN TF3B_BUFAM ZN77_HUMAN ZN76_HUMAN P44_XENBO TSH_DROME XFIN_XENLA EVI1_HUMAN TRA1_CAEEL TF3A_BUFAM SRYC_DROME ZG2-9_XENL ZG58_XENLA YKQ8_CAEEL BASO_HUMAN SUHW_DROAN ZN10_HUMAN P43_XENBO IKAR_MOUSE YVCPFDGCNKKFAQSTNLKSHIL--THYRCPRENCDRTYTTKFNLKSHIL--TFH YTCPEPHCGRGFTSATNYKNHVR--IHFRCGYKGCGRLYTTAHHLKVHER--AHYRCSYEDCQTVSPTWTALQTHLK--KHFRCVW--CKQSFPTLEALTTHMKDSKHFRCSE--CSRSFTHNSDLTAHMR--KHYRCKY--CDRSFSISSNLQRHVRN-IHYKCEFADCEKAFSNASDRAKHQNR-THCKCETENCNLAFTTASNMRLHFKR-AHFKCNY--CPRDFTNFPNWLKHTRR-RHFVCTV--CGKTYKYKHGLNTHLHS-H-FVCTE--CNLSFAGLANLRSHQHL-H-YKCTV--CRKDISSSESLRTHMFK-QHH FQCDI--CKKTFKNACSVKIHHKN-MHYACKI--CGKDFTRSYHLKRHQKY-SSC YKCNQ--CGIIFSQNSPFIVHQI--AHLKCSVPGCKRSFRKKRALRIHVS--EHFECNM--CGYHSQDRYEFSSHITRGEH- 14 25 26 25 25 25 25 23 24 26 26 24 23 23 25 24 25 23 25 25 Mais si on veut aligner 10 séquences d'une longueur d'environ 300 lettres, il faudra un espace mémoire de 515 Giga-Octets !!! Seules des méthodes heuristiques sont pour l'instant disponibles pour faire des alignements multiples. On peut établir une carte par position des résidus conservées : WebLogo : http://weblogo.berkeley.edu/logo.cgi 15 16 4 Alignement multiple: Alignement multiple: principe Alignement deux à deux de toutes les paires de séquences Les scores sont stockés dans des matrices de scores L’approche la plus courante consiste à aligner progressivement des paires de séquences. Les différentes approches se distinguent par: La façon de choisir la paire initiale de séquences Tri des séquences Du plus similaire par exemple Alignement des séquences par ordre croissant Les deux plus proches puis la suivante, etc… Stratégie itérative Calcul d'un arbre guide Mise en évidence relations de proximités Pour progresser dans l’alignement, les programmes vont: des Soit aligner chaque séquence les unes après les autres à un alignement unique enrichi à chaque étape. Soit créer des sous-familles de séquences d’abord alignées au sein de ces familles puis entre les familles. Alignement des groupes les plus proches L'arbre sert de support pour choisir les séquences qui seront agrégées. La méthode de pondération des alignements individuels des paires de séquences et des alignements cumulés. Stratégie progressive 17 Alignement basé sur un arbre (progressif) ClustalW EBI ClustalW est l’un des l’alignement progressif. Idée: reconstruire l’alignement multiple à partir d’un arbre guide (clusters) feuilles : séquences noeuds: alignements http://www.ebi.ac.uk/Tools/msa/clustalw2/ programmes les plus utilisés pour Etape 1: Alignements globaux 2 à 2 Partir des feuilles puis remonter dans l’arbre Utilisation de la technique de profil alignement -> produire un seul alignement multiple avec deux. CLUSTer + ALignement 18 Etape 2: Regroupements des alignements (clusters), construction arbre guide Etape 3: Alignement multiple obtenu par combinaisons des alignements 2 à 2 (profils) CLUSTAL Thompson et al. 1994 19 20 5 ClustalW exemple ClustalW étape 1: Calcul des scores Les alignements de toutes les paires de séquences sont réalisés puis le programme génère une matrice de distances décrivant leur taux de similitude. 4 séquences s1 s1 s2 s3 s4 cgatgagtcattgtgactg cgagccattgtagctactg cgaccattgtagctacctg cgatgagtcactgtgactg s2 s1 s3 s1 Jeu de score: Indel= -2 Substitution=-1 Identité= 1 s4 cgatgagtcattgt-g--actg ||| | |||||| | |||| cga-g--ccattgtagctactg s2 cgatgagtcattg-tgactg ||| | | | | | ||| cgacca-ttgtagctacctg s2 cgatgagtcattgtgactg |||||||||| |||||||| cgatgagtcactgtgactg s3 cgagccattgtagcta-ctg ||| |||||||||||| ||| cga-ccattgtagctacctg s3 cga-g--ccattgtagctactg ||| | || ||| | |||| cgatgagtcactgt-g--actg s4 cgaccattgtagctacctg ||| | | | ||| cgatgagtcactgtgactg s4 Tableau des scores d’alignement: s1 s1 s2 s3 S4 2 0 17 14 0 s2 2 s3 0 14 s4 17 0 Pour N séquences: N(N-1)/ 2 calculs -1 -1 21 22 ClustalW étape 2: Construction arbre ClustalW étape 2: Construction arbre A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s1 s1 s2 s3 S4 2 0 17 14 0 s2 2 s3 0 14 s4 17 0 -1 -1 A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s1 s1 s1 s2 s3 s2 s3 2 0 17 14 0 s2 2 s3 0 14 s4 17 0 S4 s1 -1 -1 s2 s3 s4 s4 Regroupement des séquences suivant leur similitude à partir de la matrice des scores 2 à 2. 23 24 6 ClustalW étape 2: Construction arbre ClustalW étape 2: Construction arbre A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s1 s1 A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s2 s3 S4 2 0 17 s1 14 0 s2 2 s3 0 14 s4 17 0 s2 2 s3 0 14 s4 17 0 s1 s1 -1 s2 -1 s2 s3 S4 2 0 17 14 0 -1 s1 s2 -1 s4 s3 s3 s4 25 26 ClustalW étape 2: Construction arbre ClustalW étape 2: Construction arbre A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s1 s1 A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s2 s3 S4 2 0 17 s1 14 0 s2 2 -1 s3 0 14 s4 17 0 s2 2 s3 0 14 s4 17 0 s1 -1 s4 s1 s1 s4 ? s3 s2 s2 s3 2 0 S4 17 14 0 -1 -1 Alignement s1s2 est plus proche que s1s3 Alignement s4s2 est plus proche que s4s3 s2 s3 Matrice de score -> matrice de distance 27 28 7 ClustalW étape 2: Construction arbre Etape 3: Construction alignement final A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est ensuite construit par un algorithme dit de neighbor-joining: s1 s1 s2 s3 S4 2 0 17 14 0 s2 2 s3 0 14 s4 17 0 ClustalW aligne les séquences en se servant de l’arbre guide: chaque paire de séquences situées sur une même branche extérieure de l’arbre est alignée par programmation dynamique. Les alignements partiels permettent de constituer des profils, représentés sous forme de tableau dans lequel sont données pour chaque position la fréquence observée de chaque lettre. -1 s4 -1 s1 s2 L’algorithme aligne ensuite les profils associés par un même nœud de l’arbre. Cet alignement de séquences puis de profils se poursuit de façon récursive jusqu’à l’alignement final complet depuis les branches de l’arbre vers la racine. s3 Arbre guide construit 29 30 Etape 3: Construction alignement final Etape 3: Construction alignement final L’alignement et création des profils: 2 séquences à aligner globalement Alignement 2 à 2 avec insertion/délétion Remplissage des trous et fusion par formation d’un profil Profil à aligner avec une autre séquence s1 Alignement profil et séquence avec insertion/délétion s4 cgatgagtcattgtgactg |||||||||| |||||||| cgatgagtcactgtgactg s2 s3 cgagccattgtagcta-ctg ||| |||||||||||| ||| cga-ccattgtagctacctg Remplissage des trous et fusion par formation d’un profil s4 cgatgagtcactgtgactg 31 s1 cgatgagtcattgtgactg s2 cgagccattgtagctactg s3 cgaccattgtagctacctg 32 8 Etape 3: Construction alignement final ClustalW ClustalW est optimisé pour les protéines: Once a gap, always a gap s2 s3 s1 s4 Pondération représentation cga---gccattgtagcta-ctg cga----ccattgtagctacctg cgatgagtcattgt-g--ac-tg cgatgagtcactgt-g--ac-tg des séquences en fonction de leur sur/sous Adaptation des matrices de similitudes au fil de l’algorithme en fonction de la divergence des séquences à aligner Blosum 80 pour aligner des séquences proches Blosum 50 pour aligner des séquences distantes Pénalités de gaps spécifiques à chaque résidu. s1 s4 cgatgagtcattgtgactg |||||||||| |||||||| cgatgagtcactgtgactg s2 s3 Par exemple, les Glycines sont davantage susceptible d’avoisiner un gap que les Valines. cgagccattgtagcta-ctg ||| |||||||||||| ||| cga-ccattgtagctacctg Pénalités de gaps réduites dans les régions hydrophiles Encourage la formation de gaps dans des boucles plutôt que dans des régions structurées. s4 cgatgagtcactgtgactg s1 cgatgagtcattgtgactg s2 cgagccattgtagctactg Pénalités de gaps augmentées dans le voisinage d’autres gaps s3 cgaccattgtagctacctg Evite la formation de petits gaps voisins, au profit de longs gaps. 34 33 ClustalW Autre méthode (itératif) Attention A partir des alignements locaux ClustalW commencera à aligner les n(n-1)/2 paires de séquences, donc avec 80 séquences à aligner, il doit, pour remplir sa matrice de score effectuer 3160 alignements (algo méthode exacte), ce qui peut prendre pas mal de temps ! Idée: repérer des similitudes locales fortes entre les séquences (les diagonales du dotplot par exemple) Alignements des paires de séquences avec optimisation des poids des diagonales Tri des diagonales selon leur poids et leur chevauchement Si une séquence n'appartient pas à la même famille et que toutes les autres se sont alignées par rapport à elle, on aura un résultat catastrophique. Reconstruction gloutonne Insertion des diagonales par poids décroissants Vérification de la consistance avec les diagonales déjà introduites Recommencer … Si une séquence est beaucoup plus courte que les autres, on aura un problème au niveau du score (qui sera plus bas que les autres car il y aura de nombreux gaps, donc risque de fausser l'arbre guide). 35 DIagonal + ALIGNement DIALIGN Morgenstern et al. 1996 36 9 DIALIGN DIALIGN exemple Morgenstern et al. 1996 3 séquences: a) YIAFLFAWDD b) LACFIFGS c) SWEDFMFAED DIALIGN sur Pasteur: http://mobyle.pasteur.fr/cgi-bin/portal.py?form=dialign Etape 1 : Détection des diagonales dans les paires de séquences: Rechercher tous les fragments (suite de lettres) le plus grand possible similaires entre deux séquences YIAFLFAWDD SWEDFMFAED LACFIFGS 37 DIALIGN exemple 38 DIALIGN exemple 3 séquences: a) YIAFLFAWDD b) LACFIFGS c) SWEDFMFAED 3 séquences: a) YIAFLFAWDD b) LACFIFGS c) SWEDFMFAED Etape 1 : Détection des diagonales dans les paires de séquences: Rechercher tous les fragments (suite de lettres) le plus grand possible similaires entre deux séquences Etape 1 : Détection des diagonales dans les paires de séquences: Rechercher tous les fragments (suite de lettres) le plus grand possible similaires entre deux séquences YIAFLFAWDD YIAFLFAWDD SWEDFMFAED SWEDFMFAED LACFIFGS LACFIFGS 39 40 10 DIALIGN exemple DIALIGN exemple Etape 2 : Sélection d’un ensemble cohérent de diagonales pour construire l’alignement, on retient que les fragments compatibles: Etape 2 : Tri des séquences en fonction du nombre total de fragments communs entre elles. Pas de croisement Pas de chevauchements score maximal YIAFLFAWDD YIAFLFAWDD SWEDFMFAED LACFIFGS SWEDFMFAED Il y a deux fragments compatibles entre la séquence a et b, donc on va commencer par ces deux séquences. Le fragment WDD et WED est incompatible avec l'autre fragment, donc on va conserver seulement le plus grand. yIA-FLFawdd -LAcFIFgs-42 41 Autres méthodes DIALIGN exemple T-Coffee Notredame C et al. 2000 exemple: http://www.ebi.ac.uk/Tools/msa/tcoffee/ Etape 2 : Alignement itératif des séquences, de la première à la dernière de la liste. A chaque itération, des insertions sont ajoutées de manière à ce que les différents résidus soient correctement alignés Il permet de tenir compte de contraintes locales liées à la structure des protéines -> méthode consensus T-Coffee is a multiple sequence alignment program. Its main characteristic is that it will allow you to combine results obtained with several alignment methods. yIA-FLFAWDd -LAcFIFgs-swedFMFAED- MUSCLE Edgar RC. 2004 exemple: http://www.ebi.ac.uk/Tools/msa/muscle/ Amélioration par des étapes de raffinement pour recalculer des arbres guides. MUSCLE stands for MUltiple Sequence Comparison by Log- Expectation. MUSCLE is claimed to achieve both better average accuracy and better speed than ClustalW2 or T-Coffee, depending on the chosen options Et MultiAlign, MultiAlin, MAFFT etc… 43 44 11 Comparaison CLUSTAL vs DIALIGN vs MUSCLE Alignement fourni par ClustalW2: Exemple (C. Notredame) seq2 seq4 seq1 seq3 GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELDTHE----FAT-CAT --------THE----FAT-CAT GARFIELDTHELASTFAT-CAT GARFIELDTHEVERYFASTCAT GARFIELD THE VERY FAST CAT Alignement fourni par Dialign2: THE FAT CAT seq1 seq2 seq3 seq4 1 1 1 1 Alignement fourni par MUSCLE: seq1 seq3 seq2 seq4 GARFIELDTHELASTF-ATCAT GARFIELDTHEVERYFASTCAT GARFIELDTHEF-----ATCAT --------THEF-----ATCAT GARFIELDTHELASTFA-TCAT GARFIELDTHE----FA-TCAT GARFIELDTHEVERYFASTCAT --------THE----FA-TCAT 45 46 Comparaison MAIS ! Comparaison MAIS ! Alignement fourni par ClustalW2: GARFIELD THE LAST FAT CAT seq2 seq4 seq1 seq3 THE FAT CAT GARFIELD GARFIELD THE VERY FAST CAT --------THE----FAT-CATGARFIELD --------THE----FAT-CAT-------GARFIELDTHELASTFAT-CAT-------GARFIELDTHEVERYFASTCAT-------*** **: *** 17 9 21 22 Alignement fourni par MUSCLE: THE FAT CAT s3 s3 s2 s4 47 GARFIELDTHEVERYFASTCAT---------------THE----FA-TCATGARFIELD --------THE----FA-TCAT-------GARFIELDTHELASTFA-TCAT-------- 48 12 Choix de l'outil d'alignement Choix de l'outil d'alignement CLUSTALW (le plus utilisé mais aussi le moins moderne) à utiliser dans les cas suivants: Séquences de tailles similaires Pas de grande régions d'insertion/délétion Peu de séquences Séquences longues possibles (même si > 20000 résidus) Plus les séquences sont divergentes, moins le résultat est fiable. Quand le taux d'identité est supérieur à 35%, toutes les méthodes sont satisfaisantes. Twilight zone: <20% d'identité DIALIGN à utiliser dans les cas suivants: Présence de régions alignables et non alignables -> si présence d'une importante insertion/délétion en N-ter ou C-ter ou en interne dans certaines séquences Protéines multidomaines Faible similitude des séquences Grandes séquences génomiques CLUSTALW a tendance à autoriser moins de gaps que DIALIGN. Similitude locale: DIALIGN Similitude globale: CLUSTALW Il existe d'autres méthodes (outils): Muscle, MultiAlign, Tcoffee, MUSCLE à utiliser dans les cas suivants: etc… Grand jeu de séquences (>500 séquences) Pas de méthode universelle Pas de confiance aveugle vis-à-vis du résultat obtenu T-COFFEE à utiliser dans les cas suivants: Si peu de séquences, à privilégier car très fiable Si on possède des données structurales (Expresso) 49 50 Mais pourquoi faire ? Conclusion Pour établir un alignement multiple: Le choix des séquences de départ est important. On pose l'hypothèse qu'elles sont homologues pour réaliser un alignement multiple! Différents outils d'alignements sont disponibles qui ont des caractéristiques différentes. Les alignements obtenus diffèrent surtout si la ressemblance est faible et s'il existe de grandes zones de gap (alignement global ou local). Différents outils peuvent (doivent) être comparés. L'alignement peut être ensuite modifié à la main (exemple d'éditeur d'alignement: Jalview) grâce à l'oeil expert du biologiste et de sa connaissance sur cette famille de séquences. 51 Exemple d'alignement fourni par ClustalW2 sp|P47938|THIO1_DROME sp|Q09433|THIO1_CAEEL tr|Q8T9N5|Q8T9N5_SCHMA sp|Q43636|TRXH_RICCO sp|P10599|THIO_HUMAN sp|P29451|THIO_MACMU sp|P50413|THIO_SHEEP sp|P08628|THIO_RABIT sp|P08629|THIO_CHICK sp|P29445|THIO1_DICDI sp|P29447|THIO3_DICDI sp|P42115|THIO_NEUCR sp|P0AA25|THIO_ECOLI sp|P52233|THIO_THIFE sp|Q05739|THIO_STRCL sp|P51225|THIO_PORPU sp|O22022|THIO_CYAME -------MASVRTMN---DYHKRIEAADDK--LIVLDFYATWCGPCKEME MLKRCNFKNQVKYFQS--DFEQLIRQHPEK--IIILDFYATWCGPCKAIA -------MSKLIELKQDGDLESLLEQHKNK--LVVVDFFATWCGPCKTIA ---MAAEEGQVIGCHTVEAWNEQLQKGNDTKGLIVVDFTASWCGPCRFIA ---------MVKQIESKTAFQEALDAAGDK--LVVVDFSATWCGPCKMIK ---------MVKQIESKAAFQEALDDAGDK--LVVVDFSATWCGPCKMIK ---------MVKQIESKYAFQEALNSAGEK--LVVVDFSATWCGPCKMIK ---------MVKQIESKSAFQEVLDSAGDK--LVVVDFSATWCGPCKMIK ---------MVKSVGNLADFEAELKAAGEK--LVVVDFSATWCGPCKMIK ------MSNRVIHVSSCEELDKHLR--DER---VVVDFSAVWCGPCRAIS ------MS-KVIHVTSNEELDKYLQ--HQR---VVVDFSAEWCGPCRAIA ------MSDGVKHINSAQEFANLLNTTQYV----VADFYADWCGPCKAIA -------MSDKIIHLTDDSFDTDVLKADGA---ILVDFWAEWCGPCKMIA -------MSDAILYVSDDSFETDVLKSSKP---VLVDFWAEWCGPCKMIA -------MAGVLKNVTDDTFEADVLKSEKP---VLVDFWAEWCGPCRQIA -------MS--VSQVTDASFKQEVINNDLP---VLVDFWAPWCGPCRMVS -----------MLHIDELTFENEVLQSEKL---VLVDFWAPWCGPCRMIG : : ** * *****: : sp|P47938|THIO1_DROME sp|Q09433|THIO1_CAEEL tr|Q8T9N5|Q8T9N5_SCHMA sp|Q43636|TRXH_RICCO sp|P10599|THIO_HUMAN sp|P29451|THIO_MACMU sp|P50413|THIO_SHEEP sp|P08628|THIO_RABIT sp|P08629|THIO_CHICK sp|P29445|THIO1_DICDI sp|P29447|THIO3_DICDI sp|P42115|THIO_NEUCR sp|P0AA25|THIO_ECOLI sp|P52233|THIO_THIFE sp|Q05739|THIO_STRCL sp|P51225|THIO_PORPU sp|O22022|THIO_CYAME STVKSLARKYSSK--AVVLKIDVDKFEELTERYKVRSMPTFVFLRQNRRL PLYKELATTHKG---IIFCKVDVDEAEDLCSKYDVKMMPTFIFTKNGDAI PLFKELSEKYDA----IFVKVDVDKLEETARKYNISAMPTFIAIKNGEKV PFLAELAKKLPN---VTFLKVDVDELKTVAHEWAVESMPTFMFLKEGKIM PFFHSLSEKYSN---VIFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKV PFFHSLSEKYSN---VVFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKV PFFHSLSEKYSN---VVFLEVDVDDCQDVAAECEVKCMPTFQFFKKGQKV PFFHALSEKFNN---VVFIEVDVDDCKDIAAECEVKCMPTFQFFKKGQKV PFFHSLCDKFGD---VVFIEIDVDDAQDVATHCDVKCMPTFQFYKNGKKV PVFEKLSNEFIT---FTFLHVDIDKLNVHPIVSKIKSVPTFHFYRNGSKV PVFDKLSNEFTT---FTFVHVDIDKVNTHPIVKEIRSVPTFYFYVNGAKV PMYAQFAKTFSIPNFLAFAKINVDSVQQVAQHYRVSAMPTFLFFKNGKQV PILDEIADEYQGK--LTVAKLNIDQNPGTAPKYGIRGIPTLLLFKNGEVA PILEEIADEYADR--LRVAKFNIDENPNTPPQYAIRGIPTLLLFKAGKLE PSLEAIT-EHGGQ--IEIVKLNIDQNPATAAKYGVMSIPTLNVYQGGEVV PVVDAIAEEYESS--IKVVKINTDDNPTIAAEYGIRSIPTLMIFKSGERV PILEEIAKEFN----LKVVQVNTDENPNLATFYGIRSIPTLMLFKKGQRV . : . ..: *. : :**: . sp|P47938|THIO1_DROME sp|Q09433|THIO1_CAEEL tr|Q8T9N5|Q8T9N5_SCHMA sp|Q43636|TRXH_RICCO sp|P10599|THIO_HUMAN sp|P29451|THIO_MACMU sp|P50413|THIO_SHEEP sp|P08628|THIO_RABIT sp|P08629|THIO_CHICK sp|P29445|THIO1_DICDI sp|P29447|THIO3_DICDI sp|P42115|THIO_NEUCR sp|P0AA25|THIO_ECOLI sp|P52233|THIO_THIFE sp|Q05739|THIO_STRCL sp|P51225|THIO_PORPU sp|O22022|THIO_CYAME AS-----FAGADEHKLTNMMAKLVKA----------EA-----LEGCVEDELRQKVLEHVSAQ---------GD-----VVGASIAKVEDMIKKFI------------DK-----VVGAKKDELQQTIAKHMATAST-------GE-----FSGANKEKLEATINELV------------GE-----FSGANKEKLEATINELV------------SE-----FSGANKEKLEATINELI------------GE-----FSGANKEKLEATINELL------------QE-----FSGANKEKLEETIKSLV------------SE-----FSGASESILRSTLEANK------------SE-----FSGANEATLRSTLEANI------------AVNGSVMIQGADVNSLRAAAEKMGRLAKEKAAAAGSS AT----KVGALSKGQLKEFLDANLA-----------AT----KVGALSKAQLTAFLDSQL------------KT----IVGAKPKAALLRPGPVPR------------DT----VIGAVPKSTLESTLNKYIS-----------DT----VIGAVPKSILIHTINKYL------------. . : 52 13 53 54 14