V - Les alignements multiples
Transcription
V - Les alignements multiples
BIOLOGIE VIRTUELLE CHAPITRE V : LES ALIGNEMENTS MULTIPLES I – UTILITÉ DE L’ALIGNEMENT MULTIPLE En BLASTant une séquence, on peut obtenir un grand nombre de séquences similaires, ce qui nous permet de poser des hypothèses sur la fonction de la séquence. On peut ensuite regarder les alignements 2 à 2 entre toutes les séquences trouvées. On fait donc un alignement multiple. Cela permet d’étudier un groupe de protéines ou de gènes apparentés pour établir des relations d’évolution et mettre en évidence des motifs communs jouant un rôle dans la fonction ou la structure de ces protéines. Cela aide donc aussi à faire des familles de protéines, et différencier les gènes orthologues et paralogues. On peut donc se servir des alignements multiples pour construire l’arbre phylogénétique des séquences considérées, à la différence des alignements 2 à 2 qui servent simplement à déterminer une fonction commune entre deux séquences. On entre donc de 3 à plusieurs centaines de séquences en même temps, qui n’ont pas forcément les mêmes longueurs, et on obtient un tableau contenant les k séquences, avec les indels indiqués. A partir de là, on peut déterminer une séquence consensus, attribuant à chaque position l’acide aminé ou le nucléotide qui est le plus souvent retrouvé. II – PRINCIPE DE L’ALIGNEMENT MULTIPLE Le plus couramment, il s’agir d’aligner progressivement des paires de séquences : on utilise donc l’algorithme traditionnel de Needleman & Wunsh 2 à 2, répété n fois. Ce qui change ensuite c’est la façon de choisir la paire initiale et de progresser dans l’alignement : • On peut aligner chaque séquence, dans un alignement unique enrichi après chaque étape • Ou créer des sous-familles d’abord, que l’on aligne ensuite entre elles. La plupart des alignements sont basés sur des arbres, avec un arbre guide ou cluster. C’est la technique du Clustal. L’EBI propose un programme basé sur ce système, ClustalW, à l’adresse http://www.ebi.ac.uk/clustalw/index.html Il est en 3 étapes : 1. Alignement globaux 2 à 2 : les alignements de toutes les paires sont réalisés, puis ClustalW génère une matrice des distances avec leur taux de similitude, pour permettre les scores. 2. Regroupements des alignements pour construire l’arbre guide par neighbor-joining (voir EMP). On regarde d’abord les scores permettant de séparer deux groupes : Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 1 A présent il nous faut déterminer l’ordre réel. Pour cela, on va regarder les voisins ! 3. Alignement multiple obtenu par combinaisons des alignements en se servant de l’arbre guide. En gros, il y a : a. Alignement de chaque paire de séquences situées sur une même branche de l’arbre b. Ces alignements partiels permettent constituer les profils. Un tableau est formé, dans lequel est donné pour chaque position la fréquence observée de chaque lettre. c. ClustalW aligne alors les profils associés par un même nœud. d. Il y a récursivité jusqu’à la racine. ClustalW est optimisé pour les protéines, car il prend en compte pas mal de choses qui peuvent arriver biologiquement sur les acides aminés. III – MULTALIN Multalin est une autre méthode, basée aussi sur un arbre. Son processus est le suivant : 1. Calcul d’une matrice de similarité (alignement 2 à 2) 2. Construction d’un arbre de clustering hiérarchique (du même type qu’en EMP). On fait la moyenne à chaque fois pour regrouper les cases. 3. 4. 5. Construction de l’alignement multiple, suivant l’arbre. Reconstruction d’un nouvel arbre avec les nouveaux alignements issus de l’alignement précédent Réitération jusqu’à stabilisation de l’arbre de clustering. Ca se passe sur http://bioinfo.genotoul.fr/multalin/multalin.html IV – DIALIGN C’est une troisième méthode, cette fois à alignement diagonal. Elle est disponible à l’adresse suivante : http://bioweb.pasteur.fr/seqanal/interfaces/dialign2-simple.html Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 2 Elle permet l’alignement de paires de séquences avec optimisation des poids des diagonales, et le tri de celle-ci. C’est basé sur des alignements locaux, et l’idée c’est de repérer les similitudes locales fortes entre les séquences, et incorporer les diagonales dans l’alignement multiples. On garde ensuite l’ensemble le plus cohérent de diagonales, sans croisement ni chevauchement mais avec le score le plus haut possible. V – CHOIX DE LA MÉTHODE En fait, cela dépend du type de séquence à aligner. On utilise des « références » comme catégories : o Ref1 : Séquences équidistantes avec différents niveaux de conservation. Préférer Clustal dans ce cas. o Ref2 : Protéines homologue + une séquence orpheline. Préférer Clustal dans ce cas. o Ref3 : Sous-groupes, avec moins de 25 % d’identité. Préférer Clustal dans ce cas. o Ref4 : Extensions N/C terminales. Préférer Dialign dans ce cas. o Ref5 : Insertions internes. Préférer Dialign dans ce cas. o Ref6 : Répétitions internes. Pas de préférence particulière. o Ref7 : Protéines transmembranaires. Pas de préférence particulière. o Ref8 : Permutations de domaines. Pas de préférence particulière. Dans tout les cas plus les séquences sont divergentes, moins c’est fiable. Au delà de 35 %, les méthodes sont toutes considérer satisfaisantes. De toute façon, il n’y a pas de méthode universelle, et comme d’habitude, on ne peut faire une confiance aveugle au résultat obtenu. Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 3