V - Les alignements multiples

Transcription

V - Les alignements multiples
BIOLOGIE VIRTUELLE
CHAPITRE V : LES ALIGNEMENTS MULTIPLES
I – UTILITÉ DE L’ALIGNEMENT MULTIPLE
En BLASTant une séquence, on peut obtenir un grand nombre de séquences similaires, ce qui nous permet de poser des
hypothèses sur la fonction de la séquence. On peut ensuite regarder les alignements 2 à 2 entre toutes les séquences trouvées.
On fait donc un alignement multiple.
Cela permet d’étudier un groupe de protéines ou de gènes apparentés pour établir des relations d’évolution et mettre en
évidence des motifs communs jouant un rôle dans la fonction ou la structure de ces protéines. Cela aide donc aussi à faire des
familles de protéines, et différencier les gènes orthologues et paralogues.
On peut donc se servir des alignements multiples pour construire l’arbre phylogénétique des séquences considérées, à la
différence des alignements 2 à 2 qui servent simplement à déterminer une fonction commune entre deux séquences.
On entre donc de 3 à plusieurs centaines de séquences en même temps, qui n’ont pas forcément les mêmes longueurs, et on
obtient un tableau contenant les k séquences, avec les indels indiqués.
A partir de là, on peut déterminer une séquence consensus, attribuant à chaque position l’acide aminé ou le nucléotide qui est
le plus souvent retrouvé.
II – PRINCIPE DE L’ALIGNEMENT MULTIPLE
Le plus couramment, il s’agir d’aligner progressivement des paires de séquences : on utilise donc l’algorithme traditionnel de
Needleman & Wunsh 2 à 2, répété n fois.
Ce qui change ensuite c’est la façon de choisir la paire initiale et de progresser dans l’alignement :
• On peut aligner chaque séquence, dans un alignement unique enrichi après chaque étape
• Ou créer des sous-familles d’abord, que l’on aligne ensuite entre elles.
La plupart des alignements sont basés sur des arbres, avec un arbre guide ou cluster. C’est la technique du Clustal. L’EBI propose
un programme basé sur ce système, ClustalW, à l’adresse http://www.ebi.ac.uk/clustalw/index.html
Il est en 3 étapes :
1. Alignement globaux 2 à 2 : les alignements de toutes les paires sont réalisés, puis ClustalW génère une matrice des
distances avec leur taux de similitude, pour permettre les scores.
2.
Regroupements des alignements pour construire l’arbre guide par neighbor-joining (voir EMP). On regarde d’abord les
scores permettant de séparer deux groupes :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 1
A présent il nous faut déterminer l’ordre réel. Pour cela, on va regarder les voisins !
3.
Alignement multiple obtenu par combinaisons des alignements en se servant de l’arbre guide. En gros, il y a :
a. Alignement de chaque paire de séquences situées sur une même branche de l’arbre
b. Ces alignements partiels permettent constituer les profils. Un tableau est formé, dans lequel est donné pour
chaque position la fréquence observée de chaque lettre.
c. ClustalW aligne alors les profils associés par un même nœud.
d. Il y a récursivité jusqu’à la racine.
ClustalW est optimisé pour les protéines, car il prend en compte pas mal de choses qui peuvent arriver biologiquement sur les
acides aminés.
III – MULTALIN
Multalin est une autre méthode, basée aussi sur un arbre. Son processus est le suivant :
1. Calcul d’une matrice de similarité (alignement 2 à 2)
2. Construction d’un arbre de clustering hiérarchique (du même type qu’en EMP). On fait la moyenne à chaque fois pour
regrouper les cases.
3.
4.
5.
Construction de l’alignement multiple, suivant l’arbre.
Reconstruction d’un nouvel arbre avec les nouveaux alignements issus de l’alignement précédent
Réitération jusqu’à stabilisation de l’arbre de clustering.
Ca se passe sur http://bioinfo.genotoul.fr/multalin/multalin.html
IV – DIALIGN
C’est une troisième méthode, cette fois à alignement diagonal. Elle est disponible à l’adresse suivante :
http://bioweb.pasteur.fr/seqanal/interfaces/dialign2-simple.html
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 2
Elle permet l’alignement de paires de séquences avec optimisation des poids des diagonales, et le tri de celle-ci. C’est basé sur
des alignements locaux, et l’idée c’est de repérer les similitudes locales fortes entre les séquences, et incorporer les diagonales
dans l’alignement multiples.
On garde ensuite l’ensemble le plus cohérent de diagonales, sans croisement ni chevauchement mais avec le score le plus haut
possible.
V – CHOIX DE LA MÉTHODE
En fait, cela dépend du type de séquence à aligner. On utilise des « références » comme catégories :
o Ref1 : Séquences équidistantes avec différents niveaux de conservation. Préférer Clustal dans ce cas.
o Ref2 : Protéines homologue + une séquence orpheline. Préférer Clustal dans ce cas.
o Ref3 : Sous-groupes, avec moins de 25 % d’identité. Préférer Clustal dans ce cas.
o Ref4 : Extensions N/C terminales. Préférer Dialign dans ce cas.
o Ref5 : Insertions internes. Préférer Dialign dans ce cas.
o Ref6 : Répétitions internes. Pas de préférence particulière.
o Ref7 : Protéines transmembranaires. Pas de préférence particulière.
o Ref8 : Permutations de domaines. Pas de préférence particulière.
Dans tout les cas plus les séquences sont divergentes, moins c’est fiable. Au delà de 35 %, les méthodes sont toutes considérer
satisfaisantes.
De toute façon, il n’y a pas de méthode universelle, et comme d’habitude, on ne peut faire une confiance aveugle au résultat
obtenu.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 3