Cours4

Transcription

Cours4
Alignement multiple de
séquences
LV348 -BI
Sophie Pasek
[email protected]
Alignement multiple
Similarité multiple <=> structure, fonction,
origine commune
●
Identification de domaines/motifs
conservés
●
Point de départ de nombreuses démarches :
phylogénie, description de domaines/motifs
sur le plan structural et fonctionnel
●
Un alignement multiple :
Historique
Légende :
Date
Nombre de séquences traitées
Comment comparer plus de 2
séquences entre elles ?
Dimensionnalité du problème :
N = 2 séquences => matrice 2D
N = 3 séquences => cube
L'alignement est un chemin
obtenu dans l'espace (x,y,z)
Méthode exacte (NWS)
Pour un alignement de 3 séquences :
7 possibilités de déplacement entre les cellules 3D
Pour n séquences : 2n-1 opérations à chaque position
Pour un alignement de taille L: compléxité en o(2 nLn)
=> Le problème est NP-complet
Méthode exacte (NWS)
Méthodes heuristiques :
Idée :
Aligner les séquences par paires :
=> on sait faire !
●
Aligner les paires entre elles :
=> Comment aligner une paire avec une
autre paire ou une séquence avec une paire ?
●
=> Star approach
=> Les Profils
Star approach
Paires
Alignement
Les Profil :
= matrice N*P associée à un alignement de P positions pour des séquences
utilisant un alphabet de N lettres
Le ratio fij/fi donne la probabilité d'apparition du résidu i à la position j
Profil, passage au logg-odds
Le ratio fij/fi donne la probabilité d'apparition du résidu i à la
position j
Passage au logarithme en base 10 (on préfère additionner des
logarithmes plutôt que de multiplier des probabilités parfois très
faibles)
Si la probabilité est nulle, on reporte -10
On obtient une PSSM : Position Scoring Matrix = Matrice Poidsposition
Comment aligner une séquence à
un profil
Approche progressive
Choix optimal local à chaque étape => Solution
optimale globale (?)
1) Alignement optimal des 2 séquences les
plus proches
2) Fusion des 2 séquences en profil
3) Alignement du profil avec la séquence la
plus proche
4) Fusion profil/séquence en un nouveau
profil
5) etc. jusqu'à ce que toutes les séquences
soient incorporées dans l'alignement
Approche progressive : ClustalW
L'ordre d'alignement des séquences/profils est
« guidé »
●
On minimise la distance évolutive entre les
séquences (= divergence récente) pour construire un
arbre phylogénétique
●
L'ordre d'alignement des séquences/profils est
déterminé par cet arbre guide
●
Approche progressive
Feng-Doolittle(1987)
Thompson, Higgins & Gibson (1994) => ClustalW
1) Calcul de tous les scores par paire et
conversion en distance = 1 – similarité
2) Construction de l'arbre guide (différentes
méthodes)
3) Alignement progressif en suivant l'ordre
donné par l'arbre
Approche progressive : ClustalW
1) Calcul de tous les scores par paire
S1
6 alignment par paire
S2
S3
S1
-
S2
0.3
-
S3
0.6
0.1
-
S4
0.1
0.8
0.2
2) Construction d'arbres guides
S4
-
2) Construction d'arbres guides
La topologie de l'arbre doit être le reflet le plus
fidèle possible de la matrice des distances
Méthode UPGMA (Unweighted Pair Group Method
with Arithmetic mean)
●
●
Méthode NJ (Neighbor Joining)
2) Construction d'arbres guides
Méthode UPGMA (Unweighted Pair Group Method
with Arithmetic mean) :
1) Regroupement des 2 séquences présentant la
distance minimale
2) Mise à jour de la matrice des distances
3) Itérations jusqu'à obtenir un seul cluster
Construction d'arbres guides
Méthode UPGMA (Unweighted Pair Group Method
with Arithmetic mean) :
Approche progressive : ClustalW
6 alignment par paire
3) Alignement progressif en suivant l'ordre donné par
l'arbre
Score alignement multiple :
LCS :
une colonne a un score positif ssi les lettres sont
identiques (strictes)
Entropie de Shannon :
Mesure la diversité présente par colonne
(inversement proportionnel au score)
Somme des Pairs (SP-score) :
Somme des scores par paires
Quelques outils disponibles
ClustalW (1994):
Calcul de la matrice de distance entre paires de
séquences (prog dynamique ou k-mers communs)
Alignement progressif en suivant l'arbre guide
obtenu par Neighbor-Joining. Pondération des
séquences en fonction de leur similarité
Traitement spécifique des pénalités de gap (les
pénalités de g. open et de g. extend sont modulées
selon différents facteurs
Quelques outils disponibles
MUSCLE (2004) :
Un arbre guide initial peu précis est généré à partir
du comptage des k-mers communs (très rapide)
Alignement progressif avec cet arbre
Un arbre guide plus précis est généré à partir du
1er alignement
Second alignement progressif avec nouvel arbre
Quelques outils disponibles
MUSCLE (2004) :
Quelques outils disponibles
Dialign :
Alignement local sans gap par paires => diagonales dans
dotplot. Recherche de diagonales compatibles
MAFFT :
L'arbre guide est généré en utilisant des transformées
de Fourrier. Les séquences sont représentées par des
vecteurs de résidus selon leur volume et leur polarité.
ClustalΩ :
Séquence représentée comme un vecteur de distances.
Arbre guide (UPGMA ou NJ) Alignement basé sur des
HMMs => peut aligner +100000 séquences ! Peut ajouter
des séquences

Documents pareils