Cours4

Transcription

Cours4

Alignement multiple de
séquences
LV348 -BI
Sophie Pasek
[email protected]
Alignement multiple
Similarité multiple <=> structure, fonction,
origine commune
●
Identification de domaines/motifs
conservés
●
Point de départ de nombreuses démarches :
phylogénie, description de domaines/motifs
sur le plan structural et fonctionnel
●
Un alignement multiple :
Historique
Légende :
Date
Nombre de séquences traitées
Comment comparer plus de 2
séquences entre elles ?
Dimensionnalité du problème :
N = 2 séquences => matrice 2D
N = 3 séquences => cube
L'alignement est un chemin
obtenu dans l'espace (x,y,z)
Méthode exacte (NWS)
Pour un alignement de 3 séquences :
7 possibilités de déplacement entre les cellules 3D
Pour n séquences : 2n-1 opérations à chaque position
Pour un alignement de taille L: compléxité en o(2 nLn)
=> Le problème est NP-complet
Méthode exacte (NWS)
Méthodes heuristiques :
Idée :
Aligner les séquences par paires :
=> on sait faire !
●
Aligner les paires entre elles :
=> Comment aligner une paire avec une
autre paire ou une séquence avec une paire ?
●
=> Star approach
=> Les Profils
Star approach
Paires
Alignement
Les Profil :
= matrice N*P associée à un alignement de P positions pour des séquences
utilisant un alphabet de N lettres
Le ratio fij/fi donne la probabilité d'apparition du résidu i à la position j
Profil, passage au logg-odds
Le ratio fij/fi donne la probabilité d'apparition du résidu i à la
position j
Passage au logarithme en base 10 (on préfère additionner des
logarithmes plutôt que de multiplier des probabilités parfois très
faibles)
Si la probabilité est nulle, on reporte -10
On obtient une PSSM : Position Scoring Matrix = Matrice Poidsposition
Comment aligner une séquence à
un profil
Approche progressive
Choix optimal local à chaque étape => Solution
optimale globale (?)
1) Alignement optimal des 2 séquences les
plus proches
2) Fusion des 2 séquences en profil
3) Alignement du profil avec la séquence la
plus proche
4) Fusion profil/séquence en un nouveau
profil
5) etc. jusqu'à ce que toutes les séquences
soient incorporées dans l'alignement
Approche progressive : ClustalW
L'ordre d'alignement des séquences/profils est
« guidé »
●
On minimise la distance évolutive entre les
séquences (= divergence récente) pour construire un
arbre phylogénétique
●
L'ordre d'alignement des séquences/profils est
déterminé par cet arbre guide
●
Approche progressive
Feng-Doolittle(1987)
Thompson, Higgins & Gibson (1994) => ClustalW
1) Calcul de tous les scores par paire et
conversion en distance = 1 – similarité
2) Construction de l'arbre guide (différentes
méthodes)
3) Alignement progressif en suivant l'ordre
donné par l'arbre
1) Calcul de tous les scores par paire
S1
6 alignment par paire
S2
S3
S1
-
S2
0.3
-
S3
0.6
0.1
-
S4
0.1
0.8
0.2
2) Construction d'arbres guides
S4
-
La topologie de l'arbre doit être le reflet le plus
fidèle possible de la matrice des distances
Méthode UPGMA (Unweighted Pair Group Method
with Arithmetic mean)
●
●
Méthode NJ (Neighbor Joining)
with Arithmetic mean) :
1) Regroupement des 2 séquences présentant la
distance minimale
2) Mise à jour de la matrice des distances
3) Itérations jusqu'à obtenir un seul cluster
Construction d'arbres guides
with Arithmetic mean) :
6 alignment par paire
3) Alignement progressif en suivant l'ordre donné par
l'arbre
Score alignement multiple :
LCS :
une colonne a un score positif ssi les lettres sont
identiques (strictes)
Entropie de Shannon :
Mesure la diversité présente par colonne
(inversement proportionnel au score)
Somme des Pairs (SP-score) :
Somme des scores par paires
Quelques outils disponibles
ClustalW (1994):
Calcul de la matrice de distance entre paires de
séquences (prog dynamique ou k-mers communs)
Alignement progressif en suivant l'arbre guide
obtenu par Neighbor-Joining. Pondération des
séquences en fonction de leur similarité
Traitement spécifique des pénalités de gap (les
pénalités de g. open et de g. extend sont modulées
selon différents facteurs
MUSCLE (2004) :
Un arbre guide initial peu précis est généré à partir
du comptage des k-mers communs (très rapide)
Alignement progressif avec cet arbre
Un arbre guide plus précis est généré à partir du
1er alignement
Second alignement progressif avec nouvel arbre
MUSCLE (2004) :
Dialign :
Alignement local sans gap par paires => diagonales dans
dotplot. Recherche de diagonales compatibles
MAFFT :
L'arbre guide est généré en utilisant des transformées
de Fourrier. Les séquences sont représentées par des
vecteurs de résidus selon leur volume et leur polarité.
ClustalΩ :
Séquence représentée comme un vecteur de distances.
Arbre guide (UPGMA ou NJ) Alignement basé sur des
HMMs => peut aligner +100000 séquences ! Peut ajouter
des séquences

Cours4

Transcription

Documents pareils

Versailles

demande d`arrete d`alignement PAGE 01 N1 - Lançon

prank

TD – Comparaison de 2 séquences dans EMBOSS

Alignement des prix - Air Canada Vacations

Le Groupe ACOEM rachète son distributeur historique américain

Formulaire de demande d`alignement individuel

Fiche 2:Présentation synthétique de la préparation de classe

transparents

Imprimer cette offre