USI3_c5_AligMultClustalW [Mode de compatibilité]

Transcription

USI3_c5_AligMultClustalW [Mode de compatibilité]
Le contexte
Lorsque l’on compare une séquence contre une banque par BLAST, un
grand nombre de séquences similaires peuvent être données en sortie.
Cela nous permet de poser des hypothèses sur notre séquence
inconnue (Fonction, …):
On peut ensuite regarder les
alignements 2 à 2 entre les
séquences similaires trouvées dans
la banque et la séquence query:
Alignement multiple
1
2
Le contexte
Exemple d’alignement multiple
Mais, comment comparer toutes ces séquences et étudier leur
relations ?
Comparer les séquences en une seule
fois :
Alignement multiple
Un alignement multiple permet d’étudier un
groupe
de
protéines
ou
de
gènes
apparentés, afin d’établir des relations
d’évolution et mettre en évidence des motifs
communs, jouant un rôle dans la fonction ou la
structure de ces protéines homologues.
Permet
rapidement
de
retrouver les acides aminés
strictement conservés dans
toutes
les
séquences
homologues, jouant souvent
un rôle direct dans la
fonction.
Un alignement multiple se conçoit à partir de 3 séquences et peut
concerner jusqu’à plusieurs centaines de séquences.
3
4
1
Exemple:
Définition de l’alignement multiple
Un alignement multiple consiste à superposer les résidus d'une
séquence avec ceux de plusieurs autres séquences (jusqu'à plusieurs
Entrée : k séquences (pas forcement la même longueur)
centaines).
Comme pour les alignements 2 à 2, cela nécessite souvent d'introduire
des indels pour construire un alignement optimal.
TYY1_HUMAN
TF3B_BUFAM
ZN77_HUMAN
ZN76_HUMAN
P44_XENBO
TSH_DROME
XFIN_XENLA
EVI1_HUMAN
TRA1_CAEEL
TF3A_BUFAM
SRYC_DROME
ZG2-9_XENL
ZG58_XENLA
YKQ8_CAEEL
BASO_HUMAN
SUHW_DROAN
ZN10_HUMAN
P43_XENBO
IKAR_MOUSE
YVCPFDGCNKKFAQSTNLKSHIL--THYRCPRENCDRTYTTKFNLKSHIL--TFH
YTCPEPHCGRGFTSATNYKNHVR--IHFRCGYKGCGRLYTTAHHLKVHER--AHYRCSYEDCQTVSPTWTALQTHLK--KHFRCVW--CKQSFPTLEALTTHMKDSKHFRCSE--CSRSFTHNSDLTAHMR--KHYRCKY--CDRSFSISSNLQRHVRN-IHYKCEFADCEKAFSNASDRAKHQNR-THCKCETENCNLAFTTASNMRLHFKR-AHFKCNY--CPRDFTNFPNWLKHTRR-RHFVCTV--CGKTYKYKHGLNTHLHS-H-FVCTE--CNLSFAGLANLRSHQHL-H-YKCTV--CRKDISSSESLRTHMFK-QHH
FQCDI--CKKTFKNACSVKIHHKN-MHYACKI--CGKDFTRSYHLKRHQKY-SSC
YKCNQ--CGIIFSQNSPFIVHQI--AHLKCSVPGCKRSFRKKRALRIHVS--EHFECNM--CGYHSQDRYEFSSHITRGEH-
***************
**********
************
***********
25
26
25
25
25
25
23
24
26
26
24
23
23
25
24
25
23
25
25
Sortie: un tableau contenant les k séquences, avec des indels
***********-****
***--**-**-**-**
***-********--**
*****---**-*****
5
Pourquoi réaliser un alignement multiple?
Comment choisir les séquences ?
Caractériser les régions conservées et les régions variables.
Les séquences doivent présenter toute une similitude entre elles.
Nous faisons l'hypothèse que les séquences sont
apparentées pour pouvoir faire l'alignement multiple.
->Jeu de séquences homologues.
Trouver des caractéristiques communes à une famille de protéines.
Relier la séquence à la structure et à la fonction.
Caractériser les régions nécessaires à la fonction:
Protéines: site actif, motif de liaison, …
ADN: régions transcrites, site de liaison aux protéines,…
ARN: régions avec des contraintes de structures, régions
codantes, …
Construite ensuite l'arbre
homologues considérées.
phylogénétique
des
6
Si la question biologique le permet, comme par exemple lors de
l'étude d'une famille de gènes codants, il faut toujours préférer les
séquences protéiques car elles sont mieux conservées que les
séquences nucléiques.
séquences
Préférez des séquences de taille similaire.
Différencier entre gènes orthologues et paralogues.
7
8
2
Notion de séquence consensus
Alignement 2 à 2
2 séquences quelconques
Détecter une similarité
syntaxique
Il y a-t-il une fonction
commune ?
A partir de l’alignement multiple, on peut déterminer la séquence
consensus:
On attribut à chaque position l’acide aminé ou le nucléotide qui est
le plus souvent retrouvé (totalement conservé ou partiellement).
Alignement multiple
Famille de séquences avec la
même fonction
UB2E3_MOUSE
UBCD2_DROME
UB2D2_HUMAN
UB2D3_HUMAN
UB2D4_RAT
UB2D1_HUMAN
UBCD1_DROME
UBC1_COLGL
UBC1_MAGGR
UBC2_ARATH
UBC2_MEDSA
UBC1_ARATH
UBC2_WHEAT
UBC1_CAEEL
UBE2B_HUMAN
UBC2_CANAL
UBC2_SCHPO
A quelle conservation
syntaxique cela correspondil ?
130
140
150
160
170
180
|
|
|
|
|
|
TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP
TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP
TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP
VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP
VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP
VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP
*:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..***
9
Notion de séquence consensus
Notion de séquence consensus
A partir de l’alignement multiple, on peut déterminer la séquence
consensus:
On attribut à chaque position l’acide aminé ou le nucléotide qui est
le plus souvent retrouvé (totalement conservé ou partiellement).
UB2E3_MOUSE
UBCD2_DROME
UB2D2_HUMAN
UB2D3_HUMAN
UB2D4_RAT
UB2D1_HUMAN
UBCD1_DROME
UBC1_COLGL
UBC1_MAGGR
UBC2_ARATH
UBC2_MEDSA
UBC1_ARATH
UBC2_WHEAT
UBC1_CAEEL
UBE2B_HUMAN
UBC2_CANAL
UBC2_SCHPO
Prim.cons.
10
A partir de l’alignement multiple, on peut déterminer la séquence
consensus:
On attribut à chaque position l’acide aminé ou le nucléotide qui est
le plus souvent retrouvé (totalement conservé ou partiellement).
130
140
150
160
170
180
|
|
|
|
|
|
TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP
TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP
A cette position, on
TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
trouve 9 T, 7 V et 1
TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
I, T est donc la
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
lettre consensus
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
(majoritaire)
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP
VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP
VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP
VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP
*:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..***
UB2E3_MOUSE
UBCD2_DROME
UB2D2_HUMAN
UB2D3_HUMAN
UB2D4_RAT
UB2D1_HUMAN
UBCD1_DROME
UBC1_COLGL
UBC1_MAGGR
UBC2_ARATH
UBC2_MEDSA
UBC1_ARATH
UBC2_WHEAT
UBC1_CAEEL
UBE2B_HUMAN
UBC2_CANAL
UBC2_SCHPO
T
Prim.cons.
11
130
140
150
160
170
180
|
|
|
|
|
|
TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP
TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP
TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
A cette position, on
TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
trouve 17 P donc P
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
est le consensus
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
(unanimité)
VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP
VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP
VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP
VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP
*:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..***
TIMGP
12
3
Notion de séquence consensus
Notion de séquence consensus
A partir de l’alignement multiple, on peut déterminer la séquence
consensus:
On attribut à chaque position l’acide aminé ou le nucléotide qui est
le plus souvent retrouvé (totalement conservé ou partiellement).
UB2E3_MOUSE
UBCD2_DROME
UB2D2_HUMAN
UB2D3_HUMAN
UB2D4_RAT
UB2D1_HUMAN
UBCD1_DROME
UBC1_COLGL
UBC1_MAGGR
UBC2_ARATH
UBC2_MEDSA
UBC1_ARATH
UBC2_WHEAT
UBC1_CAEEL
UBE2B_HUMAN
UBC2_CANAL
UBC2_SCHPO
Prim.cons.
A partir de l’alignement multiple, on peut déterminer la séquence
consensus:
UB2E3_MOUSE
UBCD2_DROME
UB2D2_HUMAN
UB2D3_HUMAN
UB2D4_RAT
UB2D1_HUMAN
UBCD1_DROME
UBC1_COLGL
UBC1_MAGGR
UBC2_ARATH
UBC2_MEDSA
UBC1_ARATH
UBC2_WHEAT
UBC1_CAEEL
UBE2B_HUMAN
UBC2_CANAL
UBC2_SCHPO
130
140
150
160
170
180
|
|
|
|
|
|
TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP
TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP
TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
A cette position, on
TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
trouve 4 P, 3 N, 4
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
D, 2 S, 1 Q, E et A
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
Pas de consensus qui
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
sort
VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP
VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP
VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP
VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP
*:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..***
TIMGP2
Prim.cons.
130
140
150
160
170
180
|
|
|
|
|
|
TILGPPGSVYEGGVFFLDITFSSDYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TILGPPGSVYEGGVFFLDIHFSPEYPFKPPKVTFRTRIYHCNINSQGVICLDILKDNWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPNDSPYQGGAFFLTIDFPTEYPFKPPKVEFTTRIYHPNVNSNGSICLDILRSQWSP
TIMGPPDSAYQGGVFFLTVHFPTDYPFKPPKIAFTTKIYHPNINSNGSICLDILRSQWSP
TIMGPPDSPYQGGVFFLTIHFPTDYPFKPPKVAFTTRIYHPNINSNGSICLDILRSQWSP
TIMGPGDSPYSGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
A cette position, on
TIMGPSDSPYAGGVFFLAIHFPTDYPFKPPKVNFTTRIYHPNINSNGSICLDILRDQWSP
trouve 13 S, 2 V et
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
2 E, donc S est la
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
lettre consensus
VIFGPDDTPWDGGTFKLSLQFSEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
VIFGPDDTPWDGGTFKLTLQFTEDYPNKPPTVRFVSRMFHPNIYADGSICLDILQNQWSP
IIFGPQETPFEDGTFKLSLEFTEEYPNKPPTVKFISKMFHPNVYADGSICLDILQNRWSP
VIFGPEGTPFEDGTFKLVIEFSEEYPNKPPTVRFLSKMFHPNVYADGSICLDILQNRWSP
VIIGPSDTPFEDGTFRLLLSFDEQYPNKPPQVKFISEMFHPNVYASGELCLDILQNRWSP
VIIGPADTPFEDGTFKLVLSFDEQYPNKPPLVKFVSTMFHPNVYANGELCLDILQNRWSP
*:** : : .*.* * : * :** *** : * : ::* *: :.* :*****:..***
TIMGP2DSPYEGG2FFLTIHFPEDYPFKPPKVRFTTRIYHPNINSNGSICLDILQNQWSP
Mais on ne conserve pas en mémoire le résultat de "l'élection" (courte
majorité ou plébiscite) !
13
Démarche
Exemple:
Il est tout à fait envisageable d'utiliser des algorithmes
optimaux (de type Needleman-Wunsch) pour faire des
alignements non plus 2 à 2 mais à n séquences.
Regardons les résidus totalement conservés:
TYY1_HUMAN
TF3B_BUFAM
ZN77_HUMAN
ZN76_HUMAN
P44_XENBO
TSH_DROME
XFIN_XENLA
EVI1_HUMAN
TRA1_CAEEL
TF3A_BUFAM
SRYC_DROME
ZG2-9_XENL
ZG58_XENLA
YKQ8_CAEEL
BASO_HUMAN
SUHW_DROAN
ZN10_HUMAN
P43_XENBO
IKAR_MOUSE
YVCPFDGCNKKFAQSTNLKSHIL--THYRCPRENCDRTYTTKFNLKSHIL--TFH
YTCPEPHCGRGFTSATNYKNHVR--IHFRCGYKGCGRLYTTAHHLKVHER--AHYRCSYEDCQTVSPTWTALQTHLK--KHFRCVW--CKQSFPTLEALTTHMKDSKHFRCSE--CSRSFTHNSDLTAHMR--KHYRCKY--CDRSFSISSNLQRHVRN-IHYKCEFADCEKAFSNASDRAKHQNR-THCKCETENCNLAFTTASNMRLHFKR-AHFKCNY--CPRDFTNFPNWLKHTRR-RHFVCTV--CGKTYKYKHGLNTHLHS-H-FVCTE--CNLSFAGLANLRSHQHL-H-YKCTV--CRKDISSSESLRTHMFK-QHH
FQCDI--CKKTFKNACSVKIHHKN-MHYACKI--CGKDFTRSYHLKRHQKY-SSC
YKCNQ--CGIIFSQNSPFIVHQI--AHLKCSVPGCKRSFRKKRALRIHVS--EHFECNM--CGYHSQDRYEFSSHITRGEH-
14
25
26
25
25
25
25
23
24
26
26
24
23
23
25
24
25
23
25
25
Mais si on veut aligner 10 séquences d'une longueur
d'environ 300 lettres, il faudra un espace mémoire de 515
Giga-Octets !!!
Seules des méthodes heuristiques sont pour l'instant
disponibles pour faire des alignements multiples.
On peut établir une carte par position des résidus conservées :
WebLogo : http://weblogo.berkeley.edu/logo.cgi
15
16
4
Alignement multiple:
Alignement multiple: principe
Alignement deux à deux de
toutes les paires de
séquences
Les scores sont stockés dans
des matrices de scores
L’approche la plus courante consiste à aligner progressivement des
paires de séquences.
Les différentes approches se distinguent par:
La façon de choisir la paire initiale de séquences
Tri des séquences
Du plus similaire par exemple
Alignement des
séquences par ordre
croissant
Les deux plus proches
puis la suivante, etc…
Stratégie itérative
Calcul d'un arbre guide
Mise
en
évidence
relations de proximités
Pour progresser dans l’alignement, les programmes vont:
des
Soit aligner chaque séquence les unes après les autres à un
alignement unique enrichi à chaque étape.
Soit créer des sous-familles de séquences d’abord alignées au sein de
ces familles puis entre les familles.
Alignement des
groupes les plus
proches
L'arbre sert de support
pour choisir les séquences
qui seront agrégées.
La méthode de pondération des alignements individuels des
paires de séquences et des alignements cumulés.
Stratégie progressive
17
Alignement basé sur un arbre (progressif)
ClustalW EBI
ClustalW est l’un des
l’alignement progressif.
Idée: reconstruire l’alignement multiple à partir d’un arbre guide
(clusters)
feuilles : séquences
noeuds: alignements
http://www.ebi.ac.uk/Tools/msa/clustalw2/
programmes
les
plus
utilisés
pour
Etape 1: Alignements globaux 2 à 2
Partir des feuilles puis remonter dans l’arbre
Utilisation de la technique de profil alignement -> produire un
seul alignement multiple avec deux.
CLUSTer + ALignement
18
Etape 2: Regroupements des
alignements (clusters), construction
arbre guide
Etape 3: Alignement multiple
obtenu
par
combinaisons
des
alignements 2 à 2 (profils)
CLUSTAL
Thompson et al. 1994
19
20
5
ClustalW exemple
ClustalW étape 1: Calcul des scores
Les alignements de toutes les paires de séquences sont réalisés puis le
programme génère une matrice de distances décrivant leur taux de
similitude.
4 séquences
s1
s1
s2
s3
s4
cgatgagtcattgtgactg
cgagccattgtagctactg
cgaccattgtagctacctg
cgatgagtcactgtgactg
s2
s1
s3
s1
Jeu de score:
Indel= -2
Substitution=-1
Identité= 1
s4
cgatgagtcattgt-g--actg
||| |
|||||| | ||||
cga-g--ccattgtagctactg
s2
cgatgagtcattg-tgactg
||| | | | | | |||
cgacca-ttgtagctacctg
s2
cgatgagtcattgtgactg
|||||||||| ||||||||
cgatgagtcactgtgactg
s3
cgagccattgtagcta-ctg
||| |||||||||||| |||
cga-ccattgtagctacctg
s3
cga-g--ccattgtagctactg
||| |
|| ||| | ||||
cgatgagtcactgt-g--actg
s4
cgaccattgtagctacctg
||| | |
| |||
cgatgagtcactgtgactg
s4
Tableau des scores d’alignement:
s1
s1
s2
s3
S4
2
0
17
14
0
s2
2
s3
0
14
s4
17
0
Pour N séquences:
N(N-1)/ 2 calculs
-1
-1
21
22
ClustalW étape 2: Construction arbre
ClustalW étape 2: Construction arbre
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s1
s1
s2
s3
S4
2
0
17
14
0
s2
2
s3
0
14
s4
17
0
-1
-1
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s1
s1
s1
s2
s3
s2
s3
2
0
17
14
0
s2
2
s3
0
14
s4
17
0
S4
s1
-1
-1
s2
s3
s4
s4
Regroupement des séquences suivant leur similitude à partir de la
matrice des scores 2 à 2.
23
24
6
ClustalW étape 2: Construction arbre
ClustalW étape 2: Construction arbre
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s1
s1
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s2
s3
S4
2
0
17
s1
14
0
s2
2
s3
0
14
s4
17
0
s2
2
s3
0
14
s4
17
0
s1
s1
-1
s2
-1
s2
s3
S4
2
0
17
14
0
-1
s1
s2
-1
s4
s3
s3
s4
25
26
ClustalW étape 2: Construction arbre
ClustalW étape 2: Construction arbre
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s1
s1
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s2
s3
S4
2
0
17
s1
14
0
s2
2
-1
s3
0
14
s4
17
0
s2
2
s3
0
14
s4
17
0
s1
-1
s4
s1
s1
s4
?
s3
s2
s2
s3
2
0
S4
17
14
0
-1
-1
Alignement s1s2 est plus proche que s1s3
Alignement s4s2 est plus proche que s4s3
s2
s3
Matrice de score -> matrice de distance
27
28
7
ClustalW étape 2: Construction arbre
Etape 3: Construction alignement final
A l’aide de la matrice de scores, un arbre guide (ou dendogramme) est
ensuite construit par un algorithme dit de neighbor-joining:
s1
s1
s2
s3
S4
2
0
17
14
0
s2
2
s3
0
14
s4
17
0
ClustalW aligne les séquences en se servant de l’arbre guide: chaque
paire de séquences situées sur une même branche extérieure de
l’arbre est alignée par programmation dynamique.
Les alignements partiels permettent de constituer des profils,
représentés sous forme de tableau dans lequel sont données pour
chaque position la fréquence observée de chaque lettre.
-1
s4
-1
s1
s2
L’algorithme aligne ensuite les profils associés par un même nœud
de l’arbre. Cet alignement de séquences puis de profils se poursuit de
façon récursive jusqu’à l’alignement final complet depuis les branches
de l’arbre vers la racine.
s3
Arbre guide construit
29
30
Etape 3: Construction alignement final
Etape 3: Construction alignement final
L’alignement et création des profils:
2 séquences à aligner globalement
Alignement 2 à 2 avec insertion/délétion
Remplissage des trous et fusion par formation d’un profil
Profil à aligner avec une autre séquence
s1
Alignement profil et séquence avec insertion/délétion
s4
cgatgagtcattgtgactg
|||||||||| ||||||||
cgatgagtcactgtgactg
s2
s3
cgagccattgtagcta-ctg
||| |||||||||||| |||
cga-ccattgtagctacctg
Remplissage des trous et fusion par formation d’un profil
s4
cgatgagtcactgtgactg
31
s1
cgatgagtcattgtgactg
s2
cgagccattgtagctactg
s3
cgaccattgtagctacctg
32
8
Etape 3: Construction alignement final
ClustalW
ClustalW est optimisé pour les protéines:
Once a gap, always a gap
s2
s3
s1
s4
Pondération
représentation
cga---gccattgtagcta-ctg
cga----ccattgtagctacctg
cgatgagtcattgt-g--ac-tg
cgatgagtcactgt-g--ac-tg
des
séquences
en
fonction
de
leur
sur/sous
Adaptation des matrices de similitudes au fil de l’algorithme en
fonction de la divergence des séquences à aligner
Blosum 80 pour aligner des séquences proches
Blosum 50 pour aligner des séquences distantes
Pénalités de gaps spécifiques à chaque résidu.
s1
s4
cgatgagtcattgtgactg
|||||||||| ||||||||
cgatgagtcactgtgactg
s2
s3
Par exemple, les Glycines sont davantage susceptible d’avoisiner un gap que les Valines.
cgagccattgtagcta-ctg
||| |||||||||||| |||
cga-ccattgtagctacctg
Pénalités de gaps réduites dans les régions hydrophiles
Encourage la formation de gaps dans des boucles plutôt que dans des régions
structurées.
s4
cgatgagtcactgtgactg
s1
cgatgagtcattgtgactg
s2
cgagccattgtagctactg
Pénalités de gaps augmentées dans le voisinage d’autres gaps
s3
cgaccattgtagctacctg
Evite la formation de petits gaps voisins, au profit de longs gaps.
34
33
ClustalW
Autre méthode (itératif)
Attention
A partir des alignements locaux
ClustalW commencera à aligner les n(n-1)/2 paires de
séquences, donc avec 80 séquences à aligner, il doit, pour remplir sa
matrice de score effectuer 3160 alignements (algo méthode
exacte), ce qui peut prendre pas mal de temps !
Idée: repérer des similitudes locales fortes entre les séquences
(les diagonales du dotplot par exemple)
Alignements des paires de séquences avec optimisation des poids des
diagonales
Tri des diagonales selon leur poids et leur chevauchement
Si une séquence n'appartient pas à la même famille et que
toutes les autres se sont alignées par rapport à elle, on aura un
résultat catastrophique.
Reconstruction gloutonne
Insertion des diagonales par poids décroissants
Vérification de la consistance avec les diagonales déjà introduites
Recommencer …
Si une séquence est beaucoup plus courte que les autres,
on aura un problème au niveau du score (qui sera plus bas que les
autres car il y aura de nombreux gaps, donc risque de fausser l'arbre
guide).
35
DIagonal + ALIGNement
DIALIGN
Morgenstern et al. 1996
36
9
DIALIGN
DIALIGN exemple
Morgenstern et al. 1996
3 séquences:
a) YIAFLFAWDD
b) LACFIFGS
c) SWEDFMFAED
DIALIGN sur Pasteur: http://mobyle.pasteur.fr/cgi-bin/portal.py?form=dialign
Etape 1 : Détection des diagonales dans les paires de séquences:
Rechercher tous les fragments (suite de lettres) le plus grand possible
similaires entre deux séquences
YIAFLFAWDD
SWEDFMFAED
LACFIFGS
37
DIALIGN exemple
38
DIALIGN exemple
3 séquences:
a) YIAFLFAWDD
b) LACFIFGS
c) SWEDFMFAED
3 séquences:
a) YIAFLFAWDD
b) LACFIFGS
c) SWEDFMFAED
Etape 1 : Détection des diagonales dans les paires de séquences:
Rechercher tous les fragments (suite de lettres) le plus grand possible
similaires entre deux séquences
Etape 1 : Détection des diagonales dans les paires de séquences:
Rechercher tous les fragments (suite de lettres) le plus grand possible
similaires entre deux séquences
YIAFLFAWDD
YIAFLFAWDD
SWEDFMFAED
SWEDFMFAED
LACFIFGS
LACFIFGS
39
40
10
DIALIGN exemple
DIALIGN exemple
Etape 2 : Sélection d’un ensemble cohérent de diagonales pour
construire l’alignement, on retient que les fragments compatibles:
Etape 2 : Tri des séquences en fonction du nombre total de fragments
communs entre elles.
Pas de croisement
Pas de chevauchements
score maximal
YIAFLFAWDD
YIAFLFAWDD
SWEDFMFAED
LACFIFGS
SWEDFMFAED
Il y a deux fragments compatibles entre la séquence a et b, donc on va
commencer par ces deux séquences.
Le fragment WDD et WED est incompatible avec l'autre fragment, donc
on va conserver seulement le plus grand.
yIA-FLFawdd
-LAcFIFgs-42
41
Autres méthodes
DIALIGN exemple
T-Coffee Notredame C et al. 2000
exemple: http://www.ebi.ac.uk/Tools/msa/tcoffee/
Etape 2 : Alignement itératif des séquences, de la première à la
dernière de la liste. A chaque itération, des insertions sont ajoutées de
manière à ce que les différents résidus soient correctement alignés
Il permet de tenir compte de contraintes locales liées à la structure des
protéines -> méthode consensus
T-Coffee is a multiple sequence alignment program. Its main characteristic is
that it will allow you to combine results obtained with several alignment
methods.
yIA-FLFAWDd
-LAcFIFgs-swedFMFAED-
MUSCLE Edgar RC. 2004
exemple: http://www.ebi.ac.uk/Tools/msa/muscle/
Amélioration par des étapes de raffinement pour recalculer des arbres
guides.
MUSCLE stands for MUltiple Sequence Comparison by Log- Expectation.
MUSCLE is claimed to achieve both better average accuracy and better
speed than ClustalW2 or T-Coffee, depending on the chosen options
Et MultiAlign, MultiAlin, MAFFT etc…
43
44
11
Comparaison
CLUSTAL vs DIALIGN vs MUSCLE
Alignement fourni par ClustalW2:
Exemple (C. Notredame)
seq2
seq4
seq1
seq3
GARFIELD THE LAST FAT CAT
GARFIELD THE FAT CAT
GARFIELDTHE----FAT-CAT
--------THE----FAT-CAT
GARFIELDTHELASTFAT-CAT
GARFIELDTHEVERYFASTCAT
GARFIELD THE VERY FAST CAT
Alignement fourni par Dialign2:
THE FAT CAT
seq1
seq2
seq3
seq4
1
1
1
1
Alignement fourni par MUSCLE:
seq1
seq3
seq2
seq4
GARFIELDTHELASTF-ATCAT
GARFIELDTHEVERYFASTCAT
GARFIELDTHEF-----ATCAT
--------THEF-----ATCAT
GARFIELDTHELASTFA-TCAT
GARFIELDTHE----FA-TCAT
GARFIELDTHEVERYFASTCAT
--------THE----FA-TCAT
45
46
Comparaison MAIS !
Comparaison MAIS !
Alignement fourni par ClustalW2:
GARFIELD THE LAST FAT CAT
seq2
seq4
seq1
seq3
THE FAT CAT GARFIELD
GARFIELD THE VERY FAST CAT
--------THE----FAT-CATGARFIELD
--------THE----FAT-CAT-------GARFIELDTHELASTFAT-CAT-------GARFIELDTHEVERYFASTCAT-------***
**: ***
17
9
21
22
Alignement fourni par MUSCLE:
THE FAT CAT
s3
s3
s2
s4
47
GARFIELDTHEVERYFASTCAT---------------THE----FA-TCATGARFIELD
--------THE----FA-TCAT-------GARFIELDTHELASTFA-TCAT--------
48
12
Choix de l'outil d'alignement
Choix de l'outil d'alignement
CLUSTALW (le plus utilisé mais aussi le moins moderne) à utiliser dans les
cas suivants:
Séquences de tailles similaires
Pas de grande régions d'insertion/délétion
Peu de séquences
Séquences longues possibles (même si > 20000 résidus)
Plus les séquences sont divergentes, moins le résultat est fiable.
Quand le taux d'identité est supérieur à 35%, toutes les méthodes
sont satisfaisantes.
Twilight zone: <20% d'identité
DIALIGN à utiliser dans les cas suivants:
Présence de régions alignables et non alignables
-> si présence d'une importante insertion/délétion en N-ter ou C-ter ou en
interne dans certaines séquences
Protéines multidomaines
Faible similitude des séquences
Grandes séquences génomiques
CLUSTALW a tendance à autoriser moins de gaps que DIALIGN.
Similitude locale: DIALIGN
Similitude globale: CLUSTALW
Il existe d'autres méthodes (outils): Muscle, MultiAlign, Tcoffee,
MUSCLE à utiliser dans les cas suivants:
etc…
Grand jeu de séquences (>500 séquences)
Pas de méthode universelle
Pas de confiance aveugle vis-à-vis du résultat obtenu
T-COFFEE à utiliser dans les cas suivants:
Si peu de séquences, à privilégier car très fiable
Si on possède des données structurales (Expresso)
49
50
Mais pourquoi faire ?
Conclusion
Pour établir un alignement multiple:
Le choix des séquences de départ est important. On pose
l'hypothèse qu'elles sont homologues pour réaliser un alignement
multiple!
Différents outils d'alignements sont disponibles qui ont des
caractéristiques différentes. Les alignements obtenus diffèrent
surtout si la ressemblance est faible et s'il existe de grandes zones
de gap (alignement global ou local).
Différents outils peuvent (doivent) être comparés.
L'alignement peut être ensuite modifié à la main (exemple d'éditeur
d'alignement: Jalview) grâce à l'oeil expert du biologiste et de sa
connaissance sur cette famille de séquences.
51
Exemple d'alignement fourni
par ClustalW2
sp|P47938|THIO1_DROME
sp|Q09433|THIO1_CAEEL
tr|Q8T9N5|Q8T9N5_SCHMA
sp|Q43636|TRXH_RICCO
sp|P10599|THIO_HUMAN
sp|P29451|THIO_MACMU
sp|P50413|THIO_SHEEP
sp|P08628|THIO_RABIT
sp|P08629|THIO_CHICK
sp|P29445|THIO1_DICDI
sp|P29447|THIO3_DICDI
sp|P42115|THIO_NEUCR
sp|P0AA25|THIO_ECOLI
sp|P52233|THIO_THIFE
sp|Q05739|THIO_STRCL
sp|P51225|THIO_PORPU
sp|O22022|THIO_CYAME
-------MASVRTMN---DYHKRIEAADDK--LIVLDFYATWCGPCKEME
MLKRCNFKNQVKYFQS--DFEQLIRQHPEK--IIILDFYATWCGPCKAIA
-------MSKLIELKQDGDLESLLEQHKNK--LVVVDFFATWCGPCKTIA
---MAAEEGQVIGCHTVEAWNEQLQKGNDTKGLIVVDFTASWCGPCRFIA
---------MVKQIESKTAFQEALDAAGDK--LVVVDFSATWCGPCKMIK
---------MVKQIESKAAFQEALDDAGDK--LVVVDFSATWCGPCKMIK
---------MVKQIESKYAFQEALNSAGEK--LVVVDFSATWCGPCKMIK
---------MVKQIESKSAFQEVLDSAGDK--LVVVDFSATWCGPCKMIK
---------MVKSVGNLADFEAELKAAGEK--LVVVDFSATWCGPCKMIK
------MSNRVIHVSSCEELDKHLR--DER---VVVDFSAVWCGPCRAIS
------MS-KVIHVTSNEELDKYLQ--HQR---VVVDFSAEWCGPCRAIA
------MSDGVKHINSAQEFANLLNTTQYV----VADFYADWCGPCKAIA
-------MSDKIIHLTDDSFDTDVLKADGA---ILVDFWAEWCGPCKMIA
-------MSDAILYVSDDSFETDVLKSSKP---VLVDFWAEWCGPCKMIA
-------MAGVLKNVTDDTFEADVLKSEKP---VLVDFWAEWCGPCRQIA
-------MS--VSQVTDASFKQEVINNDLP---VLVDFWAPWCGPCRMVS
-----------MLHIDELTFENEVLQSEKL---VLVDFWAPWCGPCRMIG
:
: ** * *****: :
sp|P47938|THIO1_DROME
sp|Q09433|THIO1_CAEEL
tr|Q8T9N5|Q8T9N5_SCHMA
sp|Q43636|TRXH_RICCO
sp|P10599|THIO_HUMAN
sp|P29451|THIO_MACMU
sp|P50413|THIO_SHEEP
sp|P08628|THIO_RABIT
sp|P08629|THIO_CHICK
sp|P29445|THIO1_DICDI
sp|P29447|THIO3_DICDI
sp|P42115|THIO_NEUCR
sp|P0AA25|THIO_ECOLI
sp|P52233|THIO_THIFE
sp|Q05739|THIO_STRCL
sp|P51225|THIO_PORPU
sp|O22022|THIO_CYAME
STVKSLARKYSSK--AVVLKIDVDKFEELTERYKVRSMPTFVFLRQNRRL
PLYKELATTHKG---IIFCKVDVDEAEDLCSKYDVKMMPTFIFTKNGDAI
PLFKELSEKYDA----IFVKVDVDKLEETARKYNISAMPTFIAIKNGEKV
PFLAELAKKLPN---VTFLKVDVDELKTVAHEWAVESMPTFMFLKEGKIM
PFFHSLSEKYSN---VIFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKV
PFFHSLSEKYSN---VVFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKV
PFFHSLSEKYSN---VVFLEVDVDDCQDVAAECEVKCMPTFQFFKKGQKV
PFFHALSEKFNN---VVFIEVDVDDCKDIAAECEVKCMPTFQFFKKGQKV
PFFHSLCDKFGD---VVFIEIDVDDAQDVATHCDVKCMPTFQFYKNGKKV
PVFEKLSNEFIT---FTFLHVDIDKLNVHPIVSKIKSVPTFHFYRNGSKV
PVFDKLSNEFTT---FTFVHVDIDKVNTHPIVKEIRSVPTFYFYVNGAKV
PMYAQFAKTFSIPNFLAFAKINVDSVQQVAQHYRVSAMPTFLFFKNGKQV
PILDEIADEYQGK--LTVAKLNIDQNPGTAPKYGIRGIPTLLLFKNGEVA
PILEEIADEYADR--LRVAKFNIDENPNTPPQYAIRGIPTLLLFKAGKLE
PSLEAIT-EHGGQ--IEIVKLNIDQNPATAAKYGVMSIPTLNVYQGGEVV
PVVDAIAEEYESS--IKVVKINTDDNPTIAAEYGIRSIPTLMIFKSGERV
PILEEIAKEFN----LKVVQVNTDENPNLATFYGIRSIPTLMLFKKGQRV
.
:
. ..: *.
: :**:
.
sp|P47938|THIO1_DROME
sp|Q09433|THIO1_CAEEL
tr|Q8T9N5|Q8T9N5_SCHMA
sp|Q43636|TRXH_RICCO
sp|P10599|THIO_HUMAN
sp|P29451|THIO_MACMU
sp|P50413|THIO_SHEEP
sp|P08628|THIO_RABIT
sp|P08629|THIO_CHICK
sp|P29445|THIO1_DICDI
sp|P29447|THIO3_DICDI
sp|P42115|THIO_NEUCR
sp|P0AA25|THIO_ECOLI
sp|P52233|THIO_THIFE
sp|Q05739|THIO_STRCL
sp|P51225|THIO_PORPU
sp|O22022|THIO_CYAME
AS-----FAGADEHKLTNMMAKLVKA----------EA-----LEGCVEDELRQKVLEHVSAQ---------GD-----VVGASIAKVEDMIKKFI------------DK-----VVGAKKDELQQTIAKHMATAST-------GE-----FSGANKEKLEATINELV------------GE-----FSGANKEKLEATINELV------------SE-----FSGANKEKLEATINELI------------GE-----FSGANKEKLEATINELL------------QE-----FSGANKEKLEETIKSLV------------SE-----FSGASESILRSTLEANK------------SE-----FSGANEATLRSTLEANI------------AVNGSVMIQGADVNSLRAAAEKMGRLAKEKAAAAGSS
AT----KVGALSKGQLKEFLDANLA-----------AT----KVGALSKAQLTAFLDSQL------------KT----IVGAKPKAALLRPGPVPR------------DT----VIGAVPKSTLESTLNKYIS-----------DT----VIGAVPKSILIHTINKYL------------. .
:
52
13
53
54
14

Documents pareils