Analyse de Séquences Analyse de Séquences Macromoléculaires II

Transcription

Analyse de Séquences Analyse de Séquences Macromoléculaires II
Analyse de Séquences
Macromoléculaires II
Cours : 10 h
TD
: 12 h
+ mini-projet (travail
(
l personnel)
l)
O. Lecompte
Laboratoire de Bioinformatique et Génomique Intégratives – IGBMC
http://www-bio3d-igbmc.u-strasbg.fr/~lecompte/enseignement.html
[email protected]
Prédictions ab
Interrogation textuelle
(SRS,Entrez)
initio
Banques de données
Introduction à la comparaison de séquences
Alignement de 2 séquences
Alignement multiple
Motifs Profils
Motifs,
Recherche de similarité
(Fasta,Blast)
Phylogénie
moléculaire
O. Lecompte – IGBMC
Recherche de
similarité
ASM2
1
Multiple alignment / Pairwise alignment
Query: 177 EMGDTGPCGPCSEIHYDRIGGRDAAHLVNQDDPNVLEIWNLVFIQYNR---EADG----I 229
G G GP E+ Y
LE+ LVF+QY +
AD
I
Sbjct: 193 AGG--GNAGPAFEVLYKG-----------------LEVATLVFMQYKKAPANADPSQVVI 233
Query: 230 LK-----PLPKKSIDTGMGLERLVSVLQNKMSNYDTDLFVPYFEAIQKGTGARPYTGKVG 284
+K
P+ K +DTG GLERLV + Q
+ YD L
E +++ G
++
Sbjct: 234 IKGEKYVPMETKVVDTGYGLERLVWMSQGTPTAYDAVLGY-VIEPLKRMAGVEKIDERIL 292
Query: 285 AEDA---------DGIDMAYR--------------------------VLADHARTITVAL 309
E++
D D+ Y
+ADH + +T L
Sbjct: 293 MENSRLAGMFDIEDMGDLRYLREQVAKRVGISVEELERLIRPYELIYAIADHTKALTFML 352
O. Lecompte – IGBMC
Error in ORF
definition
Transmembrane
region
Additional
domain
ASM2
Phosphorylation
site
1
FAMILY
B
B
2
FAMILY
A
E
Differential
conservation between
the two families
NLS
Universal
conservation
Intra-group
conservation
domain organization, structural motifs
key functional residues, ORF definition
localization signals, conservation pattern
...
Functional
genomics
Evolutionary
studies
Structure
modeling
Mutagenesis
experiments
Drug design
Lecompte et al Gene. 270:17-30 (2001)
2
Alignement multiple

Méthodes utilisées

Estimation de la qualité d’un alignement

Utilisation de ll’alignement
alignement multiple
O. Lecompte – IGBMC
ASM2
Méthodes utilisées

Alignement multiple optimal
exemple : MSA (Lipman et al. 1989, Gupta et al. 1995)
O. Lecompte – IGBMC
ASM2
3
Alignement multiple optimal
application de la programmation dynamique utilisée pour aligner 2
séquences
é
=> N di
dimensions
i
Exemple : alignement de 3 séquences
Problème : temps de calcul et mémoire
Temps requis proportionnel à Nk pour k séquences de longueur N
=> dans la pratique, utilisation impossible pour plus de 10 séquences
O. Lecompte – IGBMC
ASM2
Alignement multiple optimal
OMA (Reinert et al. 2000) combine l’alignement optimal et une
méthode
éth d récursive
é
i d
de ttype “di
“divide-and-conquer”.
id
d
”
Divide
Divide
Divide
Align optimally
Concatenate
Alignment of 5 sulfate binding proteins, length 224-263 residues:
MSA
OMA
ClustalW
>12hours
62.9min
0.6sec
O. Lecompte – IGBMC
ASM2
4
Méthodes utilisées

Alignement multiple optimal
ex : MSA, OMA

Alignement multiple progressif
ClustalW (Thompson et al. Nucleic Acids Res. 1994)
ClustalX (Thompson et al. Nucleic Acids Res. 1997)
O. Lecompte – IGBMC
ASM2
Alignement multiple progressif
Principe
P
i i :
aligner progressivement les séquences (ou groupes de séquences)
par paires
Problème :
Par qui commencer ? Dans quel ordre procéder ?
 aligner
g
d’abord les séquences
q
les pplus pproches
Comment évaluer la distance entre les séquences ?
 aligner toutes les séquences deux à deux
 calculer la distance entre séquences à partir des alignements
O. Lecompte – IGBMC
ASM2
5
Alignement multiple progressif
1) Alignements
g
2 à 2 de toutes les séquences
q
(pairwise
p
alignments)
g
Hbb_human
Ex : alignements pairwise
locaux de séquences
d’hémoglobine
Hba_human
Hbb_human
Hbb_horse
Hba_human
Hbb_horse
3 LTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLST ...
|.| :|. | | |||| . | | ||| |: . :| |. :| | |||
2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLS. ...
1 VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLST ...
| |. |||.|| ||| ||| :|||||||||||||||||||||:||||||
1 VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSN ...
2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH ...
|| :| | | | ||
| | ||| |: . :| |. :| | |||.
3 LSGEEKAAVLALWDKVNEE..EVGGEALGRLLVVYPWTQRFFDSFGDLSN ...
LL’alignement
alignement peut être obtenu par :
- méthode globale ou locale
- programmation dynamique ou méthodes heuristiques
Exemple dans le programme Clustalx:
=> alignements locaux
=> choix entre :
- méthode heuristique (utilisée dans Fasta)
=> plus rapide
- programmation dynamique (Smith & Waterman) => plus fiable
O. Lecompte – IGBMC
ASM2
Alignement multiple progressif
2) Construction d’une
matrice de distances
Ex : 7 globin sequences
O. Lecompte – IGBMC
Hbb_human
Hbb_horse
Hbb
horse
Hba_human
Hba_horse
Myg_phyca
Glb5_petma
Lgb2_lupla
Exemple dans Clustalx :
distance entre 2 séquences = 1- nb résidus identiques
nb résidus comparés
1
2
3
4
5
6
7
.17
.59
.59
.77
.81
.87
1
.60
.59
.77
.82
.86
2
.13
.75
.73
.86
3
.75
.74
.88
4
.80
.93
5
.90
6
7
ASM2
6
Alignement multiple progressif
• Sequential branching
3) Détermination de l’ordre
d’alignement
• Construction d’un arbre
- Neigbor-Joining (NJ)
- UPGMA
- Maximum likelihood
Progressive alignment using sequential branching
Hba human
Hba_human
Hba_horse
Progressive alignment following a guide tree
.081
226
.226
1
.061
2
Hbb_horse
Hbb_human
3
Glb5_petma
.015
4
.062
5
Myg_phyca
6
6
5
4
3
2.084
.055
.219
1.065
Hbb_horse
Hba_human
Hba_horse
.398
Myg_phyca
.389
Glb5_petma
.442
Lgb2_lupla
O. Lecompte – IGBMC
Hbb human
Hbb_human
Lgb2_lupla
ASM2
Alignement multiple progressif
4) Alignement progressif
Les séquences sont progressivement alignées (algorithme global ou local) :
- alignement de 2 séquences
- alignement d’une séquence et d’un profil
- alignement de 2 profils
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
O. Lecompte – IGBMC
ASM2
7
Construction d’un profil
Profil = matrice de scores position-spécifiques
position spécifiques (Position
Position-specific
specific scoring matrix
matrix=PSSM)
PSSM)
20
Scores calculés à partir :
d=1
• d’une matrice de substitutions (Blosum…)
Profile (pos p, res r) =  wd x Mat (res d, res r)
avec Mat : la matrice de substitution
wd : le poids du résidu d à la position p
Alignement :
i=1
Seq 1
Seq 2
Seq 3
p=1
Profil :
TXXX
TXXX
WXXX
positions
• des fréquences des résidus à chaque position
20 aa
Pos
Pos
Pos
Pos
A C
D E F G H I K L M N P Q R S T V W Y
1 –1 –1.3
2
3
4
Calcul (avec poids des résidus = fréquence des résidus) :
Profile (pos 1, A) = 2/3 x Blo62 (T,A) + 1/3 x Blo62 (W,A) = 2/3 x 0 + 1/3 x (–3) = -1
Profile (pos 1, C) = 2/3 x Blo62 (T,C) + 1/3 x Blo62 (W,C) = 2/3 x (-1) + 1/3 x (-2) = -1.3
...
O. Lecompte – IGBMC
ASM2
Profil (PSSM)
20 aa
Séquence
q
consensus
SFVCQACRKAKTKCD
LFVCQACWKSKTKCD
RLVCLQCKKIKRKCD
SFVCLRCKQRKIKCD
SKACDNCRKRKIKCN
STACVNCRKRKIKCT
SHACDQCRRKRIKCR
SRACDQCRKKKIKCD
TKACDRCHRKKIKCN
TVVCTNCKKRKSKCD
O. Lecompte – IGBMC
S
F
A
C
D
N
C
R
K
R
K
I
K
C
D
A
0
-7
8
0
-5
0
0
-66
-3
-2
-3
-4
-3
0
-6
C D E F G H
-4 -3 -3 -11 -7 -4
-6 -10 -7 0 -15 -1
-1 -11 -7 -10 -11 -9
32 -16 -15 -3 -18 -5
-11 2 -1 -10 -10 -4
-9 -1 0 -11 -5 0
32 -16 -15 -3 -18 -5
-10
10 -66 -33 -11
11 -11
11 1
-10 -3 0 -13 -9 0
-7 -5 -2 -12 -10 -3
-9 -3 0 -14 -9 0
-6 -12 -10 -6 -17 -9
-9 -2 1 -14 -9 0
32 -16 -15 -3 -18 -5
-13 12 2 -15 -4 -2
I K
-10 -1
-4 -1
1 -6
-6 -9
-7 -3
-11 2
-6 -9
-12
12 7
-11 13
-9 6
-11 16
7 -6
-11 17
-6 -9
-15 0
L M
-8 -4
-2 -1
-5 -2
-8 -2
-5 -4
-10 -4
-8 -2
-10
10 -66
-9 -4
-8 -4
-10 -5
-1 0
-10 -5
-8 -2
-14 -9
N P Q R
-1 -6 0 -1
-6 -11 -3 -2
-9 -6 -5 -7
-11 -11 -12 -9
-1 -8 0 -5
4 -6 6 3
-11 -11 -12 -9
-33 -99 1 10
0 -6 5 9
-3 -7 1 8
0 -6 4 9
-8 -10 -5 -7
0 -6 4 7
-11 -11 -12 -9
7 -7 0 -2
S
9
-6
-3
-2
-3
0
-2
-44
-2
-1
-2
-6
-2
-2
0
T
5
-3
-1
-5
-1
-1
-5
-44
-1
-1
-2
0
-1
-5
0
V W Y
-7 -18 -9
-4 -12 -2
7 -19 -10
-2 -20 -4
-6 -20 -9
-9 -19 -7
-2 -20 -4
-11
11 -99 -66
-9 -18 -9
-7 -15 -9
-9 -18 -10
3 -16 -9
-9 -19 -10
-2 -20 -4
-13 -21 -8
ASM2
8
Pondération des résidus dans un profil
.226
.061
ClustalW diminue le poids des
séquences sur-représentées
.081
Hbb_human
.084
Hbb_horse
.055
Hba_human
.065
Hba_horse
.219
.015
.062
.398
Myg_phyca
.389
Glb5_petma
.442
Lgb2_lupla
Hbb h
Hbb_human
0 081 + 0.226/2
0.081
0 226/2 + 0.061/4
0 061/4 + 0.015/5
0 015/5 + 0.062/6
0 062/6
221
= .221
Hbb_horse
0.084 + 0.226/2 + 0.061/4 + 0.015/5 + 0.062/6
= .225
Hba_human
0.055 + 0.219:2 + 0.061/4 + 0.015/5 + 0.062/6
= .194
Hba_horse
0.065 + 0.219:2 + 0.061/4 + 0.015/5 + 0.062/6
= .203
Myg_phyca
0.398 + 0.015/5 + 0.062/6
= .411
Glb5_petma
0.389 + 0.062/6
= .398
0.442
= .442
Lgb2_lupla
O. Lecompte – IGBMC
ASM2
Pénalités des gaps
•
Pénalité linéaire (affine) : P = x + y L
•
Les pénalités position-spécifiques et résidu-spécifiques :
Dans ClustalW, les pénalités liées à l’introduction de gap sont :
- diminuées aux positions où préexiste un gap
- augmentées à proximité d’un gap préexistant (à moins de 8 résidus)
- diminuées dans les régions hydrophiles (loop)
sinon : les pénalités d’ouverture de gap sont modifiées selon une table résidu- spécifique
(Pascarella & Argos, 1992) => fréquence relative des résidus adjacents aux gaps
30
20
10
0
HLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDL
QLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDL
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLS
VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLS
O. Lecompte – IGBMC
L’alignement final se
présentera sous forme
de blocs étendus.
Certains résidus isolés
peuvent être mal
alignés.
ASM2
9
Alignement multiple progressif
H1
H2
H3
H4
HBB_HUMAN
HBB_HORSE
HBA_HUMAN
HBA_HORSE
MYG_PHYCA
GLB5_PETMA
LGB2_LUPLU
--------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDN
--------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDN
---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDD
---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDD
---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGH
PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVASMDD
--------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVP--QNNPELQAHAGKVFKLVYEAAIQLQV
*: :
: * .
:
.:
*:
* :
..
.:: *.
: .
HBB_HUMAN
HBB_HORSE
HBA HUMAN
HBA_HUMAN
HBA_HORSE
MYG_PHYCA
GLB5_PETMA
LGB2_LUPLU
-----LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH----------LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH----------MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR-----MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
-----LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR----------HEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
T--EKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMSMICILLRSAY------TGVVVTDATLKNLGSVHVSKG-VADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--: *. * . :
: .
:
: .:
...
.
:
H5
O. Lecompte – IGBMC
H6
H7
ASM2
ClustalX
O. Lecompte – IGBMC
ASM2
10
Alignement multiple progressif
Global
Local
SBpima
SB
multal
NJ
UPGMA
ML
MLpima
SB - sequential branching
O. Lecompte – IGBMC
clustalx
multalign
pileup
UPGMA- Unweighted Pair Grouping Method
ML - maximum likelihood
NJ - neighbor-joining
ASM2
Méthodes utilisées

Alignement multiple optimal
ex : MSA, OMA

Alignement multiple progressif
ex : ClustalW, ClustalX

Alignement
g
multiple
p itératif
ex : PRRP, SAGA
O. Lecompte – IGBMC
ASM2
11
Iterative refinement
PRRP (Gotoh, 1993) refines an initial progressive multiple alignment by
iteratively dividing the alignment into 2 profiles and realigning them.
divide sequences
into 2 groups
profile 1
initial
g
alignment
Global
progressif
pairwise
profile
alignment
refined
alignment
converged?
profile 2
no
O. Lecompte – IGBMC
ASM2
Genetic Algorithms
SAGA (Notredame et al.1996) evolves a population of alignments in a quasi
evolutionary manner, iteratively improving the fitness of the population
population n
select a number of individuals to be parents
modify the parents by shuffling gaps,
gaps merging 2 alignments etc.
etc
population n+1
evaluation of the fitness using OF
(sum-of-pairs or COFFEE)
END
O. Lecompte – IGBMC
ASM2
12
Méthodes d’alignement multiple
Progressive
Global
Local
SBpima
SB
multal
NJ
ML
UPGMA
MLpima
multalign
pileup
il
clustalx
prrp
dialign
Genetic Algo.
HMM
saga
hmmt
Iterative
O. Lecompte – IGBMC
ASM2
Comparaison des programmes
BaliBASE
(Thompson et al. Bioinformatics. 1999 ; Bahr et al, NAR 2001 ; Thompson et al., Proteins 2005)
• alignements basés sur des superpositions de structures tridimensionnelles
• alignements comparés uniquement pour les régions superposables
• différents cas :
- nombre de séquences
- longueur des séquences
- similarité entre séquences
- séquence “orpheline” / famille de séquences
- sous-familles
- insertions, extensions
-…
O. Lecompte – IGBMC
ASM2
13
BaliBASE
Families of Sequences
“Orphan”
p
Sequences
q
Family 1 (>25% ID)
Family (>25% ID)
Family 2 (>25% ID)
Family 3 (>25% ID)
Orphan Sequence (<20% ID)
O. Lecompte – IGBMC
ASM2
Reference1:< 6equidistant
sequences
total
multal
<100
>400
residues
residues
Reference2:
Reference3:
Reference4:
Reference5:
a familywith
several
large terminal
large internal
orphans
families
extensions
insertions
N/A
N/A
N/A
N/A
multalign
pileup
clustalx
prrp
iterative
saga
hmmt
N/A
N/A
MLpima
SBpima
iterative
dialign
Thompson et al. NAR 27:2682-2690 (1999)
14
Choix d’un programme
Global/Local
Séquences colinéaires
Extensions N/C-terminales ou insertions
=> méthodes globales
=> méthodes locales
Progressif/Itératif
Les méthodes itératives améliorent généralement l’alignement
Problèmes :
89 seq histone (66 à 92 aa)
- Séquences orphelines
ClustalW
2 mins 41 secs
PRRP
3 hours 40 mins
- Le processus itératif peut être très long !
Dialign
3 hours 48 mins
Pour améliorer l’alignement, il faut inclure autant de séquences que possible !
O. Lecompte – IGBMC
ASM2
Méthodes d’alignement multiple
Optimal
alignment
1975
Progressive
alignment
1987
Iterative
strategies
1996
Clustal
PRRP
SAGA
Dialign
HMMER
MultAlign
PileUp
PIMA
1975
1985
1990
1995
1994
McClure
O. Lecompte – IGBMC
Co-operative
strategies
2000
DbClustal
T-Coffee
MAFFT
MUSCLE
ProbCons
2000
2005
1999
BAliBASE
ASM2
15
Combinaison d’approches
• T-Coffee (Notredame et al. 2000) performs local and global
alignments for all pairs of sequences, then combines them in a
progressive multiple alignment, similar to ClustalW.
• DbClustal (Thompson et al. 2000) is designed to align the sequences
detected by a database search. Locally conserved motifs are detected
using the Ballast program (Plewniak et al. 1999) and are used in the
global multiple alignment as anchor points.
• MAFFT (Katoh et al. 2002) detects locally conserved segments using
a Fast Fourier Transform, then uses a restricted global DP and a
progressive algorithm
O. Lecompte – IGBMC
ASM2
DbClustal
Intègre recherche de similarité
Couplage local et global
A partir d ’une séquence « query » :
1) Recherche de séquences similaires
=> Blast
2) Recherche de LMS (Local Maximum Segments)
=> Ballast
3) Alignement global intégrant les ancres locales
fournies par Ballast
http://bips.u-strasbg.fr/PipeAlign/
O. Lecompte – IGBMC
ASM2
16
Ballast
Query
E(N) < 0.1
E(N) > 0.1
LMS (local maximum segments)
Plewniak
et al.
Bioinformatics 2000
O.
Lecompte
– IGBMC
ASM2
Ballast
S. cerevisiae GAL4 regulatory protein
I
Zn2 Cys6
O. Lecompte – IGBMC
II
III
IV
V
VI
VII
VIII
Putative inhibitory domain
ASM2
17
DbClustal
Blast Database Search
Query Sequence
Ballast Anchors
DbClustal Alignment
Query Sequence
Anchors
Database Hits
Domain A
Domain B
Domain C
O. Lecompte – IGBMC
ASM2
Comparaison ClustalW / DbClustal
ClustalW
DbClustal
O. Lecompte – IGBMC
ASM2
18
MAFFT
• Local homologous segments detected using a Fast Fourier
Transform
• Pairwise alignments are performed using restricted global
dynamic programming
• Multiple alignment is built up using a progressive algorithm,
similar to ClustalW
• Multiple alignment is then iteratively refined by dividing
alignment into 2 parts and realigning
O. Lecompte – IGBMC
ASM2
MAFFT
Pairwise alignments
g
c(k)
-1 2
k
K=2
GLWGKAAAEEEGLWLFF—--KGVFGAEQEGLFVFFGG
K=-1
-GLWGKAAAEEEGLWLFF
KGVFGAEQEGLFVFFGG-
1. Fast Fourier
Transform
to detect local
conserved segments
O. Lecompte – IGBMC
2. Segment Level Dynamic
Programming
to select ‘consistent’
segments
3. Fix residues at the centre
of each segment pair and
realign between fixed points
(white regions only)
ASM2
19
MUSCLE
Edgar et al, NAR 2004
O. Lecompte – IGBMC
ASM2
20