1 +1 - Céline Brochier

Transcription

1 +1 - Céline Brochier
Bioinformatique: alignement
de séquences
Céline Brochier-Armanet
Université Claude Bernard, Lyon 1
Laboratoire de Biométrie et Biologie évolutive (UMR 5558)
[email protected]
• Problème NP-complet
• Requière l’utilisation d’heuristiques
• > 100 heuristiques disponibles => solutions
différentes
• Le choix
Alignement global vs alignement local
A1
B1
C1
A'1
A2
Séquence 1
B1
A2 C2
A1
B1
B2
A2
A1
A2
A'1
A2
C1 A'1
C1
C2
B2
B1
B2
Séquence 2
Needleman
& Wunsch
FASTA
A1
C2
C1
C2
A'1
B2
Smith &
Waterman
BLAST
Alignement de deux séquences vs alignement
multiple
Séquence 1
Séquence 2
Séquence 1
Séquence 2
Séquence 3
Séquence 4
Représentation
•
Les résidus (nucléotides, acides aminés) sont superposés de façon à
maximiser la similarité entre les séquences (selon les critères choisis) :
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * *
* * *
* * *
*
•
Il existe deux sortes de mutations :
– Substitutions (mismatches).
– Insertions et délétions (indels ou gaps).
Quel est le bon alignement ?
G T T A C G A
G T T - G G A
* * *
* *
ou
G T T A C - G A
G T T - - G G A
* * *
* *
G T T A C G A
G T T G - G A
* * *
* *
• Doit maximiser la « similarité » entre les séquences
 Évolution : seront alignés ensemble des résidus homologues,
cad descendant d’un même résidu ancestral.
 Structure : seront alignés ensembles des résidus occupant
une position équivalente des résidus dans des structures 2D
ou 3D.
 Fonction : seront alignés ensembles des résidus ayant des
fonctions similaires.
Critères
d’évaluation
/
comparaison
des alignements
Matrices de points (dot-plot)
• Comparaison visuelle de
deux séquences :
– Une suite de points en
diagonale indique une
similarité locale.
– Méthode simple et rapide :
• Algorithme en O(nm).
– Visualisation des répétitions directes ou inversées.
– Pas d’alignement global.
– Pas de score associé.
C T T GCA CGTA T
C
T
G
C
A
C
G
T
A
T
T
A
Élimination du bruit de fond
• Filtrage en affichant un point uniquement si
plusieurs résidus successifs correspondent :
– Exemple des hémoglobines  et  humaines :
Identités = 3/10
Identités = 5/10
Fonction de score de similarité
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * *
* * *
* * *
*
Score = Score Identités + Score Différences
Identité
Substitution
Gap
= +1
=0
= -1
Score = 10 - 4 = 6
Modèle d’évolution (ADN)
A
C
G
T
P(transition) > P(transversion)
G T T A C G A
G T T G - G A
* * * :
* *
>
G T T A C G A
G T T - G G A
* * *
* *
Matrice de substitution (ADN)
G
G
1
T
T
1
A
1
C
0
1
G
0.5
0
1
T
0
0.5
0
1
A
C
G
T
T A
T 1 -1
C
G
0
Score = 4
G
G
1
A
A
1
(A, A) = 1.0
(A, G) = 0.5
(A, –) = -1
<
G
G
1
T
T
1
T A C
T G 1 .5 -1
Score = 4.5
G
G
1
A
A
1
Le cas des acides aminés
• Plus difficile à modéliser que celui des nucléotides :
– Un acide aminé peut être remplacé par un autre de différentes
façons (code génétique).
• Asp (GAC)  Tyr (UAC, UAU) 1 ou 2 mutations
Le cas des acides aminés
• Plus difficile à modéliser que celui des nucléotides :
– Un acide aminé peut être remplacé par un autre de différentes
façons (code génétique).
– Le nombre de substitutions requises pour passer d’un acide
aminé à un autre diffère.
Asp (GAC, GAU)  Tyr (UAC, UAU) 1 mutation
Asp (GAC, GAU)  Cys (UGC, UGU) 2 mutations
Asp (GAC, GAU)  Trp (UGG)
3 mutations
Le cas des acides aminés
• Plus difficile à modéliser que celui des nucléotides :
– Un acide aminé peut être remplacé par un autre de différentes
façons (code génétique).
– Le nombre de substitutions requises pour passer d’un acide
aminé à un autre diffère.
– La probabilité des substitutions au niveau nucléotidique diffère :
P(AAUAsn|GAUAsp) > P(AAUAsn|CAUHis)
Le cas des acides aminés
• Plus difficile à modéliser que celui des nucléotides :
– Un acide aminé peut être remplacé par un autre de différentes
façons (code génétique).
– Le nombre de substitutions requises pour passer d’un acide
aminé à un autre diffère.
– La probabilité des substitutions au niveau nucléotidique diffère :
– Certaines substitutions peuvent avoir plus ou moins d’effet sur la
fonction des protéines.
• Acidité, hydrophobicité, structure des protéines, etc.
Substitutions
conservatrices
Val
Ile
NH2
NH2
H
C
COOH
H
C
COOH
H
C
CH3
H
C
CH3
CH3
CH2
CH3
Modèles d’évolution (prot.)
• Mesure des fréquences de substitution dans des
alignements de protéines homologues :
– Matrices basées sur des arbres construits en utilisant
le maximum de parcimonie :
• PAM (Dayhoff et al., 1978).
• JTT (Jones et al., 1992).
– Matrices basées sur des arbres construits en utilisant
le maximum de vraisemblance :
• WAG (Whelan et Goldman, 2001).
– Matrices basées sur des comparaisons par paires
utili-sant des alignements locaux :
• BLOSUM (Henikoff et Henikoff, 1992).
Matrice de substitution (prot.)
D
6
E
2
5
F
-3
-3
6
G
-1
-2
-3
6
W
-4
-3
1
-2
11
D
E
F
G
W
(D, D) ≠ (W, W)
M R D W - G F
M R - W D G F
* *
*
* *
Certains acides aminés
sont moins facilement
substituables
>
M R - D W G F
M R W D - G F
* *
*
* *
Matrices de Dayoff ou PAM
– PAM = Percentage of Accepted point Mutation Margaret Dayhoff, 1978
– Probabilité d'observer la mutation X->Y après un temps évolutif
donné. Basé sur alignement de protéines conservées à + de 85%.
Chaque case représente la probabilité de voir ces deux résidus remplacés l'un par l'autre
dans un alignement. (matrice lod-score, de "log-odds" ou "log des chances").
•Un exemple de lod-score est:
S = log (Fij / (Fi x Fj))
Où Fij est la fréquence de remplacement du résidu i par j, et Fi et Fj sont les fréquences
respectives des résidus i et j.
•Dans cette matrice de similitude, plus la valeur est négative, plus la probabilité est faible,
plus le remplacement est rare.
•La table est valable pour une certaine distance évolutive.
•La distance est mesurée en PAM: nbre de mutations ponctuelles par 100 aa.
•2 Séquences séparées par une unité PAM: 1 mutation par 100 aa.
•Les valeurs sont déterminées initialement pour des protéines séparées de 6 à 100 PAM,
puis extrapolées pour 150, 250 PAM, etc.
•Pour des protéines éloignées, on ne pourrait pas directement extrapoler à partir de valeurs
tirées par ex. de PAM 10, car la nature des mutations change avec la distance évolutive. Le
code génétique, par exemple, influence les mutations permises sur une courte durée, mais
pas sur une longue durée.
Matrice de Dayoff (1979)
A
0.4
B
C
D
E
F
G
H
0.0 -0.4 0.0 0.0 -0.8 0.2 -0.2
0.5 -0.9 0.6 0.4 -1.0 0.1 0.3
2.4 -1.0 -1.0 -0.8 -0.6 -0.6
0.8 0.6 -1.2 0.2 0.2
0.8 -1.0 0.0 0.2
1.8 -1.0 -0.4
1.0 -0.4
1.2
University of Nijmegen
W=Tryprophane (Cyclique)
C= Cysteine (Soufre)
I
-0.2
-0.4
-0.4
-0.4
-0.4
0.2
-0.6
-0.4
1.0
K
-0.2
0.1
-1.0
0.0
0.0
-1.0
-0.4
0.0
-0.4
1.0
L
-0.4
-0.7
-1.2
-0.8
-0.6
0.4
-0.8
-0.4
0.4
-0.6
1.2
M
-0.2
-0.5
-1.0
-0.6
-0.4
0.0
-0.6
-0.4
0.4
0.0
0.8
1.2
N
0.0
0.4
-0.8
0.4
0.2
-0.8
0.0
0.4
-0.4
0.2
-0.6
-0.4
0.4
P
0.2
-0.2
-0.6
-0.2
-0.2
-1.0
-0.2
0.0
-0.4
-0.2
-0.6
-0.4
-0.2
1.2
Q
0.0
0.3
-1.0
0.4
0.4
-1.0
-0.2
0.6
-0.4
0.2
-0.4
-0.2
0.2
0.0
0.8
R
-0.4
-0.1
-0.8
-0.2
-0.2
-0.8
-0.6
0.4
-0.4
0.6
-0.6
0.0
0.0
0.0
0.2
1.2
S
0.2
0.1
0.0
0.0
0.0
-0.6
0.2
-0.2
-0.2
0.0
-0.6
-0.4
0.2
0.2
-0.2
0.0
0.4
T
0.2
0.0
-0.4
0.0
0.0
-0.6
0.0
-0.2
0.0
0.0
-0.4
-0.2
0.0
0.0
-0.2
-0.2
0.2
0.6
V
0.0
-0.4
-0.4
-0.4
-0.4
-0.2
-0.2
-0.4
0.8
-0.4
0.4
0.4
-0.4
-0.2
-0.4
-0.4
-0.2
0.0
0.8
W
-1.2
-1.1
-1.6
-1.4
-1.4
0.0
-1.4
-0.6
-1.0
-0.6
-0.4
-0.8
-0.8
-1.2
-1.0
0.4
-0.4
-1.0
-1.2
3.4
Y
-0.6
-0.6
0.0
-0.8
-0.8
1.4
-1.0
0.0
-0.2
-0.8
-0.2
-0.4
-0.4
-1.0
-0.8
-0.8
-0.6
-0.6
-0.4
0.0
2.0
Z
0.0
0.4
-1.0
0.5
0.6
-1.0
-0.1
-0.4
-0.4
0.1
-0.5
-0.3
0.2
-0.1
0.6
0.6
-0.1
-0.1
-0.4
-1.2
-0.8
0.6
A
B
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
Z
Matrices PAM et JTT
• PAM (Point Accepted Mutation) :
– 71 familles de gènes nucléaires correspondant à
1300 séquences :
• Séquences peu divergentes entre elles (identité ≥ 85 % entre
chaque paire possible dans une famille).
– Alignements globaux.
• JTT (Jones, Taylor and Thornton) :
– Construites à partir de 59 190 mutations ponc-tuelles
observées dans 16 300 protéines.
– Alignements globaux.
Seuil pour les matrices PAM
85
Twilight Zone
% de différences
75
65
55
45
35
25
15
5
0
100
200
PAM
300
400
Matrices BLOSUM
• BLOSUM (Blocks Substitution Matrices) :
– Utilisation de ~2000 domaines conservés provenant
de 500 familles de protéines.
– Comparaisons effectuées dans les domaines alignés
(banque BLOCKS).
– Matrices créées à partir de domaines comprenant des
séquences ± divergentes :
• Toutes les paires ayant servi a construire une matrice
BLOSUMk ont une identité ≥ à k %.
• Matrices plus adaptées pour des protéines distantes du point
de vue évolutif.
Choix d’une matrice
100
•
90
90
80
50
70
62
60
50
50
100
40
120
30
30
20
Identité %
10
0
250
PAM
•
Pas de matrice idéale.
Meilleurs résultats avec les
matrices utilisant des modèles
d’évolution :
– BLOSUM globalement
meilleures que PAM.
Degré de similarité des
séquences.
Il est recommandé
d’expérimenter !
BLOSUM
•
•
Pondération des gaps
• Pénalités linéaires :
w = o + e k
o : pénalité pour l’ouverture d’un gap.
e : pénalité pour l’extension d’un gap.
k : longueur du gap.
TGATATCGCCA
TGAT-T--CCA
**** * ***
50
30
>
pénalité
40
20
10
0
0
5
10
15
k
20
TGATATCGCCA
TGAT---TCCA
****
***
Autres pondérations
w = o + e log(k)
• Pondération par la
distance évolutive :
– e diminue quand la
distance augmente.
• Pondération par la
nature des résidus :
– e diminue dans les
régions hydrophiles.
40
pénalité
• Pénalités
logarithmiques :
30
20
10
0
0
5
10
15
20
k
Cœur
hydrophobe
Résidus
hydrophiles
N
C
Needleman et Wunsch
Représentation sous la forme
d’une trajectoire dans une
matrice :
a1
– Détermination de la trajectoire
optimisant un score donné.
– Définition de la matrice de
chemin S :
• Dans chaque case de cette
matrice on stocke S(i, j), le
score optimum de la
trajectoire permettant
d’arriver à cette case.
…
Soit deux séquences A et B de
longueurs m et n :
b1
Séquence B
•
Séquence A
… ai … am
bj
…
•
bn
S(i, j)
Construction de la matrice
• Soit S(i, j) la valeur optimum du score dans la case de
coordonnées (i, j) :
– Définition par rapport aux scores dans les trois cases
adjacentes (i – 1, j), (i – 1, j – 1) et (i, j – 1) :
i–1
i
j–1
j
S(i, j)
S(i – 1, j) + (ai, –),
S(i, j) = max S(i – 1, j – 1) + (ai, bj),
S(i, j – 1) + (–, bj)
Bords de la matrice
• Les cases situées sur le bord du haut ou le bord gauche de la
matrice ne possèdent plus le total requis de trois cases
précédentes :
– On ajoute une ligne et une colonne supplémentaires afin d’initialiser
la matrice. Le balayage ne se faisant plus qu’avec des indices ≥ 1
on ne rencontre plus de cases nécessitant un traitement particulier.
Bord du haut
Bord gauche
S(i, j)
S(i, j)
Exemple de calcul
0
A
-2
T
-4
T
-6
A
-8
A
G
C
T
A
-2
-4
-6
-8
-10
-4
+1
-4
-1
-2
-6
-3
-4
-8
-5
-5
-10
-6
-2
-1
-3
+1
-3
-1
-1
-5
-3
-3
-7
-8
-4
-3
-5
-1
-1
-3
+1
-3
-1
-1
-5
-10
-6
-5
-7
-2
-3
-4
0
-1
-2
+1
-3
-12
-7
-7
-9
-5
-4
-6
-2
-2
-4
+1
-1
Identité :
+1
Mismatch : +0
Gap :
-2
A G C T A
A – T T A
+1 -2 +0 +1 +1
S = +1
A G C T A
A T – T A
+1 +0 -2 +1 +1
S = +1
Smith et Waterman
• Algorithme dérivé de Needleman et Wunsch :
– Initialisation des bords à 0.
– N’importe quelle case de la matrice peut être
considérée comme point de départ pour le calcul
du score.
i–1
i
S(i – 1, j) + (ai, –),
S(i – 1, j – 1) + (ai, bj),
S(i, j) = max
S(i, j – 1) + (–, bj)
0
j–1
j
S(i, j)
S(i, j) < 0  S(i, j) = 0
L’alignement de n séquences
• Application possible du Needleman & Wunch à plus de deux
séquences (en théorie)
Pairwise Alignment:
three possibilities
Alignment of three
sequences : seven possibilities
• Le nombre de possibilité pour aligner n séquences est proportionnel
à 2n – 1.
• Le besoin en mémoire et ressources de calcul augmentent de
manière exponentielle avec le nombre de séquences
 Application d’heuristiques
Outils pour la recherche par similarité
• Utilisation d’outils comme BLASTP/TBLASTN pour la recherche par
similarité dans différentes banques de données de séquences
protéiques/nucléiques
•
Banques de séquences protéiques types
– SWISS-PROT : banque non redondante de séquences protéiques
confirmées (Août 2010: 519 348 entrées (158,316 en 2004), incluant de
nombreuses annotations et références croisées avec d’autres banques
de séquences, de structures, de familles protéiques, de références
bibliographiques, de descriptions de la fonction et du rôle biologique des
protéines…
– TrEMBL : banque non redondante de traduction des CDS soumis à
EMBL (Août 2010: 11 636 205 entrées (1 400 820 en 2004)
BLAST : principe général
Mot
Séquence banque
Séquence requête
Longueur du mot = w
Score ≥ T
Séquence banque
Séquence requête
Extension du
segment similaire
HSP : High Scoring Pair
Score
Score max.
x
T
Extension stoppée quand :
- la fin d’une des deux séquences est atteinte
- score ≤ 0
- score ≤ score_max - x
Extension du segment
©Guy Perrière
Exemple
S L A A L L N K C K T P Q G Q R L V N Q W
x
Liste
de mots
T
voisins
Query : 325
Sbjct : 290
P Q
P E
P R
P K
P N
P D
P H
P M
P S
P Q
P Q
...
G
G
G
G
G
G
G
G
G
A
N
18
15
(P, P) = 7
14
(Q, R) = 1
14
(G, G) = 6
13
13
13
13
13
Score seuil T = 13
12
12
S L A A L L N K C K T P Q G Q R L V N Q W
+ L A + + L +
T P
G
R + +
+ W
T L A S V L D C T V T P M G S R M L K R W
345
310
©Guy Perrière
Versions de BLAST
• blastp : protéine vs.
protéine.
• blastn : utile pour le
non-codant.
• blastx : séquences codantes non identifiées.
• tblastn : homologues
dans un génome non
complètement annoté.
Séquence
Banque
blastp
Protéique
Protéique
T
blastn
Nucléique
T
Nucléique
T
tblastx
©Guy Perrière
Évaluation statistique
• Similarités détectées :
– Relations significatives.
– Similarités dues au hasard.
• Fonction de score :
– Mesure sous la forme :
• D’une espérance
mathématique (E-value).
• Valeur en bits.
– Basée sur une distribution
calculée à partir séquences
non homologues.
– Les scores dépendent de
la taille de la banque.
©Guy Perrière
E-value, bits et similarité
• Soit E, l’espérance mathématique d’avoir une similarité ≥
au score S observé :
E = Kmn e–S
Avec m et n les longueurs des deux séquences considérées, et K et
 deux paramètres dérivés de la distribution précédente.
• Le score en bits S' est donné par :
S' = [S – log(K)] / log(2)
• La relation entre E et S' est donc donnée par :
E = mn 2–S'
©Guy Perrière
Recherche par Blast au NCBI
Choix des paramètres
Choix des paramètres
Choix des paramètres avancés
Résultats du BLAST : Entête
Résultats du BLAST : Reformater les
résultats
Résultats du BLAST : Domaines conservés
Résultats du BLAST : Vue graphique
Résultats du BLAST : Descriptions
Résultats du BLAST : Alignements locaux
Résultats du BLAST : Alignements locaux
Taxonomy report
Caractéristiques des principaux logiciels
d’alignement multiple
Composants principaux
des algorithmes
Principaux logiciels
(Chatzou et al. 2015)
L’alignement progressif
• Principe = procédure itérative basée sur le regroupement
d’alignements deux à deux pour construire un alignement multiple
• Trois étapes :
– Alignement de paires de séquences
– Construction d’un arbre guide
– Alignement de groupes de séquences déjà alignées (alignement
progressif).
• CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le
programme d’alignement multiple le plus cité.
• MULTALIN, PILEUP, T-Coffee, Muscle
L’homologie, base théorique de l’alignement
multiple
• Les séquences homologues sont reliées d’un point de
vue évolutif
• Idée = construire progressivement un alignement, à
partir de séries de séquences (ou de groupes de
séquences) alignées deux à deux, suivant un ordre de
branchement donné par un arbre phylogénétique
– Alignement des séquences les plus proches d’un point de vue
phylogénétique
– Intégration progressive des séquences un peu plus éloignées
• Approche suffisamment rapide pour permettre la
construction d’alignements contenant un grand nombre
de séquences
Alignement progressif
• Construction itérative par groupement des alignements
de paires de séquences :
– Alignement de toutes les paires possibles :
• Établissement d’une matrice de distances basée sur les
scores des alignements.
– Groupement des paires et / ou des séquences.
– Groupement des alignements (alignement progressif proprement
dit).
• Différentes implémentations disponibles :
– CLUSTAL, MULTALIN, MUSCLE.
Algorithme de CLUSTAL W
• Alignement de toutes les paires de séquences deux à
deux par l’algorithme de Needleman et Wunsh
• Construction d’une matrice de distances d’après la
divergence mesurée entre chaque paire de séquences
• Calcul d’un arbre guide à partir de la matrice de
distances
• Alignement progressif des séquences suivant l’ordre de
branchement donné par l’arbre
Exemple
• Alignement de 7 séquences de globines:
–
–
–
–
–
–
–
Hémoglobine b Humaine (Hbb_H)
Hémoglobine a Humaine (Hba_H)
Hémoglobine b Cheval (Hbb_C)
Hémoglobine a Cheval (Hba_C)
Myoglobine de cétacé Physeter catodon (Myo)
Hémoglobine V de lamproie Petromyzon marinus (Glb5)
Leghémoglobine II de Lupin (Lgb)
Alignement des séquences 2 à 2 et
construction de la matrice de distances
• Alignement des séquences 2 à 2 par programmation dynamique
(algorithme de Needleman et Wunsh) connaissant une matrice de
similarité et les pénalité dues aux gaps (ouverture et extension)
• Score = nombre d’identités / nb de résidus comparés (excluant les
gaps)
• % de divergence = 1 - score
• Remarque : le calcul du score ne tient pas compte des substitutions
multiples, mais on peut utiliser des modèles d’évolution comme
Kimura ou JC pour en tenir compte
Alignement des séquences 2 à 2 et
construction de la matrice de distances
Hbb_H
Hbb_H Hbb_C 0.17
Hba_H 0.59
Hba_C 0.59
Myo
0.77
Glb5 0.81
Lgb
0.87
Hbb_C Hba_H Hba_C Myo Glb5 Lgb
0.60
0.59
0.77
0.82
0.86
0.13
0.75
0.73
0.86
0.75
0.74
0.88
0.80 0.93 0.90
-
Construction de l’arbre guide
• Arbre phylogénétique non raciné construit par la
méthode du Neighbor-Joining à partir de la matrice de
distances calculée précédemment
– Longueur des branches <=> proportionnelle à la
divergence estimée
– Racine placée au « poids moyen » <=> Longueur des
branches d’un côté de la racine = longueur des
branches de l’autre côté
Construction de l’arbre guide
Myo
Hba_H
0.081
0.061
0.055
0.219
Hbb_H
0.398
0.065
Hba_C
Leg
0.226
0.084
Hbb_C
0.504
0.389
Glb5
Positionnement de la racine au poids moyen (point à partir duquel les
longueurs moyennes des branches de chaque côté du nœud sont égales)
Placement de la racine
Myo
Hba_H
0.081
0.061
0.055
0.219
Hbb_H
0.398
0.065
Hba_C
0.226
0.084
Hbb_C
0.504
Leg
ROOT
0.389
Glb5
Positionnement de la racine au poids moyen (point à partir duquel les
longueurs moyennes des branches de chaque côté du nœud sont égales)
Arbre guide raciné
0.081
Hbb_H
0.226
Hbb_C
0.061
0.084
0.055 Hba_H
0.015
0.219
Hba_C
0.065
0.062
ROOT
0.398
0.389
0.442
Myo
Glb5
Leg
Pondération des séquences
• Principe : attribuer un poids à chaque branche de l’arbre
=> Dépend de la taille de la branche et du nombre de taxa
partageant cette branche (redondance de l’information)
=> longueur de la branche / nombre de taxa partageant cette
branche
• Poids d’une séquence =  des longueurs des branches pondérées
de la racine au taxon considéré
Pondération des séquences
0.081
Hbb_H
W1 = 0.062/6 + 0.015/5 + 0.061/4 +
0.226/2 + 0.081 = 0.221
Hbb_C
0.084
W2 = 0.062/6 + 0.015/5 + 0.061/4 +
0.226/2 + 0.084 = 0.225
0.055 Hba_H
W3 = 0.194
Hba_C
W4 = 0.203
0.226
0.061
0.015
0.219
0.065
0.062
ROOT
0.398
0.389
0.442
Myo
W5 = 0.411
Glb5
W6 = 0.398
Leg
W7 = 0.442
Alignement progressif
• Principe : utiliser une série de paires d’alignements pour
aligner des groupes de séquences de plus en plus
larges, en respectant l’ordre de branchement dans
l’arbre guide (des feuilles vers la racine)
Alignement progressif
• Dans l’exemple des globines, on aligne dans
l’ordre:
–
–
–
–
–
Les b globines humaines et de cheval
Les a globines humaines et de cheval
Les a et b hémoglobines
Les a, b hémoglobines et la myoglobine
Les hémoglobines, myoglobine et l’hémoglobine de
lamproie
– La leghémoglobine avec toutes les autres
Alignement progressif
• Calcul du score à une position = moyenne des scores
obtenus par toutes les comparaisons 2 à 2 des
séquences de chaque groupe pondérés par le poids de
chaque séquence
Alignement progressif
• Exemple: on cherche à aligner un groupe de 4
séquences (déjà alignées) avec un groupe de 2
séquences (déjà alignées)
Calcul du score:
1
2
3
4
PEEKSAVTAL
GEEKAAVLAL
PADKTNVKAA
AADKTNVKAA
5 EGEWQLVLHV
6 AAEKTKIRSA
M(T,V)
M(T,I)
M(L,V)
M(L,I)
M(K,V)
M(K,I)
M(K,V)
M(K,I)
x
x
x
x
x
x
x
x
w1
w1
w2
w2
w3
w3
w4
w4
x
x
x
x
x
x
x
x
w5
w6
w5
w6
w5
w6
w5
w6
+
+
+
+
+
+
+
/ 8
Score associé à la comparaison d’un gap = 0  plus mauvais score
possible
gi|122615|sp|P02023|HBB_HUMAN
gi|70401|pir||HBHO
gi|122412|sp|P01922|HBA_HUMAN
gi|2144717|pir||HAHO
gi|127687|sp|P02185|MYG_PHYCA
gi|121233|sp|P02208|GLB5_PETMA
gi|126238|sp|P02240|LGB2_LUPLU
gi|122615|sp|P02023|HBB_HUMAN
gi|70401|pir||HBHO
gi|122412|sp|P01922|HBA_HUMAN
gi|2144717|pir||HAHO
gi|127687|sp|P02185|MYG_PHYCA
gi|121233|sp|P02208|GLB5_PETMA
gi|126238|sp|P02240|LGB2_LUPLU
gi|122615|sp|P02023|HBB_HUMAN
gi|70401|pir||HBHO
gi|122412|sp|P01922|HBA_HUMAN
gi|2144717|pir||HAHO
gi|127687|sp|P02185|MYG_PHYCA
gi|121233|sp|P02208|GLB5_PETMA
gi|126238|sp|P02240|LGB2_LUPLU
gi|122615|sp|P02023|HBB_HUMAN
gi|70401|pir||HBHO
gi|122412|sp|P01922|HBA_HUMAN
gi|2144717|pir||HAHO
gi|127687|sp|P02185|MYG_PHYCA
gi|121233|sp|P02208|GLB5_PETMA
gi|126238|sp|P02240|LGB2_LUPLU
-------MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQR
--------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQR
--------MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKT
--------MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKT
---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLE
PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQE
--------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKD
*: :
:
* .
: .:
* :
FFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDN-----LKGTF
FFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDN-----LKGTF
YFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDD-----MPNAL
YFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDD-----LPGAL
KFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGH-----HEAEL
FFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVASMDDT--EKMSMKL
LFSFLKGTSEVP--QNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATL
* :
.
. .:: *. :
.
:
ATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVA
AALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVA
SALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLA
SNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLS
KPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALE
RDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMS
KNLGSVHVSKGVAD-AHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYD
*. * .
: .:
: .:
...
GVANALAHKYH-----GVANALAHKYH-----SVSTVLTSKYR-----SVSTVLTSKYR-----LFRKDIAAKYKELGYQG
MICILLRSAY------ELAIVIKKEMNDAA--.
:
L‘alignement multiple n’est pas toujours
optimal
• Seul l’un de ces alignements est optimal
Muscle
Edgar (2004) Nucleic Acids Res. 32:1792
http://www.drive5.com/muscle/
Global Alignments, Block alignments
Dialign
Morgenstern et al. 1996 PNAS 93:12098
• Search for similar blocks without gap
• Select the best combination of consistent similar blocks (uniforms or
not) : heuristic (Abdeddaim 1997)
• Alignment anchored on blocks
• Slower than progressive alignment, but better when sequences
contain large indels
• Do not try to align non-conserved regions
Alignement multiples locaux
• MEME
• MATCH-BOX
• PIMA
Adapter les choix méthodologiques aux
données
• Muscle
• ClustalW
• Dialign
• T-coffee
• MEME
Multiple alignment editor
Cas spéciaux
Alignement de séquences d’ADN codantes
L
F
L
F
CTT TTC
CTC --L
-
CTT TTC
--- CTC
-
L
(1) Alignement des séquences protéiques
(2) Utilisation de l’alignement obtenu comme guide pour
aligner les séquences d’ADN
protal2dna: http://bioweb.pasteur.fr/seqanal/interfaces/protal2dna.html
Alignement de séquences d’ADN codantes:
le cas des frameshifts
Identification de gènes
• Alignement d’un ARNm avec l’ADN génomique
• Pas de pénalité de gap au niveau des introns =>
Identification de sites d’épissage
• sim4, est2genome
Identification de gènes
• Alignement d’une protéine avec l’ADN génomique
• Pas de pénalité de gap au niveau des introns =>
Identification de sites d’épissage
• genewise
Séquençage par shotgun
Assemblage
• Recherche de séquences chevauchantes entre les reads
• Autoriser / prise en compte des erreurs de séquençage
et/ou du polymorphisme
• Prise en compte de la qualité des séquences
• cap3, phred/phrap (il existe des outils plus sophistiqués
pour l’assemblage de génomes)
Matrix of position-specific amino-acid frequency (A-chain of insulin)
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
-
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
16
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
16
3
1
0
0
1
0
0
0
0
0
0
1
0
0
3
0
1
0
0
0
0
10
4
2
0
0
0
0
2
0
0
0
0
0
0
1
0
2
1
0
0
0
0
9
5
1
0
0
1
0
0
0
0
0
0
0
0
0
0
2
0
3
0
0
1
9
6
0
0
0
0
0
0
1
0
0
0
0
0
2
0
0
0
4
1
0
0
9
7
1
0
0
0
0
9
0
0
0
0
0
4
0
0
1
2
0
0
0
0
0
8
0
0
0
0
1
0
0
8
0
0
5
0
1
0
0
0
0
2
0
0
0
9
2
0
1
0
2
0
0
0
0
0
0
0
0
0
0
0
0
12
0
0
0
10
0
5
6
4
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
11
0
0
1
12
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
0
12
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
14
0
0
0
1
5
0
0
0
0
4
1
0
0
0
1
0
1
0
0
4
0
15
0
0
0
0
0
0
0
1
2
0
0
5
0
1
5
2
0
1
0
0
0
16
0
0
0
1
0
2
0
2
0
0
0
0
5
1
0
3
0
2
0
1
0
17
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
18
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
4
9
0
0
0
0
19
0
0
1
0
0
0
0
1
1
5
0
1
1
1
0
0
1
4
0
1
0
20
1
0
6
0
0
1
0
0
0
0
0
0
0
2
3
3
0
0
0
1
0
21
0
0
1
3
0
0
0
0
1
1
0
0
0
2
1
1
1
6
0
0
0
22
0
0
0
0
1
0
0
0
0
14
0
0
0
0
0
1
0
1
0
0
0
23
2
0
0
4
0
0
0
0
1
5
0
0
0
1
2
0
0
1
0
1
0
24
1
0
0
1
0
0
0
0
3
1
1
1
0
1
0
4
4
0
0
0
0
25
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
15
0
26
0
17
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
27
2
0
1
0
0
2
0
0
0
0
0
2
2
0
0
0
1
0
0
2
5
28
0
0
0
0
0
0
0
0
1
0
0
0
2
0
1
0
1
0
0
1
11
29
0
0
0
0
0
0
0
0
0
1
0
0
1
1
1
0
0
0
0
1
12
30
1
0
0
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
0
0
13
Alignment of SeqA with the matrix of position-specific amino-acid frequency
Alignment of SeqB with the matrix of position-specific amino-acid frequency

Documents pareils

Alignements multiples

Alignements multiples Hémoglobine β Humaine (Hbb_H) Hémoglobine α Humaine (Hba_H) Hémoglobine β Cheval (Hbb_C) Hémoglobine α Cheval (Hba_C) Myoglobine de cétacé Physeter catodon (Myo) Hémoglobine V de lamproie Petromyzo...

Plus en détail

Recherche de similarités au moyen de BLAST

Recherche de similarités au moyen de BLAST S L A A L L N K C K T P Q G Q R L V N Q W + L A + + L + T P G R + + + W T L A S V L D C T V T P M G S R M L K R W

Plus en détail