Alignements multiples

Transcription

Alignements multiples
Alignements multiples
[email protected]
Buts
Détermination des régions conservées entre plusieurs séquences
9 Domaine ou région associée à une fonction de la molécule
9 Acides aminés impliqués dans la catalyse ou à la liaison à un substrat
Î Déterminer des signature des séquences
Les méthodes : principes
progressive ou itératives
n séquences
1 alignement
1 consensus
Deux étapes fondamentales :
a) Comparer les séquences 2 à 2 ou trouver les 2 plus
proches
b) progressive : entrer progressivement dans l’alignement
multiple chaque séquence à l’aide d’une matrice de
distance
itérative : construire un alignement multiple avec une
méthode profil-séquence, puis confronter chaque
séquence à un profil. Répéter jusqu’ à convergence du
score.
L’étape 1 (méthode progressive)
Calcul d’un score de comparaison pour chaque couple
de séquences Î distance entre 2 séquences
MATRICE DE DISTANCES
S1
S1
S2
S3
S4
S2
d3
S3
d1
d4
S4
d5
d2
d6
Si on considère que : d1 < d2 < d3 < d4 < d5 < d6
L’étape 2 (méthode progressive)
Elaboration d’un DENDROGRAMME Í Î ORDRE de l’alignement multiple
S3
S4
S1
S2
C1
C2
C3
Séquence intermédiaire
Différents programmes
Les différences sont dans les implémentations des méthodes
programmation, présentation des résultats…
Progessif :
Pilup (GCG)
format de sortie .MSF
Multialign (F. Corpet, 1988)
format de sortie .MSF
ClustalV (Higgins, 1989) Î ClustalW (1999)
format de sortie .ALN
Itératif :
Dialign (Morgenstern, 1996) Î Dialign2 (1998)
format de sortie dial
Choix d’un programme
Î Pas
de méthodes parfaites
- plus il y a de séquences, plus l’alignement sera bon.
- des modifications manuelles sont souvent nécessaires.
Processus progressif : alignements de sous groupes sont
bloqués, si erreur, il y a propagation.
Processus itératif : donne mauvais alignement si
séquences orphelines et le prog. peut être très long.
Le programme CLUSTAL
Méthode progressive et globale
Le programme le plus utilisé (CLUSTALW):
- Prend des choix pour éviter de "boucler“
- Pénalités des gaps diminués pour les
extrémités et retardement dans l’alignement pour
les séquences très divergentes
Paramètres alignement 2 à 2
A partir de 20 séquences Î algorithme rapide
Paramètres alignement multiple
Données en entrée
Un fichier contenant
plusieurs séquences
=
multialignement
Un profil
=
alignement multiple
Données en sortie
Format
ALN
Le programme DIALIGN
Méthode itérative et locale
Le programme le plus efficace en méthode locale
(DIALIGN2):
- Pas de pénalités pour les gaps
- Basé sur des paires de segments sans gap
appelés ici “diagonale“
- trouver les collections de diagonales qui
donnent le maximum de scores
Données en entrée
Degré de similarité locale
=
Poids relatif d’une position
(par rapport aux paires de
segments similaires)
Plus T est élevé:
(échelle de 1 à 10)
Plus exigent dans la
qualité des
diagonales
Données en sortie
Format dialign
Format fasta
d’alignement
également
disponible
Visualisation des résultats
Programme
BOXSHADE
Editeur multiple de séquences
Programme
Jalview
Les arbres
(
(
(
ALBU_BOVIN:0.03293,
ALBU_SHEEP:0.04286)
:0.07282,
ALBU_PIG:0.09756)
:0.02679,
(
ALBU_HUMAN:0.03557,
ALBU_MACMU:0.02943)
:0.07246,
ALBU_RAT:0.15660);
,------------1:ALBU BOVIN
,----------------------------9
,---------8
`----------------2:ALBU SHEEP
!
!
!
`-------------------------------------3:ALBU PIG
--7
!
,-------------4:ALBU HUMAN
! ,--------------------------10
`-11
`-----------5:ALBU MACMU
!
`------------------------------------------------------------6:ALBU RAT

Documents pareils

TP : Analyse de séquences sous UNIX

TP : Analyse de séquences sous UNIX o Les fichiers en .Z ou .gz sont des fichiers compressés. Après les avoir téléchargé, il est nécessaire de les décompresser à l'aide du programme uncompress (pour les fichiers .Z) ou gunzip (pour l...

Plus en détail