Analyse de Séquences Analyse de Séquences Macromoléculaires II
Transcription
Analyse de Séquences Analyse de Séquences Macromoléculaires II
Analyse de Séquences Macromoléculaires II Cours : 10 h TD : 12 h + mini-projet (travail ( l personnel) l) O. Lecompte Laboratoire de Bioinformatique et Génomique Intégratives – IGBMC http://www-bio3d-igbmc.u-strasbg.fr/~lecompte/enseignement.html [email protected] Prédictions ab Interrogation textuelle (SRS,Entrez) initio Banques de données Introduction à la comparaison de séquences Alignement de 2 séquences Alignement multiple Motifs Profils Motifs, Recherche de similarité (Fasta,Blast) Phylogénie moléculaire O. Lecompte – IGBMC Recherche de similarité ASM2 1 Multiple alignment / Pairwise alignment Query: 177 EMGDTGPCGPCSEIHYDRIGGRDAAHLVNQDDPNVLEIWNLVFIQYNR---EADG----I 229 G G GP E+ Y LE+ LVF+QY + AD I Sbjct: 193 AGG--GNAGPAFEVLYKG-----------------LEVATLVFMQYKKAPANADPSQVVI 233 Query: 230 LK-----PLPKKSIDTGMGLERLVSVLQNKMSNYDTDLFVPYFEAIQKGTGARPYTGKVG 284 +K P+ K +DTG GLERLV + Q + YD L E +++ G ++ Sbjct: 234 IKGEKYVPMETKVVDTGYGLERLVWMSQGTPTAYDAVLGY-VIEPLKRMAGVEKIDERIL 292 Query: 285 AEDA---------DGIDMAYR--------------------------VLADHARTITVAL 309 E++ D D+ Y +ADH + +T L Sbjct: 293 MENSRLAGMFDIEDMGDLRYLREQVAKRVGISVEELERLIRPYELIYAIADHTKALTFML 352 O. Lecompte – IGBMC Error in ORF definition Transmembrane region Additional domain ASM2 Phosphorylation site 1 FAMILY B B 2 FAMILY A E Differential conservation between the two families NLS Universal conservation Intra-group conservation domain organization, structural motifs key functional residues, ORF definition localization signals, conservation pattern ... Functional genomics Evolutionary studies Structure modeling Mutagenesis experiments Drug design Lecompte et al Gene. 270:17-30 (2001) 2 Alignement multiple Méthodes utilisées Estimation de la qualité d’un alignement Utilisation de ll’alignement alignement multiple O. Lecompte – IGBMC ASM2 Méthodes utilisées Alignement multiple optimal exemple : MSA (Lipman et al. 1989, Gupta et al. 1995) O. Lecompte – IGBMC ASM2 3 Alignement multiple optimal application de la programmation dynamique utilisée pour aligner 2 séquences é => N di dimensions i Exemple : alignement de 3 séquences Problème : temps de calcul et mémoire Temps requis proportionnel à Nk pour k séquences de longueur N => dans la pratique, utilisation impossible pour plus de 10 séquences O. Lecompte – IGBMC ASM2 Alignement multiple optimal OMA (Reinert et al. 2000) combine l’alignement optimal et une méthode éth d récursive é i d de ttype “di “divide-and-conquer”. id d ” Divide Divide Divide Align optimally Concatenate Alignment of 5 sulfate binding proteins, length 224-263 residues: MSA OMA ClustalW >12hours 62.9min 0.6sec O. Lecompte – IGBMC ASM2 4 Méthodes utilisées Alignement multiple optimal ex : MSA, OMA Alignement multiple progressif ClustalW (Thompson et al. Nucleic Acids Res. 1994) ClustalX (Thompson et al. Nucleic Acids Res. 1997) O. Lecompte – IGBMC ASM2 Alignement multiple progressif Principe P i i : aligner progressivement les séquences (ou groupes de séquences) par paires Problème : Par qui commencer ? Dans quel ordre procéder ? aligner g d’abord les séquences q les pplus pproches Comment évaluer la distance entre les séquences ? aligner toutes les séquences deux à deux calculer la distance entre séquences à partir des alignements O. Lecompte – IGBMC ASM2 5 Alignement multiple progressif 1) Alignements g 2 à 2 de toutes les séquences q (pairwise p alignments) g Hbb_human Ex : alignements pairwise locaux de séquences d’hémoglobine Hba_human Hbb_human Hbb_horse Hba_human Hbb_horse 3 LTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLST ... |.| :|. | | |||| . | | ||| |: . :| |. :| | ||| 2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLS. ... 1 VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLST ... | |. |||.|| ||| ||| :|||||||||||||||||||||:|||||| 1 VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSN ... 2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH ... || :| | | | || | | ||| |: . :| |. :| | |||. 3 LSGEEKAAVLALWDKVNEE..EVGGEALGRLLVVYPWTQRFFDSFGDLSN ... LL’alignement alignement peut être obtenu par : - méthode globale ou locale - programmation dynamique ou méthodes heuristiques Exemple dans le programme Clustalx: => alignements locaux => choix entre : - méthode heuristique (utilisée dans Fasta) => plus rapide - programmation dynamique (Smith & Waterman) => plus fiable O. Lecompte – IGBMC ASM2 Alignement multiple progressif 2) Construction d’une matrice de distances Ex : 7 globin sequences O. Lecompte – IGBMC Hbb_human Hbb_horse Hbb horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla Exemple dans Clustalx : distance entre 2 séquences = 1- nb résidus identiques nb résidus comparés 1 2 3 4 5 6 7 .17 .59 .59 .77 .81 .87 1 .60 .59 .77 .82 .86 2 .13 .75 .73 .86 3 .75 .74 .88 4 .80 .93 5 .90 6 7 ASM2 6 Alignement multiple progressif • Sequential branching 3) Détermination de l’ordre d’alignement • Construction d’un arbre - Neigbor-Joining (NJ) - UPGMA - Maximum likelihood Progressive alignment using sequential branching Hba human Hba_human Hba_horse Progressive alignment following a guide tree .081 226 .226 1 .061 2 Hbb_horse Hbb_human 3 Glb5_petma .015 4 .062 5 Myg_phyca 6 6 5 4 3 2.084 .055 .219 1.065 Hbb_horse Hba_human Hba_horse .398 Myg_phyca .389 Glb5_petma .442 Lgb2_lupla O. Lecompte – IGBMC Hbb human Hbb_human Lgb2_lupla ASM2 Alignement multiple progressif 4) Alignement progressif Les séquences sont progressivement alignées (algorithme global ou local) : - alignement de 2 séquences - alignement d’une séquence et d’un profil - alignement de 2 profils xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx O. Lecompte – IGBMC ASM2 7 Construction d’un profil Profil = matrice de scores position-spécifiques position spécifiques (Position Position-specific specific scoring matrix matrix=PSSM) PSSM) 20 Scores calculés à partir : d=1 • d’une matrice de substitutions (Blosum…) Profile (pos p, res r) = wd x Mat (res d, res r) avec Mat : la matrice de substitution wd : le poids du résidu d à la position p Alignement : i=1 Seq 1 Seq 2 Seq 3 p=1 Profil : TXXX TXXX WXXX positions • des fréquences des résidus à chaque position 20 aa Pos Pos Pos Pos A C D E F G H I K L M N P Q R S T V W Y 1 –1 –1.3 2 3 4 Calcul (avec poids des résidus = fréquence des résidus) : Profile (pos 1, A) = 2/3 x Blo62 (T,A) + 1/3 x Blo62 (W,A) = 2/3 x 0 + 1/3 x (–3) = -1 Profile (pos 1, C) = 2/3 x Blo62 (T,C) + 1/3 x Blo62 (W,C) = 2/3 x (-1) + 1/3 x (-2) = -1.3 ... O. Lecompte – IGBMC ASM2 Profil (PSSM) 20 aa Séquence q consensus SFVCQACRKAKTKCD LFVCQACWKSKTKCD RLVCLQCKKIKRKCD SFVCLRCKQRKIKCD SKACDNCRKRKIKCN STACVNCRKRKIKCT SHACDQCRRKRIKCR SRACDQCRKKKIKCD TKACDRCHRKKIKCN TVVCTNCKKRKSKCD O. Lecompte – IGBMC S F A C D N C R K R K I K C D A 0 -7 8 0 -5 0 0 -66 -3 -2 -3 -4 -3 0 -6 C D E F G H -4 -3 -3 -11 -7 -4 -6 -10 -7 0 -15 -1 -1 -11 -7 -10 -11 -9 32 -16 -15 -3 -18 -5 -11 2 -1 -10 -10 -4 -9 -1 0 -11 -5 0 32 -16 -15 -3 -18 -5 -10 10 -66 -33 -11 11 -11 11 1 -10 -3 0 -13 -9 0 -7 -5 -2 -12 -10 -3 -9 -3 0 -14 -9 0 -6 -12 -10 -6 -17 -9 -9 -2 1 -14 -9 0 32 -16 -15 -3 -18 -5 -13 12 2 -15 -4 -2 I K -10 -1 -4 -1 1 -6 -6 -9 -7 -3 -11 2 -6 -9 -12 12 7 -11 13 -9 6 -11 16 7 -6 -11 17 -6 -9 -15 0 L M -8 -4 -2 -1 -5 -2 -8 -2 -5 -4 -10 -4 -8 -2 -10 10 -66 -9 -4 -8 -4 -10 -5 -1 0 -10 -5 -8 -2 -14 -9 N P Q R -1 -6 0 -1 -6 -11 -3 -2 -9 -6 -5 -7 -11 -11 -12 -9 -1 -8 0 -5 4 -6 6 3 -11 -11 -12 -9 -33 -99 1 10 0 -6 5 9 -3 -7 1 8 0 -6 4 9 -8 -10 -5 -7 0 -6 4 7 -11 -11 -12 -9 7 -7 0 -2 S 9 -6 -3 -2 -3 0 -2 -44 -2 -1 -2 -6 -2 -2 0 T 5 -3 -1 -5 -1 -1 -5 -44 -1 -1 -2 0 -1 -5 0 V W Y -7 -18 -9 -4 -12 -2 7 -19 -10 -2 -20 -4 -6 -20 -9 -9 -19 -7 -2 -20 -4 -11 11 -99 -66 -9 -18 -9 -7 -15 -9 -9 -18 -10 3 -16 -9 -9 -19 -10 -2 -20 -4 -13 -21 -8 ASM2 8 Pondération des résidus dans un profil .226 .061 ClustalW diminue le poids des séquences sur-représentées .081 Hbb_human .084 Hbb_horse .055 Hba_human .065 Hba_horse .219 .015 .062 .398 Myg_phyca .389 Glb5_petma .442 Lgb2_lupla Hbb h Hbb_human 0 081 + 0.226/2 0.081 0 226/2 + 0.061/4 0 061/4 + 0.015/5 0 015/5 + 0.062/6 0 062/6 221 = .221 Hbb_horse 0.084 + 0.226/2 + 0.061/4 + 0.015/5 + 0.062/6 = .225 Hba_human 0.055 + 0.219:2 + 0.061/4 + 0.015/5 + 0.062/6 = .194 Hba_horse 0.065 + 0.219:2 + 0.061/4 + 0.015/5 + 0.062/6 = .203 Myg_phyca 0.398 + 0.015/5 + 0.062/6 = .411 Glb5_petma 0.389 + 0.062/6 = .398 0.442 = .442 Lgb2_lupla O. Lecompte – IGBMC ASM2 Pénalités des gaps • Pénalité linéaire (affine) : P = x + y L • Les pénalités position-spécifiques et résidu-spécifiques : Dans ClustalW, les pénalités liées à l’introduction de gap sont : - diminuées aux positions où préexiste un gap - augmentées à proximité d’un gap préexistant (à moins de 8 résidus) - diminuées dans les régions hydrophiles (loop) sinon : les pénalités d’ouverture de gap sont modifiées selon une table résidu- spécifique (Pascarella & Argos, 1992) => fréquence relative des résidus adjacents aux gaps 30 20 10 0 HLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDL QLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDL VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLS VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLS O. Lecompte – IGBMC L’alignement final se présentera sous forme de blocs étendus. Certains résidus isolés peuvent être mal alignés. ASM2 9 Alignement multiple progressif H1 H2 H3 H4 HBB_HUMAN HBB_HORSE HBA_HUMAN HBA_HORSE MYG_PHYCA GLB5_PETMA LGB2_LUPLU --------VHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDN --------VQLSGEEKAAVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFGEGVHHLDN ---------VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQVKGHGKKVADALTNAVAHVDD ---------VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF-DLS-----HGSAQVKAHGKKVGDALTLAVGHLDD ---------VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGH PIVDTGSVAPLSAAEKTKIRSAWAPVYSTYETSGVDILVKFFTSTPAAQEFFPKFKGLTTADQLKKSADVRWHAERIINAVNDAVASMDD --------GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVP--QNNPELQAHAGKVFKLVYEAAIQLQV *: : : * . : .: *: * : .. .:: *. : . HBB_HUMAN HBB_HORSE HBA HUMAN HBA_HUMAN HBA_HORSE MYG_PHYCA GLB5_PETMA LGB2_LUPLU -----LKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH----------LKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH----------MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR-----MPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR -----LPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR----------HEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG T--EKMSMKLRDLSGKHAKSFQVDPQYFKVLAAVIADTVAAG---------DAGFEKLMSMICILLRSAY------TGVVVTDATLKNLGSVHVSKG-VADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA--: *. * . : : . : : .: ... . : H5 O. Lecompte – IGBMC H6 H7 ASM2 ClustalX O. Lecompte – IGBMC ASM2 10 Alignement multiple progressif Global Local SBpima SB multal NJ UPGMA ML MLpima SB - sequential branching O. Lecompte – IGBMC clustalx multalign pileup UPGMA- Unweighted Pair Grouping Method ML - maximum likelihood NJ - neighbor-joining ASM2 Méthodes utilisées Alignement multiple optimal ex : MSA, OMA Alignement multiple progressif ex : ClustalW, ClustalX Alignement g multiple p itératif ex : PRRP, SAGA O. Lecompte – IGBMC ASM2 11 Iterative refinement PRRP (Gotoh, 1993) refines an initial progressive multiple alignment by iteratively dividing the alignment into 2 profiles and realigning them. divide sequences into 2 groups profile 1 initial g alignment Global progressif pairwise profile alignment refined alignment converged? profile 2 no O. Lecompte – IGBMC ASM2 Genetic Algorithms SAGA (Notredame et al.1996) evolves a population of alignments in a quasi evolutionary manner, iteratively improving the fitness of the population population n select a number of individuals to be parents modify the parents by shuffling gaps, gaps merging 2 alignments etc. etc population n+1 evaluation of the fitness using OF (sum-of-pairs or COFFEE) END O. Lecompte – IGBMC ASM2 12 Méthodes d’alignement multiple Progressive Global Local SBpima SB multal NJ ML UPGMA MLpima multalign pileup il clustalx prrp dialign Genetic Algo. HMM saga hmmt Iterative O. Lecompte – IGBMC ASM2 Comparaison des programmes BaliBASE (Thompson et al. Bioinformatics. 1999 ; Bahr et al, NAR 2001 ; Thompson et al., Proteins 2005) • alignements basés sur des superpositions de structures tridimensionnelles • alignements comparés uniquement pour les régions superposables • différents cas : - nombre de séquences - longueur des séquences - similarité entre séquences - séquence “orpheline” / famille de séquences - sous-familles - insertions, extensions -… O. Lecompte – IGBMC ASM2 13 BaliBASE Families of Sequences “Orphan” p Sequences q Family 1 (>25% ID) Family (>25% ID) Family 2 (>25% ID) Family 3 (>25% ID) Orphan Sequence (<20% ID) O. Lecompte – IGBMC ASM2 Reference1:< 6equidistant sequences total multal <100 >400 residues residues Reference2: Reference3: Reference4: Reference5: a familywith several large terminal large internal orphans families extensions insertions N/A N/A N/A N/A multalign pileup clustalx prrp iterative saga hmmt N/A N/A MLpima SBpima iterative dialign Thompson et al. NAR 27:2682-2690 (1999) 14 Choix d’un programme Global/Local Séquences colinéaires Extensions N/C-terminales ou insertions => méthodes globales => méthodes locales Progressif/Itératif Les méthodes itératives améliorent généralement l’alignement Problèmes : 89 seq histone (66 à 92 aa) - Séquences orphelines ClustalW 2 mins 41 secs PRRP 3 hours 40 mins - Le processus itératif peut être très long ! Dialign 3 hours 48 mins Pour améliorer l’alignement, il faut inclure autant de séquences que possible ! O. Lecompte – IGBMC ASM2 Méthodes d’alignement multiple Optimal alignment 1975 Progressive alignment 1987 Iterative strategies 1996 Clustal PRRP SAGA Dialign HMMER MultAlign PileUp PIMA 1975 1985 1990 1995 1994 McClure O. Lecompte – IGBMC Co-operative strategies 2000 DbClustal T-Coffee MAFFT MUSCLE ProbCons 2000 2005 1999 BAliBASE ASM2 15 Combinaison d’approches • T-Coffee (Notredame et al. 2000) performs local and global alignments for all pairs of sequences, then combines them in a progressive multiple alignment, similar to ClustalW. • DbClustal (Thompson et al. 2000) is designed to align the sequences detected by a database search. Locally conserved motifs are detected using the Ballast program (Plewniak et al. 1999) and are used in the global multiple alignment as anchor points. • MAFFT (Katoh et al. 2002) detects locally conserved segments using a Fast Fourier Transform, then uses a restricted global DP and a progressive algorithm O. Lecompte – IGBMC ASM2 DbClustal Intègre recherche de similarité Couplage local et global A partir d ’une séquence « query » : 1) Recherche de séquences similaires => Blast 2) Recherche de LMS (Local Maximum Segments) => Ballast 3) Alignement global intégrant les ancres locales fournies par Ballast http://bips.u-strasbg.fr/PipeAlign/ O. Lecompte – IGBMC ASM2 16 Ballast Query E(N) < 0.1 E(N) > 0.1 LMS (local maximum segments) Plewniak et al. Bioinformatics 2000 O. Lecompte – IGBMC ASM2 Ballast S. cerevisiae GAL4 regulatory protein I Zn2 Cys6 O. Lecompte – IGBMC II III IV V VI VII VIII Putative inhibitory domain ASM2 17 DbClustal Blast Database Search Query Sequence Ballast Anchors DbClustal Alignment Query Sequence Anchors Database Hits Domain A Domain B Domain C O. Lecompte – IGBMC ASM2 Comparaison ClustalW / DbClustal ClustalW DbClustal O. Lecompte – IGBMC ASM2 18 MAFFT • Local homologous segments detected using a Fast Fourier Transform • Pairwise alignments are performed using restricted global dynamic programming • Multiple alignment is built up using a progressive algorithm, similar to ClustalW • Multiple alignment is then iteratively refined by dividing alignment into 2 parts and realigning O. Lecompte – IGBMC ASM2 MAFFT Pairwise alignments g c(k) -1 2 k K=2 GLWGKAAAEEEGLWLFF—--KGVFGAEQEGLFVFFGG K=-1 -GLWGKAAAEEEGLWLFF KGVFGAEQEGLFVFFGG- 1. Fast Fourier Transform to detect local conserved segments O. Lecompte – IGBMC 2. Segment Level Dynamic Programming to select ‘consistent’ segments 3. Fix residues at the centre of each segment pair and realign between fixed points (white regions only) ASM2 19 MUSCLE Edgar et al, NAR 2004 O. Lecompte – IGBMC ASM2 20