Prédiction de structures secondaires
Transcription
Prédiction de structures secondaires
Prédiction de structures secondaires Lory Montout Dynamique des structures et interaction des macromolécules Université Paris 7, INSERM U665 (Sources : Patrick Fuchs) Que faire avec une séquence protéique ? Rechercher des similitudes de séquence • 2 recherche d’autres séquences similaires dans les bases de données: BLAST sur la NR, Swiss-Prot… recherche de motifs fonctionnels: PROSITE, BLOCKS, PFAM, PRINTS… Prédiction de Structure profil d’hydropatie prédiction de structure secondaire prédiction des hélices transmembranaires prédiction des boucles (coudes) modélisation par homologie reconnaissance de repliement protéique (threading) • LM 24/09/2010 Objectif du cours Rechercher des similitudes de séquence • 3 recherche d’autres séquences similaires dans les bases de données: BLAST sur la NR, Swiss-Prot… recherche de motifs fonctionnels: PROSITE, BLOCKS, PFAM, PRINTS… Prédiction de Structure profil d’hydropatie prédiction de structure secondaire prédiction des hélices transmembranaires prédiction des boucles (coudes) modélisation par homologie reconnaissance de repliement protéique (threading) • LM 24/09/2010 PLAN • 4 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 PLAN • 5 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 • 6 Structures secondaires des protéines Définition: repliements locaux que prennent les acides aminés dans une protéine Trois grandes catégories: hélices α brins β (feuillets) boucles (coil) e.g. Barstar (inhibiteur de ribonucléase) • LM 24/09/2010 Les angles dièdres φ/ψ • 7 • LM 24/09/2010 Carte de Ramachandran • 8 e.g. Barstar (inhibiteur de ribonucléase) β ψ α φ • LM 24/09/2010 Les hélices • 9 phi(deg) psi(deg) H-bond pattern ----------------------------------------------------------------right-handed alpha-helix -57.8 -47.0 i+4 pi-helix -57.1 -69.7 i+5 3-10 helix -74.0 -4.0 i+3 (omega is 180 deg in all cases) ----------------------------------------------------------------- π α 310 • LM 24/09/2010 Les brins β • 10 phi(deg) psi(deg) omega (deg) -----------------------------------------------------------------beta strand -120 120 180 ----------------------------------------------------------------- antiparallel parallel • LM 24/09/2010 Attribution des structures secondaires • 11 Attribution d’une structure secondaire à chaque acide aminé à partir de la structure 3D Logiciel DSSP (Kabsch & Sander, 1983) ou STRIDE (Frishman & Argos, 1995): attribution en 7 ou 8 états: ‘H’: hélice α (liaison hydrogène i-i+4) ‘G': hélice 310 (liaison hydrogène i-i+3) ‘I’: hélice π (liaison hydrogène i-i+5) ‘E’: brin β (au sein d’un feuillet β) ‘B’: pont β (β bridge) isolé ‘T’: coude β (β-turn) avec liaison hydrogène ‘S’: bend (courbure) ‘ ’ ou ‘C’: tout le reste ! • LM 24/09/2010 Simplification en 3 états ‘H’: hélice α (liaison hydrogène i-i+4) ‘G': hélice 310 (liaison hydrogène i-i+3) ‘I’: hélice π (liaison hydrogène i-i+5) ‘E’: brin β (au sein d’un feuillet β) ‘B’: pont β (β bridge) isolé ‘T’: coude β (β-turn) avec liaison hydrogène ‘S’: bend (courbure) ‘ ’ ou ‘C’: tout le reste ! • 12 H E C • LM 24/09/2010 Prédiction de structures secondaires Constat: certains résidus ou séquences présentent des préférences pour tel ou tel type de structure But: • 13 à partir de la séquence seule, prédire la structure de chaque résidu dans un des 3 états (α, β, coil) Besoin: un jeu de protéines de structure 3D connue éventuellement, banque de séquences • LM 24/09/2010 Attribution ≠ Prédiction ! Attribution • 14 des structures secondaires Seq ...RSISDLHQTLKKELAL... ...CSHHHHHHHHHHHHTC... SSII observée Prédiction Pas nécessairement identique des structures secondaires Seq ? ...RSISDLHQTLKKELAL... ...RSISDLHQTLKKELAL... ...CCHHHHHHHHHHHCCC... SSII prédite • LM 24/09/2010 • 15 Comment mesurer la qualité d'une prédiction ? Considérons 2 états (ie 2 types de structures secondaires)... ... en assignant aléatoirement des H et E, on a ~50% de chances de faire une prédiction correcte. Considérons 4 états (ie 4 types de structures secondaires)... ... en assignant aléatoirement des H et E, G et boucles, on a ~25% de chances de faire une prédiction correcte. • 16 Comment mesurer la qualité d'une prédiction ? Toute mesure pertinente doit tenir compte du nombre de types de structures secondaires considérées. De plus, puisque lorsqu’on connaît la structure tridimensionnelle, on ne dépasse pas les 88% d’acides aminés assignés à une structure secondaire avec sécurité... on ne peut pas dépasser ce seuil avec une prédiction ! Une première mesure : le Qk Pourcentage • 17 de structures secondaires correctement prédites pour k types de structures secondaires considérées. Pour Un k = 3, par exemple {H,E,C}, on définit le Q3*: exemple : * En anglais, cette mesure s'appelle the three-state overall percentage of predicted residues. Une seconde mesure : le Sov Notion de chevauchement (overlap en anglais) Pour chaque structure secondaire s1,s2...sp, on calcule le recouvrement minimal (minov) et le recouvrement maximal (maxov). La formule suivante permet de calculer le Sov*: Comment interpréter la valeur du Sov ? Le Sov varie entre 37% (hasard) et 90% (protéine similaire). * En anglais, cette mesure s'appelle the Segment Overlap Measure. • 18 Historique Alignements simples (besoin d’avoir une structure homologue) Méthodes statistiques Chou-Fasman (Chou & Fasman,1974) GOR (Garnier et al., 1978) Plus proche voisin (Lin et al., 1986) Réseaux de Neurones • 19 Séquence seule (fin 80) Matrice Blosum (e.g., PhD, début 90) Matrice d’alignement mutiple (Position specific alignment profiles) (e.g., PsiPred, fin 90) Affinement des techniques de réseaux de neurones (SSpro2 début 2000) Méthodes basées sur la construction de novo de modèles 3D (fin 90 / début 2000, mais récemment utilisées pour la prédiction de Structures Secondaires) • LM 24/09/2010 Amélioration des performances • 20 Rost et al., 2001 1974 Chou & Fasman ~50-53% 1978 Garnier 63% 1987 Zvelebil 66% 1988 Quian & Sejnowski 64.3% 1993 Rost & Sander 70.8-72.0% 1997 Frishman & Argos <75% 1999 Cuff & Barton 72.9% 1999 Jones 76.5% 2000 Petersen et al. 77.9% Attention: données non actuelles ! • LM 24/09/2010 PLAN • 21 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 • 22 Méthode Chou-Fasman (1974) Propension : tendance des résidus pour un des 3 états α, β ou turn (coude β) e.g. propension d’une Ala pour l’état H (hélice α) calcul des propensions de chaque acide aminé à être en H, E ou C si P > 1 résidu favorable à la structure et inversement • LM 24/09/2010 Exemple de propensions • 23 • LM 24/09/2010 Algorithme de Chou-Fasman • 24 Assigner une propension pour les états H, E et Turn à chaque résidu Recherche des sites de nucléation d’hélice (4 résidus au moins sur une fenêtre de 6 avec Pα > 1) Propagation à gauche et à droite (jusqu’à trouver 4 résidus avec Pα < 1) Renouveler la même chose pour les brins β Si des régions α et β se chevauchent, assigner l’état de plus haute propension moyenne Prédiction des coudes β selon d’autres règles • LM 24/09/2010 Méthode GOR (Garnier, 1978) • 25 Méthode basée sur la théorie de l’information: I(Ala|α) = ln [p(Ala|α) / p(α)] (même principe que les propensions de CF) Prise en compte des résidus voisins (8 de chaque côté): fenêtre de 17 résidus ...KKAVINGEQIRSISDLH... ⇒ 20 * 4 * 17 valeurs à déterminer e.g. pour l’hélice i-8 i-7 i-6 i-5 i-4 i-3 i-2 i-1 A 5 10 15 20 30 40 50 60 C 0 0 0 0 0 0 -5 0 0 0 0 5 10 -5 -10 -15 -20 -25 -30 i i+1 i+2 i+3 i+4 i+5 i+6 i+7 i+8 65 60 50 40 30 20 15 10 5 -10 -13 -10 -5 0 0 0 0 0 0 20 20 10 -10 -20 -20 -10 -5 0 0 0 -35 -40 -45 -40 -35 -30 -25 -20 -15 -10 -5 … Q … Y • LM 24/09/2010 Algorithme de la méthode GOR Fenêtre • 26 glissante de 17 résidus : Nterm...KKAVINGEQIRSISDLHQTL...Cterm Nterm...KKAVINGEQIRSISDLHQTL...Cterm Nterm...KKAVINGEQIRSISDLHQTL...Cterm Nterm...KKAVINGEQIRSISDLHQTL...Cterm etc... Calcul du score pour chaque état : le plus grand correspond à la structure secondaire. • LM 24/09/2010 • 27 Performance des méthodes statistiques Performances: Chou-Fasman: 50-53 % GOR: 63 % (il existe aussi des améliorations GOR III, GOR IV et GOR V) Avantages: généralement applicables fonctionne avec des séquences sans homologues de structure connue Inconvénient: Moins bonnes performances que les méthodes actuelles • LM 24/09/2010 PLAN • 28 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 Principe des réseaux de neurones • 29 Machine d'apprentissage utilisant des réseaux de perceptrons (Technique de classification) des unités reçoivent des données pondérées en entrée, et envoient des signaux de sortie. e.g. séquence en entrée -> struct sec en sortie Il est possible d’ajouter une fonction en sortie • LM 24/09/2010 Principe des réseaux de neurones (2) Organisation • 30 du réseau en couches Apprentisage du réseau : trouver des poids qui optimisent les sorties avec les entrées fournies Applications Reconnaissance d’écriture (lecture des codes postaux) Pourcentage de structure secondaire à partir d’un spectre de dichroïsme circulaire Prédictions de structure secondaire etc… • LM 24/09/2010 Architecture d’un réseau de neurones Couche d’entrée: Poids séquence IK E EH VI I QA E Fenêtre • 31 HE Couche de Sortie C Struct. Sec. Couche cachée IKEEHVIIQAEFYLNPDQSGEF….. • LM 24/09/2010 Alignements multiples • 32 Prise en compte des propriétés de l’évolution augmente l’exactitude de prédiction décisif de savoir si tel résidu est conservé ou non En général, générés par PSIBLAST, CLUSTALW e.g. sur 1ben (insuline) FVNQHLCGSHLVEALYLVCGERGFFYTPKS FVKQHLCGSHLVEALYLVCGERGFFYTPMS FVNQHLCGSHLVEALYLVCGERGFFYTPKA FVKQHLCGPHLVEALYLVCGERGFFYTPKS ..NQHLCGSHLVEALYLVCGERGFFYNPK. ..NQHLCGSHLVEALYLVCGERGFFYSPKA ...QRLCGSHLVDALYFVCGERGFFYSPK. ....HLCGSHLVEALYVVCGDRGFFYTP.. ...QHLCGSHLVDALYLVCGPSGFFYNPK. ...QHLCGSHLVDALYLVCGDKGFFFNPK. FVNQHLCGSHLVEALYLVCGERGFF..... FVNQHLCGSHLVEALYLVCGERGFF..... ...QRLCGSHLVDALYFVCGERGFFYSPK. ..SQHLCGSHLVEALYFVCGPKGFYYLPK. FVSRHLCGSNLVETLYSVCQDDGFFYIPK. ..SQHLCGSHLVEALYFVCGPKGFYYLPKA FVSRHLCGSNLVETLYSVCQDDGFFYIPK. ...QHLCGSHLVEALYLVCGSNGFFFNPK. ..SQHLCGSHLVEALFLVCGESGFFYNP.. • LM 24/09/2010 PHD (Rost & Sander, 1996) • 33 Principe : prend en entrée un profil de séquences et combine 3 réseaux de neurones en cascades Premier niveau : séquence à structure Deuxième niveau : structure à structure Troisième niveau : jury de prédiction http://cubic.bioc.columbia.edu/predictprotein • LM 24/09/2010 Matrice d’alignement multiple • 34 Position Specific Scoring Matrix générée par PSIBLAST: Alignement FVNQHLCGSHLVEALYLVCGERGFFYTPKS FVKQHLCGSHLVEALYLVCGERGFFYTPMS ALA CYS ASP GLU PHE 1 F -281 -298 -432 -384 698 FVNQHLCGSHLVEALYLVCGERGFFYTPKA 2 V -39 -180 -122 -243 -206 FVKQHLCGPHLVEALYLVCGERGFFYTPKS 3 N -132 -293 39 -82 -370 4 Q -157 -388 -110 122 -411 ..NQHLCGSHLVEALYLVCGERGFFYNPK. 5 H -155 -388 -210 -92 -163 ..NQHLCGSHLVEALYLVCGERGFFYSPKA 6 L -233 -212 -469 -385 -25 7 C -104 1019 -418 -429 -333 ...QRLCGSHLVDALYFVCGERGFFYSPK. 8 G -54 -347 -216 -304 -414 ....HLCGSHLVEALYVVCGDRGFFYTP.. 9 S 89 -185 -46 -38 -341 10 H -246 -401 75 46 -214 ...QHLCGSHLVDALYLVCGPSGFFYNPK. 11 L -233 -212 -469 -385 -25 ...QHLCGSHLVDALYLVCGDKGFFFNPK. 12 V -92 -160 -417 -340 -165 13 E -188 -458 348 561 -428 FVNQHLCGSHLVEALYLVCGERGFF..... 14 A 535 -119 -259 -166 -314 FVNQHLCGSHLVEALYLVCGERGFF..... 15 L -233 -212 -469 -385 -25 16 Y -262 -343 -350 -93 307 ...QRLCGSHLVDALYFVCGERGFFYSPK. 17 L -199 -212 -420 -350 59 ..SQHLCGSHLVEALYFVCGPKGFYYLPK. 18 V 43 -158 -389 -315 -177 19 C -104 1019 -418 -429 -333 FVSRHLCGSNLVETLYSVCQDDGFFYIPK. 20 G -24 -344 -209 -241 -411 ..SQHLCGSHLVEALYFVCGPKGFYYLPKA 21 E -173 -408 347 494 -395 22 R -196 -408 73 -58 -383 FVSRHLCGSNLVETLYSVCQDDGFFYIPK. 23 G -54 -347 -216 -304 -414 ...QHLCGSHLVEALYLVCGSNGFFFNPK. 24 F -286 -328 -429 -404 765 25 F -294 -321 -424 -381 738 ..SQHLCGSHLVEALFLVCGESGFFYNP.. 26 27 28 29 30 Y T P K T -277 -82 -167 -160 -8 -343 -237 -382 -402 -137 -420 56 -74 -55 -132 -312 -66 -167 -4 -114 367 -292 -466 -401 -281 PSSM GLY -398 -329 -110 -265 -295 -472 -327 670 -115 -269 -472 -417 -271 -63 -472 -398 -421 -360 -327 637 -271 -283 670 -202 -392 -414 -220 -303 -250 -172 HIS -151 -345 -34 -26 894 -378 -382 -296 -172 864 -378 -416 -97 -251 -378 176 -345 -391 -382 -264 -128 -113 -296 -209 -134 87 -176 -297 -157 -202 ILE -53 135 -375 -371 -401 97 -213 -482 -329 -419 97 210 -421 -212 97 -220 146 205 -213 -464 -315 -388 -482 -100 -102 -209 2 -375 -354 -157 LYS -367 -248 5 111 -118 -341 -377 -240 28 -135 -341 -321 -16 -152 -341 -253 -311 -295 -377 -192 -34 213 -240 -391 -369 -291 -127 -1 572 -101 LEU 95 -43 -391 -302 -353 528 -218 -472 -338 -383 528 16 -401 -231 528 -187 461 -3 -218 -447 -346 -324 -472 -38 -42 -174 -172 -387 -323 -203 MET -27 -45 -268 -122 -234 149 -228 -366 -236 -258 149 5 -308 -172 149 -179 279 -10 -228 -335 -279 -234 -366 -79 -81 -175 -168 -337 -102 -135 ASN -375 -279 628 -71 -35 -444 -328 -118 -22 206 -444 -388 94 -227 -444 -283 -376 -354 -328 -117 -6 -9 -118 -369 -367 -316 288 -254 -100 -26 PRO -431 301 -239 -74 -308 -387 -361 -307 -19 -297 -387 -330 -207 -163 -387 -382 -364 -307 -361 -296 106 -273 -307 -449 -428 -407 -136 806 140 -152 GLN -363 -247 -56 677 23 -307 -362 -268 -73 -25 -307 -313 127 -159 -307 -199 -275 -291 -362 10 49 20 -268 -400 -366 -250 -8 -186 48 -98 ARG -337 -302 -99 175 84 -309 -419 -325 -133 -112 -309 -347 -109 -225 -309 -248 -296 -329 -419 -164 -3 621 -325 -369 -342 -275 -89 -246 234 -154 SER -305 -41 216 -81 -163 -340 -35 -103 517 -140 -340 -253 -84 54 -340 -248 -112 -195 -35 -99 -53 -15 -103 -219 -306 -271 153 -152 -104 272 THR -266 -68 41 -143 -245 -203 -146 -245 55 -223 -203 -77 -164 57 -203 -247 -168 13 -146 -232 -154 -100 -245 -283 -283 -260 411 -111 -151 517 VAL -124 451 -324 -309 -377 16 -165 -417 -251 -400 16 573 -356 -91 16 -211 39 531 -165 -396 -138 -337 -417 -172 -165 -207 -129 -330 -314 -84 TRP 47 -387 -433 -289 -266 -251 -328 -346 -379 -323 -251 -384 -412 -349 -251 142 -248 -379 -328 -342 -405 -382 -346 17 52 148 -363 -473 -398 -318 TYR 367 -226 -276 -226 239 -188 -332 -406 -264 137 -188 -204 -313 -264 -188 803 -164 -211 -332 -384 -306 -270 -406 238 422 822 -160 -387 -279 -220 • LM 24/09/2010 PSIPRED (Jones, 1999) • 35 Principe: similaire à PHD (2 réseaux en cascade) mais utilise des alignements générés par PSI-BLAST en entrée Meilleure prédiction due à de meilleurs profils de séquences premier réseau: séquence à structure deuxième réseau: structure à structure http://bioinf.cs.ucl.ac.uk/psipred • LM 24/09/2010 PROF (Ouali & King, 2000) • 36 Principe : Classificateur multiple en cascade Phase 1: Algorithmes GOR Phase 2: combinaison de la sortie de la phase 1 avec des réseaux de neurones (profils BLAST) Phase 3: combinaison de la sortie de la phase 2 avec des réseaux de neurones Phase 4: combinaison de la sortie de la phase 3 avec des moments d’hydrophobie http://www.aber.ac.uk/~phiwww/prof • LM 24/09/2010 JPRED (Cuff & Barton, 1999) • 37 Principe: Utilisation de différents profils d’alignements multiples dérivant de la même séquence http://www.compbio.dundee.ac.uk/~www-jpred/submit.html • LM 24/09/2010 SSpro2 (Pollastri et al., 2002) • 38 Améliorations des réseaux de neurones: utilisation de réseaux de neurones bidirectionnels récurrents http://www.igb.uci.edu/tools/scratch • LM 24/09/2010 Performances des réseaux de neurones Performances : En général ≥ 75 % Avantages : • 39 Méthodes les plus performantes Inconvénient : fonctionnent moins bien avec des séquences sans homologues de structure connue • LM 24/09/2010 PLAN • 40 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 Méthode récentes • 41 Méthodes utilisant la construction de novo de structure tridimensionnelles (structures prédites) APSSP2 : (Raghava, 2000) combinaison de réseaux de neurones et de méthodes basées sur l’homologie http://www.imtech.res.in/raghava/apssp2/ ROBETTA : (Simons et al., 1997) construction de modèles basée sur l’homologie et par insertion de fragments (basé sur la méthode ROSETTA) http://robetta.bakerlab.org/ SAM-T02sec (successeur de SAM-T99) : (Karplus et al., 1998) construction de modèles à partir d’alignements et de chaînes de Markov cachées http://www.cse.ucsc.edu/research/ compbio/HMM-apps/T02-query.html • LM 24/09/2010 Performances des méthodes de novo Performances : • 42 En général ≥ 75 % Avantages : Méthodes quasiment aussi performantes que les réseaux de neurones Générations de modèles 3D Inconvénients : fonctionnent moins bien avec des séquences sans homologues de structure connue Méthodes très lourdes en temps de calcul • LM 24/09/2010 PLAN • 43 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 Mesures des performances (2002) • 44 EVA (http://cubic.bioc.columbia.edu/eva) : chaque nouvelle structure résolue dans la PDB est envoyée au serveurs de prédiction APSSP 76.5 % (réseaux de neurones + plus proches voisins) PHDpsi 74.4 % (méthode PHD améliorée) PROFsec 76.6 % (méthode PHD améliorée) PSIPRED 77.9 % JPRED 73.8 % PROFking 74.6 % SSpro2 76.9 % (les résultats présentés sont les derniers accessibles) • LM 24/09/2010 Mesures des performances (2) : CAFASP CAFASP3 • 45 (http://cubic.bioc.columbia.edu/eva/cafasp/) : (CASP5) Avec homologues de structure connue APSSP 73.1 % APSSP2 81.8 % PHD 77.7 % PROFking 77.9 % PROFphd 79.6 % Prospect 79.1 % PSIpred 81.8 % ROBETTA 78.9 % SAM-T02sec 81.6 % SAM-T99sec 79.8 % SSpro2 82.0 % (26 cibles) Sans homologue de structure connue 67.8 % 77.6 % 73.1 % 75.2 % 77.3 % 74.0 % 79.0 % 76.0 % 79.1 % 77.8 % 76.7 % (23 cibles) • LM 24/09/2010 Conseil pratique • 46 Utiliser une (ou plusieurs) méthodes récentes : basées sur les réseaux de neurones : APSSP, ProfPHD, PROFKing, PSIPRED, JPRED, SSpro2 basées sur la construction de modèle APSSP2, ROBETTA, SAM-T02sec Taux de confiance Méthode consensus • LM 24/09/2010 PLAN • 47 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 Prédictions d’autres motifs structuraux Prédiction • 48 de coudes β BTPRED (Shepherd et al., 1999) http://www.biochem.ucl.ac.uk/bsm/btpred/ BETATPRED2 (Kaur & Raghava 2003) http://www.imtech.res.in/raghava/betatpred2/ COUDES (Fuchs & Alix 2005) http://bioserv.rpbs.jussieu.fr/Coudes/index.html Prédictions des autres types de coudes (γ et α) (Kaur & Raghava 2003) http://www.imtech.res.in/raghava/gammapred/ Prédictions des hélices transmembranaires TM-HMM (basé sur les chaînes de Markov cachées) (Krogh et. al., 2001) http://www.cbs.dtu.dk/services/TMHMM/ etc... • LM 24/09/2010 PLAN • 49 Prédiction de structures secondaires I) 1) 2) 3) 4) 5) 6) 7) Généralités / Rappels Méthodes statistiques (Chou-Fasman, GOR) Méthodes utilisant les réseaux de neurones et les alignements multiples (PHD, PSIPRED, SSPro2…) Méthodes basées sur la construction de modèles de novo Performances des méthodes Prédictions d’autres motifs structuraux Intérêt biologique • LM 24/09/2010 Intérêt en Biologie Alignement Modélisation par homologie Relation structure / fonction • 50 acides aminés biochimiquement fonctionnels hélices TM boucles souvent impliquées dans les interactions Prédiction d’épitopes souvent situés dans les boucles (coudes) plus accessible solvant, plus hydrophile etc... • LM 24/09/2010 • 51 FIN • LM 24/09/2010