Prédiction de structures secondaires

Transcription

Prédiction de structures secondaires
Prédiction de
structures secondaires
Lory Montout
Dynamique des structures et interaction des macromolécules
Université Paris 7, INSERM U665
(Sources : Patrick Fuchs)
Que faire avec une séquence
protéique ?
 
Rechercher des similitudes de séquence
 
 
 
• 2
recherche d’autres séquences similaires dans les bases de
données: BLAST sur la NR, Swiss-Prot…
recherche de motifs fonctionnels: PROSITE, BLOCKS, PFAM,
PRINTS…
Prédiction de Structure
 
 
 
 
 
 
profil d’hydropatie
prédiction de structure secondaire
prédiction des hélices transmembranaires
prédiction des boucles (coudes)
modélisation par homologie
reconnaissance de repliement protéique (threading)
• LM 24/09/2010
Objectif du cours
 
Rechercher des similitudes de séquence
 
 
 
• 3
recherche d’autres séquences similaires dans les bases de
données: BLAST sur la NR, Swiss-Prot…
recherche de motifs fonctionnels: PROSITE, BLOCKS, PFAM,
PRINTS…
Prédiction de Structure
 
 
 
 
 
 
profil d’hydropatie
prédiction de structure secondaire
prédiction des hélices transmembranaires
prédiction des boucles (coudes)
modélisation par homologie
reconnaissance de repliement protéique (threading)
• LM 24/09/2010
PLAN
• 4
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
PLAN
• 5
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
• 6
Structures secondaires des protéines
 
Définition: repliements locaux que prennent les acides aminés dans
une protéine
 
Trois grandes catégories:
 
hélices α
 
brins β (feuillets)
 
boucles (coil)
e.g. Barstar (inhibiteur
de ribonucléase)
• LM 24/09/2010
Les angles dièdres φ/ψ
• 7
• LM 24/09/2010
Carte de Ramachandran
• 8
e.g. Barstar (inhibiteur de ribonucléase)
β
ψ
α
φ
• LM 24/09/2010
Les hélices
• 9
phi(deg)
psi(deg) H-bond pattern
----------------------------------------------------------------right-handed alpha-helix
-57.8
-47.0
i+4
pi-helix
-57.1
-69.7
i+5
3-10 helix
-74.0
-4.0
i+3
(omega is 180 deg in all cases)
-----------------------------------------------------------------
π α
310
• LM 24/09/2010
Les brins β
• 10
phi(deg)
psi(deg)
omega (deg)
-----------------------------------------------------------------beta strand
-120
120
180
-----------------------------------------------------------------
antiparallel
parallel
• LM 24/09/2010
Attribution des structures secondaires
• 11
  Attribution
d’une structure secondaire à chaque acide
aminé à partir de la structure 3D
  Logiciel
DSSP (Kabsch & Sander, 1983) ou STRIDE
(Frishman & Argos, 1995): attribution en 7 ou 8 états:
‘H’: hélice α (liaison hydrogène i-i+4)
  ‘G': hélice 310 (liaison hydrogène i-i+3)
  ‘I’: hélice π (liaison hydrogène i-i+5)
  ‘E’: brin β (au sein d’un feuillet β)
  ‘B’: pont β (β bridge) isolé
  ‘T’: coude β (β-turn) avec liaison hydrogène
  ‘S’: bend (courbure)
  ‘ ’ ou ‘C’: tout le reste !
 
• LM 24/09/2010
Simplification en 3 états
 
‘H’: hélice α (liaison hydrogène i-i+4)
 
‘G': hélice 310 (liaison hydrogène i-i+3)
 
‘I’: hélice π (liaison hydrogène i-i+5)
 
‘E’: brin β (au sein d’un feuillet β)
 
‘B’: pont β (β bridge) isolé
 
‘T’: coude β (β-turn) avec liaison hydrogène
 
‘S’: bend (courbure)
 
‘ ’ ou ‘C’: tout le reste !
• 12
H
E
C
• LM 24/09/2010
Prédiction de structures secondaires
 
Constat:
 
 
certains résidus ou séquences présentent des préférences pour
tel ou tel type de structure
But:
 
 
• 13
à partir de la séquence seule, prédire la structure de chaque
résidu dans un des 3 états (α, β, coil)
Besoin:
 
un jeu de protéines de structure 3D connue
 
éventuellement, banque de séquences
• LM 24/09/2010
 Attribution ≠ Prédiction
!
  Attribution
• 14
des structures secondaires
Seq
...RSISDLHQTLKKELAL...
...CSHHHHHHHHHHHHTC...
SSII observée
  Prédiction
Pas nécessairement
identique
des structures secondaires
Seq
?
...RSISDLHQTLKKELAL...
...RSISDLHQTLKKELAL...
...CCHHHHHHHHHHHCCC...
SSII prédite
• LM 24/09/2010
• 15
Comment mesurer la qualité d'une prédiction ?
  Considérons
2 états (ie 2 types de structures secondaires)...
... en assignant aléatoirement
des H et E, on a ~50% de
chances de faire une
prédiction correcte.
  Considérons
4 états (ie 4 types de structures secondaires)...
... en assignant aléatoirement
des H et E, G et boucles, on a
~25% de chances de faire
une prédiction correcte.
• 16
Comment mesurer la qualité d'une prédiction ?
  Toute
mesure pertinente doit tenir compte du nombre de
types de structures secondaires considérées.
  De
plus, puisque lorsqu’on connaît la structure
tridimensionnelle, on ne dépasse pas les 88% d’acides
aminés assignés à une structure secondaire avec sécurité... on
ne peut pas dépasser ce seuil avec une prédiction !
Une première mesure : le Qk
  Pourcentage
• 17
de structures secondaires correctement prédites
pour k types de structures secondaires considérées.
  Pour
  Un
k = 3, par exemple {H,E,C}, on définit le Q3*:
exemple :
* En anglais, cette mesure s'appelle the three-state overall
percentage of predicted residues.
Une seconde mesure : le Sov
  Notion
de chevauchement (overlap en anglais)
  Pour
chaque structure secondaire s1,s2...sp, on
calcule le recouvrement minimal (minov) et le
recouvrement maximal (maxov).
  La
 
formule suivante permet de calculer le Sov*:
Comment interpréter la valeur du Sov ? Le Sov varie
entre 37% (hasard) et 90% (protéine similaire).
* En anglais, cette mesure s'appelle the Segment
Overlap Measure.
• 18
Historique
 
Alignements simples (besoin d’avoir une structure homologue)
 
Méthodes statistiques
 
 
 
 
Chou-Fasman (Chou & Fasman,1974)
GOR (Garnier et al., 1978)
Plus proche voisin (Lin et al., 1986)
Réseaux de Neurones
 
 
 
 
 
• 19
Séquence seule (fin 80)
Matrice Blosum (e.g., PhD, début 90)
Matrice d’alignement mutiple (Position specific alignment profiles) (e.g.,
PsiPred, fin 90)
Affinement des techniques de réseaux de neurones (SSpro2 début 2000)
Méthodes basées sur la construction de novo de modèles 3D
 
(fin 90 / début 2000, mais récemment utilisées pour la prédiction de Structures
Secondaires)
• LM 24/09/2010
Amélioration des performances
• 20
Rost et al., 2001
 
1974 Chou & Fasman
~50-53%
 
1978 Garnier
63%
 
1987 Zvelebil
66%
 
1988 Quian & Sejnowski
64.3%
 
1993 Rost & Sander
70.8-72.0%
 
1997 Frishman & Argos
<75%
 
1999 Cuff & Barton
72.9%
 
1999 Jones
76.5%
 
2000 Petersen et al.
77.9%
Attention: données non actuelles !
• LM 24/09/2010
PLAN
• 21
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
• 22
Méthode Chou-Fasman (1974)
 
Propension : tendance des résidus pour un des 3 états α, β ou turn
(coude β)
 
e.g. propension d’une Ala pour l’état H (hélice α)
 
calcul des propensions de
chaque acide aminé à être
en H, E ou C
si P > 1  résidu favorable
à la structure et inversement
 
• LM 24/09/2010
Exemple de propensions
• 23
• LM 24/09/2010
Algorithme de Chou-Fasman
• 24
  Assigner
une propension pour les états H, E et Turn à
chaque résidu
  Recherche
des sites de nucléation d’hélice
(4 résidus au moins sur une fenêtre de 6 avec Pα > 1)
  Propagation
à gauche et à droite (jusqu’à trouver 4
résidus avec Pα < 1)
  Renouveler
la même chose pour les brins β
  Si
des régions α et β se chevauchent, assigner l’état de
plus haute propension moyenne
  Prédiction
des coudes β selon d’autres règles
• LM 24/09/2010
Méthode GOR (Garnier, 1978)
 
• 25
Méthode basée sur la théorie de l’information:
I(Ala|α) = ln [p(Ala|α) / p(α)]
(même principe que les propensions de CF)
 
Prise en compte des résidus voisins (8 de chaque côté): fenêtre de
17 résidus
...KKAVINGEQIRSISDLH...
⇒ 20 * 4 * 17 valeurs à déterminer
e.g. pour
l’hélice
i-8
i-7
i-6
i-5
i-4
i-3
i-2
i-1
A
5
10
15
20
30
40
50
60
C
0
0
0
0
0
0
-5
0
0
0
0
5
10
-5
-10
-15
-20
-25
-30
i
i+1
i+2
i+3
i+4
i+5
i+6
i+7
i+8
65
60
50
40
30
20
15
10
5
-10
-13
-10
-5
0
0
0
0
0
0
20
20
10
-10
-20
-20
-10
-5
0
0
0
-35
-40
-45
-40
-35
-30
-25
-20
-15
-10
-5
…
Q
…
Y
• LM 24/09/2010
Algorithme de la méthode GOR
  Fenêtre
• 26
glissante de 17 résidus :
Nterm...KKAVINGEQIRSISDLHQTL...Cterm
Nterm...KKAVINGEQIRSISDLHQTL...Cterm
Nterm...KKAVINGEQIRSISDLHQTL...Cterm
Nterm...KKAVINGEQIRSISDLHQTL...Cterm etc...
  Calcul
du score pour chaque état : le plus grand
correspond à la structure secondaire.
• LM 24/09/2010
• 27
Performance des méthodes statistiques
 
 
 
Performances:
 
Chou-Fasman: 50-53 %
 
GOR: 63 % (il existe aussi des améliorations GOR III, GOR IV et GOR V)
Avantages:
 
généralement applicables
 
fonctionne avec des séquences sans homologues de structure connue
Inconvénient:
 
Moins bonnes performances que les méthodes actuelles
• LM 24/09/2010
PLAN
• 28
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
Principe des réseaux de neurones
• 29
  Machine
d'apprentissage utilisant des réseaux de
perceptrons (Technique de classification)
 
des unités reçoivent des données pondérées en entrée, et
envoient des signaux de sortie.
e.g. séquence en entrée
-> struct sec en sortie
  Il
est possible d’ajouter une fonction en sortie
• LM 24/09/2010
Principe des réseaux de neurones (2)
  Organisation
• 30
du réseau en couches
  Apprentisage
du réseau : trouver des poids qui optimisent
les sorties avec les entrées fournies
  Applications
Reconnaissance d’écriture (lecture des codes postaux)
  Pourcentage de structure secondaire à partir d’un spectre de
dichroïsme circulaire
  Prédictions de structure secondaire
etc…
 
• LM 24/09/2010
Architecture d’un réseau de neurones
Couche d’entrée: Poids
séquence
IK
E
EH
VI
I
QA
E
Fenêtre
• 31
HE Couche de Sortie
C Struct. Sec.
Couche cachée
IKEEHVIIQAEFYLNPDQSGEF…..
• LM 24/09/2010
Alignements multiples
 
 
• 32
Prise en compte des propriétés de l’évolution
 
augmente l’exactitude de prédiction
 
décisif de savoir si tel résidu
est conservé ou non
En général, générés par
PSIBLAST, CLUSTALW
e.g. sur 1ben
(insuline)
FVNQHLCGSHLVEALYLVCGERGFFYTPKS
FVKQHLCGSHLVEALYLVCGERGFFYTPMS
FVNQHLCGSHLVEALYLVCGERGFFYTPKA
FVKQHLCGPHLVEALYLVCGERGFFYTPKS
..NQHLCGSHLVEALYLVCGERGFFYNPK.
..NQHLCGSHLVEALYLVCGERGFFYSPKA
...QRLCGSHLVDALYFVCGERGFFYSPK.
....HLCGSHLVEALYVVCGDRGFFYTP..
...QHLCGSHLVDALYLVCGPSGFFYNPK.
...QHLCGSHLVDALYLVCGDKGFFFNPK.
FVNQHLCGSHLVEALYLVCGERGFF.....
FVNQHLCGSHLVEALYLVCGERGFF.....
...QRLCGSHLVDALYFVCGERGFFYSPK.
..SQHLCGSHLVEALYFVCGPKGFYYLPK.
FVSRHLCGSNLVETLYSVCQDDGFFYIPK.
..SQHLCGSHLVEALYFVCGPKGFYYLPKA
FVSRHLCGSNLVETLYSVCQDDGFFYIPK.
...QHLCGSHLVEALYLVCGSNGFFFNPK.
..SQHLCGSHLVEALFLVCGESGFFYNP..
• LM 24/09/2010
PHD (Rost & Sander, 1996)
• 33
Principe :
prend en entrée un profil
de séquences et combine
3 réseaux de neurones en
cascades
Premier niveau :
séquence à structure
Deuxième niveau :
structure à structure
Troisième niveau :
jury de prédiction
http://cubic.bioc.columbia.edu/predictprotein
• LM 24/09/2010
Matrice d’alignement multiple
• 34
Position Specific Scoring Matrix générée par PSIBLAST:
Alignement
FVNQHLCGSHLVEALYLVCGERGFFYTPKS
FVKQHLCGSHLVEALYLVCGERGFFYTPMS
ALA
CYS
ASP
GLU
PHE
1 F -281 -298 -432 -384
698
FVNQHLCGSHLVEALYLVCGERGFFYTPKA
2 V
-39 -180 -122 -243 -206
FVKQHLCGPHLVEALYLVCGERGFFYTPKS
3 N -132 -293
39
-82 -370
4 Q -157 -388 -110
122 -411
..NQHLCGSHLVEALYLVCGERGFFYNPK.
5 H -155 -388 -210
-92 -163
..NQHLCGSHLVEALYLVCGERGFFYSPKA
6 L -233 -212 -469 -385
-25
7 C -104 1019 -418 -429 -333
...QRLCGSHLVDALYFVCGERGFFYSPK.
8 G
-54 -347 -216 -304 -414
....HLCGSHLVEALYVVCGDRGFFYTP..
9 S
89 -185
-46
-38 -341
10
H
-246
-401
75
46 -214
...QHLCGSHLVDALYLVCGPSGFFYNPK.
11 L -233 -212 -469 -385
-25
...QHLCGSHLVDALYLVCGDKGFFFNPK.
12 V
-92 -160 -417 -340 -165
13 E -188 -458
348
561 -428
FVNQHLCGSHLVEALYLVCGERGFF.....
14 A
535 -119 -259 -166 -314
FVNQHLCGSHLVEALYLVCGERGFF.....
15 L -233 -212 -469 -385
-25
16 Y -262 -343 -350
-93
307
...QRLCGSHLVDALYFVCGERGFFYSPK.
17 L -199 -212 -420 -350
59
..SQHLCGSHLVEALYFVCGPKGFYYLPK.
18 V
43 -158 -389 -315 -177
19 C -104 1019 -418 -429 -333
FVSRHLCGSNLVETLYSVCQDDGFFYIPK.
20 G
-24 -344 -209 -241 -411
..SQHLCGSHLVEALYFVCGPKGFYYLPKA
21 E -173 -408
347
494 -395
22 R -196 -408
73
-58 -383
FVSRHLCGSNLVETLYSVCQDDGFFYIPK.
23 G
-54 -347 -216 -304 -414
...QHLCGSHLVEALYLVCGSNGFFFNPK.
24 F -286 -328 -429 -404
765
25
F
-294
-321
-424
-381
738
..SQHLCGSHLVEALFLVCGESGFFYNP..
26
27
28
29
30
Y
T
P
K
T
-277
-82
-167
-160
-8
-343
-237
-382
-402
-137
-420
56
-74
-55
-132
-312
-66
-167
-4
-114
367
-292
-466
-401
-281
PSSM
GLY
-398
-329
-110
-265
-295
-472
-327
670
-115
-269
-472
-417
-271
-63
-472
-398
-421
-360
-327
637
-271
-283
670
-202
-392
-414
-220
-303
-250
-172
HIS
-151
-345
-34
-26
894
-378
-382
-296
-172
864
-378
-416
-97
-251
-378
176
-345
-391
-382
-264
-128
-113
-296
-209
-134
87
-176
-297
-157
-202
ILE
-53
135
-375
-371
-401
97
-213
-482
-329
-419
97
210
-421
-212
97
-220
146
205
-213
-464
-315
-388
-482
-100
-102
-209
2
-375
-354
-157
LYS
-367
-248
5
111
-118
-341
-377
-240
28
-135
-341
-321
-16
-152
-341
-253
-311
-295
-377
-192
-34
213
-240
-391
-369
-291
-127
-1
572
-101
LEU
95
-43
-391
-302
-353
528
-218
-472
-338
-383
528
16
-401
-231
528
-187
461
-3
-218
-447
-346
-324
-472
-38
-42
-174
-172
-387
-323
-203
MET
-27
-45
-268
-122
-234
149
-228
-366
-236
-258
149
5
-308
-172
149
-179
279
-10
-228
-335
-279
-234
-366
-79
-81
-175
-168
-337
-102
-135
ASN
-375
-279
628
-71
-35
-444
-328
-118
-22
206
-444
-388
94
-227
-444
-283
-376
-354
-328
-117
-6
-9
-118
-369
-367
-316
288
-254
-100
-26
PRO
-431
301
-239
-74
-308
-387
-361
-307
-19
-297
-387
-330
-207
-163
-387
-382
-364
-307
-361
-296
106
-273
-307
-449
-428
-407
-136
806
140
-152
GLN
-363
-247
-56
677
23
-307
-362
-268
-73
-25
-307
-313
127
-159
-307
-199
-275
-291
-362
10
49
20
-268
-400
-366
-250
-8
-186
48
-98
ARG
-337
-302
-99
175
84
-309
-419
-325
-133
-112
-309
-347
-109
-225
-309
-248
-296
-329
-419
-164
-3
621
-325
-369
-342
-275
-89
-246
234
-154
SER
-305
-41
216
-81
-163
-340
-35
-103
517
-140
-340
-253
-84
54
-340
-248
-112
-195
-35
-99
-53
-15
-103
-219
-306
-271
153
-152
-104
272
THR
-266
-68
41
-143
-245
-203
-146
-245
55
-223
-203
-77
-164
57
-203
-247
-168
13
-146
-232
-154
-100
-245
-283
-283
-260
411
-111
-151
517
VAL
-124
451
-324
-309
-377
16
-165
-417
-251
-400
16
573
-356
-91
16
-211
39
531
-165
-396
-138
-337
-417
-172
-165
-207
-129
-330
-314
-84
TRP
47
-387
-433
-289
-266
-251
-328
-346
-379
-323
-251
-384
-412
-349
-251
142
-248
-379
-328
-342
-405
-382
-346
17
52
148
-363
-473
-398
-318
TYR
367
-226
-276
-226
239
-188
-332
-406
-264
137
-188
-204
-313
-264
-188
803
-164
-211
-332
-384
-306
-270
-406
238
422
822
-160
-387
-279
-220
• LM 24/09/2010
PSIPRED (Jones, 1999)
• 35
  Principe:
similaire à PHD (2
réseaux en cascade)
mais utilise des
alignements générés
par PSI-BLAST en
entrée
  Meilleure
prédiction
due à de meilleurs
profils de séquences
premier réseau:
séquence à structure
deuxième réseau:
structure à structure
http://bioinf.cs.ucl.ac.uk/psipred
• LM 24/09/2010
PROF (Ouali & King, 2000)
• 36
Principe : Classificateur multiple en cascade
Phase 1: Algorithmes GOR
Phase 2: combinaison de la
sortie de la phase 1 avec
des réseaux de neurones
(profils BLAST)
Phase 3: combinaison de la
sortie de la phase 2 avec
des réseaux de neurones
Phase 4: combinaison de la
sortie de la phase 3 avec
des moments d’hydrophobie
http://www.aber.ac.uk/~phiwww/prof
• LM 24/09/2010
JPRED (Cuff & Barton, 1999)
• 37
Principe:
Utilisation de différents
profils d’alignements
multiples dérivant de la
même séquence
http://www.compbio.dundee.ac.uk/~www-jpred/submit.html
• LM 24/09/2010
SSpro2 (Pollastri et al., 2002)
• 38
  Améliorations
des réseaux de neurones: utilisation
de réseaux de neurones bidirectionnels récurrents
http://www.igb.uci.edu/tools/scratch
• LM 24/09/2010
Performances des réseaux de neurones
 
Performances :
 
 
En général ≥ 75 %
Avantages :
 
 
• 39
Méthodes les plus performantes
Inconvénient :
 
fonctionnent moins bien avec des séquences sans homologues de
structure connue
• LM 24/09/2010
PLAN
• 40
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
Méthode récentes
• 41
  Méthodes
utilisant la construction de novo de structure
tridimensionnelles (structures prédites)
APSSP2 : (Raghava, 2000)
combinaison de réseaux de neurones et de méthodes basées
sur l’homologie
http://www.imtech.res.in/raghava/apssp2/
  ROBETTA : (Simons et al., 1997)
construction de modèles basée sur l’homologie et par
insertion de fragments (basé sur la méthode ROSETTA)
http://robetta.bakerlab.org/
  SAM-T02sec (successeur de SAM-T99) : (Karplus et al., 1998)
construction de modèles à partir d’alignements et de chaînes
de Markov cachées http://www.cse.ucsc.edu/research/
compbio/HMM-apps/T02-query.html
 
• LM 24/09/2010
Performances des méthodes de novo
 
Performances :
 
 
 
• 42
En général ≥ 75 %
Avantages :
 
Méthodes quasiment aussi performantes que les réseaux de
neurones
 
Générations de modèles 3D
Inconvénients :
 
fonctionnent moins bien avec des séquences sans homologues de
structure connue
 
Méthodes très lourdes en temps de calcul
• LM 24/09/2010
PLAN
• 43
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
Mesures des performances (2002)
 
• 44
EVA (http://cubic.bioc.columbia.edu/eva) :
chaque nouvelle structure résolue dans la PDB est envoyée au
serveurs de prédiction
 
APSSP
76.5 % (réseaux de neurones + plus proches voisins)
 
PHDpsi
74.4 % (méthode PHD améliorée)
 
PROFsec
76.6 % (méthode PHD améliorée)
 
PSIPRED
77.9 %
 
JPRED
73.8 %
 
PROFking
74.6 %
 
SSpro2
76.9 %
(les résultats présentés sont les
derniers accessibles)
• LM 24/09/2010
Mesures des performances (2) : CAFASP
  CAFASP3
• 45
(http://cubic.bioc.columbia.edu/eva/cafasp/) :
(CASP5)
Avec homologues
de structure connue
APSSP
73.1 %
APSSP2
81.8 %
PHD
77.7 %
PROFking
77.9 %
PROFphd
79.6 %
Prospect
79.1 %
PSIpred
81.8 %
ROBETTA
78.9 %
SAM-T02sec
81.6 %
SAM-T99sec
79.8 %
SSpro2
82.0 %
(26 cibles)
Sans homologue
de structure connue
67.8 %
77.6 %
73.1 %
75.2 %
77.3 %
74.0 %
79.0 %
76.0 %
79.1 %
77.8 %
76.7 %
(23 cibles)
• LM 24/09/2010
Conseil pratique
 
• 46
Utiliser une (ou plusieurs) méthodes récentes :
 
 
basées sur les réseaux de neurones :
APSSP, ProfPHD, PROFKing, PSIPRED, JPRED, SSpro2
basées sur la construction de modèle
APSSP2, ROBETTA, SAM-T02sec
 
Taux de confiance
 
Méthode consensus
• LM 24/09/2010
PLAN
• 47
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
Prédictions d’autres motifs structuraux
  Prédiction
• 48
de coudes β
BTPRED (Shepherd et al., 1999)
http://www.biochem.ucl.ac.uk/bsm/btpred/
  BETATPRED2 (Kaur & Raghava 2003)
http://www.imtech.res.in/raghava/betatpred2/
  COUDES (Fuchs & Alix 2005)
http://bioserv.rpbs.jussieu.fr/Coudes/index.html
  Prédictions des autres types de coudes (γ et α)
(Kaur & Raghava 2003)
http://www.imtech.res.in/raghava/gammapred/
 
  Prédictions
 
des hélices transmembranaires
TM-HMM (basé sur les chaînes de Markov cachées)
(Krogh et. al., 2001)
http://www.cbs.dtu.dk/services/TMHMM/
etc...
• LM 24/09/2010
PLAN
• 49
Prédiction de structures secondaires
I) 
1) 
2) 
3) 
4) 
5) 
6) 
7) 
Généralités / Rappels
Méthodes statistiques (Chou-Fasman, GOR)
Méthodes utilisant les réseaux de neurones et les
alignements multiples (PHD, PSIPRED, SSPro2…)
Méthodes basées sur la construction de modèles de
novo
Performances des méthodes
Prédictions d’autres motifs structuraux
Intérêt biologique
• LM 24/09/2010
Intérêt en Biologie
 
Alignement
 
Modélisation par homologie
 
Relation structure / fonction
 
 
 
 
• 50
acides aminés biochimiquement fonctionnels
hélices TM
boucles souvent impliquées dans les interactions
Prédiction d’épitopes
  souvent situés dans les boucles (coudes)
  plus accessible solvant, plus hydrophile
etc...
• LM 24/09/2010
• 51
FIN
• LM 24/09/2010