TP : Prédiction des structures secondaires

Transcription

TP : Prédiction des structures secondaires
Université Paris 5
Initiation à la bioinformatique
TP : Prédiction des structures secondaires
UV
Le 24 Septembre 2010
Lory Montout
Sauf indication contraire, s’il vous plaît laissez tous les réglages sur leurs valeurs par défaut
Exercice I (Prédiction de la structure secondaire d’une protéine)
Au laboratoire vous avez obtenu la séquence d’un gène codant pour une protéine dont la séquence est la suivante :
>new1
MVLLVDDEARIAEIVQFLLRDQGFLVDTVSDAPHGRHLFEESGAVPHIML
LDFGLPDLSGMQILKIIKQKGMTRDVPALLVTAKGTEVDAAEGLDMGADD
YVLTPKPFSPKELMARIRAVLRRLSNYVFANPEHNEKEIEFGLLRMNFGS
VHLFVNQSPIQLTTTEWFTKFLCMLSLNSGKPFNHDQLLNRVGGEHRHPD
Une recherche blast et sur les banques de domaines nous a permi de déterminer que cette protéine était un
domaine de transduction du signal, et qu’elle comportait un site de phosphorylation en position 54 sur une
Aspartate dans un motif LLDF.
1) Aller sur le site PBIL à lyon http ://pbil.univ-lyon1.fr/ et trouver le lien secondary structure.
Plusieurs programmes de prédiction de structures secondaires existent et on été mis en ligne.
2) L’option Secondary structure consensus prediction permet de comparer les résultats de ces différents
programmes et de fournir la structure secondaire consensus (trouvée par la majorité d’entre-eux). Analysez
votre séquence. Dans quelle type de structure secondaire se trouve le site de phosphorylation ?
3) Vous pouvez obtenir ce type de prédiction quand vous avez réalisé un alignement multiple. Lancez ClustalW sur le site du PBIL à partir de la sélection de séquence qui vous est fournie. Pour faire ressortir des
zones conservées versus des zones peu ou pas conservées au cours de l’évolution, cette échantillon a été
construit en prenant en compte des séquences proches mais aussi des séquences éloignées.
4) Sur la page de résultats, cochez les cases correspondant aux différentes méthodes de prédiction de structure
secondaire que vous voulez utiliser.
5) Dans le menu, choisissez Only secondary consensus et cliquez sur Show.
6) Analysez les résultats. Le site de phosphorylation est-il dans une zone conservée ?
Exercice II (Comparaison de deux outils)
La barnase est une protéine bactérienne qui se compose de 110 acides aminés et présente une activité ribonucléase. Elle est synthétisée et sécrétée par la bactérie Bacillus amyloliquefaciens, mais est mortelle pour la
cellule lorsqu’elle est exprimée sans son inhibiteur, la barstar (89 aa). L’inhibiteur se lie et obstrue le site actif
ribonucléase, empêchant la barnase d’endommager l’ARN de la cellule après qu’elle ait été synthétisée, mais
avant qu’elle ait été sécrétée. Le complexe barnase/barstar est connue pour son interaction protéine-protéine
extrêmement forte, avec une constante d’affinité de 108 M−1 .
Dans cet exercice, nous allons voir comment et à quel niveau deux outils de prédiction diffèrents.
1) Recherchez sur le serveur SRS (Sequence Retrieval System) de l’EBI : http ://srs.ebi.ac.uk/ la
séquence FASTA de l’inhibiteur de la ribonucléase de Bacillus amyloliquefaciens.
2) Sur le site du PBIL effectuez une prédiction de structure secondaire (à l’aide de la méthode de troisième
génération PHD.
3) Au bas de la page de résultat cliquez sur le lien Prediction result file (text) : [PHD].
4) Regardez les résultats pour PHD. Vous verrez quelques lignes supplémentaires étiquetées prH , prL et
prE qui contiennent la force du réseau de neurones de sortie pour chacune des trois structures secondaires
possibles. Que pouvez-vous voir dans la relation entre la ligne de Rel et ces trois valeurs ?
5) Sur le serveur PSIPRED : http ://bioinf.cs.ucl.ac.uk/psipred/ faites une prédiction de structure
secondaire à l’aide de la méthode (PSIpred V3.0).
Imprimé avec LATEX 2ε
1/5
6) Nous allons maintenant comparer les résultats des deux outils les uns avec les autres et ainsi qu’avec la
structure correcte. Ouvrez une nouvelle fenêtre Bloc-notes et redimensionnez la largeur de l’écran.
7) Pour PHD, copiez soigneusement les 3 lignes AA, PHD et Rel dans la fenêtre Bloc-notes. Bien que les
résultats sont répartis en 2 lignes, vous devriez finir avec une seule ligne dans le Bloc-notes contenant
des informations de PHD. Assurez-vous de copier les informations pour les 89 acides aminés, qui peuvent
contenir des espaces.
8) Regardons maintenant les résultats pour PSIPRED. Comme auparavant copiez les lignes Conf, Pred et
AA dans de nouvelles lignes dans la fenêtre Bloc-notes, sous les lignes de PHD.
9) La structure 3D de la proteine a été résolue. Allez sur la PDB : http ://www.pdb.org/ et faites
une recherche avec le mot clé BARSTAR pour retrouver la structure dont le code est 1BTA (ou faites
directement la recherche avec le code PDB 1BTA) et récupérez la structure de la protéine au format
PDB.
10) Allez sur le serveur de Stride : http ://webclu.bio.wzw.tum.de/cgi-bin/stride/stridecgi.py et
faites une assignation de structure secondaire grâce à la structure crystallographique de la Barnase (3
méthodes possibles).
11) Enfin, copiez la structure assignée par Stride et placez à la suite de vos prédictions dans le bloc-notes.
12) Pour faire la comparaison entre les différents formats plus facilement, choisissez Remplacer dans le menu
de recherche et changez tous les C en espace et puis tous les T en espace.
13) Que pouvez-vous dire, en général, sur le niveau d’accord entre PHD, PSIPRED et la structure correcte ?
14) Que pouvez-vous dire, en général, sur les niveaux de confiance des PHD et PSIPRED quand ceux-ci sont
en accord sur la position d’une hélice alpha ou d’un feuillet bêta ?
15) Que pouvez-vous dire, en général, sur les niveaux de confiance des PHD et PSIPRED quand ceux-ci ne
s’entendent pas sur la structure secondaire ?
16) En vous basant sur ces résultats pour cette séquence d’acides aminés, sur quels aspects des résultats de
prévision auriez-vous le plus confiance ?
Exercice III (Comprendre les limites)
Dans cette question, nous allons voir un exemple qui démontre les limites de la prédiction de la structure
secondaire de la séquence.
1) Allez à la base de données de votre choix et récupérez les séquences FASTA pour P85A_HUMAN et
ICW3_PSOTE et les coller dans une fenêtre du Bloc-Note.
2) Aller sur la page de BLAST pairwise : www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi.
3) Sélectionnez l’onglet blastp.
4) Au bas de la page dans la section Algorythm Parameters, sélectionnez PAM30 dans l’onglet matrice.
5) Réglez le seuil attendu (Expect threshold) à 1000.
6) Collez dans les deux séquences que vous avez extrait.
7) Cliquez sur Align.
8) D’après les résultats, notez la séquence de 8 acides aminés qui est contenue dans les deux protéines. Notez
également sa position dans chaque séquence pour vous aider à la retrouver plus tard.
9) Maintenant, utilisez le serveur PSIPRED pour prédire la structure secondaire des deux séquences.
10) Utilisez la note que vous avez faites précédemment pour retrouver la séquence commune de 8 lettres dans
chacun des résultats de prédiction.
11) Jetez un oeil aux structures secondaires correctes ci-dessous (basé sur des expériences). Dire quelle structure a été prédite presque correctement et laquelle l’a été de manière incorrecte. Quelle confiance PSIPRED
accorde à chaque prédiction ?
P85A_HUMAN : HHHHHCCC
ICW3_PSOTE : CCEEEEEE
UV
TP : Prédiction des structures secondaires
2/5
12) Qu’est-ce que cela nous dit sur la fiabilité de l’exécution de prédiction de structure secondaire pour chaque
acide aminé dans une séquence de protéine en regardant une petite fenêtre autour de ce point ?
13) Pouvez-vous penser à une raison chimique/biologique pour expliquer ce phénomène ?
UV
TP : Prédiction des structures secondaires
3/5