TP : Prédiction des structures secondaires
Transcription
TP : Prédiction des structures secondaires
Université Paris 5 Initiation à la bioinformatique TP : Prédiction des structures secondaires UV Le 24 Septembre 2010 Lory Montout Sauf indication contraire, s’il vous plaît laissez tous les réglages sur leurs valeurs par défaut Exercice I (Prédiction de la structure secondaire d’une protéine) Au laboratoire vous avez obtenu la séquence d’un gène codant pour une protéine dont la séquence est la suivante : >new1 MVLLVDDEARIAEIVQFLLRDQGFLVDTVSDAPHGRHLFEESGAVPHIML LDFGLPDLSGMQILKIIKQKGMTRDVPALLVTAKGTEVDAAEGLDMGADD YVLTPKPFSPKELMARIRAVLRRLSNYVFANPEHNEKEIEFGLLRMNFGS VHLFVNQSPIQLTTTEWFTKFLCMLSLNSGKPFNHDQLLNRVGGEHRHPD Une recherche blast et sur les banques de domaines nous a permi de déterminer que cette protéine était un domaine de transduction du signal, et qu’elle comportait un site de phosphorylation en position 54 sur une Aspartate dans un motif LLDF. 1) Aller sur le site PBIL à lyon http ://pbil.univ-lyon1.fr/ et trouver le lien secondary structure. Plusieurs programmes de prédiction de structures secondaires existent et on été mis en ligne. 2) L’option Secondary structure consensus prediction permet de comparer les résultats de ces différents programmes et de fournir la structure secondaire consensus (trouvée par la majorité d’entre-eux). Analysez votre séquence. Dans quelle type de structure secondaire se trouve le site de phosphorylation ? 3) Vous pouvez obtenir ce type de prédiction quand vous avez réalisé un alignement multiple. Lancez ClustalW sur le site du PBIL à partir de la sélection de séquence qui vous est fournie. Pour faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l’évolution, cette échantillon a été construit en prenant en compte des séquences proches mais aussi des séquences éloignées. 4) Sur la page de résultats, cochez les cases correspondant aux différentes méthodes de prédiction de structure secondaire que vous voulez utiliser. 5) Dans le menu, choisissez Only secondary consensus et cliquez sur Show. 6) Analysez les résultats. Le site de phosphorylation est-il dans une zone conservée ? Exercice II (Comparaison de deux outils) La barnase est une protéine bactérienne qui se compose de 110 acides aminés et présente une activité ribonucléase. Elle est synthétisée et sécrétée par la bactérie Bacillus amyloliquefaciens, mais est mortelle pour la cellule lorsqu’elle est exprimée sans son inhibiteur, la barstar (89 aa). L’inhibiteur se lie et obstrue le site actif ribonucléase, empêchant la barnase d’endommager l’ARN de la cellule après qu’elle ait été synthétisée, mais avant qu’elle ait été sécrétée. Le complexe barnase/barstar est connue pour son interaction protéine-protéine extrêmement forte, avec une constante d’affinité de 108 M−1 . Dans cet exercice, nous allons voir comment et à quel niveau deux outils de prédiction diffèrents. 1) Recherchez sur le serveur SRS (Sequence Retrieval System) de l’EBI : http ://srs.ebi.ac.uk/ la séquence FASTA de l’inhibiteur de la ribonucléase de Bacillus amyloliquefaciens. 2) Sur le site du PBIL effectuez une prédiction de structure secondaire (à l’aide de la méthode de troisième génération PHD. 3) Au bas de la page de résultat cliquez sur le lien Prediction result file (text) : [PHD]. 4) Regardez les résultats pour PHD. Vous verrez quelques lignes supplémentaires étiquetées prH , prL et prE qui contiennent la force du réseau de neurones de sortie pour chacune des trois structures secondaires possibles. Que pouvez-vous voir dans la relation entre la ligne de Rel et ces trois valeurs ? 5) Sur le serveur PSIPRED : http ://bioinf.cs.ucl.ac.uk/psipred/ faites une prédiction de structure secondaire à l’aide de la méthode (PSIpred V3.0). Imprimé avec LATEX 2ε 1/5 6) Nous allons maintenant comparer les résultats des deux outils les uns avec les autres et ainsi qu’avec la structure correcte. Ouvrez une nouvelle fenêtre Bloc-notes et redimensionnez la largeur de l’écran. 7) Pour PHD, copiez soigneusement les 3 lignes AA, PHD et Rel dans la fenêtre Bloc-notes. Bien que les résultats sont répartis en 2 lignes, vous devriez finir avec une seule ligne dans le Bloc-notes contenant des informations de PHD. Assurez-vous de copier les informations pour les 89 acides aminés, qui peuvent contenir des espaces. 8) Regardons maintenant les résultats pour PSIPRED. Comme auparavant copiez les lignes Conf, Pred et AA dans de nouvelles lignes dans la fenêtre Bloc-notes, sous les lignes de PHD. 9) La structure 3D de la proteine a été résolue. Allez sur la PDB : http ://www.pdb.org/ et faites une recherche avec le mot clé BARSTAR pour retrouver la structure dont le code est 1BTA (ou faites directement la recherche avec le code PDB 1BTA) et récupérez la structure de la protéine au format PDB. 10) Allez sur le serveur de Stride : http ://webclu.bio.wzw.tum.de/cgi-bin/stride/stridecgi.py et faites une assignation de structure secondaire grâce à la structure crystallographique de la Barnase (3 méthodes possibles). 11) Enfin, copiez la structure assignée par Stride et placez à la suite de vos prédictions dans le bloc-notes. 12) Pour faire la comparaison entre les différents formats plus facilement, choisissez Remplacer dans le menu de recherche et changez tous les C en espace et puis tous les T en espace. 13) Que pouvez-vous dire, en général, sur le niveau d’accord entre PHD, PSIPRED et la structure correcte ? 14) Que pouvez-vous dire, en général, sur les niveaux de confiance des PHD et PSIPRED quand ceux-ci sont en accord sur la position d’une hélice alpha ou d’un feuillet bêta ? 15) Que pouvez-vous dire, en général, sur les niveaux de confiance des PHD et PSIPRED quand ceux-ci ne s’entendent pas sur la structure secondaire ? 16) En vous basant sur ces résultats pour cette séquence d’acides aminés, sur quels aspects des résultats de prévision auriez-vous le plus confiance ? Exercice III (Comprendre les limites) Dans cette question, nous allons voir un exemple qui démontre les limites de la prédiction de la structure secondaire de la séquence. 1) Allez à la base de données de votre choix et récupérez les séquences FASTA pour P85A_HUMAN et ICW3_PSOTE et les coller dans une fenêtre du Bloc-Note. 2) Aller sur la page de BLAST pairwise : www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi. 3) Sélectionnez l’onglet blastp. 4) Au bas de la page dans la section Algorythm Parameters, sélectionnez PAM30 dans l’onglet matrice. 5) Réglez le seuil attendu (Expect threshold) à 1000. 6) Collez dans les deux séquences que vous avez extrait. 7) Cliquez sur Align. 8) D’après les résultats, notez la séquence de 8 acides aminés qui est contenue dans les deux protéines. Notez également sa position dans chaque séquence pour vous aider à la retrouver plus tard. 9) Maintenant, utilisez le serveur PSIPRED pour prédire la structure secondaire des deux séquences. 10) Utilisez la note que vous avez faites précédemment pour retrouver la séquence commune de 8 lettres dans chacun des résultats de prédiction. 11) Jetez un oeil aux structures secondaires correctes ci-dessous (basé sur des expériences). Dire quelle structure a été prédite presque correctement et laquelle l’a été de manière incorrecte. Quelle confiance PSIPRED accorde à chaque prédiction ? P85A_HUMAN : HHHHHCCC ICW3_PSOTE : CCEEEEEE UV TP : Prédiction des structures secondaires 2/5 12) Qu’est-ce que cela nous dit sur la fiabilité de l’exécution de prédiction de structure secondaire pour chaque acide aminé dans une séquence de protéine en regardant une petite fenêtre autour de ce point ? 13) Pouvez-vous penser à une raison chimique/biologique pour expliquer ce phénomène ? UV TP : Prédiction des structures secondaires 3/5