TP1 de Graphisme Moléculaire

Transcription

TP1 de Graphisme Moléculaire
L2SNV : Informatique pour Biologistes
Année 2007/2008
TP1 de Graphisme Moléculaire
Ce TP a pour but de vous montrer les bases du graphisme moléculaire, à l’aide d’un logiciel
simple nommé RasMol. N’hésitez pas à l'installer chez vous si vous possédez un ordinateur, il
est compatible avec les principaux systèmes d'exploitation (Windows, MasOS, Linux…). Vous
pouvez le télécharger, par exemple, à l’URL suivante :
http://www.bernstein-plus-sons.com/software/rasmol/
Sur cette page, récupérez la dernière version (actuellement la 2.7.3) dans la colonne « MSWIN
binaries ». Afin de vous montrer les potentialités du logiciel, nous étudierons les différents
modes de représentation à partir de la structure d’une protéine de 89 acides aminés : la barstar.
Cette protéine provient de la bactérie Bacillus amyloliquefaciens et est connue comme étant un
inhibiteur de ribonucléase (cette dernière est aussi appelée barnase).
1) Récupération de la structure
La première chose à faire est de télécharger la structure de la barstar. Toutes les structures
tridimensionnelles se trouvent sur le site de la Protein Data Bank, encore appelée PDB
(http://www.rcsb.org).
• Téléchargement de la structure : pour retrouver la structure de cette protéine, connectezvous sur le site de la PDB puis entrez le code PDB de la protéine intitulé « 1BTA » dans
la case en haut et au milieu de la page et cliquez sur le bouton « search ». Vous arrivez
sur une page avec des informations générales sur cette structure, n’hésitez pas à les
parcourir. Cliquez à gauche sur le lien « Download Files », puis cliquez sur le lien
« PDB text » de manière à télécharger la structure au format PDB sans compression.
Enregistrez le fichier PDB sur le disque dur de l’ordinateur dans un dossier vous
appartenant.
• Analyse du fichier PDB : une fois le fichier sauvé sur le disque, nous allons regarder son
contenu à l’aide d’un éditeur de texte. Ouvrez l’éditeur WordPad (menu Démarrer,
Programmes, Accessoires, WordPad). Chargez le fichier PDB dans WordPad (Fichier,
Ouvrir, au niveau du filtre « Fichier de type » : sélectionnez « Tous les documents :
*.* », puis sélectionnez le bon fichier). Regardez attentivement le contenu du fichier, et
spécialement son entête (header en anglais), puis les lignes commençant par le mot
« ATOM ».
Questions :
1. Par quelle technique expérimentale la structure a-t-elle été résolue ?
2. De quand date la structure ?
3. Pouvez-vous dire en lisant l’entête combien d’hélices α et de brins β trouve-t-on dans
cette structure ?
4. Où se trouvent les coordonnées tridimensionnelles dans le fichier ? Identifiez chacune
des colonnes.
2) Prise en main de RasMol
Avant toute chose, si vous rencontrez un problème, n’hésitez pas à aller sur la page d’aide de
RasMol (http://www.bio.cmu.edu/Courses/BiochemMols/RasFrames/RASMAIN.HTM).
• Ouverture de la structure dans RasMol : lancez RasMol (fichier exécutable raswin.exe).
Il est important de remarquer que le logiciel présente 2 fenêtres, une avec des menus
cliquables avec la souris ainsi qu’une zone de visualisation, et l’autre qui acceptera des
commandes rentrées au clavier (« RasMol command line »). Après avoir jeté un coup
d’œil aux 2 fenêtres, chargez la structure (dans le menu « File », cliquez sur « Open »,
puis sélectionnez le bon fichier).
1
L2SNV : Informatique pour Biologistes
Année 2007/2008
•
Observation de la structure : la structure apparaît dans la fenêtre de visualisation sous
forme de fil de fer (« wireframe »). Pour la faire tourner, maintenez le bouton gauche de
la souris enfoncé, et bougez la souris. Pour translater la structure, maintenez le bouton
droit enfoncé et bougez la souris. Pour faire un zoom avant ou arrière, maintenez la
touche shift ainsi que le bouton gauche enfoncé, et bougez la souris en bas ou en haut
respectivement.
• Modes de représentations : à l’aide du menu « Display », testez les différents modes de
représentation : fil de fer (wireframe), bâton (sticks), boule/bâton (ball & stick), sphère
de van der Waals (spacefill) et les différents rubans (ribbons, strands et cartoons).
• Coloration de la structure : par défaut, RasMol colore par type d'atome (carbone : gris,
azote : bleu, oxygène : rouge, hydrogène : blanc), menu « Colours », option « CPK ».
Passez en mode de représentation sphère de van der Waals. Essayez les modes de
coloration « Monochrome » (tout de la même couleur), et « Shapely » (chaque résidu a
sa propre couleur). Passez maintenant en mode de représentation en ruban, puis passez
en mode de coloration « Group », puis « Structure ». Il existe deux autres modes de
représentation « Chain » (coloration de chaque chaîne avec une couleur différente, donc
utile en cas de protéine multimérique, cf prochain TP), et « Temperature » (coloration
selon la mobilité).
Questions :
1. À quoi correspondent les modes de coloration « Group » et « Structure » ?
2. Quel est l’intérêt de chaque mode de représentation et/ou de coloration ?
3. Retrouvez-vous les hélices et les brins indiqués dans l’entête du fichier PDB ?
4. Quels sont les atomes présentant une mobilité importante ? Quels sont ceux
présentant une mobilité faible ?
3) Visualisation des zones d’intérêt de la barstar
Il a été montré que l’Asp39 était un résidu clé à l’interface du complexe barstar/barnase. On se
propose de repérer où ce résidu est situé dans la structure.
Autour de l’Asp39 (interface avec la barnase).
• Ouverture de la structure : si RasMol était ouvert, fermez-le (Menu « File », puis
« Exit »). Ouvrez à nouveau la structure avec RasMol comme expliqué dans 2). Faites
apparaître la structure sous forme de ruban et colorez-la en blanc avec la commande
« color white » dans la fenêtre de commandes.
• Mise en valeur du résidu Asp39 : par défaut lors de l’ouverture de RasMol, l’ensemble
de la structure est sélectionnée, si bien que si l’on modifie le mode de représentation, on
le fait sur l’ensemble de la structure. Dans notre cas, il va falloir sélectionner seulement
l’Asp39, en tapant dans la fenêtre de commande « select 39 ». Ensuite, les modifications
se feront uniquement sur ce résidu Asp39. Faites-le apparaître en sphère de van der
Waals et colorez-le en magenta (« color magenta »).
Le Trp53 est un résidu situé dans le cœur hydrophobe de la protéine, donc important pour
maintenir une bonne cohésion de la structure elle-même. On se propose de vérifier où est situé
ce résidu.
• Mise en valeur du résidu Trp53 : reproduire la même chose que pour l’Asp39 avec le
Trp53, mais colorez-le en jaune (« color yellow »).
• Position de ces 2 résidus dans la barstar : pour mieux se rendre compte de la position
respective de ces 2 résidus, il convient de faire apparaître les autres résidus. Le mode de
représentation en points est particulièrement bien adapté car il permet une certaine
transparence. On se propose donc de représenter la protéine sous forme de points. Pour
cela, sélectionnez la protéine entière avec la commande « select all », puis passez en
représentation en points avec la commande « dots ». N’hésitez pas à faire tourner la
2
L2SNV : Informatique pour Biologistes
Année 2007/2008
protéine pour mieux vous rendre compte de la position des 2 résidus au sein de la
protéine. Passez ensuite en sphère de van der Waals avec la commande « cpk » et à
nouveau, faites tourner la protéine pour bien appréhender la position de ces 2 résidus.
Questions :
1. Où se trouve l’Asp39 (sur quelle structure secondaire) ? Est-il situé en surface ou dans
le cœur de la protéine ? Cela vous paraît-il cohérent par rapport à son rôle ?
2. Même chose pour le Trp53 ?
4) Mesure de distance interatomique
Nous allons maintenant utiliser RasMol pour reconnaître des atomes ou mesurer une distance.
• Effacement de la structure : pour effacer complètement tous les modes de représentation,
sélectionnez la protéine entière avec la commande « select all », puis annuler tous les
modes de représentation avec les commandes « cpk off », « dots off » et « ribbons off ».
• Reconnaissance d’atome en cliquant : maintenant que tout est effacé, sélectionnez les
résidus 88 et 89 avec la commande « select 88-89 », faites les apparaître en boule/bâton
et colorez-les selon la nature des atomes (« color cpk »). Cliquez sur un des atomes. Que
se passe-t-il dans la fenêtre de commandes ? Renouvelez l’opération sur d’autres atomes.
• Mesure d’une distance entre atomes avec RasMol : activez le mode de mesure des
distances avec la commande « set picking distance ». Dans la suite, veillez à avoir les 2
fenêtres de RasMol ouvertes et visibles sur votre écran. Cliquez au choix sur 2 atomes.
Que se passe-t-il dans la fenêtre de commandes ? Mesurez la distance entre le Cα de la
Leu88 et le Cα de la Ser89.
• Mesure d’une distance entre atomes à la main : Ouvrir le fichier PDB avec WordPad.
Notez sur une feuille les coordonnées des atomes Cα des Leu88 et Ser89. Calculez la
distance entre ces 2 atomes à la main.
Rappel : mesure d’une distance euclidienne entre 2 points A(xA,yA,zA) et B(xB,yB,zB) :
dist ( A, B ) = ( x B − x A ) 2 + ( y B − y A ) 2 + ( z B − z A ) 2
Questions :
1. Quelle est la distance entre les atomes Cα de la Leu88 et de la Ser89 ?
2. Trouvez-vous le même résultat entre le calcul à la main et avec RasMol ? Pourquoi ?
5) Calcul de la distribution des distances entre Cα consécutifs
Maintenant que vous savez mesurer une distance à la main, on se propose d’automatiser
l’opération dans Excel sur l’ensemble des distances entre Cα consécutifs. Ceci va nous
permettre de vérifier si cette distance est stable ou, au contraire, si elle varie beaucoup.
• Extraction des coordonnées avec WordPad : Ouvrez le fichier PDB avec WordPad
(comme en 1)). Sélectionnez toutes les lignes de l’entête avec la souris (jusqu’à la
première ligne commençant par « ATOM » non incluse). Supprimez l’entête en
appuyant sur la touche « Suppr ». Enregistrez le fichier sous le nom
« 1BTA_sans_entete.pdb » (Menu « Fichier », puis « Enregistrer Sous »). Quittez
WordPad.
• Ouverture du fichier sous Excel : Ouvrez Excel. Chargez le fichier
« 1BTA_sans_entete.pdb » préalablement enregistré (Menu « Fichier », « Ouvrir », puis
au niveau du filtre « Fichier de type : » sélectionnez « Tous les documents : *.* », puis
sélectionnez le bon fichier). Le fichier n’étant pas au bon format, Excel ouvre
« l’assistant » d’importation de texte. Étant donné que le fichier est bien formaté en
colonne, nous pouvons cliquer sur « Terminer » directement. Si tout s’est bien passé,
3
L2SNV : Informatique pour Biologistes
•
•
•
Année 2007/2008
vous devez avoir le fichier ouvert avec chaque colonne séparée (si tel n’est pas le cas,
fermez Excel et renouvelez l’opération).
Récupération des Cα sous Excel : la première chose à faire est de convertir les points
(symbole décimal anglo-saxon) en virgules (symbole décimal français). Sélectionnez
l’ensemble des données à l’aide des 2 touches « Ctrl-A ». Remplacez les « . » par des
« , » (Menu « Édition », puis « remplacer »). Nous allons maintenant mettre en place un
filtre. Revenez en haut de la feuille Excel (case A1), puis sélectionnez la première ligne
en cliquant sur le chiffre « 1 » (correspondant à la ligne 1) en haut à gauche de la feuille
Excel, puis insérer une nouvelle ligne (Menu « Insertion », puis « Ligne »).
Normalement, la ligne 1 doit être maintenant vide mais toujours sélectionnée (si tel n’est
pas le cas, sélectionnez la). Insérez maintenant un filtre (Menu « Données », « Filtre »
puis « Filtre automatique »). Vous devez normalement voir apparaître des filtres dans
chaque colonne. Vous devez retrouver dans la colonne C les noms d’atome, et en case
C1 un filtre sur ces noms. Cliquez sur le filtre (dans la case C1) et sélectionnez CA (pour
carbone α). Miracle, vous avez seulement les lignes contenant les Cα ! Sélectionnez ces
lignes correspondant au Cα en prenant seulement les colonnes correspondant au numéro
de résidu et aux coordonnées x, y et z (colonnes F, G, H et I). Copiez (Menu « Édition »
puis « Copier ») cette sélection et collez-la dans une nouvelle feuille Excel. Pour cela,
ouvrez une nouvelle feuille (Menu « Fichier », puis « Nouveau »), puis coller (Menu
« Édition » puis « Coller »). Enregistrez cette nouvelle feuille sous le nom
« CA_coor.xls ».
Calcul des distances entre Cα consécutifs : vous devez avoir à ce point les coordonnées
x, y et z dans les colonnes B, C et D respectivement. Dans la case E2, rentrez une
formule qui calcule la distance entre le Cα du résidu 1 et le Cα du résidu 2. Vous pouvez
utiliser le symbole « ^ » pour la puissance, par exemple (a-b)^2 signifie (a-b)2.. De plus,
la fonction RACINE permet de calculer une racine carrée. Enfin, pour dupliquer cette
formule à l’ensemble des paires de Cα consécutifs, sélectionnez la case E2 (qui contient
votre formule), puis double-cliquez sur le petit carré en bas à droite de la cellule. Si tout
va bien, la formule a été dupliquée sur l’ensemble des cellules contenant des données.
Attention à supprimer la dernière case (qui devrait être la case E90), car la valeur n’a
aucun sens. Excel a tout de même généré une valeur, mais qui n’a aucun sens car il n’y a
pas de résidu 90 !
Graphe des distances entre Ca consécutifs : sélectionnez l’ensemble des distances (de la
colonne E) et faites un graphique de type « lignes » de celles-ci (Menu « Insertion », puis
« Graphique »), à faire apparaître dans une nouvelle feuille. N’hésitez pas à modifier
l’échelle des ordonnées pour regarder différentes zones du graphique (clique-droit sur
l’axe des ordonnées, « format de l’axe », onglet « échelle » puis modifier les valeurs
dans « minimum » et « maximum »).
Questions :
1. Calculer la moyenne et l’écart-type des distances entre Cα consécutifs (fonctions
MOYENNE et ECARTYPE).
2. Qu’en déduisez-vous quant à la distance entre Cα consécutifs dans les protéines ?
3. Y a-t-il une valeur aberrante dans la distribution qui vous paraît en dehors de l’écart
type ? Comment l’expliquez-vous (n’oubliez pas de jeter un coup d’œil à l’entête du
fichier PDB) ?
1 N
1 n
( xi − x ) 2
Rappel : pour n valeurs (x1, x2…xn) : moyenne = x = ∑ xi et écart − type =
∑
n i =1
n i =1
4