BIOINFORMATIQUE 1

Transcription

BIOINFORMATIQUE 1
BIOINFORMATIQUE 1- SOLUTIONS
Bioinformatique 1- solutions ...................................................................................................................................... 1 TD1: motifs dans les séquences biologiques ....................................................................................................... 1 Exercice 1 : recherche d’homologues : BLASTp ....................................................................................................... 1 A compléter … (J. van Helden le fera dès que possible) ............................................................................................ 5 TD2 : Intégration de données biologiques hétérogènes .................................................................................... 6 Exercice 1 : quels sont les termes liés à la maladie « Usher syndrome » dans PubMed ? ............................................ 6 Exercice 2 : quels sont les gènes impliqués déjà connus dans la littérature ? ............................................................... 6 Exercice 3 : y a-t-il d’autres gènes candidats ? .......................................................................................................... 6 TD1: MOTIFS DANS LES SEQUENCES BIOLOGIQUES
Le but de ce TD est de se familiariser avec la notion de motifs biologiques, en réalisant d’une part une
recherche de domaine conservé dans une famille de protéines, et d’autre part une découverte de motifs de
liaison de facteurs transcriptionnels au sein de séquences promotrices.
Exercice 1 : recherche d’homologues : BLASTp Consultation des annotations Uniprot
1. Connectez-vous à Uniprot : http://www.uniprot.org/. Dans un premier temps, nous allons
simplement compter le nombre de protéines dans cette base de données. Pour cela, il suffit de laisser
vide le champ de requête, et de cliquer « Search ».
Réponse (le 29 octobre 2012) : « 26,617,536 results in UniProtKB ».
La ligne suivante indique que 538.010 de ces protéines ont été « revues » par des annotateurs
de l’équipe Swiss-prot, c’est-à-dire annotées par un être humain. Toutes les autres
(26.079.526) résultent du traitement automatique des séquences d’ADN soumises à la base de
données de séquences nucléiques de l’EMBL. L’identification automatique de séquences
codantes et leur traduction résulte du projet TREMBL, pour « Translated EMBL ».
La vaste majorité des protéines (TREMBL) n’ont donc jamais fait l’objet d’une vérification
par un être humain, leurs annotations résultent uniquement de processus automatiques, basés
sur des similarités avec des séquences de fonction connue, ou sur l’identification de motifs
correspondant à des domaines protéiques particuliers.
2. Consultez les annotations pour la protéine d’intérêt.
a.
Nous allons maintenant extraire l’information concernant protéine P36914. Entrez cet
identifiant dans la boîte de requête et cliquez « Search ».
b. Ouvrez la fiche correspondante (http://www.uniprot.org/uniprot/P36914)
c.
Consultez les annotations pour comprendre la fonction de la protéine.
d. Prêtez une attention particulière à la rubrique « Sequence annotation (features) », qui vous indique
les positions des domaines fonctionnels.
e.
Dans la section références croisées (« cross-references »), vous trouverez des liens vers la
description du domaine CBM20 dans deux bases de données de domaines protéiques (prosite
et cazy), qui vous indiqueront la fonction de ce domaine.
1
3. Récupérez la séquence fasta de la protéine
a.
Cliquez sur le lien « fasta » marqué en orange, au sommet de la fiche P36914.
b. Sélectionnez l’ensemble du texte, en incluant la ligne d’en-tête. Cette ligne commence par un
">" suivi de l’identifiant et d’une description. Copiez le contenu.
Recherche de similarité avec l’outil BLAST du NCBI
4. BLAST
5. L’outil BLAST permet de rechercher des séquences dans une base de données, sur base de
similarités avec une séquence d’intérêt (« query »).
a.
Dans une nouvelle fenêtre, connectez-vous au site BLAST du NCBI
(http://blast.ncbi.nlm.nih.gov/Blast.cgi).
b. Cliquez sur le lien « protein blast ».
c.
Collez la séquence dans la boîte « Enter query sequence ».
d. Choisissez la base de données (option « Database » - « UniprotKB/Swiss-Prot(swissprot) »).
e.
Cliquez sur le point d’interrogation à côté de la base de données. Vous constaterez que la
base de données comporte 453.295 séquences (version du 13 octobre 2012). Il s’agit donc du
sous-ensemble de protéines « revues » par des annotateurs.
f.
Cliquez sur le bouton « BLAST » pour entamer la recherche.
6. Au bout de quelques secondes (ou minutes), le résultat apparaît. La première partie résulte d’une préanalyse (avant BLAST), qui consiste à comparer la séquence à une base de données de domaines
conservés. Cette analyse rapide révèle déjà la présence de deux domaines : « glyco-hydro-15 » (~des
résidus 40 à 440) et CBM20 (extrémité C-terminale).
7. La seconde partie graphique indique la distribution des séquences similaires (« blast hits ») par rapport
à la séquence de requête (« query »).
8. On constate qu’il y a 3 types de correspondances :
-
Certaines séquences s’alignent sur toute la longueur de la protéine requête.
-
D’autres couvrent la partie N-terminale, correspondant au domaine Glyco-Hydro-15.
-
Les séquences restantes couvrent le domaine CBM20.
2
Interprétation
BLAST est un algorithme d’alignement local. Sur base d’une séquence requête (la glucamylase
d’Aspergillus oryzae) nous avons identifié une série de protéines présentant des correspondances
globales (d’autres glucamylases) ou locales (limitées à l’un ou l’autre des deux domaines).
9. BLAST restreint aux métazoaires
a.
En haut de la page de résultats de BLAST, cliquez « Edit and resubmit ». Le formulaire
précédent apparaît, en maintenant les champs que vous aviez remplis.
b. Dans la boîte « organisme », tapez Metazoa. Notez la complétion automatique : à mesure
que vous tapez, le formulaire affiche une liste de plus en plus restreinte de choix.
Sélectionnez « Metazoa (taxid:33208) » et cliquez sur le bouton BLAST.
c.
Cette requête retourne uniquement des alignements partiels.
d. En particulier, la table les trois lignes noires correspondent à des alignements dont la Evalue (expect) est supérieure à 1 (les trois dernières lignes de la table ci-dessous).
e.
Ceci signifie que si l’on avait soumis une séquence aléatoire, on s’attendrait à trouver 3, 6
et 8 alignements avec un score aussi élevé, par le simple jeu du hasard. Ces trois
alignements ne peuvent donc en aucun cas être considérés comme significatifs.
Les trois premières lignes de la table de résultat montrent par contre des alignements
significatifs (ils ont une faible E-valeur, il est donc peu vraisemblable qu’ils résultent du
hasard).
Interprétation
En résumé, on peut conclure que les métazoaires ne disposent pas de glucoamylase. Il semble
cependant exister des domaines présentant une relativement faible similarité avec le domaine Cterminal de cette protéine, qui correspond au domaine CBM20.
Recherche de similarité avec l’outil BLAST d’Uniprot
10. L’interface de la page de résultat du BLAST d’Uniprot diffère de celle du NCBI.
3
a.
La colonne « query hits » fournit une information similaire à celle du schéma graphique
du BLAST du NCBI : elle indique la fraction de la protéine requête (la glucoamylase)
couverte par chaque « hit ».
b. Par défaut, la page de résultat n’affiche que les 25 premiers hits. Vous pouvez augmenter
le nombre de résultats affichés en cliquant sur l’option « Detailed BLAST RESULTS
Customize ». Choisissez d’afficher 250 hits.
c.
La colonne « match hit » fournit l’information réciproque : la couverture de chaque
protéine trouvée (« hit ») par la protéine requête. Dans ce cas particulier, le graphique est
difficile à lire car l’une des protéines trouvées (MUC16_HUMAN) comporte 22.152
acides aminés. Cette protéine géante impose son échelle à l’ensemble de la colonne, et les
correspondances avec des protéines de taille normale sont donc écrasées dans la partie
gauche de la colonne.
d. Au-dessus de cette table, notez la présence d’un menu contextuel « Taxonomy », qui
indique le nombre de hits par groupe taxonomique, et permet de restreindre l’affichage à
un groupe particulier.
11. Sélection de protéines pour l’alignement multiple avec clustalw
a.
Je recommande d’effectuer cette sélection sur la secnde table de la page BLAST
d’Uniprot (la table apparaît sous le titre « Detailed BLAST result »). Ceci vous permettra
de vérifier la significativité, et de ne retenir que les hits dont la E-valeur est suffisamment
faible (disons, inférieure à 1x10-3).
b. Cochez les cases à côté d’une vingtaine de protéines en descendant progressivement dans
la liste. Ne sélectionnez que des protéines qui couvrent le domaine CBM20 (côté Cterminal) de la protéine requête.
c.
Evitez de ne sélectionner que les premiers hits, car le but de l’opération suivante sera
d’aligner des protéines présentant une diversité suffisante dans la séquence du domaine
CBM20.
d. Notez la zone verte qui apparaît sous la fenêtre quand vous commencez à sélectionner
des protéines.
Alignement multiple avec ClustalW2
12. Alignement multiple avec clustalw
a.
Après avoir sélectionné un nombre suffisant de protéines, cliquez « Retrieve » à droite de
cette bande verte.
b. Cliquez sur le lien « Open » sous la rubrique « Sequence data in fasta format ».
c.
Copiez la totalité des séquences affichées.
4
d. Connectez vous à l’outil ClustalW2 de l’EBI
(http://www.ebi.ac.uk/Tools/msa/clustalw2/).
A compléter … (J. van Helden le fera dès que possible) 5
TD2 : INTÉGRATION DE DONNÉES BIOLOGIQUES HÉTÉROGÈNES
Exercice 1 : quels sont les termes liés à la maladie « Usher syndrome » dans PubMed ? Interprétation des résultats
La base de données PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez) recense 782 articles contenant
les mots "Usher" et "syndrome", parmi lesquels 655 contenant la paire de mots "Usher syndrome" (en
tapant les guillemets dans la requête PubMed, on impose de trouver les mots l’un après l’autre, plutôt que
dispersés dans le texte).
L’outil BioE (http://www.bioinf.manchester.ac.uk/dbbrowser/bioie/) récupère ces entrées, et analyse les
fréquences de mots dans les 20 premiers abstracts. L’outil est relativement inefficace : on voudrait
naturellement analyser l’ensemble des 655 résumés, mais ceci fait planter BioE. De plus, le modèle
probabiliste de BioE est rudimentaire : il trie les mots par fréquences (en écartant éventuellement les mots
trop fréquents tels que les articles, prépositions usuelles, etc), sans aucun critère pour juger de la
pertinence des mots.
L’outil GoPubMed (http://www.gopubmed.org/) réalise une analyse plus élaborée, en analysant la
fréquence des termes de la « Gene Ontology » ( http://www.geneontology.org/). Le projet Gene
Ontology consiste à homogénéiser les annotations en se basant sur une liste de termes prédéfinis (un
vocabulaire contrôlé, avec des listes de synonymies) liés par des relations hiérarchiques (en partant de
classes très génériques telles que « métabolisme », « régulation » (processus), « transporteur » (fonction
moléculaire), « cytoplasme » (localisation cellulaire), pour progressivement préciser. De plus, l’outil
GoPubMed trie les termes en se basant sur un score de significativité qui consiste à comparer la fréquence
d’un mot dans la collection d’abstracts sélectionnés à celle attendue d’une sélection aléatoire de même
taille. En conséquence, que les mots les plus fréquents ne sont pas forcément les plus significatifs. On
constate immédiatement que ces critères de sélection retournent des termes apparemment pertinents pour
caractériser le syndrome d’Usher :Retinaldehyde, Retinis pigmentosa, Deafness, …
Exercice 2 : quels sont les gènes impliqués déjà connus dans la littérature ? L’outil AliBaba (http://alibaba.informatik.hu-berlin.de/) effectue une analyse directement ciblée sur les
noms de gènes et de protéines. L’interface représente les résultats sous forme d’un réseau, indiquant les
liens entre gènes qui interviennent dans les mêmes phrases (et sont donc vraisemblablement impliqués
dans des interactions). En cliquant sur un gène, on peut voir les éléments d’information (« textual
evidences ») sur lesquelles AliBaba s’est basé pour inférer le réseau. Malheureusement, cet outil est
également limité à un petit nombre d’articles (20 par défaut), et quand on augmente la limite, le
programme poursuit indéfiniment son analyse sans retourner de résultat. Les résultats obtenus sont donc
très partiels, et ne représentent qu’une petite fraction de la littérature concernant le syndrome d’Usher.
Nous pouvons néanmoins extraire une série de noms de gènes et de protéines, par exemple : USH1,
USH2A, CIB2, PDZD7, SNAP25, cadherin-23, bestrophilin, …
Exercice 3 : y a-­‐t-­‐il d’autres gènes candidats ? STRING
Le site STRING (http://string.embl.de/) héberge une base de données d’interactions (physiques et/ou
fonctionnelles) entre protéines et/ou gènes, en regroupant différents types d’indications expérimentales et
bioinformatiques: interaction physique des protéines, proximité des gènes sur le génome, profils
transcriptomiques, co-occurrence dans la littérature scientifique, …
6
Si l’on entre le nom « USH2A », on obtient le réseau suivant :
On retrouve parmi les partenaires de USH2A une série de gènes qui avaient également été rapportés par
AliBaba. Ceci n’est pas étonnant en soi, puisque STRING utilise, parmi ses sources d’informations, les cooccurrences de noms de gènes/protéines dans les abstracts (l’information sur laquelle se base AliBaba).
Nous voyons cependant que chaque relation est indiquée par une arête colorée, et certaines interactions
sont marquées doublement, voire triplement, indiquant qu’elles sont confirmées par plusieurs types de
données. Par exemple, l’interaction entre CDH23 et USH1C est indiquée d’une part par la co-occurrence
de ces noms dans les abstracts (arête vert-jaune), d’autre part par des données expérimentales (arête rose).
La table située sous le graphique d’interactions indique la fonction des partenaires identifiés par STRING.
Nous constatons qu’ils sont effectivement liés au syndrome d’Usher, ou à des fonctions apparentées
(surdité,
En cliquant sur le bouton « Save », on obtient le réseau sous différents formats, ainsi qu’une liste des
protéines qui le constituent, dans le ficher "Network proteins description".
Endeavour
L’outil Endeavour (http://homes.esat.kuleuven.be/~bioiuser/endeavour/index.php) effectue une
analyse plus approfondie, en analysant les interactions entre un groupe de gènes d’intérêt (« training set »)
à une liste de gènes candidats (« test gènes »), pour une série de réseaux d’interactions obtenus de
différentes sources.
Afin de tester la précision de Endeavour, nous allons lui faire passer un test de « leave-one-out » : notre
requête précédente dans STRING nous a fourni une liste de gènes interagissant avec USH2A.
USH2A, USH1G, MAFF, DFNB31, GSK3B, HLA-A, PCDH15, MYO7A, CLRN1, USH1C, CDH23
Ecartons temporairement un de ces gènes de l’ensemble (« left-out gene »), et soumettons les autres gènes
comme groupe d’entraînement (onglet 2 : Training genes). Nous évaluerons ensuite si Endeavour est
capable de retrouver le gène manquant (par exemple CDH23) à partir des autres gènes.
7
Nous pouvons ensuite sélectionner les sources de données (2. Data sources used to build models).
Sélectionnez-les toutes (cliquez sur "All"), puis désélectionnez String (puisque notre réseau provenait de String,
il serait trop facile de permettre à Endeavour de se servir de String pour retrouver l’élément manquant).
L’étape suivante requiert de fournir une liste de gènes candidats. Une possibilité serait de considérer
l’ensemble du génome comme liste de candidats, mais ceci risque de prendre un peu de temps. Pour créer
rapidement une liste de candidats qui inclura le gène « left-out », nous pouvons soumettre une région
chromosomique suffisamment large aux alentours de ce gène, de façon à disposer de quelques dizaines de
gènes candidats. Le navigateur d’UCSC nous indique que CHD23 est localisé sur la bande q22.1 du
chromosome 10 de l’humain. Retournez à Endeavour, et indiquez "chr10:q22.1" dans la boîte "4.
Candidates", puis cliquez "Add". Ceci ajoute 47 gènes à la liste des candidats. Vous pouvez éventuellement
allonger cette liste en ajoutant une ou deux autres bandes (par exemple chr10:q22.2).
L’étape suivante « Launch prioritization » est l’analyse proprement dite : pour chacun des réseaux
(modèles) que vous avez sélectionné à la deuxième étape, Endeavour trie les gènes candidats en fonction
du nombre d’interactions avec les gènes d’entraînement (training set). Nous pouvons évaluer si Endeavour
classe le gène « left-out » (CHD23 dans notre exemple) figure en bonne position parmi les gènes candidats
(dans la figure ci-dessous, j’ai soumis comme candidats les 77 gènes des régions chr10:q22.1 et
chr10:q22.2).
La première colonne indique la « prioritisation » globale (en fait il s’agit d’un tri), et nous constatons que
CDH23 apparaît en première position. Ce tri résulte de l’ensemble des tris présentés dans les colonnes
suivantes, chacun de ces tris correspondant à une source de données. Les annotations d’EST d’Ensembl
classent CDH23 en 18ème position sur 77, ce n’est pas très fameux. Par contre, CDH23 arrive en première
position dans les colonnes Gene Ontology (classes fonctionnelles), Swissprot (annotations de fonction et
domaines), BLAST (similarité avec les séquences d’entraînement), Interaction BioGrid, Interaction Hprd,
Precalculated Ouzounis, Precalculated Prospectr, et Text. Il est également bien classé dans la colonne
« Interpro », une base de données de séquences protéiques classées en fonction de leurs domaines
fonctionnels. Ces multiples sources de données sont sans doute partiellement redondantes : plusieurs
d’entre elles reposent sur l’inspection de résumés d’articles (abstracts) soit par des humains (annotations
Swissprot, GO) soit par des outils de fouille de texte comme nous en avons vu plus haut. Néanmoins, il
ressort de l’analyse globale une cohérence qui fait que le gène de test ressort en bon premier.
8

Documents pareils