BIOINFORMATIQUE 1
Transcription
BIOINFORMATIQUE 1
BIOINFORMATIQUE 1- SOLUTIONS Bioinformatique 1- solutions ...................................................................................................................................... 1 TD1: motifs dans les séquences biologiques ....................................................................................................... 1 Exercice 1 : recherche d’homologues : BLASTp ....................................................................................................... 1 A compléter … (J. van Helden le fera dès que possible) ............................................................................................ 5 TD2 : Intégration de données biologiques hétérogènes .................................................................................... 6 Exercice 1 : quels sont les termes liés à la maladie « Usher syndrome » dans PubMed ? ............................................ 6 Exercice 2 : quels sont les gènes impliqués déjà connus dans la littérature ? ............................................................... 6 Exercice 3 : y a-t-il d’autres gènes candidats ? .......................................................................................................... 6 TD1: MOTIFS DANS LES SEQUENCES BIOLOGIQUES Le but de ce TD est de se familiariser avec la notion de motifs biologiques, en réalisant d’une part une recherche de domaine conservé dans une famille de protéines, et d’autre part une découverte de motifs de liaison de facteurs transcriptionnels au sein de séquences promotrices. Exercice 1 : recherche d’homologues : BLASTp Consultation des annotations Uniprot 1. Connectez-vous à Uniprot : http://www.uniprot.org/. Dans un premier temps, nous allons simplement compter le nombre de protéines dans cette base de données. Pour cela, il suffit de laisser vide le champ de requête, et de cliquer « Search ». Réponse (le 29 octobre 2012) : « 26,617,536 results in UniProtKB ». La ligne suivante indique que 538.010 de ces protéines ont été « revues » par des annotateurs de l’équipe Swiss-prot, c’est-à-dire annotées par un être humain. Toutes les autres (26.079.526) résultent du traitement automatique des séquences d’ADN soumises à la base de données de séquences nucléiques de l’EMBL. L’identification automatique de séquences codantes et leur traduction résulte du projet TREMBL, pour « Translated EMBL ». La vaste majorité des protéines (TREMBL) n’ont donc jamais fait l’objet d’une vérification par un être humain, leurs annotations résultent uniquement de processus automatiques, basés sur des similarités avec des séquences de fonction connue, ou sur l’identification de motifs correspondant à des domaines protéiques particuliers. 2. Consultez les annotations pour la protéine d’intérêt. a. Nous allons maintenant extraire l’information concernant protéine P36914. Entrez cet identifiant dans la boîte de requête et cliquez « Search ». b. Ouvrez la fiche correspondante (http://www.uniprot.org/uniprot/P36914) c. Consultez les annotations pour comprendre la fonction de la protéine. d. Prêtez une attention particulière à la rubrique « Sequence annotation (features) », qui vous indique les positions des domaines fonctionnels. e. Dans la section références croisées (« cross-references »), vous trouverez des liens vers la description du domaine CBM20 dans deux bases de données de domaines protéiques (prosite et cazy), qui vous indiqueront la fonction de ce domaine. 1 3. Récupérez la séquence fasta de la protéine a. Cliquez sur le lien « fasta » marqué en orange, au sommet de la fiche P36914. b. Sélectionnez l’ensemble du texte, en incluant la ligne d’en-tête. Cette ligne commence par un ">" suivi de l’identifiant et d’une description. Copiez le contenu. Recherche de similarité avec l’outil BLAST du NCBI 4. BLAST 5. L’outil BLAST permet de rechercher des séquences dans une base de données, sur base de similarités avec une séquence d’intérêt (« query »). a. Dans une nouvelle fenêtre, connectez-vous au site BLAST du NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi). b. Cliquez sur le lien « protein blast ». c. Collez la séquence dans la boîte « Enter query sequence ». d. Choisissez la base de données (option « Database » - « UniprotKB/Swiss-Prot(swissprot) »). e. Cliquez sur le point d’interrogation à côté de la base de données. Vous constaterez que la base de données comporte 453.295 séquences (version du 13 octobre 2012). Il s’agit donc du sous-ensemble de protéines « revues » par des annotateurs. f. Cliquez sur le bouton « BLAST » pour entamer la recherche. 6. Au bout de quelques secondes (ou minutes), le résultat apparaît. La première partie résulte d’une préanalyse (avant BLAST), qui consiste à comparer la séquence à une base de données de domaines conservés. Cette analyse rapide révèle déjà la présence de deux domaines : « glyco-hydro-15 » (~des résidus 40 à 440) et CBM20 (extrémité C-terminale). 7. La seconde partie graphique indique la distribution des séquences similaires (« blast hits ») par rapport à la séquence de requête (« query »). 8. On constate qu’il y a 3 types de correspondances : - Certaines séquences s’alignent sur toute la longueur de la protéine requête. - D’autres couvrent la partie N-terminale, correspondant au domaine Glyco-Hydro-15. - Les séquences restantes couvrent le domaine CBM20. 2 Interprétation BLAST est un algorithme d’alignement local. Sur base d’une séquence requête (la glucamylase d’Aspergillus oryzae) nous avons identifié une série de protéines présentant des correspondances globales (d’autres glucamylases) ou locales (limitées à l’un ou l’autre des deux domaines). 9. BLAST restreint aux métazoaires a. En haut de la page de résultats de BLAST, cliquez « Edit and resubmit ». Le formulaire précédent apparaît, en maintenant les champs que vous aviez remplis. b. Dans la boîte « organisme », tapez Metazoa. Notez la complétion automatique : à mesure que vous tapez, le formulaire affiche une liste de plus en plus restreinte de choix. Sélectionnez « Metazoa (taxid:33208) » et cliquez sur le bouton BLAST. c. Cette requête retourne uniquement des alignements partiels. d. En particulier, la table les trois lignes noires correspondent à des alignements dont la Evalue (expect) est supérieure à 1 (les trois dernières lignes de la table ci-dessous). e. Ceci signifie que si l’on avait soumis une séquence aléatoire, on s’attendrait à trouver 3, 6 et 8 alignements avec un score aussi élevé, par le simple jeu du hasard. Ces trois alignements ne peuvent donc en aucun cas être considérés comme significatifs. Les trois premières lignes de la table de résultat montrent par contre des alignements significatifs (ils ont une faible E-valeur, il est donc peu vraisemblable qu’ils résultent du hasard). Interprétation En résumé, on peut conclure que les métazoaires ne disposent pas de glucoamylase. Il semble cependant exister des domaines présentant une relativement faible similarité avec le domaine Cterminal de cette protéine, qui correspond au domaine CBM20. Recherche de similarité avec l’outil BLAST d’Uniprot 10. L’interface de la page de résultat du BLAST d’Uniprot diffère de celle du NCBI. 3 a. La colonne « query hits » fournit une information similaire à celle du schéma graphique du BLAST du NCBI : elle indique la fraction de la protéine requête (la glucoamylase) couverte par chaque « hit ». b. Par défaut, la page de résultat n’affiche que les 25 premiers hits. Vous pouvez augmenter le nombre de résultats affichés en cliquant sur l’option « Detailed BLAST RESULTS Customize ». Choisissez d’afficher 250 hits. c. La colonne « match hit » fournit l’information réciproque : la couverture de chaque protéine trouvée (« hit ») par la protéine requête. Dans ce cas particulier, le graphique est difficile à lire car l’une des protéines trouvées (MUC16_HUMAN) comporte 22.152 acides aminés. Cette protéine géante impose son échelle à l’ensemble de la colonne, et les correspondances avec des protéines de taille normale sont donc écrasées dans la partie gauche de la colonne. d. Au-dessus de cette table, notez la présence d’un menu contextuel « Taxonomy », qui indique le nombre de hits par groupe taxonomique, et permet de restreindre l’affichage à un groupe particulier. 11. Sélection de protéines pour l’alignement multiple avec clustalw a. Je recommande d’effectuer cette sélection sur la secnde table de la page BLAST d’Uniprot (la table apparaît sous le titre « Detailed BLAST result »). Ceci vous permettra de vérifier la significativité, et de ne retenir que les hits dont la E-valeur est suffisamment faible (disons, inférieure à 1x10-3). b. Cochez les cases à côté d’une vingtaine de protéines en descendant progressivement dans la liste. Ne sélectionnez que des protéines qui couvrent le domaine CBM20 (côté Cterminal) de la protéine requête. c. Evitez de ne sélectionner que les premiers hits, car le but de l’opération suivante sera d’aligner des protéines présentant une diversité suffisante dans la séquence du domaine CBM20. d. Notez la zone verte qui apparaît sous la fenêtre quand vous commencez à sélectionner des protéines. Alignement multiple avec ClustalW2 12. Alignement multiple avec clustalw a. Après avoir sélectionné un nombre suffisant de protéines, cliquez « Retrieve » à droite de cette bande verte. b. Cliquez sur le lien « Open » sous la rubrique « Sequence data in fasta format ». c. Copiez la totalité des séquences affichées. 4 d. Connectez vous à l’outil ClustalW2 de l’EBI (http://www.ebi.ac.uk/Tools/msa/clustalw2/). A compléter … (J. van Helden le fera dès que possible) 5 TD2 : INTÉGRATION DE DONNÉES BIOLOGIQUES HÉTÉROGÈNES Exercice 1 : quels sont les termes liés à la maladie « Usher syndrome » dans PubMed ? Interprétation des résultats La base de données PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez) recense 782 articles contenant les mots "Usher" et "syndrome", parmi lesquels 655 contenant la paire de mots "Usher syndrome" (en tapant les guillemets dans la requête PubMed, on impose de trouver les mots l’un après l’autre, plutôt que dispersés dans le texte). L’outil BioE (http://www.bioinf.manchester.ac.uk/dbbrowser/bioie/) récupère ces entrées, et analyse les fréquences de mots dans les 20 premiers abstracts. L’outil est relativement inefficace : on voudrait naturellement analyser l’ensemble des 655 résumés, mais ceci fait planter BioE. De plus, le modèle probabiliste de BioE est rudimentaire : il trie les mots par fréquences (en écartant éventuellement les mots trop fréquents tels que les articles, prépositions usuelles, etc), sans aucun critère pour juger de la pertinence des mots. L’outil GoPubMed (http://www.gopubmed.org/) réalise une analyse plus élaborée, en analysant la fréquence des termes de la « Gene Ontology » ( http://www.geneontology.org/). Le projet Gene Ontology consiste à homogénéiser les annotations en se basant sur une liste de termes prédéfinis (un vocabulaire contrôlé, avec des listes de synonymies) liés par des relations hiérarchiques (en partant de classes très génériques telles que « métabolisme », « régulation » (processus), « transporteur » (fonction moléculaire), « cytoplasme » (localisation cellulaire), pour progressivement préciser. De plus, l’outil GoPubMed trie les termes en se basant sur un score de significativité qui consiste à comparer la fréquence d’un mot dans la collection d’abstracts sélectionnés à celle attendue d’une sélection aléatoire de même taille. En conséquence, que les mots les plus fréquents ne sont pas forcément les plus significatifs. On constate immédiatement que ces critères de sélection retournent des termes apparemment pertinents pour caractériser le syndrome d’Usher :Retinaldehyde, Retinis pigmentosa, Deafness, … Exercice 2 : quels sont les gènes impliqués déjà connus dans la littérature ? L’outil AliBaba (http://alibaba.informatik.hu-berlin.de/) effectue une analyse directement ciblée sur les noms de gènes et de protéines. L’interface représente les résultats sous forme d’un réseau, indiquant les liens entre gènes qui interviennent dans les mêmes phrases (et sont donc vraisemblablement impliqués dans des interactions). En cliquant sur un gène, on peut voir les éléments d’information (« textual evidences ») sur lesquelles AliBaba s’est basé pour inférer le réseau. Malheureusement, cet outil est également limité à un petit nombre d’articles (20 par défaut), et quand on augmente la limite, le programme poursuit indéfiniment son analyse sans retourner de résultat. Les résultats obtenus sont donc très partiels, et ne représentent qu’une petite fraction de la littérature concernant le syndrome d’Usher. Nous pouvons néanmoins extraire une série de noms de gènes et de protéines, par exemple : USH1, USH2A, CIB2, PDZD7, SNAP25, cadherin-23, bestrophilin, … Exercice 3 : y a-‐t-‐il d’autres gènes candidats ? STRING Le site STRING (http://string.embl.de/) héberge une base de données d’interactions (physiques et/ou fonctionnelles) entre protéines et/ou gènes, en regroupant différents types d’indications expérimentales et bioinformatiques: interaction physique des protéines, proximité des gènes sur le génome, profils transcriptomiques, co-occurrence dans la littérature scientifique, … 6 Si l’on entre le nom « USH2A », on obtient le réseau suivant : On retrouve parmi les partenaires de USH2A une série de gènes qui avaient également été rapportés par AliBaba. Ceci n’est pas étonnant en soi, puisque STRING utilise, parmi ses sources d’informations, les cooccurrences de noms de gènes/protéines dans les abstracts (l’information sur laquelle se base AliBaba). Nous voyons cependant que chaque relation est indiquée par une arête colorée, et certaines interactions sont marquées doublement, voire triplement, indiquant qu’elles sont confirmées par plusieurs types de données. Par exemple, l’interaction entre CDH23 et USH1C est indiquée d’une part par la co-occurrence de ces noms dans les abstracts (arête vert-jaune), d’autre part par des données expérimentales (arête rose). La table située sous le graphique d’interactions indique la fonction des partenaires identifiés par STRING. Nous constatons qu’ils sont effectivement liés au syndrome d’Usher, ou à des fonctions apparentées (surdité, En cliquant sur le bouton « Save », on obtient le réseau sous différents formats, ainsi qu’une liste des protéines qui le constituent, dans le ficher "Network proteins description". Endeavour L’outil Endeavour (http://homes.esat.kuleuven.be/~bioiuser/endeavour/index.php) effectue une analyse plus approfondie, en analysant les interactions entre un groupe de gènes d’intérêt (« training set ») à une liste de gènes candidats (« test gènes »), pour une série de réseaux d’interactions obtenus de différentes sources. Afin de tester la précision de Endeavour, nous allons lui faire passer un test de « leave-one-out » : notre requête précédente dans STRING nous a fourni une liste de gènes interagissant avec USH2A. USH2A, USH1G, MAFF, DFNB31, GSK3B, HLA-A, PCDH15, MYO7A, CLRN1, USH1C, CDH23 Ecartons temporairement un de ces gènes de l’ensemble (« left-out gene »), et soumettons les autres gènes comme groupe d’entraînement (onglet 2 : Training genes). Nous évaluerons ensuite si Endeavour est capable de retrouver le gène manquant (par exemple CDH23) à partir des autres gènes. 7 Nous pouvons ensuite sélectionner les sources de données (2. Data sources used to build models). Sélectionnez-les toutes (cliquez sur "All"), puis désélectionnez String (puisque notre réseau provenait de String, il serait trop facile de permettre à Endeavour de se servir de String pour retrouver l’élément manquant). L’étape suivante requiert de fournir une liste de gènes candidats. Une possibilité serait de considérer l’ensemble du génome comme liste de candidats, mais ceci risque de prendre un peu de temps. Pour créer rapidement une liste de candidats qui inclura le gène « left-out », nous pouvons soumettre une région chromosomique suffisamment large aux alentours de ce gène, de façon à disposer de quelques dizaines de gènes candidats. Le navigateur d’UCSC nous indique que CHD23 est localisé sur la bande q22.1 du chromosome 10 de l’humain. Retournez à Endeavour, et indiquez "chr10:q22.1" dans la boîte "4. Candidates", puis cliquez "Add". Ceci ajoute 47 gènes à la liste des candidats. Vous pouvez éventuellement allonger cette liste en ajoutant une ou deux autres bandes (par exemple chr10:q22.2). L’étape suivante « Launch prioritization » est l’analyse proprement dite : pour chacun des réseaux (modèles) que vous avez sélectionné à la deuxième étape, Endeavour trie les gènes candidats en fonction du nombre d’interactions avec les gènes d’entraînement (training set). Nous pouvons évaluer si Endeavour classe le gène « left-out » (CHD23 dans notre exemple) figure en bonne position parmi les gènes candidats (dans la figure ci-dessous, j’ai soumis comme candidats les 77 gènes des régions chr10:q22.1 et chr10:q22.2). La première colonne indique la « prioritisation » globale (en fait il s’agit d’un tri), et nous constatons que CDH23 apparaît en première position. Ce tri résulte de l’ensemble des tris présentés dans les colonnes suivantes, chacun de ces tris correspondant à une source de données. Les annotations d’EST d’Ensembl classent CDH23 en 18ème position sur 77, ce n’est pas très fameux. Par contre, CDH23 arrive en première position dans les colonnes Gene Ontology (classes fonctionnelles), Swissprot (annotations de fonction et domaines), BLAST (similarité avec les séquences d’entraînement), Interaction BioGrid, Interaction Hprd, Precalculated Ouzounis, Precalculated Prospectr, et Text. Il est également bien classé dans la colonne « Interpro », une base de données de séquences protéiques classées en fonction de leurs domaines fonctionnels. Ces multiples sources de données sont sans doute partiellement redondantes : plusieurs d’entre elles reposent sur l’inspection de résumés d’articles (abstracts) soit par des humains (annotations Swissprot, GO) soit par des outils de fouille de texte comme nous en avons vu plus haut. Néanmoins, il ressort de l’analyse globale une cohérence qui fait que le gène de test ressort en bon premier. 8