TD Banques de données biologiques
Transcription
TD Banques de données biologiques
HMSN204 TD Banques de données biologiques Interrogation des banques via GQuerry et Formats de fichiers de séquences 1. Interrogation des banques via GQuerry Donner les requêtes permettant de répondre aux questions des exercices suivants en utilisant la syntaxe de GQuerry. 1.1 Exercice 1 : Séquences Les requêtes portent sur la consultation de la rubrique Nucleotide et traitent du gène SRY qui est impliqué dans le déterminisme génétique sexuel notamment chez les vertébrés. Vous trouverez en annexe des exemples de champs sur lesquels la consultation est possible pour la rubrique Nucleotide. 1. Donner les séquences nucléotidiques associées au gène SRY 2. Donner les séquences associées au gène SRY qui sont soit humaine (Human ou Homo sapiens), soit de souris (Mouse ou Mus musculus) 3. Donner les séquences humaines ou de souris, ayant une taille comprise entre 500 et 1000 pb et qui sont associées au gène SRY 4. Donner les séquences de chat (cat ou Felix catus) qui ne sont pas associées au gène SRY 5. Donner les séquences d’ARNm de mammifères qui sont associées au gène SRY 6. Donner les séquences de référence (banque REFSEQ) d’ARNm humaines référencées qui sont associées au gène SRY et qui sont décrites par une région CDS et une région génique (gene) 1.2 Exercice 2 : Publications Les requêtes portent sur la consultation de la rubrique PubMed et donc de Medline. Vous trouverez en annexe des exemples de champs sur lesquels la consultation est possible pour la rubrique PubMed. 1. Donner les références bibliographiques parues dans les journaux Nature et Science 2. Donner les références bibliographiques ayant SF Altschul comme auteur 3. Donner les références bibliographiques publiées dans Nature entre 2000 et 2010 et ayant le terme SRY et le terme Mammalian dans leur corps de texte 4. Donner les références bibliographiques ayant SRY dans leur titre, rédigées en Français et qui sont disponibles en accès libre 1.3 Exercice 3 : Gènes Les requêtes portent sur la consultation de la rubrique Gene. Vous trouverez en annexe des exemples de champs sur lesquels la consultation est possible pour la rubrique Gene. 1. Restituer les informations concernant les gènes humain ayant un symbole qui commence par ABC 2. Restituer tous les gènes présents sur le chromosome 9 humain qui ont une activité ATP-binding 3. Restituer tous les gènes présents sur le chromosome Y qui sont référencés dans la banque de données OMIM et qui sont donc impliqués dans des maladies liées à l’hérédité 1 M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017 2 2. Formats de fichiers de séquences : FASTA et Genbank 2.1 Exercice 1 : En-tête FASTA Décrire de manière détaillée les informations qui sont retournées par les en-têtes listées ci-dessous (banque de données de provenance (aide en annexe), type de séquence, organisme, définition, . . . ). Vous trouverez en annexe des indications sur les banques de données de provenance dans les en-tpete FASTA. 1. >gi|4507224|ref|NM 003140.1| Homo sapiens sex determining region Y (SRY), mRNA 2. >sp|Q05066|SRY HUMAN Sex-determining region Y protein OS=Homo sapiens GN=SRY 3. >gi|6755761|ref|NP 035694.1| sex-determining region Y protein [Mus musculus] 4. >gi|302455875|gb|HM757931.1| Homo sapiens isolate HSA-34 SRY gene, partial sequence 5. >gi|6094355|sp|Q28783.1|SRY PONPY RecName : Full=Sex-determining region Y protein 6. >gi|268322368|emb|FN568088.1| Homo sapiens SRY gene for sex determining region Y, individual TH7 2.2 Exercice 2 : Conversion Genbank - FASTA Une portion d’en-tête de fichier au format Genbank vous est fourni. Construire l’en-tête FASTA associée. LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE NM_001008988 910 bp mRNA linear PRI 02-JUL-2011 Pan troglodytes sex determining region Y (SRY), mRNA. NM_001008988 XM_521375 NM_001008988.1 GI:57113870 . Pan troglodytes (chimpanzee) 3. Formats de fichiers de séquences : GFF et Genbank 3.1 Rappel GFF est un format simplifié qui facilite la maintenance et la mise à jour d’annotations biologiques à partir d’un simple éditeur de texte. GFF simplifie également l’échange des annotations entre différentes applications. GFF comprend 9 colonnes séparées par des tabulations (8 tabulations + retour chariot en fin de ligne) : 1. identifiant de séquence 2. source de données d’origine (ex. GenBank) 3. type de la sous-région, contraint à un terme du vocabulaire SOFA (ou identifiant SOFA) 4. start : position de début 5. end : position de fin 6. score : réel : valeur calculée à partir d’un éventuel outil (sinon .) 7. strand : brin positif +, ou négatif -, sinon . (pas de brin) ou ? pour incertain 8. phase : feature de type CDS (obligatoire) : ORF : 0, 1 et 2 9. attributes : couples propriété-valeur tag=value séparés par des ; domaine de valeurs des tags (ID, name, Alias, Parent (partof relationship), Target, Gap, Derives from, Note, Dbxref, Ontology term) Des exemples (fantaisistes) de fichier au format GFF sont donnés en annexe. 3.2 Exercice : Conversion Genbank - GFF A partir de la table des caractéristiques simplifiée présentée ci-dessous, construire un fichier tabulé au format GFF qui permettra de rendre compte des principaux éléments structuraux de la séquence étudiée. M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017 FEATURES gene exon exon exon misc_feature CDS exon exon exon exon exon exon exon exon STS exon exon exon polyA_signal polyA_site Location/Qualifiers 1..2117 /gene="ATF2" /gene_synonym="CRE-BP1; CREB2; HB16; TREB7" /note="activating transcription factor 2" /db_xref="GeneID:1386" /db_xref="HGNC:784" 1..120 /gene="ATF2" /number=1 121..219 /gene="ATF2" /number=2 220..294 /gene="ATF2" /number=3 248..250 /note="upstream in-frame stop codon" 263..1780 /gene="ATF2" /gene_synonym="CRE-BP1; CREB2; HB16; TREB7" /note="cAMP responsive element binding protein 2 /codon_start=1 /product="cyclic AMP-dependent transcription factor ATF-2" /protein_id="NP_001871.2" /db_xref="GI:22538422" /db_xref="CCDS:CCDS2262.1" /db_xref="MIM:123811" 295..364 /gene="ATF2" /number=4 365..461 /gene="ATF2" /number=5 462..580 /gene="ATF2" /number=6 581..709 /gene="ATF2" /number=7 710..888 /gene="ATF2" /number=8 889..1003 /gene="ATF2" /number=9 1004..1090 /gene="ATF2" /number=10 1091..1240 /gene="ATF2" /number=11 1232..1361 /gene="ATF2" /db_xref="UniSTS:4379" 1241..1447 /gene="ATF2" /number=12 1448..1553 /gene="ATF2" /number=13 1554..2111 /gene="ATF2" /number=14 2090..2095 /gene="ATF2" 2111 /gene="ATF2" /experiment="experimental evidence" 3 4 M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017 4. Annexes 4.1 Rubriques Sequence Quelques champs sur lesquels la consultation est permise pour les rubriques Sequence (Nucleotide et Protein) sont listés dans le tableau ci-dessous. Nom du champ Accession Feature Key Gene Name Organism Properties Sequence Length Title 4.2 Abréviation ACCN FKEY GENE ORGN PROP SLEN TI Définition numéro d’accession NCBI caractéristique biologique décrite au sein de la ”Feature Table” noms des gènes décrits par les séquences noms (binomiaux et communs) pour l’ensemble de la taxonomie différentes propriétés : type moléculaire, B.D origine taille totale de la séquence élément textuel présent dans la définition Exemples AF123456[ACCN] CDS[FKEY] BRCA1[GENE] human[ORGN] biomol mrna[PROP] 100 :1000[SLEN] binding [TI] Rubrique PubMed PubMed est l’interface de consultation publique de la banque de références bibliographiques MEDLINE. Une sélection de champs à partir desquels des requêtes peuvent être construites sont listés ci-dessous. Nom du champ Author Publication Data Journal Language Title Text words Filter Publication Type All Fields 4.3 Abréviation AU PDAT TA LA TI TW SB PT [ALL] Définition Auteur de la publication Date de publication Journal Langue de publication Titre de la publication Terme dans le corps du texte différents types de filtres Review, Biography, Letter, Clinical Trial, . . . tous les champs Exemples ”Kornberg RD” [AU] 2000[PDAT] ou 2000 :2010 [PDAT] Nature [JOURNAL] french [LA] DNA [TI] SRY [TW] free full text [SB] review [PT] SRY [ALL] Rubrique Gene La rubrique Gene est porteuse de très nombreuses informations et va notamment renseigner sur la structure des gènes et le répertoire génique de nombreux organismes vivants. 4.4 Indication banque de données de provenance pour les en-têtes FASTA Quelques champs sur lesquels la consultation est permise pour les rubriques Sequence (Nucleotide et Protein) sont listés dans le tableau ci-dessous. GenBank (comme GenPept) gi|gi-number|gb|accession|locus EMBL Data Library gi|gi-number|emb|accession|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus NBRF PIR pir||entry Protein Research Foundation prf||name SWISS-PROT sp|accession|name Brookhaven Protein Data Bank (1) pdb|entry|chain Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017 Patents GenInfo Backbone Id General database identifier NCBI Reference Sequence Local Sequence identifier 4.5 pat|country|number bbs|number gnl|database|identifier ref|accession|locus lcl|identifier Exemple 1 de fichier au format GFF et son rendu visuel ##gff-version 3 ctg123 GenBank ctg123 GenBank ctg123 GenBank ctg123 GenBank ctg123 GenBank exon 1 1500 . + . ID=exon1;note=chromobox homolog 8 gene 1 4500 . + . ID=gene;Dbxref=GeneID:779897 exon 3000 4500 . + . ID=exon2 intron 1501 2999 . + . ID=intron1 snp 3080 3080 . + . ID=snp1 Visualisation du fichier GFF ci-dessus : 4.6 Exemple 2 de fichier au format GFF et son rendu visuel ##gff-version 3 NM_00314e GenBank NM_00314e GenBank NM_00314e GenBank NM_00314e GenBank NM_00314e GenBank gene 1 4500 . + . ID=gene;name=AZQ;Dbxref=GeneID:779897,HGNC:11311;gene_synonym=SRX exon 1 1500 . + . ID=exon1;Name=AZQ.1;Parent=gene;note=chromobox homolog 8 exon 3000 4500 . + . ID=exon2;Parent=gene;Name=AZQ.2 intron 1501 2999 . + . ID=intron1;Parent=gene snp 3080 3080 . + . ID=snp1;Parent=gene Visualisation du fichier GFF ci-dessus : 5