TD Banques de données biologiques

Transcription

TD Banques de données biologiques
HMSN204
TD Banques de données biologiques
Interrogation des banques via GQuerry
et Formats de fichiers de séquences
1. Interrogation des banques via GQuerry
Donner les requêtes permettant de répondre aux questions des exercices suivants en utilisant la syntaxe de GQuerry.
1.1
Exercice 1 : Séquences
Les requêtes portent sur la consultation de la rubrique Nucleotide et traitent du gène SRY qui est impliqué dans le
déterminisme génétique sexuel notamment chez les vertébrés. Vous trouverez en annexe des exemples de champs sur lesquels
la consultation est possible pour la rubrique Nucleotide.
1. Donner les séquences nucléotidiques associées au gène SRY
2. Donner les séquences associées au gène SRY qui sont soit humaine (Human ou Homo sapiens), soit de souris (Mouse
ou Mus musculus)
3. Donner les séquences humaines ou de souris, ayant une taille comprise entre 500 et 1000 pb et qui sont associées au
gène SRY
4. Donner les séquences de chat (cat ou Felix catus) qui ne sont pas associées au gène SRY
5. Donner les séquences d’ARNm de mammifères qui sont associées au gène SRY
6. Donner les séquences de référence (banque REFSEQ) d’ARNm humaines référencées qui sont associées au gène SRY
et qui sont décrites par une région CDS et une région génique (gene)
1.2
Exercice 2 : Publications
Les requêtes portent sur la consultation de la rubrique PubMed et donc de Medline. Vous trouverez en annexe des
exemples de champs sur lesquels la consultation est possible pour la rubrique PubMed.
1. Donner les références bibliographiques parues dans les journaux Nature et Science
2. Donner les références bibliographiques ayant SF Altschul comme auteur
3. Donner les références bibliographiques publiées dans Nature entre 2000 et 2010 et ayant le terme SRY et le terme
Mammalian dans leur corps de texte
4. Donner les références bibliographiques ayant SRY dans leur titre, rédigées en Français et qui sont disponibles en accès
libre
1.3
Exercice 3 : Gènes
Les requêtes portent sur la consultation de la rubrique Gene. Vous trouverez en annexe des exemples de champs sur
lesquels la consultation est possible pour la rubrique Gene.
1. Restituer les informations concernant les gènes humain ayant un symbole qui commence par ABC
2. Restituer tous les gènes présents sur le chromosome 9 humain qui ont une activité ATP-binding
3. Restituer tous les gènes présents sur le chromosome Y qui sont référencés dans la banque de données OMIM et qui
sont donc impliqués dans des maladies liées à l’hérédité
1
M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017
2
2. Formats de fichiers de séquences : FASTA et Genbank
2.1
Exercice 1 : En-tête FASTA
Décrire de manière détaillée les informations qui sont retournées par les en-têtes listées ci-dessous (banque de données de
provenance (aide en annexe), type de séquence, organisme, définition, . . . ). Vous trouverez en annexe des indications sur les
banques de données de provenance dans les en-tpete FASTA.
1. >gi|4507224|ref|NM 003140.1| Homo sapiens sex determining region Y (SRY), mRNA
2. >sp|Q05066|SRY HUMAN Sex-determining region Y protein OS=Homo sapiens GN=SRY
3. >gi|6755761|ref|NP 035694.1| sex-determining region Y protein [Mus musculus]
4. >gi|302455875|gb|HM757931.1| Homo sapiens isolate HSA-34 SRY gene, partial sequence
5. >gi|6094355|sp|Q28783.1|SRY PONPY RecName : Full=Sex-determining region Y protein
6. >gi|268322368|emb|FN568088.1| Homo sapiens SRY gene for sex determining region Y, individual TH7
2.2
Exercice 2 : Conversion Genbank - FASTA
Une portion d’en-tête de fichier au format Genbank vous est fourni. Construire l’en-tête FASTA associée.
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
NM_001008988
910 bp
mRNA
linear
PRI 02-JUL-2011
Pan troglodytes sex determining region Y (SRY), mRNA.
NM_001008988 XM_521375
NM_001008988.1 GI:57113870
.
Pan troglodytes (chimpanzee)
3. Formats de fichiers de séquences : GFF et Genbank
3.1
Rappel
GFF est un format simplifié qui facilite la maintenance et la mise à jour d’annotations biologiques à partir d’un simple
éditeur de texte. GFF simplifie également l’échange des annotations entre différentes applications.
GFF comprend 9 colonnes séparées par des tabulations (8 tabulations + retour chariot en fin de ligne) :
1. identifiant de séquence
2. source de données d’origine (ex. GenBank)
3. type de la sous-région, contraint à un terme du vocabulaire SOFA (ou identifiant SOFA)
4. start : position de début
5. end : position de fin
6. score : réel : valeur calculée à partir d’un éventuel outil (sinon .)
7. strand : brin positif +, ou négatif -, sinon . (pas de brin) ou ? pour incertain
8. phase : feature de type CDS (obligatoire) : ORF : 0, 1 et 2
9. attributes : couples propriété-valeur tag=value séparés par des ; domaine de valeurs des tags (ID, name, Alias, Parent
(partof relationship), Target, Gap, Derives from, Note, Dbxref, Ontology term)
Des exemples (fantaisistes) de fichier au format GFF sont donnés en annexe.
3.2
Exercice : Conversion Genbank - GFF
A partir de la table des caractéristiques simplifiée présentée ci-dessous, construire un fichier tabulé au format GFF qui
permettra de rendre compte des principaux éléments structuraux de la séquence étudiée.
M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017
FEATURES
gene
exon
exon
exon
misc_feature
CDS
exon
exon
exon
exon
exon
exon
exon
exon
STS
exon
exon
exon
polyA_signal
polyA_site
Location/Qualifiers
1..2117
/gene="ATF2"
/gene_synonym="CRE-BP1; CREB2; HB16; TREB7"
/note="activating transcription factor 2"
/db_xref="GeneID:1386"
/db_xref="HGNC:784"
1..120
/gene="ATF2"
/number=1
121..219
/gene="ATF2"
/number=2
220..294
/gene="ATF2"
/number=3
248..250
/note="upstream in-frame stop codon"
263..1780
/gene="ATF2"
/gene_synonym="CRE-BP1; CREB2; HB16; TREB7"
/note="cAMP responsive element binding protein 2
/codon_start=1
/product="cyclic AMP-dependent transcription factor ATF-2"
/protein_id="NP_001871.2"
/db_xref="GI:22538422"
/db_xref="CCDS:CCDS2262.1"
/db_xref="MIM:123811"
295..364
/gene="ATF2"
/number=4
365..461
/gene="ATF2"
/number=5
462..580
/gene="ATF2"
/number=6
581..709
/gene="ATF2"
/number=7
710..888
/gene="ATF2"
/number=8
889..1003
/gene="ATF2"
/number=9
1004..1090
/gene="ATF2"
/number=10
1091..1240
/gene="ATF2"
/number=11
1232..1361
/gene="ATF2"
/db_xref="UniSTS:4379"
1241..1447
/gene="ATF2"
/number=12
1448..1553
/gene="ATF2"
/number=13
1554..2111
/gene="ATF2"
/number=14
2090..2095
/gene="ATF2"
2111
/gene="ATF2"
/experiment="experimental evidence"
3
4
M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017
4. Annexes
4.1
Rubriques Sequence
Quelques champs sur lesquels la consultation est permise pour les rubriques Sequence (Nucleotide et Protein) sont listés
dans le tableau ci-dessous.
Nom du champ
Accession
Feature Key
Gene Name
Organism
Properties
Sequence Length
Title
4.2
Abréviation
ACCN
FKEY
GENE
ORGN
PROP
SLEN
TI
Définition
numéro d’accession NCBI
caractéristique biologique décrite au sein de la ”Feature Table”
noms des gènes décrits par les séquences
noms (binomiaux et communs) pour l’ensemble de la taxonomie
différentes propriétés : type moléculaire, B.D origine
taille totale de la séquence
élément textuel présent dans la définition
Exemples
AF123456[ACCN]
CDS[FKEY]
BRCA1[GENE]
human[ORGN]
biomol mrna[PROP]
100 :1000[SLEN]
binding [TI]
Rubrique PubMed
PubMed est l’interface de consultation publique de la banque de références bibliographiques MEDLINE. Une sélection de
champs à partir desquels des requêtes peuvent être construites sont listés ci-dessous.
Nom du champ
Author
Publication Data
Journal
Language
Title
Text words
Filter
Publication Type
All Fields
4.3
Abréviation
AU
PDAT
TA
LA
TI
TW
SB
PT
[ALL]
Définition
Auteur de la publication
Date de publication
Journal
Langue de publication
Titre de la publication
Terme dans le corps du texte
différents types de filtres
Review, Biography, Letter, Clinical Trial, . . .
tous les champs
Exemples
”Kornberg RD” [AU]
2000[PDAT] ou 2000 :2010 [PDAT]
Nature [JOURNAL]
french [LA]
DNA [TI]
SRY [TW]
free full text [SB]
review [PT]
SRY [ALL]
Rubrique Gene
La rubrique Gene est porteuse de très nombreuses informations et va notamment renseigner sur la structure des gènes et
le répertoire génique de nombreux organismes vivants.
4.4
Indication banque de données de provenance pour les en-têtes FASTA
Quelques champs sur lesquels la consultation est permise pour les rubriques Sequence (Nucleotide et Protein) sont listés
dans le tableau ci-dessous.
GenBank (comme GenPept)
gi|gi-number|gb|accession|locus
EMBL Data Library
gi|gi-number|emb|accession|locus
DDBJ, DNA Database of Japan
gi|gi-number|dbj|accession|locus
NBRF PIR
pir||entry
Protein Research Foundation
prf||name
SWISS-PROT
sp|accession|name
Brookhaven Protein Data Bank (1) pdb|entry|chain
Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE
M1 Bioinformatique, Connaissances et Données - HMSN204 2016-2017
Patents
GenInfo Backbone Id
General database identifier
NCBI Reference Sequence
Local Sequence identifier
4.5
pat|country|number
bbs|number
gnl|database|identifier
ref|accession|locus
lcl|identifier
Exemple 1 de fichier au format GFF et son rendu visuel
##gff-version 3
ctg123 GenBank
ctg123 GenBank
ctg123 GenBank
ctg123 GenBank
ctg123 GenBank
exon 1 1500 . + . ID=exon1;note=chromobox homolog 8
gene 1 4500 . + . ID=gene;Dbxref=GeneID:779897
exon 3000 4500 . + . ID=exon2
intron 1501 2999 . + . ID=intron1
snp 3080 3080 . + . ID=snp1
Visualisation du fichier GFF ci-dessus :
4.6
Exemple 2 de fichier au format GFF et son rendu visuel
##gff-version 3
NM_00314e GenBank
NM_00314e GenBank
NM_00314e GenBank
NM_00314e GenBank
NM_00314e GenBank
gene 1 4500 . + . ID=gene;name=AZQ;Dbxref=GeneID:779897,HGNC:11311;gene_synonym=SRX
exon 1 1500 . + . ID=exon1;Name=AZQ.1;Parent=gene;note=chromobox homolog 8
exon 3000 4500 . + . ID=exon2;Parent=gene;Name=AZQ.2
intron 1501 2999 . + . ID=intron1;Parent=gene
snp 3080 3080 . + . ID=snp1;Parent=gene
Visualisation du fichier GFF ci-dessus :
5

Documents pareils