Fiche d`analyse

Transcription

Fiche d`analyse
BIOLOGIE VIRTUELLE
FICHE D’ANALYSE
I – BASES DE DONNEES
Voir le lien suivant : http://elec.polytech.unice.fr/~rgautier/SiteWebL3BioV/L3BV_DB.pdf pour toutes les informations
nécessaires à la lecture et compréhension des fiches. L’on se rend sur le site du NCBI ou de l’EBI et on cherche le numéro
d’accession pour avoir la fiche correspondante.
Les fiches contiennent des cross references qui permette de jongler d’un server à un autre.
II – ALIGNEMENT
On peut aligner deux séquences en allant sur le site de l’EBI : http://www.ebi.ac.uk/Tools/emboss/align/index.html
Laisser tout les paramètres et simplement copier les séquences avant de faire « Run ». Recopier sur la copie tout les paramètres
qui sont servi à l’alignement (matrice, coup de gap et extension). On peut faire un alignement local ou global (le préciser sur la
copie).
L’on peut aussi utiliser ce site : http://bips.u-strasbg.fr/EMBOSS/ pour faire la même chose mais aussi pour faire un dot plot en
cliquant sur « dotmatcher » et en recopiant les deux séquences.
III – ANALYSE VIA BLAST
Voici la procédure à suivre pour réaliser une analyse complète d’une séquence :
1.
Lancement du BLAST
Ouvrir le BLAST sur deux servers :
• NCBI : http://blast.ncbi.nlm.nih.gov/Blast.cgi sélectionner « nucleotide blast » ou « protein blast » selon la séquence.
• EBI : http://www.ebi.ac.uk/Tools/blast2/index.html sélectionner « Nucleic Acid » ou « Protein » selon la séquence.
2.
Les paramètres
Sans marquer un roman, indiquer les paramètres qui ont été choisis pour cette analyse. Se rappeler que c’est toujours au bon
vouloir de la personne et qu’on peut même changer, du moment qu’on le marque sur notre feuille.
La base de données :
o Pour une séquence d’ADN, choisir une base de données non-redondante (« Nucleotide Collection » pour le
NCBI, « EMBL Release » pour l’EBI).
o Pour une séquence protéique, le mieux est de commencer par la base de données de Swissprot, pas très
complète mais plus fiable : c’est « Swissprot protein sequences » sur le NCBI, et UniprotKB/Swissprot sur l’EBI.
Sur le NCBI, il est très important de choisir « Somewhat similar sequences (blastn) » si on fait une séquence d’ADN.
Pour les acides aminés, vérifier simplement qu’on est sur blastp. Sur l’EBI ce point est par défaut sur BLASTN / BLASTP
(vérifier que c’est bien le cas et le marquer sur sa copie).
Cout du Gap, de l’extension, match et mismatch. Si l’on ne les modifie pas l’on peut marquer « par défaut » sur notre
copie.
Sur une séquence protéique, pas de match/mismatch, mais une matrice. En général, laisser sur BLOSUM62.
Filtre : pas obligatoire, mais si on le met il faut l’indiquer. Dans ce cas, choisir « Low complexity regions » sur NCBI,
« seg » sur l’EBI. Il est toujours mieux de mettre le filtre sur une séquence d’ADN.
Noter tout ces paramètres sur notre copie et lancer immédiatement les blasts, car celui de l’EBI est très long.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 1
3.
Analyse
Pour une séquence d’ADN :
On commence par regarder les résultats du blast de NCBI, en regardant les HSP dans le diagramme du haut et on
discute des quelques premières (« on constate qu’il y a plusieurs HSP recouvrant toute la séquence », « on peut voir
une HSP qui s’aligne sur tout sauf le début de notre séquence ») sans faire non plus une description détaillée de tout les
HSP !
On descend à description, et on regarde les E-Value des premiers résultats. S’ils sont corrects (proches de 0), on
l’indique sur notre feuille et on considère que l’on peut regarder les résultats.
On peut maintenant regarder les scores. S’il y a une réelle séparation entre les scores d’une ou plusieurs fiches avec le
reste, pas la peine de regarder plus bas. Si les premières fiches sont séparées de peu de points de scores, il faudra
toutes les garder à l’esprit. On commence tant qu’à faire par la meilleure, la première. On note sur notre copie son EValue et son Score et on descend pour l’alignement.
Dans Alignments on regarde donc la première séquence et l’on note sur la feuille :
o La longueur de la séquence subject (résultat) qui peut être trouvée en dessous du nom de celle-ci, avant
l’alignement. Il convient alors d’indiquer la longueur de notre séquence query (si on ne la connait pas il suffit
de regarder tout en haut de la page, où il y a marqué Query Length).
o Les pourcentages d’identité et de gaps, que l’on trouve en haut de l’alignement.
o Dire ou se trouvent ces gaps/mismatchs en fonction de l’alignement. On peut commencer à discuter sur le rôle
éventuel des parties changées supprimés.
Il conviendra à présent de consulter la fiche de la séquence. Pour cela on peut cliquer sur son numéro d’accession. C’est
la qu’on peut alors recueillir des infos biologique à noter :
o Espèce
o Ce qu’est la séquence
o Dans les FEATURES, regarder les annotations utiles pouvant être faites par l’auteur. Noter la longueur et la
localisation de la « CDS » qui correspond à la séquence codante.
On peut maintenant faire un dessin en alignant les deux séquences, en notant à quelle positions elles commencent et
finissent et en indiquant les gaps/mismatchs et les séquences. A partir de la on pourra commencer à discuter du rôle
des parties modifiées (« changement/suppression d’un codon dans la séquence codante » etc.…). Dire dans quelle
séquence (query ou subject) il y a eu insertion/délétion.
Afin de gagner plus d’informations sur le changement qui a eu lieu, si celui-ci a lieu dans la séquence codante, on peut
réaliser un blastx pour connaitre notre séquence d’acides aminés et constater quels acides ont été
supprimés/ajoutés/changés. Pour cela, il faut retourner sur le site du NCBI et sélectionner « blastx » puis copier la
séquence. Ne pas oublier de mettre les mêmes paramètres que précédemment, ou tout du moins de noter ceux-ci
(matrice, couts, match/mismatch, filtre). Utiliser de préférence la base de données Swissprot (swissprot protein
sequences). L’analyse des résultats du blastx se fait de la même manière que l’analyse d’un blastp. L’idée n’est pas de
se lancer dans un roman mais de dire quels acides aminés sont changés et les conséquences que cela peut avoir.
On peut à présent, si les scores des HSP suivants n’étaient pas trop mauvais, regarder les autres alignements/fiches, qui
parfois apportent des renseignements de plus sur ce qu’est peut-être cette séquence (localisation, espèce…)
Enfin, on peut regarder les résultats d’EBI, qui parfois sont très différent. On peut alors marquer « J’ai également
effectué le Blast sur l’EBI, et voici ce que j’ai pu avoir » en décrivant brièvement les résultats. Attention à ne pas
comparer les résultats entre les bases de données ou entre les servers… ce n’est pas du tout comparable !
On peut alors conclure en disant ce que notre séquence est probablement. NE JAMAIS AFFIRMER !
Pour une séquence protéique :
Globalement l’idée est la même. On fait exactement la même chose dans la description, c’est notre analyse qui sera un peu
différente du fait que c’est une protéine.
Les 5 premiers points sont identiques, simplement il est inutile de parler de CDS : c’est une protéine, la séquence est
donc forcément l’ORF complète de l’ADNc correspondant. Aussi, il faut maintenant faire gaffe aux « positives »
représentés dans l’alignement par des « + », indiquant un changement d’acide aminé pour un acide aminé assez
similaire. L’impact n’est donc pas conséquent.
Les points suivants sont identiques également, mais la discussion autour du dessin sera forcément différentes
puisqu’on parle ici de modification, insertion, ou délétion, dans la query ou dans la subject (préciser sur la copie),
d’acides aminés, dans la CDS. Il n’y a évidemment pas de blastx a faire puisqu’on est déjà sur une séquence protéique.
Si les résultats au niveau identité/gap sont excellents, pas la peine d’aller plus loin. S’il est assez faible, il serait bien de
recommencer l’opération, au moins sur le NCBI, avec une base de données non-redondante. Il s’agit de « nonredundant protein sequences (nr) » sur le NCBI et de « Uniprot Knowledgebase » sur l’EBI. Les résultats sont parfois très
différents (on obtient des choses bien plus proches de notre query) ce qui nous permet de conclure plus précisément
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 2
4.
Affiner ses conclusions
Il y a pas mal de choses que l’on peut faire, si le cas se présente :
Dans le cas ou l’on constate que beaucoup d’HSP sont différentes au début et à la fin par exemple, ou qu’une indication
dans la fiche laisse sous-entendre que c’est le cas, il est possible qu’on ait contamination par un vecteur ! (Pas la peine
de le vérifier à chaque fois, on le fait seulement en cas de suspicion). Pour vérifier ça, la page d’accueil du NCBI propose
l’outil « Screen sequence for vector contamination (vecscreen) ». Cliquer dessus et entrer la séquence pour obtenir les
bouts de séquences qui sont probablement du vecteur. Cela pourra alors apparaitre sur notre dessin et pourra être
indiqué sur notre copie comme information complémentaire judicieuse.
Si l’on dépiste une séquence reliée à une maladie génétique humaine, il peut être utile d’utiliser OMIM
(http://www.ncbi.nlm.nih.gov/omim) pour avoir plein d’infos utiles.
IV – RECHERCHE DANS BASES DE DONNEES
1.
Entrez
Il n’y a pas grand-chose à dire sur Entrez. Il suffit d’aller ici http://www.ncbi.nlm.nih.gov/sites/gquery et vous pourrez faire des
recherches sur ce moteur. On peut utiliser les opérateurs booléens :
• Pour rechercher uniquement les résultats contenant « A » et « B » ensembles, on écrira A AND B.
• Pour rechercher uniquement les résultats contenant « A » mais pas « B » en même temps, on écrira A NOT B.
• Pour rechercher les résultats contenant « A » ou « B », on peut écrire A OR B.
Les questions qui peuvent être posées sont des questions de recherche avec ou sans opérateurs et d’indiquer le nombre de
résultats dans une des catégories (nucleotide, protein, etc.…). On peut également vous demander d’utiliser la troncature « * ».
Cet astérisque permet d’étendre la recherche : par exemple, « polymer » ne reverra que les résultats contenant ce mot, alors
que « polymer* » renverra les résultats de polymer mais aussi ceux de polymerization, polymerized, etc…
2.
SRS
Plusieurs types de questions peuvent être posés
Pour une question générale de recherche d’une séquence sans précision de base de données ni exigence particulière,
vous pouvez utiliser la recherche rapide. Il suffit alors de choisir ce que l’on veut chercher dans le menu « Quick Text
Search », en touchant à « Find » pour mettre « Nucleotide », « Protein », etc.… Les opérateurs booléens et troncatures
peuvent être utilisés mais il vaut mieux ne pas faire de recherche rapide dès qu’il y a la moindre exigence. Lors de votre
recherche vous trouverez souvent plusieurs résultats. Mefiez-vous de Uniparc, ce sont des fiches archives. Si l’on vous
demande d’examiner une fiche pour y trouver des informations, vous trouverez :
o La date de création (« Integrated ») et de modification (« annotation update ») en haut.
o Le nom du gène (« Gene Name ») juste en dessous dans la description
o Les noms et adresses des auteurs un peu plus bas dans les références
o Les informations relatives à sa séquence dans « Sequence Informations » : la taille « length », le poids
« molecular weight » et la séquence en différents formats.
o Ses spécificités et sa localisation dans « Comments »
o Ses fixations éventuelles dans « Features » > « Binding »
Pour une question avec une exigence, il faudra utiliser le menu de recherche générale. Voici comment faire :
o Choisir une base de données en particulier : Aller dans « Library Page » pour choisir la base de données.
Attention, pour EMBL (base de données nucléique) c’est « EMBL » tout court et rien d’autre ! Pour les
protéines, c’est Uniprot « UniprotKB » ou Swissprot « UniprotKB/Swiss-prot ».
o Aller dans « Query Form » pour faire la recherche ensuite. Les menus servent à choisir ce que vous voulez
spécifier. Ceux qu’on peut utiliser sont :
Description : recherche votre mot dans la description du gène/de la protéine.
Organism Name : entrez ensuite le nom latin de l’organisme. Si vous ne le connaissez pas vous pouvez
chercher par exemple ici : http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Root
en tapant le mot anglais.
Sequence Length : permet de spécifier la taille de la protéine/du gène. On écrit dans ce cas là la
formule ainsi « MIN:MAX », par exemple 400:500 pour les protéines/les gènes entre 400 et 500 aa/nt.
Si on ne désire pas spécifier de minimum (inférieur à 500), on écrit simplement :500 et si on ne veut
pas de maximum, on écrira 400: (supérieur à 400).
On peut là aussi utiliser les opérateurs booléens (avec & pour AND, | pour OR et ! pour NOT) mais entre les 4 différentes lignes
de champ est appliqué par défaut l’opérateur qui est indiqué dans le menu à gauche et que l’on peut changer (« Combine search
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 3
terms with »). Le « use wild card » concerne la troncature : si elle est cochée, tout ce que vous rentrez prendra
automatiquement le « * ». La plupart du temps on la décochera donc.
Une fois les résultats obtenus si c’est protéique on peut les classer par ordre en utilisant « Sort results by » par exemple
« Sequence Length » (longueur de la séquence) puis ascending ou descending pour l’ordre. On clique sur « Apply display
options » pour valider. Pour déterminer à combien de séquences protéiques les séquences nucléiques trouvées sont liées, on
fait un link. Pour cela, cochez les séquences qui vous intéressent, passez sur « selected results only » et cliquez sur « link ». Vous
pouvez aussi rester sur « unselected results only » et cocher celles qui ne vous intéressent pas. Sélectionnez ensuite la base de
données protéique et faites « Search ». Vous pouvez aussi faire l’inverse (protéique vers nucléique).
o Pour réutiliser des anciennes recherches et les combiner, allez dans « results » en haut. Toutes les recherches y
sont stockées et peuvent être combinées avec les opérateurs booléens à gauche. On clique ensuite sur « rerun
query ». C’est le mieux pour éviter les erreurs (pour chercher la protéine X chez le chat ou le chien, il vaut
mieux faire la recherche de X avec chat, puis X avec chien, puis combiner les deux avec un OR).
o Pour créer une nouvelle vue, aller dans « Views » en haut. Sélectionnez le nom « View name » puis la base de
données dans le cadre de gauche. Faire ensuite « Create New View ». Sélectionnez ce que vous voulez sur la
vue puis faites « Save View ». Ensuite elle est normalement utilisée par défaut lors de la prochaine recherche,
si ce n’est pas le cas il suffit d’aller dans « results », sélectionner la dernière recherche puis prendre « View
results using » pour sélectionner votre vue et faire « rerun query ».
Pour savoir la localisation d’un gène sur le génome, il suffit d’aller sur Ensembl à cette adresse :
http://www.ensembl.org/index.html et de sélectionner l’espèce puis le nom du gène. Prendre « Gene » et cliquer sur la
première fiche qui généralement donne en première ligne la localisation chromosomique.
V – RECHERCHE D’AMORCES
1.
Faire un alignement multiple
A partir de la page de résultats protéique de SRS, on peut faire un alignement multiple. Pour ça, on sélectionne « ClustalW2 »
dans Launch Analysis Tool. Sur la page qui s’affiche, changez « Imput » par « Aligned » et faites « Launch ». Allez ensuite dans
Results, sélectionnez la query et faites « rerun query ». L’alignement sort avec des astérisques pour indiquer les zones
conservées.
A partir de séquences données, on peut utiliser http://www.ebi.ac.uk/Tools/clustalw2/ ou Multalin
(http://multalin.toulouse.inra.fr/multalin/multalin.html) pour faire un alignement multiple en mettant un set de séquences avec
paramètres par défaut (ne pas oublier de le préciser). On peut aussi utiliser Muscle http://www.ebi.ac.uk/Tools/muscle/ en
mettant « ClustalW » en Output Format.
2.
Recherche d’amorce PCR
Pour choisir un couple d’amorce correct, il faut taper dans une zone conservée (si l’on veut faire une PCR générale) ou
divergente (si l’on veut faire une PCR spécialisée d’un seul gène) de 8 acides aminés environ, en évitant si possible les S, L et R
qui sont des acides aminés avec 6 possibilités différentes. On écrit la séquence d’acide aminé et on écrit ensuite sur la copie la
séquence nucléique en utilisant la symbolique IUPAC (http://users.ox.ac.uk/~linc1775/blueprint.htm) :
• A : Adénine
• C : Cytosine
• T : Thymine
• G : Guanine
• U : Uracile
• I : Inosine
• R : Purine (A ou G)
• Y : Pyrimidine (C ou T)
• M : Amino (A ou C)
• K : Keto (T ou G)
• S : Base forte (C ou G)
• W : Base faible (A ou T)
• B : Tout sauf Adénine (C, G ou T)
• D : Tout sauf Cytosine (A, G ou T)
• H : Tout sauf Guanine (A, C ou T)
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 4
• V : Tout sauf Thymine/Uracile (A, C ou G)
• N : N’importe quel acide aminé (A, C, G ou T)
On calcule et écrit ensuite le nombre de dégénérescence. Un symbole remplaçant deux acides aminés possibles vaut 2, un
remplaçant trois acides aminés vaut 3, et le N vaut 4. On multiplie ces valeurs pour toute la longueur des deux amorces que l’on
aura choisies. Par exemple, pour CEGCKGFF, cela donne TGYGARGGNTGYAARGGNTTYTTY donc Y, R, N, Y, R, N, Y, Y donnant 2 x 2
x 4 x 2 x 2 x 4 x 2 x 2 = 1024. Ne pas oublier d’en prendre une dont on fera le reverse complément (on prends l’inverse des bases
puis on retourne la séquence).
Pour faire une recherche d’amorce directe sans avoir à la faire à la main depuis l’alignement multiple, on peut utiliser
http://www.ncbi.nlm.nih.gov/tools/primer-blast/index.cgi?LINK_LOC=BlastHome en entrant la séquence fasta ou le numéro
d’accession et en cliquant sur « Get primers ». Discuter alors sur ces primers (spécificité par exemple en regardant « Primers
Specificity »).
Pour faire une PCR in silico à partir de primers obtenus manuellement on utilise http://genome.ucsc.edu/cgi-bin/hgPcr en
mettant les deux primers, et la « Max Product Size » sur 100 000. On choisit ensuite la cible (« genome assembly » pour l’ADN
génomique, « UCSC genes » pour un set de séquences). Il faut alors analyser ces transcrits (on peut avoir deux résultats, dans ce
cas cela signifie qu’il y a deux variants du transcrits, donc épissage alternatif par exemple, ou bien on peut avoir une amorce
avec des bases en minuscule au milieu correspondant à un intron).
Pour trouver la séquence la plus proche de la notre dans une autre espèce (gène orthologue) on utilise simplement un blastp
contre Swissprot avec la séquence restreinte à la nouvelle espèce.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 5

Documents pareils