PsiBLAST Manuel utilisateur

Transcription

PsiBLAST
Manuel utilisateur
Table des matières
Introduction...............................................................................................................................................
.1
Paramètres.................................................................................................................................................
.2
Banque protéique....................................................................................................................
..............2
Expect......................................................................................................................
.............................2
Expect (inclusion)......................................................................................................................
...........2
Matrice................................................................................................................................
..................3
Filtre SEG.......................................................................................................................
......................3
Nombre maximal d'itération......................................................................................................
...........4
Coûts d'un gap.....................................................................................................................................
..4
Introduction
PSIblast (Position specific iterative Blast) est un programme développé au NCBI. Il réalise une recherche itérative basée sur blast (avec prise en compte des gaps). PsiBlast permet d’effectuer une recherche de protéines dans une base à partir d'un profil consensuel construit par itération de Blast.
Référence : Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J. (1990) "Basic local alignment search tool." J. Mol. Biol. 215:403410
PSIBlast donne la possibilité de relancer itérativement Blast sur les séquences résultats : pour chaque nouvelle itération, cellesci sont traduites en un "profil ou PSSM" (consensus matérialisé par une matrice) qui est recherché à son tour sur la banque choisie initialement. Les itérations s'arrêtent lorsqu'il y a convergence, c'est à dire lorsque les séquences résultats de l'itération n sont identiques à celles de l'itération n1.
Date : 14/09/07
Manuel_psiBLAST_fr
Page 1/4
Paramètres
Banque protéique
Sélection de la banque de séquences contre laquelle la recherche sera effectuée :
●
NR : Une collection de séquences protéiques (obtenues par séquençage) non redondante maintenue au NCBI.
●
Uniprot (Universal Protein Resource) : Collection de séquences regroupant les informations de 3 banques de données : SwissProt, TrEMBL, et PIR.
●
PIR (Protein Information Ressource) : Collection de séquences et informations. Cette banque de données est gérée par Georgetown University Medical Center (USA).
●
SwissProt: Une collection non redondante de séquences protéiques (obtenues par séquençage) maintenue par Expasy (Suisse).
●
Genpept : Collection de séquences protéiques obtenues par traduction des séquences nucléiques contenue dans la banque de données Genbank (NCBI).
●
RefSeq Protein : La collection RefSeq (Reference Sequence) fourni un ensemble de séquences non redandant. Il existe 3 subdivisions distinctes : les séquences génomiques, les transcrits, et les protéines. Cette banque est gérée par le NCBI. ●
PDB (Protein Data Bank) : séquences de protéines de structure 3D connues.
Expect
Ce paramètre spécifie le seuil de significativité statistique pour conserver un match dans les résultats. La valeur par défaut (10) signifie que l'on s'attend à ce que 10 matchs similaires à celui obtenu soient trouvés simplement par hasard, selon le modèle stochastique de Karlin et Altschul (1990). Si la significativité statistique attribuée à un match est plus élevée que le seuil EXPECT, le match ne sera pas reporté dans les résultats. Une valeur de seuil EXPECT basse est plus stringente, permettant de réduire les matchs pouvant être obtenus par hasard.
Expect (inclusion)
Ce paramètre a le même sens statistique que le précédent. La valeur spécifiée pour ce second « expect » conditionne l'inclusion d'un match d'une itération de blast à une autre.
Date : 14/09/07
Manuel_psiBLAST_fr
Page 2/4
Matrice
La matrice de substitution est un élément clé de l'évaluation de la qualité d'un alignement de deux séquences. La matrice attribue un score à l'alignement de toutes les paires possibles de résidus. La matrice utilisée dans une recherche BLAST peut être adaptée selon le type de séquence recherché.
Matrice de Substitution :
Une matrice de substitution contient des valeurs proportionelles à la probabilité que l'acide aminé i soit muté en acide aminé j pour chaque paire d'acides aminés. La famille de matrices de substitution PAM :
• Les matrices PAM sont basées sur des alignements globaux de protéines étroitement liées.
• La matrice PAM1 est calculée à partir de comparaisons de séquences qui ne présentent pas plus d'1% de divergence.
• Les autres matrices PAM sont des extrapolations de la matrice PAM1.
La famille de matrices de substitution BLOSUM :
• Les matrices BLOSUM sont basées sur des alignements locaux.
• La matrice BLOSUM 62 est une matrice calculée à partir de comparaisons de séquences qui présentent moins de 62% de divergence.
• Toutes les matrices BLOSUM sont basées sur des alignements observés; elles ne sont pas des extrapolations à partir de comparaisons de protéines étroitement liées.
• La matrice utilisée par défaut dans BLAST 2.0 est BLOSUM 62. Cette matrice peut être utilisée pour comparer des protéines modérément éloignées, elle permet bien de détecter des relations plus étroits. Une recherche de distances relatives serait peut être plus sensible avec une matrice différente.
Remarque : Si vous n'êtes pas certain de faire le bon choix, utilisez BLOSUM62.
Filtre SEG
Cette fonction masque les segments de la séquence requête qui ont une composition à faible complexité. Celleci est évaluée par le programme SEG de Wooton et Federhen (Computers and Chemistry, 1993). Aplliquer ce filtre permet d'éliminer du résultat de psiBLAST les matchs évalués comme étant statistiquement intéressants mais qui ne présentent pas d'intérêt au niveau biologique (par exemple : matchs contre des régions riches en proline). Ce filtre conserve les régions de la séquence en requête les plus intéressantes biologiquement pour obtenir des matchs spécifiques de ces régions dans la banque de données interrogée.
Ce filtre est appliqué uniquement à la séquence en requête (ou à ses produits de traduction), et pas aux séquences de la banque de données impliquée. Le filtre appliqué par défaut est SEG pour le programme psiBLAST.
Date : 14/09/07
Manuel_psiBLAST_fr
Page 3/4
SEG : Ce programme permet de filtrer les régions à faible complexité des séquences d'acides aminés. Les résidus ayant été masqués sont représentés par "X" dans un résultat d'alignement.
Nombre maximal d'itération
Il s'agit du nombre maximal d'itérations que psiBlast pourra effectuer pendant sa recherche. Le programme pourra toutefois stopper avant si la convergence est atteinte.
Coûts d'un gap
Dans un alignement, il est souvent préférable d'obtenir des gaps consécutifs plutôt que des gaps éparpillés sur la longueur de l'alignement. Le coût de création (ou d'existence) d'un gap, correspond au coût du premier gap après une série d'acides aminés appariés. Le coût d'extension d'un gap correspond au coût d'un gap suivant un autre gap. Date : 14/09/07
Manuel_psiBLAST_fr
Page 4/4

PsiBLAST Manuel utilisateur

Transcription

Documents pareils

BLAST Manuel utilisateur

ion dynamique suivante : nt les valeurs des param`etres

TP Barcoding et Metabarcoding

Recherche de similarités au moyen de BLAST

Utilisation de la vidéo

Analyses de séquences - Pages Persos Chez.com

PDF 780 ko blastcomposants - FOAD — MOOC

TP : Analyse de séquences sous UNIX

MATRICE ANSOFF = LA GRILLE PRODUIT/MARCHE

Séquençage de Vérification Sanger sur produits PCR et

1 +1 - Céline Brochier

Rappels mathématiques - Cours d`assimilation de données

A Survey of Blast Injury across the Full Landscape of Military

proc princomp

captive air pressure tank

Pour visualiser l`article, cliquer ici

Avec des extraits de Spiderman

Des Hauts et Débat

Dossier de candidature - lycée Chateaubriand à Rennes

Introduction à la bioinformatique

Tétrachloroéthylène

Analyse en Composantes Principales avec SPSS pour Windows