PsiBLAST Manuel utilisateur

Transcription

PsiBLAST Manuel utilisateur
Psi­BLAST
Manuel utilisateur
Table des matières
Introduction...............................................................................................................................................
.1
Paramètres.................................................................................................................................................
.2
Banque protéique....................................................................................................................
..............2
Expect......................................................................................................................
.............................2
Expect (inclusion)......................................................................................................................
...........2
Matrice................................................................................................................................
..................3
Filtre SEG.......................................................................................................................
......................3
Nombre maximal d'itération......................................................................................................
...........4
Coûts d'un gap.....................................................................................................................................
..4
Introduction
PSI­blast (Position specific iterative Blast) est un programme développé au NCBI. Il réalise une recherche itérative basée sur blast (avec prise en compte des gaps). Psi­Blast permet d’effectuer une recherche de protéines dans une base à partir d'un profil consensuel construit par itération de Blast.
Référence : Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J. (1990) "Basic local alignment search tool." J. Mol. Biol. 215:403­410
PSI­Blast donne la possibilité de relancer itérativement Blast sur les séquences résultats : pour chaque nouvelle itération, celles­ci sont traduites en un "profil ou PSSM" (consensus matérialisé par une matrice) qui est recherché à son tour sur la banque choisie initialement. Les itérations s'arrêtent lorsqu'il y a convergence, c'est à dire lorsque les séquences résultats de l'itération n sont identiques à celles de l'itération n­1.
Date : 14/09/07
Manuel_psiBLAST_fr
Page 1/4
Paramètres
Banque protéique
Sélection de la banque de séquences contre laquelle la recherche sera effectuée :
●
NR : Une collection de séquences protéiques (obtenues par séquençage) non redondante maintenue au NCBI.
●
Uniprot (Universal Protein Resource) : Collection de séquences regroupant les informations de 3 banques de données : Swiss­Prot, TrEMBL, et PIR.
●
PIR (Protein Information Ressource) : Collection de séquences et informations. Cette banque de données est gérée par Georgetown University Medical Center (USA).
●
SwissProt: Une collection non redondante de séquences protéiques (obtenues par séquençage) maintenue par Expasy (Suisse).
●
Genpept : Collection de séquences protéiques obtenues par traduction des séquences nucléiques contenue dans la banque de données Genbank (NCBI).
●
RefSeq Protein : La collection RefSeq (Reference Sequence) fourni un ensemble de séquences non redandant. Il existe 3 subdivisions distinctes : les séquences génomiques, les transcrits, et les protéines. Cette banque est gérée par le NCBI. ●
PDB (Protein Data Bank) : séquences de protéines de structure 3D connues.
Expect
Ce paramètre spécifie le seuil de significativité statistique pour conserver un match dans les résultats. La valeur par défaut (10) signifie que l'on s'attend à ce que 10 matchs similaires à celui obtenu soient trouvés simplement par hasard, selon le modèle stochastique de Karlin et Altschul (1990). Si la significativité statistique attribuée à un match est plus élevée que le seuil EXPECT, le match ne sera pas reporté dans les résultats. Une valeur de seuil EXPECT basse est plus stringente, permettant de réduire les matchs pouvant être obtenus par hasard.
Expect (inclusion)
Ce paramètre a le même sens statistique que le précédent. La valeur spécifiée pour ce second « expect » conditionne l'inclusion d'un match d'une itération de blast à une autre.
Date : 14/09/07
Manuel_psiBLAST_fr
Page 2/4
Matrice
La matrice de substitution est un élément clé de l'évaluation de la qualité d'un alignement de deux séquences. La matrice attribue un score à l'alignement de toutes les paires possibles de résidus. La matrice utilisée dans une recherche BLAST peut être adaptée selon le type de séquence recherché.
Matrice de Substitution :
Une matrice de substitution contient des valeurs proportionelles à la probabilité que l'acide aminé i soit muté en acide aminé j pour chaque paire d'acides aminés. La famille de matrices de substitution PAM :
• Les matrices PAM sont basées sur des alignements globaux de protéines étroitement liées.
• La matrice PAM1 est calculée à partir de comparaisons de séquences qui ne présentent pas plus d'1% de divergence.
• Les autres matrices PAM sont des extrapolations de la matrice PAM1.
La famille de matrices de substitution BLOSUM :
• Les matrices BLOSUM sont basées sur des alignements locaux.
• La matrice BLOSUM 62 est une matrice calculée à partir de comparaisons de séquences qui présentent moins de 62% de divergence.
• Toutes les matrices BLOSUM sont basées sur des alignements observés; elles ne sont pas des extrapolations à partir de comparaisons de protéines étroitement liées.
• La matrice utilisée par défaut dans BLAST 2.0 est BLOSUM 62. Cette matrice peut être utilisée pour comparer des protéines modérément éloignées, elle permet bien de détecter des relations plus étroits. Une recherche de distances relatives serait peut être plus sensible avec une matrice différente.
Remarque : Si vous n'êtes pas certain de faire le bon choix, utilisez BLOSUM62.
Filtre SEG
Cette fonction masque les segments de la séquence requête qui ont une composition à faible complexité. Celle­ci est évaluée par le programme SEG de Wooton et Federhen (Computers and Chemistry, 1993). Aplliquer ce filtre permet d'éliminer du résultat de psi­BLAST les matchs évalués comme étant statistiquement intéressants mais qui ne présentent pas d'intérêt au niveau biologique (par exemple : matchs contre des régions riches en proline). Ce filtre conserve les régions de la séquence en requête les plus intéressantes biologiquement pour obtenir des matchs spécifiques de ces régions dans la banque de données interrogée.
Ce filtre est appliqué uniquement à la séquence en requête (ou à ses produits de traduction), et pas aux séquences de la banque de données impliquée. Le filtre appliqué par défaut est SEG pour le programme psi­BLAST.
Date : 14/09/07
Manuel_psiBLAST_fr
Page 3/4
SEG : Ce programme permet de filtrer les régions à faible complexité des séquences d'acides aminés. Les résidus ayant été masqués sont représentés par "X" dans un résultat d'alignement.
Nombre maximal d'itération
Il s'agit du nombre maximal d'itérations que psi­Blast pourra effectuer pendant sa recherche. Le programme pourra toutefois stopper avant si la convergence est atteinte.
Coûts d'un gap
Dans un alignement, il est souvent préférable d'obtenir des gaps consécutifs plutôt que des gaps éparpillés sur la longueur de l'alignement. Le coût de création (ou d'existence) d'un gap, correspond au coût du premier gap après une série d'acides aminés appariés. Le coût d'extension d'un gap correspond au coût d'un gap suivant un autre gap. Date : 14/09/07
Manuel_psiBLAST_fr
Page 4/4

Documents pareils

Recherche de similarités au moyen de BLAST

Recherche de similarités au moyen de BLAST Choix d’un algorithme. Choix de la matrice de substitution. Pondération des gaps. Stratégie de recherche (nucléique ou protéique). Traitement du bruit de fond. Banque sur laquelle effectuer la rech...

Plus en détail

Analyses de séquences - Pages Persos Chez.com

Analyses de séquences - Pages Persos Chez.com On a établi des matrices appelées PAM250 et BLOSUM62 qui font la correspondance des acides aminés selon leur taux de mutation. On a comparé des séquences homologues et on a compté leur taux de muta...

Plus en détail

Introduction à la bioinformatique

Introduction à la bioinformatique SwissProt (protéique) ...................................................................................................... 22

Plus en détail