BLAST Manuel utilisateur

Transcription

BLAST Manuel utilisateur
BLAST
Manuel utilisateur
Table des matières
Introduction..........................................................................................................................................1
Paramètres............................................................................................................................................2
Expect..............................................................................................................................................2
Matrice.............................................................................................................................................2
Filtre "Faible complexité"................................................................................................................3
Filtre "Lettres minuscules"..............................................................................................................3
Introduction
Blast recherche des régions de similarités (alignement local selon la méthode de Altschul)
entre une séquence protéique ou d'acide nucléique par rapport aux banques et produit ensuite un
alignement. Cinq programmes de recherche de similitude BLAST sont proposés ici :
Quel Blast utiliser?
blastn
compare une séquence de nucléotides soumise à une base de données de séquences
de nucléotides
blastp
compare une séquence de protéines soumise à une base de données de séquences de
protéines
blastx
compare une séquence de nucléotides soumise après traduction dans toutes les
trames de lecture (6 phases) à une base de base de séquences de protéoines. Cette
option peut serviraussi à trouver les produits de traduction possibles d'une séquence
de nucléotides inconnue.
tblastn
compare une séquence de protéines soumise à une base de données de séquences de
nucléotides traduites dynamiquement dans toutes les trames de lecture (6 phases).
tblastx
compare les traductions dans 6 phases d'une séquence de nucléotides soumise à une
base de données de traductions dans 6 phases de séquences de nucléotides. Note :
Date : 04/04/07
Manuel_BLAST_fr
Page 1/3
les alignements avec gaps ne sont pas analysés avec tblastx.
Paramètres
Expect
Ce paramètre spécifie le seuil de significativité statistique pour conserver un match dans les
résultats. La valeur par défaut (10) signifie que l'on s'attend à ce que 10 matchs similaires à celui
obtenu soient trouvés simplement par hasard, selon le modèle stochastique de Karlin et Altschul
(1990). Si la significativité statistique attribuée à un match est plus élevée que le seuil EXPECT, le
match ne sera pas reporté dans les résultats. Une valeur de seuil EXPECT basse est plus stringente,
permettant de réduire les matchs pouvant être obtenus par hasard.
Matrice
La matrice de substitution est un élément clé de l'évaluation de la qualité d'un alignement de
deux séquences. La matrice attribue un score à l'alignement de toutes les paires possibles de résidus.
La matrice utilisée dans une recherche BLAST peut être adaptée selon le type de séquence
recherché.
Matrice de Substitution :
Une matrice de substitution contient des valeurs proportionelles à la probabilité que l'acide aminé i
soit muté en acide aminé j pour chaque paire d'acides aminés.
La famille de matrices de substitution PAM :
• Les matrices PAM sont basées sur des alignements globaux de protéines étroitement liées.
• La matrice PAM1 est calculée à partir de comparaisons de séquences qui ne présentent pas plus
d'1% de divergence.
• Les autres matrices PAM sont des extrapolations de la matrice PAM1.
La famille de matrices de substitution BLOSUM :
• Les smatrices BLOSUM sont basées sur des alignements locaux.
• La matrice BLOSUM 62 est une matrice calculée à partir de comparaisons de séquences qui
présentent moins de 62% de divergence.
• Toutes les matrices BLOSUM sont basées sur des alignements observés; elles ne sont pas des
extrapolations à partir de comparaisons de protéines étroitement liées.
• La matrice utilisée par défaut dans BLAST 2.0 est BLOSUM 62. Cette matrice peut être utilisée
pour comparer des protéines modérément éloignées, elle permet bien de détecter des relations plus
étroits. Une recherche de distances relatives serait peut être plus sensible avec une matrice
Date : 04/04/07
Manuel_BLAST_fr
Page 2/3
différente.
Filtre "Faible complexité"
Cette fonction masque les segments de la séquence requête qui ont une composition à faible
complexité. Celle-ci est évaluée par le programme SEG de Wooton et Federhen (Computers and
Chemistry, 1993) ou, pour BLASTN, par le programme DUST de Tatusov et Lipman. Aplliquer ce
filtre permet d'éliminer du résultat de BLAST les matchs évalués comme étant statistiquement
intéressants mais qui ne présentent pas d'intérêt au niveau biologique (par exemple : matchs contre
des régions riches en proline). Ce filtre conserve les régions de la séquence en requête les plus
intéressantes biologiquement pour obtenir des matchs spécifiques de ces régions dans la banque de
données interrogée.
Ce filtre est appliqué uniquement à la séquence en requête (ou à ses produits de traduction),
et pas aux séquences de la banque de données impliquée. Le filtre appliqué par défaut est DUST
pour BLASTN, et SEG pour les autres programmes BLAST.
DUST : Ce programme permet de filtrer les régions à faible complexité des séquences d'acides
nucléiques.
SEG : Ce programme permet de filtrer les régions à faible complexité des séquences d'acides
aminés. Les résidus ayant été masqués sont représentés par "X" dans un résultat d'alignement.
Filtre "Lettres minuscules"
Sélectionner cette option permet de copier et coller une séquence FASTA écrite en
caractères majuscules et de spécifier les zones que vous souhaitez filtrer en les écrivant à l'aide de
caractères minuscules. Ceci permet de personnaliser les zones filtrées dans la séquence en requête
pour la comparaison avec les banques BLAST.
Date : 04/04/07
Manuel_BLAST_fr
Page 3/3