BLAST Manuel utilisateur
Transcription
BLAST Manuel utilisateur
BLAST Manuel utilisateur Table des matières Introduction..........................................................................................................................................1 Paramètres............................................................................................................................................2 Expect..............................................................................................................................................2 Matrice.............................................................................................................................................2 Filtre "Faible complexité"................................................................................................................3 Filtre "Lettres minuscules"..............................................................................................................3 Introduction Blast recherche des régions de similarités (alignement local selon la méthode de Altschul) entre une séquence protéique ou d'acide nucléique par rapport aux banques et produit ensuite un alignement. Cinq programmes de recherche de similitude BLAST sont proposés ici : Quel Blast utiliser? blastn compare une séquence de nucléotides soumise à une base de données de séquences de nucléotides blastp compare une séquence de protéines soumise à une base de données de séquences de protéines blastx compare une séquence de nucléotides soumise après traduction dans toutes les trames de lecture (6 phases) à une base de base de séquences de protéoines. Cette option peut serviraussi à trouver les produits de traduction possibles d'une séquence de nucléotides inconnue. tblastn compare une séquence de protéines soumise à une base de données de séquences de nucléotides traduites dynamiquement dans toutes les trames de lecture (6 phases). tblastx compare les traductions dans 6 phases d'une séquence de nucléotides soumise à une base de données de traductions dans 6 phases de séquences de nucléotides. Note : Date : 04/04/07 Manuel_BLAST_fr Page 1/3 les alignements avec gaps ne sont pas analysés avec tblastx. Paramètres Expect Ce paramètre spécifie le seuil de significativité statistique pour conserver un match dans les résultats. La valeur par défaut (10) signifie que l'on s'attend à ce que 10 matchs similaires à celui obtenu soient trouvés simplement par hasard, selon le modèle stochastique de Karlin et Altschul (1990). Si la significativité statistique attribuée à un match est plus élevée que le seuil EXPECT, le match ne sera pas reporté dans les résultats. Une valeur de seuil EXPECT basse est plus stringente, permettant de réduire les matchs pouvant être obtenus par hasard. Matrice La matrice de substitution est un élément clé de l'évaluation de la qualité d'un alignement de deux séquences. La matrice attribue un score à l'alignement de toutes les paires possibles de résidus. La matrice utilisée dans une recherche BLAST peut être adaptée selon le type de séquence recherché. Matrice de Substitution : Une matrice de substitution contient des valeurs proportionelles à la probabilité que l'acide aminé i soit muté en acide aminé j pour chaque paire d'acides aminés. La famille de matrices de substitution PAM : • Les matrices PAM sont basées sur des alignements globaux de protéines étroitement liées. • La matrice PAM1 est calculée à partir de comparaisons de séquences qui ne présentent pas plus d'1% de divergence. • Les autres matrices PAM sont des extrapolations de la matrice PAM1. La famille de matrices de substitution BLOSUM : • Les smatrices BLOSUM sont basées sur des alignements locaux. • La matrice BLOSUM 62 est une matrice calculée à partir de comparaisons de séquences qui présentent moins de 62% de divergence. • Toutes les matrices BLOSUM sont basées sur des alignements observés; elles ne sont pas des extrapolations à partir de comparaisons de protéines étroitement liées. • La matrice utilisée par défaut dans BLAST 2.0 est BLOSUM 62. Cette matrice peut être utilisée pour comparer des protéines modérément éloignées, elle permet bien de détecter des relations plus étroits. Une recherche de distances relatives serait peut être plus sensible avec une matrice Date : 04/04/07 Manuel_BLAST_fr Page 2/3 différente. Filtre "Faible complexité" Cette fonction masque les segments de la séquence requête qui ont une composition à faible complexité. Celle-ci est évaluée par le programme SEG de Wooton et Federhen (Computers and Chemistry, 1993) ou, pour BLASTN, par le programme DUST de Tatusov et Lipman. Aplliquer ce filtre permet d'éliminer du résultat de BLAST les matchs évalués comme étant statistiquement intéressants mais qui ne présentent pas d'intérêt au niveau biologique (par exemple : matchs contre des régions riches en proline). Ce filtre conserve les régions de la séquence en requête les plus intéressantes biologiquement pour obtenir des matchs spécifiques de ces régions dans la banque de données interrogée. Ce filtre est appliqué uniquement à la séquence en requête (ou à ses produits de traduction), et pas aux séquences de la banque de données impliquée. Le filtre appliqué par défaut est DUST pour BLASTN, et SEG pour les autres programmes BLAST. DUST : Ce programme permet de filtrer les régions à faible complexité des séquences d'acides nucléiques. SEG : Ce programme permet de filtrer les régions à faible complexité des séquences d'acides aminés. Les résidus ayant été masqués sont représentés par "X" dans un résultat d'alignement. Filtre "Lettres minuscules" Sélectionner cette option permet de copier et coller une séquence FASTA écrite en caractères majuscules et de spécifier les zones que vous souhaitez filtrer en les écrivant à l'aide de caractères minuscules. Ceci permet de personnaliser les zones filtrées dans la séquence en requête pour la comparaison avec les banques BLAST. Date : 04/04/07 Manuel_BLAST_fr Page 3/3