概述
BLAST(基本局部比对搜索工具)是将查询序列与已知序列数据库进行比较时最广泛使用的算法。它快速识别统计显著的局部比对,为新基因提供功能注释、检测远缘物种间的同源性以及揭示进化关系。BLAST 以全动态规划的保证最优性为代价,换取足以在包含数十亿残基的数据库中进行搜索的速度。每次命中的统计显著性报告为 E 值——在给定大小的数据库中,具有给定得分的偶然比对的期望数量。
关键概念
BLAST 通过首先将查询序列分解为短单词(蛋白质通常为 3,核苷酸为 11),扫描数据库以寻找这些单词的精确匹配,然后朝两个方向延伸有希望的匹配以构建更长的比对。变体应对特定用例:BLASTP 将蛋白质查询与蛋白质数据库比较,BLASTN 将核苷酸查询与核苷酸数据库比较,BLASTX 在所有六个阅读框中翻译核苷酸查询以进行蛋白质水平比较,PSI-BLAST 迭代构建位置特异性得分矩阵以检测远缘同源物。MegaBLAST 针对高度相似的序列进行了优化,而 discontiguous MegaBLAST 处理跨物种比较。
应用
BLAST 是从 DNA 测序项目注释未知序列的第一步。它通过检测与已表征蛋白质结构的同源性,为新蛋白质分配推定的功能。在细菌遗传学中,BLAST 识别毒力因子和抗生素耐药基因。重组 DNA 技术使用 BLAST 通过将测序读段与预期载体序列比对来验证构建体完整性。