Skip to content

Article image
序列比对:生物序列的成对比较

概述

序列比对是生物信息学的基本操作,将两个或多个生物序列并排放置,以识别可能反映功能、结构或进化关系的相似区域。成对比对比较恰好两个序列,构成数据库搜索、引物设计和系统发育推断的基础。比对问题通过动态规划算法解决——Needleman-Wunsch 用于全局比对,Smith-Waterman 用于局部比对——它们通过匹配、错配和空位惩罚矩阵找到最优得分路径。

关键概念

比对分为全局和局部两类。全局比对强制在两个序列的整个长度上进行比对,最适合长度相似且密切相关的序列。局部比对识别短的保守区域,非常适合检测分歧序列之间的共享结构域。替代矩阵如 BLOSUM62 和 PAM250 为每个可能的氨基酸替换提供对数几率分数,而 DNA 比对通常使用简单的匹配/错配得分。空位惩罚——通常是空位开放和空位延伸惩罚的组合——阻止过多的插入或缺失。启发式工具如 BLAST 通过用精确单词匹配种子化比对,以速度换取保证的最优性。

应用

成对比对在分子生物学中日常使用。它支撑着聚合酶链反应引物设计(通过检查引物-模板互补性),验证 DNA 测序结果(通过将读段比对到参考基因组),并在蛋白质结构预测中识别保守残基。比较基因组学依赖于比对来检测细菌遗传学中的水平基因转移,而限制性酶切位点作图使用比对来预测限制性酶切消化模式。