Skip to content

Article image
多序列比对:比较三个及以上序列

概述

多序列比对(MSA)将三个及以上生物序列进行比对,以识别整个家族共享的保守区域。成对比对揭示了两个序列之间的相似性,而 MSA 捕获了同源组的进化深度,突出了数百万年来一直保持的残基。这些保守位置通常对结构、催化或调控至关重要。MSA 是系统发育树构建、蛋白质结构域鉴定以及生成可视化保守模式的序列标志的前提条件。

关键概念

在 Clustal Omega 和 MUSCLE 中实现的渐进比对,通过首先从成对距离构建引导树,然后迭代比对最密切相关的序列来构建 MSA。迭代方法通过重新比对子集来改进初始比对,以提高整体目标得分。基于一致性的工具如 T-Coffee 整合了针对第三个序列的成对比对信息,以提高准确性。对于非常大的数据集,MAFFT 使用快速傅里叶变换来加速比对。质量评估指标如成对和得分与列得分评估比对的可靠性,修剪工具在下游分析前去除比对不良的区域。

应用

MSA 在细菌遗传学的比较基因组学中不可或缺,它识别跨致病菌株保守的基因。它提高了 DNA 测序项目中同源性搜索的灵敏度,并揭示了蛋白质结构预测中功能重要的残基。在进化生物学中,MSA 提供了最大似然和贝叶斯系统发育推断所需的多序列输入,使得祖先序列重建和物种形成事件的定年成为可能。