概述
基因组组装是从高通量测序平台产生的短 DNA 片段重建完整基因组序列的计算过程。由于测序仪每次只读取数百个碱基对,生物信息学家必须将数百万或数十亿个读段拼接在一起——犹如解决一个巨大的拼图游戏。组装基因组的准确性直接影响从基因预测到比较基因组学的每个下游分析。现代组装程序使用基于图的复杂算法来处理重复区域、测序错误和不同覆盖深度的复杂性。
关键概念
基因组组装存在两种主要策略。从头组装在没有任何参考序列的情况下构建基因组,依靠重叠-排列-共识(OLC)或 de Bruijn 图方法将读段合并成称为 contig 的连续序列。参考序列辅助组装将读段比对到已知参考基因组,然后组装未比对上的部分,这对于重测序项目特别有用。关键质量指标包括 N50(50% 的组装序列被包含在内的 contig 长度)和总组装大小。组装验证通常涉及与已知序列比对或使用长读段技术填补缺口。
应用
基因组组装几乎是所有基因组学应用的基础。它使得新基因的发现、结构变异的识别以及非编码调控元件的表征成为可能。在医学中,来自病原体的组装基因组能够快速追踪疫情和进行抗生素耐药性分析。农业基因组学依赖于高质量的组装来定位经济重要性状。现代项目经常将下一代测序数据与长读段和光学图谱相结合,以产生染色体水平的组装,这建立在经典 DNA 测序方法之上。组装还为 CRISPR-Cas9 靶标设计等功能研究提供支撑,其中脱靶预测依赖于准确的参考序列。