概述
序列组装是从测序仪产生的数百万或数十亿个短 DNA 片段重建完整基因组或转录组的计算过程。由于测序仪每次仅读取 150–300 个碱基对,组装算法必须找到读段之间的重叠,将它们合并成更长的连续序列(contig),并将 contig 排序成 scaffold。组装的难度随基因组大小、重复含量和杂合度而增加。组装质量通过 N50(覆盖 50% 组装的 contig 长度)和 contig 总数等指标来衡量。
方法
存在两种主要的组装范式。重叠-排列-共识(OLC),由 Canu 和 Flye 用于长读段,计算读段间的所有成对重叠,构建图,并解析路径以产生共有序列。De Bruijn 图组装程序,如 SPAdes 和 Velvet,将读段分解为 k-mer 并构建图,其中 k-mer 是节点,边表示 k-1 重叠;该方法可高效扩展到具有高覆盖度的大基因组。混合组装程序结合短读段的准确性和长读段的长距离信息来解析重复区域。宏基因组组装程序如 MEGAHIT 通过适应跨物种的不同覆盖深度来处理混合微生物群落。
应用
从头基因组组装为新测序的生物体(包括细菌、植物和脊椎动物)产生参考基因组。在下一代测序项目中,组装是在注释和分析之前的第一步。来自 DNA 测序读段的转录组组装揭示选择性剪接异构体。重组 DNA 技术使用组装来通过组装克隆插入物的 Sanger 测序读段验证质粒构建体。