Skip to content

Article image
转录组组装:重建 RNA 序列

概述

转录组组装是从 RNA-seq 读段计算重建表达转录本序列的过程,可在有或无参考基因组的情况下进行。对于缺乏已测序基因组的生物体,de novo 转录组组装是唯一的选择,提供了生物体编码潜力的首次视图。即使有参考基因组,转录组组装也可以捕获新的异构体、融合转录本以及来自组装不良基因组区域的序列。组装的转录组是下游分析的基石,包括表达定量、功能注释和比较研究。

方法

De novo 转录组组装使用专为不均匀覆盖度和可变剪接设计的组装算法。流行工具包括 Trinity,它使用多 k-mer 大小的 de Bruijn 图方法;rnaSPAdes,改编自基因组组装;以及 SOAPdenovo-Trans。这些工具将读段组装成代表转录本片段的 contig,然后对相关 contig 进行聚类形成异构体组并解析全长转录本。参考序列辅助组装程序(StringTie、Cufflinks)利用 splice-aware 比对到基因组,并将重叠读段组装成转录本模型。关键质量指标包括组装完整性(BUSCO 得分与保守直系同源物比较)、N50 长度和恢复的全长转录本数量。使用 CD-HIT 或 Corset 进行冗余减少,聚类高度相似的转录本。

应用

转录组组装使非模式生物中的基因发现成为可能,从农作物到未被充分探索的海洋物种。它识别差异表达基因、组织特异性异构体和癌症中的融合转录本。当 RNA 测序数据来自无参考生物体时,该技术至关重要,并深度集成到下一代测序工作流程中。组装的转录组还通过使跨物种比较 RNA 结构与类型成为可能,为进化研究做出贡献。随着长读段测序(Iso-Seq、Oxford Nanopore)的改进,结合短读段和长读段的混合组装策略正在产生比以往更完整和准确的转录组。