Skip to content

Article image
基因组注释:识别功能元件

概述

基因组注释是为组装的基因组原始序列赋予生物学意义的过程。它识别基因的位置、外显子-内含子边界、调控序列、重复元件和非编码 RNA。注释弥合了静态 DNA 序列与其编码的动态生物学功能之间的差距。计算预测和实验证据被整合在一起,以产生全面的基因组特征图谱。随着基因组测序变得越来越快速和廉价,注释瓶颈——将序列数据转化为生物学洞见——已变得日益关键。

方法

注释策略分为三类。从头预测使用基因结构的统计模型(如隐马尔可夫模型)直接从序列组成中识别编码区域。基于同源的注释比对来自相同或相关物种的表达序列标签、蛋白质或 RNA-seq 读段来推断基因结构。比较注释利用跨多个物种的进化保守性来精确定位功能元件。NCBI 真核基因组注释流程等流程结合了所有三种方法,随后进行人工校验以解决歧义情况。质量通过注释编辑距离(AED)等指标进行评估。

应用

准确的注释对于解读测序项目至关重要。在生物医学研究中,它通过揭示哪些基因组区域编码蛋白质或调控元件来促进疾病致病突变的发现。农业基因组学使用注释将基因与产量和胁迫耐受性等性状联系起来。重组 DNA 技术等技术依赖于可靠的基因模型进行克隆和表达。注释还通过识别操纵子和毒力因子来支持细菌遗传学,而基因调控与表观遗传学研究则依赖于启动子、增强子和其他调控特征的精确坐标。