概述
启动子分析识别基因上游指导转录起始的 DNA 序列。启动子包含核心元件——真核生物中的 TATA 盒、起始子(Inr)和下游启动子元件(DPE),原核生物中的 -10 和 -35 盒——它们招募 RNA 聚合酶和通用转录因子。在核心启动子之外,近端和远端调控区域包含转录因子结合位点,这些转录因子响应发育和环境信号调节表达水平。计算启动子分析整合序列组成、染色质可及性和进化保守性来预测启动子位置和强度。
方法
启动子预测算法分为几类。基于信号的方法搜索已知的共有基序,如 TATA 盒或 CpG 岛。基于内容的方法使用判别分类器——支持向量机或神经网络——在 GC 含量、k-mer 频率和 DNA 结构属性等特征上训练。比较基因组学识别跨相关物种的保守非编码序列(CNSs),这些序列通常标记功能调控区域。染色质特征,包括 DNase I 超敏感性和组蛋白修饰标记(H3K4me3、H3K27ac),为从 ChIP-seq 和 ATAC-seq 数据预测的启动子提供实验验证。EPD(真核启动子数据库)和 Promoter 2.0 等数据库汇总了经实验验证的启动子。
应用
启动子分析对于理解转录与 RNA 加工至关重要。它使得具有可调表达水平的合成启动子设计成为生物技术的工具。在基因调控与表观遗传学中,启动子分析揭示 DNA 甲基化和组蛋白修饰如何沉默或激活基因。DNA 微阵列与基因表达研究使用启动子预测将差异表达基因与上游调控因子联系起来。与 DNA 结构与拓扑学相关的启动子 DNA 物理性质影响核小体定位和转录因子可及性。