Skip to content

Article image
基序发现:在序列中寻找调控模式

概述

基序发现是计算识别 DNA、RNA 或蛋白质序列中短而重复的序列模式的过程,这些模式对应于功能元件,如转录因子结合位点、剪接连接点、RNA 结合蛋白识别位点或蛋白质相互作用结构域。与全局比对不同,基序发现聚焦于小窗口——通常为 6–20 个核苷酸或 3–15 个氨基酸——在这些窗口中,即使周围序列发生分歧,位置保守性仍然很高。这些基序通常表示为位置权重矩阵(PWMs),捕获每个位置每个核苷酸或氨基酸的频率。

方法

多种算法处理基序发现。基于共有序列的方法枚举所有可能的单词,并报告那些出现频率高于偶然预期的单词。概率方法如 MEME 使用期望最大化来拟合混合模型,将含基序序列与背景序列分开。Gibbs 采样方法,以 BioProspector 等工具实现,通过随机搜索序列空间来发现过表示的模式。系统发育足迹分析利用跨相关物种的保守性来识别处于纯化选择下的调控元件。染色质免疫沉淀后接测序(ChIP-seq)提供实验衍生的峰区域,指导基序发现到相关的基因组位点。

应用

基序发现对于理解基因调控与表观遗传学至关重要。它识别控制转录与 RNA 加工的转录因子的结合位点。在合成生物学中,发现的基序用于设计具有可预测表达强度的合成启动子。对 DNA 结构与拓扑学的分析揭示,某些基序优先形成 G-四链体等二级结构,调控转录和复制。