概述
隐马尔可夫模型(HMM)是一种统计模型,将可观测事件序列表示为底层不可观测(隐藏)状态序列的生成过程。在生物信息学中,HMM 对生物序列进行建模,其中隐藏状态可能代表外显子/内含子边界、蛋白质二级结构元件或多序列比对中的保守列。HMM 框架的强大之处在于它能够通过从已知示例训练的统一概率架构,捕获位置特异性保守模式、插入和缺失。
关键概念
HMM 由三组参数定义:隐藏状态之间的转移概率、从每个状态观测到符号的发射概率以及初始状态概率。Viterbi 算法为给定的观测找到最可能的隐藏状态序列——例如,基因组 DNA 序列最可能的基因结构。前向-后向算法计算每个位置每个状态的后验概率,可用于评估预测置信度。从多序列比对构建的Profile HMM 对蛋白质结构域家族进行建模。HMMER 软件包使用 profile HMM 进行灵敏的远程同源性检测,在发散序列上的性能优于 BLAST。
应用
HMM 用于原核和真核基因组中的基因预测,识别剪接位点和编码区域。Profile HMM 将蛋白质分类到家族和超家族中,帮助蛋白质结构预测和功能注释。它们对酶分类与命名中的底物特异性进行建模,并检测 DNA 结构与拓扑学中的调控元件。在宏基因组学中,HMM 为未知来源的片段分配功能角色。