生物信息学中的支持向量机 (SVM)

概述

支持向量机 (SVM) 是监督学习模型，可找到在高维空间中产生类之间最大距离（间隔）的超平面。因为它们仅使用支持向量（最接近决策边界的数据点），所以即使特征数量远远超过样本数量，SVM 也能实现稳健的泛化。与核函数相结合，SVM 无需显式转换数据即可捕获非线性关系，这使得它们对于基因表达分类、蛋白质-蛋白质相互作用预测和基于甲基化模式的诊断特别有效。

方法

线性 SVM 在原始特征空间中找到一个分离超平面，适用于类近似线性可分离的情况。 核技巧使用 RBF、多项式或 sigmoid 等核函数将数据投影到更高维度的空间，从而实现非线性决策边界。 软边际 SVM 通过成本参数 C 允许分类错误，该成本参数 C 会在最大化边际与训练误差之间进行权衡。 类加权 SVM 通过更严厉地惩罚少数类错误分类来解决类不平衡问题。参数选择（C，RBF 的 gamma）通常通过网格搜索和交叉验证来完成。

实用协议

用于基于甲基化的癌症分类的 SVM 工作流程从来自 200 个肿瘤和 100 个正常样本的 450,000 个 CpG 位点的 DNA 甲基化数据开始。使用分位数归一化对数据进行归一化，并过滤低方差特征，留下 50,000 个信息丰富的探针。应用 PCA 将维度减少到 100 个分量，从而解释 70% 的方差。数据分为 70% 训练和 30% 测试，按疾病状态分层。 An SVM with RBF kernel is trained;超参数 C（范围 0.1-1000）和 gamma（范围 0.0001-0.1）通过网格搜索和 5 倍交叉验证进行优化，选择最大化 AUC 的对。优化后的模型在测试集上的 AUC 为 0.94。检查模型系数以确定映射到基因启动子和增强子的最有影响力的 CpG 区域。排列检验用于评估分类性能的统计显着性。在血液生物标志物发现应用中，SVM 使用外周血甲基化数据对阿尔茨海默病患者和健康对照的样本进行分类，并在 25 个生物标志物 CpG 区域中实现了 88% 的准确率。这些区域位于与突触可塑性和神经炎症有关的基因中，提供了诊断工具和机制见解。该模型在 400 名患者的独立队列中得到验证，保持了 85% 的准确性，并在所有疾病阶段表现出稳健性。

应用程序

SVM 根据基因表达数据对肿瘤进行类型分类，根据序列特征预测蛋白质-蛋白质相互作用，在显微镜数据中区分疾病阶段，并对药物发现中化合物的药理活性进行分类。它们处理具有多种特征和少量样本的数据的能力使它们成为生物信息学的首选。