生物信息学中的随机森林

概述

随机森林是一种集成学习方法，它在训练期间创建多个决策树，并通过多数投票（分类）或平均（回归）合并它们的预测。每棵树都根据不同的引导数据样本进行训练，并且每次分割时仅考虑特征的随机子集，从而确保树之间的多样性并减少过度拟合。在生物信息学中，随机森林很受欢迎，因为它们具有处理高维数据的能力、对噪声的鲁棒性以及揭示哪些生物预测变量对预测贡献最大的内置特征重要性值。

方法

Bagging 在引导样本上训练每棵树并对预测进行平均，从而在不增加偏差的情况下减少方差。每次分割时的随机特征选择可确保树不相关，从而提高泛化能力。 特征重要性通过排列特征值时杂质（基尼或熵）的平均减少或精度下降来衡量。 袋外错误 (OOB) 在训练期间提供内部验证估计，无需单独的验证集。随机森林自然地处理缺失值和混合数据。

实用协议

用于癌症分类的随机森林工作流程从包含 20,000 个基因和 500 个已知癌症亚型样本的基因表达数据集开始。数据分为70%训练和30%测试。创建一个由 1,000 棵树组成的随机森林，在每次分割时采样 sqrt(p) 特征，并在引导样本上训练每棵树。在训练期间监控 OOB 误差，以确认 1,000 棵树就足够了：OOB 误差稳定在 500 棵树左右。对特征重要性进行排名并显示区分亚型的前 50 个基因。最重要的基因是指每个亚型特有的已知生物信号传导途径。在独立测试集上进行验证后，该模型的准确度达到 92%，而线性 SVM 的准确度为 85%。该模型被保存为序列化文件以供临床使用。每个预测的类概率值都使用 Platt 缩放进行校准，以提供可解释的置信度值。在药物发现应用中，使用 2,000 个分子描述符对随机森林进行训练，对 10,000 个具有已知针对激酶靶标活性的小分子进行训练。该模型正确分类了 88% 的测试化合物，并且关键特征（分子量、LogP 和氢键供体数量）与既定的药理学知识一致。该模型从 50,000 种化合物库中预测出 15 种新的活性化合物，其中 12 种在生化测试中证实了活性，命中率为 80%，而随机筛选的命中率为 20%。

应用程序

随机森林根据基因表达谱和qPCR对癌症亚型进行分类，根据基因组和蛋白质组数据预测药物反应，并在质谱数据中识别生物标志物特征。他们还检测高通量实验质量控制中的异常值，并优先考虑全基因组测序数据中的驱动突变。