利用随机森林对特征重要性进行评估(公式原理)

本文参考来源于:
杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015.

码字不易,各位看官大大的赞是我更细的动力!

一、引言

随机森林(利用随机森林对特征重要性进行评估(公式原理))由利用随机森林对特征重要性进行评估(公式原理)等人在2001年提出。

利用随机森林对特征重要性进行评估(公式原理)具有很高的预测准确率,对异常值和噪声有很强的容忍度,能够处理高维数据(变量个数远大于观测个数),有效地分析非线性、具有共线性和交互作用的数据, 并能够在分析数据的同时给出变量重要性评分(利用随机森林对特征重要性进行评估(公式原理))。这些特点使得利用随机森林对特征重要性进行评估(公式原理)特别适用于高维组学数据的研究,即在对疾病进行分类的同时通过利用随机森林对特征重要性进行评估(公式原理)值筛选出潜在的生物标志物,研究疾病发生、发展的生物学机制。然而, 由于在实际中由RF筛选变量使用的统计量不同,可能会使结果有较大的差异,为此本文在简单介绍利用随机森林对特征重要性进行评估(公式原理)筛选变量的基础上,拟针对目前随机森林变量重要性评分的不同计算方法和新近提出的改进方法, 说明其在高维组学数据分析中的应用。

二、随机森林的基本原理

了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括:

1.用有抽样放回的方法(bootstrap)从样本集中选取利用随机森林对特征重要性进行评估(公式原理)个样本作为一个训练集;

2.用抽样得到的样本集生成一棵决策树。在生成的每一个结点:

(1)随机不重复地选择利用随机森林对特征重要性进行评估(公式原理)个特征

(2)利用这利用随机森林对特征重要性进行评估(公式原理)个特征分别对样本集进行划分,找到最佳的划分特征(可用基尼系数、增益率或者信息增益判别)

3.重复步骤1到步骤2共利用随机森林对特征重要性进行评估(公式原理)次,利用随机森林对特征重要性进行评估(公式原理)即为随机森林中决策树的个数。

4.用训练得到的随机森林对测试样本进行预测,并用投票法决定预测的结果。

下图比较直观地展示了随机森林算法:

图片来源:
杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015.

利用随机森林对特征重要性进行评估(公式原理)中的每一棵分类树为二叉树,根节点包含全部训练自助样本,按照一定的原则,在每个节点从一组随机选取的变量中选择使分枝后节点“不纯度” 最小的变量作为分枝变量,分裂为左节点和右节点, 它们分别包含训练数据的一个子集, 分裂后的节点按照同样规则继续分裂, 直到满足分枝停止规则而停止生长, 具体过程见图 1。

“不纯度” 的衡量标准包括利用随机森林对特征重要性进行评估(公式原理)不纯度、 熵和错误率等。 变量筛选使用利用随机森林对特征重要性进行评估(公式原理)统计量。

三、随机森林常规的变量重要性评分

现假定有变量利用随机森林对特征重要性进行评估(公式原理),需要计算出利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)得分统计量。

利用随机森林对特征重要性进行评估(公式原理)常规的利用随机森林对特征重要性进行评估(公式原理)计算方法分为两种,即根据利用随机森林对特征重要性进行评估(公式原理)指数和袋外数据(利用随机森林对特征重要性进行评估(公式原理)) 错误率计算得到, 变量利用随机森林对特征重要性进行评估(公式原理)的得分统计量分别用利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)表示。

2.1 Gini指数

统计量利用随机森林对特征重要性进行评估(公式原理)表示第利用随机森林对特征重要性进行评估(公式原理)个变量在利用随机森林对特征重要性进行评估(公式原理)所有树中节点分裂不纯度的平均改变量。利用随机森林对特征重要性进行评估(公式原理)指数的计算公式为:

利用随机森林对特征重要性进行评估(公式原理)

利用随机森林对特征重要性进行评估(公式原理)为自助样本集的类别数,利用随机森林对特征重要性进行评估(公式原理)为节点利用随机森林对特征重要性进行评估(公式原理)样本属于第利用随机森林对特征重要性进行评估(公式原理)类的概率估计值,当样本为二分类数据时(利用随机森林对特征重要性进行评估(公式原理)) ,节点利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)指数为:

利用随机森林对特征重要性进行评估(公式原理)

利用随机森林对特征重要性进行评估(公式原理)为样本在节点利用随机森林对特征重要性进行评估(公式原理)属于任意一类的概率估计值。

变量利用随机森林对特征重要性进行评估(公式原理)在节点利用随机森林对特征重要性进行评估(公式原理)的重要性,即节点利用随机森林对特征重要性进行评估(公式原理)分枝前后利用随机森林对特征重要性进行评估(公式原理)指数变化量为:

利用随机森林对特征重要性进行评估(公式原理)

利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)分别表示由节点利用随机森林对特征重要性进行评估(公式原理)分裂的两新节点的利用随机森林对特征重要性进行评估(公式原理)指数。

如果变量利用随机森林对特征重要性进行评估(公式原理)在第利用随机森林对特征重要性进行评估(公式原理)棵树中出现利用随机森林对特征重要性进行评估(公式原理)次,则变量利用随机森林对特征重要性进行评估(公式原理)在第利用随机森林对特征重要性进行评估(公式原理)棵树的重要性为:

利用随机森林对特征重要性进行评估(公式原理)

变量利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)中的利用随机森林对特征重要性进行评估(公式原理)重要性定义为:

利用随机森林对特征重要性进行评估(公式原理)

其中,利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)中分类树的数量。

2.2 OOB 错误率

利用随机森林对特征重要性进行评估(公式原理)的定义为:在利用随机森林对特征重要性进行评估(公式原理)的每棵树中,使用随机抽取的训练自助样本建树,并计算袋外数据(利用随机森林对特征重要性进行评估(公式原理))的预测错误率,然后随机置换变量利用随机森林对特征重要性进行评估(公式原理)的观测值后再次建树并计算利用随机森林对特征重要性进行评估(公式原理)的预测错误率,最后计算两次利用随机森林对特征重要性进行评估(公式原理)错误率的差值经过标准化处理后在所有树中的平均值即为变量利用随机森林对特征重要性进行评估(公式原理)的置换重要性(利用随机森林对特征重要性进行评估(公式原理))。

变量利用随机森林对特征重要性进行评估(公式原理)在第利用随机森林对特征重要性进行评估(公式原理)棵树的利用随机森林对特征重要性进行评估(公式原理)为:

利用随机森林对特征重要性进行评估(公式原理)

其中,利用随机森林对特征重要性进行评估(公式原理)为第利用随机森林对特征重要性进行评估(公式原理)棵树利用随机森林对特征重要性进行评估(公式原理)数据的观测例数,利用随机森林对特征重要性进行评估(公式原理)为指示函数,即两值相等时取1,不等时取0;利用随机森林对特征重要性进行评估(公式原理)为第利用随机森林对特征重要性进行评估(公式原理)个观测的真实结果,利用随机森林对特征重要性进行评估(公式原理)为随机置换前第利用随机森林对特征重要性进行评估(公式原理)棵树对利用随机森林对特征重要性进行评估(公式原理)数据第利用随机森林对特征重要性进行评估(公式原理)个观测的预测结果,利用随机森林对特征重要性进行评估(公式原理)为随机置换后第利用随机森林对特征重要性进行评估(公式原理)棵树对利用随机森林对特征重要性进行评估(公式原理)数据第利用随机森林对特征重要性进行评估(公式原理)个观测的预测结果。

当变量利用随机森林对特征重要性进行评估(公式原理)没有在第利用随机森林对特征重要性进行评估(公式原理)棵树中出现时,利用随机森林对特征重要性进行评估(公式原理)

变量利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)中的置换重要性定义为:

利用随机森林对特征重要性进行评估(公式原理)

其中,利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)中分类树的数量。

2.3 常规变量重要性评分的优缺点

利用随机森林对特征重要性进行评估(公式原理)在数据挖掘中估计变量重要性时有着广泛的应用。 当变量为连续型变量且互不相关时,利用随机森林对特征重要性进行评估(公式原理)的估计是无偏的;

当信噪比较低时,利用随机森林对特征重要性进行评估(公式原理)的准确性也高于利用随机森林对特征重要性进行评估(公式原理),因此,利用随机森林对特征重要性进行评估(公式原理)有更高的稳定性。

然而, 当同时存在连续变量和分类变量或者分类变量的水平数不同时,利用随机森林对特征重要性进行评估(公式原理)估计则不够准确。由于利用随机森林对特征重要性进行评估(公式原理)个水平的分类变量在节点处可以有利用随机森林对特征重要性进行评估(公式原理)种分割, 连续变量在节点处可以有利用随机森林对特征重要性进行评估(公式原理)种分割(利用随机森林对特征重要性进行评估(公式原理)为样本量)。在备选分割较多时, 即使变量没有分类作用, 也可能使利用随机森林对特征重要性进行评估(公式原理)指数降低, 从而更容易被选为分枝变量, 即利用随机森林对特征重要性进行评估(公式原理)被高估。 实际上, 由于利用随机森林对特征重要性进行评估(公式原理)指数的计算问题, 水平数多的分类变量的利用随机森林对特征重要性进行评估(公式原理)指数降低会大于水平数少的分类变量。

当分类变量水平数相同时, 如果不同变量的水平间差别不同, 容易过高估计水平间差别大的变量的利用随机森林对特征重要性进行评估(公式原理) 。 在 SNP 数据分析中, Nicodemus 等人指出当所有 SNP 都不具有分类能力时,不相关 SNP 的利用随机森林对特征重要性进行评估(公式原理)高于高度相关 SNP 的利用随机森林对特征重要性进行评估(公式原理)

事实上,利用随机森林对特征重要性进行评估(公式原理)在实际中的应用范围更加广泛。 由于利用随机森林对特征重要性进行评估(公式原理)是通过利用随机森林对特征重要性进行评估(公式原理)数据计算的, 因此可以看作变量具有的分类能力, 没有分类能力的变量在观测值置换前后的利用随机森林对特征重要性进行评估(公式原理)错误率不会发生改变, 即数学期望利用随机森林对特征重要性进行评估(公式原理),此外,利用随机森林对特征重要性进行评估(公式原理)不仅能够衡量变量单独的分类能力, 还能够衡量变量间交互作用的分类能力。

当同时存在连续变量和分类变量或者分类变量水平数不同时, 并不会影响利用随机森林对特征重要性进行评估(公式原理)准确性。利用随机森林对特征重要性进行评估(公式原理)是通过随机置换变量观测值前后利用随机森林对特征重要性进行评估(公式原理)错误率的差值计算的, 即使没有分类作用, 水平数多的变量也更容易被选为分枝变量, 但置换前后并不会影响利用随机森林对特征重要性进行评估(公式原理)错误率,同时会使利用随机森林对特征重要性进行评估(公式原理)的变异增大。

在分类数据不平衡时,利用随机森林对特征重要性进行评估(公式原理)的准确性会受到一定影响。例如多数为正常人, 无论变量是否置换, 大部分的数据都会被预测为正常, 虽然利用随机森林对特征重要性进行评估(公式原理)错误率受到的影响可能不大,但却会严重低估所有变量的利用随机森林对特征重要性进行评估(公式原理)

当单棵树的预测准确率较低时(如利用随机森林对特征重要性进行评估(公式原理)错误率达到 50%) , 会低估变量的利用随机森林对特征重要性进行评估(公式原理)

当置换前利用随机森林对特征重要性进行评估(公式原理)错误率已经很大时, 置换变量观测值使得 OOB 错误率变大的可能性降低, 从而低估变量的利用随机森林对特征重要性进行评估(公式原理)

当没有分类能力的变量与有分类能力的变量相关时, 可能低估相关有分类能力变量的利用随机森林对特征重要性进行评估(公式原理),且估计方差变异增加, 而此时没有分类能力变量的利用随机森林对特征重要性进行评估(公式原理)则被高估。

组学数据中存在大量的噪声变量, 当变量数目巨大而具有分类能力的变量所占比例很小时,利用随机森林对特征重要性进行评估(公式原理)建模容易受到大量噪声变量的干扰, 使变量的利用随机森林对特征重要性进行评估(公式原理)计算受到影响, 变量筛选的结果不可信。

2.4 变量重要性( VIM ) 的显著性检验

利用随机森林对特征重要性进行评估(公式原理)给出了变量的重要性排序, 但无法在变量筛选时给出显著性假设检验的阈值。 事实上, 当所有变量都没有分类能力时,利用随机森林对特征重要性进行评估(公式原理)也会给出变量重要性排序, 筛选出不具有分类能力的变量; 而当有分类能力的变量很多时, 仅通过变量的排序进行变量筛选, 可能漏掉一些具有分类能力的变量。

利用随机森林对特征重要性进行评估(公式原理)等人提出通过利用随机森林对特征重要性进行评估(公式原理)值直接计算利用随机森林对特征重要性进行评估(公式原理)的显著性, 即:

利用随机森林对特征重要性进行评估(公式原理)

其中,利用随机森林对特征重要性进行评估(公式原理)利用随机森林对特征重要性进行评估(公式原理)中各棵树利用随机森林对特征重要性进行评估(公式原理)的标准差,利用随机森林对特征重要性进行评估(公式原理)为随机森林(利用随机森林对特征重要性进行评估(公式原理))中树的数量。 然而,利用随机森林对特征重要性进行评估(公式原理)等人通过模拟实验表明:利用随机森林对特征重要性进行评估(公式原理)值的检验效能与样本量利用随机森林对特征重要性进行评估(公式原理)及树的数量利用随机森林对特征重要性进行评估(公式原理)有很大的关系, 当样本量利用随机森林对特征重要性进行评估(公式原理)很大而树的数量利用随机森林对特征重要性进行评估(公式原理)小时, 检验效能接近于0。

版权声明:本文为博主作者:旅途中的宽~原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/wzk4869/article/details/126379073

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2024年4月16日
下一篇 2024年4月16日

相关推荐