随机森林算法

1.1定义

1.2随机森林的随机性体现的方面

1.3 随机森林的重要作用

1.4 随机森林的构建过程

1.5 随机森林的优缺点

2. 随机森林参数描述

参数含义
n_estimators树的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的效果越好。但是,任何一个模型都有决策边界,n_estimators达到一定的程度之后,随机森林的精确性往往不在上升或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越长,对于这个参数,希望在训练难度和模型效果之间取得平衡;默认值在现有版本的sklearn中是10,但是在即将更新的0.22版本中,这个默认值会被修正为 100
random_state控制生成森林的模式,用来固定森林中树的随机性,当random_state固定时,随机森林中生成是一组固定的树
bootstrap控制抽样技术参数,boostrap默认为TRUE,代表采用有放回的随机抽样技术
oob_score被忽略或者一次都没被采集到的样本叫做obb袋外数据;即在使用随机森林时,可以不划分测试集和训练集,用袋外数据即可测试;将oob_score=True,训练完毕后,可以用obb_score_查看在袋外数据上的测试结果
cirterion不纯度衡量指标,有基尼系数和信息熵两种选择
max_depath树的最大深度,超过最大深度的树枝都会剪掉
min_samples_leaf一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分支都不会发生
min_samples_split一个节点必须包含至少min_samples_split个训练样本,这个节点才允许分枝,否则不允许分枝
max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃,默认值为总特征个数开平方取整
min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生
参数含义
mse使用均方误差(mean squared error(MSE),父节点与子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子结点的均值来最小化L2损失
friedman_mse使用费尔德曼均方误差,这种指标使用费尔德曼针对潜在分支中的问题改进后的均方误差
mae使用绝对平均误差(mean absolute error),这种指标使用叶节点的中值来最小化L1损失

3. 分类随机森林的代码实现

随机森林算法

随机森林算法

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年3月10日 上午11:34
下一篇 2023年3月10日 上午11:38

相关推荐