博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
sklearn中随机森林的参数
阅读量:5923 次
发布时间:2019-06-19

本文共 1579 字,大约阅读时间需要 5 分钟。

一:sklearn中决策树的参数:

1,criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点。

2,splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性,建议用默认。

3,max_features: 选择最适属性时划分的特征不能超过此值。

当为整数时,即最大特征数;当为小数时,训练集特征数*小数;

if “auto”, then max_features=sqrt(n_features).
If “sqrt”, thenmax_features=sqrt(n_features).
If “log2”, thenmax_features=log2(n_features).
If None, then max_features=n_features.

4,max_depth: (default=None)设置树的最大深度,默认为None,这样建树时,会使每一个叶节点只有一个类别,或是达到min_samples_split。

5,min_samples_split:根据属性划分节点时,每个划分最少的样本数。

6,min_samples_leaf:叶子节点最少的样本数。

7,max_leaf_nodes: (default=None)叶子树的最大样本数。

8,min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值

9,verbose:(default=0) 是否显示任务进程

二:随机森林特有的参数:

1,n_estimators=10:决策树的个数,越多越好,但是性能就会越差,至少100左右(具体数字忘记从哪里来的了)可以达到可接受的性能和误差率。  

2,bootstrap=True:是否有放回的采样。  

3,oob_score=False:oob(out of band,带外)数据,即:在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练,我们知道可以用cross validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证。性能消耗小,但是效果不错。  

4,n_jobs=1:并行job个数。这个在ensemble中非常重要,尤其是bagging(而非boosting,因为boosting的每次迭代之间有影响,所以很难进行并行化),因为可以并行从而提高性能。1=不并行;n:n个并行;-1:CPU有多少core,就启动多少job。

  

5,warm_start=False:热启动,决定是否使用上次调用该类的结果然后增加新的。  

6,class_weight=None:各个label的权重。  

三:进行预测可以有几种形式:

1,predict_proba(x):给出带有概率值的结果。每个点在所有label的概率和为1.  
2,predict(x):直接给出预测结果。内部还是调用的predict_proba(),根据概率的结果看哪个类型的预测值最高就是哪个类型。  

3,predict_log_proba(x):和predict_proba基本上一样,只是把结果给做了log()处理。  

Random Forest和Gradient Tree Boosting参数详解,图片来源:https://www.zhihu.com/question/34470160

通过总结模型调参常见的问题,我们可以把模型的参数分为4类:目标类、性能类、效率类和附加类。下表详细地展示了4个模型参数的意义:

你可能感兴趣的文章
刚入门,学习C语言。
查看>>
现代中小企业IT基础平台建设 - 完整案例实战(08_文件共享应用)
查看>>
EIGRP汇总后生成的Null0接口和路由黑洞详解
查看>>
IT职场人生系列之二十:危险职业(续1)
查看>>
Asp.net 获取网页源代码
查看>>
在asp.net中调用Office来制作各种(3D)统计图
查看>>
vue-router 路由懒加载
查看>>
关于reduce函数,
查看>>
java中的过滤器
查看>>
Linux core文件生成及设置
查看>>
洛谷—— P3375 【模板】KMP字符串匹配
查看>>
object-c学习:category 和 protocol区别
查看>>
更新exchange 2013 cu21补丁后出现的问题解决
查看>>
mysql数据类型
查看>>
linux下oracle安装
查看>>
树讲解——紧急集合(lca)
查看>>
路由开发工具记录
查看>>
悠中选优,畅享马尔代夫与塞舌尔之旅
查看>>
Oracle搭建及错误解决办法
查看>>
虚拟机网卡桥接centos系统获取不到IP
查看>>