当前位置:   article > 正文

实用 Kaggle 竞赛之 随机森林 Random Forest 的评估及调参_随机森林 kaggle

随机森林 kaggle

“本文内容的诉求为实用、易上手,所以理论的内容以及公式只做少量的解释,并不着重涉及。“

本节内容:

1。评价函数 —— 如何评价模型的好坏

2。测试集、验证集、训练集 —— 防止过拟合的验证集

3。RF 的超参数设置 —— 如何 tune 模型

           - 一颗决策树的形成 n_estimators

           - 随机森林 bootstrapping

           - 数据量太小怎么办 oob_score

           - max_samples_leaf, max_features

上一节我们是讲了 RF 的使用条件及优劣,这一节就继续来讲讲如何使用 RF,尤其是在 Kaggle 建模,或者是其他的生产环境中。

Notes:这里记录一个 data scientist 的好习惯

1。在使用 notebook 的时候,建议先在 cell 中书写函数 function,测试通过后,将 function 写上 notes 之后搬到 .py 文件当中,在 cell 中通过 import 来导入。在后期的 .py 文件中,可以遵循 PEP8 格式进行程序书写,以满足多人合作的工程或学术研究的需求。

2。在模型中,也是首先提取 dataset 中的一部分,来先跑同测试,记录效果好的模型和参数,在晚上让电脑跑整个数据集来获得针对全模型的估计。

3。在数据读入以后(如 pandas.read_csv() ),

在上述 notes2 中,“哪个模型效果好“ 就成了很重要的问题,回答这个问题的就是评价函数 evaluation metrics。

1。评价函数 —— 如何评价模型的好坏

由于这里主要讨论一些实用的方法,因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后,自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。

Regression 模型中的 score 函数指的是 R^2

<
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/237091
推荐阅读
  

闽ICP备14008679号