实用 Kaggle 竞赛之随机森林 Random Forest 的评估及调参_随机森林 kaggle

作者：小小林熬夜学编程 | 2024-03-14 20:30:02

踩

随机森林 kaggle

“本文内容的诉求为实用、易上手，所以理论的内容以及公式只做少量的解释，并不着重涉及。“

本节内容：

1。评价函数 —— 如何评价模型的好坏

2。测试集、验证集、训练集 —— 防止过拟合的验证集

3。RF 的超参数设置 —— 如何 tune 模型

- 一颗决策树的形成 n_estimators

- 随机森林 bootstrapping

- 数据量太小怎么办 oob_score

- max_samples_leaf, max_features

上一节我们是讲了 RF 的使用条件及优劣，这一节就继续来讲讲如何使用 RF，尤其是在 Kaggle 建模，或者是其他的生产环境中。

Notes：这里记录一个 data scientist 的好习惯

1。在使用 notebook 的时候，建议先在 cell 中书写函数 function，测试通过后，将 function 写上 notes 之后搬到 .py 文件当中，在 cell 中通过 import 来导入。在后期的 .py 文件中，可以遵循 PEP8 格式进行程序书写，以满足多人合作的工程或学术研究的需求。

2。在模型中，也是首先提取 dataset 中的一部分，来先跑同测试，记录效果好的模型和参数，在晚上让电脑跑整个数据集来获得针对全模型的估计。

3。在数据读入以后（如 pandas.read_csv() ），

在上述 notes2 中，“哪个模型效果好“ 就成了很重要的问题，回答这个问题的就是评价函数 evaluation metrics。

1。评价函数 —— 如何评价模型的好坏

由于这里主要讨论一些实用的方法，因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后，自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。

Regression 模型中的 score 函数指的是 R^2 ：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/237091

实用 Kaggle 竞赛之 随机森林 Random Forest 的评估及调参_随机森林 kaggle

实用 Kaggle 竞赛之随机森林 Random Forest 的评估及调参_随机森林 kaggle