当前位置:   article > 正文

随机森林_r语言 随机森林决策树数量最多越好吗

r语言 随机森林决策树数量最多越好吗

摘要

  • 随机森林是多重决策树的组合,可用于解决决策树常出现的过拟合问题
  • 随机森林下的决策树数量越多,泛化性能越好

引文

  • 随机森林是一种灵活的、便于使用的机器学习算法,即使没有超参数调整,大多数情况下也会带来好的结果。它可以用来进行分类和回归任务。
  • 决策树往往会产生过拟合问题,有时决策树甚至变得只会记忆数据

基本原理

模型

  1. 从数据集(表)的m个特征中随机选择k个特征(其中k小于等于m)。然后根据这k个特征建立决策树
  2. 重复n次,这k个特性经过不同随机组合建立起来n棵决策树
  3. 对每个决策树都传递随机变量来预测结果。存储所有预测的结果(目标),就可以从n棵决策树中得到n种结果
  4. 将得到高票数的预测目标作为随机森林算法的最终预测
  5. 对于回归问题,随机森林通过计算所有决策树预测值的平均值得出最终预测值;对于分类问题,随机森林中统计每棵决策树预测的类别,并将预测次数最多的类别作为随机森林的预测结果

思考

  • 优点:
    1. 抗过拟合能力:通过平均决策树,降低过拟合的风险性
    2. 非常稳定:只有在半数以上的基分类器出现差错时才会做出错误的预测,即使数据集中出现了一个新的数据点,整个算法也不会受到过多影响,它只会影响到一颗决策树,很难对所有决策树产生影响
  • 缺点:
    1. 如果一些分类/回归问题的训练数据中存在噪音,随机森林中的数据集会出现过拟合的现象
    2. 比决策树算法更复杂,计算成本更高

参考资料

[1] https://www.zhihu.com/search?type=content&q=%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97
[2] 深度森林笔记:https://blog.csdn.net/sinat_29819401/article/details/60160755

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/52955
推荐阅读
相关标签
  

闽ICP备14008679号