赞
踩
目录
一种分类算法,属于集成学习中的Bagging算法,即引导聚合类算法,由于不专注于解决困难样本,所以模型的performance会受到限制。
在介绍随机森林算法之前,首先要弄懂三个概念:
随机森林由多个决策树组成。
为了达到目标根据一定的条件进行选择的过程称为决策树。
熵:表示决策树分支下样本种类的丰富性
随着树的深度增加,要使熵降低(熵降低的速度越快,决策树效率越高)
构成决策树的是结点和边:
结点根据样本特征进行判断(如苹果的大小、味道、形状等)
最初的分支点被称为根节点(如图片中的 SIZE ),其余的被称为子节点
不再有分支的节点则被称为叶子结点,代表样本分类的结果
边指示的就是方向(如 YES 或 NO )
如何解决过拟合问题?
运用剪枝手段
- 预剪枝:训练前规定条件(如达到某深度就停止训练)
- 后剪枝:先找到决策树,根据条件限制叶子结点个数
根据Hoeffding不等式,集成学习的错误率为:
Hoeffding不等式了解网址: https://blog.csdn.net/z_x_1996/article/details/73564926
其中 T 代表的是分类器的数目(在随机森林中指的是决策树的数目)
在现实任务中,个体学习器是为解决同一个问题训练出来的,它们之间是不可能完全独立的,虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能的具有较大的差异,由此我们引入了自助采样法(Bootstrap sampling)用于解决独立问题,即让基学习器尽可能具有较大差异。
利用重抽样(Re-sample):有放回的抽取,对应随机森林的 “随机” 。
划分数据集最大的原则:将无序的数据变得更加有序。
在划分数据集前后信息发生的变化成为信息增益(information gain),知道如何计算信息增益,我们就可以计算每一个特征划分数据集后获得的信息增益,获得信息增益最高的特征是最好的选择。
信息学鼻祖香农提出了划时代的公式将信息量化,即信息熵函数,对信息论有兴趣的同学可以查阅香农的百度百科或者观看B战视频:https://www.bilibili.com/video/BV1fq4y1g7hq 。看完这个视频你会初步了解香农公式对于整个世界的影响以及为何华为能领跑5G时代。
或者阅读这篇文章:https://www.zhihu.com/question/27068465/answer/96502561
现在我们可以了解随机森林了。
随机森林即由多个决策树组成,每个决策树并不相同,在构建决策树时,我们从训练数据中有放回的随机选取一部分样本,并且也不会使用数据的全部特征,而是随机选取部分特征进行训练。每棵树使用的样本和特征都不相同,训练出的结果也不相同。
这么做的原因:为开始训练前,无法知道哪部分数据存在异常样本,也无法知道哪些特征最能决定分类结果,随机过程降低了两个影响因素对于分类结果的影响。
总结来源:
[1] https://www.bilibili.com/video/BV11i4y1F7n4
[2] https://www.bilibili.com/video/BV1HV411b7JR
[3] https://www.bilibili.com/video/BV1fq4y1g7hq
[4] https://www.bilibili.com/video/BV1H5411e73F
[5] https://www.bilibili.com/read/cv6765576
[6] https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97/1974765?fr=aladdin
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。