赞
踩
在Bagging中,我们采用bootstrapping来将原始数据集D生成一些不同的数据集,然后用基算法A来训练这些不同的数据集得到不同的g,然后采用投票的方式得到最后的模型G。
在决策树中,我们采用分切策略b(x)来切割数据集,然后构建许多小树,最终得到一颗大树。
在Bagging中,算法能减少不同g的方差;在决策树中,由于每次切割的方式不同,而且分支包含的样本数在逐渐减少,所以它对不同的数据集会比较敏感,从而不同的数据集会得到比较大的方差。
因此我们可以结合Bagging和决策树的特别将两个算法聚合起来,从而得到了随机森林。
随机森林的优点:
在Bagging中,我们通过操作数据集从而实现了数据的随机性,因此得到的g具有差异性。其实还有其他的做法,对样本的特征进行操作就是一个方法。
具体做法:随机抽取一部分特征。
假设原来样本维度是d,则只选择其中的
增强的随机森林算法是将决策树算法作为基算法,并且加入了随机子空间,最终得到了很多具有差异的g,最后将些g聚合,因此可以认为增强的随机森林算法是bagging加入了随机子空间。
另一种使得子特征具有多样性的方法,将原始特征x乘上一个投影矩阵
在Bagging中,我们采用bootstrapping来生成具有差异性的许多数据集ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。