当前位置:   article > 正文

各维度 特征 重要程度 随机森林_机器学习技法10-(随机森林)

随机森林特征选择重要性单位

一.Random Forest Algorithm

39f81cf608508c9c0935f40f06978737.png

在Bagging中,我们采用bootstrapping来将原始数据集D生成一些不同的数据集,然后用基算法A来训练这些不同的数据集得到不同的g,然后采用投票的方式得到最后的模型G。

在决策树中,我们采用分切策略b(x)来切割数据集,然后构建许多小树,最终得到一颗大树。

在Bagging中,算法能减少不同g的方差;在决策树中,由于每次切割的方式不同,而且分支包含的样本数在逐渐减少,所以它对不同的数据集会比较敏感,从而不同的数据集会得到比较大的方差。

因此我们可以结合Bagging和决策树的特别将两个算法聚合起来,从而得到了随机森林。

80d6f485a47ecd2b3a0d6411efa60e11.png

随机森林的优点:

  • 不同决策树可以由不同主机并行训练生成,效率很高;
  • 随机森林算法继承了C&RT的优点;
  • 将所有的决策树通过bagging的形式结合起来,避免了单个决策树造成过拟合的问题。

在Bagging中,我们通过操作数据集从而实现了数据的随机性,因此得到的g具有差异性。其实还有其他的做法,对样本的特征进行操作就是一个方法。

具体做法:随机抽取一部分特征。

1495b97318b88c9ba9d2f71dceb18056.png

假设原来样本维度是d,则只选择其中的

个维度来建立决策树。这相当于是从d维到
维的特征转换,相当于是从高维到低维的投影,也就是说
维的z空间其实就是d维X空间的一个随机子空间(random subspace)。通常情况下,
远小于d,从而保证算法更有效率。Random Forest算法的作者建议在构建C&RT每个分支b(x)的时候,都可以重新选择子特征来训练,从而得到更具有多样性的决策树。

增强的随机森林算法是将决策树算法作为基算法,并且加入了随机子空间,最终得到了很多具有差异的g,最后将些g聚合,因此可以认为增强的随机森林算法是bagging加入了随机子空间。

b2493b74724ae7b0a20329ffa04fa449.png

另一种使得子特征具有多样性的方法,将原始特征x乘上一个投影矩阵

具有随机性,因为我们需要的是一部分特征,因此这种方式是低维投影,因此
的大部分元素为零,这种方法使得我们不仅可以垂直切还可以斜着切。

5c5bf11f4f14d1e6a94bc03f3e23ebe7.png

二.Out-Of-Bag Estimate

a28490fa60e926dac6a7e1aa133899b8.png

在Bagging中,我们采用bootstrapping来生成具有差异性的许多数据集ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/239171
推荐阅读
相关标签
  

闽ICP备14008679号