各维度特征重要程度随机森林_机器学习技法10-（随机森林）

作者：2023面试高手 | 2024-03-15 05:53:01

踩

随机森林特征选择重要性单位

在Bagging中，我们采用bootstrapping来将原始数据集D生成一些不同的数据集，然后用基算法A来训练这些不同的数据集得到不同的g，然后采用投票的方式得到最后的模型G。

在决策树中，我们采用分切策略b(x)来切割数据集，然后构建许多小树，最终得到一颗大树。

在Bagging中，算法能减少不同g的方差；在决策树中，由于每次切割的方式不同，而且分支包含的样本数在逐渐减少，所以它对不同的数据集会比较敏感，从而不同的数据集会得到比较大的方差。

因此我们可以结合Bagging和决策树的特别将两个算法聚合起来，从而得到了随机森林。

随机森林的优点：

在Bagging中，我们通过操作数据集从而实现了数据的随机性，因此得到的g具有差异性。其实还有其他的做法，对样本的特征进行操作就是一个方法。

具体做法：随机抽取一部分特征。

假设原来样本维度是d，则只选择其中的

个维度来建立决策树。这相当于是从d维到

维的特征转换，相当于是从高维到低维的投影，也就是说

维的z空间其实就是d维X空间的一个随机子空间（random subspace）。通常情况下，

远小于d，从而保证算法更有效率。Random Forest算法的作者建议在构建C&RT每个分支b(x)的时候，都可以重新选择子特征来训练，从而得到更具有多样性的决策树。

增强的随机森林算法是将决策树算法作为基算法，并且加入了随机子空间，最终得到了很多具有差异的g，最后将些g聚合，因此可以认为增强的随机森林算法是bagging加入了随机子空间。

另一种使得子特征具有多样性的方法，将原始特征x乘上一个投影矩阵

，

具有随机性，因为我们需要的是一部分特征，因此这种方式是低维投影，因此

的大部分元素为零，这种方法使得我们不仅可以垂直切还可以斜着切。

在Bagging中，我们采用bootstrapping来生成具有差异性的许多数据集ÿ

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/239171

各维度 特征 重要程度 随机森林_机器学习技法10-（随机森林）