当前位置:   article > 正文

决策树+代码实现_决策树r代码

决策树r代码

信息熵”(information entropy)是度量样本集合纯度的一种常用指标

信息熵计算公式:

其中 为集合中第K类属性所占样本的比例。

Ent(D)的值越小,则D的纯度越高

 

假定离散属性a有x个可能的取值{a1,a2,…,ax},若使用a来对样本集D进行划分,则会产生x个分支节点,其中第x个分支结点包含了D中所有在属性a上取值为ax的样本,记为Dx。

 

则根据上述信息熵的计算公式,同样可以计算出Dx的信息熵,再考虑到不同的分支节点所包含的样本数不同,给予分支结点赋予权重|Dx|/|D|,即样本数越多的分支结点的影响就越大,于是可以计算出用属性a对样本集D进行划分所获得的“信息增益”

                   

ID3算法便是使用信息增益为准则来进行属性划分的。

利用以上两个公式我们可以完成决策树的创建。

对于小数据集的模拟:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/1014594
推荐阅读
相关标签
  

闽ICP备14008679号