当前位置:   article > 正文

【机器学习】DecisionTreeClassifier与红酒数据集_红酒数据集特征名

红酒数据集特征名

1,决策树

决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。

sklearn中决策树的类都在”tree“这个模块之下。这个模块总共包含五个类:

tree.DecisionTreeClassifier分类树
tree.DecisionTreeRegressor回归树
tree.export_graphviz将生成的决策树导出为DOT格式,画图专用
tree.ExtraTreeClassifier高随机版本的分类树 
tree.ExtraTreeRegressor 高随机版本的回归树

2,红酒数据集

在这里我们只讨论利用DecisionTreeClassifier来画出红酒数据集相关的决策树。所用软件是anacanda。sklearn库和graphviz都需要下载。可以参考我的另一篇文来下载

  1. from sklearn import tree #导入需要的模块
  2. from sklearn.datasets import load_wine #导入红酒数据集
  3. from sklearn.model_selection import train_test_split #导入划分训练集测试集的库
  4. wine = load_wine()
  5. wine.data.shape #查看特征矩阵的行和列
  6. wine.target #查看标签列
  7. #如果wine是一张表,应该长这样:
  8. import pandas as pd #导入pandas库
  9. pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1) #将特征矩阵和标签列
  10. 合并
  11. wine.feature_names #查看特征矩阵的列名,即特征名
  12. wine.target_names #查看标签名
  13. #将数据集按照测试集占0.3的比例划分成测试集和训练集两部分
  14. Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
  15. Xtrain.shape #查看训练集的行和列
  16. Xtest.shape #查看测试集的行和列
  17. #建模三部曲
  18. clf = tree.DecisionTreeClassifier(criterion="entropy") #实例化
  19. clf = clf.fit(Xtrain, Ytrain) #用训练集数据训练模型
  20. score = clf.score(Xtest, Ytest) #返回预测的准确度
  21. score
  22. #将特征名重命名成中文
  23. feature_name = ["酒精","苹果酸","灰","灰的碱性","镁","总酚","类黄酮","非黄烷类酚类","花青素","颜色强度","色调","od280/od315稀释葡萄酒","脯氨酸"]
  24. import graphviz #导入graphviz库
  25. dot_data = tree.export_graphviz(clf
  26. ,out_file = None
  27. ,feature_names= feature_name
  28. ,class_names=["琴酒","雪莉","贝尔摩德"]
  29. ,filled=True
  30. ,rounded=True
  31. )
  32. graph = graphviz.Source(dot_data)
  33. graph

 作出的决策树如下:

3,DecisionTreeClassifier中的重要参数

1,DecisionTreeClassifier方法如下:

class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

2,criterion

对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心 大多是围绕在对某个不纯度相关指标的最优化上。

不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:

1)输入”entropy“,使用信息熵(Entropy)

2)输入”gini“,使用基尼系数(Gini Impurity)

注意,当使用信息熵 时,sklearn实际计算的是基于信息熵的信息增益(Information Gain),即父节点的信息熵和子节点的信息熵之差。

比起基尼系数,信息熵对不纯度更加敏感,对不纯度的惩罚最强。但是在实际使用中,信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。另外,因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生长会更加“精细”,因此对于高维数据或者噪音很多的数据,信息熵很容易过拟合,基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候,即当模型在训练集和测试集上都表 现不太好的时候,使用信息熵。当然,这些不是绝对的。

3,random_state & splitter

random_state用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据 (比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。

splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在 分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能 性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。

4, 剪枝参数

在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树往往会过拟合,即在训练集上表现很好,在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。为了让决策树有更好的泛化性,我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化 决策树算法的核心。sklearn为我们提供了不同的剪枝策略:

1)max_depth:限制树的最大深度,超过设定深度的树枝全部剪掉 这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所 以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。

2)min_samples_leaf & min_samples_split

min_samples_leaf限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生 一般搭配max_depth使用。

min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

3)max_features & min_impurity_decrease

 max_features:限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工, max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量 而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型 学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。

min_impurity_decrease:限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的 功能,在0.19版本之前时使用min_impurity_split。

4)确认最优的剪枝参数

那具体怎么来确定每个参数填写什么值呢?这时候,我们就要使用确定超参数的曲线来进行判断了,继续使用我们 已经训练好的决策树模型clf。超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲线,它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里,我们的模型度量指标就是score。

  1. import matplotlib.pyplot as plt
  2. test = []
  3. for i in range(10):
  4. clf = tree.DecisionTreeClassifier(max_depth=i+1
  5. ,criterion="entropy"
  6. ,random_state=30
  7. ,splitter="random"
  8. )
  9. clf = clf.fit(Xtrain, Ytrain)
  10. score = clf.score(Xtest, Ytest)
  11. test.append(score)
  12. plt.plot(range(1,11),test,color="red",label="max_depth")
  13. plt.legend()
  14. plt.show()

根据打分作出的图如下所示: 

 由图可知,树的最大深度为4时打分最高。所以可以选择4为树的深度的最佳剪枝参数。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/748876
推荐阅读
相关标签
  

闽ICP备14008679号