赞
踩
决策树的本质:
对数据进行分类,降低不确定性。
这里,我们来判断下面几个人中是否喜欢打篮球。构建的决策树如下:
所谓决策树,树在前面,决策在后面。
这里,我们有假设一个美女相亲进行决策的情况。呵呵
重点在找根节点。
熵可以用来表示的是物体内部的混乱程度,事实上,这个说法在化学中比较常用,可以回忆一下;在这里,我们可以认为是表示分类的数据纯与不纯的度量。
这里可以认为,集合A的熵比较大,集合B的熵比较低。下面讲一下熵的数学定义。
这里n表示有n个类别,pi表示对应类别i出现的概率。不管是熵还是Gini系数,他们都是越小越好。
构造树的基本想法是随着树深度的增加,节点的熵迅速地降低。熵降低的越快越好,这里就需要我们选择根节点;这样我们有望得到一颗高度最矮的决策树,只要三步就不走五步。
play作为标签,其他的作为特征。
在没有给定任何天气信息的时候,根据历史数据,我们只知道新的一天打球的概率是9/14,不打的概率是5/14。此时的熵为:
下面我们来构造决策树。
第一步,根据每个特征进行划分,对每个特征进行相同的尝试。
第二步,计算各特征作为根节点时每个分类的熵。
第三步,计算以outlook作为根节点的熵和信息增溢;同理,可以计算其他特征作为根节点的熵。
信息增溢表示熵值的变化,信息增溢越大,表示熵的变化越快,即当前划分中,哪个特征使划分信息增溢最大,那么这个节点就可以作为根节点,即此时,outlook应该作为根节点。
之后,进行第二个根节点的判断,原理如上,相当于一个递归的过程。
决策树划分依据之一: 信息增益
基尼系数:划分更加仔细
需要注意的是,对于特征的选择 还需要认真的考虑并选择符合实际需求的特征。
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
决策树分类器
criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’
max_depth:树的深度大小
random_state:随机数种子
method:decision_path:返回决策树的路径
1、sklearn.tree.export_graphviz() 该函数能够导出DOT格式tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])
2、工具:(能够将dot文件转换为pdf、png)安装graphvizubuntu:sudo apt-get install graphviz Mac:brew install graphviz3
3、运行命令然后我们运行这个命令$ dot -Tpng tree.dot -o tree.png
优点:
简单的理解和解释,树木可视化。
需要很少的数据准备,其他技术通常需要数据归一化,
缺点:
决策树学习者可以创建不能很好地推广数据的过于复杂的树,
这被称为过拟合。决策树可能不稳定,因为数据的小变化可能会导致完全不同的树被生成
改进:
减枝cart算法
随机森林(集成学习)
1、什么是随机森林
2、随机森林的过程、优势
3、泰坦尼克号乘客生存分类分析
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
定义:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
根据下列算法而建造每棵树:
用N来表示训练用例(样本)的个数,M表示特征数目。
输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。
从N个训练用例(样本)中以有放回抽样(bootstrop)的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
N个样本,M个特征
单个树建立过程:
1,随机在N个样本中选择一个样本,重复N次(样本有可能重复)
2,随机在M个特征中选出m个特征
建立10棵决策树,样本和特征大多不一样
如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的.
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是绝对“片面的”(当然这样说可能不对),也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决。
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None)
随机森林分类器
n_estimators:integer,optional(default = 10) 森林里的树木数量
criteria:string,可选(default =“gini”)分割特征的测量方法
max_depth:integer或None,可选(默认=无)树的最大深度
bootstrap:boolean,optional(default = True)是否在构建树时使用放回抽样
需要注意的是上述参数基本都是超参数:
n_estimator:决策树数量
max_depth:最大深度
然后,在调优过程中,超参数的作用就可以具体体现了。
在当前所有算法中,具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本,而且不需要降维
能够评估各个特征在分类问题上的重要性对于缺省值问题也能够获得很好得结果
## 泰坦尼克号乘客生存分类 from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.neighbors import KNeighborsClassifier from sklearn.preprocessing import StandardScaler from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import classification_report from sklearn.feature_extraction import DictVectorizer from sklearn.tree import DecisionTreeClassifier, export_graphviz from sklearn.ensemble import RandomForestClassifier import pandas as pd def decision(): """ 决策树对泰坦尼克号进行预测生死 :return: None """ # 获取数据 titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt") # 处理数据,找出特征值和目标值 x = titan[['pclass', 'age', 'sex']] y = titan['survived'] print(x) # 缺失值处理,用平均数填充 x['age'].fillna(x['age'].mean(), inplace=True) # 分割数据集到训练集合测试集 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25) # 进行处理(特征工程)特征-》类别-》one_hot编码 dict = DictVectorizer(sparse=False) x_train = dict.fit_transform(x_train.to_dict(orient="records")) print(dict.get_feature_names()) x_test = dict.transform(x_test.to_dict(orient="records")) # print(x_train) # 用决策树进行预测 # dec = DecisionTreeClassifier() # # dec.fit(x_train, y_train) # # # 预测准确率 # print("预测的准确率:", dec.score(x_test, y_test)) # # # 导出决策树的结构 # export_graphviz(dec, out_file="./tree.dot", feature_names=['年龄', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性']) # 随机森林进行预测 (超参数调优) rf = RandomForestClassifier() param = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]} # 网格搜索与交叉验证 gc = GridSearchCV(rf, param_grid=param, cv=2) gc.fit(x_train, y_train) print("准确率:", gc.score(x_test, y_test)) print("查看选择的参数模型:", gc.best_params_) return None if __name__ == "__main__": decision()
## 莺尾花示例 from sklearn.cross_validation import train_test_split all_inputs = iris_data[['sepal_length_cm', 'sepal_width_cm', 'petal_length_cm', 'petal_width_cm']].values all_classes = iris_data['class'].values # 注意这里是取值 (training_inputs, testing_inputs, training_classes, testing_classes) = train_test_split(all_inputs, all_classes, train_size=0.75, random_state=1) from sklearn.tree import DecisionTreeClassifier # 1.criterion gini or entropy # 2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候) # 3.max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的 # 4.max_depth 数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制下 # 5.min_samples_split 如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分 # 如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。 # 6.min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被 # 剪枝,如果样本量不大,不需要管这个值,大些如10W可是尝试下5 # 7.min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起 # 被剪枝默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值, # 或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。 # 8.max_leaf_nodes 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。 # 如果加了限制,算法会建立在最大叶子节点数内最优的决策树。 # 如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制 # 具体的值可以通过交叉验证得到。 # 9.class_weight 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多 # 导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重 # 如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。 # 10.min_impurity_split 这个值限制了决策树的增长,如果某节点的不纯度 # (基尼系数,信息增益,均方差,绝对差)小于这个阈值 # 则该节点不再生成子节点。即为叶子节点 。 decision_tree_classifier = DecisionTreeClassifier() # Train the classifier on the training set decision_tree_classifier.fit(training_inputs, training_classes) # Validate the classifier on the testing set using classification accuracy decision_tree_classifier.score(testing_inputs, testing_classes)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。