赞
踩
随机森林
介 绍
机器学习是实现人工智能的一种途径,它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。在人工智能如火如荼发展的今天,将机器学习的方法与交通问题相结合已经成为一种发展趋势。今天,就让我们使用随机森林的方法来完成地铁车站分类的工作。
随机森林是利用多棵树对样本进行训练并预测的一种分类器。上世纪八十年代Breiman等人发明分类树的算法,通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用,被誉为当前最好的算法之一。
机器学习先驱Leo Breiman
随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在训练过程开始时,每一颗决策树均利用 bootstrap重抽样方法从原始样本抽样,随机选取原始训练集中的部分指标,分别独立进行建模、训练过程中,RF利用 bootstrap重抽样方法剩余的袋外(Out-Of-Bag,OOB)数据计算模型准确率,从而评估模型的准确程度。模型构建完成后,对于新的记录,RF组合所有决策树的预测结果,通过投票得到最终的预测结果。
随机森林的步骤中体现了一些特点:
1. 样本的随机:从样本集中用Bootstrap随机选取n个样本
2. 特征的随机:从所有属性中随机选取K个属性,选择最佳分割属性作为节点建立CART决策树(泛化的理解,这里面也可以是其他类型的分类器,比如SVM、Logistics)
3. 重复以上两步m次,即建立了m棵CART决策树
4. 这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)
随机森林
与交通
为了让大家更好的理解随机森林这一方法,我们结合了交通相关热点问题,进行了研究——地铁刷卡数据(AFC数据)包含了乘客多种信息,包括进入车站、进入时间、离开车站、离开时间等,是城市轨道交通分析与研究的热点。在这里,我们使用AFC数据对车站进行分类
车站分类首先需要不同维度的信息,才能据此完成数据的输入。受数据资料的限制,在这里选取北京地铁2015年AFC数据进行研究。为了包含工作日与周末的客流信息,提取3月17日(工作日)和3月21日(周末)数据进行处理,基于此完成对车站属性的识别(原始AFC共有18517816条数据)。
截止到2015年3月,北京市有268个在运营地铁车站,根据车站周边土地利用情况,将北京市地铁车站分为6类:对外交通枢纽(A类)、居住区(B类)、工作区(C类)、居住及工作混合区(D类)、航站楼(E类)、旅游商业区(F类)。
根据随机森林思想,本文以工作日和非工作日两天内11种属性、22列数据及48个车站的属性划分结果进行有监督分类,每次分类随机选取其中80%的车站作为训练集,20%作为验证集,测试模型的准确度。
通过不断对模型的输入参数(树的数目、树的深度、每棵树属性数量)进行调整,发现:当每棵树样本的属性比例占总属性70%左右时,分类效果较好,属性过多可能削弱了树的数目对预测结果的影响,属性过少容易发生欠拟合。经过多次测试后,模型的准确率可达到77.8%。某次测试验证集分类结果如下。
结果展示
为了更加形象的展示不同车站的分类,我们将结果与地图进行了结合。点击文章最下方的,即可进入地图观看结果。

由于篇幅有限,对随机森林的方法介绍就到这里,如果感兴趣或想要想要深入了解相关方法欢迎阅读下列参考文献哦!
[1]王子甲, 刘海旭, Fujiyama T . 基于AFC数据和RF模型的城轨车站服务功能分类[J]. 交通运输系统工程与信息, 2018(4):224-230.
[2]Breiman L . Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[3]Elith J , Leathwick J R , Hastie T . A working guide to boosted regression trees[J]. Journal of Animal Ecology, 2008, 77(4):802-813.
[4]Kim M K , Kim S P , Heo J , et al. Ridership patterns at subway stations of Seoul capital area and characteristics of station influence area[J]. KSCE Journal of Civil Engineering, 2017, 21(3):964-975.
长按扫码关注我们
感谢王子甲老师为我们提供了思路,感谢韩震宇博士的指导
本文编辑:杨瑞霞、杨君仪、王斌杰、龙宇轩、曹金铭
推送编辑:钱蕾、陈佳豪
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。