随机森林源代码c++_原创丨随机森林在轨道交通方面的应用实例

作者：智能墨韵书生 | 2024-02-01 09:24:58

踩

c++ 随机森林

随机森林

介绍

机器学习是实现人工智能的一种途径，它是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。在人工智能如火如荼发展的今天，将机器学习的方法与交通问题相结合已经成为一种发展趋势。今天，就让我们使用随机森林的方法来完成地铁车站分类的工作。

随机森林是利用多棵树对样本进行训练并预测的一种分类器。上世纪八十年代Breiman等人发明分类树的算法，通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林，即在变量(列)的使用和数据(行)的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用，被誉为当前最好的算法之一。

机器学习先驱Leo Breiman

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在训练过程开始时，每一颗决策树均利用 bootstrap重抽样方法从原始样本抽样，随机选取原始训练集中的部分指标，分别独立进行建模、训练过程中，RF利用 bootstrap重抽样方法剩余的袋外(Out-Of-Bag,OOB)数据计算模型准确率，从而评估模型的准确程度。模型构建完成后，对于新的记录，RF组合所有决策树的预测结果，通过投票得到最终的预测结果。

随机森林的步骤中体现了一些特点：

1. 样本的随机：从样本集中用Bootstrap随机选取n个样本

2. 特征的随机：从所有属性中随机选取K个属性，选择最佳分割属性作为节点建立CART决策树(泛化的理解，这里面也可以是其他类型的分类器，比如SVM、Logistics)

3. 重复以上两步m次，即建立了m棵CART决策树

4. 这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)

随机森林

与交通

为了让大家更好的理解随机森林这一方法，我们结合了交通相关热点问题，进行了研究——地铁刷卡数据(AFC数据)包含了乘客多种信息，包括进入车站、进入时间、离开车站、离开时间等，是城市轨道交通分析与研究的热点。在这里，我们使用AFC数据对车站进行分类

车站分类首先需要不同维度的信息，才能据此完成数据的输入。受数据资料的限制，在这里选取北京地铁2015年AFC数据进行研究。为了包含工作日与周末的客流信息，提取3月17日(工作日)和3月21日(周末)数据进行处理，基于此完成对车站属性的识别(原始AFC共有18517816条数据)。

截止到2015年3月，北京市有268个在运营地铁车站，根据车站周边土地利用情况，将北京市地铁车站分为6类：对外交通枢纽(A类)、居住区(B类)、工作区(C类)、居住及工作混合区(D类)、航站楼(E类)、旅游商业区(F类)。

根据随机森林思想，本文以工作日和非工作日两天内11种属性、22列数据及48个车站的属性划分结果进行有监督分类，每次分类随机选取其中80%的车站作为训练集，20%作为验证集，测试模型的准确度。

通过不断对模型的输入参数(树的数目、树的深度、每棵树属性数量)进行调整，发现：当每棵树样本的属性比例占总属性70%左右时，分类效果较好，属性过多可能削弱了树的数目对预测结果的影响，属性过少容易发生欠拟合。经过多次测试后，模型的准确率可达到77.8%。某次测试验证集分类结果如下。

结果展示

为了更加形象的展示不同车站的分类，我们将结果与地图进行了结合。点击文章最下方的，即可进入地图观看结果。

由于篇幅有限，对随机森林的方法介绍就到这里，如果感兴趣或想要想要深入了解相关方法欢迎阅读下列参考文献哦！

[1]王子甲, 刘海旭, Fujiyama T . 基于AFC数据和RF模型的城轨车站服务功能分类[J]. 交通运输系统工程与信息, 2018(4):224-230.

[2]Breiman L . Random Forests[J]. Machine Learning, 2001, 45(1):5-32.

[3]Elith J , Leathwick J R , Hastie T . A working guide to boosted regression trees[J]. Journal of Animal Ecology, 2008, 77(4):802-813.

[4]Kim M K , Kim S P , Heo J , et al. Ridership patterns at subway stations of Seoul capital area and characteristics of station influence area[J]. KSCE Journal of Civil Engineering, 2017, 21(3):964-975.

长按扫码关注我们

感谢王子甲老师为我们提供了思路，感谢韩震宇博士的指导

本文编辑：杨瑞霞、杨君仪、王斌杰、龙宇轩、曹金铭

推送编辑：钱蕾、陈佳豪

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/52901