赞
踩
作为微软发布的开源分布式梯度提升框架,LightGBM自问世以来就因其出众的性能和高效率而备受推崇。它主要致力于解决传统GBDT在大规模数据场景下的效率问题,通过多种创新性的优化手段,使得LightGBM不但拥有极高的计算效率,同时也保持了非常棒的准确率。
本质上是一个基于梯度提升框架的快速,高效,分布式梯度提升决策树算法,它在处理大规模数据集时表现出色,并且在许多机器学习竞赛和实际应用中都取得了很好的效果。
传统GBDT在每次迭代时都需要重建决策树,这一做法计算代价高昂。而LightGBM通过引入两步树生长策略,将树的生长过程分为两级:
这种分层策略使LightGBM在大规模样本情况下仍能快速训练,大幅提升整体效率。
LightGBM利用直方图在并行环境下进行加速,从而充分发挥多核CPU的性能。它将数据直方图构建和分裂点寻优两个步骤进行了解耦,使许多直方图能并行构建,查找分裂点时仅需遍历已有直方图即可,避免了重复计算。这种做法使得模型的训练速度在大数据场景下成倍加快。
决策树生成的核心是寻找最优分裂点,即寻找获得最大分裂增益的特征及其分裂值。LightGBM引入了基于梯度的独特分裂增益计算方法,相较于基于直接计算数据实例的做法,新方法大幅减少了计算开销,尤其在稀疏数据下更加高效。
高维数据通常非常稀疏,这为我们提供了设计近乎无损的方法来减少特征数量的可能性。具体来说,在稀疏特征空间中
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。