当前位置:   article > 正文

关于数据流式处理和批处理的关系(部分机器学习模型)_机器学习批处理

机器学习批处理

批流合体:Apache Spark、Apache Flink

大数据技术的广泛应用成为了引领众多行业技术进步、促进效益增长的关键技术。根据数据处理的时效性,将大数据处理方式分为流式处理和批示处理数据两类。其中,可以将批式处理数据方式称为历史大数据的处理,而将流式处理方式可以称为实时大数据的处理。
基于批式处理数据的方式,可以不断积累新的数据内容,积攒经验,在此基础之上,流式处理方式可以极大限度的挖掘数据的潜在价值,而将流批处理方式成为一体的处理方式更具有应用和推广价值。因为流式处理和批式处理的方式都有各自相对应的缺陷,但是如果将流处理和批处理一体化,平衡延时、吞吐和容错等缺陷,得到更好的实现数据的准确分析。批流是逻辑上的分离,而不是具体实现技术的分离。传统上批处理的方式计算自研消耗多,而且时效性太差,通过将原先批处理的链路改造为实时的计算,实现流批一体,节省了资源。

关于流处理:Apache Storm、Apache Samza

流式处理可以让业务报告保持更新,持续响应。流的定义不依赖于某个框架,只需从一个无边界的数据集中读取数据,并对它们进行处理生成结果,而整个过程则必须是持续的。
流式处理的核心目标:
1、 低延迟:近实时的数据处理能力,时间跨度在数百毫秒到数秒之间;
2、 高吞吐:能处理大批量的数据;
3、 容错率高:在数据计算有误的情况下,可容忍错误,并且可以更正错误;
在流式数据处理模式里,数据实时到达系统及时处理新到

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/721524
推荐阅读
相关标签
  

闽ICP备14008679号