关于数据流式处理和批处理的关系（部分机器学习模型）_机器学习批处理

作者：Cpp五条 | 2024-06-15 08:03:45

踩

机器学习批处理

批流合体：Apache Spark、Apache Flink

大数据技术的广泛应用成为了引领众多行业技术进步、促进效益增长的关键技术。根据数据处理的时效性，将大数据处理方式分为流式处理和批示处理数据两类。其中，可以将批式处理数据方式称为历史大数据的处理，而将流式处理方式可以称为实时大数据的处理。
基于批式处理数据的方式，可以不断积累新的数据内容，积攒经验，在此基础之上，流式处理方式可以极大限度的挖掘数据的潜在价值，而将流批处理方式成为一体的处理方式更具有应用和推广价值。因为流式处理和批式处理的方式都有各自相对应的缺陷，但是如果将流处理和批处理一体化，平衡延时、吞吐和容错等缺陷，得到更好的实现数据的准确分析。批流是逻辑上的分离，而不是具体实现技术的分离。传统上批处理的方式计算自研消耗多，而且时效性太差，通过将原先批处理的链路改造为实时的计算，实现流批一体，节省了资源。

关于流处理：Apache Storm、Apache Samza

流式处理可以让业务报告保持更新，持续响应。流的定义不依赖于某个框架，只需从一个无边界的数据集中读取数据，并对它们进行处理生成结果，而整个过程则必须是持续的。
流式处理的核心目标：
1、低延迟：近实时的数据处理能力，时间跨度在数百毫秒到数秒之间；
2、高吞吐：能处理大批量的数据；
3、容错率高：在数据计算有误的情况下，可容忍错误，并且可以更正错误；
在流式数据处理模式里，数据实时到达系统及时处理新到

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/721524