Spark Streaming之DStream基于HDFS的实时计算_创建dstream,使用( )变量获取textfilestream方法,该方法将监视指定的hdfs目

作者：在线问答5 | 2024-07-15 16:12:19

踩

创建dstream,使用( )变量获取textfilestream方法,该方法将监视指定的hdfs目录

一：HDFS作为数据源的本质

二：可监控的文件前提

三：特点

四：整体代码

一：HDFS作为数据源的本质

Spark Streaming会监视指定的HDFS目录，并且处理出现在目录中的文件

二：可监控的文件前提

（1）所有放入HDFS目录中的文件，都必须有相同的格式？
（2）要增加被扫描文件时，必须使用移动或者重命名的方式，将文件移入目录

三：特点

已经处理的文件，文件的内容即使改变，也不会再次处理
基于HDFS文件的数据源是没有Receiver的，因此不会占用一个cpu core

四：整体代码


public static void main(String[] args) {
        SparkConf conf = new SparkConf()
                .setMaster("local[2]")
                .setAppName("HDFSWordCount"

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】