当前位置:   article > 正文

Spark Streaming之DStream基于HDFS的实时计算_创建dstream,使用( )变量获取textfilestream方法,该方法将监视指定的hdfs目

创建dstream,使用( )变量获取textfilestream方法,该方法将监视指定的hdfs目录

目录

 

一:HDFS作为数据源的本质

二:可监控的文件前提

三:特点

四:整体代码


一:HDFS作为数据源的本质


Spark Streaming会监视指定的HDFS目录,并且处理出现在目录中的文件

二:可监控的文件前提


(1)所有放入HDFS目录中的文件,都必须有相同的格式?
(2)要增加被扫描文件时,必须使用移动或者重命名的方式,将文件移入目录

三:特点


已经处理的文件,文件的内容即使改变,也不会再次处理
基于HDFS文件的数据源是没有Receiver的,因此不会占用一个cpu core

四:整体代码


    

  1. public static void main(String[] args) {
  2.         SparkConf conf = new SparkConf()
  3.                 .setMaster("local[2]")
  4.                 .setAppName("HDFSWordCount"
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号