赞
踩
在本地或HDFS新建一个测试目录,编写一个简单程序,每随机间隔若干秒(5s以内)在该目录下新建一个文件,并写入若干行内容(每一行包含若干单词,单词之间以空格分隔)。现利用Spark Streaming分别完成如下单词统计:
(1)实时统计每10s新出现的单词数量(每10s统计1次);
(2)实时统计最近1分钟内每个单词的出现次数(每10s统计1次);
(3)实时统计每个单词的累积出现次数,并将结果保存到本地文件(每10s统计1次)
(1)实时统计每10s新出现的单词数量(每10s统计1次)
import org.apache.spark._
import org.apache.spark.streaming._
object WordCountStreaming {
def main(args: Array[String]) {
val ssc = new StreamingContext(sc, Seconds(10))// 时间间隔为10秒
val lines = ssc.textFileStream("file:///home/hadoop/spark/logfile") //这里采用本地文件,当然你也可以采用HDFS文件
val words = lines.flatMap(_.split(" "))<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。