Spark Streaming实时处理_实时统计最近1分钟内每个单词的出现次数(每10秒统计1次)

作者：木道寻08 | 2024-08-13 16:29:34

踩

实时统计最近1分钟内每个单词的出现次数(每10秒统计1次)

Spark Streaming实时处理

实验内容

在本地或HDFS新建一个测试目录，编写一个简单程序，每随机间隔若干秒（5s以内）在该目录下新建一个文件，并写入若干行内容（每一行包含若干单词，单词之间以空格分隔）。现利用Spark Streaming分别完成如下单词统计：

（1）实时统计每10s新出现的单词数量（每10s统计1次）；

（2）实时统计最近1分钟内每个单词的出现次数（每10s统计1次）；

（3）实时统计每个单词的累积出现次数，并将结果保存到本地文件（每10s统计1次）

实验步骤

（1）实时统计每10s新出现的单词数量（每10s统计1次）

import org.apache.spark._ 
import org.apache.spark.streaming._
object WordCountStreaming {
     
  def main(args: Array[String]) {
       
    val ssc = new StreamingContext(sc, Seconds(10))// 时间间隔为10秒    
    val lines = ssc.textFileStream("file:///home/hadoop/spark/logfile")  //这里采用本地文件，当然你也可以采用HDFS文件
    val words = lines.flatMap(_.split(" "))<1
2
3
4
5
6
7
8

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/975662