当前位置:   article > 正文

大数据Spark(二十一):Spark Core案例-SogouQ日志分析

sogouq

 文章目录

案例-SogouQ日志分析

业务需求

准备工作

HanLP 中文分词

样例类 SogouRecord

业务实现

搜索关键词统计

用户搜索点击统计

搜索时间段统计

完整代码


案例-SogouQ日志分析

使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Spark框架,将数据封装到RDD中进行业务数据处理分析。数据网址:搜狗实验室(Sogou Labs)

 1)、数据介绍:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。

 2)、数据格式

访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/945554
推荐阅读
相关标签
  

闽ICP备14008679号