当前位置:   article > 正文

基于Hadoop3.2的搜狗网搜索日志行为分析(18)--通过Spark SQL进行离线分析_搜狗网搜索日志管理 hadoop hbase spark

搜狗网搜索日志管理 hadoop hbase spark

Spark SQL源自于Shark项目,但是Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark各个组件的相互集成,所以提出了Spark SQL项目。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码。

1、数据源

本项目使用HBase中的表sogoulogs数据作为离线分析的数据源。

2、创建Scala项目

(1)File-> New -> project -> maven -> 勾选Create From archetype,向下选择scala-archetype-simple,点击next
在这里插入图片描述
(2)设置GroupID和ArtifactID ,点击next
在这里插入图片描述
(3)设置Maven相关选项,然后点击next

在这里插入图片描述
(4)紧接着一直Next,最后得到的工程架构如下所示

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/745167
推荐阅读
相关标签
  

闽ICP备14008679号