赞
踩
现在是互联网的时代, 每个人的生活中都会使用到互联网的各种应用, 我们会进行网络购物, 会进行新闻浏览, 视频浏览, 微信聊天等等, 当我们在使用互联网的时候, 我们的所有的数据都需要通过运行商(电信, 移动,联通)进行数据的发送和接收, 对于每一个访问, 运营商都可以获取到对应的请求信息, 我们可以通过 对网络请求的信息分析, 及时掌握互联网的动态和行业前沿, 并且根据用户的请求访问数据, 我们可以分析 互联网行业的发展现状和每个城市的互联网的发展程度等等. 通过对于互联网的发展的相关指标分析, 可 以为政府部门, 商业公司提供一些决策分析的数据.
整体框架如下图所示
集群规划如下,主要用到三台服务器Hadoop01、Hadoop02、Hadoop03。01作为集群的主节点和资源管理者,另外两台作为从节点
一些软件和环境配置如下
配置JDK等软件包时候,可以直接在其中一台服务器配置豪,通过同步软件分发到其他服务器上。当集群搭建好后,可以通过
start-all.sh stop-all.sh
开启和停止集群。并且可以通过jps
命令查看集群的启动效果。下图为集群启动成果后的效果。包括NameNode、DataNode等相关角色。
另外启动hive 和 Spark如下:启动hive:bin/hive
;启动spark:bin/spark-shell
,但是安装pyspark时候要和集群的spark版本一致,否则代码会报错,而且需要指定pyspark的路径为anaconda
from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"]="/bigdata/server/anaconda3/envs/pyspark/bin/python3"
数据采集软件为Flume, 前提条件是业务系统需要有hadoop的客户端。项目实践中使用的电信用户行为原始数据如下:包括上网的ip、方式、模式、访问网站等,例如通过ip可以获得用户所在的区域等。
安装好Flume 软件后,需要在lib目录添加一个ETL拦截器,在业务服务器的Flume的lib目录添加itercepter-etl.jar,这样做的目的是
bin/flume-ng agent --conf conf/ --name a1 --conf-file jobs/log_file_to_hdfs.conf -Dflume.root.logger=INFO,console
最终日志采集的效果如下:
对于我们常用的关系型数据库, 对于数据一致性要求比较高, 基本都是我们的OLTP系统,而对于我们常见的数据分析系统, 主要是根据已有的业务数据进行统计分析, 比如管理驾驶舱数据统计分析,比如做BI报表, 做机器学习等, 这些我们会专门在一个数据分析系统OLAP系统进行统计分析
https://www.bilibili.com/video/BV1L24y1o7f7/?spm_id_from=333.999.0.0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。