赞
踩
单位: bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
转化关系
1Byte = 8bit
1K = 1024Byte
1MB = 1024K
1G = 1024M
1T = 1024G
1P = 1024T
高速处理数据
数据的多样性
提前杂乱数据中有价值的数据
电商的广告推荐
比如在某商场买了一份药,之后的首页全是推荐药相关的商品
用户分析
对大量的账号数据进行分析规律,实习精准客户
物流仓库
统计物流和计算路线等大量数据
保险行业
对数据的风险分析和服务计算
人工智能+5g+虚拟化
都是未来的热门计算,都将用到大数据处理。
产品需求=>数据部门分析数据=>数据可视化
HADOOP
apache基金会开发的 分布式系统基础架构
hadoop准确是一个生态圈,其中包含着很多框架,总结一句话 hadoop是处理海量数据和储存海量数据的一个框架
创始人:Doug Cutting 但Lucene在上进行优化
名字来源:Doug Cutting的儿子喜欢大象
Hadoop截止2021年的三大发型版本: Apache、Cloudera、Hortonworks
高可用性 高扩展性 高效性 高容错性
HDFS(分布式文件系统)
1.NameNode(nn):储存文件的元数据,如文件名等,以及文件的块列表和块所在的DataNode
2.DataNode(dn):具体存储文件数据,以及块数据效验和
3.Secondary NameNode(2nn):辅助NameNode 定时给NameNode元数据备份。
YARN
1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大
3)ApplicationMaster(AM):单个任务运行的老大
2)NodeManager(N M):单个节点服务器资源老大
4)Container:容器,相当一台独立的服务器,里面封装了
Hadoop流程
HDFS YARN MapReduce三者关系流程
大数据生态体系
如果没有linux基础,请先去学linux
准备工具: vmwere下一台centos8虚拟机 远程连接工具
配置好网络并用连接工具连接上
ip:192.168.200.100
创建目录存放安装包
mkdir -vp /exper/software
创建目录存放解压包位置
mkdir -vp /exper/server
下载1.8tar.gz版本 我这里用的15版本的后面会有报错
jdk下载地址
将安装包通过连接工具等方式copy到/exper/software 目录下 并解压到/exper/server目录下
cd /exper/software
tar -zxvf jdk-15.0.2_linux-x64_bin.tar.gz -C /exper/server/
配置环境变量
vi /etc/profile
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。