爱喝兽奶帝天荒

这个屌丝很懒，什么也没留下！

热门标签

大数据重点知识点_大数据相关博客

作者：爱喝兽奶帝天荒 | 2024-06-28 09:41:50

踩

大数据相关博客

大数据重点知识点【精简】

一.大数据特点(4V)(记住)
二.大数据的应用场景(了解)
三.大数据业务流程(无所谓)
四.Hadoop入门

一.大数据特点(4V)(记住)

1.Volume(大量)

单位: bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
转化关系
1Byte = 8bit
1K = 1024Byte
1MB = 1024K
1G = 1024M
1T = 1024G
1P = 1024T

2.Velocity(高速)

高速处理数据

3.Variety(多样)

数据的多样性

4.value(低价值密度)

提前杂乱数据中有价值的数据

二.大数据的应用场景(了解)

电商的广告推荐
比如在某商场买了一份药，之后的首页全是推荐药相关的商品

用户分析
对大量的账号数据进行分析规律，实习精准客户

物流仓库
统计物流和计算路线等大量数据

保险行业
对数据的风险分析和服务计算

人工智能+5g+虚拟化
都是未来的热门计算，都将用到大数据处理。

三.大数据业务流程(无所谓)

产品需求=>数据部门分析数据=>数据可视化

四.Hadoop入门

1.hadoop基本介绍(了解)

HADOOP
apache基金会开发的分布式系统基础架构

hadoop准确是一个生态圈，其中包含着很多框架，总结一句话 hadoop是处理海量数据和储存海量数据的一个框架

创始人:Doug Cutting 但Lucene在上进行优化

名字来源:Doug Cutting的儿子喜欢大象

Hadoop截止2021年的三大发型版本: Apache、Cloudera、Hortonworks

2.hadoop特点(记住)

高可用性 高扩展性 高效性 高容错性

在这里插入图片描述
HDFS(分布式文件系统)
1.NameNode(nn):储存文件的元数据，如文件名等，以及文件的块列表和块所在的DataNode
2.DataNode(dn):具体存储文件数据，以及块数据效验和
3.Secondary NameNode(2nn):辅助NameNode 定时给NameNode元数据备份。
YARN
1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大
3）ApplicationMaster（AM）：单个任务运行的老大
2）NodeManager（N M）：单个节点服务器资源老大
4）Container：容器，相当一台独立的服务器，里面封装了

Hadoop流程

在这里插入图片描述

HDFS YARN MapReduce三者关系流程
在这里插入图片描述

大数据生态体系
在这里插入图片描述

3.Hadoop搭建(重点理解)

如果没有linux基础,请先去学linux
准备工具: vmwere下一台centos8虚拟机远程连接工具
配置好网络并用连接工具连接上
ip:192.168.200.100

创建目录存放安装包

mkdir  -vp /exper/software 
1

创建目录存放解压包位置

mkdir  -vp /exper/server
1

1) 安装jdk

下载1.8tar.gz版本我这里用的15版本的后面会有报错
jdk下载地址

将安装包通过连接工具等方式copy到/exper/software 目录下并解压到/exper/server目录下

cd /exper/software
tar -zxvf jdk-15.0.2_linux-x64_bin.tar.gz -C /exper/server/
1
2

配置环境变量

vi /etc/profile
1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/765598

大数据重点知识点_大数据 相关博客

大数据重点知识点【精简 】