大数据基础知识复习

作者：神奇cpp | 2024-06-28 09:32:46

踩

大数据基础知识

文章目录

一、什么是大数据
二、大数据要具备哪些特征？
四、hadoop之父是谁？
五、基础选择
六、简述Hadoop的特点
七、Hadoop关键模块
八、Hadoop生态圈组件有哪些？简述各组件的功能
九、列举Hadoop HDFS 的组件，简述功能

一、什么是大数据

大数据(bigdata)，又称巨量资料，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

二、大数据要具备哪些特征？

1、量大（Volume）：存储量大。
2、样多（Variety）：来源多，格式多。
3、快速（Velocity）：生成速度快，处理速度要求快。
4、价值（Value）：价值密度低，和数据总量的大小成反比。

四、hadoop之父是谁？

Doug Cutting,毕业于斯坦福大学。

五、基础选择

1、查看/aa 目录下的 out.txt 文件的内容

    cat/aa/out.txt
1

2、linux虚拟机下查看ip地址的命令

    ip addr    
    ifconfig -a
1
2

3、Linux系统中查看JDK版本的命令

	java -version
1

4、登录Linux系统常用的SSH工具
Putty、WinSCP、MobaXterm
5、使用下面什么命令来检查HDFS所有进程的状态
jps
6、Hadoop工作在什么风格下
master-slave
7、和RDBMS相比，Apache Hadoop
对非半结构化和半结构化数据更好
8、在Hadoop中，hadoop-env.sh文件中可以配置
Java环境变量
9、在Hadoop生态圈组件中，Mahout是用于机器学习的组件
10、Hadoop的HDFS数据块的大小允许修改
11、在Hadoop中负责运算的组件是
MapReduce
12、Zookeeper能够确保
仅有一个namenode是活动的，为客户端提供请求服务
13、在Hadoop HA中作为备节点的是
Standby Namenode
14、使用什么命令可以将HDFS目录中所有文件合并到一起
getmerge
15、Hadoop的设计原则有哪些？
可移植，数据本地化，自我检测和修复、低成本
16、在Hadoop中，ResourceManager的功能有哪些？
为发生资源冲突的节点仲裁资源
跟踪节点的活动和死亡状态
17、在Hadoop中，hdfs-site.xml文件中可以配置
复制因子
18、下面那个组件可以将外部数据导入到Hadoop系统
Sqoop
19、在HDFS中默认的数据块的大小是
128M
20、Apache Hadoop运行在哪个平台上
跨平台
21、下面陈述的内容哪些是NameNode节点的功能
管理文件系统的命名空间
调度客户端对文件的访问
22、请写出hadoop的命令：列举集群的/wordcount/input目录下的内容，包含子目录的内容

hdfs dfs -mkdir /wordcount
hdfs dfs -ls  /wordcount
hdfs dfs -mkdir /wordcount/input
hdfs dfs -ls /wordcount/input
hdfs dfs -ls -R /wordcount/input
1
2
3
4
5

六、简述Hadoop的特点

（1）高可靠性：由于在集群中存在数据的复制，即使机器故障，数据也会可靠存储。如果你的机器挂掉了，你的数据仍旧在Hadoop集群中可靠存储。

（2）高可用：数据是高可用的，即使硬件出现故障，由于在集群中存在多份数据的拷贝，因此数据仍旧可以访问。如果机器或者硬件崩溃，数据也可以通过其他路径进行访问。

（3）高效性：相比传统的单台机器处理数据，效率是极高的。

（4）高容错性：Hadoop能自动保存数据的多个副本，每个数据块默认可以存储3份，而且你可以按照你的需求进行调整。当某个节点宕机时，它可以自动的将副本复制给其他机器，保证数据的完整性，并且可以将失败的任务重新分发。

（5）高扩展性：Hadoop具有很高的扩展性，因此，可以很容易向节点中添加新硬件。该特性也使Hadoop具有水平扩展的能力，也就是说可以在不停机的情况下动态地向集群中添加新的节点。

（6）低成本：Hadoop集群可以将程序运行在廉价的机器上并发的进行处理，成本低、效率高，是处理海量数据的最佳选择。

（7）开源：ApacheHadoop是一个开源项目，这就意味着你可以根据你的业务需求修改你的代码。

（8）分布式处理：由于数据以分布式的方式存储在集群的HDFS中，数据可以在集群节点间做到并行处理。

（9）易用：不需要客户端去处理分布式计算，框架会为你做所有事情，因此Hadoop是非常易用的。

（10）计算靠近数据：这是Hadoop独到之处，是Hadoop可以轻松处理大数据。Hadoop采取数据本地处理的原则，让计算靠近数据，而不是数据靠近计算。当一个客户端提交一个MapReduce算法，算法将在集群数据处执行，而不是将数据带到算法提交的位置然后进行处理。

七、Hadoop关键模块

1. Hadoop Distributed File System (HDFS)：Hadoop存储层

Hadoop分布式文件系统，以分布式风格为Hadoop提供文件存储能力。

2. Map-Reduce：Hadoop的数据处理层

MapReduce是将海量数据进行并行处理的编程模型。
MapReduce特点：
• 拆分成无依赖的任务集
• 计算向数据迁移
• 可缩放

3. YARN：Hadoop资源管理层

YARN-Yet Another Resource Negotiator（另一种资源协调者）是
Hadoop的资源管理层：
• 用于作业调度
• 主从结构
Master运行ResourceManager
Slave运行NodeManager（运行在DataNode上）

八、Hadoop生态圈组件有哪些？简述各组件的功能

（1）Pig（基于hadoop的数据流系统）：是一种数据流语言和运行环境，适合于使用HadooP和MapReduce平台来查询大型半结构化数据集。
（2）Mahout（数据挖掘算法库）：是Apache软件基金会旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序
（3）Zookeeper（分布式协调服务）：是针对谷歌Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。
（4）Flume（日志收集平台）：是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。
（5）Sqoop（数据同步工具）：是SQL-to-Hadoop的缩写，主要用来在Hadoop和关系数据库之间交换数据的互操作性。
（6）Hbase（分布式列存储数据库）：它参考了谷歌的BigTable建模，实现了高性能、高可靠性、
面向列、可伸缩的分布式数据库，运行于HDFS之上。
（7）Hive（基于hadoop的数据仓库）：Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼，查询和分析。
（8）Kafka（分布式消息系统）：Kafka使用Scala和Java进行编写。Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统。Kafka具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。
（9）Apache Spark（开源集群运算框架）：Spark使用了内存运算技术，通过DAG优化技术，能在数据尚未写入硬盘时即在内存分析运算。
（10）Tez是Hortonworks开源的支持DAG作业的计算框架，它直接源于MapReduce框架。
（11）Presto 是一个运行在集群之上的分布式SQL查询引擎。

九、列举Hadoop HDFS 的组件，简述功能

1、DataNode

保存具体的block数据，
负责数据的读写操作和复制操作，
向NameNode报告当前存储或者修改的数据信息，
DataNode之间进行相互通信，复制数据块。

2、NameNode

管理文件系统命名空间和客户端对文件访问，
保存文件具体信息（文件信息、文件拆分block块信息以及block和DataNode的信息），接收用户请求。

3、Secondary NameNode

定时与NameNode进行同步（合并fsimage和edits文件），当NameNode失效时，需要手工将其设置成主机。

//这里是一部分课堂以及课后基础练习题，仅供复习参考。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/765568