赞
踩
大数据(bigdata),又称巨量资料,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
1、量大(Volume):存储量大。
2、样多(Variety):来源多,格式多。
3、快速(Velocity):生成速度快,处理速度要求快。
4、价值(Value):价值密度低,和数据总量的大小成反比。
Doug Cutting,毕业于斯坦福大学。
1、查看/aa 目录下的 out.txt 文件的内容
cat/aa/out.txt
2、linux虚拟机下查看ip地址的命令
ip addr
ifconfig -a
3、Linux系统中查看JDK版本的命令
java -version
4、登录Linux系统常用的SSH工具
Putty、WinSCP、MobaXterm
5、使用下面什么命令来检查HDFS所有进程的状态
jps
6、Hadoop工作在什么风格下
master-slave
7、和RDBMS相比,Apache Hadoop
对非半结构化和半结构化数据更好
8、在Hadoop中,hadoop-env.sh文件中可以配置
Java环境变量
9、在Hadoop生态圈组件中,Mahout是用于机器学习的组件
10、Hadoop的HDFS数据块的大小允许修改
11、在Hadoop中负责运算的组件是
MapReduce
12、Zookeeper能够确保
仅有一个namenode是活动的,为客户端提供请求服务
13、在Hadoop HA中作为备节点的是
Standby Namenode
14、使用什么命令可以将HDFS目录中所有文件合并到一起
getmerge
15、Hadoop的设计原则有哪些?
可移植,数据本地化,自我检测和修复、低成本
16、在Hadoop中,ResourceManager的功能有哪些?
为发生资源冲突的节点仲裁资源
跟踪节点的活动和死亡状态
17、在Hadoop中,hdfs-site.xml文件中可以配置
复制因子
18、下面那个组件可以将外部数据导入到Hadoop系统
Sqoop
19、在HDFS中默认的数据块的大小是
128M
20、Apache Hadoop运行在哪个平台上
跨平台
21、下面陈述的内容哪些是NameNode节点的功能
管理文件系统的命名空间
调度客户端对文件的访问
22、请写出hadoop的命令: 列举集群的/wordcount/input目录下的内容,包含子目录的内容
hdfs dfs -mkdir /wordcount
hdfs dfs -ls /wordcount
hdfs dfs -mkdir /wordcount/input
hdfs dfs -ls /wordcount/input
hdfs dfs -ls -R /wordcount/input
(1)高可靠性:由于在集群中存在数据的复制,即使机器故障,数据也会可靠存储。如果你的机器挂掉了,你的数据仍旧在Hadoop集群中可靠存储。
(2)高可用:数据是高可用的,即使硬件出现故障,由于在集群中存在多份数据的拷贝,因此数据仍旧可以访问。如果机器或者硬件崩溃,数据也可以通过其他路径进行访问。
(3)高效性:相比传统的单台机器处理数据,效率是极高的。
(4)高容错性:Hadoop能自动保存数据的多个副本,每个数据块默认可以存储3份,而且你可以按照你的需求进行调整。当某个节点宕机时,它可以自动的将副本复制给其他机器,保证数据的完整性,并且可以将失败的任务重新分发。
(5)高扩展性:Hadoop具有很高的扩展性,因此,可以很容易向节点中添加新硬件。该特性也使Hadoop具有水平扩展的能力,也就是说可以在不停机的情况下动态地向集群中添加新的节点。
(6)低成本:Hadoop集群可以将程序运行在廉价的机器上并发的进行处理,成本低、效率高,是处理海量数据的最佳选择。
(7)开源:ApacheHadoop是一个开源项目,这就意味着你可以根据你的业务需求修改你的代码。
(8)分布式处理:由于数据以分布式的方式存储在集群的HDFS中,数据可以在集群节点间做到并行处理。
(9)易用:不需要客户端去处理分布式计算,框架会为你做所有事情,因此Hadoop是非常易用的。
(10)计算靠近数据:这是Hadoop独到之处,是Hadoop可以轻松处理大数据。Hadoop采取数据本地处理的原则,让计算靠近数据,而不是数据靠近计算。当一个客户端提交一个MapReduce算法,算法将在集群数据处执行,而不是将数据带到算法提交的位置然后进行处理。
Hadoop分布式文件系统,以分布式风格为Hadoop提供文件存储能力。
MapReduce是将海量数据进行并行处理的编程模型。
MapReduce特点:
• 拆分成无依赖的任务集
• 计算向数据迁移
• 可缩放
YARN-Yet Another Resource Negotiator(另一种资源协调者)是
Hadoop的资源管理层:
• 用于作业调度
• 主从结构
Master运行ResourceManager
Slave运行NodeManager(运行在DataNode上)
(1)Pig(基于hadoop的数据流系统):是一种数据流语言和运行环境,适合于使用HadooP和MapReduce平台来查询大型半结构化数据集。
(2)Mahout(数据挖掘算法库):是Apache软件基金会旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序
(3)Zookeeper(分布式协调服务):是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
(4)Flume(日志收集平台):是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。
(5)Sqoop(数据同步工具):是SQL-to-Hadoop的缩写,主要用来在Hadoop和关系数据库之间交换数据的互操作性。
(6)Hbase(分布式列存储数据库):它参考了谷歌的BigTable建模,实现了高性能、高可靠性、
面向列、可伸缩的分布式数据库,运行于HDFS之上。
(7)Hive(基于hadoop的数据仓库):Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。
(8)Kafka(分布式消息系统):Kafka使用Scala和Java进行编写。Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统。Kafka具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。
(9)Apache Spark(开源集群运算框架):Spark使用了内存运算技术,通过DAG优化技术,能在数据尚未写入硬盘时即在内存分析运算。
(10)Tez是Hortonworks开源的支持DAG作业的计算框架,它直接源于MapReduce框架 。
(11)Presto 是一个运行在集群之上的分布式SQL查询引擎。
保存具体的block数据,
负责数据的读写操作和复制操作,
向NameNode报告当前存储或者修改的数据信息,
DataNode之间进行相互通信,复制数据块。
管理文件系统命名空间和客户端对文件访问,
保存文件具体信息(文件信息、文件拆分block块信息以及block和DataNode的信息),接收用户请求。
定时与NameNode进行同步(合并fsimage和edits文件),当NameNode失效时,需要手工将其设置成主机。
//这里是一部分课堂以及课后基础练习题,仅供复习参考。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。