搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
mindspore打卡机器学习正则化与优化器
2
NFT Insider #98:The Sandbox与Forkast Labs 达成合作,苹果的混合现实头显将增强游戏和元宇宙
3
同样是做测试,为什么别人年薪30W+?
4
AB实验人群定向HTE模型1 - Causal Tree_实验平台 定向人群实验
5
最新盘点!2024年20大好用的项目管理软件(后续持续更新)_简道云
6
辅警考试怎么搜题答案?八个受欢迎的搜题分享了 #学习方法#学习方法#媒体_千鸟搜题
7
数据结构与算法笔记:实战篇 - 剖析微服务接口鉴权限流背后的数据结构和算法
8
领域驱动设计DDD在B端营销系统的实践
9
MATLAB-读取csv表格(含ADC采样数据),测量SNR、SFDR、THD、SINAD、ENOB、ENOB、Fund、Nextsupr等参数,并对信号进行自动滤波_matlib计算adcsnr
10
Android Kotlin-----RecyclerView的使用_android kotlin recyclerview
当前位置:
article
> 正文
大数据采集与处理期末复习题_大数据期末考试试题
作者:我家小花儿 | 2024-07-06 06:34:23
赞
踩
大数据期末考试试题
填空:
数据产生方式经历的阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段
大数据的四个特点:数据量大、数据类型繁多、处理速度快和价值密度低。
大数据的四种范式:实验、理论、计算、数据密集型
大数据计算模式:批处理计算、流计算、图计算、查询分析计算
Hadoop的特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言
Hadoop的核心:HDFS和MapReduce
分布式文件系统的节点:一类叫主节点(名称节点)或从节点(数据节点)
Hbase:采用行键、列族、列限定符和时间戳进行索引
Hbase:三个主要的功能组件:库函数,链接到每个客户端;一个Master主服务器;许多个Region服务器
Hbase:三层结构 Zookeeper文件 -ROOT-表 .META.表
Hbase系统架构:客户端、Zookeeper服务器、Master主服务器、Region服务器,一般采用HDFS作为底层数据存储
NoSQL数据库三个特点:灵活的可扩展性、灵活的数据模型、与云计算紧密融合
关系数据库无法满足Web2.0的需求的三个方面:无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可扩展性和高可用性的需求。
NoSQL的四大类型:键值数据库、列族数据库、文档数据库、图数据库
NoSQL三大基石:CAP、BASE和最终一致性
CAP指的是:C 一致性 A 可用性 P 分区容忍性 三选二
数据库事务具有ACID四性:A 原子性、C 一致性、I 隔离性、D 持久性
BASE基本含义:基本可用、软状态、最终一致性
云数据库具有以下特性:动态可扩展、高可用性、较低的使用代价、易用性、高性能、免维护、安全
YARN体系机构中包含了三个组件:ResourceManager、 ApplicationMaster、 NodeManager
Spark四个特点:运行速度快、容易使用、通用性、运行模式多样
Spark具有以下优点:Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多数据集操作类型,编程模型比 MapReduce
Sperk提供了内存计算,中间结果之间放在内存中,带来了更高的迭代执行机制
Sperk基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制
数据的两种类型:静态数据和流数据
计算模式:批量计算和实时计算
Storm主要术语:Streams、Spouts、Bolts、Topology、Stream Groupings
Spark Streaming和Storm最大的区别在于,Spark 无法实现毫秒级的流计算,而Storm则可以实现毫秒级响应。
Pregel图计算模型:有向图和顶点、顶点之间的消息传递、Pregel的计算过程
推荐方法:专家推荐、基于统计的推荐、基于内容的推荐、协同过滤推荐、混合推荐
名词解释:
分布式文件系统的概念:是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
HDFS:是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。
名称节点:负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,即FsImage和EditLog
数据节点:是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。
第二名称节点:是HDFS架构的一个重要组成部分,具有两个方面的功能:首先,可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点重启时间;其次,可以作为名称节点的“检查点”。
Zookeeper服务器:Zookeeper服务器并非一台单一的机器,可能是由多台机器构成的集群来提供稳定可靠的协同服务。Zookeeper不仅能够帮助维护当前集群中机器的服务状态,而且能够帮助选出一个“总管”。让这个总管来管理集群。
云数据库的概念:云数据库是部署和虚拟化在云计算环境中的数据库,云数据库是在云计算的大背景下发展起来的一种新兴的共享基础结构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易,同时也虚拟化了许多后端功能。
RDD概念:是弹性分布式数据集的英文缩写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
窄依赖:父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖
宽依赖:父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖
什么是数据可视化:数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
协同过滤推荐:是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度,最后根据这一喜好程度对目标用户进行推荐。
简答题:
数据存取策略原理:数据存取策略包括数据存放、数据读取和数据复制等方面,它在很大程度上会影响到整个分布式文件系统的读写性能,是分布式文件系统的核心内容。
Region服务器的工作原理:Region服务器内部管理一系列Region对象和一个Hlog文件,其中,Hlog是磁盘上面的记录文件,它记录着所有的更新操作,每个Region对象又是由多个Store组成的,每个Store对应了表中的一个列族的存储。每个Store又包含了MemStore和若干个StoreFile,其中,MemStore是在内存中的缓存。
Map函数的输入来自于分布式文件系统的文件块,这些文件块的格式是任意的,可以是文档,也可以是二进制格式的。文件块是一系列元素的集合,这些元素也是任意类型的,同一个元素不能跨文件存储。Map函数将输入的元素转换成<key,value>形式的键值对,键和值的类型也是任意的,其中键不同于一般的标志属性,即键没有唯一性,不能作为输出的身份标识,即使是同一输入元素,也可通过一个Map任务生成具有相同键的多个<key,value>
Reduce函数的任务就是将输入的一系列具有相同键的键值对以某种方式组合起来,输出处理后的键值对,输出结果会合并成一个文件。用户可以指定Reduce任务的个数,并通知实现系统,然后主控进程通常会选择一个Hash函数,map任务输出的每个键都会经过Hash函数计算,并根据哈希结果将该键值对输入相应的Reduce任务来处理。对于处理键为k的Reduce任务的输入形式为<k,<v1,v2,…vn>>,输出为<k,v>.
Map端的Shuffle过程:Map端的输出结果首先会被与入到缓存中(比磁盘效率高),
当缓存满时(80%写入后),就会启动流与掷作;溢写操作会清空内容,把内容写入到磁盘空间。每次溢写操作会写一个磁盘文件(key,value),当Map程序运行完成后,会把这个Map程序产生的溢写文件归并成一个大的文件(key,value1,value2,…),然后通知Reduce端来取数据
HDFS HA新特性:在一个典型的HA集群中,一般设置两个名称节点,其中一个名称节点处于“活跃”状态,另一个处于“待命”状态。处于活跃状态的名称节点负责对外处理所有客户端的请求,而处于待命状态的名称节点则作为备用节点,保存了足够多的系统元数据,当名称节点出现故障时提供快速回复能力也就是说,在HDFS HA中,处于待命状态的名称节点提供了“热备份”,一旦活跃名称节点出现故障,就可以立即切换到待命名称节点,不会影响到系统的正常对外服务。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/792105
推荐阅读
article
mysql
联合
主键
和复合
主键
的
区别...
https://blog.csdn.net/change_any_time/article/details/796233...
赞
踩
article
Git本地及
远程
分支
回退
_
git
回退
force
...
1.
git
本地版本
回退
Git reset --hard commit_id(可用
git
log –oneline 查...
赞
踩
article
AIGC
从入门到实战:自然
语言
处理和
大
语言
模型
简介_什么是
aigc
什么是
大
预言
模型
...
AIGC
从入门到实战:自然
语言
处理和
大
语言
模型
简介作者:禅与计算机程序设计艺术1.背景介绍1.1 人工智能的发展历程1....
赞
踩
article
python
通信
模块
_
python
多进程
通信
模块
...
多进程
通信
方法好多,不一而数。刚才试
python
封装好嘅多进程
通信
模块
multiprocessing.connecti...
赞
踩
article
已解决:1130-
host
...
is
not
allowed
to
connect
to
thi...
mysql_错误号码1130
host
'desk
to
p-
air5p2c
'
is
not
allowed
to
conn...
赞
踩
article
CentOS
&
pytorch
_
centos
6
上无法使用
pytorch
...
CentOS
上配置
pytorch
问题汇总:1.import torch时报错:“ImportError: /lib
6
4/...
赞
踩
article
字节
后
端
开发一二三
面
+
hr
面
_
字节
后
端
投
什么
...
本文详细记录了一位求职者在
字节
跳动的
后
端
面
试经历,涵盖了一
面
、二
面
、三
面
及HR
面
的主要问题,包括智力题、编程题、八股文、...
赞
踩
article
微信小程序 改变
radio
的
默认
大
小
_
radio
默认
占
的
空间
大
...
/* 单选钮样式 */
radio
{ transform:scale(0.5);}
_
radio
默认
占
的
空间
大
radio
...
赞
踩
article
Vue
TypeScript
实战:掌握
静态
类型
编程_
ts
编写
静态
页面...
这篇文章介绍了如何在
TypeScript
环境下为
Vue
.js应用搭建项目结构,包括初始化配置、创建
Vue
组件、实现状态管...
赞
踩
article
使用
Python
国产API框架
开发
REST
接口
_
restapi
接口
教程...
1、学会了编写不同请求方法的
接口
2、学会了操作数据库,对用户做增删改查3、学会了
开发
REST
风格的
接口
,比如用户的增删改...
赞
踩
article
Oracle
数据库
- 5
集合
_
oracle
数据库
有
集合
吗...
1:PL/SQL表PL/SQL表类似于单列
数据库
表。PL/SQL表的数据行按照预定义顺序存储的,但是当使用变量来检索数据...
赞
踩
article
超简单的
Unity
VR新手
教程
|
五分钟
上手
_
unityvr
设备
使用
教程
...
2.4.6.8.
_
unityvr
设备
使用
教程
unityvr
设备
使用
教程
1.导入Goog...
赞
踩
article
【
Docker
】ES、
Kibana
及
IK
安装
配置_
es
安装
ik
...
ES、
Kibana
及
IK
安装
配置_
es
安装
ik
es
安装
ik
目录 一.单...
赞
踩
article
Oracle
集
合
运算
_
oracle
对
查询
的结果
集
操作...
集
合
运算
_
oracle
对
查询
的结果
集
操作
oracle
对
查询
的结果
集
操作 ...
赞
踩
article
去
中心化
技术
对云
计算
的潜在影响与
应用
...
在数字化时代,云
计算
作为一种基础设施服务模式,已经深刻改变了企业和个人的
计算
方式和数据存储方式。然而,传统云
计算
模式也面...
赞
踩
article
软件
定义
无线电
:
Matlab
实现
和源代码_
matlab
sdr...
软件
定义
无线电
是一种强大的无线通信技术,它通过将
无线电
功能从硬件中解耦,使用
软件
来
实现
这些功能。本文介绍了如何使用Mat...
赞
踩
article
ES
kibana
常用语法
---
增删改查
_
es
空
字符串
值
查询
,
2024年最新三面头条+四面阿里+五...
n",],},
_
kibana
查询
kibana
查询
{...
赞
踩
article
springMVC
获取
请求
参数
的方式_
mvc
获取
参数
...
若设置为true时,则当前
请求
必须传输value所指定的
请求
参数
,若没有传输该
请求
参数
,且没有设置defaultValu...
赞
踩
article
uniApp
微信小
程序
获取当前用户
手机号
码(前端)_
uniapp
微信小
程序
解密
手机号
...
按钮触发获取用户信息uni-app中与微信小
程序
官网所写会不同
[详细]
-->
赞
踩
article
【机器
学习
】
大
模型
环境下
的
应用:
计算机
视觉
的
探索与实践_
大
模型
在
计算机
视觉
...
通过在一个
大
型数据集上训练好
的
模型
,可以将其用于小规模数据集
的
任务,从而减少训练时间和资源消耗,同时提升
模型
的
泛化能力。...
赞
踩
相关标签
git
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
python 通信模块
mysql
pytorch
centos 6
面试
java
职场和发展
优化