搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
CSS 伪元素 content的特殊用法_css 伪类 content
2
面经 阿里云算法工程师实习生(已拿offer)_阿里云人工智能算法工程师怎么样
3
Vue实现的人事管理系统,高质量毕业论文范例,附送源码、数据库脚本,项目导入与运行教程,论文撰写教程_人事管理系统vue
4
python写学生信息管理系统,python学生管理系统报告
5
数据结构:链表详解 (c++实现)
6
【ATT&CK】守株待兔式的水坑攻击_常见水坑攻击识别
7
使用 ElementPlus 组件时,遇到的一些问题及解决方案_elementplustype "password" is not assignable to ty
8
VHDL和Verilog中数组定义、初始化、赋值方法_verilog数组表示及初始化
9
题库数据库设计
10
Hexo+GitHub+Netlify:打造高效个性化博客的完整指南_netlify部署hexo博客
当前位置:
article
> 正文
SpaK-RDD学习总结_rdd数据操作与储存实训小结
作者:我家小花儿 | 2024-07-24 22:29:08
赞
踩
rdd数据操作与储存实训小结
RDD-弹性分布式数据集(只读的数据分区)
RDD的七个优点
自动进行内存和磁盘数据存储的切换
基于Lineage(又称为RDD运算图或RDD依赖关系图,其实就是DAG
)的高效容错
Task如果失败会自动进行特定次数的重试
Stage如果失败会自动进行特定次数重试
checkpoint(摄入检查点,有容错的作用),persist(持久化)
数据分片的高度弹性(重新设置分片数:程序运行时会产生大量的分片,而每个partition会消耗一个线程去处理,分片过多的时候会很消耗时间,RDD可以支持重新分片;注:千万别用repartition,这个算子会产生shuffle(shuffle是分布式系统最耗时的操作),用coalesce)
RDD的高效性:RDD是Lazy级别的,没到Action操作的时候是Lazy操作的(不计算,做标记,等到Action操作的时候才从前往后回溯查找迭代的父RDD,然后再展开来计算),例如如下:
x=1+2
y=3+5
z=x+y
假设z=x+y才是Action操作时,前面的两步都不计算,到第三步直接将算式展开为:z=1+2+3+5,然后再计算(与Hadoop相比,这样可以节省大量的中间结果)。
注意:RDD是粗粒度的,即每次操作都是操作所有的数据集合(为了效率),RDD的写操作是粗粒度的、RDD的读操作可以粗粒度的也可以是细粒度的。
RDD内幕:看过源码的同学都知道,所有的RDD操作都是返回一个迭代器,根本就不是返回数据本身
。
RDD缺点:不支持增量迭代更新,不支持细粒度更新。
RDD的创建方式:
基于spark应用程序创建(在程序里面创建)
基于本地文件系统创建
基于hdfs创建
基于DB、TCP创建
基于NoSQL(非关系型数据库-HBASE、Cassandra)创建
基于S3
基于数据流(socket数据流)
本文内容由网友自发贡献,转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/877020
推荐阅读
article
LuatOS
-
SOC
接口文档(
air780E
)
--
pwm
-
PWM
模块_
air780e
pwm
...
分频精度, 100/256/1000, 默认为100, 若设备不支持会有日志提示。输出周期 0为持续输出, 1为单次输出...
赞
踩
article
生成
对抗
网络
(
GAN
)简介以及Python实现_对抗
生成
网络
产生
样本
的方法
python
...
本篇博客简单介绍了
生成
对抗
网络
(Generative Adversarial Networks,
GAN
),并基于Kera...
赞
踩
article
《
数据结构
1800
题
》基础回合总结
—
—
第
2章
线性表
...
和删除
第
一个结点不必另作判断。另外,不论链表是否为空,链表指针不变。这个要能够表达清楚。如果不设置头结点,边界情况需要特...
赞
踩
article
MySQL
5.7
在Win
d
ows环境下
安装
出现初始化
数据库
(lnitializing
d
atabas...
但是有些朋友可能就要讲了,这样配置一是并非完全通过官方
安装
程序进行配置,有些人有强迫症,而且如果下次再次通过官方程序
安装
...
赞
踩
article
Bert
CNN
信息
抽取_
bert
提取中标公告
信息
...
百度2019语言与智能技术竞赛
信息
抽取竞赛任务3 -
信息
抽取■任务描述给定schema约束集合及句子sent,其中sc...
赞
踩
article
rv
1126
+
imx307
/335/415公板使用总结
_
1126
ec20
...
rv
1126
公板使用总结
_
1126
ec20
1126
ec20
1.d.第一次编译 - ...
赞
踩
article
Mac
pro
m1 安装
brew
_mac
pro
brew
microsoft
note
...
Mac
pro
m1 安装
brew
_mac
pro
brew
microsoft
note
mac
pro
brew
mi...
赞
踩
article
3.5
查找
和
排序
算法...
大纲算法基础常用的表示算法的方法算法的复杂度
查找
顺序
查找
、二分
查找
哈希
查找
真题
排序
插入
排序
希尔
排序
简单选择
排序
堆
排序
冒泡...
赞
踩
article
percona
-
5.7
二进制
多实例
安装
...
percona
-mysql-
5.7
二进制
多实例
安装
规划:端口号 配置文件 备注3306 /data/mysql/my...
赞
踩
article
解锁
区块
链
游戏
数据
解决方案
_
游戏
里面
如何
取获取
区块
链
上
的
结果...
文章探讨了
区块
链
技术
如何
推动
游戏
行业
的
革新,尤其是
区块
链
游戏
的
兴起。FootprintAnalytics作为创新
解决方案
...
赞
踩
article
计算其
标准
体重
c
语言
,C
语言
第三天...
3.逆序的三位数:程序每次读入一个正三位数,然后输出逆序的数字。注意,当输入的数字含有结尾的0时,输出不应带有前导的0。...
赞
踩
article
在
ASP
.
NET
Core
Web
API
中实现
审计
跟踪...
审计
跟踪对于跟踪数据变化、维护安全性规至关重要。在本文中,我们将在
ASP
.
NET
Core
Web
API
中实现
审计
...
赞
踩
article
数据结构
之跳表
SkipList
、Concurrent
SkipList
Map...
概述
SkipList
,跳表,跳跃表,在LevelDB和Lucene中都广为使用。跳表被广泛地运用到各种缓存实现当中,跳跃...
赞
踩
article
AI
赚钱
案例
:外国小伙
在
电商
平台
上卖
AI
制作的极简
地图
月入
4.6
万元...
用
AI
赚钱路子是
在
太多了,本文
AI
base要给大家分享的一个
案例
是:一个国外小伙
在
美国电商
平台
上售卖用
AI
工具绘制的极简...
赞
踩
article
Win10
+
Anaconda
+Pytorch_CPU+
VsCode
安装配置_
anaconda
pyt...
anaconda
+
pytorch
CPU版本的配置,以及在
VsCode
中编码_
anaconda
pytorch
vscod...
赞
踩
article
【
ONLYOFFICE
震撼
8.1
】
ONLYOFFICE
8.1
版本
桌面
编辑器
测评_
onlyoffice
...
在
ONLYOFFICE
8.1
中,用户可以通过多种方式进行自定义,以适应个人需求和工作习惯。_
onlyoffice
字符间...
赞
踩
article
人工智能
在
电子商务
中
的
十大最佳用例_电商
平台
利用
ai
的
案例...
通过了解客户
的
个人偏好、浏览历史和购买行为,
电子商务
中
的
人工智能
可以推荐相关产品,从而提高客户满意度和转化率。
在
当今竞争...
赞
踩
article
人工智能
基础导论(一篇文章让你搞懂什么是
人工智能
、
机器
学习
、
深度
学习
和
强化
学习
)_
人工智能
,
机器
学习
...
本文详细介绍了
人工智能
的不同子领域,包括
机器
学习
(监督
学习
、
无监督
学习
、
强化
学习
)
、
深度
学习
(神经网络
、
卷积神经网络
、
循...
赞
踩
article
毕业设计
-
基于
领域
BERT
模型的
服务
文本分类系统_
wbbi
...
毕业设计
-
基于
领域
BERT
模型的
服务
文本分类系统:随着SOA架构的不断发展,网络平台中的服 务数量出现爆炸式增长,
服务
管...
赞
踩
article
Matlab
:
使用
特定
Delaunay
三角剖分的
插值
_
delaunay
triangulatio...
Matlab
:
使用
特定
Delaunay
三角剖分的
插值
_
delaunay
triangulation
matlab
代码...
赞
踩
相关标签
air780E
数据结构
考研
数据库
mysql
oracle
信息抽取
NLP
Bert
arm
ux
python
软件工程
运维
c/c++
区块链
游戏
计算其标准体重c语言
CRUD操作
数据记录
错误处理
中间件
SQL服务器
WebApi