Spark学习(2) RDD编程

2023年6月16日上午7:01 • 数据库 • 阅读 112

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、弹性、里面的元素可并行计算的集合
RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度
RDD支持两种操作:转化操作和行动操作
Spark采用惰性计算模式，RDD只有第一次在一个行动操作中用到时，才会真正计算
属性:
    一组分区（Partition）
    一个计算每个分区的函数
    RDD之间的依赖关系
    一个Partitioner
    一个列表 移动数据不如移动计算

每个节点可以起一个或多个Executor。
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task。
每个Task执行的结果就是生成了下一个RDD的一个partiton。

特点:

分区:RDD逻辑上是分区的，每个分区的数据是抽象存在的

只读:RDD是只读的，要想改变RDD中的数据，只能在现有的RDD基础上创建新的RDD

依赖:RDDs通过操作算子进行转换，转换得到的新RDD包含了从其他RDDs衍生所必需的信息，RDDs之间维护着这种血缘关系，也称之为依赖

缓存:如果在应用程序中多次使用同一个RDD，可以将该RDD缓存起来，这样就加速后期的重用

checkPoint:RDD支持checkpoint将数据保存到持久化的存储中，这样就可以切断之前的血缘关系

Original: https://www.cnblogs.com/cheng9999/p/11891830.html
Author: cheng_blog
Title: Spark学习(2) RDD编程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/621502/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ｍysql中group by,having,order by,limit,distinct的用法和简单的的多表查询

group:组 by:通过 group by :通过….。分组group by列名:通过指定列来分组一般情况下在题目中出现 “每个” &#82…

数据库 2023年6月16日
00116
小心陷入MySQL索引的坑

索引可以说是数据库中的一个大心脏了，如果说一个数据库少了索引，那么数据库本身存在的意义就不大了，和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要，今天来说说MySQL…

数据库 2023年6月6日
0093
Linux 系统安装RocketMQ

准备工作 1.去官网下载一个安装包 1.解压 unzip rocketmq-all-4.9.0-bin-release.zip -d /download/compress/ 2.进…

数据库 2023年6月6日
0087
mysql入门到精通学习教程，浅谈MySQL是什么？

Original: https://www.cnblogs.com/chaichaichai/p/15304638.htmlAuthor: 牛仔码农Title: mysql入门到精…

数据库 2023年5月24日
0073
数据结构入门之单链表代码实现(java)

1:单链表是: 单链表是一种链式存取的数据结构用一组地址任意的存储单元存放线性表中的数据元素。链表中的数据是以结点来表示的，每个结点的构成：元素 ( 数据元素的映象) …

数据库 2023年6月6日
00108
MySQL45讲之用户关注案例

本文介绍 MySQL45 讲中提到的一个用户关注的案例，并记录下可行的处理方案。业务背景业务上有这样的需求，A、B两个用户，如果互相关注，则成为好友。存在两个表，关系（rela…

数据库 2023年5月24日
00138
18-网络七层架构

七层架构主要包括 ①、物理层主要定义物理设备标准，如网线的接口类型、光纤的接口类型、各种传输介质的传输速率等。它的主要作用是传输比特流（就是由 1、0 转化为电流强弱来进行传输…

数据库 2023年6月16日
0078
数据结构入门之用链表模拟栈

1:栈的介绍: LIFO(last in first out)表示就是后进入的元素, 第一个弹出栈空间.往往先把拿出去使用. 其限制是仅允许在表的一端进行插入和删除运算。这一端被称…

数据库 2023年6月6日
0078
MySQL基础入门学习教程，带你快速掌握mysql

Original: https://www.cnblogs.com/chaichaichai/p/15243386.htmlAuthor: 牛仔码农Title: MySQL基础入门…

数据库 2023年5月24日
00113
MRCTF2020 pyFlag

可以看到在zip文件头和jpg文件尾中有提示这是秘密文件的part1，那么思路就打开了，将其他图片的秘密文件部分拼成一个文件即可。全部合起来组成一个zip文件，不是伪加密，先爆破…

数据库 2023年6月11日
0087
Liunx添加LVM逻辑卷（已有卷组中添加逻辑卷）

一、对新添加的磁盘进行分区 1、# lsblk //查看物理磁盘 2、[root@Centos7 ~]# fdisk /dev/sdc //磁盘分区（ sdc为对应新添加的磁盘）欢…

数据库 2023年6月11日
0085
调用微信退款接口时出现System.Security.Cryptography.CryptographicException: 出现了内部错误解决办法

我总结了一下出现证书无法加载的原因有以下三个 1.证书密码不正确，微信证书密码就是商户号解决办法：请检查证书密码是不是和商户号一致 2.IIS设置错误，未加载用户配置文件解决办…

数据库 2023年6月9日
00113
MySQL之事务和redo日志

事务事务的四个ACID特性。 Atomicity 原子性 Consistency 一致性 Isolation 隔离性 Durability 持久性原子性原子性意味着事务的所有…

数据库 2023年5月24日
00100
Golang实现set

Golang语言本身未实现set，但是实现了map golang的map是一种无序的键值对的集合，其中键是唯一的而set是键的不重复的集合，因此可以用map来实现set 由于ma…

数据库 2023年6月14日
0067
高可用 | 关于 Xenon 高可用的一些思考

原创：知数堂 Xenon 不会补日志，Xenon 只会从包含最大 GTID 的所有 Follower 中选举一个 Follower，使之成为 Leader 。重新配置主从复制，并把…

数据库 2023年5月24日
0079
Rabbitmq从安装到简单入门

1：Rabbitmq是什么？ RabbitMQ是实现了高级消息队列协议（AMQP）的开源消息代理软件（亦称面向消息的中间件)。它由以高性能、健壮以及可伸缩性出名的 Erlang …

数据库 2023年6月6日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Spark学习(2) RDD编程

大家都在看