Spark-SQL之DataFrame操作

2023年6月2日上午4:53 • 人工智能 • 阅读 88

（2） filter ：根据字段进行筛选
传入筛选条件表达式，得到DataFrame类型的返回结果。和 where使用条件相同
示例：

jdbcDF <span class="hljs-preprocessor">.filter(<span class="hljs-string">"id = 1 or c1 = 'b'" )<span class="hljs-preprocessor">.show()</span></span></span>

结果，

2、查询指定字段

（1） select ：获取指定字段值
根据传入的 String类型字段名，获取指定字段的值，以DataFrame类型返回
示例：

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">select( <span class="hljs-string">"id" , <span class="hljs-string">"c3" ).<span class="hljs-keyword">show( <span class="hljs-keyword">false)</span></span></span></span></span></span>

结果：

还有一个重载的 select方法，不是传入 String类型参数，而是传入 Column类型参数。可以实现 select id, id+1 from test这种逻辑。

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">select(jdbcDF( <span class="hljs-string">"id" ), jdbcDF( <span class="hljs-string">"id") + <span class="hljs-number">1 ).<span class="hljs-keyword">show( <span class="hljs-keyword">false)</span></span></span></span></span></span></span>

结果：

能得到 Column类型的方法是 apply以及 col方法，一般用 apply方法更简便。

（2） selectExpr ：可以对指定字段进行特殊处理
可以直接对指定字段调用UDF函数，或者指定别名等。传入 String类型参数，得到DataFrame对象。
示例，查询 id字段， c3字段取别名 time， c4字段四舍五入：

jdbcDF <span class="hljs-preprocessor">.selectExpr(<span class="hljs-string">"id" , <span class="hljs-string">"c3 as time" , <span class="hljs-string">"round(c4)" )<span class="hljs-preprocessor">.show(false)</span></span></span></span></span>

结果，

（3） col ：获取指定字段
只能获取一个字段，返回对象为Column类型。
val idCol = jdbcDF.col(“id”)果略。

（4） apply ：获取指定字段
只能获取一个字段，返回对象为Column类型
示例：

<span class="hljs-keyword">val idCol1 = jdbcDF.apply(<span class="hljs-string">"id")
<span class="hljs-keyword">val idCol2 = jdbcDF(<span class="hljs-string">"id")</span></span></span></span>

结果略。

（5） drop ：去除指定字段，保留其他字段
返回一个新的DataFrame对象，其中不包含去除的字段，一次只能去除一个字段。
示例：

jdbcDF.<span class="hljs-keyword">drop(<span class="hljs-string">"id")
jdbcDF.<span class="hljs-keyword">drop(jdbcDF(<span class="hljs-string">"id"))</span></span></span></span>

结果：

3、limit

limit方法获取指定DataFrame的前n行记录，得到一个新的DataFrame对象。和 take与 head不同的是， limit方法不是Action操作。

jdbcDF.limit(3).<span class="hljs-operator"><span class="hljs-keyword">show( <span class="hljs-keyword">false)</span></span></span>

结果，

4、order by

（1） orderBy和 sort：按指定字段排序，默认为升序
示例1，按指定字段排序。加个 -表示降序排序。 sort和 orderBy使用方法相同

jdbcDF<span class="hljs-preprocessor">.orderBy(- jdbcDF(<span class="hljs-string">"c4"))<span class="hljs-preprocessor">.show(false)
// &#x6216;&#x8005;
jdbcDF<span class="hljs-preprocessor">.orderBy(jdbcDF(<span class="hljs-string">"c4")<span class="hljs-preprocessor">.desc)<span class="hljs-preprocessor">.show(false)</span></span></span></span></span></span></span>

结果，

示例2，按字段字符串升序排序

jdbcDF<span class="hljs-preprocessor">.orderBy(<span class="hljs-string">"c4")<span class="hljs-preprocessor">.show(false)</span></span></span>

结果，

（2） sortWithinPartitions
和上面的 sort方法功能类似，区别在于 sortWithinPartitions方法返回的是按Partition排好序的DataFrame对象。

5、group by

（1） groupBy：根据字段进行 group by操作
groupBy方法有两种调用方式，可以传入 String类型的字段名，也可传入 Column类型的对象。
使用方法如下，

jdbcDF <span class="hljs-preprocessor">.groupBy(<span class="hljs-string">"c1" )
jdbcDF<span class="hljs-preprocessor">.groupBy( jdbcDF( <span class="hljs-string">"c1"))</span></span></span></span>

（2） cube 和 rollup ：group by的扩展
功能类似于 SQL中的 group by cube/rollup，略。

（3）GroupedData对象
该方法得到的是 GroupedData类型对象，在 GroupedData的API中提供了 group by之后的操作，比如，

max(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的最大值，只能作用于数字型字段
min(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的最小值，只能作用于数字型字段
mean(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的平均值，只能作用于数字型字段
sum(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的和值，只能作用于数字型字段
count()方法，获取分组中的元素个数运行结果示例：
count
max
这里面比较复杂的是以下两个方法，
agg，该方法和下面介绍的类似，可以用于对指定字段进行聚合操作。

pivot

6、distinct

（1） distinct ：返回一个不包含重复记录的DataFrame
返回当前DataFrame中不重复的Row记录。该方法和接下来的 dropDuplicates()方法不传入指定字段时的结果相同。
示例：

jdbcDF.<span class="hljs-keyword">distinct()</span>

结果，

（2） dropDuplicates ：根据指定字段去重
根据指定字段去重。类似于 select distinct a, b操作
示例：

jdbcDF.dropDuplicates(Se<span class="hljs-string">q("c1"))</span>

结果：

7、聚合

聚合操作调用的是 agg方法，该方法有多种调用方式。一般与 groupBy方法配合使用。
以下示例其中最简单直观的一种用法，对 id字段求最大值，对 c4字段求和。

<span class="hljs-title">jdbcDF.agg(<span class="hljs-string">"id" -> <span class="hljs-string">"max", <span class="hljs-string">"c4" -> <span class="hljs-string">"sum")</span></span></span></span></span>

结果：

8、union

unionAll方法：对两个DataFrame进行组合
类似于 SQL中的 UNION ALL操作。
示例：

jdbcDF<span class="hljs-preprocessor">.unionALL(jdbcDF<span class="hljs-preprocessor">.limit(<span class="hljs-number">1))</span></span></span>

结果：

9、join

重点来了。在 SQL语言中用得很多的就是 join操作，DataFrame中同样也提供了 join的功能。
接下来隆重介绍 join方法。在DataFrame中提供了六个重载的 join方法。
（1）、笛卡尔积

joinDF1.<span class="hljs-keyword">join(joinDF2)</span>

（2）、 using 一个字段形式
下面这种join类似于 a join b using column1的形式，需要两个DataFrame中有相同的一个列名，

joinDF1.<span class="hljs-keyword">join(joinDF2, <span class="hljs-string">"id")</span></span>

joinDF1和 joinDF2根据字段 id进行 join操作，结果如下， using字段只显示一次。

（3）、 using 多个字段形式
除了上面这种 using一个字段的情况外，还可以 using多个字段，如下

joinDF1.<span class="hljs-keyword">join(joinDF2, Se<span class="hljs-string">q("id", "name")&#xFF09;</span></span>

（4）、指定 join 类型
两个DataFrame的 join操作有 inner, outer, left_outer, right_outer, leftsemi类型。在上面的 using多个字段的join情况下，可以写第三个 String类型参数，指定 join的类型，如下所示

joinDF1.<span class="hljs-keyword">join(joinDF2, Se<span class="hljs-string">q("id", "name"), <span class="hljs-string">"inner"&#xFF09;</span></span></span>

（5）、使用 Column 类型来 join
如果不用 using模式，灵活指定 join字段的话，可以使用如下形式

joinDF1.<span class="hljs-keyword">join(joinDF2 , joinDF1(<span class="hljs-string">"id" ) === joinDF2( <span class="hljs-string">"t1_id"))</span></span></span>

结果如下，

（6）、在指定 join 字段同时指定 join 类型
如下所示

joinDF1.<span class="hljs-keyword">join(joinDF2 , joinDF1(<span class="hljs-string">"id" ) === joinDF2( <span class="hljs-string">"t1_id"), <span class="hljs-string">"inner")</span></span></span></span>

10、获取指定字段统计信息

stat方法可以用于计算指定字段或指定字段之间的统计信息，比如方差，协方差等。这个方法返回一个 DataFramesStatFunctions类型对象。
下面代码演示根据 c4字段，统计该字段值出现频率在 30%以上的内容。在 jdbcDF中字段 c1的内容为 "a, b, a, c, d, b"。其中 a和 b出现的频率为 2 / 6，大于 0.3

jdbcDF.<span class="hljs-keyword">stat.freqItems(Se<span class="hljs-string">q ("c1") , <span class="hljs-number">0.<span class="hljs-number">3).show()</span></span></span></span>

结果如下：

11、获取两个DataFrame中共有的记录

intersect方法可以计算出两个DataFrame中相同的记录，

jdbcDF<span class="hljs-preprocessor">.intersect(jdbcDF<span class="hljs-preprocessor">.limit(<span class="hljs-number">1))<span class="hljs-preprocessor">.show(false)</span></span></span></span>

结果如下：

12、获取一个DataFrame中有另一个DataFrame中没有的记录

示例：

jdbcDF<span class="hljs-preprocessor">.except(jdbcDF<span class="hljs-preprocessor">.limit(<span class="hljs-number">1))<span class="hljs-preprocessor">.show(false)</span></span></span></span>

结果如下，

13、操作字段名

（1） withColumnRenamed ：重命名DataFrame中的指定字段名
如果指定的字段名不存在，不进行任何操作。下面示例中将 jdbcDF中的 id字段重命名为 idx。

jdbcDF<span class="hljs-preprocessor">.withColumnRenamed( <span class="hljs-string">"id" , <span class="hljs-string">"idx" )</span></span></span>

结果如下：

（2） withColumn ：往当前DataFrame中新增一列
whtiColumn(colName: String , col: Column)方法根据指定 colName往DataFrame中新增一列，如果 colName已存在，则会覆盖当前列。
以下代码往 jdbcDF中新增一个名为 id2的列，

jdbcDF<span class="hljs-preprocessor">.withColumn(<span class="hljs-string">"id2", jdbcDF(<span class="hljs-string">"id"))<span class="hljs-preprocessor">.show( false)</span></span></span></span>

结果如下，

14、行转列

有时候需要根据某个字段内容进行分割，然后生成多行，这时可以使用 explode方法
下面代码中，根据 c3字段中的空格将字段内容进行分割，分割的内容存储在新的字段 c3_中，如下所示

jdbcDF.explode( <span class="hljs-string">"c3" , <span class="hljs-string">"c3_" ){<span class="hljs-built_in">time: <span class="hljs-built_in">String => <span class="hljs-built_in">time.<span class="hljs-built_in">split( <span class="hljs-string">" " )}</span></span></span></span></span></span></span>

结果如下，

15、其他操作

API中还有 na, randomSplit, repartition, alias, as方法，待后续补充。

三、DataFrame对象上的结构类操作

四、DataFrame对象上的输出操作

五、DataFrame对象上的RDD操作

六、DataFrame对象上的未归类操作

Original: https://www.cnblogs.com/nucdy/p/6541564.html
Author: dy9776
Title: Spark-SQL之DataFrame操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559731/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

iOS 内购（In-App Purchase）详解

iOS 内购（In-App Purchase）详解概述 IAP 全称：In-App Purchase，是指苹果 App Store 的应用内购买，是苹果为 App 内购买虚拟商品…

人工智能 2023年5月30日
00133
Sklearn XGBoost模型算法分类建模—–风控项目实战（PR曲线、KS、AUC、F1-Score各类指标）

项目背景:二手手机需从前端质检项推断手机有无拆修问题思路：a)X值:前端各类质检项，对应映射ID+RANK值(涉及质检项会有等级排序，需进行RANK排序（属性值RANK一般需手工或…

人工智能 2023年7月1日
00109
PyTorch学习笔记(2)——randn_like()、layout、memory_format

1.randn_like() torch.randn_like(input, *, dtype=None, layout=None, device=None, requires_g…

人工智能 2023年7月24日
0074
程序分析与优化-2 控制流图

本章是系列文章的第二章，介绍了基于控制流图的一些优化方法。包括DAG、值标记、相同子表达式等方法。这章的后面介绍了llvm的一些基本概念，并引导大家写了个简单的pass。本文中的…

人工智能 2023年6月4日
00112
【超分辨】SRGAN详解及其pytorch代码解释

SRGAN详解介绍网络结构损失函数数据处理网络训练介绍「2023年更新」本代码是学习参考代码，一般不能直接运行，想找现成能运行的建议看看其他的。SRGAN是一个超分辨…

人工智能 2023年7月21日
0059
【NLP基础理论】03 文本分类

注： Unimelb Comp90042 NLP笔记相关tutorial代码链接 Text Classification（文本分类）目录 Text Classification…

人工智能 2023年5月31日
00105
协同过滤算法如何权衡个性化和广泛性的需求

问题背景协同过滤算法是一种常用的推荐系统算法，它通过分析用户历史行为以及用户之间的相似性，来预测用户可能感兴趣的物品。然而，在实际应用中，我们往往需要权衡个性化和广泛性需求之间的…

人工智能 2024年1月2日
0043
『从零开始学小程序』媒体组件video组件

👨‍🎓作者简介：一位喜欢写作，计科专业大三菜鸟🏡个人主页：starry陆离🕒首发日期：2022年9月15日星期四如果文章有帮到你的话记得点赞👍+收藏💗支持一下哦『从零开始学小程序…

人工智能 2023年5月30日
00124
关于cvxpy库使用过程中的一个warning

warning内容 UserWarning:This use of * has resulted in matrix multiplication. Using * for mat…

人工智能 2023年6月27日
0097
Pandas数据分析100例

Pandas数据分析100例 1.列表转Series import pandas as pd if __name__ == ‘__main__’: courses = [‘语文’,…

人工智能 2023年6月11日
00151
利用Anaconda安装pytorch深度学习环境

因为本人笔记本没有英伟达的显卡，因此不需要关注NVIDIA驱动安装与更新等问题。 Anaconda安装打开网址，现在是2022年6月，对应的anaconda版本是支持python…

人工智能 2023年7月22日
0073
用python+opencv实现目标检测

前言 opencv是什么可能很多人都不清楚，那么这个时候咱们就可以打开百度输入opencv是什么。这不就有了吗，然后点击进去。这不就完美的解决了opencv是干啥的了吗，不过估计…

人工智能 2023年6月19日
0087
Docker超详细基础教程，快速入门docker首选(万字长文建议收藏)

一、docker概述 1.什么是docker Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应…

人工智能 2023年6月16日
0096
10种软件滤波算法及其代码实现（C语言）

本文介绍了10种常用的软件滤波方法，包含具体的滤波实现过程及优缺点，并附上了相应的代码示例（C语言）。所述滤波方法各有优劣，需根据实际应用需求进行选择。注：本文假定从8位AD中读…

人工智能 2023年7月14日
00110
【opencv-python】大津法（Otsu）阈值分割原理深入分析

大津法（Otsu）是图像处理领域里面较为重要的阈值分割方法，适用于处理双峰图像。但大多数开发人员并不熟悉其原理，因此有必要对其进行详细说明与分析。 opnecv的实例代码链接为：o…

人工智能 2023年7月18日
0091
文本数据挖掘—-数据预处理

一、数据预处理简介 1、为什么要进行数据预处理一开始拿到的数据在数据的质量方面或多或少有一些问题，即在数据的准确性、完整性、一致性、合时性（实时性）、可信性、解释性等方面可能存…

人工智能 2023年7月17日
00120

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Spark-SQL之DataFrame操作

2、查询指定字段

3、limit

4、order by

5、group by

6、distinct

7、聚合

8、union

9、join

10、获取指定字段统计信息

11、获取两个DataFrame中共有的记录

12、获取一个DataFrame中有另一个DataFrame中没有的记录

13、操作字段名

14、行转列

15、其他操作

大家都在看