Spark-SQL之DataFrame操作大全

2023年6月2日上午5:32 • 人工智能 • 阅读 76

基本操作

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。

本文中的代码基于Spark-1.6.2的文档实现。

一、DataFrame对象的生成

Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDBC连接到其他关系型数据库作为数据源来生成DataFrame对象。本文将以MySQL数据库为数据源，生成DataFrame对象后进行相关的DataFame之上的操作。
文中生成DataFrame的代码如下：

object DataFrameOperations {
  def main (args: Array[String ]) {
    val sparkConf = new SparkConf().setAppName( <span class="hljs-string">"Spark SQL DataFrame Operations").setMaster( <span class="hljs-string">"local[2]" )
    val sparkContext = new SparkContext(sparkConf)

    val sqlContext = new SQLContext(sparkContext)
    val url = <span class="hljs-string">"jdbc:mysql://m000:3306/test"

    val jdbcDF = sqlContext.read.format( <span class="hljs-string">"jdbc" ).options(
      Map( <span class="hljs-string">"url" -> url,
        <span class="hljs-string">"user" -> <span class="hljs-string">"root",
        <span class="hljs-string">"password" -> <span class="hljs-string">"root",
        <span class="hljs-string">"dbtable" -> <span class="hljs-string">"spark_sql_test" )).load()

    val joinDF1 = sqlContext.read.format( <span class="hljs-string">"jdbc" ).options(
      Map(<span class="hljs-string">"url" -> url ,
        <span class="hljs-string">"user" -> <span class="hljs-string">"root",
        <span class="hljs-string">"password" -> <span class="hljs-string">"root",
        <span class="hljs-string">"dbtable" -> <span class="hljs-string">"spark_sql_join1" )).load()

    val joinDF2 = sqlContext.read.format( <span class="hljs-string">"jdbc" ).options(
      Map ( <span class="hljs-string">"url" -> url ,
        <span class="hljs-string">"user" -> <span class="hljs-string">"root",
        <span class="hljs-string">"password" -> <span class="hljs-string">"root",
        <span class="hljs-string">"dbtable" -> <span class="hljs-string">"spark_sql_join2" )).load()

    <span class="hljs-keyword">... <span class="hljs-keyword">...

  }
}</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span>

后续代码都在上面 ... ...处。

二、DataFrame对象上Action操作

1、 `show` ：展示数据

以表格的形式在输出中展示 jdbcDF中的数据，类似于 select * from spark_sql_test的功能。
show方法有四种调用方式，分别为，
（1） show
只显示前20条记录。
示例：

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">show</span></span>

结果：

（2） show(numRows: Int)
显示 numRows条
示例：

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">show(<span class="hljs-number">3)</span></span></span>

结果：

（3） show(truncate: Boolean)
是否最多只显示20个字符，默认为 true。
示例：

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">show(<span class="hljs-keyword">true)
jdbcDF.<span class="hljs-keyword">show(<span class="hljs-keyword">false)</span></span></span></span></span>

结果：

（4） show(numRows: Int, truncate: Boolean)
综合前面的显示记录条数，以及对过长字符串的显示格式。
示例：

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">show(<span class="hljs-number">3, <span class="hljs-keyword">false)</span></span></span></span>

结果：

2、 `collect` ：获取所有数据到数组

不同于前面的 show方法，这里的 collect方法会将 jdbcDF中的所有数据都获取到，并返回一个 Array对象。

jdbcDF<span class="hljs-preprocessor">.collect()</span>

结果如下，结果数组包含了 jdbcDF的每一条记录，每一条记录由一个 GenericRowWithSchema对象来表示，可以存储字段名及字段值。

3、 `collectAsList` ：获取所有数据到List

功能和 collect类似，只不过将返回结构变成了 List对象，使用方法如下

jdbcDF<span class="hljs-preprocessor">.collectAsList()</span>

结果如下，

4、 `describe(cols: String*)` ：获取指定字段的统计信息

这个方法可以动态的传入一个或多个 String类型的字段名，结果仍然为 DataFrame对象，用于统计数值类型字段的统计值，比如 count, mean, stddev, min, max等。
使用方法如下，其中 c1字段为字符类型， c2字段为整型， c4字段为浮点型

jdbcDF <span class="hljs-preprocessor">.describe(<span class="hljs-string">"c1" , <span class="hljs-string">"c2", <span class="hljs-string">"c4" )<span class="hljs-preprocessor">.show()</span></span></span></span></span>

结果如下，

5、 `first, head, take, takeAsList` ：获取若干行记录

这里列出的四个方法比较类似，其中
（1） first获取第一行记录
（2） head获取第一行记录， head(n: Int)获取前n行记录
（3） take(n: Int)获取前n行数据
（4） takeAsList(n: Int)获取前n行数据，并以 List的形式展现
以 Row或者 Array[Row]的形式返回一行或多行数据。 first和 head功能相同。
take和 takeAsList方法会将获得到的数据返回到Driver端，所以，使用这两个方法时需要注意数据量，以免Driver发生 OutOfMemoryError

使用和结果略。

二、DataFrame对象上的条件查询和join等操作

以下返回为DataFrame类型的方法，可以连续调用。

1、where条件相关

（1） where(conditionExpr: String) ：SQL语言中where关键字后的条件
传入筛选条件表达式，可以用 and和 or。得到DataFrame类型的返回结果，
示例：

jdbcDF <span class="hljs-preprocessor">.where(<span class="hljs-string">"id = 1 or c1 = 'b'" )<span class="hljs-preprocessor">.show()</span></span></span>

结果，

（2） filter ：根据字段进行筛选
传入筛选条件表达式，得到DataFrame类型的返回结果。和 where使用条件相同
示例：

jdbcDF <span class="hljs-preprocessor">.filter(<span class="hljs-string">"id = 1 or c1 = 'b'" )<span class="hljs-preprocessor">.show()</span></span></span>

结果，

2、查询指定字段

（1） select ：获取指定字段值
根据传入的 String类型字段名，获取指定字段的值，以DataFrame类型返回
示例：

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">select( <span class="hljs-string">"id" , <span class="hljs-string">"c3" ).<span class="hljs-keyword">show( <span class="hljs-keyword">false)</span></span></span></span></span></span>

结果：

还有一个重载的 select方法，不是传入 String类型参数，而是传入 Column类型参数。可以实现 select id, id+1 from test这种逻辑。

jdbcDF.<span class="hljs-operator"><span class="hljs-keyword">select(jdbcDF( <span class="hljs-string">"id" ), jdbcDF( <span class="hljs-string">"id") + <span class="hljs-number">1 ).<span class="hljs-keyword">show( <span class="hljs-keyword">false)</span></span></span></span></span></span></span>

结果：

能得到 Column类型的方法是 apply以及 col方法，一般用 apply方法更简便。

（2） selectExpr ：可以对指定字段进行特殊处理
可以直接对指定字段调用UDF函数，或者指定别名等。传入 String类型参数，得到DataFrame对象。
示例，查询 id字段， c3字段取别名 time， c4字段四舍五入：

jdbcDF <span class="hljs-preprocessor">.selectExpr(<span class="hljs-string">"id" , <span class="hljs-string">"c3 as time" , <span class="hljs-string">"round(c4)" )<span class="hljs-preprocessor">.show(false)</span></span></span></span></span>

结果，

（3） col ：获取指定字段
只能获取一个字段，返回对象为Column类型。
val idCol = jdbcDF.col(“id”)果略。

（4） apply ：获取指定字段
只能获取一个字段，返回对象为Column类型
示例：

<span class="hljs-keyword">val idCol1 = jdbcDF.apply(<span class="hljs-string">"id")
<span class="hljs-keyword">val idCol2 = jdbcDF(<span class="hljs-string">"id")</span></span></span></span>

结果略。

（5） drop ：去除指定字段，保留其他字段
返回一个新的DataFrame对象，其中不包含去除的字段，一次只能去除一个字段。
示例：

jdbcDF.<span class="hljs-keyword">drop(<span class="hljs-string">"id")
jdbcDF.<span class="hljs-keyword">drop(jdbcDF(<span class="hljs-string">"id"))</span></span></span></span>

结果：

3、limit

limit方法获取指定DataFrame的前n行记录，得到一个新的DataFrame对象。和 take与 head不同的是， limit方法不是Action操作。

jdbcDF.limit(3).<span class="hljs-operator"><span class="hljs-keyword">show( <span class="hljs-keyword">false)</span></span></span>

结果，

4、order by

（1） orderBy和 sort：按指定字段排序，默认为升序
示例1，按指定字段排序。加个 -表示降序排序。 sort和 orderBy使用方法相同

jdbcDF<span class="hljs-preprocessor">.orderBy(- jdbcDF(<span class="hljs-string">"c4"))<span class="hljs-preprocessor">.show(false)
// &#x6216;&#x8005;
jdbcDF<span class="hljs-preprocessor">.orderBy(jdbcDF(<span class="hljs-string">"c4")<span class="hljs-preprocessor">.desc)<span class="hljs-preprocessor">.show(false)</span></span></span></span></span></span></span>

结果，

示例2，按字段字符串升序排序

jdbcDF<span class="hljs-preprocessor">.orderBy(<span class="hljs-string">"c4")<span class="hljs-preprocessor">.show(false)</span></span></span>

结果，

（2） sortWithinPartitions
和上面的 sort方法功能类似，区别在于 sortWithinPartitions方法返回的是按Partition排好序的DataFrame对象。

5、group by

（1） groupBy：根据字段进行 group by操作
groupBy方法有两种调用方式，可以传入 String类型的字段名，也可传入 Column类型的对象。
使用方法如下，

jdbcDF <span class="hljs-preprocessor">.groupBy(<span class="hljs-string">"c1" )
jdbcDF<span class="hljs-preprocessor">.groupBy( jdbcDF( <span class="hljs-string">"c1"))</span></span></span></span>

（2） cube 和 rollup ：group by的扩展
功能类似于 SQL中的 group by cube/rollup，略。

（3）GroupedData对象
该方法得到的是 GroupedData类型对象，在 GroupedData的API中提供了 group by之后的操作，比如，

max(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的最大值，只能作用于数字型字段
min(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的最小值，只能作用于数字型字段
mean(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的平均值，只能作用于数字型字段
sum(colNames: String*)方法，获取分组中指定字段或者所有的数字类型字段的和值，只能作用于数字型字段
count()方法，获取分组中的元素个数运行结果示例：
count
max
这里面比较复杂的是以下两个方法，
agg，该方法和下面介绍的类似，可以用于对指定字段进行聚合操作。

pivot

6、distinct

（1） distinct ：返回一个不包含重复记录的DataFrame
返回当前DataFrame中不重复的Row记录。该方法和接下来的 dropDuplicates()方法不传入指定字段时的结果相同。
示例：

jdbcDF.<span class="hljs-keyword">distinct()</span>

结果，

（2） dropDuplicates ：根据指定字段去重
根据指定字段去重。类似于 select distinct a, b操作
示例：

jdbcDF.dropDuplicates(Se<span class="hljs-string">q("c1"))</span>

结果：

7、聚合

聚合操作调用的是 agg方法，该方法有多种调用方式。一般与 groupBy方法配合使用。
以下示例其中最简单直观的一种用法，对 id字段求最大值，对 c4字段求和。

<span class="hljs-title">jdbcDF.agg(<span class="hljs-string">"id" -> <span class="hljs-string">"max", <span class="hljs-string">"c4" -> <span class="hljs-string">"sum")</span></span></span></span></span>

结果：

8、union

unionAll方法：对两个DataFrame进行组合
类似于 SQL中的 UNION ALL操作。
示例：

jdbcDF<span class="hljs-preprocessor">.unionALL(jdbcDF<span class="hljs-preprocessor">.limit(<span class="hljs-number">1))</span></span></span>

结果：

9、join

重点来了。在 SQL语言中用得很多的就是 join操作，DataFrame中同样也提供了 join的功能。
接下来隆重介绍 join方法。在DataFrame中提供了六个重载的 join方法。
（1）、笛卡尔积

joinDF1.<span class="hljs-keyword">join(joinDF2)</span>

（2）、 using 一个字段形式
下面这种join类似于 a join b using column1的形式，需要两个DataFrame中有相同的一个列名，

joinDF1.<span class="hljs-keyword">join(joinDF2, <span class="hljs-string">"id")</span></span>

joinDF1和 joinDF2根据字段 id进行 join操作，结果如下， using字段只显示一次。

（3）、 using 多个字段形式
除了上面这种 using一个字段的情况外，还可以 using多个字段，如下

joinDF1.<span class="hljs-keyword">join(joinDF2, Se<span class="hljs-string">q("id", "name")&#xFF09;</span></span>

（4）、指定 join 类型
两个DataFrame的 join操作有 inner, outer, left_outer, right_outer, leftsemi类型。在上面的 using多个字段的join情况下，可以写第三个 String类型参数，指定 join的类型，如下所示

joinDF1.<span class="hljs-keyword">join(joinDF2, Se<span class="hljs-string">q("id", "name"), <span class="hljs-string">"inner"&#xFF09;</span></span></span>

（5）、使用 Column 类型来 join
如果不用 using模式，灵活指定 join字段的话，可以使用如下形式

joinDF1.<span class="hljs-keyword">join(joinDF2 , joinDF1(<span class="hljs-string">"id" ) === joinDF2( <span class="hljs-string">"t1_id"))</span></span></span>

结果如下，

（6）、在指定 join 字段同时指定 join 类型
如下所示

joinDF1.<span class="hljs-keyword">join(joinDF2 , joinDF1(<span class="hljs-string">"id" ) === joinDF2( <span class="hljs-string">"t1_id"), <span class="hljs-string">"inner")</span></span></span></span>

10、获取指定字段统计信息

stat方法可以用于计算指定字段或指定字段之间的统计信息，比如方差，协方差等。这个方法返回一个 DataFramesStatFunctions类型对象。
下面代码演示根据 c4字段，统计该字段值出现频率在 30%以上的内容。在 jdbcDF中字段 c1的内容为 "a, b, a, c, d, b"。其中 a和 b出现的频率为 2 / 6，大于 0.3

jdbcDF.<span class="hljs-keyword">stat.freqItems(Se<span class="hljs-string">q ("c1") , <span class="hljs-number">0.<span class="hljs-number">3).show()</span></span></span></span>

结果如下：

11、获取两个DataFrame中共有的记录

intersect方法可以计算出两个DataFrame中相同的记录，

jdbcDF<span class="hljs-preprocessor">.intersect(jdbcDF<span class="hljs-preprocessor">.limit(<span class="hljs-number">1))<span class="hljs-preprocessor">.show(false)</span></span></span></span>

结果如下：

12、获取一个DataFrame中有另一个DataFrame中没有的记录

示例：

jdbcDF<span class="hljs-preprocessor">.except(jdbcDF<span class="hljs-preprocessor">.limit(<span class="hljs-number">1))<span class="hljs-preprocessor">.show(false)</span></span></span></span>

结果如下，

13、操作字段名

（1） withColumnRenamed ：重命名DataFrame中的指定字段名
如果指定的字段名不存在，不进行任何操作。下面示例中将 jdbcDF中的 id字段重命名为 idx。

jdbcDF<span class="hljs-preprocessor">.withColumnRenamed( <span class="hljs-string">"id" , <span class="hljs-string">"idx" )</span></span></span>

结果如下：

（2） withColumn ：往当前DataFrame中新增一列
whtiColumn(colName: String , col: Column)方法根据指定 colName往DataFrame中新增一列，如果 colName已存在，则会覆盖当前列。
以下代码往 jdbcDF中新增一个名为 id2的列，

jdbcDF<span class="hljs-preprocessor">.withColumn(<span class="hljs-string">"id2", jdbcDF(<span class="hljs-string">"id"))<span class="hljs-preprocessor">.show( false)</span></span></span></span>

结果如下，

14、行转列

有时候需要根据某个字段内容进行分割，然后生成多行，这时可以使用 explode方法
下面代码中，根据 c3字段中的空格将字段内容进行分割，分割的内容存储在新的字段 c3_中，如下所示

jdbcDF.explode( <span class="hljs-string">"c3" , <span class="hljs-string">"c3_" ){<span class="hljs-built_in">time: <span class="hljs-built_in">String => <span class="hljs-built_in">time.<span class="hljs-built_in">split( <span class="hljs-string">" " )}</span></span></span></span></span></span></span>

结果如下，

15、其他操作

API中还有 na, randomSplit, repartition, alias, as方法，待后续补充。

http://blog.csdn.net/dabokele/article/details/52802150

Original: https://www.cnblogs.com/honey01/p/8065232.html
Author: 一片黑
Title: Spark-SQL之DataFrame操作大全

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559899/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Sentence-BERT实战

引言本文主要介绍了SBERT作者提供的官方模块的使用实战。通过Sentence-BERT了解句子表示 Sentence-BERT(下文简称SBERT)用于获取固定长度的句向量表…

人工智能 2023年5月27日
0055
【Python词云】手把手带你用python给《左耳》人物出现次数排个序

前置背景基于这个程序需要用到下面三个库 import jieba import wordcloud from imageio import imread 所以，需要先在命令行窗口…

人工智能 2023年5月31日
0065
高维数据分析中特征选择方法及分类

在面向高位数据分析问题时，特征选择的重要性尤为重要。特征选择方法可以被分为四类：过滤法（filter）、包装法（wrapper）、嵌入式（embedded）、混合模式（hybrid…

人工智能 2023年6月19日
0049
【OCR】文本检测方案 TextFuseNet解读

TextFuseNet: Scene Text Detection with Richer Fused Features 🔗 PDF Link 🍺 Github Code 一些总结…

人工智能 2023年7月10日
0071
CRNN项目实战

CRNN 项目实战之前写过一篇文章利用CRNN进行文字识别，当时重点讲的 CRNN网络结构和CNN部分的代码实现，因为缺少文字数据集没有进行真正的训练，这次正好有一批不定长的字符…

人工智能 2023年7月22日
0061
深度强化学习中应用图神经网络优化无线网络路由

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月25日
0082
深度学习之目标检测模型后处理（非极大值抑制与WBF）

Non-Maximum Suppression（NMS）非极大值抑制。从字面意思理解，抑制那些非极大值的元素，保留极大值元素。其主要用于目标检测，目标跟踪，3D重建，数据挖掘等。目…

人工智能 2023年7月10日
00107
OpenCV-Python实战（番外篇）——利用 KNN 算法识别手写数字

OpenCV是一款非常强大的计算机视觉库，其中包含了很多功能强大的图像处理和计算机视觉算法。而在这个系列的第三篇文章中，我们将重点介绍如何在OpenCV中绘制图形和文本。 Ope…

人工智能 2023年6月19日
0057
DataAnnotation

KITTI格式的3D目标框标注在得到图像数据，激光雷达数据，标定数据之后,需要进行3D目标框标注。本文采用的标注工具采用的是:SUSTechPOINTS。这个工具是2020年IE…

人工智能 2023年6月2日
0068
Python 基于OpenCV+face_recognition实现人脸捕捉与人脸识别（照片对比）

1.安装包依赖与上篇通过摄像头动态识别人脸一样，先下载好opencv-python、face-recognition，这里因为使用的是照片对比的方式，特意使用tkinter画了一…

人工智能 2023年7月27日
0059
Python之学生信息管理系统

目录一、基础界面实现 1、主函数 2、保持循环，获取用户需求二、函数实现模块功能 1、添加学生信息 2、删除学生信息 3、修改学生信息 4、查找全部学生信息 5、退出系统三、…

人工智能 2023年7月5日
0091
Anaconda安装OpenCV的方法

笔者最近在学习用OpenCV做人脸识别，用的是python语言，Anaconda里面自带的Spyder编辑器，但是按照人脸识别的教程安装好OpenCV后发现。。。。只是在Pytho…

人工智能 2023年5月26日
0059
Anaconda+pycharm安装及环境配置

回答1：在环境下配置pytorch可以按照如下步骤进行： 1. 打开，创建一个新的虚拟环境，例如命名为”pytorch_env”。 2. 在命令行中使…

人工智能 2023年7月4日
0054
Object Detection in 20 Years: A Survey 20年间的目标检测：综述

摘要物体检测作为计算机视觉中最基本和最具挑战性的问题之一，近年来受到了极大的关注。它在过去二十年中的发展可以看作是计算机视觉历史的缩影。如果我们把今天的物体探测看成是深度学习力量…

人工智能 2023年7月9日
0050
深度学习调参trick 调参技巧

|公|众|号| 包包算法笔记事情的起因其实这样，实验室老同学的论文要冲分，问我有没有啥在NN上，基本都有用的刷点方法，最好是就是短小精悍，代码量不大，不需要怎么调参。一般通用的…

人工智能 2023年5月28日
0071
python切片总结(包含一维和高维情况，图像处理)

在python中，列表(list)是一个常用的容器，将要处理的元素放入列表中，需要的时候取出，除了通过单个下标访问外，还可以通过切片的方式访问如arr[2:4],表示取的下标2-3…

人工智能 2023年6月20日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Spark-SQL之DataFrame操作大全

1、 show ：展示数据

2、 collect ：获取所有数据到数组

3、 collectAsList ：获取所有数据到List

4、 describe(cols: String*) ：获取指定字段的统计信息

5、 first, head, take, takeAsList ：获取若干行记录

1、where条件相关

2、查询指定字段

3、limit

4、order by

5、group by

6、distinct

7、聚合

8、union

9、join

10、获取指定字段统计信息

11、获取两个DataFrame中共有的记录

12、获取一个DataFrame中有另一个DataFrame中没有的记录

13、操作字段名

14、行转列

15、其他操作

大家都在看

1、 `show` ：展示数据

2、 `collect` ：获取所有数据到数组

3、 `collectAsList` ：获取所有数据到List

4、 `describe(cols: String*)` ：获取指定字段的统计信息

5、 `first, head, take, takeAsList` ：获取若干行记录