Spark3学习【基于Java】3. Spark-Sql常用API

2023年6月3日下午6:29 • 大数据 • 阅读 91

学习一门开源技术一般有两种入门方法，一种是去看官网文档，比如Getting Started – Spark 3.2.0 Documentation (apache.org)，另一种是去看官网的例子，也就是%SPARK_HOME%\examples下面的代码。打开IDEA，选择File-Open…

跟前面文章中方法一样导入jars目录到classpath。

Spark解析json字符串

第一个例子是读取并解析Json。这个例子的结果让我有些震惊，先上代码：

public static void main(String[] args) {
SparkSession session = SparkSession.builder().master(“local[1]”).appName(“SparkSqlApp”).getOrCreate();
Dataset
json.show();
}

让我惊讶的是文件的内容。例子里面的文件是三个大括号并列，文件扩展名是.json，由于没有中括号，所以格式是错的：

{“name”:”Michael”}
{“name”:”Andy”, “age”:30}
{“name”:”Justin”, “age”:19}

但是spark解析出来了：

于是我把文件改成下面这样向看下结果

[{“name”:”Michael”},
{“name”:”Andy”, “age”:30},
{“name”:”Justin”, “age”:19}
]

你猜输出是什么？

显然，spark没有解析出第一行，而且把第4行也解析了。这也说明了为什么样例的文件可以解析：首先跟文件扩展名是没啥关系的，另外spark是按行解析，只要考虑这一行是否符合解析要求就可以，行末可以有逗号。所以把文件改成下面也是可以的

{“name”:”Michael”},
{“name”:”Andy”, “age”:30},..
{“name”:”Justin”, “age”:19}

第一行后面有逗号，第二行后面还有两个点。

SQL 查询

在之前的例子中，读取文件返回的是Dataset

DataFrame提供了一些好用的方法，用的最多的就是show()。它主要用于调试，可以把数据以表格形式打印。spark确实给DataFrame生成了表结构，可以通过printSchema()方法查看

不但有字段名，还有字段类型，还有是否可空（好像都能空）。

DF还提供了类似于sql查询的方法，比如select()/groupBy()，和where类似的filter()等：

这里我们首先给年龄字段+1，并通过别名（相等于SQL里的AS）让他覆盖之前的字段，然后查询比19大的记录，最后根据年龄分组汇总。

如果我们把新字段不覆盖原字段呢？你猜是执行报错还是啥结果？

That’s all？当然不是，Spark提供了更强大的SQL操作：视图

View

视图分临时视图和全局视图。临时视图时会话级别的，会话结束了视图就没了；全局视图时应用级别的，只要Spark应用不停，视图就可以跨会话使用。

可见临时视图和全局视图可以叫一样的名字，它们的内容互不干扰。因为要访问全局视图需要通过global_temp库。不信你可以这样试一下

Dataset
.filter(col(“age”).gt(19))
.groupBy(“age1”)
.count();
group.createOrReplaceTempView(“people”);
json.createOrReplaceGlobalTempView(“people”);
Dataset
Dataset
Dataset
temp.show();
global.show();
global1.show();

Dataset

我们已经跟Dataset打过不少交道了，这里再稍晚多说一点点。实际上如果你是自己摸索而不是完全看我写的，下面这些内容估计都已经探索出来了。

1 转换自DF

DF是无类型的，Dataset是有类型的。如果要把无类型的转成有类型的，就需要提供一个类型定义，就像mysql表和Java的PO一样。

先来定义Java类：

public class Person implements Serializable {
private String name;
private long age;
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public long getAge() {
return age;
}
public void setAge(long age) {
this.age = age;
}
}

这个类必须实现序列化接口，原因在前面也说过了。

接下来把读入json的DataFrame转成Dataset：

之前都是使用Encoders内置的编码器，这里通过bean()方法生成我们自定义类的编码器，然后传给DF的as()方法就转成了Dataset。

既然转成了强类型的Dataset，那能把每一个对象拿出来吗？给Person类增加toString方法，然后遍历Dataset：

结果报错了竟然：已经生成了集合，却不能访问元素？

报错原因很简单：我们类中的age是原始数据类型，但是实际数据有一个null。把long age改成Long age即可：

但是为什么会这样呢？！~我猜是因为as方法用的编码器（序列化工具）和foreach用到的解码器不匹配，spark的编码器不要求数据符合Java编译规则。

来自Java集合

目前我们掌握了通过读取文件（textFile(path)）、转化其他Dataset（map/flatMap）和转换DF来生成Dataset，如果已经有一堆数据了，也可以直接创建。

SparkSession重载了大量根据数据集生成Dataset和DataFrame的方法，可以自由选择：

所以我们创建一个List来生成，只能是List，不能是Collection

神奇的是原本应该一样的代码，执行的时候有一个报错。这个算Java实现的BUG吧，原因参考Java中普通lambda表达式和方法引用本质上有什么区别？ – RednaxelaFX的回答 – 知乎

https://www.zhihu.com/question/51491241/answer/126232275

转自RDD

RDD 在Java环境下叫JavaRDD。它也是数据集，可以和Dataset/DataFrame互转。这里不说了，有兴趣可以探索。

Original: https://www.cnblogs.com/somefuture/p/15637332.html
Author: 老魏去东
Title: Spark3学习【基于Java】3. Spark-Sql常用API

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565580/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SQL学习，刷题二

按照dept_no进行汇总，属于同一个部门的emp_no按照逗号进行连接，结果给出dept_no以及连接出的结果employeesCREATE TABLE dept_emp ( e…

大数据 2023年11月10日
0053
GeoWave实践2：使用命令行将本地矢量数据注入hbase并发布至GeoServer

在GeoWave所在的节点打开两个会话窗口。会话1//运行GeoServer，默认端口8080 geowave gs run会话2 //为GeoWave创建数据库TestShp，…

大数据 2023年5月26日
0091
Android第一行代码 Day06笔记

tips： EditText： setSelection()方法：将输入光标移到到文本的末尾 TextUtils.isEmpty()方法：对字符串进行非空判断，可以一次性进行两种空…

大数据 2023年11月10日
0036
恒源云(GPUSHARE)_Y-Tuning: 通过对标签表征进行微调的深度学习新范式【ACL 2022】

文章来源 | 恒源云社区原文地址 | 【ACL 2022】原文作者 | Mathor 小编此刻内心OS：不能怪大佬产出高～是我不努力！打工人打工魂，站起来，开始搬运！！！正文…

大数据 2023年5月28日
00106
互联网三高中的高可用的理解

摘要：高可用（High availability，即 HA）的主要目的是为了保障「业务的连续性」，即在用户眼里，业务永远是正常（或者说基本正常）对外提供服务的。高可用主要是针对架构…

大数据 2023年6月3日
00130
[ vulhub漏洞复现篇 ] Celery ＜4.0 Redis未授权访问+Pickle反序列化利用

大数据 2023年11月13日
0052
Kafka v2.3 快速入门与实践

消息队列应用场景：应用解耦、异步消息、流量削峰等问题，实现高性能、高可用、可伸缩和最终一致性架构。 Kafka是由LinkedIn开发的一个分布式的消息系统，可独立部署在单台服务器…

大数据 2023年5月28日
0082
linux中启动 java -jar 后台运行程序

1，java -jar xxx.jar & 2， ps -aux | grep java 查看到刚启动的java进程是 S状态： Linux进程状态：S (TASK_INT…

大数据 2023年6月3日
00155
sqlite优化简单分析

SQLite 原本就是一款轻型的数据库，面向轻量级应用或者安卓应用等的使用场景。轻量级的设定也注定他并发读写性能不高，如果有高并发的要求更应该选择 mysql 等数据库。一、sq…

大数据 2023年11月10日
0039
文件存储格式：ORC 与 Parquet的较量

Hive 支持的文件存储格式 Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式 TextFile（文本格式） RCFile（行列式文件） Sequen…

大数据 2023年11月12日
0058
数据仓库基础与Apache Hive入门

数据仓库基本概念数据仓库，简称数仓，用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持。数据仓库本身并不生产任何数据，其数…

大数据 2023年11月13日
0027
Viterbi算法实现中文分词和词性标注

Viterbi算法目标过程 * 词典分词统计分词词性标注附录 * 附录二附录三源码地址目标实现基于词典的分词方法和统计分词方法对分词结果进行词性标注对分词及词…

大数据 2023年5月28日
00110
极客星球 | 联邦学习与产品化之路

大数据 2023年11月15日
0036
2021SC@SDUSC SQLite源码分析（八）————SQLite虚拟机指令集

2021SC@SDUSC SQLite源码分析（八）————SQLite虚拟机指令集为了执行一个SQL语句，SQLite库首先解析SQL，分析该语句，然后生成简短的程序来执行该语…

大数据 2023年11月12日
0048
Transformers数据预处理：Preprocessing data

在transformers中，数据处理的主要工具是文本标记器 tokenizer。我们可以使用模型对应的文本标记器类型，也可以直接使用 AutoTokenizer自动分类。文本标…

大数据 2023年5月28日
00106
Redis的数据结构

大数据 2023年11月15日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Spark3学习【基于Java】3. Spark-Sql常用API

1 转换自DF

来自Java集合

转自RDD

大家都在看