JAVA SparkSQL初始和创建DataFrame的几种方式

2023年6月2日上午6:29 • 人工智能 • 阅读 196

一、前述

1、SparkSQL介绍

Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。

SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。
能够在Scala中写SQL语句。支持简单的SQL语法检查，能够在Scala中写Hive语句访问Hive数据，并将结果取回作为RDD使用。

2、Spark on Hive和Hive on Spark

Spark on Hive： Hive只作为储存角色， Spark负责sql解析优化，执行。 Hive on Spark： Hive即作为存储又 *负责sql的解析优化，Spark负责执行。

二、基础概念

1、DataFrame

DataFrame也是一个分布式数据容器。与RDD类似，然而 DataFrame更像传统数据库的二维表格， 除了数据以外，还掌握数据的结构信息，即 schema 。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看， DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。

DataFrame的底层封装的是RDD，只不过RDD的泛型是Row类型。

2、SparkSQL的数据源

SparkSQL的数据源可以是JSON类型的字符串，JDBC,Parquent,Hive，HDFS等。

3、SparkSQL底层架构

首先拿到sql后解析一批未被解决的逻辑计划，再经过分析得到分析后的逻辑计划，再经过一批优化规则转换成一批最佳优化的逻辑计划，再经过SparkPlanner的策略转化成一批物理计划，

随后经过消费模型转换成一个个的Spark任务执行。

4、谓词下推（predicate Pushdown）

三、创建DataFrame的几种方式

1、读取json格式的文件创建DataFrame

json文件中的json数据不能嵌套json格式数据。
DataFrame是一个一个Row类型的RDD，df.rdd()/df.javaRdd()。
可以两种方式读取json格式的文件。
df.show()默认显示前20行数据。
DataFrame原生API可以操作DataFrame（不方便）。
*注册成临时表时，表中的列默认按ascii顺序显示列。

2、通过json格式的RDD创建DataFrame

java代码：

3、非json格式的RDD创建DataFrame（重要）

1) 通过反射的方式将非json格式的RDD转换成DataFrame（不建议使用）

自定义类要可序列化
自定义类的访问级别是Public
RDD转成DataFrame后会根据映射将字段按Assci码排序
将DataFrame转换成RDD时获取字段两种方式, 一种是df.getInt(0)下标获取（不推荐使用），另一种是df.getAs(“列名”)获取（推荐使用）
*关于序列化问题:

1.反序列化时serializable 版本号不一致时会导致不能反序列化。
2.子类中实现了serializable接口，父类中没有实现，父类中的变量不能被序列化,序列化后父类中的变量会得到null。
注意：父类实现serializable接口,子类没有实现serializable接口时，子类可以正常序列化
3.被关键字transient修饰的变量不能被序列化。
4.静态变量不能被序列化，属于类，不属于方法和对象，所以不能被序列化。
另外：一个文件多次writeObject时，如果有相同的对象已经写入文件，那么下次再写入时，只保存第二次写入的引用，读取时，都是第一次保存的对象。

java代码：

2) 动态创建Schema将非json格式的RDD转换成DataFrame（建议使用）

4、读取parquet文件创建DataFrame

注意：

可以将DataFrame存储成parquet文件。保存成parquet文件的方式有两种
*

java;gutter:true; df.write().mode(SaveMode.Overwrite).format("parquet").save("./sparksql/parquet"); df.write().mode(SaveMode.Overwrite).parquet("./sparksql/parquet");

SaveMode指定文件保存时的模式。

Overwrite：覆盖

Append：追加

ErrorIfExists：如果存在就报错

Ignore：如果存在就忽略

java代码：

5、读取JDBC中的数据创建DataFrame(MySql为例)

两种方式创建DataFrame

java代码：

常见的action操作

1、count
count：对dataset中的记录数进行统计个数的操作

2、first
first：获取数据集中的第一条数据

3、reduce
reduce：对数据集中的所有数据进行归约的操作，多条变成一条

4、show
show，默认将dataset数据打印前20条

5、take
take，从数据集中获取指定条数

6、collect
collect：将分布式存储在集群上的分布式数据集（比如dataset），中的所有数据都获取到driver端来

7、foreach
foreach：遍历数据集中的每一条数据，对数据进行操作，这个跟collect不同，collect是将数据获取到driver端进行操作
foreach是将计算操作推到集群上去分布式执行
foreach(println(_))这种，真正在集群中执行的时候，是没用的，因为输出的结果是在分布式的集群中的，我们是看不到的

Original: https://www.cnblogs.com/Allen-rg/p/11375754.html
Author: 静悟生慧
Title: JAVA SparkSQL初始和创建DataFrame的几种方式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560035/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Go数据结构队列

二队列 2.1 队列的介绍队列是一个有序列表，可以用数组或是链表来实现。遵循先入先出的原则。即:先存入队列的数据，要先取出。后存入的要后取出 2.2 数组模拟队列思路队列本身…

人工智能 2023年6月26日
0061
tensorflow踩坑合集2. TF Serving & gRPC 踩坑

这一章我们借着之前的NER的模型聊聊tensorflow serving，以及gRPC调用要注意的点。以下代码为了方便理解做了简化，完整代码详见Github-ChineseNER …

人工智能 2023年6月4日
0084
Flink1.15源码解析–任务提交流程—-flink run

文章目录零、前言一、CliFrontend * 1.1、打印基本的环境信息 1.2、获取 flink 配置文件目录 1.3、加载 flink 配置文件解析成 Configura…

人工智能 2023年6月28日
00150
2021-11-12 TensorFlow安装

特此记录，新手刚刚接触机器学习，在安装过程中遇到了几个基本问题。 [En] It is hereby recorded that novices have just come in…

人工智能 2023年5月25日
0066
基于决策树算法对良/恶性乳腺癌肿瘤预测

本人数据结构课程设计如题所示，现给出该课设的具体设计思路及代码演示，供大家学习，交流，共同学习（部分代码借鉴GitHub大佬）内容简介：决策树(Decision Tree）是在…

人工智能 2023年6月19日
0073
（二）YOLO-V1整体思想及网络架构

（1）核心思想将输入的图像分为S*S的格子，对于每个格子为中心给出两个先验框，对于置信度高的格子（即位于物体中心的格子）通过回归任务将两个先验框调整至合适的大小，然后选择IOU指…

人工智能 2023年7月9日
0065
DECA的3D人脸重建（3D face reconstruction）

DECA的3D人脸重建（3D face reconstruction） flyfish DECA 全称 Detailed Expression Capture and Animat…

人工智能 2023年5月28日
0064
什么是GAN网络？

引言 GAN ，全称GenerativeAdversarialNetworks ，中文叫生成式对抗网络，了解GAN，私下我喜欢叫它为”内卷”网络，为啥这么说…

人工智能 2023年6月15日
0064
windows下深度学习框架搭建：tensorfow-gpu1.14.0+cuda10.0+cudnn7.4+python3.6

一、安装anaconda Python3.6环境。若非python3.6环境，可以在anaconda navigator->environments->create创建…

人工智能 2023年5月25日
0053
自动驾驶概述

原创：晏茜资料来源：Jack 本文将从三个方向介绍自动驾驶技术领域的相关内容。第一部分重点介绍了自动驾驶行业概况，包括自动驾驶的落地场景和发展趋势。第二部分是自动驾驶领域的整体技术…

人工智能 2023年5月27日
0048
语音识别入门课——week4（隐马尔可夫模型HMM）

1.基本概念(一个定义、一个构成、两个基本假设) [En] 1. Basic concepts (one definition, one composition and two b…

人工智能 2023年5月27日
0086
独孤九剑第八式-DBSCAN聚类模型（密度聚类模型）

🐱 文章适合于所有的相关人士进行学习🐱🐶 各位看官看完了之后不要立刻转身呀🐶🐹 期待三连关注小小博主加收藏🐹🐴 小小博主回关快会给你意想不到的惊喜呀🐴各位老板动动小手给小弟点赞收…

人工智能 2023年5月31日
0076
核酸检测小程序实战教程

目录 1 前言 2 数据源设计 * 2.1 检测点数据源 2.2 受检人数据源 2.3 核酸预约数据源 3 创建模型应用 4 创建小程序 5 首页开发 6 检测点页面开发 7 受检…

人工智能 2023年5月30日
0077
Motor-CAD— 新能源驱动电机快速设计与优化工具

Motor-CAD作为一款专业的电机设计验证工具，有着丰富的专业的电机模型库，能够辅助工程师实现电机快速参数化设计、多场耦合仿真性能评估与设计参数优化。同时，Motor-CAD集成…

人工智能 2023年6月10日
0087
WT2003HX语音芯片IC在儿童玩具产品的应用设计方案

玩具在儿童时期扮演着不可或缺的角色。现代人是在智能玩具中长大的。与传统玩具相比，高端玩具具有新颖性、多样性和科技性，具有传统玩具所不具备的超前感。 [En] Toys play a…

人工智能 2023年5月23日
0055
MATLAB图像处理边缘检测

最近正好在做APMCM2019的A题，发现了matlab一些比较好用的函数，做一个学习笔记的作用如果大家有去了解这道题目的话，会发现它其实是需要你通过图像处理等方式，将114张SI…

人工智能 2023年6月17日
00107

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

JAVA SparkSQL初始和创建DataFrame的几种方式

大家都在看