SparkSQL与Hive语法差异

2023年11月7日下午10:34 • Python • 阅读 48

一、相同函数差异
二、仅Hive支持
三、仅Spark支持
四、Parquet表格式相关
五、备注

一、相同函数差异

1.Spark运行时用到的hash函数，与 Hive 的哈希算法不同，如果使用hash()，结果和Hive的hash()会有差异

解决方案：SparkSQL中将hash()修改为兼容Hive的函数hive_hash()

2.Hive和SparkSQL使用grouping sets生成的GROUPING_ID不一致

示例：

Hive:

Spark：

3.regexp_extract未匹配上的话，在HIVE里回是null，但在Spark里返回是空字符

示例：regexp_extract(‘00000000’, ‘^(0{1,})?([0-9a-zA-Z]+)?’, 2)，HIVE 返回null，Spark 返回空字符

4.SparkSQL 中row_number的over中不能省略sort by 或order by

示例：

row_number()over(partition by 字段1,字段2 order by 字段3) as row_num

或

row_number()over(distribute by 字段1,字段2 sort by 字段3) as row_num

其中 order by或sort by不能省略

5.grouping_id()函数生成的数据不同

6.reflect()函数中，如果入参有非法数据或者null，hive会返回null，而spark会抛出异常

解决方案：SparkSQL中将reflect()修改为兼容Hive的函数hive_reflect()

二、仅Hive支持

1.SparkSQL关联on条件不支持函数ran d()

示例：on (concat(rand(), t1.xxx)) = t2.xxx 这样会遇到以下报错：

解决方案：在on语句之前利用子查询将rand()处理好，如”concat(rand(), t1.xxx) as bitrary”，然后放到on语句后进行关联，如”on t1.bitrary = t2.xxx”

2.创建临时表时,Spark不支持直接赋值null

示例：create table brock_tmp.tmp_18061294

stored as orc as

select pv_id,

null as apply_tp_cd

from table

解决方案：在SparkSQL中将null强转成期望类型，比如字段类型如果是string，则使用”cast (null as string)”强制转换类型

3.SparkSQL 无法读取字段类型为void的表

现象：

解决方案：此情况一般为Hive建临时表时查询存在”null as xx”的情况，Hive会将该字段类型识别为void，而SparkSQL不支持void类型，按照第2条将表重建即可解决

4.SparkSQL中如果表达式没有指定别名，SparkSQL会将整个表达式作为别名。如果表达式中包含特殊符号（如逗号），则CTAS建表会失败

示例：create table test_bigdata_20190119 using parquet as select nvl(dummy, ‘1’) from dual;

上述查询中，SparkSQL会把nvl(dummy, ‘1’)直接作为别名建表，导致建表失败

解决方案：在复杂表达式后指定别名：create table test_bigdata_20190119 using parquet as select nvl(dummy, ‘1’)as dummy from dual;

三、仅Spark支持

1.SparkSQL允许在join on条件中使用or等不等值关联语句，Hive中不允许，只能用等值关联。

示例：select t1.xx, t2.xxx from students t1

left join class t2

on t1.classId >= t2.id

or t1.classname = t2.name

order by t1.id；

四、Parquet表格式相关

1.SparkSQL中如果建立Parquet Datasource表（create table using parquet as，使用动态分区对不同分区同时写入数据时会报错，除Parquet Datasource以外格式无该问题

解决方案：如果有动态分区同时多分区写入的业务需求，可使用 “create table stored as orc as”或 “create table using orc as”等方式建表。

2.创建Parquet格式表时，如果字段类型为数组，该字段不能有空值，否则读写时会报错。

解决方案：如果业务需求中遇到数组类型字段且其中需要有空值的，可使用” create table stored as orc as“或” create table using orc as“等方式建表。

五、备注

1.SparkSQL语法以Spark-2.3.X为准

关注微信公众号【飞哥大数据】，回复666 获取2022年100+公司面试真题，以及spark与flink面试题汇总

Original: https://blog.csdn.net/weixin_40893503/article/details/124664664
Author: 风中的大数据
Title: SparkSQL与Hive语法差异

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/813652/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Matplotlib详细教程

目录一、初识Matploblib 1.1 Figure 1.2 Axes 1.3 Axes vs pyplot 1.4 设置画布大小 1.5 设置网格线 1.6 设置坐标轴 1….

Python 2023年8月30日
0061
python排列和随机采样permutation&sample

python排列和随机采样permutation&sample 原创六mo神剑2022-07-18 15:01:34博主文章分类：Python ©著作权文章标签 pyt…

Python 2023年5月25日
0069
python pygame鼠标点击_Python中pygame的mouse鼠标事件用法实例

本文实例讲述了Python中pygame的mouse鼠标事件用法。分享给大家供大家参考，具体如下： pygame.mouse提供了一些方法获取鼠标设备当前的状态 ”&#…

Python 2023年9月22日
00119
35.文件上传

Admin900网管软件是一款简单实用的网管软件，软件由南京网亚计算机有限公司研发，其强大的功能不仅被用户用于网吧管理，还能够针对企业用户下的所有员工机进行管理。该网管软件是管理员…

Python 2023年8月3日
0081
python not found in axis_关于python:pandas-drop函数错误 (label not contained in axis)

本问题已经有最佳答案，请猛点这里访问。我有一个csv文件，如下所示： index,Avg,Min,Max Build1,56.19,39.123,60.1039 Build2,5…

Python 2023年8月17日
0042
python dataframe删除某一列_Python进行数据处理之Pandas的drop函数

删除表中的某一行或者某一列更明智的方法是使用drop，它不改变原有的df中的数据，而是返回另一个dataframe来存放删除后的数据。本文出处主要来源于必备工具书《利用python…

Python 2023年8月7日
0070
Python数据分析三剑客学习笔记Day3——pandas包的使用：认识series类型，DataFrame类型，读取excel表格数据及数据操作

注意：本文代码依托Jupyter Notebook实现，代码输入输出格式以及内容仅供参考！！！ pandas是一种基于Numpy的工具pandas包的引入： import pand…

Python 2023年8月9日
0033
python matplotlib画数据分布图_Python 数据分析（二）：Matplotlib 绘图

1. 简介 Matplotlib 是 Python 提供的一个绘图库，通过该库我们可以很容易的绘制出折线图、直方图、散点图、饼图等丰富的统计图，安装使用 pip install m…

Python 2023年9月4日
0040
python机器学习入门之pandas的使用（超详细，必看）

pandas是基于numpy的一种工具同样用于数据分析 pandas主要处理以下三种数据结构 1： series 一维数组接近python中的list 2： DataFrame…

Python 2023年8月7日
0051
Markdown 基础语法

Markdown 是一种轻量级标记语言，创始人为 John Gruber。它允许开发者使用易读易写的纯文本格式编写文档，然后转换成有效的 XHTML 或 HTML 文档。这种语言吸…

Python 2023年6月9日
00103
Python scrapy设置代理ip

应用scrapy爬虫的时候，经常遇到ip被封的问题，直接导致无法获取数据，所以要使用代理ip。在网上有很多大神写的案例，我选择了一个进行使用，不知道是ip的原因还是我写的有问题，…

Python 2023年10月1日
0042
[Docker入门] 用hello world入门docker

初识Docker Docker是什么？ Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从Apache2.0协议开源。Docker 可以让开发者打包他们的应用以及依赖包…

Python 2023年6月10日
0058
皮尔逊相关系数python实现

一、皮尔逊相关系数常见公式：公式转换：具体和皮尔逊相关系数相关的内容可以看之前的一篇文章。相似度计算（2）——皮尔逊相关系数 ; 二、python实现方法1：直接按公式算 im…

Python 2023年8月23日
0049
第2讲：编写Python的第一个程序Hello World

1.什么是REPL交互式命令行在编写Python的第一个程序Hello Word之前，我们先来了解什么是REPL交互式命令行。 REPL是Python的交互式命令行环境，在个命令…

Python 2023年8月24日
0070
6、set_xlim、set_ylim、xticks、yticks、set_xlabels、set_ylabels 和双坐标轴twin()

目录 * – 1、set_xlim()、set_ylim() – 2、 xticks() 、yticks()、set_xlabels()、set_ylabe…

Python 2023年9月3日
0065
爬虫工具的使用(fiddler连接手机、scrapy项目部署到scrapyd、scrapy和gerapy部署网络爬虫)

学习目标： python—爬虫工具的使用学习内容： 1、fiddler连接手机2、scrapy项目部署到scrapyd3、scrapy和gerapy部署网络爬虫 1、fiddle…

Python 2023年10月5日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31