spark sql读取不到orc格式hive表数据问题

2023年11月13日下午12:50 • 大数据 • 阅读 72

1、问题

在做spark数据对账时，对于部分orc格式的hive表，会有spark sql读取表数据为空的情况

排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insert select union all 时，对应的hdfs数据路径，不是直接存放数据文件，而是先有子目录HIVE_UNION_SUBDIR_x，子目录下再存放数据文件

参考文章：
https://support.huaweicloud.com/cmpntguide-mrs/mrs_01_2309.html
https://blog.csdn.net/a5685263/article/details/103508097
但是只有问题，并没有针对spark的解决方案

2、解决方案

查看spark官方文档，找到一个参数

设置参数：spark.sql.hive.convertMetastoreOrc=false

问题得到解决

看文档的解释，这个参数的默认值是true，是spark操作orc表数据，默认使用内置的ORC reader和writer，替代hive的
但是遇到某些不兼容的情况，可能就直接报错或者读取不到数据了

下面这个Spark JIRA也印证了我的猜想：
https://issues.apache.org/jira/browse/SPARK-28098

; 补充：

后面在网上看到了这篇文章：
https://www.windism.cn/3387433632.html

这里解释的比较清楚了

另外对于Parquet格式，相应应该设置：spark.sql.hive.convertMetastoreParquet=false

Original: https://blog.csdn.net/li281037846/article/details/123282987
Author: Java小田
Title: spark sql读取不到orc格式hive表数据问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818396/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux三剑客(grep、sed、awk)基本使用

作为一个经常在服务器上游走的后端，需要熟悉不少命令行操作。其中，grep、sed、awk号称”linux三剑客”，使用频繁，功能强大，本文通过一个实例演示下…

大数据 2023年5月27日
0057
（Spring笔记）SpringBoot+Mybatis+Sqlite3查询表数据

目录一、表数据二、pom.xml 三、ymal配置四、Person实体五、mapper 六、service及实现类七、Controller 八、Mybatis映射文件九…

大数据 2023年11月10日
0026
Hue+Dolphinscheduler+Hive+ES+Waterdrop基于混合计算demo

目录基于混合计算demo 1 1. 创建hdfs公有库和私有库（运维操作） 2 1.1. 创建hdfs公有库并授予可读可写权限 2 1.2. 创建hd…

大数据 2023年5月26日
0070
MyLibrary –Qt + sqlite 图书馆管理系统

MyLibrary 介绍基于Sqlite 和 Qt 技术实现电子图书馆的智慧综合管理参考资料：https://blog.csdn.net/lishichengyan/artic…

大数据 2023年11月12日
0034
大数据平台的防火墙、服务网关Knox

这里写自定义目录标题大数据平台的防火墙、服务网关Knox * 边界安全/防火墙 Knox网关部署架构 Ranger授权和控制使用Knox进行认证 Common Security…

大数据 2023年11月13日
0045
运维排查篇 | Redis占用内存过高怎么办？

大数据 2023年11月15日
0044
数仓工具—Hive实战之生成连续序列(23)

; 生成连续序列前面我们在介绍explode 和 lateral view 的时候提到过生成连续日期，后面在介绍最大连续登陆的时候又提到了连续的概念，今天我们看一下Hive 中如…

大数据 2023年11月12日
0033
Flink使用Pod Template将状态快照(Checkpoint、Savepoint)存储在NFS

Flink 版本 1.13.3，使用 native k8s 部署模式，原采用 HDFS 作为状态快照（Checkpoint、Savepoint）的存储地址，但是由于仅使用了其 HD…

大数据 2023年5月26日
0088
【CUDA学习】共享存储器

下面简单介绍一些cuda中的共享存储器和全局存储器共享存储器，shared memory，可以被同一块中的所有线程访问的可读写存储器，生存期是块的生命期。 Tesla的每个SM拥…

大数据 2023年5月28日
0054
在CDH环境下安装phoenix

我这里的CDH是6.2.0版本的，对应的HBase是2.1.0版本的 1、下载下载地址： http://archive.apache.org/dist/phoenix/ 结合实际…

大数据 2023年5月28日
0061
Hive框架(三) —— Hive SQL语句的执行顺序

HQL的语句执行顺寻与SQL有一定的差别 Hive SQL From – where – join – on – select-gr…

大数据 2023年11月13日
0039
c++多继承多态

C++多继承多态的实现 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service…

大数据 2023年6月3日
0068
Linux的基本概念

（注：此笔记默认操作系统为centOS7）文件权限超级管理员用户（root）可以修改任何文件，普通用户才有权限这个概念。文件权限是对文件的访问权限，即哪些用户和组可以访问文件…

大数据 2023年5月27日
0086
智慧仓储：打造仓储管理一张图

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0059
idea连接redis失败的一些解决方法。

大数据 2023年11月15日
0045
第一次写博客，关于刚开始学习Android studio SqLite

据说写这个能帮助自己更好的回忆以及学习。主要是写给自己的，如果有其他人观看，如果有问题希望直接指出，我无法保证自己是对的，如果出错，实在抱歉。首次接触android studio…

大数据 2023年11月10日
0035

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

spark sql读取不到orc格式hive表数据问题

1、问题

2、解决方案

; 补充：

大家都在看