文件存储格式：ORC 与 Parquet的较量

2023年11月12日下午11:29 • 大数据 • 阅读 55

Hive 支持的文件存储格式

Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式

TextFile（文本格式）
RCFile（行列式文件）
SequenceFile（二进制序列化文件）
AVRO
ORC（优化的行列式文件）
Parquet 格式

使用最多的是TextFile，SequenceFile，ORC和Parquet，今天此篇就从ORC 和 Parquet讲讲这两种文件存储格式，在讲之前再认识下 TextFile 文件存储格式。

TextFile

TextFile 的特点就是行存储文件(每一行就是一条记录)，可以使用任意的分隔符进行分割，但是无压缩，所以数据存储空间大。可以结合GZIP，SNAPPY 等使用，但是hive并不会对数据进行切分，所以就无法对数据进行并行处理操作。

总结：TextFile 默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

row format delimited fields terminated by '\t'
stored as textfile;

ORC

ORC文件以二进制方式存储，所以是不可以直接读取，ORC文件也是自解析的，它包含许多的元数据。ORC文件：保存在文件系统上的普通二进制文件，一个ORC文件中可以包含多个stripe，每一个stripe包含多条记录，这些记录按照列进行独立存储。

列式存储与行列式存储

列式存储，是按照一列一列存储的，如果查询一个列（字段）的数据，就等于是索引查询，效率高。但是如果需要查全表（所有列），因为需要取所有的列最后汇总，反而更占用资源，然而ORC存在以下特点。

特点

（1）在需要全表扫描时，可以按照行组读取。

（2）如果需要取列数据，在行组的基础上，读取指定的列，而不需要所有行组内所有行的数据和一行内所有字段的数据。

所以要看下ORC的存储结构。

ORC的存储结构

（1）stripe：一组行形成一个stripe，每次读取文件是以行组为单位的，一般为HDFS的块大小，保存了每一列的索引和数据。

（2）Index Data：存数据的一些统计信息和位置索引信息。

（3）Row Data：数据存储的地方，有多个行组组成。

（4）Stripe Footer：保存文件所在的文目录。

（5）File Footer：文件脚注，包含了文件中stripe的列表，每个stripe的行数和行的数据类型，以及每列的最值和聚合信息。

（6）Poststripe：包含压缩参数大小相关的信息。

ORC提供了3级索引，文件级、条带级（stripe）、行组级，所以在查询的时候，利用这些索引可以规避大部分不满足查询条件的文件和数据块。

; ORC的事务ACID

ORC格式的表还支持事务ACID,然而支持事务的表必须是分桶表，这是因为Hive表没有分桶，那么数据文件的散乱的，hive的事务机制无法有效的读取，所以适用于更新大批量的数据，不建议用事务频繁的更新小批量的数据。

Hive 事务支持

（1）建的表必须是分桶表。

（2）建表的类型文件：stored as orc

（3） tblproperties(‘transactional’=’true’);

#&#x5FC5;&#x987B;&#x652F;&#x6301;&#x5206;&#x6876;
clustered by (id) into 2 buckets
#&#x5728;&#x8868;&#x5C5E;&#x6027;&#x4E2D;&#x6DFB;&#x52A0;&#x652F;&#x6301;&#x4E8B;&#x52A1;
stored as orc
TBLPROPERTIES('transactional'='true');

其他参数配置

#&#x5F00;&#x542F;&#x5E76;&#x53D1;&#x652F;&#x6301;,&#x652F;&#x6301;&#x63D2;&#x5165;&#x3001;&#x5220;&#x9664;&#x548C;&#x66F4;&#x65B0;&#x7684;&#x4E8B;&#x52A1;
SET hive.support.concurrency = true;
#&#x652F;&#x6301;ACID&#x4E8B;&#x52A1;&#x7684;&#x8868;&#x5FC5;&#x987B;&#x4E3A;&#x5206;&#x6876;&#x8868;
SET hive.enforce.bucketing = true;
#&#x5F00;&#x542F;&#x4E8B;&#x7269;&#x9700;&#x8981;&#x5F00;&#x542F;&#x52A8;&#x6001;&#x5206;&#x533A;&#x975E;&#x4E25;&#x683C;&#x6A21;&#x5F0F;
SET hive.exec.dynamic.partition.mode = nonstrict;
#&#x8BBE;&#x7F6E;&#x4E8B;&#x52A1;&#x6240;&#x7BA1;&#x7406;&#x7C7B;&#x578B;&#x4E3A; org. apache.hive.q1. lockage. DbTxnManager
#&#x539F;&#x6709;&#x7684;org. apache. hadoop.hive.q1.1 eckmar. DummyTxnManager&#x4E0D;&#x652F;&#x6301;&#x4E8B;&#x52A1;
SET hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
#&#x5F00;&#x542F;&#x5728;&#x76F8;&#x540C;&#x7684;&#x4E00;&#x4E2A; meatore&#x5B9E;&#x4F8B;&#x8FD0;&#x884C;&#x521D;&#x59CB;&#x5316;&#x548C;&#x6E05;&#x7406;&#x7684;&#x7EBF;&#x7A0B;
SET hive.compactor.initiator.on = true;
#&#x8BBE;&#x7F6E;&#x6BCF;&#x4E2A; metastore&#x5B9E;&#x4F8B;&#x8FD0;&#x884C;&#x7684;&#x7EBF;&#x7A0B;&#x6570; hadoop
SET hive.compactor.worker.threads = 1;

ORC存储与压缩选择

ORC格式存储与Snappy压缩

stored as orc
tblproperties ('orc.compress'='snappy');

注意：

(1) snappy本身是不可切分的。

(2) snappy作用在文本类文件格式上不可切分。

(3) snappy压缩格式作用在parquet、orc等这些文件格式上，能够支持切分。这里切分并不是因为snappy变的可切分了，而是因为这些文件格式可以。

ORC 总结

（1）ORC是列式存储，有多种文件压缩方式，并且有着很高的压缩比。

（2）文件是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅节省HDFS存储资源，查询任务的输入数据量减少，使用的MapTask也就减少了。

（3）提供了多种索引，row group index、bloom filter index。

（4）ORC可以支持复杂的数据结构。

Parquet

Parquet为了使Hadoop生态系统中的任何项目都可以使用压缩的，被称为高效的列式数据表示形式。

特点

（1）跨平台。

（2）可被各种文件系统识别的格式。

（3）按列存储数据。

（4）存储元数据。

Parquet的存储结构

Parquet文件是以二进制方式存储的，所以不可以直接读取，和ORC一样，文件的元数据和数据一起存储，所以Parquet格式文件是自解析的。

（1）Row Group：每一个行组包含一定的行数，在一个HDFS文件中至少存储一个行组，类似于orc的stripe的概念。

（2）Column Chunk：在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的，不同的列块可能使用不同的算法进行压缩。

（3）Page：每一个列块划分为多个页，一个页是最小的编码的单位，在同一个列块的不同页可能使用不同的编码方式。

（4）Header：存储文件的校验码。

（5）Footer：存储文件的Schema等信息。

; Parquet存储与压缩选择

Parquet格式存储与Lzo压缩

stored as parquet
tblproperties ('parquet.compression'='lzo');

Parquet格式存储与Snappy压缩

stored as parquet
tblproperties ('parquet.compression'='snappy');

总结

压缩方式

压缩格式是否分割平均压缩速度文本文件压缩效率Hadoop压缩样式gzip否快高org.apache.hadoop.io.compress.GzipCodeclzo是非常快中等com.hadoop.compression.lzo.LzoCodecbzip2是慢非常高org.apache.hadoop.io.compress.Bzip2Codeczlib否慢中等org.apache.hadoop.io.compress.DefaultCodecSnappy否非常快低org.apache.hadoop.io.compress.SnappyCodec

ORC 与 Parquet 对比

ORCParquet嵌套结构不可直接实现（map间接实现）支持嵌套结构导入数据和数据查询速度快相比ORC慢ACID支持不支持更新操作支持不支持默认压缩ZlibUncompressed压缩格式Node、Zlib、SnappyUncompressed、Snappy、Gzip、Lzo数据压缩最优（相比textFile50倍的磁盘空间）Parquet使用gzip压缩率高，使用lzo、snappy效率高SQL查询较快较快

Original: https://blog.csdn.net/Hello_Java2018/article/details/125309101
Author: 大数据左右手
Title: 文件存储格式：ORC 与 Parquet的较量

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817863/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PHP源码编译安装

编译环境 Ubuntu 18.04 https://www.php.net/distributions/php-8.1.5.tar.gz 编译过程 ./configure –pr…

大数据 2023年11月12日
0034
DolphinScheduler使用Datax同步Mysql到Hive

1、安装DolphinScheduler2、创建租户信息注意：租户名称就是Linux的执行命令的用户名称，所以不能出错3、根据实际情况确定是否需要创建工作组，存在一个default…

大数据 2023年11月12日
0045
云计算：Ubuntu下Vue+Springboot前后端分离项目部署（多节点）

一、机器准备首先准备三台机器：我是一台WINDOWS系统主机，在WINDOWS里的 VMware 中安装两台Ubuntu系统虚拟机如果你的虚拟机只有 CentOS，可以参考这篇…

大数据 2023年6月3日
00140
Kafka简介和特点 *

什么是Kafka Kafka是一款分布式消息发布和订阅系统，它的特点是高性能、高吞吐量。最早设计的目的是作为LinkedIn的活动流和运营数据的处理管道。这些数据主要是用来对用户做…

大数据 2023年5月25日
0063
K8S+Docker容器化云高可用集群实战1.1-云计算平台解读

K8S+Docker容器化云高可用集群实战1.1-云计算平台解读 1. 云计算常识云计算不是新技术，是一种新的互联网模式，通过使用公有云或石油人资源、便携、快速的为我们提供服务（…

大数据 2023年5月29日
0066
sqoop把hive中的数据导入mysql

使用sqoop将hive中的数据导入mysql中记录简单案例首先开启集群： start-all.sh 在hive中建库建表，并插入一条数据来为自己做实验：验证一下，是否插入成…

大数据 2023年11月13日
0041
Hadoop的由来、Block切分、进程详解

Hadoop的由来、Block切分、进程详解一、hadoop的由来 Google发布了三篇论文: GFS(Google File System) MapReduce(数据计算方法…

大数据 2023年6月2日
0083
Tapdata 与 Apache Doris 完成兼容性互认证，共建新一代数据架构

2022年4月，Tapdata 启动 PDK 插件生态共建计划，致力于全面连接数据孤岛，加速构建更加开放的数据生态，旨在充分激发实时数据流动的价值，助力各行各业完成从传统数据架构平…

大数据 2023年6月3日
0074
vscode 编辑远程项目

概要通过vscode远程编辑项目，避免在服务器上安装图形界面，可以保持服务器的轻量。既可以利用vscode的各种编辑的便利性，又可以使用linux服务器上的各种开发环境，尤其是…

大数据 2023年6月3日
0065
基于CDH6.2.0的Atlas-2.1.0安装部署避坑指南

大数据 2023年11月14日
0052
[转载] 100大最佳古怪网站

【网站名称】：眼睛的幻觉【网站简介】：在这里你可以体验各种”空间频率扭曲”，实际上那只是”你的眼睛背叛了你的心”而已【网站名称】…

大数据 2023年6月3日
0089
#python学习笔记（二十一）#python与SQL基本操作

目录 1 背景知识 2 SQL基本语法 2.1 基本元素 2.2 运算符 2.4 基本操作 3 用python创建database table 4 用python对数据库进行更改 …

大数据 2023年11月11日
0047
Hadoop 2.x 之 HA 简介

Hadoop 2.x 之 HA 简介原创蹦擦擦蹦2022-06-10 19:57:53©著作权文章标签 zookeeper 元数据单点故障文章分类 Hadoop 大数据 …

大数据 2023年5月26日
0077
Android SQLite数据库介绍、Android Studio代码建数据库建表

目录一 SQLite数据库介绍二 SQLite使用步骤三代码和运行结果一 SQLite数据库介绍 SQLite 是关系型数据库:使用通用的 SQL 语句进行管理 (同o…

大数据 2023年11月11日
0043
Redis篇之redis服务的启动方式总结

大数据 2023年11月14日
0046
bash中的作业控制jobs & 花括号{}的使用

1、作业控制技巧 Bash环境中通过命令运行一个进程的时候，使【&】符可以使改进程进入后台将该进程放入后台并暂停执行 Ctrl+z 查看后台进程命令 jobs 通过fg…

大数据 2023年5月27日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31