Hive表的存储格式
文件格式-概述
; Hive的文件格式-TextFile
- TextFile 是Hive中默认的文件格式 存储形式为按行存储
- 工作中最常见的数据文件格式就是TextFile,几乎所有的原始数据生成都是TextFile格式,所以HIve设计时考虑到为了避免各种编码以及数据错乱的问题 选用TextFile为默认的格式
- 建表时不指定格式即为TextFile 导入数据时把数据文件拷贝HDFS不做任何处理
文件大小在hdfs和本地 没有什么变化
Hive的文件格式-SequenceFile
- SequenceFile 是Hadoop里面用来存储序列化的键值对既二进制的一种文件格式
- SequenceFile 文件也可以作为MapReduce作业的输入和输出 hive也支持这种格式
; Hive的文件格式-Parquet
- Parquet是一种支持嵌套结构的列式存储文件格式 最早由Twitter和Cloudera合作开发,2015年5月Apache孵化器里毕业成为Apache顶级项目
- 是一种支持嵌套数据模型 对列式存储系统,作为大数据系统中OLAP查询的优化方案,他已经被多种查询引擎原生支持,并且部分 高性能引擎将其作为默认的文件存储
在大数据当中使用Parquet load直接加载数据 并不能编程Parquet格式 只能insert
Hive的文件格式-ORC
- ORC文件格式也是一种Hadoop生态圈中的列式存储格式
- 它的产生早在2013年初 最初产生Apache HIve 用于降低Hadoop 数据存储空间和加速HIve查询效率
- 2015年PRC项目被Apache项目基金会提升为Apache顶级项目
Parquet和ORC 都是推荐使用的 但是优先推荐ORC
153MB-》32MB 压缩率
底层二进制
Original: https://blog.csdn.net/weixin_46292457/article/details/124709282
Author: 冰可乐~
Title: Hive表的存储格式
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/818244/
转载文章受原作者版权保护。转载请注明原作者出处!