Hive表的存储格式

Hive表的存储格式

文件格式-概述

Hive表的存储格式

; Hive的文件格式-TextFile

  • TextFile 是Hive中默认的文件格式 存储形式为按行存储
  • 工作中最常见的数据文件格式就是TextFile,几乎所有的原始数据生成都是TextFile格式,所以HIve设计时考虑到为了避免各种编码以及数据错乱的问题 选用TextFile为默认的格式
  • 建表时不指定格式即为TextFile 导入数据时把数据文件拷贝HDFS不做任何处理
    Hive表的存储格式
    文件大小在hdfs和本地 没有什么变化
    Hive表的存储格式

Hive的文件格式-SequenceFile

  • SequenceFile 是Hadoop里面用来存储序列化的键值对既二进制的一种文件格式
  • SequenceFile 文件也可以作为MapReduce作业的输入和输出 hive也支持这种格式
    Hive表的存储格式
    Hive表的存储格式

; Hive的文件格式-Parquet

  • Parquet是一种支持嵌套结构的列式存储文件格式 最早由Twitter和Cloudera合作开发,2015年5月Apache孵化器里毕业成为Apache顶级项目
  • 是一种支持嵌套数据模型 对列式存储系统,作为大数据系统中OLAP查询的优化方案,他已经被多种查询引擎原生支持,并且部分 高性能引擎将其作为默认的文件存储
    Hive表的存储格式
    Hive表的存储格式

Hive表的存储格式
在大数据当中使用Parquet load直接加载数据 并不能编程Parquet格式 只能insert

Hive的文件格式-ORC

  • ORC文件格式也是一种Hadoop生态圈中的列式存储格式
  • 它的产生早在2013年初 最初产生Apache HIve 用于降低Hadoop 数据存储空间和加速HIve查询效率
  • 2015年PRC项目被Apache项目基金会提升为Apache顶级项目
    Hive表的存储格式
    Parquet和ORC 都是推荐使用的 但是优先推荐ORC
    Hive表的存储格式
    153MB-》32MB 压缩率
    底层二进制

Original: https://blog.csdn.net/weixin_46292457/article/details/124709282
Author: 冰可乐~
Title: Hive表的存储格式

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/818244/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球