dremio 对于parquet 文件的一些要求以及优化处理

dremio 比较依赖parquet 存储格式,同时对于parquet 的处理进行了不少的优化

读parquet 文件

3.1.3 提供了支持非堆内存的操作,3.2 增强了对于云parquet reader 的处理

parquet 的一些限制

  • 多结构嵌套的支持限制到16
  • 数组最大元素个数限制为128
  • 最大footer 限制到16m

推荐的配置

  • row groups , 推荐一个row grouo 一个文件,大多数数据集的目标为 1MB-25MB 列条带(理想情况下),同时dremio 默认partest 大小为256m,store.parquet.block-size 配置,可以修改
  • pages, 页面压缩使用snappy, page size 为100k
  • Statistics,推荐使用最新的包生成,避免问题

说明

以上dremio 关于parquet 的说明以及限制,是值得参考学习的,尤其是希望自己生成parquet 的是比较重要的,否则dremio 对于数据是不能读取的

参考资料

https://www.dremio.com/blog/tuning-parquet/
https://docs.dremio.com/software/data-formats/parquet-files/

Original: https://www.cnblogs.com/rongfengliang/p/16548712.html
Author: 荣锋亮
Title: dremio 对于parquet 文件的一些要求以及优化处理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/545894/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球