利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun

; 前言

在最开始学习Hudi源码时,就发现了Hudi有一个Bootstrap功能,但是一直没用过,通过官网文档https://hudi.apache.org/cn/docs/migration_guide/可知,它可以将现有的表件转化为Hudi表,而且有两种类型 METADATA_ONLYFULL_RECORD,但是文档并不详细,比如这两种类型的区别具体是啥,支持哪些文件类型的源表。于是带着这些疑问来学习一下它是如何使用的以及源码原理的实现,这样可以更全面的了解Hudi。

版本

Hudi 0.12.0
Spark 2.4.4/3.1.2

支持的文件类型

如题,目前只支持两种文件类型:parquet和orc,对于其他格式的Hive表,比如text就不能用Bootstrap进行转化了
其实官方文档并没有说明支持哪些类型,我们可以在源码里找到答案:

METADATA_ONLY

  public

Original: https://blog.csdn.net/dkl12/article/details/127285342
Author: 董可伦
Title: 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/818086/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球