Hive的分桶表

1.开启支持分桶

设置为 true 之后,mr 运行时会根据 bucket 的个数自动分配 reduce task的个数。

当然,用户也可以通过 mapred.reduce.tasks 自己设置 reduce 任务个数,但分桶时不推荐使用。注意:一次作业产生的桶(文件数量)和 reduce task 个数一致)

2.往分桶表中加载数据

3.分桶表数据抽样

  1. 假设本地文件 /root/hivedata/ft 中有以下内容:

  2. 新建Hive常规表并导入本地文件:

  3. 创建分桶表:

每行数据所属的存储桶数规则如下:

[En]

The rules for the number of buckets in which each row of data falls are as follows:

  1. 给分桶表导入数据:

  2. 查询分桶表数据以确认正确导入:

  3. 我们来看看分桶表的数据如何使用:

Original: https://www.cnblogs.com/lucky815/p/15260448.html
Author: 呼延灼
Title: Hive的分桶表

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/522727/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球