1.开启支持分桶
设置为 true 之后,mr 运行时会根据 bucket 的个数自动分配 reduce task的个数。
当然,用户也可以通过 mapred.reduce.tasks 自己设置 reduce 任务个数,但分桶时不推荐使用。注意:一次作业产生的桶(文件数量)和 reduce task 个数一致)
2.往分桶表中加载数据
3.分桶表数据抽样
-
假设本地文件 /root/hivedata/ft 中有以下内容:
-
新建Hive常规表并导入本地文件:
-
创建分桶表:
每行数据所属的存储桶数规则如下:
[En]
The rules for the number of buckets in which each row of data falls are as follows:
-
给分桶表导入数据:
-
查询分桶表数据以确认正确导入:
-
我们来看看分桶表的数据如何使用:
Original: https://www.cnblogs.com/lucky815/p/15260448.html
Author: 呼延灼
Title: Hive的分桶表
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/522727/
转载文章受原作者版权保护。转载请注明原作者出处!