
分区可以提高查询效率,实际上 hive 的一个分区就是 HDFS 上的一个目录,目录里放着属于该分区的数据文件。


create table partition_table(
    col1 int,
    col2 string
partitioned by (part_col string)
row format delimited fields terminated by '\t';


创建完分区表如果需要将数据导入表中,需要用 load 命令导入;

 load data local inpath
'/data_dir/data_file' into table partition_table

如果是在 HDFS 中创建目录并将数据文件传到目录中,是没办法查到的,因为查询分区表是需要查询元数据的;

如果非要用这种方法或者已经做了,可以执行修复命令: msck repair table table_name;

show partitions partition_table;
select * from partition_table where part_col='20220331';
alter table partition_table add partition(part_col='20220331');
alter table partition_table drop partition(part_col='20220331');


create table partition_table(
    col1 int,
    col2 string
partitioned by (part_col1 string, part_col2 string)
row format delimited fields terminated by '\t';

关系型数据库中,对分区表 Insert 数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中

Hive 中也提供了类似的机制,即动态分区(Dynamic Partition),不过使用 Hive 的动态分区需要进行相应的配置。

开启动态分区功能(默认 true,开启)




默认 strict,表示至少指定一个分区为静态分区,nonstrict 表示允许所有的分区字段都能使用动态分区。

所有执行 MR 的节点上,最大一共可以创建多少个动态分区。默认 1000


每个执行 MR 的节点上,最大可以创建多少个动态分区。比如源数据中包含了一年的数据,即 day 字段有 365 个值,那么该参数就
需要设置成大于 365,如果使用默认值 100,则会报错。

insert into partition_table partition(part_col) select * from table_name;

-- 分 6 个桶的分桶表
create table bucket_table(col1 int, col2 string)
clustered by(col1)
into 6 buckets
row format delimited fields terminated by '\t';


加载数据到分桶表中可以使用 load 或者 insert 的方式。

需要注意的是,reduce 的个数设置应该为-1,让 Job 自行决定需要用多少个 reduce 或者将 reduce 的个
果。Hive 可以通过对表进行抽样来满足这个需求。

语法: tablesample(bucket x out of y)

select * from bucket_table tablesample(bucket 1 out of 3 on col1);


上面的语句表示:对于分桶数为 6 的表,总共抽取 6/y = 6/3 = 2 个bucket的数据,

分别为第 x=1 个 bucket 和第 x+3=4 个 bucket 的数据。

本文简单介绍了 hive 的分区,包括如何创建分区表、新建分区和删除分区,还有二级分区和动态分区;以及分桶表,包括分桶表的概念和抽样函数。

