Hive的分桶表

2023年5月26日下午11:32 • 大数据 • 阅读 72

1.开启支持分桶

设置为 true 之后，mr 运行时会根据 bucket 的个数自动分配 reduce task的个数。

当然，用户也可以通过 mapred.reduce.tasks 自己设置 reduce 任务个数，但分桶时不推荐使用。注意：一次作业产生的桶（文件数量）和 reduce task 个数一致）

2.往分桶表中加载数据

3.分桶表数据抽样

假设本地文件 /root/hivedata/ft 中有以下内容：
新建Hive常规表并导入本地文件：
创建分桶表：

每行数据所属的存储桶数规则如下：

[En]

The rules for the number of buckets in which each row of data falls are as follows:

给分桶表导入数据：
查询分桶表数据以确认正确导入：
我们来看看分桶表的数据如何使用：

Original: https://www.cnblogs.com/lucky815/p/15260448.html
Author: 呼延灼
Title: Hive的分桶表

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/522727/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux命令篇 – grep 命令

grep searches the named input FILEs (or standard input if no files are named, or if a sing…

大数据 2023年5月27日
0096
使用外部表将phoenix中数据同步到hive中

大数据 2023年11月14日
0048
HDFS合并多个文件的命令

HDFS 合并多个文件的命令有如下几种，可根据场景使用： 1、直接将本地的文件合并追加到HDFS的文件 hdfs dfs -appendToFile sourceLocalFile…

大数据 2023年6月3日
0075
teamtalk原理

大数据 2023年11月16日
0043
Java面试题——素数

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月3日
0062
庐山真面目之十二微服务架构基于Docker搭建Consul集群、Ocelot网关集群和IdentityServer版本实现

庐山真面目之十二微服务架构基于Docker 搭建Consul 集群、Ocelot 网关集群和IdentityServer **版本实现 ** 一、简介在第七篇文章《庐山真面目之七微…

大数据 2023年5月29日
0058
sqlite数据库创建、数据表增删改之C#设计笔记(二)

1、下载System.Data.SQLite.dll，并在项目引用该dll。2、数据库创建：void createNewDatabase(string sqlitePath){if…

大数据 2023年11月11日
0034
HBase性能优化

大数据 2023年11月14日
0034
Redis中什么是Big Key（大key）问题？如何解决Big Key问题？

大数据 2023年11月14日
0055
Bert模型输入输出大揭秘

2021SC@SDUSC 1.简介 Bert在自然语言处理（NLP）领域刷新了 11 个任务的记录，万众瞩目，成为异常火热的一个预训练语言模型。相信不少人入门学习Bert模型都倾向…

大数据 2023年5月28日
0061
《Streaming Systems》第三章: Watermarks

对于一个处理无界数据流的 pipeline 而言，非常需要一个衡量数据完整度的指标，用于标识什么时候属于某个窗口的数据都已到齐，窗口可以执行聚合运算并放心清理，我们暂且就给它起名叫…

大数据 2023年6月3日
0095
挑战100天不停更hive sql第28天-场景题-图书馆

大数据 2023年11月14日
0032
面试时Hive常问的问题

大数据 2023年11月15日
0032
【Hbase】搭建Hbase的本地模式、伪分布模式、全分布模式和HA模式

搭建Hbase的本地模式、伪分布模式、全分布模式和HA 0 共同操作 1 搭建Hbase的本地模式 1.1 搭建步骤 1.2 搭建实操 1.2….

大数据 2023年5月24日
0081
关于SQL注入及防御

### 回答1： _SQL注入_是一种常见的网络安全漏洞，可以通过在应用程序的输入字段中插入恶意的 _SQL_语句，从而绕过应用程序的安全机制，访问、更改或删除 _数据库_中的数据…

大数据 2023年11月10日
0037
数据库的操作以及数据库sqlite3常用的API接口

1.1 数据库的安装（VMware虚拟机下）离线安装： sudo dpkg -i libsqlite3-dev_3.22.0-1ubuntu0.4_amd64.deb sudo…

大数据 2023年11月11日
0030

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球