hive分桶（hive为什么要分桶、分桶和分区的区别、分桶表的具体操作、如何将mysql中不是分桶的数据导入到分桶表中）

2023年11月13日下午12:31 • 大数据 • 阅读 42

select * from table tablesample(bucket x out of y on column)

hive根据y的大小，决定抽样的比例。y必须是table总bucket数的倍数或者因子。

例如，table总共分了10份bucket，当y=2时，抽取(10/2=)5个bucket的数据，当y=10时，抽取(10/10=)1个bucket的数据。

x表示从哪个bucket开始抽取，如果需要取多个分区，以后的分区号为当前分区号加上y。

例如，table总bucket数为6，tablesample (bucket 1 out of 2)，表示总共抽取（6/2=）3个bucket的数据，从第1个bucket开始，抽取第1(x)个和第3(x+y)个和第5(x+y)个bucket的数据。

注意：x的值必须小于等于y的值。否则会抛出异常：FAILED: SemanticException [Error 10061]: Numerator should not be bigger than denominator in sample clause for table stu_buck。

注意： sqoop不支持分桶表，如果需要从sqoop导入数据到分桶表，可以通过中间临时表进行过度。ODS也可以不做分桶，从DWD明细层开始分桶。

Original: https://blog.csdn.net/weixin_46051319/article/details/124026197
Author: 小马虎不马虎
Title: hive分桶（hive为什么要分桶、分桶和分区的区别、分桶表的具体操作、如何将mysql中不是分桶的数据导入到分桶表中）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818384/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python爬虫之网页获取与网页解析

网页获取用的是requests包，网页解析的方式有re与beautifulsoup两种。 1.网页获取： import requests url="https://dbl…

大数据 2023年6月3日
0074
windows环境下搭建kafka

注意：请确保本地Java环境变量配置成功安装Zookeeper Kafka的运行依赖于Zookeeper，所以在运行Kafka之前我们需要安装并运行Zookeeper 安装并运…

大数据 2023年5月28日
0084
Redis的知识总结与项目应用

大数据 2023年11月14日
0036
不想工作就想创业？我劝你看完这档综艺再决定

文|螳螂观察作者|图霖新年还没到，部分打工人已经在提前”过冬”了。近日，阿里、爱奇艺等大厂裁员的新闻接连冲上热搜。不少以为捧着”大厂铁饭碗…

大数据 2023年5月26日
0074
docker-compose一直创建中

docker-compose解决棘手一直创建中，，，然后显示 timeout 什么设置什么1000。然后更新docker-compose 重新启动systemctl restart…

大数据 2023年5月28日
0089
ASP.NET Core知识之RabbitMQ组件的使用

RabbitMQ是一种越来越流行的开源，快速消息代理，它使用Erlang编写并基于Open Telecom Platform框架构建。它实现了高级消息队列协议（AMQP），用于在进…

大数据 2023年6月3日
0076
Linux一些错误总结

wget相对于浏览器来说，速度会比较偏慢，特别是国外的网站。 mwget是一个多线程下载应用，可以明显提高下载速度。 mwget安装步骤如下： #!/bin/bash wget h…

大数据 2023年5月27日
0082
Docker 搭建多容器组合服务 (nginx + PHP)

Docker 安装 PHP docker pull php:7.4-fpm (拉取指定版本的 php ） docker images （查看本地 php 镜像是否安装成功）准备好…

大数据 2023年5月29日
0077
SpringCloud学习笔记（整理）

版本选择 springcloud 组件构建微服务 Eureka 服务注册与发现【停更】配置eureka server 配置client微服务注册到server 使用@LoadB…

大数据 2023年6月3日
00130
VUE通过Docker传入参数替换环境变量

web项目请求后端必须在前端代码内部写死后端的IP地址与端口（比如.env文件）通过docker启动传入参数：更改前端封装http请求：环境变量文件： docker 打包命令…

大数据 2023年5月29日
0093
Js实用小技巧

Js实用小技巧原创 WindrunnerMax2022-05-28 00:03:23博主文章分类：JavaScript ©著作权文章标签取整 github 数组文章分类 H…

大数据 2023年5月26日
0061
Hive 3.x|第一天|Hive基本概念介绍

大数据 2023年11月13日
0043
Rust学习入门

高性能,内存利用率高,没有运行时和垃圾回收可靠 , 丰富的类型系统和所有权模型保证内存和线程安全,编译器可以消除各种错误生产力, 包管理器、构建工具一流, 多编辑器支持自动补齐和格…

大数据 2023年6月3日
0068
Linux上编译安装sqlite3库

如何在Linux上编译安装sqlite3库编译安装sqlite3库 ** 1、下载压缩包链接：https://pan.baidu.com/s/1bO0bzR95CEdhgzmo…

大数据 2023年11月12日
0050
go-Redis

大数据 2023年11月15日
0043
Spark读取CSV文件（Scala）

大数据 2023年11月16日
0059

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球