hive-本地模式设置

2023年11月13日下午1:35 • 大数据 • 阅读 41

前言

当在hive上提交mapreduce任务时，常见的管理引擎有yarn与local，默认使用集群模式yarn进行执行。 当执行任务计算的文件大小与文件数相对较小时，可以开启本地模式进行执行，效率相对集群模式会更高。

查看当前hive的本地模式情况

查看本地模式是否开启：set hive.exec.mode.local.auto;
查看启用本地模式允许的最大输入文件数：set hive.exec.mode.local.auto.input.files.max;
查看启用本地模式允许的最大文件大小：set hive.exec.mode.local.auto.inputbytes.max;

如下，默认关闭本地模式执行；本地模式下允许输入的最大文件数为4；最大文件大小为128M.

hive-本地模式设置

; 本地模式的执行效率

使用同样一段sql进行执行，运行效率如下：
集群模式：51秒；
本地模式：13秒。

SELECT
    id,
    COUNT(1)
FROM
    test_table
WHERE
    dt = '2022-04-23'
GROUP BY
    id;

如何确定本地模式是否设置成功？

可以根据job的名称来判断，本地模式执行的job名称带有local标志，如下：
yarn集群的job：job_5690061100801_51019181；
本地模式下的job：job_local190266243_0001。

Original: https://blog.csdn.net/weixin_44896621/article/details/124530039
Author: 马孔多居民
Title: hive-本地模式设置

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818427/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大数据Spark企业级实战版【学习笔记】—–交互式SQL处理框架Spark SQL

Spark SQL的四个特点如下：其一，能在Scala代码里写SQL，支持简单的SQL语法检查，能把RDD指为Table存储起来。此外支持部分SQL语法的DSL。对SQL的支…

大数据 2023年5月26日
0090
OKR之剑（理念篇）02—— OKR布道之旅

作者：vivo互联网平台产品研发团队 1、我们是如何引入的 1.1、企业文化匹配大概是在2013年底，一些创业者在硅谷深受OKR洗礼，并在自己的公司内小范围运用，以此OKR开始传…

大数据 2023年6月2日
0086
字节跳动基于ClickHouse优化实践之“高可用”

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群相信大家都对大名鼎鼎的ClickHouse有一定的了解了，它强大的数据分析性能让人印象深刻。…

大数据 2023年6月2日
0074
openGLES3.0之glMapBufferRange()函数

翻译 Name glMapBufferRange — map a section of a buffer object’s data store 功能：将缓冲区对象数据…

大数据 2023年5月25日
0073
听杰伦新歌发现QQ音乐元宇宙，权游角色关系可视化地图、VNote 工具(Typora:勿cue谢谢)、最新论文 | ShowMeAI资讯日报

ShowMeAI 日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点…

大数据 2023年5月28日
0071
centos7的防火墙不能控制docker容器端口的问题

在/etc/docker/daemon.json 文件中添加”iptables”: false如下： bash;gutter:true; { "r…

大数据 2023年5月29日
0061
Linux LVM详解

一、简介二、实验 1)分区（非必须，也可以不分区），这里我拿一块盘分区，一块盘不分区 2）使用pvcreate创建物理卷PV 3）创建卷组VG 4）创建逻辑卷LV 5）格式化与挂…

大数据 2023年5月27日
0083
redis整合SpringBoot实现数据缓存

大数据 2023年11月16日
0042
信号量的无序竞争和有序竞争

在linux的多进程(或者多线程，这里以进程为例)开发里经常有进程间的通信部分，常见的技术手段有信号量、消息队列、共享内存等，而共享内存和信号量就像衬衫和外套一样搭配才算完整。信…

大数据 2023年5月26日
0063
vscode新建sqlite3数据库配置编译文件的方法一

vscode新建sqlite3数据库配置编译文件的方法一准备sqlite3.lib库文件按照VS2019下的Link.exe工具生成sqlite3.lib库将已经利用 lin…

大数据 2023年11月11日
0042
数据湖之Hudi基础：集成Spark

大数据 2023年11月16日
0055
【大数据实战项目五】数据结果图形可视化

数据结果图形可视化 6 数据结果图形可视化 6.1 航班数据的时令特征 6.2 利用Flask进行数据展示 6.3 创建接口数据 6.4 创建可…

大数据 2023年5月24日
00156
Windows 安装Redis（图文详解）

大数据 2023年11月14日
0037
kafka之topic

kafka 二.查看某一topic详细信息./kafka-topics.sh –zookeeper localhost:2181 –topic topic名…

大数据 2023年5月28日
0075
hive_练习0419

大数据 2023年11月14日
0064
Hive优化总结

一、SQL本身的优化 1、只select需要的列，避免select *2、where条件写在子查询中，先过滤再关联3、关联条件写在on中，而不是where中4、数据量大时，用gro…

大数据 2023年11月13日
0049

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球