CDH集群使用spark作为hive查询引擎(实时查询)

Hive我们用来搭建数仓,对于大量数据以及离线数仓,可以满足,但是

他不能满足实时查询的情况,如果这次客户来了个需求,不在我们统计分析的指标内。

那你单独写SQL,然后通过mr底层,就不能立刻出结果,运行sql和统计将消耗大量时间。

当然有多种方案(impala+kudu)(presto)都可以。我在CDH上使用,自己的虚拟机测试,避免搭建与启动内存过大,所以采用了spark。

前提:CDH已经搭建完毕,并且有hive和spark

CDH集群使用spark作为hive查询引擎(实时查询)

设置hive的计算引擎为spark

apache hadoop(原生):

1、配置mapreduce计算引擎
set hive.execution.engine=mr;
2、配置tez计算引擎
set hive.execution.engine=tez;
3、配置spark计算引擎
set hive.execution.engine=spark;

但是在cdh中,我们直接通过其中的配置,执行

cdh执行

打开hive配置

不用执行,你选择了spark和yarn他就默认是spark作为计算引擎

CDH集群使用spark作为hive查询引擎(实时查询)

Original: https://blog.csdn.net/qq_38403590/article/details/125989173
Author: 我要用代码向我喜欢的女孩表白
Title: CDH集群使用spark作为hive查询引擎(实时查询)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/818437/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球