国人之光：大数据分析神器Apache Kylin

2023年6月3日上午4:41 • 大数据 • 阅读 70

一、简介

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光，是因为它是首个由国人主导的Apache顶级开源项目，能在亚秒内查询巨大的表。

二、基本概念

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:5a44cb57-f23a-4e00-838e-45ceb408b1da

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:adcbd97b-8cb7-4e35-9121-9dfa3a0a7c9e

ID 客户号交易日期交易类型金额 1 001 20201230 工资代发 1000000 2 002 20210101 转账 66666 3 003 20210115 信用卡还款 1888

查询某个客户在哪个时间进行某种交易的金额，这种是 多维分析，其中客户号、交易日期和交易类型是 维度（Dimensions），金额是 度量（Measures）。

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:23ea6fcb-5edf-4f81-9222-811f9933bd0e

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:2701f4e6-cf72-403e-9a5b-dd41a811e1ce

对于一个多维模型，在查询上有多种组合，比如一维的：客户号/交易日期/交易类型二维的：客户号+交易日期/客户号+交易类型/交易日期和交易类型三维的：客户号+交易日期+交易类型对于每一种组合，称之为 Cuboid，这这些组合的统一，则是 Cube。Cube定义了使用的模型、模型的维度和度量等信息。

三、作用及原理

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:35805070-80df-4784-b6f0-c96fb2fedce9

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:e49c7e69-8854-4712-95a0-d6ab8c8e4e75

别急，这不就准备讲了嘛。 Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计的。

对于效率要求较高的大规模数据集的查询，尤其多维查询的时候，数据仓库中一般存在事实表和维度表，需要关联很多维度表，这就给查询带来一定的压力，查询效率低下。为了解决这个问题，Kylin应运而生。

但是Kylin为什么快呢？

主要是因为它的 预计算，它将多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。说到底就是用空间换时间。

大致流程 ：将数据源(比如Hive)中的数据按照指定的维度和指标，由计算引擎MapReduce离线计算出所有可能的查询结果(即Cube)存储到HBase中。HBase中每行记录的Rowkey由各维度的值拼接而成，度量会保存在column family中。为了减少存储代价，会对维度和度量进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有良好的快速响应和高并发。

四、Kylin的架构

Kylin的架构主要有这几个部分：

源数据：Hive、Kafka、RDBMS等；

对外查询接口：REST API、JDBC/ODBC；

存储引擎：HBase；

构建Cube的计算引擎。

其中构建Cube的计算引擎模块如下：

REST Server：是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。

Query Engine：当cube准备就绪后，查询引擎就能够获取并解析用户查询。

Routing：查询路由，负责将解析的SQL生成的执行计划转换成cube缓存的查询，若查询没办法从cube缓存中获取，则下压至数据源进行查询。

Metadata：Kylin是由元数据驱动的。元数据管理工具是一大关键性组件，用于对保存在Kylin当中的所有元数据进行管理，其中包括最为重要的cube元数据。

Cube Build Engine：这套引擎的作用在于处理所有离线任务。

五、总结

本文大概介绍了Kylin以及一些相关的概念和原理、架构。更多内容可以去Kylin 官网进行了解.

Original: https://www.cnblogs.com/lyuzt/p/14301281.html
Author: 大数据的奇妙冒险
Title: 国人之光：大数据分析神器Apache Kylin

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/563020/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

flask中使用redis做缓存

大数据 2023年11月15日
0039
QT第四次

SQLite: 打开SQLite 新建数据库定义一个表分别定义类型和属性之后再python中可以直接使用： import sqlite3 cur = sqlite3.conn…

大数据 2023年11月10日
0035
把Access 迁移到Sqlite, 并在windows/Mac 测试

起因: Access在win10+ .netCore6.0 的情况下,出现找不到provider的情况,但是用.net framework4.6是正常的. 可能是我的Access安…

大数据 2023年6月3日
0067
Kafka消费者 API（1）

1.需求：创建一个独立消费者，消费 first 主题中数据。 2.在IDEA创建包名：com.kafka.consumer 3.新建一个CustomConsumer类 packag…

大数据 2023年6月3日
0082
R语言deLong‘s test：使用自定义函数检验两个ROC曲线的差异是否具有统计显著性、比较两个或多个相关ROC曲线的AUC的非参数检验

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
00112
Flink-出租车-基于 DataStream API 计算每小时赚取最多小费的司机

案例来源 https://github.com/apache/flink-training/blob/release-1.14/hourly-tips/README_zh.md 案…

大数据 2023年6月3日
00105
开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群

课件获取：关注g z h “数栈研习社”，后台私信 “ChengYing” 获得直播课件视频回放：点击这里 ChengYing 开…

大数据 2023年11月12日
0057
sparkSql数据离线处理–整理记录

大数据 2023年11月14日
0052
TCP/IP 协议栈

TCP/IP 标准 TCP/IP:Transmission Control Protocol/Internet Protocol 传输控制协议/因特网互联协议 TCP/IP是一个协…

大数据 2023年5月27日
0078
Clickhouse入门及实践

ClickHouse安装采用doker安装测试：拉取服务端 docker pull yandex/clickhouse-server 拉取客户端 docker pull yan…

大数据 2023年6月3日
0085
01-Linux基础常用命令

在窗口1中执行指令 tail -f testApplication.java 动态查看文件尾部的数据。然后在顶部的标签中右键选择 “复制标签”，打开新的窗口…

大数据 2023年5月27日
0075
JuiceFS 数据加密原理

JuiceFS 作为分布文件系统，每天与海量的数据打着交道，因此数据的安全性尤为关键，今天就来介绍一下 JuiceFS 在数据加密方面所做的努力。传输中数据加密 JuiceFS …

大数据 2023年5月26日
0055
redis的四种模式

大数据 2023年11月16日
0043
「甄知科技」收购数智化开发平台「猪齿鱼」，将和已有产品「燕千云」融合形成产品闭环

甄知 • 使命源自解决流程挑战 36氪获悉，专注企业业务服务和软件研发管理的「甄知科技」将完成对数智化开发平台「猪齿鱼」的收购。据了解，本次收购后，「甄知科技」将通过「燕千云」和「…

大数据 2023年6月3日
0085
jvm参数

在学习java的jvm内存板块时，最后总会涉及到一些JVM参数。年轻代、老年代、永久代等各项都可以通过JVM参数来设置大小。在实际设置启动参数时，一般只会设置几个，实际参数有上百个…

大数据 2023年5月28日
0060
关于sparksql中设置自定义自增列的相关要点（工作共踩过的坑-1）

小白终于进入了职场，从事大数据方面的工作！分到项目组了，搬砖的时候遇到了一个这样的问题。要求：用spark实现oracle的存储过程中计算部分。坑：由于报表中包含了一个ID字…

大数据 2023年6月3日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

国人之光：大数据分析神器Apache Kylin

一、简介

二、基本概念

三、作用及原理

四、Kylin的架构

五、总结

大家都在看