Rowset 的元数据一直存储在内存中

2023年6月28日下午4:29 • 人工智能 • 阅读 113

全局 Schema Cache

由于 Rowset 的元数据一直存储在内存中，如果每个 RowsetMeta 都存储一份 Schema，会对内存造成较大的压力。为了解决这个问题，实现了一个全局的 Schema Cache 管理相同的 Schema，这样就算有成千上万个 Rowset，只要 Schema 相同，内存中只会存在一份 Schema。

支持物化视图

Light Schema Change 也实现了对物化视图的支持。对读写流程修改之后，物化视图也可以正常读写。同时，如果要删除的列在物化视图中是 Value 列，则会与主表一起触发 Light Schema Change；如果主表的 Value 列是物化视图中的 Key 列，则需要发起异步任务，对物化视图进行 Sort/Direct Schema Change。

解决数据重写问题

由于 Delete Predicate 绑定了 Rowset，且每个 Rowset 都绑定了 Schema，当 Delete Predicate 所涉及的列被删除后，可以通过寻找到对应的 Rowset，Merge 该列的信息进当前的 Schema 中，这样对 Delete Predicate 之前的数据也可以正常过滤。解决了数据中有 Delete Predicate 需要重写数据的问题。

以上就是 Light Schema Change 功能实现过程中对 Doris 进行的修改，在使用的时候只需在建表的时候指定参数即可打开 Light Schema Change 功能，如下所示：

CREATE TABLE IF NOT EXISTS customer (
  c_custkey int(11) NOT NULL COMMENT "",
  c_name varchar(26) NOT NULL COMMENT "",
  c_address varchar(41) NOT NULL COMMENT "",
  c_city varchar(11) NOT NULL COMMENT "",
  c_nation varchar(16) NOT NULL COMMENT "",
  c_region varchar(13) NOT NULL COMMENT "",
  c_phone varchar(16) NOT NULL COMMENT "",
  c_mktsegment varchar(11) NOT NULL COMMENT ""
)
DUPLICATE KEY(c_custkey)
DISTRIBUTED BY HASH(c_custkey) BUCKETS 32
PROPERTIES (
"replication_num" = "1",
"light_schema_change" = "true"
);

为进一步体验 Light Schema Change 的执行效率，我们在 1 FE 1 BE 的集群上对加减列操作分别在有导入任务时和无导入任务时进行了对比。硬件配置为 16C 64G，数据均在 SSD 盘，使用了 TPC-H SF100 的 lineitem 表，数据量约 74G，具体测试对比如下：

无导入任务时

加列：

减列:

由上面测试可以看出，Light Schema Change 加减列速度远快于 Hard Link Schema Change，并且随着 BE 节点和表数据量的增多，Hard Link Schema Change 的耗时是远高于 Light Schema Change 的，原因是 Light Schema Change 只需要和 FE Master 进行交互，并可以实现同步返回。

Original: https://blog.csdn.net/zcypaicom/article/details/127819064
Author: zcypaicom
Title: Rowset 的元数据一直存储在内存中

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/657423/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

将图像分割数据集中的mask文件夹下保存的目标区域重新转为json格式

一、前言有些时候直接拿网上现有的分割数据集来训练自己的网络会报错，但是自己用labelme等软件标注的不会报错。如果重新会生成一个json文件，里面有目标区域的坐标信息，再来转…

人工智能 2023年6月19日
0074
Deep&Wide、DeepFm的原理

关键词：记忆、泛化、交叉特征、因子分解机FM、推荐系统、联合模型、精排一般这2个模型用于推荐系统中，推荐系统分为两种： CF-Based（协同过滤）、Content-Based（…

人工智能 2023年7月14日
0061
机器学习系列(1)_数据分析之Kaggle泰坦尼克之灾

本篇博客通过分析泰坦尼克号事故中乘客的信息，从而得出一些相关关系的判断，并且使用 Python可视化的手段更加具体的展现。注：本篇博客参考资料：1、kaggle入门–泰坦尼克号…

人工智能 2023年6月11日
0075
我对DeepLab V3的理解（基于V1和V2）

一、概述 1.前言 1.1 DeepLab v1 创新点：空洞卷积（Atrous Conv）; 全连接条件随机场（Fully-connected Conditional Rand…

人工智能 2023年5月26日
0055
opencv连通域标记 connectedComponentsWithStats()函数

1.背景由于需要将图像中的目标提取出来，采用了先分割得到二值化图，然后再进行连通域统计找到最大的连通域，计算其外接矩形作为目标框的方法。2.函数定义通过搜索，发现在OpenCV 3…

人工智能 2023年7月19日
0040
为什么6G是下一代无线通信

如果你想知道无线通信的未来是什么样子，那么你并不孤单。世界正在走向一个基于6G的社会。ITU-T最近成立了一个焦点小组来定义未来的网络服务需求。此外，谷歌还启动了Project L…

人工智能 2023年7月23日
0055
PyTorch和其他深度学习框架（如TensorFlow）相比的优势是什么

介绍 PyTorch是一个基于Python的开源深度学习框架，它提供了高效的张量操作和自动求导机制，被广泛应用于机器学习和深度学习任务中。与其他深度学习框架（如TensorFlow…

人工智能 2024年1月3日
0057
追涨行为因子：基于上交所投资者账户数据的散户交易行为量化策略

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行…

人工智能 2023年7月15日
0054
R语言write.xlsx函数将数据写入Excel文件：写入Excel文件并自定义表单的名称、将数据写入Excel文件新的表单（sheet）中、将文件保存为xls文件格式(而不是xlsx)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0068
【ROS】OpenCV+ROS 实现人脸识别（Ubantu16.04）

目录前言一、环境配置 1.安装ROS 2.摄像头调用 3.导入OpenCV 二、创建工作空间和功能包 1.创建工作空间 2.创建功能包三、人脸识别检测相关代码 1.pytho…

人工智能 2023年7月28日
0066
【数据挖掘算法与应用】——数据挖掘导论

数据挖掘导论 * – 导入 – 一、为什么要进行数据挖掘 – + 1.数据爆炸但知识贫乏 + 2.数据在爆炸式增长 + 3.数据安全 + 4.从…

人工智能 2023年6月24日
0072
关于汽车领域的知识图谱实战入门

根据https://www.bilibili.com/video/BV1iv411k7qG整理 01实体识别基于nlp的g3语言去抽取实体对象和基于关系抽取的情境下，用到命名实体…

人工智能 2023年6月1日
0061
随机森林简单回归预测

随机森林（RandomForest）简单回归预测随机森林是bagging方法的一种具体实现。它会训练多棵决策树，然后将这些结果融合在一起就是最终的结果。随机森林可以用于分裂，也可…

人工智能 2023年6月13日
0078
【NeRF】深度解读yenchenlin/nerf-pytorch项目

前面我们已经成功地在yen项目上运行的我们自己的数据集。但是效果比较差，分析原因可能有以下两点。1、用于训练的数据集分辨率过低2、超参数使用不巧当 Learning Objec…

人工智能 2023年6月16日
10128
yolo v5 数据标注和训练

yolo v5 数据集标注安装labelimg软件 1.进入虚拟环境2.pip install labelimg3.直接输入labelimg就可以打开软件 conda activ…

人工智能 2023年7月21日
0069
OpenCV学习笔记

Lesson1:环境配置与搭建完成VS2017的安装完成OpenCV的安装完成环境的搭建 Lesson2:图片的读取和显示代码解释引入opencv包： #include …

人工智能 2023年7月20日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Rowset 的元数据一直存储在内存中

全局 Schema Cache

支持物化视图

解决数据重写问题

无导入任务时

大家都在看