MyRocks DDL原理

最近一个日常实例在做DDL过程中,直接把数据库给干趴下了,问题还是比较严重的,于是赶紧排查问题,撸了下crash堆栈和alert日志,发现是在去除唯一约束的场景下,MyRocks存在一个严重的bug,于是紧急向官方提了一个bug。其实问题比较隐蔽,因为直接一条DDL语句,数据库是不会挂了,而是在特定情况下,并且对同一个索引操作多次才会发生,因此排查问题也费了一些时间,具体bug排查和复现过程不在此展开,有兴趣的童鞋可以直接看bug链接:https://github.com/facebook/mysql-5.6/issues/602。借着排查问题的机会,我梳理了MyRocks DDL的工作流程,下文主要包括3方面内容:MyRocks数据字典,DDL操作除了修改数据本身,很重要的一个工作是维护数据字典,第二部分是MyRocks DDL的流程,主要围绕增加/删除索引的场景展开,最后一部分是分析DDL异常处理逻辑。

数据字典
所谓数据字典,就是存储引擎元数据的地方。数据字典可以从两个维度来看,从用户角度来看,数据字典就是information_schema表中的
RocksDB相关的表,主要包括ROCKSDB_DDL,ROCKSDB_INDEX_FILE_MAP等。而从RockDB内部实现角度来看,所有元数据都以KV对的方式存储在system column family中。我们看到的information_schema中表的信息,其实都是通过system column family中的元数据构造出来的,同时在mysqld启动时,也会构造一份元数据存储在内存中,方便快速检索查询。下面我会列出RocksDB数据字典的几种类型,并列出每种类型KV对的形式。
// Data dictionary types

1). DDL_ENTRY_INDEX_START_NUMBER
表和索引之间的映射关系
key: Rdb_key_def::DDL_ENTRY_INDEX_START_NUMBER(0x1) + dbname.tablename
value: version + {global_index_id}*n_indexes_of_the_table

2). INDEX_INFO
索引id和索引属性的关系
key: Rdb_key_def::INDEX_INFO(0x2) + global_index_id
value: version, index_type, key_value_format_version

index_type:主键/二级索引/隐式主键
key_value_format_version: 记录存储格式的版本

3). CF_DEFINITION
column family属性
key: Rdb_key_def::CF_DEFINITION(0x3) + cf_id
value: version, {is_reverse_cf, is_auto_cf}

is_reverse_cf: 是否是reverse column family
is_auto_cf: column family名字是否是$per_index_cf,名字自动由table.indexname组成

4). BINLOG_INFO_INDEX_NUMBER
binlog位点及gtid信息,binlog_commit更新此信息
key: Rdb_key_def::BINLOG_INFO_INDEX_NUMBER (0x4)
value: version, {binlog_name,binlog_pos,binlog_gtid}

5). DDL_DROP_INDEX_ONGOING
删除的索引任务
key: Rdb_key_def::DDL_DROP_INDEX_ONGOING(0x5) + global_index_id
value: version

6). INDEX_STATISTICS
索引统计信息
key: Rdb_key_def::INDEX_STATISTICS(0x6) + global_index_id
value: version, {materialized PropertiesCollector::IndexStats}

7). MAX_INDEX_ID
当前的index_id,每次创建索引index_id都从这个获取和更新
key: Rdb_key_def::CURRENT_MAX_INDEX_ID(0x7)
value: version, current max index id

8). DDL_CREATE_INDEX_ONGOING
待创建的索引任务
key: Rdb_key_def::DDL_CREATE_INDEX_ONGOING(0x8) + global_index_id
value: version

DDL流程
RocksDB引擎并没有类似InnoDB引擎的增量row_log机制,因此MyRocks还不支持Online DDL,只是对部分DDL操作支持了inplace方式,从check_if_supported_inplace_alter接口实现可知,对于DROP_INDEX, DROP_UNIQUE_INDEX和ADD_INDEX这三个操作,可以通过inplace的方式完成DDL,inplace方式的优点就是不需要拷贝表,间接减少了锁表时间,其它操作都只能通过重建表的方式来实现。下面我以inplace的方式说明DDL的执行流程,copy方式相对会更简单一些。总的入口函数是mysql_inplace_alter_table,主要包含4个阶段。
1).检查存储引擎是否支持inplace的DDL操作
接口:ha_rocksdb::check_if_supported_inplace_alter
MyRocks支持inplace方式操作类型是HA_ALTER_INPLACE_SHARED_LOCK_AFTER_PREPARE,意味着执行DDL过程中会堵塞写。
2).准备阶段
接口:ha_rocksdb::prepare_inplace_alter_table
对于 RocksDB引擎来说,支持inplace方式主要是添加和删除索引,因此这个过程主要做的事情是搜集需要添加、删除的索引信息。涉及到数据字典操作具体入口函数是create_key_defs,最终调用create_key_def接口,每个索引对应一个Rdb_key_def对象。这里涉及到一个主要操作是为索引产生全局有序的index_id(ddl_manager.get_and_update_next_number)。

3).执行阶段
接口:ha_rocksdb::inplace_alter_table
这里主要是添加二级索引操作,具体实现在inplace_populate_sk接口。主要包括两部分内容,更新数据字典和创建索引。
a.更新数据字典
数据字典维护通过最终通过接口start_ongoing_index_operation完成,为新建索引构造KV对,写入system column family。
,所有添加的索引的KV对会作为一个事务commit,表示一批待创建索引的任务。

b.创建索引
接下来就是真正创建索引的操作,通过遍历PK索引,构造出新增二级索引的格式记录,然后写入索引,主要实现接口在update_sk里。由于RockDB行锁实现中,每个key对应一把锁,并且锁对象不能复用,因此锁消耗的总内存与key大小和key数量相关,为了保证系统运行中内存可控,一般开启rocksdb_commit_in_the_middle避免大事务。因此这个这个过程也会触发是否提前提交事务的检查,主要实现接口在do_bulk_commit里面。

4).提交或回滚阶段
接口:commit_inplace_alter_table
a.处理待删除的索引,最终通过接口start_ongoing_index_operation(drop)完成。
b.对于新增索引,写入索引字典信息
c.写入表和索引的映射关系
对表进行alter操作后,会增一些索引,并删除一些索引,因此表对应的索引关系需要重建,主要实现接口在Rdb_tbl_def::put_dict里面。
第1),2),3)涉及的字典操作整个作为一个事务提交。

d.维护数据字典在内存中对象m_ddl_hash。
主要工作是从hash表中摘掉老的tbl对象,写入新的tbl对象,主要实现接口在Rdb_ddl_manager::put里面。

e.清理DDL_CREATE_INDEX_ONGOING标记。
正常执行到这里,表示新建的索引已经成功执行,需要清理DDL_CREATE_INDEX_ONGOING标记。主要实现接口在finish_indexes_operation里面,最终调用end_ongoing_index_operation将之前加入的KV对进行删除动作。
(DDL_CREATE_INDEX_ONGOING,cf_id,index_id)->(DDL_CREATE_INDEX_ONGOING_VERSION),并将整个操作作为一个事务commit。我们可以看到,整个过程已经执行完毕,但并没有看到哪里将删除的索引真正清理掉,RocksDB里面删除索引实质是一个异步的过程,真正删除索引的动作通过后台线程Rdb_drop_index_thread完成。所以,到这里会主动触发一次唤醒rdb_drop_idx_thread的动作,告知线程有活干了。

Rdb_drop_index_thread工作流程
1).获取待删除索引列表key=(DDL_DROP_INDEX_ONGOING)
2).逐一遍历每个需要删除的索引,按照(index_id,index_id+1)key范围来删除记录
3).并调用CompactRange触发合并
4).通过index_id来查找key,若不存在index-id相同的key,则认为index已经被清理
5).最后调用finish_indexes_operation(DDL_DROP_INDEX_ONGOING)清理待删除索引标记,并将索引字典信息从数据字典中删除,具体实现参考delete_index_info。

DDL异常处理
从上述的实现来看,我们执行一个DDL操作,除了本身索引操作的事务,涉及数据字典的操作的事务也有好几个,所以整个DDL操作并不是一个原子操作。比如在执行阶段的第1步,字典相关的操作提交后,实例crash了,那么这些字典操作内容就残留在system Column family中了,但从业务角度来看,并不影响。上面介绍的mysql_inplace_alter_table包含了DDL的主要执行过程,实际上,在此之前还会通过mysql_prepare_alter_table创建临时表定义frm文件,(文件名一般以#sql开头),该文件包含了目标表的schema定义;并在DDL结束的时候,通过mysql_rename_table更新为目标表名.frm。如果在rename之前,实例crash了,就会导致frm文件的内容仍然是老版本,但RocksDB引擎字典已经更新。从表现形式来看,就会发现show create table xxx,显示的索引内容与information_schema.ROCKSDB_DDL的数据字典不一致。前面讨论的两种情况都是inplace方式带来的问题,对于copy方式,由于需要重建表,会将临时表#sqlxxx的信息写入数据字典,如果这个动作完成后,实例crash,会导致数据字典中残留有临时表的信息。mysqld重启时,会根据字典的信息检查表是否存在,主要通过接口validate_schemas实现,具体而言,通过数据字典中的表名查找对应的frm文件,并且查找过程中会忽略#开头的临时frm文件,因此会导致只要数据字典中包含了临时表的字典信息,则会导致mysqld启动失败,并报如下错误。

如果想正常启动,可以临时通过参数rocksdb_validate_tables=2设置忽略这个错误,毕竟临时表的数据字典不影响业务表的使用。从我这里分析来看,目前DDL在异常处理这块还处理的不够好,根本原因还在于DDL不是一个原子操作,server层和引擎层的修改在某些情况下无法保持一致,导致问题出现。

相关实现文件和接口
storage/rocksdb/rdb_datadic.cc //数据字典相关代码
storage/rocksdb/rdb_i_s.cc //information_schema相关代码
myrocks::ha_rocksdb::inplace_populate_sk //更新二级索引
Rdb_dict_manager::get_max_index_id //获取最大index_id
ha_rocksdb::check_if_supported_inplace_alter //检查是否支持inplace
myrocks::ha_rocksdb::create //copy方式建表接口
myrocks::ha_rocksdb::create_key_def //建立key对象
myrocks::Rdb_ddl_manager::get_and_update_next_number //获取下一个index_id
Rdb_dict_manager::start_ongoing_index_operation //添加一个建立/删除索引的任务

Original: https://www.cnblogs.com/cchust/p/6716823.html
Author: 天士梦
Title: MyRocks DDL原理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/591736/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • springboot~ApplicationContextAware与@Autowired注解

    ApplicationContextAware是一个接口,它提供一个方法setApplicationContext,当spring注册完成之后,会把ApplicationConte…

    数据库 2023年6月6日
    082
  • Mysql客户端的安装

    Mysql数据库(简称)属于C/S架构,正常工作中一般都会提供服务端,我们只需要安装客户端进行查询修改数据等操作即可。 在正常工作中,无论是测试人员还是开发人员,总数据库管理员(测…

    数据库 2023年5月24日
    088
  • Azkaban快速入门

    因为之前自己工作中有用过Azkaban作为自动化任务调度工具,所以想参考自己之前的使用经验,总结一下关于Azkaban的使用,方便大家使用Azkaban快速实现企业级自动化任务 如…

    数据库 2023年6月11日
    094
  • JavaWeb核心篇(3)——JSP,MVC,三层架构

    JavaWeb核心篇(3)——JSP,MVC,三层架构 在本篇文章中我们会学习到JSP,MVC,三层架构 虽然JSP已经快被时代所淘汰,但是在一些老旧的工作场所还是有在使用,所以了…

    数据库 2023年6月14日
    069
  • 第十七章 AOP编程

    1.AOP概念 AOP(Aspect Oriented Programing) 面向切面编程 = Spring动态代理开发 以切面为基本单位的程序开发,通过切面间的相互协同,相互调…

    数据库 2023年6月14日
    095
  • mysql进阶

    1.二进制格式mysql安装 下载二进制格式的mysql软件包 [root@localhost ~]# cd /usr/src/ [root@localhost src]# wge…

    数据库 2023年5月24日
    086
  • centos8 安装python

    镜像:CentOS Linux release 8.5.0-13 python下载地址:Python Source Releases | Python.org 选择所需要的版本,我…

    数据库 2023年6月11日
    0106
  • Spring Boot MongoDB

    Linux下启动MongoDB并使用mongosh连接 启动方式有两种: systemctl start mongod mongod 启动的时候有可能会报类似如下的错误: Exec…

    数据库 2023年6月14日
    085
  • 为Typora配置Gitee图床

    安装Typora 官网下载直接安装:https://www.typora.io/#download 编辑Typora图像设置 说明: 打开:文件–>偏好设置&#8…

    数据库 2023年6月11日
    0156
  • git仓库push 和 pull只获取部分文件的方法

    gitee项目https://gitee.com/kehaoo/mytest目录结构如下其中part1.txt和part2.txt都是内容都是空的 在另一个文件夹将项目part1文…

    数据库 2023年6月11日
    099
  • 微信小程序二维码

    一、获取小程序码的三个接口 不同的接口对应不同的业务场景,接口B用的较多,接口C官方不推荐使用,也就是说根据需码量来决定选择A接口还是B接口。 (1)、接口 A: 适用于需要的码数…

    数据库 2023年6月6日
    0120
  • 容器化 | 在 KubeSphere 中部署 MySQL 集群

    程润科数据库研发工程师,目前从事 RadonDB MySQL Kubernetes 研发,热衷于研究数据库内核、K8s 相关技术。张莉梅高级文档工程师,目前负责数据库产品文档的开发…

    数据库 2023年5月24日
    087
  • JavaWeb 07_创建web项目连接MySQL实现注册登录功能

    一、创建一个web项目,参照JW/01_创建web项目及部署 二、在NAVICat 里建数据库 db_01,建表tb_user ,字段UName 、Pwd 三、在web下创建一个D…

    数据库 2023年5月24日
    073
  • MySQL操作题(mysql_V20190307)

    DB操作题(mysql_V20190307) 登陆数据库 MYSQL -H LOCALHOST -U ROOT -P 创建DEMO01数据库 CREATE DATABASE DEM…

    数据库 2023年6月9日
    059
  • 努力的去帮助他人

    天道运而无所积,故万物成;帝道运而无所积,故天下归;–庄子《天道篇》 知识分享才能成长,财富流动才能更多;努力的去帮助每一个人,自己也会收获更多的快乐;不要为生活琐事在…

    数据库 2023年6月16日
    089
  • 16-ArrayList和LinkedList的区别

    1.1、作用 ArrayList和LinkedList都是实现了List接口的容器类,用于存储一系列的对象引用。它们可以对元素的增删改查进行操作 对于ArrayList,它在集合的…

    数据库 2023年6月16日
    079
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球