基于LSM的Key-Value数据库实现稀疏索引篇

2023年5月25日下午10:19 • Go语言 • 阅读 71

上篇文章简单的填了一个坑基于LSM数据库的实现了WAL，在该版本中如数据写入到内存表的同时将未持久化的数据写入到WAL文件，在未将数据持久化时程序崩溃，可通过WAL文件将数据还原恢复从而避免了数据的丢失。
目前此基于LSM的数据库还有三大坑：
1、索引问题
2、SSTable合并问题
3、单机版本问题；
本篇文章将解决其中的一个坑， 索引问题；

索引问题

到目前为止还没有详细解释当前系统的索引问题到底是什么，不解决会导致什么问题；目前系统在写入数据将数据持久化到SSTable文件并写每一个SSTable文件对应的索引数据时是为每个数据项Key都记录了相应的索引数据，此时的索引为 全量索引；
全量索引就会导致索引文件快速增大，索引文件过大后维护的性能、查询性能就会大幅下降；索引此时需要解决索引文件快速增大问题；这里引入了： 稀疏索引，稀疏索引也是业内比较常见，普遍用到的数据结构；下面详细介绍对比全量索引与 稀疏索引的区别；

全量索引树为每个key存储对应的key在数据文件中的起始位置、数据项长度，导致其索引结构无比庞大；

经过优化，此稀疏索引树结构每隔指定间隔才存储一个索引项；
存储的数据为每个间隔区间的所有key数据，Key为该批的第一个key，值为此批次的：起始位置、批次数据项长度，使得索引结构容量大大减少；
本图为间隔两个Key存储一个索引；

节点AAA： 存储AAA、CCC数据索引
节点DDD： 存储DDD、EEE数据索引
节点HHH： 存储HHH数据索引
节点FFF： 存储FFF、GGG数据索引

索引查询

此时稀疏索引的存储结构方式已经解决，在查询与之前也有不少区别；
全量索引：使用key在索引树查找对应数据项，根据索引存储的start、length去对应的数据文件读取相应的数据；
稀疏索引：在索引树中查找最后一个小于所查询key的key节点、第一个大于所查询key的key节点，使用该节点存储的start、length去对应数据文件读取相应的数据块，从中对比查找出所查询的key；

经过此次索引结构的优化，又填了一大坑，还有两大坑待解决：
1、SSTable合并问题
2、单机版本问题；

文章首发地址：https://mp.weixin.qq.com/s/YyXoePq7FamfnfRg0K6-yA

Original: https://www.cnblogs.com/softlin/p/15943529.html
Author: AiFly
Title: 基于LSM的Key-Value数据库实现稀疏索引篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516430/

转载文章受原作者版权保护。转载请注明原作者出处！

Go语言

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【golang】pprof性能调优工具的具体使用(带案例)

前言大晚上的，老是刷到有关pprof的文章，忍不住看了几篇文章…写个学习笔记记录下~ 正文: 1.pprof是什么? pprof是go内置的性能调优工具，可以借助一些…

Go语言 2023年5月25日
0067
【golang】多个defer的执行顺序以及其相关练习

前言做了几道关于defer的测试题，吓了一大跳，感觉自己之前的理解有些问题，所以写下这篇博客，加深下印象。正文: 多个defer的执行顺序：先进后出，类似于栈的特性。下面我…

Go语言 2023年5月25日
0039
Go 语言实现 gRPC 的发布订阅模式，REST 接口和超时控制

在多个平台的阅读量都创了新高，在 oschina 更是获得了首页推荐，阅读量到了 1w+，这已经是我单篇阅读的高峰了。看来只要用心写还是有收获的。这篇咱们还是从实战出发，主要介…

Go语言 2023年5月25日
0061
Badger简单使用

badger 是 dgraph 开源的 LSMTree 的 KV 引擎，它相比 leveldb 有 KV 分离、事务、并发合并等增强，是 go 生态中比较生产级的存储引擎了。要开…

Go语言 2023年5月25日
0056
Ebiten-纯Golang开发的跨平台游戏引擎

Go语言不是让你玩的啊喂! 昨天跟好基友聊开发的事,他说他等着闲下来的时候就用 PYGame写个像那个最近挺火的”文X游X”一样的游戏.(没收广告费啊!) …

Go语言 2023年5月25日
0072
惨，给Go提的代码被批麻了

hello大家好，我是小楼。不知道大家还记不记得我上次找到了一个Go的Benchmark执行会超时的Bug？就是这篇文章《我好像发现了一个Go的Bug？》。之后我就向Go提交了…

Go语言 2023年5月25日
0070
go入门项目：(1) 基于命令行的图书的增删查改

Go 语言入门练手项目系列 01 基于命令行的图书的增删查改 02 文件管理持续更新中… 本文来自博客园，作者：Arway，转载请注明原文链接：https://www…

Go语言 2023年5月25日
0051
Golang Zap日志

Zap日志解析 Config.yaml zap: level: ‘info’ #日志级别 format: ‘console’ #输出的级别，有console和json prefix…

Go语言 2023年5月25日
0062
go-containerregistry 实战篇之容器镜像下载

go-containerregistry 实战篇之容器镜像下载一、库介绍 go-containerregistry 是 google 公司开源的用于处理容器镜像的golang客户…

Go语言 2023年5月25日
0057
第十五章：指针类型

本篇翻译自《Practical Go Lessons》 Chapter 15: Pointer type 1 你将在本章将学到什么？什么是指针？什么时指针类型？如何去创建并使…

Go语言 2023年5月25日
0053
go-micro集成链路跟踪的方法和中间件原理

前几天有个同学想了解下如何在go-micro中做链路跟踪，这几天正好看到wrapper这块，wrapper这个东西在某些框架中也称为中间件，里边有个opentracing的插件，正…

Go语言 2023年5月25日
0054
golang tcp keepalive研究记录（基于websocket）

服务器和客户端建立tcp连接以后，客户端/服务器如何知道对方是否挂掉了？这时候TCP协议提出一个办法，当客户端端等待超过一定时间后自动给服务端发送一个空的报文，如果对方回复了这个…

Go语言 2023年5月25日
0039
go-micro使用Consul做服务发现的方法和原理

go-micro v4默认使用mdns做服务发现。不过也支持采用其它的服务发现中间件，因为多年来一直使用Consul做服务发现，为了方便和其它服务集成，所以还是选择了Consul。…

Go语言 2023年5月25日
0080
sync：二. 延迟初始化(once)

sync.Once 是 Go 标准库提供的使函数只执行一次的实现。作用与 init 函数类似，但有区别。在某些情况下预先初始化一个变量会增加函数的启动延迟，如果实际执行时可能用不上…

Go语言 2023年5月25日
0065
Excelize 发布 2.6.0 版本，功能强大的 Excel 文档基础库

Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库，基于 ECMA-376，ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Mic…

Go语言 2023年5月25日
0073
GopherCon SG 2019 “Understanding Allocations” 学习笔记

本篇是根据 GopherCon SG 2019 “Understanding Allocations” 演讲的学习笔记。 Understanding All…

Go语言 2023年5月25日
0035

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于LSM的Key-Value数据库实现稀疏索引篇

索引问题

索引查询

大家都在看