实现一个简单的Database1(译文）

2023年6月11日上午2:56 • 数据库 • 阅读 106

“What I cannot create, I do not understand.” – Richard Feynman

I’m building a clone of sqlite from scratch in C in order to understand, and I’m going to document my process as I go.

译注：cstsck在github维护了一个简单的、类似sqlite的数据库实现，通过这个简单的项目，可以很好的理解数据库是如何运行的，实现教程原文是英文，共有13篇，这里翻译过来以飨读者。原文标题：Let’s Build a Simple Database，本文是第一篇

Part 1 介绍&设置REPL

作为一名开发人员，在工作中我每天都使用关系型数据库。但是对我来说，它们是一个黑盒。我有一些问题：

数据存储使用什么格式？（在内存与磁盘中）
数据什么时候从内存转移到磁盘？
为什么每张表只能有一个主键？
事务回滚是怎么工作的？
索引是什么格式的？
全表扫描时什么时候发生，如何发生的？
预处理语句（prepared statement）是使用什么格式存储的？

换句话说，数据库是怎么工作的？

为了弄清楚这些，我从头写了一个数据库。它是模仿sqlite实现的，因为sqlite设计小巧，并且相比于MySQL和PostgreSQL，它的功能相对要少很多，所以我希望能更容易的理解它。在实现上，整个数据库都存储在一个数据文件中。

Sqlite

在sqlite的网站上，有很多sqlite的内部文档（https://www.sqlite.org/arch.html）。另外我还拷贝了文档（SQLite Database System: Design and Implementation.）的一个副本（https://play.google.com/store/books/details?id=9Z6IQQnX1JEC）。

sqlite architecture

(https://www.sqlite.org/zipvfs/doc/trunk/www/howitworks.wiki)

一个查询通过组件链来获取数据或者修改数据。前端如下组件：

分词器(tokenizer)
解析器（parser）
代码生成器（code generator）

前端的输入是SQL语句。输出则是sqlite的虚拟机字节码（sqlite virtual machine bytecode），本质上是一个可以在数据库运行的编译程序。

译注：数据库实现查询优化模型分为传统的火山模型（Volcano model）与Code gen模型，本文作者实现的是code gen模型。

后端包括如下组件：

虚拟机（virtual machine）
B-tree
页管理（pager）
系统接口（os interface）

virtual machine

虚拟机将前端生成的字节码作为指令。它接下来可以在一个或更多的表、索引上执行操作，表以及索引都是存储在叫B-tree的数据结构中。VM 本质上是字节码指令类型的一个大开关语句（a big switch statement on the type of bytecode instruction）。

B-tree

每个B-tree许多节点。每个节点是一个page的长度。B-tree可以通过执行命令到pager，从磁盘获取一个page或者保存回page到磁盘。

pager

pager接收命令来读取或者写入数据的pages。它是负责来读、写数据库文件的适当偏移位置。也负责保持当前访问的pages在内存中，并且决定何时这些pages需要写回磁盘。

os interface

系统接口与sqlite根据不同操作系统平台来编译不同，在这个系列教程中，我不准备去支持多平台适配。

千里之行始于足下，所以我们从一些简单的事开始：REPL

实现简单的REPL

译注：REPL，Read – Execute – Print – Loop，即读取 – 执行 – 打印输出 – 循环，这个过程。有时候翻译成交互式解释器
当你执行命令行命令时，sqlite开始读取-执行-打印循环：

~ sqlite3
SQLite version 3.16.0 2016-11-04 19:09:39
Enter ".help" for usage hints.

Connected to a transient in-memory database.

Use ".open FILENAME" to reopen on a persistent database.

sqlite> create table users (id int, username varchar(255), email varchar(255));
sqlite> .tables
users
sqlite> .exit
~

为了实现这样的效果，我们的主程序需要有一个无限循环来打印这个提示，获取一行输入，然后处理这行输入：

int main(int argc, char* argv[]) {
  InputBuffer* input_buffer = new_input_buffer();
  while (true) {
    print_prompt();
    read_input(input_buffer);

    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      close_input_buffer(input_buffer);
      exit(EXIT_SUCCESS);
    } else {
      printf("Unrecognized command '%s'.\n", input_buffer->buffer);
    }
  }
}

我们定义一个InputBuffer来作为一个封装，封装围绕在我们需要存储的、与getline()函数交互的状态（稍后将对此进行详细介绍）

typedef struct {
  char* buffer;
  size_t buffer_length;
  ssize_t input_length;
} InputBuffer;

InputBuffer* new_input_buffer() {
  InputBuffer* input_buffer = (InputBuffer*)malloc(sizeof(InputBuffer));
  input_buffer->buffer = NULL;
  input_buffer->buffer_length = 0;
  input_buffer->input_length = 0;

  return input_buffer;
}

接下来， print_prompt()函数为用户打印出提示。在做这个之前需要读取每一行输入。

void print_prompt() { printf("db > "); }

读取命令行输入，需要使用getline()函数:

ssize_t getline(char **lineptr, size_t *n, FILE *stream);

（以下为getline的函数释义）

lineptr：

一个指针指向我们在buffer中包含的，从命令行读取的命令的变量。如果设置为NULL，它由getline()函数分配内存。并且后续由用户来释放，即使命令行的命令执行失败也能保证会被释放已分配的内存。

n：

一个指针变量，指向已经分配内存的buffer的大小（size）。

stream：

读取的输入流，这里是从标准输入读取的。

return value（返回值，ssize_t类型）:

读取的字节数量，可能会比buffer的size小。

我们告诉getline()函数保存读取的命令行到 input_buffer->buffer，存储buffer的size到 input_buffer->buffer_length，保存返回值到 input_buffer->input_length。

buffer 在初始时是null，所以getline()函数分配足够的内存来存输入的命令行数据然后让buffer来指向这些数据。

void read_input(InputBuffer* input_buffer) {
  ssize_t bytes_read =
      getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);

  if (bytes_read <= 0) { printf("error reading input\n"); exit(exit_failure); } ignore trailing newline input_buffer->input_length = bytes_read - 1;
  input_buffer->buffer[bytes_read - 1] = 0;
}
</=>

现在就可以定义一个函数来释放已分配给InputBuffer*实例和buffer中元素各自的数据结构的内存了（在read_input()函数中，调用getline()函数为 input_buffer->buffer 分配内存）。

void close_input_buffer(InputBuffer* input_buffer) {
    free(input_buffer->buffer);
    free(input_buffer);
}

在最后，我们解析并执行命令。现在这只是一个认可的命令：.exit，一个终止程序的命令。除此之外的命令，我们打印一个报错信息然后继续程序的循环。

if (strcmp(input_buffer->buffer, ".exit") == 0) {
  close_input_buffer(input_buffer);
  exit(EXIT_SUCCESS);
} else {
  printf("Unrecognized command '%s'.\n", input_buffer->buffer);
}

让我们来试试吧！

~ ./db
db > .tables
Unrecognized command '.tables'.

db > .exit
~

好了，我们得到了一个可以工作的REPL。在下一部分，我们将开始开发我们的命令语言。同时，下面是是这部分的全部程序代码：

#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

typedef struct {
  char* buffer;
  size_t buffer_length;
  ssize_t input_length;
} InputBuffer;

InputBuffer* new_input_buffer() {
  InputBuffer* input_buffer = malloc(sizeof(InputBuffer));
  input_buffer->buffer = NULL;
  input_buffer->buffer_length = 0;
  input_buffer->input_length = 0;

  return input_buffer;
}

void print_prompt() { printf("db > "); }

void read_input(InputBuffer* input_buffer) {
  ssize_t bytes_read =
      getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);

  if (bytes_read <= 0) { printf("error reading input\n"); exit(exit_failure); } ignore trailing newline input_buffer->input_length = bytes_read - 1;
  input_buffer->buffer[bytes_read - 1] = 0;
}

void close_input_buffer(InputBuffer* input_buffer) {
    free(input_buffer->buffer);
    free(input_buffer);
}

int main(int argc, char* argv[]) {
  InputBuffer* input_buffer = new_input_buffer();
  while (true) {
    print_prompt();
    read_input(input_buffer);

    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      close_input_buffer(input_buffer);
      exit(EXIT_SUCCESS);
    } else {
      printf("Unrecognized command '%s'.\n", input_buffer->buffer);
    }
  }
}
</=></string.h></stdlib.h></stdio.h></stdbool.h>

Enjoy GreatSQL 😃

关于 GreatSQL

GreatSQL是由万里数据库维护的MySQL分支，专注于提升MGR可靠性及性能，支持InnoDB并行查询特性，是适用于金融级应用的MySQL分支版本。

相关链接： GreatSQL社区 Gitee GitHub Bilibili

GreatSQL社区：

欢迎来GreatSQL社区发帖提问
https://greatsql.cn/

技术交流群：

微信：扫码添加 GreatSQL社区助手微信好友，发送验证信息 加群。

Original: https://www.cnblogs.com/greatsql/p/16706642.html
Author: GreatSQL
Title: 实现一个简单的Database1(译文）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/598636/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mysql性能调优-工具篇

首先祭出官方文档（这是5.7的，请自行选择版本）：如果你不想读英语，只需阅读这篇文章： [En] If you don’t want to read English,…

数据库 2023年5月24日
0082
Component name “Login“ should always be multi-word

在运行vue项目的时候，看到此提示这是因为没有关闭elint提示的错误，在vue.config.js下添加代码 lintOnSave: false Original: https…

数据库 2023年6月11日
0081
Question03-查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩

* SELECT stu.SID, stu.Sname, CAST(AVG(sc.score) AS DECIMAL(18,2)) avg_score FROM Student s…

数据库 2023年6月16日
0069
IDEA中tomcat插件版本7中文乱码问题

tomcat插件版本7中文乱码问题 IDEA中tomcat插件版本7中文乱码问题问题描述: 因为idea中tomcat插件版本只到7,他的默认解码方式为:ISO-8859-1,又…

数据库 2023年6月16日
0079
Hadoop生态一—分布式文件系统HDFS

分布式文件系统: 统一管理分布在集群上的文件系统设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；在大数据系统中作…

数据库 2023年6月6日
0089
flowable 查询、完成、作废、删除任务

/** * 查询我的任务 * from fhadmin.cn * @param USERNAME * @return 返回任务列表 */ protected List findMy…

数据库 2023年6月6日
00211
响应式编程-入门介绍

概念与传统编程模型对比传统编程模型，主要特点是同步阻塞式-Blocking; 而响应式编程（Reactive Programming）主要特点是异步非阻塞 Non-Blo…

数据库 2023年6月11日
00110
译文 | MySQL 8.0 密码管理策略（一）

MySQL 8.0 在密码管理方面有很多改善，本文将介绍以下两个特性。密码重用策略生成随机密码简单地说，当您设置新密码时，您可以限制使用以前使用的密码。有两种策略： [En]…

数据库 2023年5月24日
0082
Jmeter性能测试场景的创建和运行

目录性能测试场景的分析项目背景 Jmeter指标性能测试场景的设计以及准备 * 性能测试的总结性能测试场景的分析项目背景实际工作中，我们拿到一个项目一般来说都会是项…

数据库 2023年6月6日
0092
数据库持久化+JDBC数据库连接

数据持久化就是将内存中的数据模型转换为存储模型，以及将存储模型转换为内存中的数据模型的统称。数据模型可以是任何数据结构或对象模型，存储模型可以是关系模型、XML、二进制流等。 …

数据库 2023年6月16日
00123
红黑树添加删除

上一篇写了234树对比红黑树,和红黑树某些情况需要调整的原因,这篇就只写红黑树的添加和删除红黑树 JAVA技术交流群:737698533 性质每个节点要么红色要么黑色根节点是…

数据库 2023年6月16日
0054
sed与awk命令

1.1 sed命令语法在看单个命令以前，需要回顾一下关于所有sed命令的两点语法。在上一个章中，我们介绍了其大部分内容。行地址对于任何命令都是可选的。它可以使一个模式，被描述为由…

数据库 2023年6月14日
00105
IPFS 集群部署

IPFS 和 IPFS-Cluster 默认的端⼝:IPFS： 4001 – 与其他节点通信端⼝ 5001 – API server 8080 – Gateway server I…

数据库 2023年6月9日
0082
JavaWeb 07_创建web项目连接MySQL实现注册登录功能

一、创建一个web项目，参照JW/01_创建web项目及部署二、在NAVICat 里建数据库 db_01,建表tb_user ,字段UName 、Pwd 三、在web下创建一个D…

数据库 2023年5月24日
0076
CISCN2022初赛misc wp

ez_usb usb流量题，与以前的鼠标流量和键盘流量有所区别，但大同小异导出所有的HID数据并按照ip分类，之后脚本解码得到压缩包和密码 mappings = { "…

数据库 2023年6月11日
00118
Linux–>组管理和权限管理

在Linux中的每一个用户必须属于一个组，不能独立于组外。在Linux中每个文件有，所有者，所在组，其他组的概念查看文件的所有者 ls -ahl 举例: 改变文件所有者 …

数据库 2023年6月14日
00138

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31