实现一个简单的Database1(译文)

“What I cannot create, I do not understand.” – Richard Feynman

I’m building a clone of sqlite from scratch in C in order to understand, and I’m going to document my process as I go.

译注:cstsck在github维护了一个简单的、类似sqlite的数据库实现,通过这个简单的项目,可以很好的理解数据库是如何运行的,实现教程原文是英文,共有13篇,这里翻译过来以飨读者。原文标题:Let’s Build a Simple Database,本文是第一篇

Part 1 介绍&设置REPL

作为一名开发人员,在工作中我每天都使用关系型数据库。但是对我来说,它们是一个黑盒。我有一些问题:

  • 数据存储使用什么格式? (在内存与磁盘中)
  • 数据什么时候从内存转移到磁盘?
  • 为什么每张表只能有一个主键?
  • 事务回滚是怎么工作的?
  • 索引是什么格式的?
  • 全表扫描时什么时候发生,如何发生的?
  • 预处理语句(prepared statement)是使用什么格式存储的?

换句话说,数据库是怎么工作的?

为了弄清楚这些,我从头写了一个数据库。它是模仿sqlite实现的,因为sqlite设计小巧,并且相比于MySQL和PostgreSQL,它的功能相对要少很多,所以我希望能更容易的理解它。在实现上,整个数据库都存储在一个数据文件中。

Sqlite

在sqlite的网站上,有很多sqlite的内部文档(https://www.sqlite.org/arch.html)。另外我还拷贝了文档(SQLite Database System: Design and Implementation.)的一个副本(https://play.google.com/store/books/details?id=9Z6IQQnX1JEC)。

实现一个简单的Database1(译文)

sqlite architecture

(https://www.sqlite.org/zipvfs/doc/trunk/www/howitworks.wiki)

一个查询通过组件链来获取数据或者修改数据。前端如下组件:

  • 分词器(tokenizer)
  • 解析器(parser)
  • 代码生成器(code generator)

前端的输入是SQL语句。输出则是sqlite的虚拟机字节码(sqlite virtual machine bytecode),本质上是一个可以在数据库运行的编译程序。

译注:数据库实现查询优化模型分为传统的火山模型(Volcano model)与Code gen模型,本文作者实现的是code gen模型。

后端包括如下组件:

  • 虚拟机(virtual machine)
  • B-tree
  • 页管理(pager)
  • 系统接口(os interface)

virtual machine

虚拟机将前端生成的字节码作为指令。它接下来可以在一个或更多的表、索引上执行操作,表以及索引都是存储在叫B-tree的数据结构中。VM 本质上是字节码指令类型的一个大开关语句(a big switch statement on the type of bytecode instruction)。

B-tree

每个B-tree许多节点。每个节点是一个page的长度。B-tree可以通过执行命令到pager,从磁盘获取一个page或者保存回page到磁盘。

pager

pager接收命令来读取或者写入数据的pages。它是负责来读、写数据库文件的适当偏移位置。也负责保持当前访问的pages在内存中,并且决定何时这些pages需要写回磁盘。

os interface

系统接口与sqlite根据不同操作系统平台来编译不同,在这个系列教程中,我不准备去支持多平台适配。

千里之行始于足下,所以我们从一些简单的事开始:REPL

实现简单的REPL

译注:REPL,Read – Execute – Print – Loop,即读取 – 执行 – 打印输出 – 循环,这个过程。有时候翻译成交互式解释器
当你执行命令行命令时,sqlite开始读取-执行-打印循环:

~ sqlite3
SQLite version 3.16.0 2016-11-04 19:09:39
Enter ".help" for usage hints.

Connected to a transient in-memory database.

Use ".open FILENAME" to reopen on a persistent database.

sqlite> create table users (id int, username varchar(255), email varchar(255));
sqlite> .tables
users
sqlite> .exit
~

为了实现这样的效果,我们的主程序需要有一个无限循环来打印这个提示,获取一行输入,然后处理这行输入:

int main(int argc, char* argv[]) {
  InputBuffer* input_buffer = new_input_buffer();
  while (true) {
    print_prompt();
    read_input(input_buffer);

    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      close_input_buffer(input_buffer);
      exit(EXIT_SUCCESS);
    } else {
      printf("Unrecognized command '%s'.\n", input_buffer->buffer);
    }
  }
}

我们定义一个InputBuffer来作为一个封装,封装围绕在我们需要存储的、与getline()函数交互的状态(稍后将对此进行详细介绍)

typedef struct {
  char* buffer;
  size_t buffer_length;
  ssize_t input_length;
} InputBuffer;

InputBuffer* new_input_buffer() {
  InputBuffer* input_buffer = (InputBuffer*)malloc(sizeof(InputBuffer));
  input_buffer->buffer = NULL;
  input_buffer->buffer_length = 0;
  input_buffer->input_length = 0;

  return input_buffer;
}

接下来, print_prompt()函数为用户打印出提示。在做这个之前需要读取每一行输入。

void print_prompt() { printf("db > "); }

读取命令行输入,需要使用getline()函数:

ssize_t getline(char **lineptr, size_t *n, FILE *stream);

(以下为getline的函数释义)

lineptr:

一个指针指向我们在buffer中包含的,从命令行读取的命令的变量。如果设置为NULL,它由getline()函数分配内存。并且后续由用户来释放,即使命令行的命令执行失败也能保证会被释放已分配的内存。

n:

一个指针变量,指向已经分配内存的buffer的大小(size)。

stream:

读取的输入流,这里是从标准输入读取的。

return value(返回值,ssize_t类型):

读取的字节数量,可能会比buffer的size小。

我们告诉getline()函数保存读取的命令行到 input_buffer->buffer,存储buffer的size到 input_buffer->buffer_length,保存返回值到 input_buffer->input_length。

buffer 在初始时是null,所以getline()函数分配足够的内存来存输入的命令行数据然后让buffer来指向这些数据。

void read_input(InputBuffer* input_buffer) {
  ssize_t bytes_read =
      getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);

  if (bytes_read <= 0) { printf("error reading input\n"); exit(exit_failure); } ignore trailing newline input_buffer->input_length = bytes_read - 1;
  input_buffer->buffer[bytes_read - 1] = 0;
}
</=>

现在就可以定义一个函数来释放已分配给InputBuffer*实例和buffer中元素各自的数据结构的内存了(在read_input()函数中,调用getline()函数为 input_buffer->buffer 分配内存)。

void close_input_buffer(InputBuffer* input_buffer) {
    free(input_buffer->buffer);
    free(input_buffer);
}

在最后,我们解析并执行命令。现在这只是一个认可的命令:.exit,一个终止程序的命令。除此之外的命令,我们打印一个报错信息然后继续程序的循环。

if (strcmp(input_buffer->buffer, ".exit") == 0) {
  close_input_buffer(input_buffer);
  exit(EXIT_SUCCESS);
} else {
  printf("Unrecognized command '%s'.\n", input_buffer->buffer);
}

让我们来试试吧!

~ ./db
db > .tables
Unrecognized command '.tables'.

db > .exit
~

好了,我们得到了一个可以工作的REPL。在下一部分,我们将开始开发我们的命令语言。同时,下面是是这部分的全部程序代码:

#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

typedef struct {
  char* buffer;
  size_t buffer_length;
  ssize_t input_length;
} InputBuffer;

InputBuffer* new_input_buffer() {
  InputBuffer* input_buffer = malloc(sizeof(InputBuffer));
  input_buffer->buffer = NULL;
  input_buffer->buffer_length = 0;
  input_buffer->input_length = 0;

  return input_buffer;
}

void print_prompt() { printf("db > "); }

void read_input(InputBuffer* input_buffer) {
  ssize_t bytes_read =
      getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);

  if (bytes_read <= 0) { printf("error reading input\n"); exit(exit_failure); } ignore trailing newline input_buffer->input_length = bytes_read - 1;
  input_buffer->buffer[bytes_read - 1] = 0;
}

void close_input_buffer(InputBuffer* input_buffer) {
    free(input_buffer->buffer);
    free(input_buffer);
}

int main(int argc, char* argv[]) {
  InputBuffer* input_buffer = new_input_buffer();
  while (true) {
    print_prompt();
    read_input(input_buffer);

    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      close_input_buffer(input_buffer);
      exit(EXIT_SUCCESS);
    } else {
      printf("Unrecognized command '%s'.\n", input_buffer->buffer);
    }
  }
}
</=></string.h></stdlib.h></stdio.h></stdbool.h>

Enjoy GreatSQL 😃

关于 GreatSQL

GreatSQL是由万里数据库维护的MySQL分支,专注于提升MGR可靠性及性能,支持InnoDB并行查询特性,是适用于金融级应用的MySQL分支版本。

相关链接: GreatSQL社区 Gitee GitHub Bilibili

GreatSQL社区:

欢迎来GreatSQL社区发帖提问
https://greatsql.cn/

实现一个简单的Database1(译文)

技术交流群:

微信:扫码添加 GreatSQL&#x793E;&#x533A;&#x52A9;&#x624B;微信好友,发送验证信息 &#x52A0;&#x7FA4;

实现一个简单的Database1(译文)

Original: https://www.cnblogs.com/greatsql/p/16706642.html
Author: GreatSQL
Title: 实现一个简单的Database1(译文)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/598636/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 上传代码到GitHub仓库

    上传代码到GitHub仓库 准备工作 意思是自从 21 年 8 月 13 后不再支持用户名密码的方式验证了,需要创建个人访问令牌(personal access token)。 这…

    数据库 2023年6月14日
    081
  • Zookeeper应用场景汇总(超详细)

    Zookeeper典型应用场景汇总 数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取数据,实现配置信息的集中…

    数据库 2023年6月11日
    085
  • mysql扫描全表更新状态部分失败

    一直以为mysql是按照主键排序的,实则排序和主键没有关系(不使用 order by 子句)。 然后从 stackoverflow 上查了一下,找到了以下的回答: 没有默认的排序顺…

    数据库 2023年5月24日
    087
  • MySQL之select 语句的执行顺序

    mysql语句编写顺序 &#x2460; select &#x5B57;&#x6BB5;&#x540D; &#x2461; from &am…

    数据库 2023年5月24日
    096
  • Redis安装

    Redis For Windows 安装 Redis 官方只提供源码包,不支持Windows 老版本 Windows 版本下载地址(最高版本为3)老版本地址 新版本 Windows…

    数据库 2023年6月6日
    096
  • centos7 打包chrome离线安装包流程

    前提,centos可以连接外网 1、在目录 /etc/yum.repos.d/ 下新建文件 google-chrome.repo 文件中添加以下内容: 2、安装 yum-utils…

    数据库 2023年6月11日
    085
  • mysql约束

    一、表约束 PK主键约束(索引)唯一约束 非空 默认值 在关系数据库,一个表中,只能有一个主键(Primary Key),有些数据库没有pk,系统报出错误。 在myql数据库,建立…

    数据库 2023年6月9日
    083
  • Mysql生成测试数据函数

    1、查看设置是否允许创建函数系统参数 show variables like ‘log_bin_trust_function_creators’; 2、临时设置允许创建函数系统参数…

    数据库 2023年6月16日
    085
  • [LeetCode]7. 整数反转

    给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。 示例 1: 输入: 123输出: 321示例 2: 输入: -123输出: -321示例 3: 输入: 1…

    数据库 2023年6月9日
    082
  • Redis进阶(一)

    通过简单的KV数据库理解Redis 分为访问模块,操作模块,索引模块,存储模块 底层数据结构 除了String类型,其他类型都是一个键对应一个集合,键值对的存储结构采用哈希表 哈希…

    数据库 2023年6月16日
    087
  • 视频语义分割基准数据集与评估方法

    概述 本文来源于《A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation》,论文主…

    数据库 2023年6月11日
    080
  • MySQL源码分析之SQL函数执行

    1.MySQL中执行一条SQL的总体流程 2.SQL函数执行过程 1.MySQL中执行一条SQL的总体流程 一条包含函数的SQL语句,在mysql中会经过: &#x5BA2…

    数据库 2023年5月24日
    0101
  • Linux–>组管理和权限管理

    在Linux中的每一个用户必须属于一个组,不能独立于组外。 在Linux中每个文件有, 所有者, 所在组, 其他组的概念 查看文件的所有者 ls -ahl 举例: 改变文件所有者 …

    数据库 2023年6月14日
    0137
  • English words chapter 20220927

    本文来自博客园,作者:ukyo–BlackJesus,转载请注明原文链接:https://www.cnblogs.com/ukzq/p/16736392.html Or…

    数据库 2023年6月11日
    091
  • 入门Python,看完这篇就行了!

    转载请注明出处❤️ 作者:测试蔡坨坨 原文链接:caituotuo.top/3bbc3146.html 你好,我是测试蔡坨坨。 众所周知,Python语法简洁、功能强大,通过简单的…

    数据库 2023年6月11日
    0100
  • Redis缓存穿透 缓存击穿 解析

    先解析一下Redis中什么叫做 缓存穿透 和 缓存击穿: 缓存穿透:首先我们要明确概念,缓存穿透是 在查询数据时 查询的数据在 redis 和 DB中都没有的 叫做缓穿透,解决方案…

    数据库 2023年6月9日
    084
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球