工具 | pg_recovery 设计原理与源码解读

2023年5月24日下午3:39 • 数据库 • 阅读 94

作者：张连壮 PostgreSQL 研发工程师
从事多年 PostgreSQL 数据库内核开发，对 citus 有非常深入的研究。

本文将带大家了解 pg_recovery 工具的实现原理、设计思路，并带来源码解读。

一个数据库系统正常的数据读取方式，是从做 select * from pg_recovery 的查询开始（即执行事务），执行查询操作过程将同时生成事务的快照，通过 GetActiveSnapshot()函数，便可以看到当前可见的数据。

1. 如何读取 Dead 元组？

PostgreSQL 通过快照来决定当前数据库数据的可见性，因此当一条数据被删除时，数据的实体仍然存在于数据库实例中，通常管这种不可见的数据叫做 Dead 元组（PostgreSQL 中一条数据称为一个元组）。

PostgreSQL 中提供了 SnapshotAny 的特殊快照（还有很多其他类型）。这个快照可以读取任何数据，pg_recovery 便是通过该方式读取的所有数据。默认情况下，只返回 recovery 的数据，不返回可见的数据。

2. 函数一次返回多少数据？

数据量是按行返回的，一次只能返回一行。

[En]

The amount of data is returned by row and is limited to one row at a time.

3. 如何控制内存？

函数会多次执行，而有些状态是全局级的。因此可以使用 multi_call_memory_ctx （内存池的上下文）参数，来控制内存。

关于函数的参数

通过 SQL 创建函数时，执行如下语句。函数使用请参照上一期内容。

CREATE FUNCTION pg_recovery(regclass, recoveryrow bool DEFAULT true) RETURNS SETOF record

regclass：PostgreSQL 的表类型，会将表名自动转换成 OID（OID 数据库内部对象的唯一标识），因此只需输入表名即可。

reconveryrow bool DEFAULT ture：默认值 true，表示只返回 recovery 数据。取值 false, 表示返回所有数据。
执行以下语句以更改参数的缺省值。

[En]

Execute the following statement to change the parameter default value.

select * from pg_recovery('aa', recoveryrow => false)

RETURNS SETOF record：函数返回行类型数据。

必要的数据

typedef struct
{
    Relation            rel;    -- &#x5F53;&#x524D;&#x64CD;&#x4F5C;&#x7684;&#x8868;
    TupleDesc           reltupledesc; -- &#x8868;&#x7684;&#x5143;&#x4FE1;&#x606F;
    TupleConversionMap  *map; -- &#x8868;&#x7684;&#x6620;&#x5C04;&#x56FE;&#xFF0C;&#x5373;&#x8868;&#x7684;&#x6570;&#x636E;&#x6620;&#x5C04;&#x6210;&#x81EA;&#x5B9A;&#x4E49;&#x8FD4;&#x56DE;&#x7684;&#x5217;
    TableScanDesc       scan; -- &#x626B;&#x63CF;&#x8868;
    HTAB                *active_ctid; -- &#x53EF;&#x89C1;&#x6570;&#x636E;&#x7684;ctid
    bool                droppedcolumn; -- &#x662F;&#x5426;&#x5220;&#x9664;&#x5217;
} pg_recovery_ctx;

隐藏列

增加 recoveryrow 的隐藏列，当返回全部信息时，通过此列可以辨别出该行数据是 recovery 的数据，还是用户可见的数据。

static const struct system_columns_t {
    char       *attname;
    Oid         atttypid;
    int32       atttypmod;
    int         attnum;
} system_columns[] = {
    { "ctid",     TIDOID,  -1, SelfItemPointerAttributeNumber },
    { "xmin",     XIDOID,  -1, MinTransactionIdAttributeNumber },
    { "cmin",     CIDOID,  -1, MinCommandIdAttributeNumber },
    { "xmax",     XIDOID,  -1, MaxTransactionIdAttributeNumber },
    { "cmax",     CIDOID,  -1, MaxCommandIdAttributeNumber },
    { "tableoid", OIDOID,  -1, TableOidAttributeNumber },
    { "recoveryrow",     BOOLOID, -1, DeadFakeAttributeNumber },
    { 0 },
};

pg_recovery 简化代码

Datum
pg_recovery(PG_FUNCTION_ARGS)
{
    FuncCallContext     *funcctx;
    pg_recovery_ctx *usr_ctx;

    recoveryrow = PG_GETARG_BOOL(1); -- &#x83B7;&#x53D6;&#x9ED8;&#x8BA4;&#x53C2;&#x6570;

    if (SRF_IS_FIRSTCALL()) -- &#x6BCF;&#x6761;&#x6570;&#x636E;&#xFF0C;&#x51FD;&#x6570;&#x90FD;&#x4F1A;&#x8C03;&#x7528;&#x4E00;&#x6B21;&#xFF0C;&#x56E0;&#x6B64;&#x9700;&#x8981;&#x5148;&#x521D;&#x59CB;&#x5316;&#x6570;&#x636E;
    {
        funcctx = SRF_FIRSTCALL_INIT(); -- &#x7533;&#x8BF7;&#x4E0A;&#x4E0B;&#x6587;
        oldcontext = MemoryContextSwitchTo(funcctx->multi_call_memory_ctx); -- &#x4F7F;&#x7528;&#x5185;&#x5B58;&#x6C60;

        usr_ctx->rel = heap_open(relid, AccessShareLock); -- &#x589E;&#x52A0;&#x8BFB;&#x9501;
        usr_ctx->reltupledesc = RelationGetDescr(usr_ctx->rel); -- &#x83B7;&#x53D6;&#x5143;&#x4FE1;&#x606F;
        funcctx->tuple_desc = BlessTupleDesc(tupdesc); -- &#x51FD;&#x6570;&#x4F7F;&#x7528;&#x7684;&#x5143;&#x4FE1;&#x606F;
        usr_ctx->map = recovery_convert_tuples_by_name(usr_ctx->reltupledesc,
                funcctx->tuple_desc, "Error converting tuple descriptors!", &usr_ctx->droppedcolumn); -- &#x5217;&#x6620;&#x5C04;
        usr_ctx->scan = heap_beginscan(usr_ctx->rel, SnapshotAny, 0, NULL , NULL, 0); -- &#x626B;&#x63CF;&#x5168;&#x90E8;&#x8868;&#x6570;&#x636E;
        active_scan = heap_beginscan(usr_ctx->rel, GetActiveSnapshot(), 0, NULL , NULL, 0); -- &#x626B;&#x63CF;&#x53EF;&#x89C1;&#x6570;&#x636E;
        while ((tuplein = heap_getnext(active_scan, ForwardScanDirection)) != NULL)
            hash_search(usr_ctx->active_ctid, (void*)&tuplein->t_self, HASH_ENTER, NULL); -- &#x7F13;&#x5B58;&#x53EF;&#x89C1;&#x6570;&#x636E;&#x7684; ctid

    }

    funcctx = SRF_PERCALL_SETUP(); -- &#x83B7;&#x53D6;&#x51FD;&#x6570;&#x4E4B;&#x524D;&#x7684;&#x4E0A;&#x4E0B;&#x6587;
    usr_ctx = (pg_recovery_ctx *) funcctx->user_fctx;

get_tuple:
    if ((tuplein = heap_getnext(usr_ctx->scan, ForwardScanDirection)) != NULL)
    {
        -- &#x68C0;&#x9A8C;&#x8868;&#x8BE5;&#x6570;&#x636E;&#x662F;&#x5426;&#x662F;dead
        hash_search(usr_ctx->active_ctid, (void*)&tuplein->t_self, HASH_FIND, &alive);

        tuplein = recovery_do_convert_tuple(tuplein, usr_ctx->map, alive); -- &#x5C06;&#x539F;&#x8868;&#x6570;&#x636E;&#x8F6C;&#x6362;&#x6210;&#x8F93;&#x51FA;&#x683C;&#x5F0F;
        SRF_RETURN_NEXT(funcctx, HeapTupleGetDatum(tuplein)); -- &#x8F6C;&#x6362;&#x6210;Datum&#x683C;&#x5F0F;,&#x8FD4;&#x56DE;&#x6570;&#x636E;
    }
    else
    {
        -- &#x8BFB;&#x53D6;&#x5B8C;&#x6570;&#x636E;
        heap_endscan(usr_ctx->scan); -- &#x7ED3;&#x675F;&#x626B;&#x63CF;&#x8868;
        heap_close(usr_ctx->rel, AccessShareLock); -- &#x91CA;&#x653E;&#x9501;
        SRF_RETURN_DONE(funcctx); --&#x91CA;&#x653E;&#x51FD;&#x6570;&#x8D44;&#x6E90;
    }
}

生成映射表

TupleConversionMap *
recovery_convert_tuples_by_name(TupleDesc indesc,
                       TupleDesc outdesc,
                       const char *msg, bool *droppedcolumn)
{

    attrMap = recovery_convert_tuples_by_name_map(indesc, outdesc, msg, droppedcolumn); -- &#x5904;&#x7406;recoveryrow/&#x9690;&#x85CF;&#x5217;/&#x53EF;&#x89C1;&#x5217;&#x7684;&#x6620;&#x5C04;

    map->indesc = indesc;
    map->outdesc = outdesc;
    map->attrMap = attrMap;
    map->outvalues = (Datum *) palloc(n * sizeof(Datum));
    map->outisnull = (bool *) palloc(n * sizeof(bool));
    map->invalues = (Datum *) palloc(n * sizeof(Datum));
    map->inisnull = (bool *) palloc(n * sizeof(bool));
    map->invalues[0] = (Datum) 0;
    map->inisnull[0] = true;

    return map;
}

元组转换函数

HeapTuple
recovery_do_convert_tuple(HeapTuple tuple, TupleConversionMap *map, bool alive)
{
    heap_deform_tuple(tuple, map->indesc, invalues + 1, inisnull + 1); -- &#x5C06;&#x5143;&#x7EC4;&#x62C6;&#x5206;,&#x63D0;&#x53D6;&#x5217;&#x6570;&#x636E;

    for (i = 0; i < outnatts; i++)
    {
        outvalues[i] = invalues[j]; -- &#x8F6C;&#x6362;&#x6570;&#x636E;
        outisnull[i] = inisnull[j]; -- &#x8F6C;&#x6362;&#x6570;&#x636E;
    }

    return heap_form_tuple(map->outdesc, outvalues, outisnull); -- &#x5C06;&#x5217;&#x6570;&#x636E;&#x8F6C;&#x6362;&#x6210;&#x5143;&#x7EC4;
}

Original: https://www.cnblogs.com/radondb/p/15608965.html
Author: RadonDB
Title: 工具 | pg_recovery 设计原理与源码解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/507992/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

索引的树结构

二分查找二叉树二叉平衡树 B-TREE ：二叉平衡树的基础上，使加载一次节点，可以加载更多路径数据，同时把查询范围缩减到更小缺点：业务数据的大小可能远远超过了索引数据的大小，…

数据库 2023年5月24日
0068
python-django框架中使用docker和elasticsearch配合实现搜索功能

注意：系统环境为Ubuntu18 一、docker安装 0：如果之前有安装过docker使用以下命令卸载： bash;gutter:true; sudo apt-get remov…

数据库 2023年6月6日
00206
12 用最有效率的方法计算 2 乘以 8

2 << 3 左移是位运算符，直接操作内存中整数对应的二进制位，效率高；左移3位相当于乘以2的3次方，右移3位相当于除以2的3次方。 Original: https:…

数据库 2023年6月6日
0075
Mysql生成测试数据函数

1、查看设置是否允许创建函数系统参数 show variables like ‘log_bin_trust_function_creators’; 2、临时设置允许创建函数系统参数…

数据库 2023年6月16日
0086
Centos MySQL 安装手册(超简洁)

EL8 系统会遇到 yum报404： Errors during downloading metadata for repository ‘appstream’:原因是2022年1…

数据库 2023年6月9日
00111
啥是Session？

什么是 Session 会话? 1、Session 就一个接口（HttpSession）。2、Session 就是会话。它是用来维护一个客户端和服务器之间关联的一种技术。3、每个客…

数据库 2023年6月11日
0078
Activiti7 多实例子流程

顾名思义，子流程是一个包含其他活动、网关、事件等的活动，这些活动本身形成了一个流程，该流程是更大流程的一部分。使用子流程确实有一些限制：一个子流程只能有一个none类型的启动事…

数据库 2023年6月14日
00162
windows下安装mysql5.7

1.首先官网下载ZIP安装包（即以解压，配置的方式安装） 2.解压完成之后在目录下创建 my.ini文件内容如下： [mysql]设置mysql客户端默认字符集default-c…

数据库 2023年5月24日
0083
在 Pisa-Proxy 中，如何利用 Rust 实现 MySQL 代理

一、前言背景在 Database Mesh 中，Pisanix 是一套以数据库为中心的治理框架，为用户提供了诸多治理能力，例如：数据库流量治理，SQL 防火墙，负载均衡和审计等…

数据库 2023年6月16日
00136
Yapi安装配置(CentOs)

环境要求 nodejs（7.6+)mongodb（2.6+）git 准备工作清除yum命令缓存 sudo yum clean all 卸载低版本nodejs yum remove…

数据库 2023年6月11日
0075
新版 google 谷歌浏览器跨域问题

新版本的firefox火狐浏览器限制了 127.0.0.1 本地部署测试的时候，用火狐浏览器需要把前端的后台中的服务地址改成 http://localhost:8081 浏览器…

数据库 2023年6月6日
0099
3. 视图-触发器-存储过程-索引

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

数据库 2023年5月24日
0087
Django设置跨域访问

Django设置跨域访问 pip install django-cors-headers (2) settings.py 配置如下 INSTALLED_APPS = [ # ‘dj…

数据库 2023年6月14日
0097
MySQL在Linux环境下的安装、初始化、配置

CentOS操作系统，可选择： MySQL Community Server 8.0.28 Red Hat Enterprise Linux / Oracle Linux Red …

数据库 2023年5月24日
0094
如何使用Intellij IDEA工具导入SVN项目

步骤一：选择VCS 打开Intellij IDEA开发工具，在导航栏中选择 VCS栏位，如图。步骤二：创建SVN地址执行步骤二，可以看见打开了一个SVN Repositorie…

数据库 2023年6月6日
0086
MySQL系统安装与部署

数据库版本标准化 1.确认Supported Platforms https://www.mysql.com/support/ 2.确认安装版本推荐:5.7.22 ,8.0.20…

数据库 2023年5月24日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31