阿里的“扫地僧”，2年“抄”了20万页古籍

2023年5月31日上午7:07 • 人工智能 • 阅读 99

金磊贾浩楠发自凹非寺量子位报道 | 公众号 QbitAI

阿里 达摩院，一个正儿八经搞AI的地方。

但偏偏 “扫地僧”们干起了文绉绉的工作：

研究古籍。

他们将流散海外的珍贵古籍善本以数字化的形式请回故土。

第一批达 20万页。

△ 宋百家诗存

当理科生干起了专业文科生的工作，会擦出怎样的火花？

古籍为何”出海”，又如何”回来”？

关于这个故事，很精彩，也很 有意义。

古籍为何外流？

1860年（清咸丰10年），五千年文明古国此刻风雨飘摇。

北有英法联军捣毁圆明园，逼迫中国签下《天津条约》、《北京条约》。

南有太平军进入杭州，

藏有《四库全书》的”南三阁”之一杭州文澜阁，次年毁于战乱。

阁圮而书散，无数经典，从此淹没在历史中。

文澜阁遭遇”灭顶之灾”后，杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。

相传，丁式兄弟买包子时，偶尔发现 包食物的纸，”皆四库书也”，大惊。

于是他们开始紧急救书，上下打点，四处寻访。

经历这轮战乱，文澜阁本《四库全书》的四分之一被丁氏兄弟抢救，四分之三消散飘零，不知所踪。

直到将近100年后的1950年代，清代曹庭栋辑纂的 《宋百家诗存》 （卷七），出现在美国加州大学伯克利分校东亚图书馆。

而这本《宋百家诗存》，正是丢失的文澜阁本《四库全书》之一。

目前有线索可查的，只能明确伯克利东亚图书馆从 日本三井文库购得这批古书。

△ 伯克利东亚图书馆

这类古书文物到底经历了怎样的颠簸流离，如今已不可考。

据不完全估计，近代散居海外的中国古籍超过40万部、400万册，包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

如今山河无恙，但流散海外的古书典籍，却成了中国文学、历史研究，以及传统文化传承难以弥补的遗憾。

“再现”20万页古籍

大约两年前，阿里巴巴联合四川大学、美国加州大学伯克利分校，共同发起一项公益项目 汉典重光，寻觅那些流散在海外的中国古籍，借助达摩院的AI技术，用数字化的方式让它们回归故土。

而鲜有接触古籍的达摩院”扫地僧”们，一开始还不知道 AI录入古书是多么有挑战的任务。

OCR（光学字符识别），其实是一种常用的计算机视觉技术，经常被用来识别文字，比如证件、票据、电商平台的商品图片等。

但是，我们生活中常见的OCR，绝大部分是针对现代汉字，而且还是印刷字体，把这样的系统直接拿来用在古书上，根本行不通。

首先，古籍文字的类别极其庞大。现代汉语常用字不过6000多个，常见印刷体，算法能够覆盖到的文字基本上在2万字以内。

但是据估计，古籍文字多达几十万。

为什么古籍上面有如此多的字？

古籍上面每个字都有不同的写法。比如一个”郷”有各种写法。

此外，还有字体的变化。在雕版印刷古籍中，即使是同一拓片在不同季节、气候、地点印出的书也完全不同，而那些人工抄录的古书，更是千人千面。

每一个字形，即使表意可能相同，对于AI来说，也是一个需要重新学习记忆的新知识。

第三，古书版式复杂。除了不同于如今的从右到左，从上到下的排版，在每行字中间还常常夹有批注，这就使得常规使用的 行识别方法失效。

△ 古籍版式复杂

最后，由于年代久远，古书保存状况也各有不同，在AI看来，纸张破损、污渍等等相当于大量的人为噪声。

而达摩院，专门为古籍识别开发出了新的系统的。

主要分为两大步，一是 聚类数据生产识别，二是 主动学习数据生产识别。用到了单字检测、无监督图像聚类、少样本分类、主动学习等一系列机器学习方法。

首先是全书检测，把古籍正文中的每个字都抠出来，作为单独的一张图。

其次是聚类。

一本古籍总字数可能有10万字,但其中有很多字是重复的，比如”之、乎、者、也”,聚类所做的事就是让机器自动把字形笔画一致的字归为一类,接着再由人工进行标注。也就是说，原来要人工标注全部10万字的书，经过聚类，只需要对全部二三千字类进行标注，一类字只标注一次。

聚类和人工标注，不仅完成了每一类文字的认字过程，还收获更多新的训练样本，可以继续喂给机器学习。

一般来说，数据越多，越有利于模型的训练。但古籍里有很多异体字、生僻字，出现概率极低，根本无法寻觅这么多的样本。

所以团队想到了让机器自动生成样本。使用字体迁移方法来使合成数据，机器自动为每个字合成几个新的样本，确保单字样本量达到10个。这样，就有足够数据训练少样本识别模型。

得到少样本识别模型之后，就能投入使用，把第一步全书检测获得的所有图片进行重新标注。不同于上一轮聚类+人工打标，这次是识别模型的自动标注，如果识别打标的数据与前一轮聚类的结果一致，就可以认为这张图片当前标签是对的。如果不一致，那就让这个字回到聚类步骤，继续迭代。

从聚类打标到少样本模型打标走完一轮，全书70%左右的文字可以被打上正确的标签，余下的30%，从头开始再来一遍，第二轮迭代，又能解决余下文字中的70%。

经过两轮迭代，一本书的91%的文字可以被打上正确的标签。

它们不仅沉淀为了机器的字典，也是更丰富的训练数据。通过前期一本书、一本书地学习，产生的训练数据越来越多，机器的认字能力也越来越强。

最后，就是训练最终模型，能对100本以上的书进行批量识别的单字分类模型。这个模型一出手，对批量数据的识别准确率就高达96%。随着模型的优化和迭代，目前系统对20万页古籍的整体识别准确率已经达到97.5%。今后，AI学到的数据越多，模型的进化程度也会越高。

回到模型”养成”环节，AI识别完绝大部分文字，剩下的需要人工专家补充标注。

那么问题又来了AI怎么知道哪一部分是识别好的，哪一部分是需要交给人类专家的呢？

这个时候，主动学习算法出场了。通过它，机器自己就能找出那些它识别不了的文字，交给人类来做最后一步工作。

以往，人工标注通常需要”两录一检”以达到99.97%的出版要求。

以一本100万字的古籍为例，如果全靠专家录入，每人1000字/天，需要1000天。

达摩院的古籍识别算法，用AI替代人工，在两个环节大幅压缩了专家标注工作量。

在机器为主进行识别的97.5%的内容中，约有1%（1万字左右）需要专家录入；机器不能识别的余下2.5%（2.5万字）的文字，全部交给专家做后期标注。

两部分相加，人工的工作量占全书的3.5%（3.5万字），还是按照一人1000字/天算，需要35天。因此，相比人工专家录入，百万字书籍的数字化工作量从1000天降低到了35天，效率比人工专家录入方案提升近30倍。

阿里达摩院的AI古籍识别算法，为中华古籍的回归提供了另一种可行可期的思路。

不简单的工作

2年，20万页，平均下来每天 280页。

再细算一下，每个小时就是 11页，还得是在不吃不喝的那种情况。

这对于用传统方式”复现”古籍来说，简直是mission impossible。

为什么这么说？

举个”人工录入”的例子，便一目了然。

在乾隆皇帝执政期间，便组织过一次对 《四库全书》的编撰。

《四库全书》共包含3500种书、7.9 万卷、3.6万册，总字数多达 8亿。

而当年参与次项目的人数则多达 3800人，包括纪昀等360多位高官、学者。

但即便如此人力之下，也是耗时 15年才完成。

然而量大，并不是这个工作的唯一难点。

非常直接的一个问题，便是”理科生”和”文科生”之间的碰撞。

阿里达摩院、四川大学历史文化学院，双方在各自的领域都堪称是专家级别。

但之于对方的领域呢？说是小白也不足为过了。

而且AI技术、古籍文化，还都属于上手门槛很高的那种。

为此，双方可谓是恶补知识短板。

历史学家、文献学家，要去学习计算机、AI相关的基础知识，要了解用AI技术识别古籍到底是怎样一个过程。

而阿里达摩院的工程师们，也花费了相当多的精力，去学习历史相关知识。

例如古籍的版本、雕版、印刷、装帧、内容，还包括古文字、古代文化知识等等。

用四川大学历史文化学院副院长王果教授的话说，就是：

在技术研发过程中，比之前预想到的难度还要大。

为此，双方在杭州、成都，开了不下10次的技术研讨会。

整体而言，汉典重光走过的这两年时间，道阻且长、困难重重。

但阿里达摩院和四川大学历史文化学院，却对此从未放弃过。

之于原因，实则这项工作背后所蕴含的意义，不仅仅是”复现”这么简单。

“复现”古籍，意义非凡

让在海外”颠沛流离”的古籍回家，让”沉眠”数百甚至上千年的古籍入世，真的有那么重要吗？

是的，而且 非常重要。

具体而言，可以从三个方面来看。

首先是 国家层面。

古籍是中华文明的”魂器”，国家图书馆副馆长张志清说。

纵观历史上世界四大文明，能够延续至今的，也只有 中华文明。

很重要原因是，我国拥有一个连绵不绝、经典的文献世界。

我国从古便有盛世修史和盛世整理古籍的传统。

修史、整理文献，表面上是修复残破、逸散的古籍，本质上实则是补全中国文化最重要的载体，是修复中华文明生生不息的生命力，绵延中国文化不息的源泉。

“十四五”规划和国家中长期发展规划中，古籍的保护、整理、研究、利用，得到高度重视。

△ 宋百家诗存卷首

其次，是 研究者、学者层面。

以这次从伯克利回归的20万页古籍来讲，就有很多国内少见或者是没有的珍稀善本。

因此，当这些回归的古籍被AI识别并数字化以后，研究人员、学者足不出户，便可以研究在海外的、无法获取的古籍，未来有望产生一大批重要的研究成果。

最后，是 民众层面。

或许很多人会认为古籍离普通老百姓甚是遥远，但实则不然。

中国古籍的内容浩如烟海，拥有非常庞大且复杂的知识体系，所涉及的范围也是极其广泛。

从应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等等内容的经验。

有战争、瘟疫、地震、洪涝灾害、病虫害等等方面的经验总结，更贴近生活的，还包括医疗、中药、养生、家具、服饰、饮食文化等等。

而这些都是”老祖宗”们几千年来的经验总结和积累，是民族智慧的继承。

汉典重光项目没有停留在”回归”海外古籍这个层面，以 数字化的形式来展现，大大降低了人们学习、阅读古籍的门槛，拉近了人们与中国文化的距离。

在发布会现场，许多研究古籍的知名教授也亲临现场，他们的眼中充满了对古籍研究的热情与使命感。

中央文史馆馆员、四川大学教授陈力说，他最大的心愿是，利用现代技术，让古籍活起来，让老百姓在古籍面前和祖宗对话，和传统文化亲密接触。

再细数参与此次工作的人员，除了川大的老一辈教授、专家们，像博士生、硕士生，甚至本科生也参与到了其中。

某种程度上，这也是保护文化的一种传承。

也正如阿里达摩院院长 张建锋表示：

守护中华传世典籍，是科技工作者和文化工作者共同的使命。

而此次”数字化回归”的这20万页古籍，只是汉典重光迈出的第一步。

阿里和川大还将继续联手，让”离家百年、去国万里”的更多中国璀璨古籍，以数字化方式回归故里。

最后，奉上此次”汉典重光”首批数字化古籍 重要书目，若想体验完整数字版，可戳文末链接~

汉典重光 · 古籍数字化平台：

https://wenyuan.aliyun.com/home

Original: https://blog.csdn.net/QbitAI/article/details/117003982
Author: QbitAl
Title: 阿里的“扫地僧”，2年“抄”了20万页古籍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549630/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch中数据采样方法Sampler(torch.utils.data)(二) —— WeightedRandomSampler & SubsetRandomSampler

平衡不平衡数据的抽取 torch.utils.data.WeightedRandomSampler(weights, num_samples, replacement=True) …

人工智能 2023年6月17日
0098
【机器学习-分类】决策树预测

我用一些机器学习的算法对数据进行一个分类，下面是一些需要用到的基础代码，以决策树为例，并不包括针对项目的模型处理和修改，留作记忆学习。对于数据划分训练集直接省略 def Tree…

人工智能 2023年7月1日
0089
论文笔记012-024

论文简记 1. 《Coordinated Reasoning for Cross-Lingual Knowledge Graph Alignment》-012 简介题目：《Coo…

人工智能 2023年6月10日
0089
详解 Python Map 函数

让天下木有难学的Python！如果你正在学习编程，那么掌握 Python map 函数是升级打怪python的机会。想象一下：你想成为一个高级的程序员(别名：划水摸鱼工程师)，…

人工智能 2023年7月4日
0081
CV2逐步学习-2:cv2.GaussianBlur()详解

目录高斯模糊GaussianBlur()中参数详解 1.1. 由参数解释产生的问题深入理解前的准备：高斯函数、图像滤波处理及卷积核解释1.1的问题权重矩阵、高斯模糊的…

人工智能 2023年7月5日
00106
Yolov5目标检测环境搭建过程（Cuda+Pytorch+Yolov5）

本文介绍了如何搭建yolov5目标检测代码的环境，详细记录了python虚拟环境、安装pytorch、加载yolov5项目以及运行检测程序的全过程。完成了本文的yolov5项目搭…

人工智能 2023年7月20日
0067
目标检测单阶段、双阶段检测框部分学习总结

一、单阶段目标检测（以yolov5为例） 1、anchor的引入及产生 2、anchor与gt的匹配机制 3、后处理NMS机制二、双阶段目标检测（以faster rcnn为例） …

人工智能 2023年7月9日
00109
Opencv——图像添加椒盐噪声、高斯滤波去除噪声原理及手写Python代码实现

一、噪声我们将常会听到平滑（去噪），锐化（和平滑是相反的），那我们就会有疑惑？什么是噪声呢？图像噪声是指存在于图像数据中不必要的或多余的干扰信息，噪声的存在严重影响了图像的质量。…

人工智能 2023年6月19日
00103
多目标跟踪（二）DeepSort——级联匹配Matching Cascade

多目标跟踪（二）DeepSort——级联匹配Matching Cascade 目录多目标跟踪（二）DeepSort——级联匹配Matching Cascade 前言一、Deep…

人工智能 2023年6月25日
0061
Opencv学习笔记（一）

1、cv::cvtColor()用于将图像从一个颜色空间转换到另一个颜色空间的转换（目前常见的颜色空间均支持），并且在转换的过程中能够保证数据的类型不变，即转换后的图像的数据类型和…

人工智能 2023年6月22日
0064
【随机森林】深入浅出讲解随机森林算法

1、集成学习介绍常言道：”一个篱笆三个桩，一个好汉三个帮”。集成学习模型便是综合考量多个学习器的预测结果，从而做出决策。集成学习通过训练学习出多个估计器，…

人工智能 2023年6月16日
00100
Faster rcnn 训练安全帽数据集搭载服务器运行

文章目录前言一、faster_rcnn 二、数据处理 * 1.坐标跟标签 2.模型所需要的格式 3.读取图像进行处理 4.加载torchvision模型 5.优化器 6.获取x…

人工智能 2023年6月17日
0088
【pyecharts | 颜色配置】关于pyecharts中自定义颜色问题详解

前言最近微信上经常有小伙伴问到 pyecharts颜色配置的问题，其实 pyecharts颜色配置很简单，不过由于可以配置的方式有点多，经常让人混淆，所以本文汇总一下在pyech…

人工智能 2023年7月15日
0089
Windows/Linux安装PyTorch并实现多分类任务

姊妹篇：Windows/Linux安装TensorFlow并实现多分类任务安装PyTorch 前言配编程环境考察的是利用搜索引擎的能力。在配环境时，应该多参考几篇文章。有英文阅…

人工智能 2023年7月2日
0093
掌握Pytorch模型压缩裁剪与量化

在深度学习模型的搭建和部署中，我们需要考虑到模型的权重个数、模型权重大小、模型推理速度和计算量。本文将分享在Pytorch中进行模型压缩、裁剪和量化的教程。权重压缩模型在训练时…

人工智能 2023年7月22日
0061
深度入门学习入门–笔记

第一章 Python 入门（上）– 环境安装前言一分钟复习读书笔记系列一、Python是什么？一种开源编程语言简单易读易记开源没有向后兼容性（3….

人工智能 2023年7月18日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31