知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注入知识

2023年6月10日上午2:38 • 人工智能 • 阅读 75

©NLP论文解读 |杨健

论文标题：

ERNIE:Enhanced Language Representation with Informative Entities

收录会议：ACL

论文链接：

https://arxiv.org/abs/1905.07129

项目地址：

https://github.com/thunlp/ERNIE

问题

论文作者认为尽管预训练语言模型能够从大规模文本语料中学习到词法、语法等信息，然而这些预训练模型却忽略了知识图谱提供的知识。

这些知识能够为预训练模型提供实体的语义以及实体间的关联，从而提高预训练模型的理解能力。

我们以下面这一句子为例解释知识图谱如何提高预训练模型的理解能力。

Bob Dylan wrote Blowin’ in the Wind in 1962, and wrote Chronicles: Volume One in 2004.

如果我们不知道Blowin’ in the Wind是一首歌，而Chronicles: Volume One是一本书，那么模型在实体分类任务上将难以推理出Bob Dylan是一名歌手和作家。在关系分类任务上也无法推断出Bob Dylan和Blowin’ in the Wind是创作者的关系。

此外，由于预训练模型使用经过分词的子词（token）作为最小的语义单元，针对句子中的歌曲和书名短语，由于出现频率过低，模型可能无法将其识别为一个完整的语义单元，从而只能模糊的学习到UNK wrote UNK in UNK。

为预训练模型注入知识图谱中的实体信息和三元组知识，能够让预训练模型识别出实体，并习得实体间的关联。

然而知识的注入面临着两个问题，一个是给定文本，如何提取出其中的相关实体并对其编码。二是知识表示学习使用和文本编码不同的编码方式，这会生成语义向量空间异构的表示向量，如何融合异构向量成为了关键的问题。

解决方案

为了解决上述的两个问题，作者提出了下面的解决方案。针对第一个问题，作者首先抽取出文本中的实体。

这一步骤在工程上是通过获取维基百科的页面，并将其中带有超链接的名词或者短语作为实体。在此基础上，通过字符串比对的方式对齐抽取出的实体和知识图谱中的实体。

而为了编码实体信息，作者使用了TransE对知识图谱中的三元组建模，从而生成表示向量。为了更好的区分文本中的实体和知识图谱中的实体，笔者使用指称项表示文本中出现的实体，而用实体表示知识图谱中的实体。

对于第二个问题，作者在BERT原有的预训练任务基础上引入实体预测任务，也即作者所指的去噪实体自编码（dEA）。具体而言，模型在数据准备阶段会构建文本序列和对应的实体序列，文本指称项向量会和实体向量融合，该融合向量将用于判断它在图谱中所代表的实体。

已有的预训练模型仅仅利用文本预测掩码子词，而这一任务则需要预训练模型同时利用实体信息和文本信息预测，促使了预训练模型融合实体知识。

2.1 模型结构

模型的结构由文本编码器（T-encoder）和知识编码器（K-encoder）所组成。文本编码器部分采用BERT模型所使用的Transformer编码层，在具体实现上作者使用了5层编码层来构成文本编码器。

知识编码器则由7层作者自定义的聚合层所构成，主要负责实体信息和文本信息的融合以及编码。模型结构如下图所示：

给定文本输入序列，模型首先使用文本编码器编码文本，生成表示向量：

该文本向量w将和经过TransE编码的实体向量e共同传入聚合层，聚合层使用两个多头自注意力层MH-ATT分别对文本和知识向量编码：

针对编码后的第i层第j个文本向量和第k个实体向量分别进行矩阵相乘，将其对应向量相加并经过非线性变化，生成融合向量h ：

该融合向量h将分别经过两个转换矩阵，重新生成携带文本信息和图谱信息的实体向量和文本向量ek：

这两个向量将在输出层经过归一化和残差连接。事实上，知识编码器中包含了两种不同类型的编码器，一种仅仅对文本向量进行自注意力操作，主要负责的是文本向量和实体向量的求和。另一种才如上文所述，对两类向量都进行自注意力操作。具体的过程详见代码解读。

2.2 模型的预训练

除了BERT的两个预训练任务，作者还引入了针对掩码实体的预测任务。考虑到文本指称项和图谱中的实体在对齐过程中可能会存在错误，作者针对5%的指称项随机挑选一个实体与其融合，让模型在融合错误实体的情况下预测正确实体，以训练模型的纠错能力。

针对15%的文本指称项，作者对融合实体信息的文本指称项进行掩码，并让模型对其预测，以训练模型在没有获得所有对齐实体信息的情况下，也能正确预测实体。

针对剩余85%的文本指称项，作者不做任何改变，让模型从实体序列和文本序列中学习语义，根据融合后的向量预测正确实体。

笔者发现，作者在工程实现上并没有做这部分的实现，而是沿用BERT模型训练数据构建部分的代码。

这也让笔者猜测，实体序列的掩码以及随机选择可能没有必要，只不过为了工程实现的便捷，赋予这部分操作一个合理的理论依据。

考虑到知识图谱中的实体数量巨大，如果针对所有的实体进行预测将会大大降低模型的效率。因此，作者仅使用实体序列中的实体，利用如下概率分布公式，计算正确的实体。

这样的做法由于缩小了模型的选择空间，在一定程度上降低了预测的难度，但提高了预训练的效率。是一种模型能力与训练时长的折中。

2.3模型的微调

作者选择了实体分类和关系分类这两类知识密集型任务用于模型的微调。关系分类（relation classification）任务是指给定文本序列和其中的两个实体，模型需要判断出两个实体间的关系。

实体分类（entity typing）是指给定实体，模型需要预测出正确的实体类型。对于关系分类任务，作者为了能够标识出实体的位置，引入了特殊标识符[HD]和[LD]，置于实体的前后。

同理，为了标识出实体的位置，引入[ENT]这一符号，置于实体的前后。最后，使用[CLS]这一分类符号用于分类。

实验

在实验部分，作者使用实体分类、关系分类任务，以及语言理解任务GLUE数据集测试模型的性能。在实体分类任务上的结果表明，ERNIE远超其他基线模型，并且比BERT在召回率和准确率上都提高了2%。

在关系分类任务上的结果表明，BERT比传统的基于RNN和CNN的模型在F1值上高出15%以上，而ERNIE比BERT在1值上提高了3.4%，这说明了预训练模型能够比传统基于RNN和CNN的模型学习到更多的语义信息，以及知识注入的有效性。

值得一提的是，作者使用TACRED和FewRel数据集进行测试，后者的数据量比前者小的多，而ERNIE却在FewRel数据集上获得了更大幅度的性能提升，这也说明了知识的注入能够帮助预训练模型更好的利用小规模训练数据，这对于缺乏大规模标注数据的NLP应用场景而言意义重大。

除此以外，模型还在GLUE数据集上进行评测，结果表明模型和BERT在总体上取得了相差无几的成绩，这也说明了知识的注入并没有影响模型原有的文本编码能力。

所想所获

4.1分词方法

模型在训练之前，需要对输入文本进行切分，BERT采用的分词法是WordPiece，这种方法根据子词出现的词频高低来作为切分词语的依据。

这样会使得高频的子词作为一个基本的语义单元，其对应的词向量将习得某个语义。然而我们在现实生活中往往会使用一个完整的单词或者短语来表示某个语义，这就造成模型无法理解这些单词。

百度团队所提出的ERNIE[1]通过采用全词掩码的策略之所以能够提升预训练模型的性能，原因也在于此。

本文针对文本指称项经过分词后的第一个子词注入实体信息，虽然能够通过自注意力层实现信息的传递，但分词的结果和实体的边界仍然存在鸿沟，笔者认为更好的对齐方式也许能进一步提高知识注入的效果。

4.2知识注入

本文通过对知识图谱中的三元组表示学习，搭建了融合符号知识和文本向量的桥梁。然而TransE仅针对三元组建模，虽然能够学习到两个实体间的关联，但是无法同时建模多个实体的关联。

此外，实体所在的上下文能为实体提供更多的语义信息，而TransE无法利用实体文本信息。与之对比，预训练模型则能够捕捉到丰富的文本信息。

那么是否可能将二者的结合起来呢，论文[2]就结合了两者的优点，具体的结合思路笔者将在后续文章中进行解读。

另一方面，图神经网络擅长捕获拓扑结构的实体关联信息，而知识图谱正是一种不规则的异构图，使用图神经网络对知识图谱进行表示学习，能够进一步编码知识图谱的拓扑结构，从而学习多个实体的关联信息，进一步丰富实体向量的语义。

此外，知识的注入依赖于实体的对齐，尽管注入的实体知识经过表示学习后也携带实体的关联信息，但如果能使用如关系等更多的注入载体，那么就能够为预训练模型注入关系向量，增加注入知识的密度。

以上就是笔者对论文的解读，具体的代码将会在下篇文章中解读。

参考文献：

[1]ERNIE:Enhanced Representation through Knowledge Integration

https://arxiv.org/abs/1904.09223

[2]KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00360/98089/

Original: https://blog.csdn.net/NLPlunwenjiedu/article/details/122247553
Author: NLP论文解读
Title: 知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注入知识

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595068/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于LSTM的语音分类（原理加代码）

目录 1、实现目标原始数据为200个音频文件，分别为真实人说话的声音，和机器合成的声音。实现目标为成功将两种声音进行分类。此贴记录了，实现的整个流程包括每一部分的代码以及背后的…

人工智能 2023年7月1日
0078
基于神经网络实现手写数字识别(matlab)

*实验目的在 matlab 平台上，采用神经网络实现手写数字识别。在实验过程中： 1、初步探讨数据集预处理的作用。 2、增加对神经网络的理解，探讨隐含层层数，节…

人工智能 2023年7月13日
0071
Numpy教程：Numpy.random模块使用（新）

目录前言创建使用 * 1、创建指定维度数组 2、创建随机一维整数 3、随机选择 4、随机排列分布前言本文介绍版本：Numpy1.22 在numpy1.17开始，Gene…

人工智能 2023年7月15日
0099
Matplotlib 进阶（三）

一、Pandas绘图 Series和DataFrame是Pandas库中主要的两种数据结构，都内置了plot方法，可以绘制图形 1．Series.plot Series是一个一维数…

人工智能 2023年7月8日
0070
从零使用TensorFlow搭建CNN（卷积）神经网络

🍅 写在前面👨‍🎓 博主介绍：大家好，这里是hyk写算法了吗，一枚致力于学习算法和人工智能领域的小菜鸟。🔎个人主页：主页链接（欢迎各位大佬光临指导）⭐️近期专栏：机器学习与深度学习…

人工智能 2023年7月14日
0078
在CPU上跑yolov5（详细步骤+适合入门）

目录一、创建新环境二、导入Pytorch库三、新建项目四、测试五、准备数据集六、修改配置文件七、训练八、实例测试九、结束语默认大家都装好了Anaconda和Py…

人工智能 2023年7月21日
0052
Anaconda安装教程傻瓜教程

网上好多教程找的我心好累，为了方便阅读，我这边整理了大致详细的教程，参考了好几个大佬的教程，废话不多说，直接开始~更多细节已更新~ 前言：有小伙伴纠结先安装python还是安装a…

人工智能 2023年7月3日
00136
基于麻雀算法改进的随机森林回归算法 – 附代码

基于麻雀算法改进的随机森林回归算法文章目录基于麻雀算法改进的随机森林回归算法 * 1.数据集 2.RF模型 3.基于麻雀算法优化的RF 4.测试结果 5.Matlab代码摘要…

人工智能 2023年6月17日
0060
数据分析：新冠疫情实时数据爬取

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月19日
00100
Python数据分析中的训练集、验证集、测试集

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python数据分析中的训练集、验证集、测试集 …

人工智能 2023年7月15日
0056
han_attention（双向GRU+attention）(imdb数据集—文档分类）

文章目录 han_attention（双向GRU+attention）一、文件目录二、语料集三、数据处理(IMDB_Data_Loader.py) 四、模型（HAN_Mode…

人工智能 2023年5月27日
0084
基于Tensorflow框架的人脸匹配总结附代码（持续更新）

人工智能 2023年5月26日
0079
计算机视觉教程2-7：天使与恶魔?图文详解图像形态学运算(附代码)

目录 1 图像形态学运算 2 腐蚀 3 膨胀 4 开运算与闭运算 5 顶帽运算与底帽运算 6 恶魔与天使 1 图像形态学运算在计算机视觉教程2-2：详解图像滤波算法(附Pytho…

人工智能 2023年7月27日
0075
SpringBoot开发实用篇复习1

SpringBoot开发实用篇主要包含6大部分，分别为热部署、配置高级、测试、数据层解决方案、整合第三方技术、监控。下面就开始一起学习吧。这篇文章包含前三个部分，即热部署、配置高级…

人工智能 2023年6月30日
0092
关于一维和二维卷积，以及1*1卷积核的理解

本文图片大部分来自吴恩达Andrew Ng老师的深度学习课程。基础操作：最基本的卷积操作是把卷积核在输入中移动（扫一遍），获得输出。 ; 维度：一维卷积和二维卷积的维度是指…

人工智能 2023年7月23日
0065
通用列表存excel

### 回答1：通用 excel_库 _存_管理系统是一种利用 _Excel_软件开发的库 _存_管理系统。该系统旨在帮助企业、商店、仓库等机构更有效地管理和跟踪库 _存_信息。…

人工智能 2023年7月8日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识增强的预训练语言模型系列之ERNIE：如何为预训练语言模型注入知识

大家都在看