知识增强的预训练语言模型系列之KEPLER：如何针对上下文和知识图谱联合训练

2023年6月1日下午2:34 • 人工智能 • 阅读 77

©原创作者 | 杨健

论文标题：

KEPLER: A unified model for knowledge embedding and pre-trained language representation

收录期刊：

TACL

论文链接：

https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00360/98089/

项目地址：

https://github.com/THU-KEG/KEPLE

问题

上一次我们介绍了ERNIE，其实类似的工作还有KnowBERT，它们的思路都是对知识图谱中的三元组表示学习，在编码实体间的关联信息后，通过对齐文本指称项将其注入到预训练语言模型之中。所不同的是KnowBERT不使用TransE，而是使用Tucker进行表示学习。

此外，KnowBERT设计了一个基于神经网络的实体链接器，该链接器能够获得和某个指称项关联的多个实体，从而为一个指称项注入多个实体的信息。

对这两个模型而言，知识的丰富程度都取决于知识表示的方法。然而传统的基于平移的表示学习方法没有考虑图谱的拓扑结构，也无法利用实体相关的文本信息编码实体。 在这篇文章中，笔者将介绍该论文如何使用文本辅助图谱的表示学习，从而让实体向量蕴含更多的信息。

此外，在上次介绍ERNIE的文章中，笔者提到ERNIE使用基于自注意力机制来克服异构向量的融合。 那么有没有可能在一开始就产生同构的表示向量，降低知识和文本向量融合的难度呢？

解决方案

为了避免异构向量的产生，作者使用同一个预训练语言模型编码实体和文本，从而生成处于同一语义空间的向量，并使用知识表示学习和掩码语言模型（MLM)作为预训练任务联合训练，共同更新模型参数。

具体而言，作者沿用RoBERTa作为基础模型，拼接实体的描述文本和特殊符号~~作为模型的输入，从而为实体引入了更多的上下文信息。~~

考虑到RoBERTa采用双向关注的Transformer作为编码层，特殊符号~~所对应的表示向量将包含整个序列的语义，因此作者将这一向量视为实体的初始化向量，该向量将用于TransE的损失函数计算，为预训练模型注入实体关联信息。模型的结构如下图所示：~~

为了比较不同的实体描述文本所产生的效果，作者设计了三种不同的描述文本组合来进行对比实验。第一种是使用实体的描述文本编码实体向量并随机初始化关系向量。给定三元组(h,r,t)，向量编码过程如下：

其中E表示编码器，表示起始位置的特殊符号，T表示关系向量矩阵。

第二种是分别使用实体和关系的描述文本编码实体和关系的向量，其中头尾实体编码方式同上，关系向量的编码方式如下：

最后一种则是拼接实体和关系的描述文本编码实体向量，随机初始化关系向量，实体的编码方式如下：

在获得实体和关系的表示向量后，模型使用TransE中的损失函数计算损失值，更新模型参数。计算公式如下：

其中

为负样本，

gamma为边缘值，

dr则采用P=1的评分函数：

除了知识表示的预训练任务，模型仍然针对描述文本进行掩码，并预测掩码词，以避免模型出现参数遗忘的问题。模型总的损失函数为：

通过这种方式生成的向量既能够同时利用三元组结构信息和文本语义，又避免了引入外部实体链接器或者融合两类向量的编码层，保持了模型结构在预训练阶段和推理应用阶段的一致性。

传统的知识表示学习方法仅能够应用于转导式（transductive)链接预测任务，即只能判断训练阶段出现过的实体间的关系。

对于训练阶段未出现过的实体，由于无法获得对应的表示向量，也就无法判断彼此是否存在关联。使用预训练模型生成的实体向量则能够克服这一问题，应用到推导式（inductive）链接预测任务，关系分类任务甚至是信息检索任务[1]。

实验分析

实验主要包括针对下游任务测试实验和消融（ablation）实验。

3.1 下游任务测试实验

针对下游任务，作者使用关系分类和实体分类这两个知识驱动型任务检验知识注入的有效性。此外，该方法也为实体向量注入了文本信息，为了检验文本信息对实体向量的性能提高，作者还使用推导式和转导式链接预测任务进行实验对比。

除了上述提到的三种不同的描述文本，作者还考虑了不同知识图谱对模型性能的影响，并根据这两个变量设计了以下的模型变种（Variant）。

其中KEPLER-Wiki仅使用作者自己构建的Wikidata5M图谱，KEPLER-WordNet仅使用WordNet图谱，而KEPLER-W+W则使用两类图谱。

以上三个模型都使用实体描述文本编码实体，KEPLER-Rel同样使用两类图谱进行训练，但分别使用实体和关系的描述文本编码二者。KEPLER-Cond也使用两类图谱进行训练，使用包含实体和关系的描述文本编码实体。

关系分类任务的实验结果如图1所示，结果表明，相比ERNIE、KnowBERT和RoBERTa等基准模型以及其他变种模型，KEPLER-Wiki取得了最高的F1值和召回率，对比不同描述文本产生的性能差异，可以发现使用包含实体和关系的描述文本编码实体并没有提高模型在该任务上的性能，但在链接预测任务上有很大的性能提升，笔者认为这可能是因为关系分类任务更倾向于获取实体信息，含有别的关系描述文本反而干扰了实体的准确性。

相比另外两类变种模型，KEPLER-Rel的F1值最低，这是由于Wikidata中关系的描述内容很短并且和普通文本异构，使用关系描述对关系编码反而恶化了模型的性能。

图1 基于TACRED数据集的关系分类任务

对比不同知识图谱产生的性能差异，可以发现同时使用Wikidata5M和WordNet训练反而不如仅仅使用Wikidata5M，笔者认为WordNet是以词义作为关联信息的知识图谱，会连接存在近义或者反义的实体，与Wikidata关联方式不一致，这也说明了不同组织方式的图谱可能会存在冲突。

实体分类任务的实验结果同样显示KEPLER-Wiki取得了比基准模型更好的结果，其中F1值比ERNIE高出1.3%，比KnowBERT高出0.6%。

此外，在GLUE数据集上KEPLER-Wiki取得了和RoBERTa相近的结果，表明模型在注入知识后保持了预训练语言模型原有的语言理解能力。

链接预测任务的实验结果显示KEPLER-Cond取得了最好的效果，表明实体和关系的描述文本在该任务中能帮助模型更准确的预测出尾实体。

3.2 消融实验

为了检测模型所具有的知识含量，作者使用LAMA数据进行实验，考虑到数据可能包含字面上的线索提示模型生成正确答案，作者还使用了LAMA-UHN测试模型。

结果发现KEPLER-W+W虽然在关系分类任务上不如KEPLER-Wiki，但在LAMA-UHN上却取得了最高的正确率。 这表明不同的下游任务需要不同类型的知识图谱。

在计算效率方面，由于模型并没有引入额外的参数或者架构，因此对比ERNIE和KnowBERT，模型在训练和推理阶段所需的时间都更短。

在低频词语义学习方面，作者按照单词在训练语料中出现的频率从高往低分成了五组，并使用RoBERTa和KEPLER对这些词进行实体对齐实验，结果发现当对于低频词，KEPLER比RoBERTa的实体预测准确率更高。

由于训练语料存在长尾分布的特征，低频词无法从上下文文中充分学习语义，而KEPLER通过外部描述文本弥补了这一缺陷。

点滴思考

模型通过引入描述文本带来了以下几个好处，一是解决了分别对文本和知识编码造成的异构向量问题，二是保持了和原有模型相同的结构，减少了训练时长和额外的工程实现。三是弥补了预训练语言模型低频词无法充分学习语义的缺陷。

然而这种方法也依赖于具有充分准确的实体和关系描述文本，适用于具有实体简介语料如医疗领域的术语词条的领域知识增强。

在不具备实体描述文本的情况下，我们也可以考虑使用实体所在图谱的上下文，也即实体在图谱的路径帮助实体表示向量的学习，通过采样局部的结构图并构造实体的上下文，也能帮助模型获取更多的信息[2][3]。

此外，我们在这篇论文中看到了借用预训练语言模型，可以用实体的介绍文本初始化实体向量，从而解决文本和知识向量存在于异构向量空间的问题。 问题的关键在于使用同一个编码器对两种不同结构的对象表示学习。

除了本文这种方法，通过将三元组结构的知识图谱转换为文本序列也能够解决这一问题[2][4]，笔者将在后续详细介绍这些方法。

参考文献

[1] Inductive Entity Representations from Text via Link Prediction

https://arxiv.org/abs/2010.03496

[2] CoLAKE- Contextualized Language and Knowledge Embedding

https://arxiv.org/abs/2010.00309

[3] Integrating Graph Contextualized Knowledge into Pre-trained Language Models

https://arxiv.org/abs/1912.00147

[4] K-BERT: Enabling Language Representation with Knowledge Graph

https://ojs.aaai.org/index.php/AAAI/article/view/5681

Original: https://blog.csdn.net/NLPlunwenjiedu/article/details/122663719
Author: NLP论文解读
Title: 知识增强的预训练语言模型系列之KEPLER：如何针对上下文和知识图谱联合训练

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557364/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用Pandas读取多个文件中相同列的数据并合并到新的表格中

import numpy as npimport pandas as pdimport xlrdimport globimport osfrom tqdm import tqdmi…

人工智能 2023年7月7日
0046
YOLOX源码解读系列

1.YOLOX总体结构 demo MegEngine：旷视深度学习开源框架–天元（2020.03.25发布）ONNX：Open Neural Network Exchange ，是…

人工智能 2023年7月10日
0088
海思SDK学习（7）海思媒体处理软件平台MMP(6)视频编码VENC

视频编码 1、概述 VENC模块，即视频编码模块。本模块支持多路实时编码，且每路编码独立，编码协议和编码profile 可以不同。本模块支持视频编码同时，调度Region 模块对编…

人工智能 2023年6月20日
00338
完美解决tensorflow 使用CPU与GPU相关问题

查看 tensorflow 版本conda list例如发现 tensorflow 1.10.0tensorflow-gpu 1.10.0当两个版本相同时，默认会使用 cpu 版本…

人工智能 2023年5月24日
0098
推荐系统（7）：推荐算法之基于协同过滤推荐算法

目录 0. 相关文章链接 1. 协同过滤的算法思想 1.1. 基于内容的推荐中不足之处 1.2. 协同过滤算法思想推导 1.3. 使用协同过滤算法的步骤 1.4. 使用协同过滤算法…

人工智能 2023年6月15日
00135
790. 多米诺和托米诺平铺 : 简单状态机 DP 运用题

题目描述这是 LeetCode 上的 790. 多米诺和托米诺平铺，难度为中等。 Tag : 「状态机 DP」有两种形状的瓷砖：一种是 2 x 1 的多米诺形，另一种是形如…

人工智能 2023年6月29日
0084
【OpenCV 例程300篇】249. 图像的重映射（cv2.remap）

『youcans 的 OpenCV 例程300篇 – 总目录』【youcans 的 OpenCV 例程 300篇】249. 图像的重映射（cv.remap）重映射是…

人工智能 2023年6月18日
0099
【多元统计分析】主成分分析——SPSS上机实验【过程+结果分析】

数据请关注公众号：321红绿灯回复：例5-3 即可获取题目来自何晓群《多元统计分析》（第五版）例题5-3 ; 实验内容试利用主成分综合评价全国各地区水泥制造业规模以上企业的经济…

人工智能 2023年6月11日
0088
聚类算法之密度聚类方法

密度聚类方法 DBSCAN DBSCAN算法的若干概念 DBSCAN具体实现步骤 DBSCAN的优缺点密度聚类方法的核心思想是，只要样本点的密度大于某阈值，则将该样本添加到最近的…

人工智能 2023年5月31日
0080
TensorFlow 基于 Python 的机器学习框架

人工智能浪潮近些年，人工智能相关技术的快速发展大家有目共睹，不必多说。在编程语言方面，更多人希望的是具备高效开发效率、跨平台、高度扩展性的语言，尤其是一些AI巨头优先推出支持Pyt…

人工智能 2023年5月25日
0074
AI技术再升级：2022年最流行的10大人工智能技术

目录 1、自然语言生成 2、语言识别 3、机器学习平台 4、虚拟代理 5、决策管理 6、AI优化硬件 7. 深度学习平台 8. 机器人处理自动化 9. 生物计量学 10. 网络…

人工智能 2023年7月17日
00300
【机器学习】决策树案例三：利用决策树进行泰坦尼克号事故人员存活分类预测

利用决策树进行泰坦尼克号事故人员存活分类预测 3 利用决策树进行泰坦尼克号事故人员存活分类预测 * 3.1 导入模块与加载数据 3.2 特征工程 3.3 划分数据 3.4 模型创建…

人工智能 2023年6月19日
0065
人工智能——多项式回归（Python）

1、概述 1.1 有监督学习 1.2 多项式回归 2 概念 3 案例实现——方法1 3.1 案例分析 3.2 代码实现 3.3 结果 3.4 可视化 4 案例实现——方法2 4.1…

人工智能 2023年6月17日
00130
MongoDB下载安装教程（Windows）

文章目录 * – MongoDB下载安装教程（Windows） – + * 1. 下载过程 * 2. 安装过程 * 3. 配置 * 4. 启动 * 5. 添…

人工智能 2023年7月31日
0052
四、自然语言处理的主要挑战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0073
pandas中DF拼接：concat，merge，join，append方法区别

1 主要参考博客以及说明： https://blog.csdn.net/weixin_42782150/article/details/89546357 本文更像对参考博客的个人解…

人工智能 2023年6月19日
0084

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

知识增强的预训练语言模型系列之KEPLER：如何针对上下文和知识图谱联合训练

大家都在看