【预训练语言模型】KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

2023年6月1日上午9:14 • 人工智能 • 阅读 94

核心要点：

不引入任何参数实现知识融合；
结合知识表示学习和MLM两个loss进行训练；
构建新的benchmark：wikidata5M

简要信息：

序号属性值1模型名称KEPLER2发表位置ACL 20193所属领域自然语言处理、预训练语言模型4研究内容预训练语言模型、知识增强语言模型5核心内容Knowledge-enhanced PLM6GitHub源码
https://github.com/THU-KEG/KEPLER

7论文PDF
https://arxiv.org/pdf/1911.06136

一、动机

现如今的预训练语言模型不能有效处理world fact知识；
现有的知识图谱包含实体描述信息，可以有效提高实体的语义丰富度；
因此我们期望使用实体描述信息来拉近Knowledge Emebdding（KE）和预训练语言模型（PLM）之间的差距

We encode the texts and entities into a unified semantic space with the same PLM as the encoder, and jointly optimize the KE and the masked language modeling (MLM) objectives.

现有一些方法直接将预训练好的Knowledge Embedding作为预训练语言模型的初始化，但两个语义空间差异太大，无法直接使用；需要实体链指工具，容易导致误差传播等问题；

二、方法

【预训练语言模型】KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

主要目标是将factual knowledge与language representation通过两个训练目标进行融合。

; 2.1 Encoder

直接采用与BERT一致的深层transformer架构，输出的隐状态作为encoder的输出。分词工具则使用RoBERTa的BPE（Byte-Pair Encoding）

不像之前的融合知识图谱的预训练模型，KEPLER不引入任何参数：

we do not modify the Transformer encoder struc- ture to add external entity linkers or knowledge- integration layers

2.2 Knowledge Embedding

知识图谱包含实体和关系边，且以三元组的形式存在（头实体，关系，尾实体）。本文并非先进行预训练，而是直接使用对应的文本的BERT embedding作为初始化。

In KEPLER, instead of using stored embeddings, we encode entities into vectors by using their cor- responding text.

提出三种不同的embedding：
Entity Descriptions as Embeddings
给定一个三元组，头实体和尾实体的描述类文本喂入BERT中获得表征向量，并取 < s > ~~（即[CLS]）的表征作为句子向量。关系向量则直接使用初始化的embedding：~~

根据知识表示学习的预训练Knowledge Embedding的方法，定义能量函数：
d r ( h , t ) = ∣ ∣ h − r + t ∣ ∣ p d_r(\mathbf{h}, \mathbf{t}) = ||\mathbf{h} – \mathbf{r} +\mathbf{t}||_p d r (h ,t )=∣∣h −r +t ∣∣p
以及训练loss：

Entity Embeddings Conditioned on Relations
认为实体embedding应该基于相应的关系。因此对于上面式字中的 h \mathbf{h}h，使用如下进行表示：
h r = E < s > ( t e x t h , r ) \mathbf{h}r = E{~~}(text_{h, r})~~h r =E ~~(t e x t h ,r )~~

即将头实体和关系的文本描述拼接起来，并获得对应的句子表征。

; m2.3 Masked Language Modeling

遵循BERT（RoBERTa），采用MLM作为另一个预训练的目标函数

2.4 Training Objective

两个loss加和训练：
L = L K E + L M L M \mathcal{L} = \mathcal{L}{KE} + \mathcal{L}{MLM}L =L K E +L M L M

三、Wikidata5M构建

构建新的KG，使得其尽可能规模大，每个实体包含文本描述信息，且可以供推理。

3.1 Data Collection

通过https://www.wikidata.org获取wikidata dump（2019）。根据每个实体，从维基百科网站获取相应的词条，并将对应的文本描述保存下来。去除不包含实体描述信息或描述信息低于5个token的实体。构建relation，可以通过超链接（表格、或显式的三元组等），最终得到4, 594, 485 entities, 822 relations and 20, 624, 575 triplets。与其他KB的对比：

transductive setting： 在training、dev和test数据集中，实体可以重叠，但是三元组不能重叠；
inductive setting： 在training、dev和test数据集中，实体和三元组都不能重叠；因此模型需要能够在unseen entity上提升泛化能力

; 四、实验

Baseline
● RoBERTa：直接使用RoBERTa；
● Our RoBERTa：使用RoBERTa-base进行初始化，然后在使用与KEPLER相同语料使用MLM进行训练；
● ERNIE-bert：与KEPLER使用相同的语料和知识图谱进行训练
● KnowBERT-bert：与KEPLER使用相同的语料和知识图谱进行训练
● ERNIE-roberta：
● KnowBERT-roberta：
● MTB（BERT-large）：
● MTB（BERT-base）

Evaluate tasks——NLP
● 关系抽取：TACRED、FewRel1.0、FewRel2.0
● 实体类型分类：OpenEntity
● GLUE：
Evaluate tasks——KE
在构建的Wikidata5M上完成link prediction任务；

Original: https://blog.csdn.net/qq_36426650/article/details/122257656
Author: 华师数据学院·王嘉宁
Title: 【预训练语言模型】KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556023/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年6月23日
00153
知识图谱是什么？一文了解其技术与应用场景案例

导读：悟已往之不谏，知来者之可追。小编整理了各种关于人工智能的学习资料库（知识图谱、图像处理opencv\自然语言处理、机器学习、数学基础等），还有AI大礼包：Pytorch、实…

人工智能 2023年6月1日
00128
[源码笔记]Graph Convolutional Network(GCN) 图卷积网络源码详解

GCN源码详解参考：[Github源码] tkipf/pygcn: Graph Convolutional Networks in PyTorch (github.com)图神经…

人工智能 2023年6月3日
0092
CoCo数据集下载

文章目录 1.介绍 2.下载 * 2.1 官网 2.2 百度网盘 2.3 下载到linux服务器 1.介绍 MS COCO的全称是Microsoft Common Objects …

人工智能 2023年6月23日
00109
jeston nano学习日志（二）

1.4 检测CUDA与CUDNN CUDA没有默认添加到环境当中和之前换源的操作类似我们把CUDA添加到环境当中，先查看有没有NVCC。结果如下图。 ls /usr/local/c…

人工智能 2023年6月22日
0091
方案分享 | 高手云集共同探索重口音AI语音识别

7月6日及14日，”Magichub重口音对话ASR挑战赛”线上颁奖暨获奖方案分享直播活动圆满结束。两场技术干货的直播分享活动共吸引到AI算法工程师600+…

人工智能 2023年5月27日
0093
Ubuntu 下 Apache2 和 PHP 服务器环境配置

１、简介本文主要是 Ubuntu 下 Apache2 和 PHP 服务器环境配置方法，同样适用于 Debian系统：Ubuntu 20.0.4注意：文中运行的命令基本上需要管理员…

人工智能 2023年6月4日
0077
手把手教你电商用户行为分析 | 附实战代码

导读：本文将针对淘宝App的运营数据，以行业常见指标对用户的行为进行分析。作者：刘鹏、高中强来源：华章计算机（hzbook_jsj）数据内容包括user_id（用户身份）、i…

人工智能 2023年6月11日
0071
光谱预处理算法(python版本)

系列文章目录近红外光谱分析技术属于交叉领域，需要化学、计算机科学、生物科学等多领域的合作。为此，在（北京邮电大学杨辉华老师团队）指导下，近期准备开源传统的PLS，SVM，ANN，…

人工智能 2023年6月13日
0087
学习笔记：李航统计学习方法

是关于李航的《统计学习方法》的学习笔记主要是看七月在线的网课 1 统计学习及监督学习概论 1.1 基础概念概念：关于计算机基于数据构建概率统计模型、并运用模型对数据进行预测与分…

人工智能 2023年7月17日
0059
线性判别分析(LDA)详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、LDA简介二、数学原理（以二分类为例子） 1、设定 2、每一类…

人工智能 2023年6月23日
00123
python：学生信息管理系统（简易系统编写）

对于此系统我所使用的是window10系统，所用python解释器版本:python3.8，建议在pycharm进行编写这篇文章将对学生信息管理系统进行全方位刨析，一步一步讲解，…

人工智能 2023年7月3日
0069
softmax回归

分类问题我们从一个图像分类问题开始。假设每次输入是一个 2×2 的灰度图像。我们可以用一个标量表示每个像素值，每个图像对应四个特征 x1,x2,x3,x4 。此外，假设每个…

人工智能 2023年6月30日
0087
安装tensorflow+CUDA全过程记录

首先，版本之间的匹配非常重要。 [En] First of all, the matching between versions is so important. 先搞清楚自己的G…

人工智能 2023年5月23日
00184
论文阅读CVPR Maskformer和Mask2former

前言（碎碎念）：七月初学完最原始的transformer之后，一直感觉对attention和transformer的理解云里雾里的，似懂非懂，后来又学习了关于visual tra…

人工智能 2023年6月18日
0072
YoloV5 train.py 如何使用

parser 参数详解 1 –weights 初始化模型：有yolov5m，yolov5s，yolov5x，yolov5l，如果为设置为空就是没有任何与训练模型2 –conf…

人工智能 2023年7月10日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【预训练语言模型】KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

一、动机

二、方法

; 2.1 Encoder

2.2 Knowledge Embedding

; m2.3 Masked Language Modeling

2.4 Training Objective

三、Wikidata5M构建

3.1 Data Collection

; 四、实验

大家都在看