【预训练语言模型】ERNIE: Enhanced Language Representation with Informative Entities（ERNIE）

2023年6月10日上午1:19 • 人工智能 • 阅读 90

ERNIE: Enhanced Language Representation with Informative Entities（ERNIE）

前记： 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述，帮助大家对预训练模型进行全局的理解。本系列文章将不断更新，敬请关注博主。本文分享一个对BERT进行改进的预训练模型，其认为传统的预训练模型都只考虑了文本自身，而没有考虑到外部知识，因此作者在原有的预训练任务基础上，增加了一个结合知识图谱的预训练。

简称： Enhanced Language Representatio N with Informative Entities

会议： 2019ACL

开源：https://github.com/thunlp/ERNIE

一、摘要：

神经自然语言表征模型（例如在大规模语料上预训练的bert）可以很好的捕捉原始文本中的语义模式，并根据不同的NLP任务进行微调。然后，现有的预训练语言模型很少有考虑到结合知识图谱（Knowledge Graph，KG），而知识图谱则可以提供丰富的结构化知识用于更好地进行语言理解。我们认为在KG中富含信息的实体和外部知识可以增强语言表征。本文，我们同时利用大规模的文本语料和知识图谱来训练一个增强的语言表征模型（ERNIE），其可以同时充分利用词法、语法和知识的优势。实验结果表明，ERNIE在许多知识驱动的任务上获得了重要的提升，同时超过了其他以BERT以及其他有关的任务上。

二、动机：

现如今一些预训练模型可以通过微调以达到最好效果，例如实体识别、问答系统、自然语言推理和文本分类等任务。但 这些模型均忽略了使用外部的知识信息辅助增强语言理解。尤其是对于实体分类或者关系分类等任务上。

注释：对于现有的预训练模型来说，不考虑实体知识信息，模型无法知道每个实体具体的含义，例如对于句子”Bob Dylan wrote Blowin’ in the Wind in 1962, and wrote Chronicles: Volume One in 2004.”，如果不知道”Bob Dylan”是一个人，”Blowin’ in the Wind”是一本书，1962代表时间，那模型只知道”UNK wrote UNK in UNK”，很显然这会带来语法句法和语义上的模糊问题

将外部知识引入到自然语言表征模型上，存在两个主要挑战：
（1）如何对结构化知识进行表征（Structured Knowledge Encoding）：给定一个文本，如何有效地抽取并编码相关联的信息；
（2）如何处理异构信息融合（Heterogeneous Information Fusion）：预训练的文本信息和结构化知识表征信息属于两个不同的结构，语义层面上则分属不同的向量空间，因此如何将异构信息进行融合；
（3）如何设计一个预训练的目标以充分利用词法、语法和结构知识
为了解决上述的问题， 我们提出一种利用富含信息的实体来增强的语言表征模型（ERNIE），该模型可以同时在大规模的文本和知识图谱上进行预训练。

三、方法：

抽取与表征知识：首先使用实体识别将文本中的实体与知识图谱进行链接，并使用TransE模型将知识图谱进行嵌入式表征作为ERNIE模型的输入。最后ERNIE将知识模块中的实体表示集成到语义模块的底层；
与BERT类似，我们使用MLM（Masked Language Model）和NSP（Next Sentence Prediction）作为预训练的目标。为了充分的将知识结合文本，我们提出一种新的预训练目标，即随机mask一些命名实体，并让模型去知识图谱中选择相应的实体来进行补全。我们的方法需要模型同时利用上下文以及知识图谱的事实来预测token以及entity

四、模型：

【预训练语言模型】ERNIE: Enhanced Language Representation with Informative Entities（ERNIE）

模型架构如上图所示。

说明：原始文本对应的序列是token序列，知识图谱则对应的是实体entity序列，通过实体识别和链接将token与entity进行对齐，但并非所有的token都有与之对应的实体。若某个token能与某个实体对齐，则记做 e = f ( w ) e=f(w)e =f (w )。

ERNIE包含两个堆叠的模块：

Underlying Textual Encoder（T-Encoder）：用于捕捉词法和语法信息；
Upper Knowledgeable Encoder（K-Encoder）：用于将原始的token对齐的实体信息集成进来

; 4.1 Underlying Textual Encoder（T-Encoder）

输入input token表征，包括token embedding、segment embe以及position embedding三者之和；其次喂入到T-Encoder中获得词法和语法表征，T-Encoder即是一个多层的Transformer模型（BERT中的结构）。该部分的输出表征向量将喂入下一层T-Encoder，直到Underlying Textual Encoder结束（如图，T-Encoder包含N层）。T-Encoder的最终输出将喂入K-Encoder。

简单地来说，这一部分的架构完全与BERT一致

4.2 Upper Knowledgeable Encoder（K-Encoder）

这一部分也是包含多层堆叠的模块，记做aggreator，第i层的输入是第i-1层的输出。该模块包含原始的token表征（经过T-Encoder表征后的结果）以及实体表征（经过预训练TransE表征后的结果）。首先将其分别喂入两个多头注意力（参数不共享）：

其次，使用Information Fusion对token和entity进行融合，这里需要分两种情况讨论：

（1）对于每个token w w w 以及其相应对齐的实体 e = f ( w ) e=f(w)e =f (w ) ，通过下面公式实现相互信息融合：

（2）对于每个token w w w ，如果其不含有对齐的实体，则通过下面的公式：

如上图可以看出，如果token有对齐的实体，则拼在一块去计算，计算完后再分离出来；如果token没有对齐的实体，则单独计算，第 i 个aggregator的输出包含token embedding以及对应的entity embedding。整个T-Encoder的输出也是如此。

; 4.3 Injecting Knowledge

我们定义了一个新的预训练任务dEA，即随机mask一些token-entity alignment，并让模型去预测token是对应哪个实体。因为知识图谱的规模庞大，因此我们只在给定的实体序列中去预测。预测某个token是否是与某个entity对齐，可以定义下面的相关度分布函数：

对于mask方法，其仿照BERT进行如下操作：

5%的概率，对于给定的token-entity alignment对，将entity替换为其他随机的entity，需要模型能够识别出那些token错误对齐的实体；
15%的概率则mask整个token-entity alignment，让模型能够识别出那些没有完全抽取所有的token-entity alignment；
80%的概率则保持不变，以让模型能够充分将实体信息集成到文本中以增强语言理解。

其次还使用MLM和NSP任务，三个任务的loss之和作为整个预训练任务的loss。

五、微调（Fine-tuning）

微调部分与BERT类似，定义了一些特殊的标记，例如 [CLS] 等，如下图，包含传统NLP任务、实体类型自己关系分类：

（1）关系分类：使用 [CLS] 标签对应的embedding，在输入部分则加入 [HD] 和 [TL]（分别表示头实体和尾实体）等特殊标记用于显式明确实体的位置信息；
（2）实体类型：添加 [ENT] 标签，使用 [CLS] 对应的embedding进行分类；

; 六、ERNIE的实验细节：

（1）对于T-Encoder部分，其直接使用BERT，因此直接使用预训练的参数初始化这个模块；
（2）统计一共包含4500万个subwords，140万个实体，且每个句子保证至少有三个实体；
（3）使用TransE预训练实体表征，包含5040986个实体和24267796个事实（三元组），在ERNIE模型中这些实体表征固定不变
（4）T-Encoder和K-Encoder的层数均为6，token表征向量维度为768，entity维度为100，对于token表征的multi-head attention，其head数为12，对于entity部分则head数为4，参数总量为114M。
（4）作者在annotation和distant supervision两种类型的数据上进行实验，证明只需要很少次数的预训练即可以实现微调。
（5）消融实验验证了同时添加实体信息、以及dEA预训练任务，均可以在FewRel（一种小样本的关系抽取任务）上得以提升。

七、未来研究：

将knowledge注入到其他feature-based语言模型（例如ELMo）；
引入多种结构知识表征，例如同时使用概念图谱（ConceptNet）和世界知识图谱（Wikidata）；
启发式地标注更多真实语料用于构建预训练数据集，将有助于自然语言理解任务；

对于本文如若有疑难，错误或建议可至评论区或窗口私聊， 【预训练语言模型】 系列文章将不断更新中，帮助大家梳理现阶段预训练模型及其重点。

Original: https://blog.csdn.net/qq_36426650/article/details/112224304
Author: 华师数据学院·王嘉宁
Title: 【预训练语言模型】ERNIE: Enhanced Language Representation with Informative Entities（ERNIE）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/594846/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

c++ opencv4.5.5 学习笔记（四）形态学操作(膨胀、腐蚀、开操作、闭操作、形态梯度、顶帽以及黑帽)

图像形态学中的几个基本操作：腐蚀、膨胀、开操作、闭操作膨胀该操作包括将图像与某些内核进行卷积，其可以具有任何形状或尺寸，通常为正方形或圆形。内核具有定义的锚点，通常是内核的中…

人工智能 2023年6月22日
0081
MySQL索引详解

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0049
论文阅读 Learning graph attention-aware knowledge graph embedding

Learning graph attention-aware knowledge graph embedding 学习图注意感知知识图嵌入发表于：Neurocomputing 4…

人工智能 2023年6月10日
0069
ROS机器人建模与仿真（一）——URDF模型的建立和改进

申明：本系列参考古月大神教材《ROS机器人开发实践》第六章内容，结合自己学习过程和遇到的问题逐一分解，争取能够吃透！欢迎大家一起讨论！ URDF 是 ROS 中机器人模型的描述格式…

人工智能 2023年6月10日
00221
关于机器学习分类与回归问题、深度学习各类超参数的简单介绍和网络搭建的简单介绍（学习笔记）

首先，我们了解机器学习的分类与回归问题。（1）什么是机器学习？机器学习，顾名思义就是让机器（计算机）进行学习。首先针对一个任务设计一种算法，再通过投喂计算机数据让它提取数据中蕴…

人工智能 2023年6月17日
0075
基于kubenetes的kubespere安装

回答1：是一种容器编排工具，可以帮助我们管理和部署容器化应用程序。Sentry是一个开源的错误跟踪平台，可以帮助我们监控应用程序中的错误和异常。要在上部署Sentry，我们需…

人工智能 2023年6月26日
0066
超越一切YOLO！旷视提出YOLOX：新一代实时目标检测网络

非常期待YOLOv6（YOLOv4/v5已发布一年了），白嫖真香！其中YOLOX-L版本以 68.9 FPS 的速度在 COCO 上实现了 50.0% AP，比 YOLOv5-L…

人工智能 2023年7月12日
0052
Windows11安装Detectron2（附详细操作指南）

Windows11安装Detectron2 0.简介 Detectron2 是 Facebook AI Research 的下一代目标检测库，可提供最先进的检测和分割算法。它是 …

人工智能 2023年7月21日
0078
numpy矩阵求最值、均值、方差、标准差、中值、求和，众数

一、最值获得整个矩阵、行或列的最大最小值。 import numpy as np a = np.array([[1,2,3,3],[4,5,6,2],[0,8,4,9]]) pr…

人工智能 2023年6月19日
0077
RAW、RGB、YUV 图像格式区别

前言颜色是人的视觉系统对光谱中可见区域的感知效果，它仅存在于人的眼睛和大脑中。为了准确地描述颜色，必须引入色彩空间的概念。正如几何上用坐标空间来描述坐标集合，色彩空间用数学方式来…

人工智能 2023年6月18日
0083
NoveAI本地环境搭建、AI作画

鉴于按照别人的教程安装过程中遇到各种问题,极其痛苦,所以还是自己也整理总结一份. 1 diffusion vs GAN 所谓扩散算法diffusion是指先将一幅画面逐步加入噪点，…

人工智能 2023年6月24日
0089
Unity用代码写行走移动（第一人称）

利用代码写物体移动,首先我们要知道按键检测一般按键检测if (Input.GetKey(KeyCode.按键值)) 比如说我按W触发就是 if (Input.GetKey(Key…

人工智能 2023年7月30日
0078
三四百左右的蓝牙耳机有什么推荐？三四百左右的蓝牙耳机排行榜

在蓝牙耳机的功能越来越强大之后，很多蓝牙耳机的续航能力都相当不错。现在，各大耳机厂商今年都亮出了看家本领，降低通话噪音几乎成了标配。因为用户重视降噪功能，所以只有降噪厂商相关的参数…

人工智能 2023年5月25日
0070
一、音频基础知识 – 语音的基本特征

本篇文章主要介绍量化、分析语音信号：围绕语音是怎么产生的？都有哪些特点？这些原理都是语音识别背后的基础。一、音频基础知识-声音的产生和记录一文中描述了声音的本质，并且介绍了一段单一…

人工智能 2023年5月25日
0098
Yolov5：强大到你难以想象──新冠疫情下的口罩检测

初识 Yolov5是看到一个视频可以检测街道上所有的行人，并实时框选出来。之后学习了CNN卷积神经网络，在完成一个项目需求时，发现卷积神经网络在切割图像方面仍然不太好用。于是我想到…

人工智能 2023年6月16日
0083
语音质量评价指标：PESQ（已经过时）

PESQ 概述 PESQ 流程问题概述 PESQ（Perceptual evaluation of speech quality）（语音质量的感知评估）是一种客观的、全参考…

人工智能 2023年5月27日
00131

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31