详解关系抽取模型 CasRel

2023年6月10日上午10:26 • 人工智能 • 阅读 184

今天来跟大家分享一篇发表在 2020ACL 上的 实体关系抽取论文 CasRel。

论文名称：《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》
论文链接：https://aclanthology.org/2020.acl-main.136.pdf
代码地址：https://github.com/weizhepei/CasRel

1. 关系抽取任务定义

实体关系抽取（ 关系抽取）是构建 知识图谱非常重要的一环，其旨在 识别实体之间的语义关系。换句话说， 关系抽取就是从非结构化文本即纯文本中抽取 实体关系三元组（ SRO）。这里代表 头实体，代表关系，代表尾实体。

上图展示了3个例子：

第一句文本中，”刘翔”和”上海”两个实体之间的语义关系是”出生地”。
第二句文本中，”张艺谋”与”菊豆”两个实体之间的语义关系是”导演”。
第三句文本中，”史蒂夫.乔布斯”与”苹果”之间的语义关系是”创始人”。

2. 关系抽取方法

关系抽取方法主要可分为两类：

管道学习方法（pipeline）：管道学习方法通常先抽取句子中的实体，然后再对 实体对进行 关系分类，从而找出 SRO三元组。
联合学习方法（Joint）：联合学习方法同时进行实体识别和实体对的关系分类两个子任务。

许多实验证明 联合学习方法由于考虑了两个子任务之间的信息交互，大大提升了实体关系抽取的效果， 所以目前针对实体关系抽取任务的研究大多采用联合学习方法。

进一步地， 联合学习方法又可以细分为以下两种： 基于参数共享的联合模型； 基于联合解码的联合模型。另一方面， 解码方式对实体关系抽取性能的影响也很大，主要的解码方式有三种： 基于序列标注； 基于指针网络； 基于片段分类。

《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》[1]是采用序列标注的 联合解码的典型方法。简单地说，它 将实体关系抽取当作了序列标注问题，设计了比较特别的 标注标签可以实现实体、关系的联合抽取(如上图所示)。

3. 关系抽取难点

如上图所示，和大多数的 自然语言处理任务一样， 关系抽取同样有许多难点。我们今天所分享的 CasRel关注的难点主要是 三元组的重叠问题（ 实体关系重叠），即：输入文本中有多个实体关系三元组，彼此之间可能共享了某些实体。

上图给出了部分示例：

（刘翔, 出生地, 上海）与（刘翔, 出生时间, 1983年7月13日）都有”刘翔”；
（《少林足球》, 导演, 周星驰）、（《少林足球》, 编剧, 周星驰）、（周星驰, 参演, 《少林足球》）都有”《少林足球》”和”周星驰”；
（阿尔弗雷德.阿德勒, 出生地, 奥地利）与（阿尔弗雷德.阿德勒, 出生地, 维也纳）都有”阿尔弗雷德.阿德勒”..

前面我们所提的 联合解码模型由于其标签设计或CRF层限定了每个token只能有一个tag，所以无法适用于 实体关系重叠情况。此外， 基于参数共享的关系抽取方法最后通常是一个 多分类层，也就是一对实体只能有一个标签。简单地将其改成多标签分类就能一定程度上解决 实体关系重叠问题，但是这种改进并不具备什么创新性。

那接下来我们就来看看 CasRel是如何另辟蹊径来解决 实体关系重叠问题的。

4. CasRel核心思想

CasRel本质上也是 基于参数共享的联合实体关系抽取方法，它通常被大家称作 层叠指针网络。实际上， CasRel的核心思想或者说作者改进现有模型的重点在于 子层的设计。

因为 CasRel 对于 关系抽取这个任务的 拆分不同，所以子任务及子任务求解顺序也不同。具体地： 首先CasRel 会识别所有可能的主语（头实体）； 然后在给定类别关系下，再去识别与主语相关的宾语（尾实体）。

更形式化的表达：如果说以前 关系抽取/ 关系分类是这样一个映射函数，；那么现在在 CasRel中 关系抽取对应的映射函数则是。

与之相似的思想很早之前就有出现在 知识图谱表示学习方法当中，比如在下图的 TransE[2]模型中就有（这里为头实体，为尾实体）。

5. 模型细节

现在我们再来看 CasRel的模型细节。 CasRel是一个 基于联合解码的实体关系抽取模型，其思想和模型都很简单，主要包括三层：

编码端：基于 BERT的编码层用于获取上下文语义信息对字/词进行表征；
解码端：解码端主要包括了 头实体识别层、 关系与尾实体联合识别层。

在这里， 基于BERT的编码层我们就不做过多的介绍了，感兴趣的读者可以下载论文《Pre-trained Models for Natural Language Processing》进行阅读学习。接下来，我们将着重介绍 CasRel的 解码端。

5.1 头实体识别层

CasRel的 头实体识别层直接对编码层的结果进行解码，去识别所有可能的头实体。这里 CasRel是识别头实体 span，也就是start和end位置，所以它采用的是 二分类。这点和我们在实体识别BERT-MRC论文阅读笔记、实体识别LEAR论文阅读笔记中类似。

因此，模型本身很简单：

首先，利用一个 线性层➕一个 sigmoid激活函数判断每个token是不是头实体的开始token或结束token；
然后，利用 最近匹配原则将识别到的start和end配对获得 候选头实体集合。

5.2 关系、尾实体联合识别层

识别头实体后就要进行 关系和尾实体的联合识别了。这里， CasRel是通过 一组关系相关的尾实体识别层来实现的。每一层尾实体识别层的结构其实与头实体识别层是一样的，不同主要在于输入：

头实体识别层的输入直接就是编码层的输出；
而尾实体识别层的输入还考虑了头实体的特征 :

这里是第个候选头实体所包含的所有token的 向量的平均。

5.3 概率解释

最后，我们从概率角度来看 CasRel模型。

既然实体关系抽取任务就是识别文本中潜在的 实体关系三元组，那么模型的 优化目标可以直接建立在三元组这个层面上。

(1) 优化目标

假设为训练集，是第个输入样本，是文本中含有的所有三元组， CasRel的训练目标自然是如下似然函数值最大:

(2) 概率公式变换

根据 联合概率=边缘概率*条件概率，我们有：

这里表示出现在中的一个头实体，表示出现在中且其头实体为的一组关系-尾实体对。为先验概率，为条件概率。

(3) 关系作为先验知识

然后， 把关系作为先验知识，我们可以进一步把上式右端第二项拆成两部分，即出现在中且头实体为的关系、其他关系：

这里，是所有关系的集合，表示出现在中且头实体为的一组关系，是与的差集，也就是没有出现在中的其他关系。

表示对于文本与头实体以及没有出现在中的关系来说，尾实体识别结果应当为空。所以最终我们有：

(4) 结论

可以发现最终这个式子与 CasRel抽取实体关系三元组的子任务顺序一致：

首先识别文本中所有可能的头实体；
然后在每个关系类别下，去抽取与识别到的头实体存在该关系的所有可能的尾实体。

另一方面，这个任务拆解方式也很自然解决了重叠实体关系三元组的提取问题。

5.4 实验

实验主要在两个公开的数据集 NYT 和 WebNLG 上进行。此外，需要注意的是 CasRel模型本身还有两个变体：

：表示编码端的 BERT参数是随机初始化的；
：表示编码端使用的是 LSTM而不是 BERT。

当然 CasRel则表示采用预训练好的 BERT作为编码端。

(1) 整体实验效果对比

上图中展示了 CasRel及其变体模型与其他基准方法在两个数据集上的效果。可以看到 CasRel 及其变体的效果都高于其他方法；尤其在 WebNLG数据上，相对提升得更多。仔细看 NYT、 WebNLG两个数据分布差异还是蛮大的：

NYT、 WebNLG两个数据中都有 Normal类型的三元组、 SEO类型的三元组、 EPO类型的三元组，且三者在两个数据集中占比不同；
Normal、 SEO、 EPO分别代表常规实体关系三元组、单个实体重叠的实体关系三元组、实体对重叠的实体关系三元组；
NYT 中的实体关系三元组类型多为 Normal类型，即数据中常规实体关系三元组居多。
WebNLG 中的实体关系三元组多为 SEO类型，即单个实体重叠的实体关系三元组居多。

CasRel在两个数据集上相对稳定的表现说明了在实体关系重叠这种复杂场景下，其 框架的有效性。

(2) 不同三元组重叠类型实验对比

上图展示了在 不同三元组重叠类型的样本上各个基准方法与 CasRel的实验结果。可以发现随着场景逐渐复杂（ Normal->EPO、SEO），基准方法的效果都逐渐下降，但 CasRel 则取得了相对稳定且优异的表现。这个对比实验进一步说明了 CasRel 在重叠三元组场景下的有效性。

(3) 不同三元组个数实验对比

随着样本中 三元组个数的增多，每个方法的效果都或多多少地受到了影响。尤其在即多于五个三元组的样本上，基准方法效果基本都大幅度下降，而 CasRel相对要好一些。同时，在的样本上 CasRel的效果相对于基准方法提升的最多。

这个对比实验反映了 CasRel 相比其他基准方法在处理多实体关系三元组下的能力更强。

6. 延伸思考

CasRel 的思想可以很自然地迁移到上去信息抽取中的另一大任务 事件抽取上，因为在事件抽取同样存在一些类似的挑战：

输入文本里面存在 多个事件；
事件 论元可能重叠，同一个论元可能扮演不同的角色、同一个角色下也可能有多个论元：同一个事件论元可能重叠；不同事件之间论元可能重叠。

6.1 事件抽取任务描述

事件抽取任务可拆为两个子任务：

事件检测（event detection）：即触发词的抽取和事件类型判断；
事件论元识别（argument extraction）：即识别事件论元并判断论元所扮演的角色。

6.2 CasRel范式迁移到事件抽取

阿墨最初看到 CasRel 时就想到它的 层叠指针范式可以迁移到 事件抽取中：

建模思路和子任务顺序： CasRel建模思路（TransE 中也是类似的）是”头实体+关系=尾实体”，即 CasRel先抽头实体，再抽关系和尾实体；迁移到事件抽取中，可以是”触发词+角色=论元”即先抽触发词，再抽角色和论元。
模型适配：CasRel 模型中的头实体识别子结构适配到事件抽取中触发词检测，CasRel模型中的关系➕尾实体识别子结构适配到事件论元识别。这样就完成了事件检测任务中的触发词抽取、事件论元识别任务，那么事件类型判定呢？
事件类型判定：事件类型判定既可在触发词检测完后做，即仅对触发词分类，也可以在最后结合触发词/论元/角色信息进行事件分类。
小改动完成完全适配：如果考虑”原文+事件类型=触发词”，那么实际上事件类型判定和触发词抽取可一并完成。只需要把用于抽取触发词子结构换成和用于事件论元识别子结构类似或者说一致即可。

实际上，在2020年阿墨进行事件抽取相关实验过程中，陆陆续续就有这个系列的工作出来如：JMCEE[3]、PLMEE[4] 及CasEE[5]。 CasEE 代码也开源了，阿墨去年也在上面进行了一些实验。文末附上了相关论文链接，感兴趣的读者可下载阅读。

总结

今天我们分享了 实体关系抽取模型 CasRel，并在最后联系 事件抽取做了一些延伸思考。

如果本文对你有帮助的话，欢迎点赞&在看&分享，这对我继续分享&创作优质文章非常重要。感谢🙏！

参考资料

[1]

《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》: https://arxiv.org/abs/1706.05075

[2]

TransE: https://proceedings.neurips.cc/paper/2013/file/1cecc7a77928ca8133fa24680a88d2f9-Paper.pdf

[3]

JMCEE: https://link.springer.com/chapter/10.1007/978-3-030-63031-7_13

[4]

PLMEE: https://aclanthology.org/P19-1522.pdf

[5]

CasEE: https://arxiv.org/abs/2107.01583

Original: https://blog.csdn.net/qq_45637260/article/details/125987227
Author: 梦远星帆
Title: 详解关系抽取模型 CasRel

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/596155/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

envi精度评定_利用ArcGIS+envi实现遥感分类精度评价（分层抽样法）,ArcGISENVI,评估,的…

最近修改论文已经到了最后的关口，结果被质疑分类精度评估的方法。我原来的方法是利用ArcGIS建立格网，格网中心点作为我的目视解译点，然后利用ArcGIS收集该点的影像分类结果，计…

人工智能 2023年7月3日
0070
数字图像处理——RGB与HSV图像互相转换原理

01 RGB与HSV介绍讲RGB图与HSV图的互相转换之前，我们先分别介绍一下这两种图像。 *首先是RGB图像 RGB图像是一种三通道图像，通常用于表示彩色图，它由相同行、列的红…

人工智能 2023年6月18日
0095
基于halcon与c#联合的视觉处理软件

1、视觉软件当我们拿到一个视觉项目，如果有一个拖拽式视觉软件去帮我们完成这样一个项目，既省时又省力，学什么halcon、opencv、visionpro，甚至头疼的C++、C#，…

人工智能 2023年5月26日
0067
【多目标跟踪与计数】（三）DeepSORT实战车辆和行人跟踪计数

一、DeepSort介绍论文地址： https://arxiv.org/pdf/1703.07402.pdf 参考文章： DeepSort讲解代码地址： https://git…

人工智能 2023年6月23日
0093
Paper Reading – 综述系列 – Hyper-Parameter Optimization（上）

更多可见计算机视觉-Paper&Code – 知乎自开发深度神经网络以来，几乎在日常生活的每个方面都给人类提供了比较理性的建议。但是，尽管取得了这一成就，神经…

人工智能 2023年6月23日
0081
图像分类基础

目录图像分类 * 1 CIFAR-10数据集 2 卷积神经网络（CNN） 3 CNN结构的演化 4 AlexNet网络 5 Network-in-Network网络 &#8211…

人工智能 2023年7月2日
0081
机械臂速成小指南（八）：运动学建模（标准DH法）

👨‍🏫🥰🥳需要机械臂相关资源的同学可以在评论区中留言哦🤖😽🦄 指南目录📖： 🎉🎉机械臂速成小指南（零点五）：机械臂相关资源🎉🎉 机械臂速成小指南（零）：指南主要内容及分析方法 …

人工智能 2023年7月5日
00110
ChatGPT与搜索引擎合体，谷歌都不香了，LeCun转发｜在线可玩

Alex Pine 发自凹非寺量子位 | 公众号 QbitAI 有人脑洞大开，把艳惊四座的ChatGPT和必应搜索结合起来，搞出了一个智能搜索引擎：既有ChatGPT式的问…

人工智能 2023年7月31日
0076
ubuntu18.04 RTX3060配置深度学习环境

一、版本选择 Ubuntu 18.04+python3.7+CUDNN 8.2.0+CUDA11.3 +TensorRT8.2+ Pytorch1.10.1+Tensorflow-…

人工智能 2023年5月24日
0082
python内置函数系列之set（一）（持续更新）

python内置函数系列之set（一）（持续更新）查看python中set介绍（ctrl + 鼠标左键）：有如下介绍： """ set() -&g…

人工智能 2023年7月5日
0077
自动化知识图谱表示：从三元组到子图

导读：知识图谱是一种特殊的图结构，它包含了语义信息与图结构信息。它可以被应用在多个领域，如QA问答系统、推荐系统、新药发现、股市预测等。现在无论是学术界还是工业界都陆续提出了自己的…

人工智能 2023年6月1日
0054
基于改进的Transformer模型针对时间序列数据进行预测

文章信息文章题为《Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time…

人工智能 2023年6月25日
0070
python数据处理包——pandas

目录 pandas.DataFrame * – 新建dataframe 将数据转化为dataframe + dict与dataframe list与dataframe …

人工智能 2023年7月7日
00110
Win10下安装 Tensorflow2（CPU），并在Pycharm中运行

教程日期：2021年12月安装环境：Windows 10(64位)，Pycharm 2021.2，Intel处理器目录一、安装Anaconda 二、安装Tensorflow …

人工智能 2023年5月25日
0073
Python pandas使用map, apply和applymap实现对DataFrame进行单列/行，多列/行，以及所有元素的操作

最近在查看网上关于pandas DataFrame使用map, apply和applymap的说明时，发现许多博文未能写清楚关键点。这里整理一下每个函数的使用范围和适用情况。首先…

人工智能 2023年7月6日
0064
卡尔曼滤波的Python实现

为了在Python编程环境下实现卡尔曼滤波算法，特编写此程序主要用到了以下3个模块 numpy（数学计算） pandas（读取数据） matplotlib（画图展示）代码的核心…

人工智能 2023年7月4日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31