Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)

2023年6月1日下午7:23 • 人工智能 • 阅读 74

引言
摘要

实体和关系联合提取的目的是利用单一模型检测实体对及其关系。以往的工作通常采用先提取后分类或统一标注的方式来解决这个问题。但是，这些方法在提取实体和关系的过程中要么存在冗余实体对，要么忽略了重要的内部结构。针对这些局限性，本文首先将联合抽取任务分解为两个相互关联的子任务，即HE抽取和TER抽取。前一个子任务是区分所有可能涉及到目标关系的头实体，后一个子任务是识别每个提取的头实体对应的尾实体和关系。然后，基于我们提出的基于span的标记方案，将这两个子任务进一步分解为多个序列标记问题，并采用分层边界标记和多跨解码算法方便地解决这些问题。由于合理的分解策略，该模型能够充分捕捉到不同步骤之间的语义依赖关系，同时减少了来自无关实体对的噪声。实验结果表明，我们的方法比之前的工作性能提高了5.2%、5.9%和21.5% (F1得分)，在三个公共数据集上达到了一个新的最高水平。

动机
传统的流水线方法首先识别实体，然后为每一对可能提取的实体选择一个关系。这样的框架使任务易于执行，但忽略了这两个子任务之间的底层交互。
现有的联合模型该对重叠关系的识别不够优雅，这可能导致在处理具有重叠关系的句子时记忆效果不佳。
如果一个模型不能完全感知头实体的语义，那么提取相应的尾实体和关系就不可靠。
贡献

本文提出一种新颖的分解策略。以一个句子开始,我们首先明智地识别所有可能的候选人head-entities参与目标的关系，然后对每个提取的头实体标注对应的尾实体和关系。我们称前者为头实体(HE)提取，后者为尾实体和关系(TER)提取。这样extract-then-label (ETL)范式可以理解分解三联体提取的联合概率条件概率p ( h , t , t ∣ S ) = p ( h ∣ S ) p ( r , t ∣ h , S ) p (h,t,t | S ) = p (h | S) p (r, t | h, S)p (h ,t ,t ∣S )=p (h ∣S )p (r ,t ∣h ,S )，( h , r , t ) (h, r, t)(h ,r ,t )是一个三联体的句子。此外，与先提取后分类的方法相比，我们的范式不再在第一步提取所有实体，只识别可能参与目标三胞胎的头实体，从而减轻了冗余实体对的影响。

利用基于span的标记方案进一步分解了HE和TER抽取。具体来说，对于HE提取，实体类型在每个头实体的开始和结束位置标记。对于TER提取，我们在与给定头实体有关系的所有尾实体的开始和结束位置注释关系类型。为了增强边界位置之间的关联，我们提出了一个分层的边界标记器，它将起始点和结束点标记出来。

总之， 对于有m个head-entities的句子，整个任务被解构为2 + 2m个序列标记子任务，前2个为HE标记子任务，另外2m为TER标记子任务。

标记策略

我们首先介绍了我们的标记策略，在此基础上将联合抽取任务转化为多个序列标记问题。然后详细介绍了分层边界标记器，这是该方法的基本标记模块。

Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)

对于每个识别出的头实体，TER提取也分解为两个序列标记子任务，利用跨度边界提取尾实体并同时预测关系。第一个序列标记子任务主要标记尾实体的开始字标记的关系类型，第二个子任务标记结束字标记的关系类型。

在本工作中，我们选择了B i L S T M BiLSTM B i L S T M作为基本编码器。在形式上，在标注开始位置时，单词x i x_i x i 的标签被预测为下式：

x i x_i x i 的结束标签可以通过下式计算：

如式子所示，我们模型在预测结束位置时能够感知起始位置的隐藏状态。其次，受使用的位置编码向量的启发，我们将嵌入p i s e p^{se}_i p i s e 的位置作为BiLSTM层的附加输入。通过在可训练的位置嵌入矩阵中查找位置嵌入矩阵，可以得到可训练的位置嵌入矩阵:

这里的∗是当前索引之前最近的起始位置，p i s e p^{se}_i p i s e 是x i x_i x i 和s ∗ s^*s ∗之间的相对距离。

我们将HBT的训练损失(待最小化)定义为真实开始标签和结束标签的负对数概率之和。

; 5. 抽取模型

利用基于span的标记方案和分层边界标记器，我们提出了一种端到端神经结构来联合提取实体和重叠关系，首先使用共享的BiLSTM编码器对句子进行编码。在此基础上，构造了一个提取头实体的提取器。对于每一个提取出来的头实体，利用头实体的语义和位置信息触发TER提取器，检测相应的尾实体和关系。

5.1 Shared Encoder

; 5.2 HE Extractor

提取器的目的是区分候选头实体，排除不相关的头实体。

5.3 TER Extractor

与提取器相似，TER提取器也使用和全局向量的基本表示作为输入特征。然而，仅仅连接g g g不足以检测尾实体以及与特定头实体的关系。执行TER提取所需的关键信息包括:(1)尾实体内的单词;(2)依赖的头实体;(3)表明关系的上下文;(4)尾实体与头实体之间的距离。基于这些考虑，我们提出了位置感知、头-实体感知和上下文感知的表示：

; 6. 实验结果

代码实现

Original: https://blog.csdn.net/qq_38556984/article/details/109092842
Author: fond_dependent
Title: Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558184/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于opencv和np.repeat的图像马赛克和人脸检测马赛克（python源码）

文章目录 * – 基于opencv和np.repeat实现的图像马赛克 – + 包的导入: + 原图像读取： + 马赛克实现方式1：原图像 -> r…

人工智能 2023年5月28日
0093
MATLAB小技巧（21）矩阵分析–偏最小二乘回归

MATLAB进行图像处理相关的学习是非常友好的，可以从零开始，对基础的图像处理都已经有了封装好的许多可直接调用的函数，这个系列文章的话主要就是介绍一些大家在MATLAB中常用一些概…

人工智能 2023年6月17日
0052
K-means聚类算法原理及python具体实现

文章目录 1 快速理解 * 1.1 算法步骤 1.2 一个例子 2 K-means步骤详解 * 2.1 K值的选择 2.2 距离度量 2.3 新质心的计算 2.4 停止条件 3 K…

人工智能 2023年7月24日
0061
12月编程语言排行榜公布啦~

2022年迎来了最后一个月，我们可以看到，在这一年中编程语言起起伏伏，有的语言始终炙手可热，而有的语言却逐渐”没落”…… 日前，全…

人工智能 2023年7月31日
0053
[論文筆記] YOLOv2 (未完成)

### 回答1：尚硅谷的Vue2笔记是学习Vue技术的好帮手。这份笔记详细地介绍了Vue的基本概念和使用方法，包括Vue的属性、指令、事件、计算属性、过滤器、组件等等。通过阅读这…

人工智能 2023年7月12日
0050
机器学习之线性回归选择题总结

1、多元线性回归中的”线性”是指什么是线性的A.因变量B.系数C.因变量D.误差答案：A 2、欠拟合的产生原因有A学习到数据的特征过少B学习到数据的特征过多…

人工智能 2023年6月17日
00128
opencv实现阈值分割算法和分水岭算法

欢迎关注公众号：Python大视界，上周在组会学习中小师妹介绍了分水岭算法和阈值分割算法，并用opencv实现相关代码，借用实现的代码，加之一些优秀的博客，对于图像分割做一个简单…

人工智能 2023年7月19日
0053
C++ – opencv应用实例之文本图像增强

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月18日
0071
ROS——一文读懂：tf变换

文章目录简介 TF消息 * TF树的数据类型格式定义 tf in c++ * 数据类型数据转换 – 定义空间点和空间向量定义四元数定义旋转矩阵 TF类 &#8…

人工智能 2023年6月11日
0091
【自然语言处理】： transformer原理实现

1.seq2seq 一般在我们序列模型当中，都会分为encoder和decoder两个部分，如下图所示：而我们的transformer变形金刚其实相当于是一种对我们seq2seq…

人工智能 2023年6月6日
0083
【老师见打系列】：我只是写了一个自动回复讨论的脚本~

文章目录 🌟好久不见 ⛳️实现过程 * 🌴老操作了兄弟们~ 🐢一步拿捏讨论 – 💖美图结束语专栏Python零基础入门篇 💥 Python网络蜘蛛 💥 Python…

人工智能 2023年6月26日
0053
单目 3D 目标检测——SMOKE

😸 SMOKE 主要工作：提出一种端到端的 单目 3D 目标检&am…

人工智能 2023年7月10日
0048
SE-ResNet的实现

见：D:\pythonCodes\深度学习实验\4.1_经典分类网络\inference代码汇总\models\se_resnet.py 一、SE-ResNet的实现方法读了se…

人工智能 2023年7月14日
0094
MMDetection 使用示例：从入门到出门

最近对目标识别感兴趣，想做一些有趣目标识别项目自己玩耍，本来选择的是 YOLOV5 的，但无奈自己使用 YOLOV5 环境训练模型时，不管训练多少次 mAP 指标总是为 0，而其它…

人工智能 2023年7月9日
0066
尚硅谷Promise笔记

文章目录一、Promise介绍与基本使用 * 1-1.初体验之promise封装ajax请求 1-2.Promise对象状态属性PromiseState的值有三个 1-3.Pro…

人工智能 2023年7月30日
0042
（目标检测）①数据集的建立（拍摄收集、数据集标注）

目录一、拍摄收集（一）视频拍摄（二）将MP4文件截取出图片二、数据集标注 1、打开图片所在的文件夹 2、修改输出文件夹 3、图片标注这一系列的博客将会帮助我自己（和大家）…

人工智能 2023年6月25日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)

5.1 Shared Encoder

; 5.2 HE Extractor

5.3 TER Extractor

大家都在看