【笔记】Three Sentences Are All You Need Local Path Enhanced DocumentRelation Extraction

2023年5月28日下午12:41 • 大数据 • 阅读 76

【笔记】Three Sentences Are All You Need: Local Path Enhanced DocumentRelation Extraction

看前预备知识

信息抽取的三个最重要的子任务：

实体抽取也就是实体识别，包括实体的检测（find）和分类（classify）
关系抽取通常是三元组（triple）抽取，一个谓词带两个形参
事件抽取相当于一种多元关系的抽取。

摘要

在本文中，作者提出了一种简单但有效的方法来启发式地选择证据句子进行文档关系抽取，它可以很容易地与BiLSTM结合，在基准数据集上获得良好的性能，甚至比基于图神经网络的方法更好。

代码： https://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need

本文的目的是抽取文档的实体间关系，在给定的文档中，实体对是怎么生成的？

给定的DocRED数据集中，实体是已经生成好的。

一、Introduction

关系抽取（RE）的任务是提取文本中实体对之间的关系。

文档抽取中对于 给定实体，抽取它们的关系可能只需要几句话而不是整个文档，反而阅读整篇文章会引入不相关的信息。

【笔记】Three Sentences Are All You Need Local Path Enhanced DocumentRelation Extraction

图1：从DocRED数据集中提取的一个案例。虽然文件有6句话，但每个关系实例只有1到2句话作为证据。

如图1所示： S[1]足可以承认Finland是Espoo的国家，识别其余两个实例也只需要两句话作为支持证据。虽然该文档包含6句话，证据可能来自S[1]∼S[6]，但可以通过只读1个或2个相关的句来识别每个关系实例。

由上例引出问题：给定一个实体对，需要多少个句子来确定它们之间的关系？

表1：3个数据集中确定关系对之间关系需要句子数的统计；#Sent表示文档平均多少句子。

作者发现：超过95%的实例需要不超过3句句子作为支持证据，87%的实例甚至只需要2句或更少。

作者在研究实体对在带注释的支持证据中，是如何与上下文相关的？发现注释一般选择连接两个实体的句子。因此，作者设计3个启发式规则来从文档中提取一个路径集，看做支持证据的近似值。

（1） Consecutive Paths：两个实体很近的时候，在3个句子以内；

（2） Multi-Hop Paths：对应于在遥远的句子中的实体对，它可以通过其他在不同的句子中与头实体和尾实体同时出现的实体来桥接。例如，图1中的第3个示例：实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。

（3） Default Paths：当前两个规则都不适用时，收集所有包含头实体或尾实体的句子对作为默认路径。

; 二、路径

2.1 Consecutive Paths

先前研究表明，大多数居间关系往往出现在附近的文本中。因此， 当头实体和尾实体在附近的句子中时，选择连续的句子来形成一个路径：如果在句子S i S_i S i 中有一次提到头实体，在句子S j S_j S j 中有一次提到尾实体，这两个句子以及中间的句子如S i + 1 , . . . , S j − 1 ( 或 S j + 1 , . . . , S i − 1 当 i ≥ j ) S_{i+1},…,S_{j-1}(或 S_{j+1},…,S_{i-1}当i≥j)S i +1 ,…,S j −1 (或S j +1 ,…,S i −1 当i ≥j )形成了连接这两个实体的可能路径。

只要不超过3句话，就可以进行推理，即∣ i − j ∣ ≤ 2 |i-j|≤2 ∣i −j ∣≤2。这个定义可以自然扩展到句子内情况（j=i）。因此，句内情况看成Consecutive Paths 的一种。一对实体可以对应于多个consecutive paths，因为它们可以被多次提及。

2.2 Multi-Hop Paths

在这种情况下， 头实体和尾实体在文档中彼此相距很远，但可以通过桥实体（bridge entities）连接。例如，图1中的第3个示例：实体对the EC Parish和Finland就是通过实体The Espoo Cathedral来桥接的。

对于这些情况，我们从头实体开始，浏览所有的桥实体，到达尾实体，并选择这条路径中所有对应的句子作为路径。

概念：对于头实体e h e_h e h 和尾实体e t e_t e t ，multi-hop 关系表示有一系列桥实体e b 1 , . . . , e b k e_{b_1},…,e_{b_k}e b 1 ,…,e b k 使得( e h , e b 1 ) , ( e b 1 , e b 2 ) , . . . , ( e b k , e t ) (e_{h},e_{b_1}),(e_{b_1},e_{b_2}),…,(e_{b_k},e_t)(e h ,e b 1 ),(e b 1 ,e b 2 ),…,(e b k ,e t )在句子S p 1 , . . . , S p k + 1 S_{p1},…,S_{pk+1}S p 1 ,…,S p k +1 分别形成k+1个句内关系。

注：由于前面所说，表明实体对的关系最多三个句子，所以作者将k限制为最多2,即只有1或2个桥实体。一个实体对可以有多个multi-hop paths。

2.3 Default Paths

如果上述两种规则都不适用，作者将考虑对具有最相关的句子的证据的粗略估计。 作者收集所有的句子对，其中一个包含头部实体，另一个包含尾部实体作为默认路径。

概念：{ S h 1 , . . . , S h p } 和 { S t 1 , . . . , S t q } {{S_{h_1},…,S_{h_p}}}和{{S_{t_1},…,S_{t_q}}}{S h 1 ,…,S h p }和{S t 1 ,…,S t q }分别表示包含头实体e h e_h e h 和尾实体e t e_t e t 的句子集合。对于这些实体对，将有p×q的默认路径{ S h 1 , S t 1 } , . . . , { S h p , S t q } {S_{h_1},S_{t_1}},…,{S_{h_p},S_{t_q}}{S h 1 ,S t 1 },…,{S h p ,S t q }。

请注意，只有在前两种模式没有路径时，才提取这种类型的路径。

三、作者方法的优点

作者提取的每条路径代表一个可能的最小句子集。理想情况下，如果路径集足够，则应该成功捕获实体对之间的所有连接句子。换句话说，它们将通过我们的路径集中的各种路径来呈现。因此，路径的并集有望成为支持证据的超集。作者使用支持证据的覆盖范围来衡量他们路径集的充分性，这代表我们的路径完全涵盖支持证据的实例百分比。同时，路径总数（#Path）和路径的并集大小（#Sent）也应保持在较低的标准水平，以免冗余。

表2：C代表连续路径、M代表多跳路径、D代表默认路径；#Path是平均路径数，#Sent是平均句子数

如表2所示，作者的启发式规则能达到最高87.5%的实体覆盖率。而平均句子数则只有2.69，远低于文档平均句子数8。平均路径数也只有2.27不超过3条。

; 四、实验

通过将路径输入到 RE模型来对DocRED进行评估。 不同的是以前是将整个文档作为输入，但作者改为关于给定实体对的选定路径。（这三种路径怎么实现？）

计划:给定一对实体对，首先如2节描述的提取所有路径。因为每个路径对应于头实体和尾实体的一个可能连接，作者独立的预测与每一条路径的关系，并在之后汇总结果。

对于每一条路径c，作者将其中的所有句子连接为一个段[ w 1 c , . . . , w m c ] [w_1^c,…,w_m^c][w 1 c ,…,w m c ],其中句子的顺序和原文顺序相同。这个段将输入到 BiLSTM获得上下文特征[ h 1 c , . . . , h m c ] [h_1^c,…,h_m^c][h 1 c ,…,h m c ]。

一个实体语言片段的表示（从第s个单词到第t个单词）定义为：
m k c = 1 t − s + 1 ∑ j = s t h j c m_k^c = \frac{1}{t-s+1}\sum_{j=s}^th_j^c m k c =t −s +1 1 j =s ∑t h j c
e i c e_i^c e i c 表示K个实体语言片段的平均值：
e i c = 1 K ∑ k m k c e_i^c = \frac{1}{K}\sum_km_k^c e i c =K 1 k ∑m k c
然后,作者使用一个两层感知器，基于当前路径c，计算每个关系r的概率：
P i j c ( r ) = σ ( F ( [ e i c ; e j c ; ∣ e i c − e j c ∣ ; e i c ∗ e j c ] ) ) P_{ij}^c(r) = \sigma(F([e_i^c;e_j^c;|e_i^c-e_j^c|;e_i^c*e_j^c]))P i j c (r )=σ(F ([e i c ;e j c ;∣e i c −e j c ∣;e i c ∗e j c ]))
其中σ ( ⋅ ) \sigma(·)σ(⋅)是Sigmoid函数，F(·)表示两层感知器。

在获得给定实体对之间的每个路径的预测后，我们选择最有可能的预测：
P i j ( r ) = m a x c P i j c ( r ) P_{ij}(r)=max_cP_{ij}^c(r)P i j (r )=m a x c P i j c (r )
对隐藏大小为256的BiLSTM编码器使用Glove-100嵌入。根据之前的研究(Nanetal.，2020b)，作者报告了句内和句间实体对的f1以及总体f1得分作为评价指标。

Original: https://blog.csdn.net/sun_yi_gui/article/details/121639593
Author: sun_yi_gui
Title: 【笔记】Three Sentences Are All You Need Local Path Enhanced DocumentRelation Extraction

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531562/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Redis Stream适配SpringBoot实现消息队列

大数据 2023年11月15日
0043
深度学习进阶：自然语言处理入门:第1章神经网络的复习

深度学习进阶：自然语言处理入门第1章神经网络的复习 * 1.1 数学和Python的复习 – 1.1.1 向量和矩阵 1.1.2 矩阵的对应元素的运算 1.1.3 …

大数据 2023年5月28日
0095
聊聊秒杀系统的设计（三）

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0081
749. 隔离病毒 : 搜索模拟题

题目描述这是 LeetCode 上的，难度为困难。 Tag : 「模拟」、「图论搜索」、「BFS」病毒传播得非常快，现在你的任务是通过尽可能多地安装防火墙来隔离病毒。…

大数据 2023年5月24日
0071
直播预告 | 乘云而上，企业海量数据如何「丝滑」地迁移上云？

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0076
Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.22.1:test (default-test) on

解决错误 Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.22.1:test (de…

大数据 2023年6月3日
0097
3.构建自己的Ribbon功能菜单

愿你出走半生,归来仍是少年！环境：.NET FrameWork4.5、ObjectArx 2016 64bit、Entity Framework 6. 目录 1.Sqlite配置…

大数据 2023年11月11日
0044
Unity简单商城系统,用SQLite数据库保存/加载数据

Unity简单商城系统案例流程最后效果展示 1. 创建项目并导入SQLite需要的dll文件 2. 创建数据库表(玩家表和商店表) 3. Singleton 单例脚本 4. 封…

大数据 2023年11月10日
0040
【Redis】分布式限流与Redis实现限流的四种方式（Redis专栏启动）

大数据 2023年11月15日
0053
QT入门第十三天 QSqlite3数据库操作【增删改查精髓】

[ Qt_提供了一个非常方便的 _数据库_模块，可以用于进行 _数据库_的 _增删改查操作。以下是一些基本的示例代码，用于展示如何在 Qt_中进行 _数据库操作： 1. 连…

大数据 2023年11月11日
0044
Hive报错FAILED:Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause.

问题出现原因：这个错误是因为hive的map join参数默认是开启的： hive.auto.convert.join=true 使用hive进行map join时，节点内存不…

大数据 2023年6月3日
0097
在IDEA中对数据库SQlite进行增删改查的基本操作

已知Sqlite数据库中员工表（employee）的数据如图所示。可能要用到的脚本如下：（也可以对此做出相应的更改） create table EMPLOYEE ( EMP_ID…

大数据 2023年11月11日
0046
数据集成技术概述-常见的CDC方案比对

导读数据集成的概念，与主要挑战。 CDC技术详解：概念、主流解决方案、以及两个技术流派。实时增量数据集成的主要开源技术：canal、maxwell、Debezium、Flink…

大数据 2023年11月13日
0043
Hive—数据倾斜的产生及解决方法

大数据 2023年11月14日
0035
使用dockerfile创建镜像遇到的问题

1、在dockerfile里面使用本地镜像假设本地有golang:1.16镜像，你想使用，你可能回这么写但是这样的话，docker会去docker.io拉取golang:1.1…

大数据 2023年5月29日
0052
Hadoop jar配置使用JMX进行远程JVM监控

背景: 编写了一个MapReduce程序，发现该程序内存占用非常多，需要有一种方法来分析内存详细的占用情况。可以使用linux上的pmap –d 在这篇文章Eclipse远程调试…

大数据 2023年5月28日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31