【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取-ACL 2020:Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents

1 Introduction

1.1 实体关系联合抽取

实体关系抽取任务:提取具有语义关系的实体对,即三元组; 是信息提取的中心任务,需要从非结构化文本自动构建知识 。

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
实体关系抽取目前两种常见解决方案

Pipeline:早期的信息抽取将实体抽取和关系抽取看作两个独立的任务,这样的串联模型在建模上相对更简单。但这样将实体识别和关系抽取当作两个独立的任务会导致一些问题:比如误差积累、实体冗余、关系重叠问题等等 。

联合抽取:对实体抽取和关系分类联合建模,能够利用实体和关系之间的交互信息,同时抽取实体并分类实体对的关系,可以很好地解决流水线方法所存在的问题。
目前的抽取思路:通常是 先提取实体对-然后-再对关系进行分类或采用统一标注的方式 来解决实体关系抽取问题。

有监督:给定人工标注的数据集对模型进行训练
限制:获得高质量人工标注的成本过高

远监督:通过将知识库中的三元组和自由文本进行对齐,从而自动生成训练数据。不需要手动标注实体和关系。
限制:样本噪声问题

; 1.2 文章工作

文章提出新方法解决实体关系抽取问题中的噪声问题:

1. shifted label distribution: 由带噪声标签的训练集与人工标注的测试集之间的不一致引起的
噪声:False Positive 、False Negative
流水线方法(entity-then-relation)加剧了噪声传播

2. 提出了一种联合抽取方法
采用强化学习方法:通过使用各个协作的多代理对噪声实例进行重新标记;
每个代理通过自己的角度计算连续的放置信度分数对实例进行评估;
设计了一个放置信度共识模块,将带有放置信度评分标签的噪声训练集重新进行分配;
使用调整后的标签重组地重新训练提取器(置信度用于调整提取器的训练损失)。

3.在Wiki-KBP,BioInfer两个数据集上的进行了实验
结果证明了对噪声实例进行重标记的作用,文章提出的模型获得了最佳水平。

2 MRL

2.1 MRL Overview

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
多agent协作的重标记方法的整体框架

1.强化学习的过程

通过远程监督获得的带有噪声标签的数据集
用这个数据集训练一个特定的抽取器

抽取器的分类结果输送到置信度评估器里,这个部分由两个部分组成:
1.实体角度的agent和关系角度的agent:agent的动作分别从实体和关系的角度来评估置信度
2.置信度共识模块:把实体角度和关系角度的置信度综合起来,给每个三元组重新打一个标签(正例/负例),并且计算出这个三元组的置信度

经过重新打标签之后,原有的数据集的标签分布发生了变化:部分被错误标记为负例的变成了正例,部分被错误标记为正例的变成了负例

重分布后的数据集的噪声会变小,再用这些带有置信度的数据集重新训练抽取器,其中置信度被用来调整损失,抽取器的性能会获得一定的提升,得到更好的结果,再把从验证集得到的F1值当作reward输送给Agent。

再评估置信度、打标签、更新数据集、再训练:是一个迭代的,强化学习的过程。

示例

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

; 2.2 MRL: Confidence Evaluators as Agents

一组协作的agents用来评估每个实例的置信度;Agents分为两个子组:entity view、relation view

States
entity-view agents:S e S^e S e
relation-view agents:$S^r

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

Actions:连续的动作空间
每个agent用一个神经策略网络𝛩评估当前实例是正例/负例,并计算一个置信度得分:

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
policy network 𝛩 (GRU) 输出一个概率分数 (1/0 → positive/negative)

Re-labeling with Confidence Consensus:
设计了一种共识策略:利用多个agents的信息
1.获取置信度:
2.利用置信度重新标记实例:
Positive (c ̅>0.5, C=c ̅ )
Negative (c ̅≤0.5, C=1−c ̅ )

Rewards:

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

每个agent的rewards分为两部分:共享的全局rewards g g g:

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
单独的局部rewards F 1 e F_1^e F 1 e ​、F 1 r F_1^r F 1 r ​

2.3 MRL:Model Learning

通过重新标记实例的置信度调整extractor的损失
l ′ = C λ l l’=C^{\lambda}l l ′=C λl
缓解噪声引起的负面影响,防止梯度由噪声标签主导

预训练
1.对extractor进行预训练
2.对agent的policy网络进行预训练

可以保证提取器可以给agent一个合理的状态,也可以保证agent有一个初步评估置信度的能力。

迭代Re-training
对于每个数据批次,实体关系extractor执行抽取
计算状态 S e S^e S e 和 S r S^r S r 并输送给实体和关系agents
agent做出action(评估置信度)
置信度共识模块重新标注实例
对extractor进行了重训练,并给出Rewards
记录达到最佳F1性能的提取器的参数

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
Curriculum Learning for Multiagents

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

; 3 实验

3.1 实验结果

Datasets:Wiki-KBP、BioInfer
Base extractor:PCNN(pipeline)、CoType ( joint )

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
实体抽取:文章提出的MRL方法有效改善了base extractor的性能,优于其他baseline,说明了方法的有效性

关系抽取
和其他baseline相比文章提出的MRL方法获得了更高的F1值;和没有采取MRL方法的基础抽取器的性能相比,采取了MRL方法的模型效果性能也得到了明显的提升,也说明的方法的有效性。

可以看出CoType性能提升的程度大于PCNN,也可以看出联合抽取相比于流水线方法对抽取的性能有一定的提升。

; 3.2 消融实验

【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取
【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

4 结论

文章提出了一种多智能体协作的实体关系联合抽取方法,缓解远程监管过程带来的噪声标签问题

采用强化学习方法:通过使用一组协作的多agent对噪声实例进行重新标记
每个agent通过自己的角度计算置信度分数对实例进行评估
设计了一个置信度共识模块,将带有置信度评分标签的噪声训练集重新进行分配
使用调整后的标签迭代地重新训练提取器(置信度用于调整提取器的训练损失)

充分利用了每个实例,有效缓解了噪声实例对抽取模型性能的影响

在Wiki-KBP、BioInfer两个数据集上的进行了实验,结果证明了对噪声实例进行重标记的作用,文章提出的重标记方法取得了最优水平。

文章链接
Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents

Original: https://blog.csdn.net/weixin_38476851/article/details/109296775
Author: 小刘今天好好学习了吗
Title: 【文献阅读笔记】04-重标记噪声:多智能体协作的实体关系联合抽取

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/558582/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球