【文献阅读笔记】04-重标记噪声：多智能体协作的实体关系联合抽取

2023年6月1日下午9:30 • 人工智能 • 阅读 93

【文献阅读笔记】04-重标记噪声：多智能体协作的实体关系联合抽取-ACL 2020：Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents

1 Introduction
*
1.1 实体关系联合抽取
1.2 文章工作
2 MRL
*
2.1 MRL Overview
2.2 MRL: Confidence Evaluators as Agents
2.3 MRL:Model Learning
3 实验
*
3.1 实验结果
3.2 消融实验
4 结论

1 Introduction

1.1 实体关系联合抽取

实体关系抽取任务：提取具有语义关系的实体对，即三元组；是信息提取的中心任务，需要从非结构化文本自动构建知识。

实体关系抽取目前两种常见解决方案

Pipeline：早期的信息抽取将实体抽取和关系抽取看作两个独立的任务，这样的串联模型在建模上相对更简单。但这样将实体识别和关系抽取当作两个独立的任务会导致一些问题：比如误差积累、实体冗余、关系重叠问题等等。

联合抽取：对实体抽取和关系分类联合建模，能够利用实体和关系之间的交互信息，同时抽取实体并分类实体对的关系，可以很好地解决流水线方法所存在的问题。
目前的抽取思路：通常是先提取实体对-然后-再对关系进行分类或采用统一标注的方式来解决实体关系抽取问题。

有监督：给定人工标注的数据集对模型进行训练
限制：获得高质量人工标注的成本过高

远监督：通过将知识库中的三元组和自由文本进行对齐，从而自动生成训练数据。不需要手动标注实体和关系。
限制：样本噪声问题

; 1.2 文章工作

文章提出新方法解决实体关系抽取问题中的噪声问题：

1. shifted label distribution: 由带噪声标签的训练集与人工标注的测试集之间的不一致引起的
噪声：False Positive 、False Negative
流水线方法（entity-then-relation）加剧了噪声传播

2. 提出了一种联合抽取方法
采用强化学习方法：通过使用各个协作的多代理对噪声实例进行重新标记;
每个代理通过自己的角度计算连续的放置信度分数对实例进行评估；
设计了一个放置信度共识模块，将带有放置信度评分标签的噪声训练集重新进行分配；
使用调整后的标签重组地重新训练提取器（置信度用于调整提取器的训练损失）。

3.在Wiki-KBP，BioInfer两个数据集上的进行了实验
结果证明了对噪声实例进行重标记的作用，文章提出的模型获得了最佳水平。

2 MRL

2.1 MRL Overview

多agent协作的重标记方法的整体框架：

1.强化学习的过程

通过远程监督获得的带有噪声标签的数据集
用这个数据集训练一个特定的抽取器

抽取器的分类结果输送到置信度评估器里，这个部分由两个部分组成：
1.实体角度的agent和关系角度的agent：agent的动作分别从实体和关系的角度来评估置信度
2.置信度共识模块：把实体角度和关系角度的置信度综合起来，给每个三元组重新打一个标签（正例/负例），并且计算出这个三元组的置信度

经过重新打标签之后，原有的数据集的标签分布发生了变化：部分被错误标记为负例的变成了正例，部分被错误标记为正例的变成了负例

重分布后的数据集的噪声会变小，再用这些带有置信度的数据集重新训练抽取器，其中置信度被用来调整损失，抽取器的性能会获得一定的提升，得到更好的结果，再把从验证集得到的F1值当作reward输送给Agent。

再评估置信度、打标签、更新数据集、再训练：是一个迭代的，强化学习的过程。

示例：

; 2.2 MRL: Confidence Evaluators as Agents

一组协作的agents用来评估每个实例的置信度；Agents分为两个子组：entity view、relation view

States：
entity-view agents：S e S^e S e
relation-view agents：$S^r

Actions：连续的动作空间
每个agent用一个神经策略网络𝛩评估当前实例是正例/负例，并计算一个置信度得分：

policy network 𝛩 （GRU）输出一个概率分数（1/0 → positive/negative）

Re-labeling with Confidence Consensus:
设计了一种共识策略：利用多个agents的信息
1.获取置信度：
2.利用置信度重新标记实例：
Positive （c ̅>0.5， C=c ̅ ）
Negative （c ̅≤0.5， C=1−c ̅ ）

Rewards：

每个agent的rewards分为两部分：共享的全局rewards g g g：

单独的局部rewards F 1 e F_1^e F 1 e 、F 1 r F_1^r F 1 r

2.3 MRL:Model Learning

通过重新标记实例的置信度调整extractor的损失
l ′ = C λ l l’=C^{\lambda}l l ′=C λl
缓解噪声引起的负面影响，防止梯度由噪声标签主导

预训练
1.对extractor进行预训练
2.对agent的policy网络进行预训练

可以保证提取器可以给agent一个合理的状态，也可以保证agent有一个初步评估置信度的能力。

迭代Re-training
对于每个数据批次，实体关系extractor执行抽取
计算状态 S e S^e S e 和 S r S^r S r 并输送给实体和关系agents
agent做出action（评估置信度）
置信度共识模块重新标注实例
对extractor进行了重训练，并给出Rewards
记录达到最佳F1性能的提取器的参数

Curriculum Learning for Multiagents

; 3 实验

3.1 实验结果

Datasets：Wiki-KBP、BioInfer
Base extractor：PCNN（pipeline）、CoType ( joint )

实体抽取：文章提出的MRL方法有效改善了base extractor的性能，优于其他baseline，说明了方法的有效性

关系抽取：
和其他baseline相比文章提出的MRL方法获得了更高的F1值；和没有采取MRL方法的基础抽取器的性能相比，采取了MRL方法的模型效果性能也得到了明显的提升，也说明的方法的有效性。

可以看出CoType性能提升的程度大于PCNN，也可以看出联合抽取相比于流水线方法对抽取的性能有一定的提升。

; 3.2 消融实验

4 结论

文章提出了一种多智能体协作的实体关系联合抽取方法，缓解远程监管过程带来的噪声标签问题

采用强化学习方法：通过使用一组协作的多agent对噪声实例进行重新标记
每个agent通过自己的角度计算置信度分数对实例进行评估
设计了一个置信度共识模块，将带有置信度评分标签的噪声训练集重新进行分配
使用调整后的标签迭代地重新训练提取器（置信度用于调整提取器的训练损失）

充分利用了每个实例，有效缓解了噪声实例对抽取模型性能的影响

在Wiki-KBP、BioInfer两个数据集上的进行了实验，结果证明了对噪声实例进行重标记的作用，文章提出的重标记方法取得了最优水平。

文章链接
Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents

Original: https://blog.csdn.net/weixin_38476851/article/details/109296775
Author: 小刘今天好好学习了吗
Title: 【文献阅读笔记】04-重标记噪声：多智能体协作的实体关系联合抽取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558582/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas选取excel特定两列，上下行数值相减，降采样，缺失值处理，按数值范围去除行的处理，在pycharm画图实例

import pandas as pd import numpy as np import matplotlib.pyplot as plt def rename_head(df)…

人工智能 2023年7月18日
0084
【深度学习】（二）深度学习基础

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
00119
【机器学习的数学基础】（一）线性代数(Linear Algebra)（上）

文章目录 * – 2 线性代数(Linear Algebra)（上） – + 2.1 线性方程组 + 2.2 矩阵 + * 2.2.1 矩阵加法和乘法 * …

人工智能 2023年6月15日
0074
解决ValueError: No model found in config file.

解决ValueError: No model found in config file. 1 报错提示 2 问题出现的过程 3 问题原因分析 4 解决方式 * 4.1 解决方式一：…

人工智能 2023年6月15日
0070
完美解决（最简单）：不同虚拟环境不同CUDA版本的安装问题（tensorflow-gpu与pytorch）

一、虚拟环境1：torch环境的cuda配置 1.先安装Torch 进入pytorch官网，Start Locally | PyTorch找到想要安装的torch及对应的cuda，…

人工智能 2023年7月21日
0064
手把手教你安装CUDA（一看就会）

1.背景学习深度学习的话,肯定需要安装PyTorch和TensorFlow,安装这两个深度学习框架之前得安装CUDA. CUDA是什么? CUDA是一个并行计算平台和编程模型，能…

人工智能 2023年7月28日
0087
【笔记】PyTorch快速入门：训练，保存和加载模型

优化模型参数有了模型，接下来要进行训练、验证和测试。首先要加载数据，建立模型 import torch from torch import nn from torch.util…

人工智能 2023年6月4日
00100
强化学习环境配置（使用Anaconda安装CUDA、cuDNN、Pytorch、gym）

本文为初学作品，高人不必读。本文内容均为原创，参考材料列在文末。如需转载，请注明出处。这里写自定义目录标题 Anaconda安装CUDA、cuDNN * 查看显卡驱动版本 Ana…

人工智能 2023年7月21日
00230
如何根据CUDA版本安装对应的pytorch？

### 回答1： CUDA 11.6 对应_的 _PyTorch 版本_为 _PyTorch 1.10.0。在发布 CUDA 11.6 之前， PyTorch 1.9.0 目前是支…

人工智能 2023年7月20日
0060
ResNet50模型学习笔记

ResNet的各种网络结构图如下图所示。 ResNet的层级结构 Layer->Block->Stage->Network Layer是最小的单位，ResNet5…

人工智能 2023年6月25日
0091
CV2逐步学习-2:cv2.GaussianBlur()详解

目录高斯模糊GaussianBlur()中参数详解 1.1. 由参数解释产生的问题深入理解前的准备：高斯函数、图像滤波处理及卷积核解释1.1的问题权重矩阵、高斯模糊的…

人工智能 2023年6月18日
0089
实践篇（一）本体建模与知识表示

操作界面 Active ontology是显示当前的实体名称，以IRI的形式显示，前面是www.semanticweb.org，后面跟着主机名，再后面是默认的根据时间命名实体，可以…

人工智能 2023年6月10日
0077
ResNet代码实现及原理——学习记录

引言论文下载地址：Deep Residual Learning for Image Recognition Pytorch版源代码下载地址：https://github.com/…

人工智能 2023年5月28日
0077
doris生产使用记录

Apache doris介绍: Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。Apache Doris的…

人工智能 2023年6月11日
0094
YOLOv3目标检测图片标注方法–快速入手

文章目录 1. YOLOv3目标检测图片标注方法–快速入手 * 1.1 常用快捷键操作 1.2 界面操作 1.3 文件夹创建要求 1.4 标记过程示例： YOLOv3目…

人工智能 2023年7月12日
0051
协同过滤算法有哪些常见的实现方式，例如基于用户的协同过滤和基于物品的协同过滤

问题描述协同过滤算法是推荐系统中常见的一种方法，用于预测用户的偏好或者推荐物品。有两种常见的实现方式，分别是基于用户的协同过滤和基于物品的协同过滤。本文将详细介绍这两种实现方式的…

人工智能 2024年1月5日
0026

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31