Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据

2023年6月1日下午3:00 • 人工智能 • 阅读 67

Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据

; 1. 摘要

无监督的关系抽取，存在两大问题：噪声标签、训练数据不平衡
以往：研究集中在减少错误标签的关系（假阳性），很少研究由于知识库的不完备性导致的缺失关系（假阴性）
本文的贡献：
– 首先对负面数据进行分析
– 接下来，将关系抽取表述为一个正的无标签学习任务，缓解假阴性问题
– 提出模型RERE进行关系检测，然后进行subject和object提取
问题分析

关系级别假阴性：抽取到的关系，在预定义的关系集中不存在
实体级别假阴性：S4、S5表示实体级别假阴性

阶级分布不平衡：负标签的数量远远大于正面标签的数量

; 2.1 解决假阴性问题

由百度百科标记的NYT数据集中的三元组为88253，由Wikidata标记的为58135。可以看到，由于知识库的不完备性，只用一个KB来标记，就会存在大量的FN，特别是当多个关系出现在一句中时，即使是人工标注。

2.2解决负面标签

采用先抽取关系，再抽取主体和客体的范式

3.模型

输入：[CLS]，c i c_i c i ，[SEP]
经过BERT生成token表示矩阵：H r c ∈ R N × d H_{rc} \in R^{N \times d}H r c ∈R N ×d
将BERT输出的第一个token [CLS] 的编码向量h r c 0 h_{rc}^{0}h r c 0 作为句子表示，关系分类的最终输出为：y r c = σ W h r c 0 + b y_{rc}= \sigma{Wh^0_{rc}+b}y r c =σW h r c 0 +b
取关系分类的输出y r c y_{rc}y r c （onehot），使用每个检测到的关系（y r c y_{rc}y r c 中1的个数）来生成query
构造MRC格式：[CLS]，q i q_i q i ，[SEP]，c i c_i c i ，[SEP]
将上述输入到BERT中，得到token表示矩阵H e e ∈ R N × d H_{ee} \in R^{N\times d}H e e ∈R N ×d
实体抽取的第K个输出指针由y e e k = σ W H e e + b y_{ee}^k=\sigma{WH_{ee}+b}y e e k =σW H e e +b

; 4. Experiments

启示
先抽取关系再抽取实体的范式，可以应用到监督领域
可以对模型进一步提取特征
增加两者之间的关联性

Original: https://blog.csdn.net/Jeaksun/article/details/124544720
Author: 自然语言处理CS
Title: Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557496/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基因表达数据的聚类分析方法

介绍基因表达(gene expression) 是指将来自基因的遗传信息合成功能性基因产物的过程。基因表达产物通常是蛋白质，但是非蛋白质编码基因如转移RNA（tRNA）或小核R…

人工智能 2023年6月2日
0052
运行神经网络错误使用 struct: 无法从 double 转换为 struct

运行神经网络时提示错误使用 struct: 无法从 double 转换为 struct 的解决办法，亲测有效看到有人说是lssvm和神经网络冲突，自己尝试了一下，确实将lssv…

人工智能 2023年7月13日
00114
深度学习与神经网络——邱锡鹏

关键词：[深度学习] [神经网络] 一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路…

人工智能 2023年7月13日
00110
计算机内用新的conda 环境迁移以及手工安装pybedtoolsconda 打包环境

计算机内用新的conda 环境迁移以及手工安装pybedtools，conda 打包环境 scnym_env /opt/conda/envs/scnym_envth /opt/co…

人工智能 2023年6月30日
0083
学Java· 从new说对象实例化

概念了解想要知道内存中发生了什么，我们先来了解两个内存概念😊😉 1.堆内存：保存对象的属性内容。堆内存需要用new关键字来分配空间；2.栈内存：保存的是堆内存的地址（在这里为了分…

人工智能 2023年6月26日
0070
利用weka进行数据挖掘——基于Apriori算法的关联规则挖掘实例

文章目录 * – 1. weka安装 – 2. 先分析一个Apriori算法的关联规则挖掘实例 – 3. 利用weka进行数据挖掘 &#8211…

人工智能 2023年6月19日
0086
工程实践：基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向，虽然现在许多真实的使用体验上，会被评价为”鸡肋且智障”，并且在落地上还没有太多的付费场景，但也不乏有不少学生、…

人工智能 2023年6月1日
00131
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (RTVC) 论文理解

-1. 说明 https://github.com/CorentinJ/Real-Time-Voice-Cloning Abstract 我们描述了一种基于神经网络的文本到语音（T…

人工智能 2023年5月27日
0080
pyecharts的各个系列配置项设置示例——个人整理与分享

由于在使用pyecharts时我们有很多对图表的配置项设置需要用到全局配置项和系列配置项，因此在对pyecharts的图表进行介绍之前先进行个人在pyecharts官网对系列配置项…

人工智能 2023年7月15日
0094
利用pycaret:低代码,自动化机器学习框架解决分类问题

之前我介绍了利用pycaret来解决回归问题的博客，有兴趣的朋友可以查看我之前的博客,今天我再来介绍一下关于使用pycaret来解决分类问题，首先我们还是来简单介绍一下pycare…

人工智能 2023年7月1日
00142
ZERO-SHOT RESTORATION OF UNDEREXPOSED IMAGES VIA ROBUST RETINEX DECOMPOSITION 论文总结

目录一、论文主要内容二、RRDNet的工作流程三、损失函数 1、Retinex重建损失 2、纹理增强损失 3、光照指导的噪声损失 4、损失函数公式三、实验结果四、代码复现…

人工智能 2023年6月20日
00161
利用红外-可见光图像数据集OTCBVS打通图像融合、目标检测和目标跟踪

文章目录前言一、任务概述二、常见红外-可见光图像数据集 * 2.1 OTCBVS 2.2 TNO image fusion dataset 2.3 INO image fus…

人工智能 2023年6月17日
00122
librosa.feature.mfcc参数介绍

VOICE_LEN=32000 print("sr:" , sr) N_FFT=getNearestLen(0.25,sr) print("N_FFT…

人工智能 2023年5月25日
0096
Rescal 和 Distmult，知识图谱嵌入（KGE）论文阅读

主要思想：三维张量分解参考：双线性模型（一）（RESCAL、LFM、DistMult）知识图谱嵌入(KGE)：方法和应用的综述张量是多维数组，其中零阶张量是标量（scalar）…

人工智能 2023年6月24日
0073
是否可以通过学习率调整来解决过拟合问题

问题背景过拟合是机器学习中常见的问题之一，指的是模型在训练集上表现很好，但在测试集或新样本上表现较差的情况。为了解决过拟合问题，学习率调整是一种常用的方法。学习率调整是指通过调…

人工智能 2023年12月30日
0052
【NLP Tool — NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

NLP Tool 系列文章 NLP–Jieba中文文本–关键词提取、自定义词典、分词、词性标注 NLP–NLTK英文文本–情感分析、…

人工智能 2023年6月24日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Revisiting the Negative Data of Distantly Supervised Relation Extraction重温远程监督关系抽取中的负数据

; 2.1 解决假阴性问题

2.2解决负面标签

大家都在看