本文引入了BOOTLEG, 一个建立在消除歧义的推理模式上自我监督的NED系统。定义消歧的核心推理模式，创建一个学习步骤使得self-supervised model 学习模式，并展示如何使用弱监督提升训练数据的信号。用一个简单的Transformer架构编码推理模式，BOOTLEG在NED基线上实现了最好的性能。

具体的挑战

Tail Reasoning: 描述这些推理模式并了解它们对 tail 的覆盖情况。

Poor Tail Generalization: 相比一般的类型和关系特征，模型过度依赖有识别力的文本和实体特征。

Underutilized Data: 自监督模型会随着训练数据量的增加而提升。但标准的NED训练数据集中只用到一小部分数据(Wikipedia 数据集中大概有68% 的实体没有标记)。

具体的解决方法

Reasoning Patterns for Disambiguation：我们为NED提供了一套原则性的核心消歧模式——entity memorization, type consistency, KG relation, and type affordance——并在Wikipedia举例说明每个模式的片段中展示了这些模式。

Generalizing Learning to the Tail ：数据集中有entity-, type-, and relation- tails，但在tail entities

上，有88%是non-tail types，有90%是non-tail relations。模型需要依赖用来消歧的特定实体以不同的方式平衡这些信号。相比模型使用标准的正则化技术，本文提出了一个新的 2D regularization scheme连接entity , tail, relation信号并实现了在unseen entities上性能的提升。

Weak Labelling of Data: WikiPedia是高度结构化的，在一个实体的维基百科页面上，大多数句子都是通过代词或替代名称来指代该实体的——我们可以将我们的训练数据弱标记为标记提及。

注：本文将NED的 tail, torso, and head定义为在训练中分别出现少于10次、10到1000次和超过1000次的实体。

1. 四种推理模式

Entity Memorization：与特定实体相关的事实性知识。可以用标准的基于Transformer的语言模型学习该模式。

Type Consistency：文本中的某些文本信号表明集合中的实体类型可能是相似的。

KG Relations：当两个候选实体有一个已知的KG关系时，语篇信号表明这种关系可能存在于句子中。
Type Affffordance：与特定实体类型相关联的文本信号。

2. Bootleg 模型架构

信号编码

entity embedding: 每个实体用唯一的嵌入Ue 表示。

type embedding: 因为一个实体可能有多个类型，所以使用了additive attention。

本文设计了三个模块捕捉设计目标(通过建模文本信号获取推理模式):a phrase memorization module, a co-occurrence memorization module, and a knowledge graph connection module.

P hrase Memorization Module(Phrase2Ent)

Co-occurrence Memorization Module(Ent2Ent)

Knowledge Graph (KG) Connection Module(KG2Ent)

基于成对连接特征对实体进行解析。

(其中K 表示图的邻接矩阵)

End-to-End

一层BOOTLEG的计算包括:

3. 提升Tail 泛化

Regularization

如果BOOTLEG 利用对流行实体的区别性特征和对稀有实体的一般特征的记忆，我们就可以改善tail 的性能。为了实现这一目标，我们设计了一种针对特定实体嵌入 u 的新正则化方案，该方案具有两个关键特性:它是二维的(相比一维，会加入 masking full embedding )，并且受欢迎的实体被正则化的程度低于不太受欢迎的实体。

Weakly Supervised Data Labelling

对于弱标记，我们使用两种启发式方法:第一标记是代词，第二标记是实体的可替代名称。

4. 实验部分

本文证实：BOOTLEG

(1) 近似匹配或超过在三个标准的NED benchmarks 上的性能。

(2) 在 tail 上超过了基于BERT的 NED baseline。

(3) Bootleg学到的推理模式可以通过使用它们进行下游任务的转移。

(4) Bootleg可以通过只学习实体嵌入的一小部分而不牺牲性能实现高效采样。

(5) 了解结构信号和正则化方案对改进 tail 性能的影响。

实验结果

BOOTLEG 错误分析：

① 粒度

② 数值

③ 多跳

④ 准确匹配

Original: https://blog.csdn.net/lft_happiness/article/details/123912209
Author: Toady 元气满满
Title: 实体消歧方法(1)__BOOTLEG

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530971/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MMDetection源码解析：Faster RCNN(6)–SingleRoIExtractor类和BaseRoIExtractor类

SingleRoIExtractor类定义在\mmdet\models\roi_heads\roi_extractors\single_level_roi_extractor.py…

人工智能 2023年6月4日
0083
通过文件夹输入图片进行头部姿态检测（dlib+opencv）

–20220430 一些项目笔记我们实验室最近在做项目，具体的实验题目可能不是很能和大家分享，我就单纯讲一下我负责这一部分的内容，我们具有三个技术组，其中每个人负责的部分是不一样…

人工智能 2023年7月19日
0062
基于ZYNQ的帧差法多运动目标检测(开源)

简介该项目基于OV5640摄像头与ZYNQ，实现最多8个运动目标的检测，输出结果会显示在RGB LCD屏幕，开发板的四个按键功能如下 PL_KEY0：控制运动区域阈值的变化 PL…

人工智能 2023年5月26日
0067
手机进销存网站

开发工具(eclipse/idea/vscode等)：数据库(sqlite/mysql/sqlserver等)：功能模块(请用文字描述，至少200字)：功能模块包括：员工模块、手…

人工智能 2023年7月31日
0068
Nvidia RTX A4000 GPU 安装 515驱动记录-Ubuntu22.04

The record of Nvidia driver installation of Nvidia RTX A4000 in ubuntu22.04 Environment: U…

人工智能 2023年6月26日
0069
Error in ggplot(df, aes(x = x, y = y)) : could not find function “ggplot“

Error in ggplot(df, aes(x = x, y = y)) : could not find function “ggplot” 目录 E…

人工智能 2023年6月19日
0079
【图分析】逼近（Approximation）

目录 * – Connectivity – K-Components – Clique,apx-maximum independent set …

人工智能 2023年6月1日
0094
Tensorflow学习之tf.layers.dense()

tf.layers.dense() 首先，TensorFlow中封装了全连接层函数 tf.layers.dense()，方便了开发者自己手动构造权重矩阵W W W和偏移矩阵 b b…

人工智能 2023年5月23日
00109
文本预处理库spaCy的基本使用（快速入门）

文章目录 spaCy 简介 spaCy 安装 spaCy的基本使用 spaCy中的几个重要类 spaCy的处理过程（Processing Pipeline）实战：对中文进行分词和…

人工智能 2023年5月27日
00124
R语言绘制线图（line）实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0073
吉布斯采样

回顾一下MC 采样： f(x)是已知的概率分布函数，现在找到一系列的x服从这个概率分布。也就是在f(x）当中抽取一些样本x。后来就提出了： F(x)是f(x)的累积概率分布，只…

人工智能 2023年6月24日
0081
Qt显示wav波形图

1.参考资料： https://www.docin.com/p-1263172990.html https://wenku.baidu.com/view/738ea046fd4ff…

人工智能 2023年5月27日
0064
【数据分析】分类指标、用户价值与预测—抖音电商数据集

该数据集(douyin.csv)主要截取了200000条抖音电商平台上的商品销售情况。本文的分析将先根据数据集的结构选取分析目标，再通过可视化来展示各项分析目标的结果，从而挖掘出影…

人工智能 2023年7月15日
0069
pandas：jupyter notebook笔记（更新中）

简介：从数据中寻找真正有价值的信息叫数据分析，而这个jupyter nootbook正是数据分析的工具一、Series和DataFrame的创建 Series（一维）的创建：首先…

人工智能 2023年7月6日
0046
brvah树状结构默认展开第一个_英汉句子结构的差异

英语句子的特点是句子中的每一个成分，均可有修饰语，而且修饰语可以不止一个，每个修饰语都可以很长；一个修饰语还可被另一个修饰语修饰，因此句子结构复杂，犹如”参天大树，枝叶…

人工智能 2023年6月10日
0063
深度学习（3）：不同分类模型的评价指标（F1、Recall、P）

一、引入我们在训练模型的过程中，需要用未知的数据集（为被训练过的）送入训练好的模型进行验证，来检测该模型是否适用于该项目。哪该如何来进行判断呢？这个就需要评价指标了。模型的评价指…

人工智能 2023年6月15日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

实体消歧方法(1)__BOOTLEG

大家都在看