Improving Entity Linking by Modeling Latent Relations between Mentions

2023年6月10日上午12:58 • 人工智能 • 阅读 88

代码地址：https://github.com/lephong/mulrel-nel

Abstract

实体链接（EL）系统经常利用文档中提及之间的关系（如共指关系）来决定链接决策是否兼容。与以往依靠监督系统或启发式预测这些关系的方法不同，作者在神经 EL 模型中将关系视为隐变量。在端到端地训练EL 模型时，作者在没有任何监督信息的情况下引入提及之间的关系。作者提出的 multi-relational 模型的训练也收敛得更快，这表明引入的结构偏差有助于解释训练数据中的规律性。

1 Introduce

Improving Entity Linking by Modeling Latent Relations between Mentions

给文档中所有的提及指派相应的实体，受到文档语义的影响，例如上面的例子中，如果 World Cup

被认为是 FIFA_World_Cup，那么第二个 England 相比于篮球队，更应该选择指派为足球队。

在以往的研究中，实体链接的全局一致性的基本假设一般定义为：”来自同一个领域的实体的兼容性更好”。这在经验上取得了一定的成功，但是在这样的假设下，上面的文档中出现的所有 England 都会倾向于映射到同一个实体。

针对上面的问题，作者提出了新的假设：”提及之间的关系可以在没有（或很少）领域知识的情况下被归纳出来” 。所以作者将提及之间的关系编码为隐变量，并以此提升 EL 模型表现。与其他基于表示学习的研究相同（如 Ganea and Hofmann, 2017），模型也学习 mention、context、relation 的嵌入表示。

作者提出的 multi-relational 模型，相比于”关系不可知”的模型取得了很大的进步，同时模型的训练收敛时间相比于认为”关系不可知”的模型短了10倍。这也许说明引入的结构偏差有助于解释训练数据中的规律，使优化任务更容易。

作者将编码成隐变量的关系称为 “诱导关系” ，作者发现一部分 “诱导关系” 与共指关系密切相关，另一些则编码提及之间的语义相关性。

; 2 Background and Related work

一般的实体链接方法分为两类：局部模型&全局模型

局部模型：
e i ∗ = arg ⁡ max ⁡ e i ∈ C i Ψ ( e i , c i ) e_i^* = \arg\max_{e_i \in C_i}\Psi(e_i, c_i)e i ∗=ar g e i ∈C i max Ψ(e i ,c i )
链接决策只依赖于提及的上下文，不考虑其他链接。

全局模型：
E ∗ = arg ⁡ max ⁡ E ∈ C 1 × . . . × C n ∑ i = 1 n Ψ ( e i , c i ) + Φ ( E , D ) E^ = \arg\max_{E \in C_1 \times … \times C_n}\sum_{i=1}^{n}\Psi(e_i, c_i)+\Phi(E,D)E ∗=ar g E ∈C 1 ×…×C n max i =1 ∑n Ψ(e i ,c i )+Φ(E ,D )
全局模型考虑链接实体之间的一致性。其中（2）式的第二项表示链接决策的一致性，当它选择最简单的形式时，式子变成：
E ∗ = arg ⁡ max ⁡ E ∈ C 1 × … × C n ∑ i = 1 n Ψ ( e i , c i ) + ∑ i ≠ j Φ ( e i , e j , D ) E^{}=\underset{E \in C_{1} \times \ldots \times C_{n}}{\arg \max } \sum_{i=1}^{n} \Psi\left(e_{i}, c_{i}\right)+\sum_{i \neq j}\Phi(e_i, e_j, D)E ∗=E ∈C 1 ×…×C n ar g max i =1 ∑n Ψ(e i ,c i )+i =j ∑Φ(e i ,e j ,D )
（3）式的求解是NP-hard的问题，可以使用循环置信传播（LBP）等方法进行近似求解

如何定义局部得分函数 Ψ \Psi Ψ 和成对得分函数 Φ \Phi Φ ，作者参考了 2017 年 Ganea 和 Hofmann 的基于表示学习的方法，如下所示：
Ψ ( e i , c i ) = e i T B f ( c i ) Φ ( e i , e j , D ) = 1 n − 1 e i T R e j \Psi(e_i, c_i) = e_i^T \bold B f(c_i)\ \Phi(e_i, e_j, D) = \frac{1}{n-1}e_i^T\bold Re_j Ψ(e i ,c i )=e i T B f (c i )Φ(e i ,e j ,D )=n −1 1 e i T R e j
其中 e i , e j e_i, e_j e i ,e j 都是实体嵌入，函数 f ( c i ) f(c_i)f (c i ) 将注意机制应用于 c i c_i c i 中的上下文词，以获得上下文的特征表示，B , R \bold B, \bold R B ,R 都是对角矩阵。目前成对一致性的全局项是不能体现实体之间的关系和顺序的，作者认为成对一致性应该考虑到以关系嵌入作为表示形式的提及之间的关系信息。

3 Multi-relational models

作者一共提出了三种形式分别为：general、rel-norm、ment-norm，下面分别对这三种模型进行说明。

3.1 General form

作者假设存在 K K K 个隐关系，每个关系 k k k 被赋予给每个提及对 ( m i , m j ) (m_i, m_j)(m i ,m j ), 还给出相应的非负数的置信度 α i j k \alpha_{ijk}αi j k ，则成对得分表示为特定关系得分的加权求和：
Φ ( e i , e j , D ) = ∑ k = 1 K α i j k Φ k ( e i , e j , D ) \Phi(e_i, e_j, D) = \sum_{k=1}^K\alpha_{ijk}\Phi_k(e_i, e_j, D)Φ(e i ,e j ,D )=k =1 ∑K αi j k Φk (e i ,e j ,D )
其中 Φ k ( e i , e j , D ) \Phi_k(e_i, e_j, D)Φk (e i ,e j ,D ) 作者表示如下，其中 R k \bold R_k R k 是一个对角矩阵，表示关系 k
Φ k ( e i , e j , D ) = e i T R k e j \Phi_k(e_i, e_j, D) = e_i^T \bold R_k e_j Φk (e i ,e j ,D )=e i T R k e j
权重 α i j k \alpha_{ijk}αi j k 表示为归一化分数，其中 D k \bold D_k D k 是一个对角矩阵，Z i j k Z_{ijk}Z i j k 是归一化因子，f ( ) f()f ()函数将 ( m i , c i ) (m_i, c_i)(m i ,c i ) 映射为向量
α i j k = 1 Z i j k exp ⁡ { f T ( m i , c i ) D k f T ( m j , c j ) d } \alpha_{ijk} = \frac{1}{Z_{ijk}} \exp {\frac{f^T(m_i, c_i)\bold D_k f^T(m_j, c_j)}{\sqrt{d}}}αi j k =Z i j k 1 exp {d f T (m i ,c i )D k f T (m j ,c j )}
Note：

作者选择单层神经网络作为f f f 函数(LSTM 出现严重过拟合，效果较差)。
因为α i j k \alpha_{ijk}αi j k 有索引j j j 和k k k 因此可以选择，按照关系( k ) (k)(k )进行归一化，或者按照提及( j ) (j)(j )进行归一化，归一化因子不同是这三种形式的主要区别。

; 3.2 Rel-norm: Relation-wise normalization

对于每个提及对，按照一定的概率 α i j k \alpha_{ijk}αi j k 从关系池中选出相应的关系，并依赖关系嵌入计算相似性得分。从这个理解角度上来说，选择关系的概率应该具有归一性，即 α i j k \alpha_{ijk}αi j k 在关系 k 上应该是归一化的：
Z i j k = ∑ k ′ = 1 K exp ⁡ { f T ( m i , c i ) D k ′ f T ( m j , c j ) d } ∑ k = 1 K α i j k = 1 Φ ( e i , e j , D ) = e i T ( ∑ k = 1 K α i j k R k ) e j Z_{ijk} = \sum_{k^\prime = 1}^{K} \exp {\frac{f^T(m_i, c_i)\bold D_{k^\prime} f^T(m_j, c_j)}{\sqrt{d}}} \ \sum_{k=1}^{K} \alpha_{ijk} = 1 \ \Phi(e_i, e_j, D) = e_i^T (\sum_{k=1}^{K}\alpha_{ijk}\bold R_k) e_j Z i j k =k ′=1 ∑K exp {d f T (m i ,c i )D k ′f T (m j ,c j )}k =1 ∑K αi j k =1 Φ(e i ,e j ,D )=e i T (k =1 ∑K αi j k R k )e j
实际上，可以不依赖关系嵌入矩阵 R k \bold R_k R k 的线性组合，而是直接预测特定于上下文的关系嵌入R i j = d i a g { g ( m i ， c i ， m j ， c j ) } R_{ij}=diag {g(m_i，c_i，m_j，c_j)}R i j =d i a g {g (m i ，c i ，m j ，c j )}，其中 g g g 是一个神经网络。然而在初步实验中，作者发现这会导致过拟合结果变差。因此，作者选择了使用固定数量的关系作为约束模型和改进泛化的方法。

3.3 Ment-norm: Mention-wise normalization

ment-norm 中的 α i j k \alpha_{ijk}αi j k 可以理解为：对于某种关系 k k k，提及 m i m_i m i 寻找与其满足该关系的提及，其中 m j m_j m j 和 m i m_i m i 在关系 k k k 上的匹配程度即为 α i j k \alpha_{ijk}αi j k 。因此，α i j k \alpha_{ijk}αi j k 需要在除 m i m_i m i 外的所有提及上归一化，即在 j j j 上进行归一化:
Z i j k = ∑ j ′ = 1 , j ′ ≠ i n exp ⁡ { f T ( m i , c i ) D k f T ( m j , c j ) d } ∑ j = 1 , j ≠ i n α i j k = 1 Φ ( e i , e j , D ) = ∑ k = 1 K α i j k e i T R k e j Z_{ijk} = \sum_{j^\prime = 1,j^\prime\neq i}^{n} \exp {\frac{f^T(m_i, c_i)\bold D_k f^T(m_j, c_j)}{\sqrt{d}}} \ \sum_{j = 1,j \neq i}^{n} \alpha_{ijk} = 1 \ \Phi(e_i, e_j, D) = \sum_{k=1}^K\alpha_{ijk}e_i^T\bold R_k e_j Z i j k =j ′=1 ,j ′=i ∑n exp {d f T (m i ,c i )D k f T (m j ,c j )}j =1 ,j =i ∑n αi j k =1 Φ(e i ,e j ,D )=k =1 ∑K αi j k e i T R k e j
可以发现，当 α i j k \alpha_{ijk}αi j k 为均匀分布，即 α i j k = 1 n − 1 \alpha_{ijk} = \frac{1}{n-1}αi j k =n −1 1 时，如果 K = 1 K=1 K =1 ，Ment-norm 的多关系模型就退化成了 2017年 Ganea 和 Hofmann 的模型。

分析当采取 ment-norm 的设置时，对于一对提及( m i , m j ) (m_i, m_j)(m i ,m j )可能会存在以下两种与 rel-norm 不同的情况：

α i j k \alpha_{ijk}αi j k 对于所有的k k k 都比较小，这表示m i m_i m i 和m j m_j m j 之间不存在任何关系
α i j k \alpha_{ijk}αi j k 对于一个或多个k k k 都比较大，这表示m i m_i m i 和m j m_j m j 之间预测为存在一个或多个关系

ment-norm 符合注意力机制的特点，对于每个提及 m i m_i m i 和每个 k k k，可以将 α i j k \alpha_{ijk}αi j k 解释为在文档中的提及集合中选择一个提及 m j m_j m j 的概率。因为有 K K K 个关系，所有每个提及最多有 K K K 个提及要关注，对应于多头注意力中的每个头。

Mention padding

ment-norm 存在一个问题，无论这 K K K 种关系是否都存在，都要找出对应的提及，这是因为归一化条件 ∑ j = 1 , j ≠ i n α i j k = 1 \sum_{j = 1,j \neq i}^{n} \alpha_{ijk} = 1 ∑j =1 ,j =i n αi j k =1 , 为了解决这个问题，作者提出在每个文章中添加一个链接到 padding 实体 e p a d e_{pad}e p a d 的 padding 提及 m p a d m_{pad}m p a d ，通过这种方式，模型可以通过使用 m p a d m_{pad}m p a d 来吸收概率，从而降低跟其他提及的无关关系的概率值。

3.4 Implementation

作者定义了条件随机场 CRF 如下：
q ( E ∣ D ) ∝ exp ⁡ { ∑ i = 1 n Ψ ( e i , c i ) + ∑ i ≠ j Φ ( e i , e j , D ) } q ^ i ( e i ∣ D ) ≈ max ⁡ e 1 , . . . , e i − 1 , e i + 1 , . . . , e n q ( E ∣ D ) q(E|D) \propto \exp {\sum_{i=1}^{n} \Psi(e_i, c_i) + \sum_{i \neq j} \Phi(e_i, e_j, D)} \ \hat q_i(e_i|D)\approx \max_{e_1, …, e_{i-1}, e_{i+1},…,e_n}q(E|D)q (E ∣D )∝exp {i =1 ∑n Ψ(e i ,c i )+i =j ∑Φ(e i ,e j ,D )}q ^i (e i ∣D )≈e 1 ,…,e i −1 ,e i +1 ,…,e n max q (E ∣D )
对于每个提及 m i m_i m i ，它的最终得分通过下式给出：
ρ i ( e ) = g ( q ^ i ( e ∣ D ) , p ^ ( e ∣ m i ) ) \rho_i(e)=g(\hat q_i(e|D), \hat p(e|m_i))ρi (e )=g (q ^i (e ∣D ),p ^(e ∣m i ))
其中，p ^ ( e ∣ m i ) \hat p(e|m_i)p ^(e ∣m i ) 表示为先验概率通过统计计数得到，g ( ∗ ) g(*)g (∗) 是一个两层的神经网络。

最小化下面的 ranking loss
L ( θ ) = ∑ D ∈ D ∑ m i ∈ D ∑ e ∈ C i h ( m i , e ) h ( m i , e ) = max ⁡ ( 0 , γ − ρ i ( e i ∗ ) + ρ i ( e ) ) L(\theta) = \sum_{D \in \mathcal{D}}\sum_{m_i \in D}\sum_{e\in C_i} h(m_i, e) \ h(m_i, e) = \max (0, \gamma-\rho_i(e_i^) + \rho_i(e))L (θ)=D ∈D ∑m i ∈D ∑e ∈C i ∑h (m i ,e )h (m i ,e )=max (0 ,γ−ρi (e i ∗)+ρi (e ))
其中 θ \theta θ 是模型参数，D \mathcal{D}D 是训练集，e i ∗ e_i^e i ∗ 是 ground-truth，使用 Adam 作为优化器。
为了鼓励模型探索更多不同的关系，作者在上面的损失中加入以下正则项：
λ 1 ∑ i , j d i s t ( R i , R j ) + λ 2 ∑ i , j d i s t ( D i , D j ) \lambda_1\sum_{i,j}dist(\bold R_i, \bold R_j) + \lambda_2\sum_{i,j}dist(\bold D_i, \bold D_j)λ1 i ,j ∑d i s t (R i ,R j )+λ2 i ,j ∑d i s t (D i ,D j )
在实验中，作者将 λ 1 , λ 2 \lambda_1, \lambda_2 λ1 ,λ2 都取为 − 1 0 − 7 -10^{-7}−1 0 −7；d i s t dist d i s t 如下：
KaTeX parse error: Undefined control sequence: \Arrowvert at position 15: dist(x, y) = \̲A̲r̲r̲o̲w̲v̲e̲r̲t̲ ̲\frac{x}{\| x …

这两个正则项使得最终的关系嵌入不会全都很像，保证了关系的多样性。

4 Experiments

候选实体生成：现根据先验概率选择了 30 个候选实体，保留先验最高的四个候选，再从剩下的里面选出三个 e T ( ∑ w ∈ d i w ) \bold e^T(\sum_{w \in d_i}\bold w)e T (∑w ∈d i w ) 得分最高的候选，其中 d i d_i d i 选提及附近的 50 个词，求他们的嵌入表示的和，在点积求相似度。

; 5 Conclusion and Future work

作者展示了在实体链接中使用关系的好处。作者提出的模型认为关系是潜在可变的，因此不需要任何额外的监督。表示学习用于学习关系嵌入，避免了特征工程的需要。
在未来工作中，作者希望使用句法和话语结构（例如，提及之间的句法依赖路径）来鼓励模型发现更丰富的关系集合等。

Original: https://blog.csdn.net/qq_43586043/article/details/121999341
Author: xuzf-cs
Title: Improving Entity Linking by Modeling Latent Relations between Mentions

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/594784/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[附源码]Node.js计算机毕业设计高校社团管理系统Express

项目运行环境配置： Node.js 最新版+ V s code + Mysql5.7 + HBuilderX+Navicat11+Vue。项目技术： Express 框架+ N…

人工智能 2023年7月29日
0058
迁移学习实践深度学习打造图像的别样风格

文章目录一、前言二、代码实践一、前言训练环境：Google colab训练时长：在本教程中，我们将学习如何使用深度学习来创作另一种（毕加索或梵高式）风格的图像，这就是所谓…

人工智能 2023年5月26日
0080
openAI chatgpt 注册最全教程（傻瓜版）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0047
2021年“泰迪杯”数据分析技能赛A题

2021年”泰迪杯”数据分析技能赛A题通讯产品销售和盈利能力分析摘要进入本世纪以来，我国通讯产品得到了飞速发展，其技术先进，价格便宜，深受世界各国和地…

人工智能 2023年6月23日
0098
通用化BP神经网络-激活函数

学习来源：日撸 Java 三百行（71-80天，BP 神经网络））_闵帆的博客-CSDN博客激活函数与求导式激活函数是改变BP神经网络线性特征的转换函数, 是用于forward…

人工智能 2023年6月25日
0084
【深度学习 01】线性回归+PyTorch实现

1. 线性回归 1.1 线性模型当输入包含d个特征，预测结果表示为：记 x为样本的特征向量， w为权重向量，上式可表示为：对于含有n个样本的数据集，可用 X来表示n个样本的特…

人工智能 2023年6月4日
0077
single-pass聚类算法实现天气聚类

聚类算法聚类算法介绍 * （1）系统聚类法（2）K-means聚类法（3）single-pass聚类法 – 含义适用处理步骤样本描述代码实现 * 定义类和函…

人工智能 2023年6月30日
0066
PyTorch学习笔记（三）：PyTorch主要组成模块

往期学习资料推荐：本系列目录：后续继续更新！！！！ 1 深度学习步骤（1）数据预处理：通过专门的数据加载，通过批训练提高模型表现，每次训练读取固定数量的样本输入到模型中进行训…

人工智能 2023年7月13日
0052
目标检测算法之SSD

目标检测算法，按算法结构可以分为one-stage和two-stage两类。two-stage经典算法主要是R-CNN族，以准确度见长，速度稍慢，一般不如one-stage。one…

人工智能 2023年7月10日
0063
图数据库——Neo4j

目录图数据库——Neo4j * Neo4j的下载 Neo4j CQL – Neo4j CQL数据类型 Neo4j CQL命令 + CREATE命令 MATCH命令 R…

人工智能 2023年6月1日
0078
【深度学习】VGG-16实现海贼王人物识别

文章目录一、环境准备二、代码编写 * 1. 准备VGG类 2. 导入相关库 3.导入数据 4.数据预处理 5. 实例化VGG-16模型 6.设置优化器 7.训练模型 8.模型评…

人工智能 2023年5月25日
0091
Pytorch中torch.numel()，torch.shape，torch.size()和torch.reshape()函数解析

一. torch.numel()函数解析 1. 官网链接 torch.numel()，如下图所示： ; 2. torch.numel()函数解析 torch.numel(input…

人工智能 2023年7月21日
0096
四、Neo4j CQL常用的函数介绍

上篇文章主要介绍了Neo4j CQL的常用命令，这篇文章主要介绍一下其常用的函数。关注专栏《知识图谱系列》了解更多关于知识图谱的知识~ 目录一、字符串函数 1.1 UPPER函数…

人工智能 2023年6月10日
0083
Google Earth Engine——250米处美国农业部土壤分类的预测数据集

Predicted USDA soil great group probablities at 250m Distribution of the USDA soil great g…

人工智能 2023年7月3日
00117
疫情微博内容情感分析

一.前言最近，碰到一个疫情微博情感分类的任务看到挺有意思的，就试了试手，顺便记录了下整个实验的全过程，话不多说，请看下文。二.数据集简介与预处理 2.1 数据集简介数据集为疫…

人工智能 2023年5月31日
0092
Acanonda 使用

一．jupyter 代码提示自动补全 1.1进入环境进入命令行环境。我使用的是conda 。有两种方式进入命令行。方法1 ：通过anconda navigator 界面，选择e…

人工智能 2023年7月16日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Improving Entity Linking by Modeling Latent Relations between Mentions

Abstract

1 Introduce

; 2 Background and Related work

3 Multi-relational models

3.1 General form

; 3.2 Rel-norm: Relation-wise normalization

3.3 Ment-norm: Mention-wise normalization

3.4 Implementation

4 Experiments

; 5 Conclusion and Future work

大家都在看