Neural Entity Linking综述【详细版】

Neural Entity Linking: A Survey of Models Based on Deep Learning

Abstract

本文提供了自2015年以来由于NLP中的”深度学习革命”而开发的神经实体连接(EL)系统的全面描述，目标是系统化神经实体连接系统的设计特征，并将其性能与常见基准上突出的经典方法进行比较。作者提取神经EL系统的通用结构组件，如候选生成和实体排序，并总结它们的突出方法。这种通用的神经实体连接体系结构的大量修改由几个共同的主题分组： 联合实体识别和连接、全局链接模型、领域独立的技术，包括zero-shot和远程监督方法，以及跨语言方法。由于许多神经模型利用 实体和提到/上下文嵌入来捕捉它们的语义意义，本文提供了一个流行的嵌入技术的概述。文章最后简要地讨论了实体链接的应用，重点关注了最近出现的基于transformer的增强深度预训练掩蔽语言模型的用例。

1. Introduction

EL的任务是识别（非结构化）文本中提到的实体，并在（结构化）知识图中建立一个条目目的链接。EL链接是许多信息提取(IE)和自然语言理解(NLU)管道的重要组成部分，因为它解决了实体提到的词汇歧义，并决定了它们在上下文中的含义。知识图中的文本提及和实体之间的链接也允许我们利用语义图中包含的信息，这在信息提取、生物医学文本处理或语义解析和问题回答等NLU任务中被证明是有用的

1.1. Goal and Scope of this Survey

神经实体连接系统的一个重要组成部分是实体向量表示和实体编码方法。研究表明，在低维向量中对KG结构（实体关系）、文本信息或实体定义或大型注释语料库进行编码，提高了EL模型的泛化能力。本文总结了实体编码的新方法，以及上下文/提及编码技术。

许多自然语言处理系统都利用了经过预先训练的深度语言模型，如ELMo、BERT及其修改。EL将其进入这些模型，作为一种引入存储在kg中的信息的方式，这有助于在一些文本处理任务中采用单词表示。本文讨论了EL的这种新的应用，以及如何进一步发展它。

本次调查的论文的主要标准是，它们已经在2015年或之后发表，它们主要针对EL的任务，作者明确地排除了相关的工作，例如（细粒度的）实体类型，它也包括一个消歧任务，以及在EL以外的其他任务中使用KG的工作。由于工作量太大，作者不可能尝试使用可用的软件，也不可能比较其他参数的方法，如计算复杂度、运行时和内存需求。

1.2 Previous Surveys

关于EL的第一个调查之一是由Ling等人着手的，他们的目的是（1）提供一个标准的问题定义，以减少由于存在与EL相关的变体类似任务（例如，维基化和命名实体连接）而出现的混淆；（2）是对模型及其各个方面的清晰比较。同年，沈等人发表了一份调查报告，涵盖了实体链接的主要方法、其应用程序、评估方法和未来的发展方向。

马丁内斯-罗德里格斯等人的工作涉及到信息提取模型和语义网络技术。即在信息提取端考虑命名实体识别、实体链接、术语提取、关键字提取、主题建模、主题标记和关系提取任务。类似地，AlMoslmi等人概述了2014-2019年发表的关于命名实体识别和命名实体消歧/链接的研究。

奥利维拉等人最近发表的另一篇调查论文分析并总结了具有一些完整性的EL方法。这种观点限制调查工作利用各种特性的EL任务：额外的元数据存储在特定输入微博，特定功能可以提取从这个输入的地理坐标，时间戳，用户的兴趣发布这些微博，和特定的消歧方法，利用这些额外的特性。

以前关于类似主题的调查

并没有涵盖许多最近的出版物；
广泛地涵盖了许多主题；
都集中于特定类型的方法。而目前还没有一个专门针对最近的神经实体连接模型的详细调查。
之前的调查也没有涉及实体和上下文/提及编码、EL在深度预训练语言模型中的应用以及跨语言EL等主题。文章第一个总结了EL的领域独立方法，其中一些是基于zero-shot技术。

1.3 Contributions

对最先进的神经实体连接模型的调查；
神经EL方法的特征表；
对实体和上下文中提到的嵌入技术的描述；
关于最近的领域独立（zero-shot）和跨语言EL方法的讨论；
对EL应用于建模单词表示的调查。

1.4 Structure of this survey

本次调查的结构如下：

第2节中定义SOTA EL任务的综述；
第3.1节中，介绍了神经实体连接系统的通用体系结构；第3.2节中讨论了基本pipeline的修改和变化；
第4节总结了EL和实体表示模型的评估结果；
第5节专门介绍EL的应用，通过强调最近出现的改进神经语言模型的应用；
第6节总结了调查，并提出了未来神经实体连接工作的一个突出方向。

2. Task Description

2.1 Informal Definition

EL任务是（1）正确确定文本中提到，例如确定威尔士而不是威尔士；（2）解决其歧义，并最终提供一个链接到KG中相应的实体输入。为了实现这一目标，通常将任务分解为两个阶段，如图1所示：实体识别(ER)和实体消歧(ED)。

; 2.2 Formal Definition

2.2.1 Knowledge Graph (KG)

KG包含实体、关系和事实，其中事实被表示为三元组（即头实体、关系、尾实体），KG是一组RDF三元组，其中每个三元组( s , p , o ) (s,p,o)(s ,p ,o )是以下术语的有序集合：主题s ∈ U ∪ B s∈U∪B s ∈U ∪B，谓词p ∈ U 和对象 o ∈ U ∪ B ∪ L p∈U和对象o∈U∪B∪L p ∈U 和对象o ∈U ∪B ∪L。RDF术语是一个URI u ∈ U u∈U u ∈U，空白节点b ∈ B b∈B b ∈B，或是一个文字l ∈ L l∈L l ∈L。此RDF表示可以被视为多关系图G = ( E , A = { A 0 , A 1 , . . . , A m ⊆ ( E × E ) } ) G=(E,A={A_0,A_1,…,A_m⊆(E×E)})G =(E ,A ={A 0 ,A 1 ,…,A m ⊆(E ×E )})，其中E是KG的所有实体的集合，A是一类长度为m的类型化边缘集合。

还有一个KG的等价三向张量表示A ∈ { 0 , 1 } n × m × n A∈{0,1}^{n\times m \times n}A ∈{0 ,1 }n ×m ×n

A i , k , j = { 1 i f ( i , j ) ∈ E k : k ≤ m 0 o t h e r w i s e } A_{i,k,j}= \left{ \begin{matrix} 1& if(i,j)∈E_k:k\leq m\ 0 &otherwise \ \end{matrix} \right}A i ,k ,j ={1 0 i f (i ,j )∈E k :k ≤m o t h e r w i s e }

2.2.2 Entity Recognition (ER)

实体识别的目标是识别一个实体提及跨度，而实体消歧则执行从所发现的提及到KG条目的链接。可以将实体识别任务视为确定一个ER函数，该函数将文本上下文c i ∈ C c_i∈C c i ∈C（例如文档集合中的文档）作为输入，并在此上下文中输出n n n个提及序列( m 1 , . . . , m n ) , m i ∈ M (m_1,…,m_n), m_i∈M (m 1 ,…,m n ),m i ∈M，其中M是上下文中所有可能的文本跨度的集合：

E R : C → M n ER:C\rightarrow M_n E R :C →M n

2.2.3 Entity Disambiguation (ED)

实体消歧任务可以被认为是确定一个函数ED，该函数ED给定文档中的n个提及序列，它们的上下文( c 1 , . . . , c n ) (c_1,…,c_n)(c 1 ,…,c n )输出一个实体赋值( e 1 , . . . , e n ) , e i ∈ E (e1,…,e_n),e_i∈E (e 1 ,…,e n ),e i ∈E，其中E是KG中的一组实体：

E D : ( M , C ) → E n ED:(M,C) \rightarrow E^n E D :(M ,C )→E n

为了学习从上下文中的实体提到到KG中的实体条目的映射，EL模型使用监督信号。KG规模大，导致EL的训练数据将非常不平衡；训练集甚至可能缺乏特定实体的单一例子。为了解决这个问题，EL模型应该具有广泛的泛化能力。尽管KG通常很大，但它们是不完整的。因此，文本中提到的一些内容不能正确地映射到任何KG条目。确定这种不可链接的提到，通常被指定为链接到一个NIL条目，是EL面临的挑战之一。解决这个问题的方法为它提供了一个单独的函数，或者用这个特殊的条目扩展了消除歧义函数中的实体集：

E D : ( M , C ) n → ( E ∪ N I L ) n ED:(M,C)^n \rightarrow (E\cup NIL)^n E D :(M ,C )n →(E ∪N I L )n

2.3 Terminological Aspects

或多或少相同的技术和模型在文献中有时被称为不同的技术和模型，即维基化和实体消除歧义被认为是EL的子型。为了在这个调查中全面地说，作者假设实体链接任务包括实体识别和实体消除歧义。然而，只有少数研究表明模型联合执行ER和ED，而大多数关于EL的论文只关注ED，并假设提到的边界是由外部实体识别器给出的（这可能导致一些术语混淆）。许多只执行ER而不消歧的技术在许多以前的调查中被考虑，并且超出了这项工作的范围。

在一般情况下，实体链接并不局限于链接到图节点，而是链接到知识库中的概念。然而，大多数现代广泛使用的知识库以图形的形式组织信息。

数据/知识库中的一个基本陈述通常可以表示为一个主题-谓词-对象元组( s , p , o ) (s,p,o)(s ,p ,o )，一组这样的元组可以被表示为一个多关系图。这种形式有助于有效地组织从搜索引擎到问题回答和推荐系统的许多应用程序的知识。因此，在本文中，术语知识图(KG)和知识库(KB)可以互换使用

3. Neural Entity Linking

本文从最一般的管道结构开始讨论神经实体连接方法，并继续进行各种特定的修改，如联合实体识别和连接，使用全局上下文、领域独立的方法，包括zero-shot方法和跨语言模型。

3.1 General Architecture

一些基于神经网络的EL尝试将其视为一个多类分类任务，其中实体对应于类。然而，简单的方法导致了大量的类，这导致了没有任务共享的性能次优。对EL的简化方法是将其视为一个排名问题。

图2中展示了广义的EL体系结构，它适用于大多数的神经方法。在这里：

实体识别模型识别了文本中的mention边界；
下一步生成一个可能的实体（候选实体）的简短列表；
然后，提及编码器生成一个上下文中提及的语义向量表示。实体编码器产生一组候选对象的向量表示；
最后，实体排序模型比较提及表示和实体表示，并估计实体匹配得分。

另外，还有一个可选的步骤是确定不可链接的mention，也就是KG不包含相应的实体。

图3总结了一般神经EL体系结构中每个步骤的分类。

3.1.1 Candidate Generation

EL的一个重要组成部分是候选。这一步的目标是给出一个模糊的提到的实体。EL类似于WordSense消歧(WSD)任务[94,97]，因为它解决了词汇歧义。然而在WSD中，单词的每个意义都可以由WordNet明确定义，而在EL中， KGs并没有提供mention和实体之间如此精确的映射。因此， mention可能会链接到KG中的任何实体，从而导致较大的搜索空间。为了解决这个问题，执行候选生成，这实际上是对实体列表的初步过滤。

形式上，给定一个提及m i m_i m i ，一个候选生成器为文档中提到的n n n个实体提供一个可能实体的列表，e 1 , e 2 , . . . , e k e_1,e_2,…,e_k e 1 ,e 2 ,…,e k 。

C G : M → ( e 1 , e 2 , . . . , e k ) CG:M\rightarrow(e_1,e_2,…,e_k)C G :M →(e 1 ,e 2 ,…,e k )

候选人可以通过几种方式产生，正如在[2] [3]调查中所讨论的那样。在神经EL中主要有三种常见的候选生成方法：

基于表面形式匹配：候选列表由与文本中提到的各种表面形式相匹配的实体组成[74,93,176]；有许多启发式的生成mention形式和匹配标准，如 Levenshtein distance, n-grams, and normalization。对于提到”Big Blue”的例子，这种方法不能很好地工作，因为引用实体”IBM”或其长形式的”国际商业机器”不包含引用字符串。表1是候选实体集的示例，作者在DBpedia中所有维基百科文章的标题中搜索了一个与提到的”big blue”的名称匹配

基于别名展开：使用KG元数据构建一个附加别名的字典，如维基百科[36,176]的消歧/重定向页面，或使用别名和/或同义词的字典(例如。”NYC”代表”New York City”)。这有助于改进候选生成的召回率，因为子字符串不可能捕获这类情况。 Pershina et al.[112]将给定的mention扩展到在具有指代消解的语境中最长的mention。如果一个实体标题与提到的较长版本的名称相匹配，或者它存在于此提到的消歧/重定向页面中，则选择这些实体作为候选名称[16,89,101,106,117,130,137,162]。另一个著名的替代方案是YAGO ontology[143]——由维基百科和WordNet自动构建。在许多其他关系中，它提供了提到和实体之间的”means”关系，并且这个映射被用作一个候选生成器[44,57,130,137,162]。使用这种技术的情况下，外部信息将有助于消除”Big Blue”的”IBM”。在表1显示了Hoffart等人[57]使用的基于YAGO-means的候选映射数据集9的样本候选实体集。
基于先验概率计算：基于预先计算的某些提及和实体之间对应的先验概率p ( e ∣ m ) p(e|m)p (e ∣m )。许多研究依赖于基于维基百科实体超链接计算的提及实体先验。指向维基百科实体页面的超链接的URL确定一个候选实体，超链接的锚文本决定一个mention。另一个广泛使用的选项是CrossWikis[142]，这是一个广泛的资源，利用了网络爬行数据中提到的实体链接的频率[44,52]。

同时将多种方法应用于候选对象的生成是很常见的，例如，由Ganea和Hofmann[44]构建的资源和用于许多其他EL方法[70,75,114,131,166]依赖于从CrossWikis [142] 和 Wikipedia的实体超链接计数统计中获得的先验概率，以及实体别名获得的YAGO ontology Hoffart et al[57]的”mean”关系。

字符串”Big Blue”可以用这个方法标记为它的引用实体”IBM”，如表1所示。

最近的zero-shot模型46,83,160]在没有外部知识的情况下执行候选生成。第3.2.3节详细描述了它们。

3.1.2 Context-mention Encoding

为了正确地消除实体提及的歧义，从其上下文中彻底捕获信息是至关重要的。目前的主流方法是利用编码器网络构造一个mention y m y_m y m 的密集上下文向量表示。

m E N C : ( C , M ) n → ( y m 1 , y m 2 , . . . , y m n ) mENC:(C,M)^n \rightarrow (y_{m_1},y_{m_2},…,y_{m_n})m E N C :(C ,M )n →(y m 1 ,y m 2 ,…,y m n )

神经EL的一些早期技术利用了卷积编码器[41,103,141,144]，以及在候选实体嵌入和围绕一个mention的[44,75]的单词嵌入之间的attention。然而，在最近的模型中，有两种方法盛行： 循环网络和自注意[152]。

*循环网络

一种LSTM[56]的循环结构已成为许多NLP应用的主干模型被应用于EL [36, 52, 70, 74, 89, 137]。 Gupta等人[52]连接了两个LSTM网络的输出，它们独立地编码了一个提及的左右上下文（包括提及本身）。同样，Sil等人。[137]通过lstm对左右局部上下文进行编码，但也将共引用链中所有提到的结果和后处理左、右表示相结合。Eshel等人使用了LSTM-GRU[22]的改进[33]与一个注意机制[7]相结合编码一个mention的左右上下文。Kolitsas等人[70]提出一个实体mention作为mention跨度中包含的LSTM隐藏状态的组合。Le和Titov[74]简单地运行一个双向LSTM网络，辅以嵌入相对于目标提及的单词位置。Shahbazi等人[131]采用预先训练过的ELMo[113]，通过平均提及词向量来进行提及编码。

*自注意力

基于自注意力的编码方法近年来已经普遍存在。在[83,114,160,166]中提出的EL模型依赖于预先训练过的BERT层[29]的输出来进行上下文和提到编码。Peters 等人[114]提出了一个通过在mention跨度中汇集单词片段来建模的改进后的mention表示。作者还在所有mention的表示上添加了一个额外的自我注意块，它编码了一个句子中几个实体之间的交互。改进mention的另一种方法是在它们周围插入特殊的标记，并对整个编码序列进行简化。Wu等人[160]通过保持在序列开头插入特殊池符号[CLS]的表示来减少序列。Logeswaran等人[83]通过用一个特殊的向量将跨度内的单词嵌入相加来标记一个提到跨度的位置，并使用与Wu等人相同的缩减策略。Wu et al. 和 Yamada et al.[166]将文本与其中所有提到的内容连接起来，并通过一个基于预训练的BERT的自我注意模型共同编码这个序列。

3.1.3 Entity Encoding

为了使EL系统具有健壮性，必须构造候选实体的分布式向量表示，以使它们能够在各个方面捕获实体之间的语义相关性。

e E N C : E k → ( y e 1 , y e 2 , . . . , y e k ) eENC:E^k \rightarrow (y_{e_1},y_{e_2},…,y_{e_k})e E N C :E k →(y e 1 ,y e 2 ,…,y e k )

例如，在图4中，在Scott_Young_(American_football)中对Scott Young最相似的实体感觉与美式足球有关，而Scott_Young_（writer）的感觉是在接近作家相关的实体。

在EL中有三种常见的实体编码方法：

实体表示使用非结构化文本学习和算法，如基于共现统计和最初开发为嵌入单词的word2vec[91]； Ganea和Hofmann[44]从两个来源收集实体-词共存统计数据： 从维基百科中的实体描述页面；超链接的锚到维基百科页面的文本。他们训练实体嵌入使用最大边际目标利用负面抽样方法像word2vec算法，因此共出现词和实体的向量与随机词和实体的向量更接近。其他一些方法可以直接用实体标识符替换或扩展提及注释（通常是超链接的锚定文本），并直接在修改后的语料库上训练一个单词表示模型，如word2vec[93,148,163,176]。在[44,93,101,148,163]中，实体嵌入的训练方式是为了使实体嵌入到与单词相同的语义空间中。例如，Newman-Griffifis等人[101]提出了一种远程监督方法，扩展了word2vec目标，在共享空间中共同学习单词和实体表示，并利用了来自映射实体及其表面形式的术语(维基百科页面标题和从UMLS[11]重定向的术语)的远程监督。
实体表示使用KGs中实体之间的关系和各种图嵌入方法； Huang等人[59]训练一个模型，根据实体相关性从稀疏的实体特征（例如实体关系、描述）生成密集的实体表示。一些研究通过在一个统一的向量空间[16,35,117,135,162,164]中对齐单词（或mention）和实体的函数来扩展它们的实体关联目标（像第一类中的方法）。近年来，知识图嵌入已成为一种突出的技术，促进了从KG完成[13,98,159]到实体分类[104]的各种NLP和数据挖掘任务[157]的解决。对于实体链接，主要的两种图嵌入算法被广泛使用： DeepWalk[111]和TransE[13]。

DeepWalk[111]算法的目标是产生顶点的嵌入，以保持它们在图中的接近性[49]。它首先为图中的每个顶点生成几次随机游动，生成的移动被用作skip-gram算法的训练数据。就像在语言建模的word2vec中一样，给定一个顶点，该算法在生成的walk中使其邻居的概率最大化。帕拉维奇尼等人。[110]，Sevgili等人。[129]利用建立在DBPedia[6]上的基于深度步行的图嵌入来进行实体链接。Parravicini等人[110]使用实体嵌入来计算全局实体链接中候选实体的余弦相似度得分。Sevgili等人[129]表明，与仅使用基于文本的嵌入相比，结合图形和基于文本的嵌入可以略微提高实体链接的性能。他们将这一发现归因于图嵌入包含了关于KG结构的丰富信息。同样，索罗金和古雷维奇的[141]发现，在没有知识图结构信息的情况下，他们的实体连接器经历了很大的性能下降。内德尔切夫等人。[100]将构建在自由基础上的知识图嵌入和单词嵌入集成在一个单一的端到端模型中，该模型共同解决了实体和关系链接任务。定量分析表明，基于KG嵌入的方法有助于选择正确的候选实体。
TransE[13]算法的目标是构造顶点和关系的嵌入，使它们与KG[157]中的事实兼容。考虑以三元组形式表示的KG中的事实（即头实体、关系、尾实体）。如果一个事实包含在一个KG中，基于TransE边际的排序标准有助于存在嵌入之间的以下对应关系：头+关系≈尾。这意味着KG中的关系应该是实体嵌入空间中的线性平移。同时，如果在一个KG中没有这样的事实，那么这种函数关系就不应该成立。在Wikidata [154] 和 Freebase[12]上构建的基于TransE的实体表示已经被用于语言建模[174]和EL[9,100,141]上的几项工作中的实体表示。Banerjee等人[9]、Sorokin和Gurevych[141]利用基于维基达的实体嵌入作为神经模型的输入组件，以及其他类型的实体信息。由banerjee等人进行的消融研究[9]表明， TransE实体嵌入是其实体链接模型中最重要的特征，他们将这一发现归因于图嵌入包含了关于KG结构的丰富信息。同样，Sorokin and Gurevych[141]发现，在没有知识图结构信息的情况下，他们的实体连接器经历了很大的性能下降。Nedelchev等人[100]将构建在Freebase上的知识图嵌入和单词嵌入集成在一个单一的端到端模型中，该模型共同解决了实体和关系链接任务。定量分析表明，基于KG嵌入的方法有助于选择正确的候选实体。 KG嵌入还有许多其他技术：[28,50,104,147,159,167]和最近的 5*E[99]，它旨在在嵌入空间中保存复杂的图结构。然而，它们目前还没有被广泛地应用于实体链接中。对所有图嵌入算法的详细概述超出了当前的工作范围。 建议读者参考之前关于这个主题[15,49,127,157]的调查，作者认为这是未来EL方法的一个突出的研究方向。
训练一个成熟的神经编码器将实体的文本描述和/或其他信息转换为嵌入。 在本小节中，作者放置了使用其他类型的信息，如 实体描述和实体类型来生成实体表示的方法。通常，实体编码器是一个成熟的神经网络，它是实体连接体系结构的一部分。 Sun等人[144]使用一个神经张量网络来编码实体的表面形式和来自KG的类别信息之间的相互作用。同样地，Francis-Landau等人[41]和Nguyen等人[103]通过使用卷积神经网络编码标题和实体描述页面来构造实体表示。除了用于实体描述的卷积编码器外，Gupta等人[52]还提出了一个用于细粒度实体类型的编码器。Gillick等人[46]通过使用前馈网络对实体页面标题、短实体描述和实体类别信息进行编码来构造实体表示。Le和Titov[74]只使用来自KG的实体类型信息和一个简单的前馈网络来进行实体编码。

最近的工作利用了BERT[29]或ELMo[113]等深度语言模型对实体进行编码。 Logeswaran [83]和Wu等人[160]使用BERT从维基百科的实体描述页面中创建实体的表示。Yamada等人[166]提出了一个掩蔽实体预测任务，其中基于BERT架构的模型学习预测随机掩蔽输入实体。所提出的任务使模型学习如何生成实体表示和标准单词表示。Shahbazi等人[131]引入了E-ELMo，它扩展了ELMo模型[113]的一个附加目标。该模型以多任务的方式进行训练：预测下一个/前一个单词，就像在标准的双向语言模型中一样，并在遇到目标实体被提到时预测目标实体。结果表明，除了mention编码模型外，还得到了实体表示。

3.1.4. Entity Ranking

这个阶段的目标是给出一个来自KG的实体候选( e 1 , e 2 , . . . , e k ) (e_1,e_2,…,e_k)(e 1 ,e 2 ,…,e k )和具有mention M M M的上下文C C C来对这些实体分配分数进行排名，

R N K : ( ( e 1 , e 2 , . . . , e k ) , C , M ) n → R n × k RNK:((e_1,e_2,…,e_k),C,M)^n \rightarrow R^{n\times k}R N K :((e 1 ,e 2 ,…,e k ),C ,M )n →R n ×k

公式中n n n是文档中实体mention的数量，k k k是一个候选实体。

图5描述了排名组件的典型架构。

根据相似度度量s ( m , e i ) s(m,e_i)s (m ,e i )，将mention编码步骤中生成的mention表示y m y_m y m 与候选实体表示y e i ( i = 1 , 2 , . . . , k ) y_{e_i}(i=1,2,…,k)y e i (i =1 ,2 ,…,k )进行比较。实体表示可以预先训练（见第3.1.3节），也可以由其他编码器生成，如某些zero-shot方法（见第3.2.3节）。Yamada等人提出的基于bert的模型[166]学习了如何在统一的体系结构中对提及和实体嵌入进行编码。

大多数最先进的研究使用点积计算提及m和实体e的表示之间的相似性s ( m , e ) s(m,e)s (m ,e )，如在[44,52,70,114,160]中：

s ( m , e i ) = y m ⋅ y e i s(m,e_i)=y_m·y_{e_i}s (m ,e i )=y m ⋅y e i

或如在[41,46,144]中出现的余弦相似度：

s ( m , e i ) = cos ⁡ ( y m , y e i ) = y m ⋅ y e i ∣ ∣ y m ∣ ∣ ⋅ ∣ ∣ y e i ∣ ∣ s(m,e_i)=\cos(y_m,y_{e_i})=\frac{y_m·y_{e_i}}{||y_m||·||y_{e_i}||}s (m ,e i )=cos (y m ,y e i )=∣∣y m ∣∣⋅∣∣y e i ∣∣y m ⋅y e i

最终的消歧决策是通过概率分布P ( e i ∣ m ) P(e_i|m)P (e i ∣m )推断的，通常用候选项上的softmax函数来近似。计算出的相似度得分或概率可以与在候选生成阶段[41,44,70]中获得的mention实体先验或其他特征f ( e i , m ) f(e_i,m)f (e i ,m )相结合，如各种相似度、字符串匹配指示符和实体类型[41,130,131,137,168]。其中一种常用的技术是使用额外的一层或两层前馈网络ϕ ( ⋅ , ⋅ ) \phi(·,·)ϕ(⋅,⋅)[41,44,131]，获得的局部相似度评分Φ ( e i , m ) \Phi(e_i,m)Φ(e i ,m )或概率分布可以进一步用于全局评分（见第3.2.2节）。

P ( e i ∣ m ) = exp ⁡ ( s ( m , e i ) ) ∑ i = 1 k exp ⁡ ( s ( m , e i ) ) P(e_i|m)=\frac{\exp(s(m,e_i))}{\sum_{i=1}^k\exp(s(m,e_i))}P (e i ∣m )=∑i =1 k exp (s (m ,e i ))exp (s (m ,e i ))

Φ ( e i , m ) = ϕ ( P ( e i , m ) , f ( e i , m ) ) \Phi(e_i,m)=\phi(P(e_i,m),f(e_i,m))Φ(e i ,m )=ϕ(P (e i ,m ),f (e i ,m ))

在关于EL的文献中有几种方法来框架一个训练目标。考虑有k个目标m的候选，其中一个是真正的实体e ∗ e_∗e ∗。在一些工作中，模型是用标准负对数似然目标训练的，就像在分类任务[83,160]。然而，使用的是负面的候选，而不是classes类别：

L ( m ) = − s ( m , e ∗ ) + log ⁡ ∑ i = 1 k exp ⁡ ( s ( m , e i ) ) L(m)=-s(m,e_*)+\log\sum^k_{i=1}\exp(s(m,e_i))L (m )=−s (m ,e ∗)+lo g i =1 ∑k exp (s (m ,e i ))

一些工作不使用负对数可能性，而是使用排名损失的变体。比如一个方法是在正和负候选[44,70,114]的相似性得分之间强制执行正边际γ > 0 γ>0 γ>0：

L ( m ) = ∑ i l ( e i , m ) , w h e r e L(m)=\sum_i l(e_i,m), where L (m )=i ∑l (e i ,m ),w h e r e

l ( e i , m ) = [ γ − Φ ( e ∗ , m ) + Φ ( e i , m ) ] + l(e_i,m)=[\gamma-\Phi(e_*,m)+\Phi(e_i,m)]_+l (e i ,m )=[γ−Φ(e ∗,m )+Φ(e i ,m )]+

或者是

l ( e i , m ) = { [ γ − Φ ( e i , m ) ] + if e i eqaul e ∗ [ Φ ( e i , m ) ] + otherwise l(e_i,m)= \begin{cases} [\gamma-\Phi(e_i,m)]+& \text{if $e_i$ eqaul $e*$}\ [\Phi(e_i,m)]_+& \text{otherwise} \end{cases}l (e i ,m )={[γ−Φ(e i ,m )]+[Φ(e i ,m )]+if e i eqaul e ∗otherwise

3.1.5. Unlinkable Mention Prediction

一些mention的参考实体可能在KG中没有，例如，维基百科上没有关于 _Scott Young_作为Stenhousemuir cricket club的板球运动员的条目[11]。因此，如果提到出现在特定的环境中，EL系统应该能够预测参考文献的缺失，这被称为NIL预测任务。

N I L p : ( C , M ) n → { 0 , 1 } n NIL p:(C,M)^n \rightarrow {0,1}^n N I L p :(C ,M )n →{0 ,1 }n

NIL预测任务本质上是一个具有拒绝选项[42,54,55]的分类。有四种常见的方法来执行NIL预测。有时候选生成器不会产生任何相应的实体来mention；这样的mention被认为是unlinkable[137,148]。

人们可以为最佳链接概率（或一个分数）设置一个阈值，低于这个阈值就被认为是不链接的[72,114]。
一些模型在排名阶段引入了一个额外的特殊的”NIL”实体，因此模型可以将其预测为所mention的最佳匹配[70]。
也可以训练一个额外的在ranking之后接受mention-entity对的二元分类器，以及几个额外的特征(最好的链接分数，提及是否也被一个专用的NER系统检测到，等等)，并最终决定是否链接[89,93]。

; 3.2 Modifications of the General Architecture

本节介绍了3.1和图2和5中介绍的神经实体链接模型的一般结构的最显著的修改和改进。图6总结了每个修改的分类。

3.2.1 Joint Entity Recognition and Disambiguation

虽然通常要分离实体识别和实体消歧阶段，如图1所示，一些系统为实体链接提供了一个联合解决方案，其中实体识别和消歧义由同一模型同时完成。形式上，任务是检测一个mention m i ∈ M m_i∈M m i ∈M，并在给定的文本c i ∈ C c_i∈C c i ∈C下预测一个实体e i ∈ E e_i∈E e i ∈E，对于上下文中提到的所有n n n个实体：

E L : C → ( M , E ) n EL:C\rightarrow(M,E)^n E L :C →(M ,E )n

毫无疑问，同时解决这两个问题（ER和ED）会使这个任务更具挑战性。然而，由于这些步骤之间的相互依赖，它们之间的交互作用有利于提高整个pipeline的质量。虽然提供联合解决方案的竞争模型是概率图形模型[85,102]，但作者关注最近提出的纯神经方法。

联合模型的主要区别在于必须产生也提到的候选模型。为此，Kolitsas等人[70]和Peters等人[114]枚举具有一定最大宽度的句子中的所有跨度，通过几种启发式方法（删除包含停止词、标点、省略、引号和货币的提及）来过滤它们，并尝试将它们与用于候选生成的预先构建的实体索引相匹配。

如果一个mention候选对象至少有一个对应的候选实体，则由一个排序神经网络进一步处理，该神经网络也可以通过考虑它不可链接到KG中的任何实体来丢弃它（见第3.1.4节）。

在实体消歧阶段的决策会影响实体识别。 以类似的方式，Sorokin and Gurevych[141]将每个标记n-gram处理到一定的长度作为一个可能的提到候选。他们使用一个额外的二值分类器来过滤候选跨度，它是与一个实体连接器联合训练的。Banerjee等人[9]还枚举所有可能的n-grams，并使用候选实体扩展它们，这导致了一个对应于特定提到的n-gram的候选实体的点的长序列。该序列由单层BiLSTM指针网络[153]进一步处理，生成输入序列中潜在实体的索引数。

Martins等人[89]描述了通过多任务学习在识别和连接阶段之间更紧密地集成的方法。他提出了一种基于堆栈的 双向LSTM网络，它具有移位机制和实体识别的注意力，将其内部状态传播到连接器网络中进行候选实体排序。该连接器还补充了一个NIL预测器网络。通过优化所有三个组成部分的损失之和来联合训练这些网络。

Broscheit[14]进一步提出了一种完全的端到端方法，它处理实体识别和联合链接，而不显式地执行候选生成步骤。他们将任务表示为一个序列标记问题，其中文本中的每个标记都被分配一个实体链接或一个NIL类。他们利用了一个基于预训练的BERT的序列标记器。这种简单的方法并不使用[70]，但优于候选生成、实体识别和连接都是独立执行的基线。

De Cao等人[26]最近提出了一种生成式的方法来联合执行实体识别和消除歧义。他们的模型基于BART[79]，执行文本标记的序列到序列自回归生成，该标记包含关于提及跨度和到KG中实体的链接的信息。生成过程受标记格式和候选集的约束，候选集从标准预构建候选资源中检索。

大多数情况下，当网络将输入token复制到输出时，网络以复制粘贴状态工作。当它找到一个mention的开头时，模型用方括号标记它，复制提到的所有标记，添加一个结束方括号，并生成一个实体的链接。虽然乍一看，这种EL方法是违反直觉的，并且与使用标准双编码器架构的解决方案完全不同，但该模型为联合ER和ED实现了最先进的结果，并在ED-only基准上的达到有竞争力的性能。然而，正如本文所示，为了达到如此令人印象深刻的结果，该模型必须在一个基于维基百科的大型注释数据集[160]上进行预先训练。他们还注意到，所提出的模型的内存占用比基于标准体系结构的模型要小得多。

3.2.2. Global Context Architectures

在实体消除歧义中存在两种上下文信息： 局部和全局。在ED的局部方法中，每个提到都是根据周围的单词独立地消除歧义的，如下函数所示：

L E D : ( M , C ) → E LED:(M,C)\rightarrow E L E D :(M ,C )→E

ED的全局方法考虑了上下文中跨多个实体的语义一致性（一致性）。在这种情况下，组中提到的所有q实体都相互依赖地消歧：一个实体的消歧决策受到上下文中为其他实体所做的决策的影响，如图7和下面公式所示。

G E D : ( ( m 1 , m 2 , . . . , m q ) , C ) → E q GED:((m_1,m_2,…,m_q),C) \rightarrow E^q G E D :((m 1 ,m 2 ,…,m q ),C )→E q

在图7所示的例子中，正确的实体候选人之间的一致性得分： the national football team sense of Wales_和 the _Welsh footballer sense of Scott Young and _John Hartson_预计将高于不正确的实体候选人之间的一致性得分。

除了涉及一致性之外，全局方法中提到的上下文通常比本地方法中更大，甚至扩展到整个文档。虽然实体之间的建模一致性和全局上下文的额外信息提高了消歧的准确性，但可能的实体分配的数量是组合的，这导致了消歧高时间复杂度[44,168]。另一个困难是试图给一个实体分配其一致性分数，因为由于同时消歧的[162]，这个分数不可能提前计算。

全局消歧的典型方法是生成一个包含上下文中提到的候选实体的图，并执行随机游走算法，例如PageRank[108]，以选择高度一致的实体[51,112,176]。在这一类中，Globerson等人[47]引入了一个具有注意机制的模型，该模型只考虑目标所提到的子图，而不是文档中所提到的所有候选对象。

一些工作通过最大化条件随机场(CRF)势来接近全局ED，其中第一个分量Φ \Phi Φ代表一个局部实体提及分数，而另一个分量Ψ \Psi Ψ代表所选候选[44,45,73,75]之间的一致性：

g ( e , m , c ) = ∑ i = 1 n Φ ( e i , m i , c i ) + ∑ i < j Ψ ( e i , e j ) g(e,m,c)=\sum_{i=1}^n \Phi(e_i,m_i,c_i)+\sum_{i

然而，模型训练及其精确推理是NP-hard的。Ganea和Hofmann[44]通过消息传递迭代来适应循环信念传播[45,47]，以降低复杂性。Le和Titov[73]通过将mention的共同引用关系建模为潜在变量（如果mention指的是同一实体，则提及就是共同引用）。Shahbazi等人[130]开发了一种贪婪波束搜索策略，该策略从局部最优初始解开始，通过对最不确定的内容搜索可能的修正进行改进。

尽管在上述工作中提出了优化，但同时考虑所有提到的候选者之间的一致性分数可能会非常缓慢。它也可能是恶意的，因为错误的实体之间的错误的一致性[36]。例如，如果两个提到有连贯的错误候选者，这个噪声信息可能会误导最终的全局评分。为了解决这个问题，一些研究将这个问题定义为 一个顺序决策任务，其中新实体的消除歧义是基于已经消除歧义的任务。Fang等人[36]训练一个策略网络，使用强化学习进行实体的顺序选择。mention的消除歧义是根据局部分数进行排序的，因此具有高自信实体的mention会被提前解决。策略网络利用来自LSTM全局编码器的输出，该编码器维护关于早期消歧决策的信息。Yang等人[168]还使用强化学习来确定mention消除歧义的顺序。他们还使用了一个注意力模型来利用来自以前关联的实体的知识。该模型动态地选择与目标提及最相关的实体，并计算一致性分数。Yamada等人[166]通过BERT模型迭代预测未解决提及的细节，同时参加之前最自信的细节选择。Yamada等人[162]和Radhakrishnan等人[117]首先基于明确的mention来度量相似性，然后预测复杂情况下的实体。

许多研究依赖于将一个实体相干性组件附加到局部评分模型中，并联合训练它们的参数的想法。在这种情况下， 局部模型可以直接受益于成对的一致性评分，而不需要处理全局目标的优化。Kolitsas等人[70]提出的相干性成分是一个额外的前馈神经网络，它使用目标实体之间的相似度得分和具有较高局部得分的候选人的平均嵌入。Fang等人[35]使用指定窗口中目标实体与其周围候选实体之间的相似度得分作为消除歧义模型的特征。同样，Yamada等人[162]和Radhakrishnan等人[117]将全局相干性作为最终消歧模型的一个特征。Tsai和Roth[148]没有计算实体的一致性分数，而是直接使用先前链接的实体的嵌入作为消除歧义模型的特征。不同的是，Cao等人[17]将一个图卷积网络集成到一个消歧模型中，该模型利用了文档中候选实体的子图所提供的知识。Nguyen等人[103]使用一个RNN来存储关于以前看到过的提及和相应的实体的信息。他们利用RNN的隐藏状态来获取这些信息，作为计算全局分数的一个特征。

另一种可以被认为是全局的方法是利用一个更大的上下文来隐式地捕获相干性，而不是显式地设计一个实体相干性组件[16,41,52,72,93,114,137]。

3.2.3 Domain-Independent Architectures

域独立性是EL系统最理想的特性之一。带注释的资源非常有限，并且只存在于少数域。在一个新的领域中获取有标记的数据需要大量的劳动。之前，这个问题可以通过基于无监督[16,101,156]和半监督模型[72]的领域独立方法来解决。最近的研究提供了基于远程学习和zero-shot方法的解决方案。

Le和Titov[74,75]提出了只使用未标记文档的远程学习技术。它们依赖于来自表面匹配启发式的弱监督，而EL任务被构建为二进制多实例学习。该模型学会了区分一组正的实体和一组随机的负的实体。正集是通过检索与提及的单词重叠较多且在句子中与其他提及的候选词有关系的实体得到的。虽然这些方法显示了有希望的性能，在某些情况下可以与完全监督系统的结果竞争，但这些方法需要一个描述实体[74]关系的KG，或者需要从维基百科[75]中提取的实体超链接统计计算出的提及实体先验。

最近提出的 zero-shot技术[83,160]解决了将EL系统适应新领域的相关问题。在zero-shot设置中，唯一可用的实体信息是其描述。以及在其他设置中，也可以使用具有提到-实体对的文本。zero-shot方法的关键思想是在一个具有丰富标记数据资源的域上训练一个EL系统，并将其应用于一个只有最小可用数据的新领域，比如对特定领域实体的描述。Gupta等人提出这种技术的研究之一[52]（不是纯粹的零镜头，因为它们使用实体类型）。现有的zero-shot系统不需要诸如表面形式字典、先前实体提到概率、KG实体关系和实体类型等信息资源，这使得它们特别适合于构建域独立的解决方案。然而，信息源的局限性带来了一些挑战。

由于目标域只有实体的文本描述，因此不能依赖预先构建的字典来生成候选对象。所有的zero-shot工作都依赖于相同的策略来处理候选生成：实体描述的预计算表示（有时称为缓存），计算一个mention的表示，并计算它与所有描述表示的相似性。预先计算的描述表示在推理阶段节省了大量的时间。特别是Logeswaran等人[83]使用BM25信息检索公式[66]，这是一个基于计数的表示的相似性函数。

基于计数的方法的一个自然扩展是嵌入。由Gillick等人提出的方法[46]是zero-shot方法的前身，它使用平均unigram嵌入和bigram嵌入，然后使用密集层来获得mention和描述的表示。将这种方法与纯zero-shot技术分开的唯一方面是使用实体类别和描述来构建实体表示。余弦相似性用于表示法的比较。由于这种方法的计算简单性，它可以在候选的生成和排序是相同的的单阶段中使用。为了进一步加速，可以将该算法分为两阶段。

在第一阶段，近似搜索可以用于候选集的检索。
在第二阶段，检索到的小集可以用于精确的相似度计算。

相较于简单的嵌入，Wu等人[160]建议使用基于bert的双编码器进行候选生成。两个独立的编码器生成提及和实体描述的表示。与之前的工作类似，候选人的选择是基于通过表示的点积获得的分数

zero-shot的方法也使用了对实体排名的描述。令人惊讶的是，上面描述的一种非常简单的基于嵌入的方法[46]在TACKBP-2010基准测试上显示出了非常有竞争力的分数，其性能优于一些复杂的神经架构。Logeswaran等人[83]和Wu等人[160]利用一个基于bert的交叉编码器来执行提及和实体的联合编码。交叉编码器将一个包含一个提及和一个实体描述的上下文连接起来，以为每个候选项生成一个标量分数。交叉注意有助于利用来自上下文的语义信息和在编码器网络[60,123]的每一层上的定义。在这两项研究中，交叉编码器比双编码器和基于数字的方法取得了更好的结果。

对zero-shot系统的评估需要来自不同领域的数据。Logeswaran等人[83]提出了zero-shot EL12数据集，由几个Wikias[13]构建。在建议的设置中，训练在一组Wikias上进行，而在其他组上进行评估。 Gillick 等人[46]构建了Wikinews数据集。这个数据集可以用于对维基百科数据进行训练后的评估。

显然， 在通用开放语料库上预先训练的重神经结构极大地提高了zero-shot技术的性能。正如Logeswaran等人[83]所强调的那样，进一步对源数据和目标数据进行无监督的预训练是有益的。开发更好的方法来利用未标记的数据可能是一个富有成效的研究方向。此外，缩小基于快速表示的双编码器和计算密集型的交叉编码器之间的实体排序的性能差距是一个悬而未决的问题。

3.2.4 Cross-lingual Architectures

英语中EL标记数据的丰度与其他语言中可用的数据量形成对比。与此同时，像维基百科这样独特的监督来源可以用于多种语言。然而，资源丰富的维基百科语言和资源匮乏的语言之间仍然存在着很大的差距。

跨语言EL方法[64]旨在通过利用来自高资源同行的监督来克服对某些语言缺乏注释的问题。维基百科中的语言间链接是使用最广泛的跨语言监督来源之一。这些链接将页面映射到另一种语言的等效页面。

跨语言EL中的挑战始于 候选生成和实体识别步骤，因为低资源语言可能缺乏提及字符串和实体之间的映射。除了具有提及实体先验[137,148,150]的标准方法外，还可以通过挖掘翻译字典[109]、训练翻译和对齐模型[149]或应用神经字符级字符串匹配模型[124]来实现候选生成。后者依赖于高资源透视语言的训练，类似于目标低资源语言。神经串匹配方法可以进一步改进，通过更简单的平均n-gram编码和扩展实体-实体对与提到的实体示例[175]。对于实体识别，可以将来自类似的高资源数据透视语言的具有字符编码网络的BiLSTM-CRF传输[24]。

有几种方法 利用跨语言数据来处理缺乏注释示例的问题。Pan等人[109]在英语维基百科中使用抽象意义表示(AMR)[8]统计数据，并提到上下文进行排名。为了训练一个AMR标记器，作者使用了伪标记[76]。Tsai和Roth[148]通过用相应的实体标记替换每个实体提及，共同训练单词和实体的单语嵌入。使用语言间的链接，他们学习从多种语言到英语嵌入空间的投影函数。为了进行排序，上下文嵌入被平均，投影到英语空间中，并与实体嵌入进行比较。他们证明，这种方法有助于构建更好的实体表示，并将西班牙语和汉语的跨语言设置中的EL精度提高了1%以上。Sil等人[137]提出了一种从高资源语言进行zero-shot的方法，他们扩展了之前的方法，以嵌入投影学习，CNN上下文编码器，以及上下文和实体表示的每个维度的可训练的重新加权。与以前的非zero-shot方法相比，所提出的方法证明了更好的性能。Upadhyay等人[150]认为， zero-shot跨语言方法[137,148]的成功可能在很大程度上源于对提及实体先验概率的更好的估计。他们的方法将[137]扩展为全局上下文信息，并将类型信息合并到上下文和实体表示中（系统在训练期间学习预测类型）。他们报告了没有提到实体先验的zero-shot跨语言EL的性能显著下降，同时显示了最先进的结果。他们还表明，对高资源语言的训练可能对低资源环境非常有利。

现有的跨语言实体链接技术在很大程度上依赖于预先训练过的多语言嵌入来进行实体排序。虽然在至少有先验概率可用的设置中有效，但在现实的zero-shot场景中，性能急剧下降。随着最近大型预训练语言模型的zero-shot多语言转移的成功，这可能是利用强大的多语言自我监督模型的一个动机。

3.3 Summary

作者在表2中总结了神经EL模型的设计特征。所提到的编码器已经转向了自注意架构，并开始使用像BERT这样的深度预训练模型。大多数研究仍然依赖于外部知识的候选人生成步骤。以零射击的方式解决领域适应问题的模型激增。然而， zero-shot联合实体识别和连接的任务尚未得到解决。一些研究表明，交叉编码器的架构优于具有单独mention的模型和实体编码器的模型。全局文本被广泛使用，但最近很少有研究只关注局部的EL。

表2中的每一列都对应于一个模型特性。编码器类型的列给出了神经实体链接模型的提及编码器的体系结构。它包含以下选项：

n/a：一个模型没有一个关于mention/上下文的神经编码器。它可以是一种简单的嵌入平均方法或一种特征工程方法。
CNN：一种基于卷积层（通常是池化层）的编码器。
Tensor net：一个使用张量网络的编码器。
Atten：编码器使用注意机制。
GRU：一种基于循环神经网络和门控循环单元[22]的编码器。
LSTM：一种基于循环神经网络和长短期记忆细胞[56]的编码器（也可能是双向的）。
FFNN：一种基于一个简单的前馈神经网络的编码器。
ELMo：一个基于预训练过的ELMo模型[113]的编码器。
BERT：一个基于预训练的BERT模型[29]的编码器。

这里请注意，各种类型的编码器的理论复杂性是不同的。正如Vaswani等人所讨论的那样[152]，每层自我注意的复杂度为O ( n 2 ⋅ d ) O(n^2·d)O (n 2 ⋅d )，而循环层为O ( n ⋅ d 2 ) O(n·d^2)O (n ⋅d 2 )，卷积层的复杂度为O ( k ⋅ n ⋅ d 2 ) O(k·n·d^2)O (k ⋅n ⋅d 2 )，其中n为输入序列的长度，d为维数，k为卷积的核大小。同时，自注意允许比循环网络更好的并行化，因为自注意的顺序执行的操作数量需要O ( 1 ) O(1)O (1 )次顺序执行操作，而循环层需要O ( n ) O(n)O (n )次顺序操作。总的来说，对各种神经网络的训练和推理的计算复杂度的估计肯定超出了本调查的目标范围。感兴趣的读者可以参考[152]和关于这个主题的专门文献，例如[82,107,138]。

Global 列显示系统是否使用全局解决方案（请参见第3.2.2节）。 Recognition 列是指联合实体识别和消歧模型，其中实体的识别和消歧模型是共同执行的（第3.2.1节）。 NIL prediction 列指出了也标记不链接引用的模型。 entity embedding 列显示基于3.1.3节中的分类训练实体表示的资源，其中

n/a：一个模型没有针对实体的神经编码器。
unstructured text：意味着基于非结构化文本构建的实体表示和基于共现统计数据的方法，最初是为单词嵌入开发的，如word2vec[91]。
relational info.：表示模型使用KGs；
ent. specific info.：表示编码器使用其他类型的实体信息，如实体描述、类型或类别。

在 candidate generation 列中，记录了候选生成方法（第3.1.1节）。它包含以下选项：

n/a：Broscheit[14]提出的解决方案没有明确的候选生成步骤。
surface match：表面匹配启发式。
aliases：-KG中实体的补充别名。
prior：过滤具有预先计算的提到实体先验概率或频率计数的候选对象。
type classifier：Raiman and Raiman[119]使用自动学习类型系统的分类器过滤候选对象。
BM25：Logeswaran[83] 是TFIDF的一种变体，用于基于描述页面度量提及和候选实体之间的相似度。
nearest neighbors：计算提及和实体表示之间的相似性，并将提到的最近邻居的实体作为候选检索。Wu等人[160]为此目的训练了一个补充模型。

; 4. Evaluation

在本节中，作者将对常用数据集上的实体链接和实体关联任务上的模型进行评估。

4.1 Entity Linking

4.1.1 Experimental Setup

评估结果是根据两种不同的评估设置报告。第一个设置 是实体消除歧义(ED)，其中系统可以访问提及的边界。第二种设置是 实体识别和消除歧义(ER+ED)，其中联合执行ER和ED的系统的输入是纯文本。作者在单独的表中陈述了它们的结果，因为联合模型的分数积累了在实体识别阶段所产生的错误。

Datasets 为了评估模型，作者使用了广泛使用的数据集来评估EL：AIDA[57]，TACKBP2010[63]，MSNBC[25]，aquaint[92]，ACE2004[121]，CWEB[43,51]，和WW[43,51]。其中，CWEB和WW是一个自动标注的大型数据集，而AIDA也是一个大型数据集，但都是手动标注[44]的。对于AIDA，作者报告为测试集(AIDA-B)计算的结果。本文展示了TACKBP2015[64]西班牙语(es)和中文(zh)数据集的跨语言EL结果。根据[32,44,46,64]中报告的信息，数据集及其数据源的描述性统计数据见表3。
Evaluation Metrics 对于ED设置，本文报告了系统获得的micro F1或准确性分数。由于mention是作为输入提供的，因此模型预测的mention次数等于ground truth[133]中的mention次数，所以F1得分等于消歧模型[133]中的精度、召回率和准确性得分： F1 = Acc = # of correctly disamb. mentions # of total mentions \text{F1}=\text{Acc}=\frac{\text{# of correctly disamb. mentions} }{\text{# of total mentions}}F1 =Acc =# of total mentions # of correctly disamb. mentions 对于ER+ED设置*，其中评估联合模型，本文报告基于强注释匹配的micro F1分数。计算F1分数的公式如下所示，如Shen等人[133]和Ganea等人[45]所述: P = # of correctly detected and disamb. mentions # of predicted mentions by model \text{P}=\frac{\text{# of correctly detected and disamb. mentions} }{\text{# of predicted mentions by model}}P =# of predicted mentions by model # of correctly detected and disamb. mentions R = # of correctly detected and disamb. mentions # of mentions in ground truth \text{R}=\frac{\text{# of correctly detected and disamb. mentions} }{\text{# of mentions in ground truth}}R =# of mentions in ground truth # of correctly detected and disamb. mentions KaTeX parse error: Undefined control sequence: \cdotp at position 1: \̲c̲d̲o̲t̲p̲ GERBIL[126]是一个基准测试平台，本调查中描述的多篇论文都使用了该平台。它实现了各种实验设置，如实体消歧(ED)，表示为D2KB，实体识别和消歧的组合(ER+ED)，表示为A2KB。它提供了所需的评估指标，即微观宏观精度、召回率和f测量。此外，它还以标准化的方式存储评估数据集和注释。
Baseline Models 虽然本文的目标是对神经实体连接系统进行调查，但作者也报告了几个指示性和突出的经典非神经系统的结果作为基线，以强调神经模型取得的进展。更具体地说，本文报告了DBpedia Spotlight（2011）[90]，AIDA（2011）[57]，Ratinov （2011）[121]，WAT（2014）[115]，Babelfy（2014）[94]，Lazic（2015）[72]，Chisholm 和Hachey（2015）[20]，以及PBOH（2016）[45]。对于每个系统，本文给出了作者报告的最佳分数，对于基线系统，展示了Kolitsas等人[70]和Ganea以及Hofmann[44]的报告结果。

4.1.2 Discussion of Results

实体消除歧义的结果 本文从仅限消除歧义的模型（其中已经提供了实体边界）开始展示结果。图8显示了实体消歧模型的性能在过去十年中如何改进，以及最好的经典模型如何与最近最先进的实体链接神经模型相对应。我们可以观察到，基于深度学习的模型大大提高了性能，提高了大约10个百分点。AIDA是最广泛使用的数据集（但也是最大的数据集之一），但作者在表4中报告对其他数据集的结果。

在消歧的局部模型中，Shahbazi[130]和Wu等人[130]报道了最好的结果。值得注意的是，后一种模型可以用于zero-shot设置。Shahbazi等人[131]在AIDA-B和其他型号中得分最高。然而，这是由于使用了Pershina等人[112]的不明确的资源用于候选生成，而许多其他作品使用由Ganea和Hofmann[44]提供的基于YAGO的资源，这通常会产生较低的结果。

普遍的趋势是，全局模型（那些试图同时消除多个实体出现的歧义的模型）优于局部模型（依赖于单个上下文）。Yamada等人[166]的全局文本与包括Shahbazi等人[131]基于YAGO的资源报告结果在内的其他解决方案相比，产生的结果始终更好。他们通过新的掩蔽实体预测目标来解释性能的改进，该目标有助于微调预先训练的BERT，以生成上下文化的实体嵌入和多步全局消歧算法。

Joint Entity Recognition and Disambiguation 表5显示了ER和ED联合模型的结果。上述模型中只有一小部分能够同时执行实体识别和消除歧义；因此，结果列表要短得多。在联合识别和消歧的解决方案中，在撰写本文时表现最好的系统是DeCao等人[26]。这个系统和其他同样解决ER任务的系统都落后于仅消除消歧的系统，因为它们依赖于由它们自己产生的噪声mention边界。在联合设置中，神经模型也大大超过（高达10分）经典模型。
On Effect of Hyperparameter Search 如上所述，在表4和表5中报告了神经模型的最佳分数。原则上，如Reimers 和 Gurevych[122]所示， 每个神经模型都可以进一步调整，但神经模型的方差一般也相当高。因此，可以进一步优化一个（可能更简单的）神经模型的元参数，从而使其优于一个更复杂的（但以一种不太理想的方式调整）模型。这种情况的一个常见例子是RoBERTa[81]，它基本上是原始的BERT模型，它经过了仔细和稳健的优化。这个模型优于BERT模型的许多后继者，在各种任务上显示了最先进的新技术，同时保持了原始的架构。

; 4.2 Entity Relatedness

在本节中，将讨论实体相关性的评估。这种评估不同于EL中的任何pipeline，它只关注实体的相关性。

4.2.1 Experimental Setup

评价数据由Ceccarelli等人[18]提供，使用Hoffart等人[57]的数据集。它以查询的形式存在，其中第一个实体被接受为正确链接，而第二个实体是候选[44]。

实体表示性能可以通过实体关联任务进行评估。也就是说，任务是对目标的实体进行排序，这通常是基于实体表示的相似性来执行的，除了两个研究：Milne和Witten [92]引入了一种基于维基百科超链接的度量，称为WLM，以及最近ElVaigh等人[31]提供了一个加权的语义关联度量。

排名质量的评估采用归一化折现累积增益(nDCG)[61]和平均精度(MAP)[171]进行评估。nDCG常用于信息检索，通过测量位置印象来提供公平的评价。类似地，MAP度量模型对目标实体执行的准确性。

4.2.2. Discussion of Results

在表6中，报告了实体的相关性得分。Huang等人[59]报告的得分最高，原因是它们使用不同的实体信息来源，比如实体类型[44]。Ganea和Hofmann[44]，以及Cao等人[16]取得了良好的成绩，最近，Shi等人[135]还通过使用基于文本和KG的各种数据源提供了出色的性能，比如由知识图的类别层次结构提供的类型。

5. Applications of Entity Linking

在本节中，首先简要概述实体链接技术的已建立应用，然后讨论最近出现的特定于神经实体链接的用例，这些用例基于注入这些模型作为一个更大的神经网络的一部分，例如在神经语言模型中。

5.1 Established Applications

Text Mining EL工具是文本挖掘系统的典型构建块。提取和解决实体提到的模糊性是公共信息提取pipeline中的第一步。由于医学术语的可变性、UMLS[11]等医学本体的复杂性以及注释资源的稀缺性，模糊性问题对于生物医学和临床文本处理等领域尤为重要。用于生物医学文献和电子健康记录挖掘应用程序[5,71,84,128,140]的EL工具有着悠久的发展历史。这些工具已成功应用于临床报告的总结[87]、药物-疾病治疗关系的[69]的提取、鉴别诊断[4]、患者筛查[34]和许多其他任务。除了医学文本处理外，EL还被广泛应用于社交网络和新闻的挖掘。例如，推特[1]使用DBpedia Spotlight [90]EL系统来挖掘小规模事件的推特消息。Provatorova等人[116]利用最近提出的EL工具包REL[151]，在CLEFHIPE2020评估活动[30]中为人、地点和其他实体挖掘历史报纸。Luo等人[86]自动构建一个大规模的图像和文本标题的数据集，以描述真实的和脱离上下文的新闻。他们利用REL来链接图像标题中的实体，这有助于自动测量图像及其文本标题之间的不一致性。
Knowledge graph population EL是知识图总体算法的必要步骤之一。在用从原始文本中提取的新事实填充KG之前，必须确定这些文本中提到的概念，并将它们链接到相应的图节点。TAC14为KG人口工具(TACKBP)提供了一个论坛，并为包括EL在内的各种子系统提供了基准。例如，Ji和Grishman[62]和Ellis等人[32]概述了参与TACKBP2010年和2015年任务的各种成功的知识图人群系统。Shen等人[134]提出了一种知识图总体算法，它不仅利用EL的结果，而且有助于改进EL本身。它迭代地填充一个KG，而EL模型受益于增加的知识，并不断地学习以更好地消除歧义。
Information retrieval and question-answering EL也被广泛地应用于信息检索和问题回答系统中。EL有助于用额外的语义信息来补充搜索结果，以解决查询的模糊性，并限制搜索空间。例如，Lee等人[78]使用EL来补充生物医学文献搜索引擎的结果：基因、疾病、药物等。Covi-DASK[77]是一个帮助研究人员检索与冠状病毒相关信息的实时问答系统，它使用BioSyn模型[145]处理covid-19文章，并将药物、症状、疾病与生物医学本体中的概念联系起来。 实体到描述的链接帮助用户导航搜索结果，这提高了系统的可用性。 Yih 等人[169]应用EL对问答系统的搜索空间进行修剪。

问：”谁第一次为《恶搞之家》中的梅格配音？”，在将”梅格”和”恶搞之家”链接到KG中的实体后，任务是解析”恶搞之家（电视节目）”的谓词，而不是KG中的所有条目。 Shnayderman等人[136]开发了一种快速的EL算法，为其自主辩论系统[139]预处理大型语料库，目的是与对手就某个话题进行辩论对话，并证明一个预定义的观点。该系统利用实体链接的结果进行基于语料库的参数检索。

5.2 Novel Applications: Neural Entity Linking for Training of Neural Language Models

除了上述应用之外，神经EL模型已经解锁了经典机器学习方法无法获得的新应用类别。也就是说，神经模型允许将整个实体连接系统集成到一个更大的神经网络中，如BERT。由于它们都是神经网络，所以这种整合就成为可能了。在将实体链接器集成到另一个模型的架构中后，还可以通过一个与EL相关的任务和联合训练所有神经组件的参数来扩展训练目标：

L JOINT = L BERT + L EL-related L_{\text{JOINT}}=L_{\text{BERT}}+L_{\text{EL-related}}L JOINT =L BERT +L EL-related

神经实体连接器可以集成到任何其他网络中。主要的新趋势是使用EL信息进行 表示学习。一些研究表明，通过将EL整合到迁移学习的深度语言模型(LMs)中，上下文单词表征可以从KG中存储的信息中获益。

KnowBERT[114]在BERT架构的顶层之间注入一个或多个实体链接器，并优化整个网络的多个任务：掩码语言模型(MLM)任务和来自原始BERT模型的下一个句子预测(NSP)，以及EL：

L BERT = L NSP + L MLM L_{\text{BERT}}=L_{\text{NSP}}+L_{\text{MLM}}L BERT =L NSP +L MLM

L KnowBert = L NSP + L MLM + L EL L_{\text{KnowBert}}=L_{\text{NSP}}+L_{\text{MLM}}+L_{\text{EL}}L KnowBert =L NSP +L MLM +L EL

[70]采用了的一般端到端EL体系结构，但只使用本地上下文来消除歧义，并使用了一个基于对底层BERT层生成的表示的自注意的编码器。如果EL子系统在给定的句子中检测到提到了一个实体，则相应的预构建的候选实体表示将用于计算在当前BERT层上生成的更新的上下文词表示。这些表示被用作后续层的输入，也可以被后续的EL子系统修改。基于Wikidata和WordNet的两个EL子系统的实验表明，在KnowBERT中提出的修改有助于它在关系提取、WSD和实体类型任务方面略微超过其他深度预先训练的语言模型。

ERNIE[174]用一个知识渊博的编码器(k-编码器)扩展了BERT[29]架构，它将从底层自注意网络获得的上下文单词表示与预先训练好的TransE模型[13]的实体表示融合在一起。本研究中的EL是由外部工具TAGME[39]完成。对于模型预训练，除了MLM任务外，他们还引入了在给定序列中恢复随机掩蔽实体的任务，以保留其余的实体和标记。他们将此过程称为去噪实体自动编码器(dEA)：

L ERNIE = L NSP + L MLM + L dEA L_{\text{ERNIE}}=L_{\text{NSP}}+L_{\text{MLM}}+L_{\text{dEA}}L ERNIE =L NSP +L MLM +L dEA

使用英语维基百科和维基百科作为训练数据，结果表明，引入的修改提供了在实体类型、关系分类和几个GLUE任务[155]方面的性能提高。

Wang等人[158]训练一个使用两种损失组成的消歧网络：常规MLM和基于TransE[13]目标的知识嵌入(KE)损失，用于编码图结构：

L KEPLER = L MLM + L KE L_{\text{KEPLER}}=L_{\text{MLM}}+L_{\text{KE}}L KEPLER =L MLM +L KE

在KE损失中，实体的表示是由自注意网络编码的文本描述得到的[81]，且关系的表示是可训练的向量。该网络是在一个实体-关系-实体三联体的数据集上进行训练的，并使用从维基百科和维基百科中收集到的描述。尽管该系统在GLUE[155]等一般NLP基准测试上表现出显著的性能下降，但它在TACRED[173]、FewRel[53]和开放实体[21]上表现出更高的性能。

Yamada等人[165]提出了一个深度预训练的模型，称为”基于知识的嵌入的语言理解”(LUKE)。他们通过引入一种额外的训练前目标和一种具有实体意识的自我注意机制来修改RoBERTa[81]。目的是简单地将MLM任务应用于实体L M L M e L_{MLM_e}L M L M e ，而不是token，他们建议在实体注释语料库中恢复随机掩蔽实体。

L LUKE = L MLM + L MLM e L_{\text{LUKE}}=L_{\text{MLM}}+L_{\text{MLM$_e$}}L LUKE =L MLM +L MLM e

虽然本工作中使用的语料库是由维基百科构建的，通过将到其他维基百科页面的超链接视为提到KG中的实体，但是它可以使用外部实体链接器生成。

实体感知注意机制（entity-aware attention mechanism ）通过引入四种不同的查询矩阵来匹配单词和实体，帮助LUKE区分单词和实体：每一对输入类型（实体-实体、实体-单词、单词-实体和标准的单词-单词）。在五个任务中，LUKE为以往的模型提供了卓越的性能改进：开放实体（实体类型）[21]、TACRED（关系分类）[173]、CoNLL-2003（命名实体识别）[146]、ReCoRD（阻塞式问题回答）[172]和SQuAD1.1（阅读理解）[120]。

Fevry等人[40]提出了一种联合训练语言模型和实体表示的方法，他们称之为实体为专家(EaE)。该模型基于Transformer架构，类似于KnowBERT[114]。然而，除了可训练的词嵌入矩阵外，EaE为实体嵌入提供了一个单独的可训练矩阵，称为”memory”。标准Transformer还扩展了一个”entity memory”层，该层从前一个Transformer层获取输出，并用文本中提到的实体嵌入填充它。检索到的实体嵌入在层归一化之前通过求和集成到标记表示中。为了避免在推理时依赖于外部mention检测器，该模型将一个分类器应用于Transformer块的输出，就像在序列标记模型中一样。

与[165]类似，EaE是在一个带有提到和实体链接注释的语料库上进行训练的。最终的损失函数包含了三个组成部分：标准的MLM目标，在序列标记模型LNER中提到边界检测损失，以及一个实体链接目标，该目标便于模型中生成的实体表示接近于注释实体的实体嵌入。

L EaE = L MLM + L NER + L EL L_{\text{EaE}}=L_{\text{MLM}}+L_{\text{NER}}+L_{\text{EL}}L EaE =L MLM +L NER +L EL

这种将有关实体的知识集成LMs中的方法在开放领域的问题回答中提供了显著的性能提升。在TriviaQA任务[67]上，只有3.67亿个参数的EaE的性能优于T5[118]的110亿个参数版本。作者还表明，EAE比一个相对大小的BERT模型包含更多的事实知识。

所考虑的工作表明，结构化KGsg和LMs的集成通常有助于解决面向知识的任务：问题回答(包括开放域QA)、实体类型、关系提取等。来自KGs的高精度监督信号要么可以显著提高性能，要么允许在保持相似性能的同时减少LM的可训练参数的数量。实体链接是连接高度结构化的知识图和更灵活的语言模型之间的桥梁。作者希望这种方法对未来的基础模型的建设是至关重要的。

6. Conclusion

本文分析了最近提出的神经实体链接模型，这些模型执行任务通常比经典方法的分数更高。本文提供了一种通用的神经实体连接体系结构，它适用于大多数神经EL系统，包括对其组件的描述，如候选生成、实体排序、提及和实体编码。一般架构的各种修改分为四个共同的方向：

联合实体识别和链接模型；
全局实体链接模型；
域独立方法，包括零射击和远程监督方法；
跨语言技术。

文章也提供了分类法图和特征表来解释分类，并显示在每种方法中使用了哪些突出的特征。

大多数研究仍然依赖于外部知识的候选人生成步骤。mention编码器已经从卷积和循环模型转向了自注意架构，并开始使用预先训练过的上下文语言模型，如BERT。目前有一种方法来解决将在一个领域上训练的模型调整到另一个领域的问题。这种方法不需要目标域中的任何注释数据，而只需要对来自该域的实体的描述来进行这样的适应。一些研究表明，交叉编码器的架构优于具有单独提及和实体编码器的模型。全局文本被广泛使用，但最近很少有研究只关注局部的EL。

在联合识别和消歧的解决方案中，主要是De Cao等人[26]引领思路。在已发表的局部消歧模型中，Wu等人[160]报道了最好的结果。值得注意的是，该模型可以用于零镜头设置。全局模型优于本地模型。Yamada 等人[166]的工作报告的结果始终比所有其他解决方案更好。性能的提高归因于实体嵌入的掩蔽实体预测机制，以及使用了基于BERT的具有多步全局评分函数的预训练模型。

7. Future Directions

作者确定了四个有希望的未来工作的方向如下：

包括候选生成步骤的端到端模型：候选生成步骤需要从大量数据中收集信息，如第3.1.1节所述。尽管这些模型可以创建一个独立于领域的体系结构，但它们仍然是基于来自候选生成器的数据。因此，一个可能的方向将是处理不需要外部数据的候选生成步骤或直接消除此步骤。有一些研究使用从实体描述[83]中计算出的表示[46,160]或BM25分数来找出候选对象。然而，这些模型并不能提供完整的端到端解决方案。因此，未来的方法可以解决没有候选生成器的完整端到端解决方案的挑战。
zero-shot方法的进一步发展以应对新兴实体：作者还预计zero-shot EL将迅速发展，参与其他特性，如文档中所有实体的全局一致性、NIL预测、将ER和EL步骤连接在一起，或提供完全的端到端解决方案。后者将是一个特别具有挑战性的任务，但也是一个迷人的研究方向。为了进行适当的比较，迫切需要对zero-shot方法进行更标准化的基准和评价过程。
EL丰富语言模型的更多用例：一些研究[114,158,174]表明，通过包含存储在KG中的知识来改进上下文语言模型。它们将实体链接合并到这些深度模型中，以使用KG中的信息。在未来的工作中，更多的用力有望通过使用实体链接来增强语言模型。丰富的表示将使得下游任务得到改进。
在更多的神经模型中整合EL损失：在其他不同于语言模型的神经模型中整合EL损失可能会很有趣，但其方式与第5.2节中描述的模型相似。由于端到端EL模型也只是一个神经网络，这种与其他网络的集成在技术上是直接的，可能有助于将EL模型中包含的实体的信息注入到其他可能是专门化的体系结构中。

设置。全局模型优于本地模型。Yamada 等人[166]的工作报告的结果始终比所有其他解决方案更好。性能的提高归因于实体嵌入的掩蔽实体预测机制，以及使用了基于BERT的具有多步全局评分函数的预训练模型。

7. Future Directions

作者确定了四个有希望的未来工作的方向如下：

包括候选生成步骤的端到端模型：候选生成步骤需要从大量数据中收集信息，如第3.1.1节所述。尽管这些模型可以创建一个独立于领域的体系结构，但它们仍然是基于来自候选生成器的数据。因此，一个可能的方向将是处理不需要外部数据的候选生成步骤或直接消除此步骤。有一些研究使用从实体描述[83]中计算出的表示[46,160]或BM25分数来找出候选对象。然而，这些模型并不能提供完整的端到端解决方案。因此，未来的方法可以解决没有候选生成器的完整端到端解决方案的挑战。
zero-shot方法的进一步发展以应对新兴实体：作者还预计zero-shot EL将迅速发展，参与其他特性，如文档中所有实体的全局一致性、NIL预测、将ER和EL步骤连接在一起，或提供完全的端到端解决方案。后者将是一个特别具有挑战性的任务，但也是一个迷人的研究方向。为了进行适当的比较，迫切需要对zero-shot方法进行更标准化的基准和评价过程。
EL丰富语言模型的更多用例：一些研究[114,158,174]表明，通过包含存储在KG中的知识来改进上下文语言模型。它们将实体链接合并到这些深度模型中，以使用KG中的信息。在未来的工作中，更多的用力有望通过使用实体链接来增强语言模型。丰富的表示将使得下游任务得到改进。
在更多的神经模型中整合EL损失：在其他不同于语言模型的神经模型中整合EL损失可能会很有趣，但其方式与第5.2节中描述的模型相似。由于端到端EL模型也只是一个神经网络，这种与其他网络的集成在技术上是直接的，可能有助于将EL模型中包含的实体的信息注入到其他可能是专门化的体系结构中。

Original: https://blog.csdn.net/qq_42801194/article/details/122519205
Author: Vincy_King
Title: Neural Entity Linking综述【详细版】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531536/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Neural Entity Linking综述【详细版】

Neural Entity Linking: A Survey of Models Based on Deep Learning

Abstract

1. Introduction

2. Task Description

2.1 Informal Definition

; 2.2 Formal Definition

2.3 Terminological Aspects

3. Neural Entity Linking

3.1 General Architecture

; 3.2 Modifications of the General Architecture

3.3 Summary

; 4. Evaluation

4.1 Entity Linking

; 4.2 Entity Relatedness

5. Applications of Entity Linking

5.1 Established Applications

5.2 Novel Applications: Neural Entity Linking for Training of Neural Language Models

6. Conclusion

7. Future Directions

7. Future Directions

大家都在看