实体链接(Entity-Linking)

2023年5月27日下午11:47 • 人工智能 • 阅读 67

关于实体链接(Entity-Linking)任务的调研。

简介：

实体链接是指将自然语言文本中出现的 实体提及(entity mention)关联到对应知识图谱实体上去的任务，如标准数据库，知识库，地名词典，维基百科页面等中的对应条目进行链接。

主要的方法，三个模块：
候选实体生成（candidate entity generation)模块，负责从输入文本中检测出实体提及集合M（包括输入文本中提到的所有实体）,并从给定知识图谱中找到每个实体提及可能对应的候选实体集合,常用的候选实体生成方法包括词典匹配方法、表层形式扩展法和统计模型法；
实体消歧模块，负责对每个实体提及m对应的候选实体集合中多个候选实体打分和排序，并输出得分最高的候选实体作为m的实体链接结果。常用的候选实体排序方法包括基于监督学习的方法和基于非监督学习的方法
无链接指代预测（unlinkable mention prediction),负责预测输入文本中哪些实体提及是无法被链接到知识图谱中去的。这种情况通常是由知识图谱本身的不完备性导致的，即输入文本中提及的实体尚未被现有知识图谱覆盖（在知识图谱中找不到对应的实体）。
实现流程：
命名实体识别
候选实体生成
实体消歧
未发现实体聚类
候选实体生成

4.1. 词典匹配方法：

匹配词典抽取方法，首先需要构建抽取
下表给出基于不同类型数据进行词典构建的具体方法。由于维基百科和包括Freebase 在内的很多其他知识图谱都存在很好的对应关系，因此通过上述方法获取的词典能够很好地用于基于其他知识图谱的实体链接任务。

构建好匹配词典后，基于匹配词典对输入文本进行实体提及识别的方式主要有两种：

1）第一种采用完全匹配（exact match)方法，即文本中每个实体提及一定要准确出现在匹配词典中。完全匹配方法易于实现，但对词典实体提及集合的覆盖度要求较高。一旦某个实体提及发生变化，匹配过程就会失败。
2）第二种采用模糊匹配（fuzzy match)方法，即允许文本中每个实体提及和词典中对应的实体提及在字面上存在一定的差异。常见的模糊匹配机制包括：

如果文本中某个实体提及被词典中某个实体提及完全包含或它完全包含词典中某个实体提及，那么这两个实体提及模糊匹配成功；
如里文本中某个实体提及和词典中某个实体提及存在一定程度的单词重叠，那么这两个实体提及模糊匹配成功；
如果文本中某个实体提及和词典中某个实体提及基于字符串相似度算法（例如 character Dice score,skip bigram Dice score,Hamming distance,编辑距离等）具有很高的相似性，那么这两个实体提及模糊匹配成功

4.2. 统计学习方法(即命名实体识别)

词典匹配方法采用预先抽取好的实体提及集合对输入文本进行实体提及检测。一旦某些实体提及并未出现在匹配词典抽取的语料中，那么该类方法就无法处理。
通过从标注数据上抽取特征学习统计模型，可以用来检测之前并未见过的实体提及（具有较好的泛化性）——命名实体识别任务。
实体消歧(候选实体排序)

5.1. 监督学习方法：

监督学习方法使用的特征分为上下文无关特征和上下文相关特征两大类。

上下文无关特征（context-independent feature)仅基于实体提及和候选实体本身对不同候选实体进行打分和排序。常用的上下文无关特征包括：
实体提及和候选实体的名称是否完全匹配；
实体提及（或候选实体）是否以候选实体（或实体提及）作为前缀或后缀；
实体提及（或候选实体）是否完全包含候选实体（或实体提及）；
实体提及所包含单词的首字母序列是否和候选实体所包含首字母序列相同；
实体提及和候选实体共同包含的单词数目；
候选实体流行度特征，表示实体提及m链接到候选实体的先验概率
实体提及和候选实体之间的类型匹配特征。该特征对比实体提及的NER 类型（例如 People,Location、Organization 等）与候选实体在知识图谱中的类型是否一致。
上下文相关特征（context-dependent feature)基于实体提及和候选实体所在上下文之间的相关度对不同候选实体进行打分和排序。常用的上下文相关特征包括：
词袋特征，通过将实体提及和候选实体分别表示为向量形式，计算二者之间的相似性。实体提及向量等于该实体提及所在上下文对应的词袋向量表示。候选实体向量根据实体的来源不同，生成的方式也不同：对于来自维基百科的候选实体，该向量等于该实体维基百科页面对应的词袋向量表示；对于来自知识图谱的候选实体，该向量等于与该实体直接相连的知识图谱实体和谓词对应的词袋向量表示。
概念向量特征，专门针对基于维基百科的实体链接任务。对于每个候选实体，基于该实体维基百科页面中的重定向、锚文本、关键词、InfoBox 等信息生成一个概念向量，并计算其与实体提及上下文对应词袋向量之间的相似度。
基于上述特征可以利用多种机器学习算法，训练候选实体排序模型。基于朴素贝叶斯、最大熵或支持向量机可以训练二分类器，用来决定实体提及m和候选实体e间是否存在链接关系。

5.2 无监督学习算法：

为了减少实体链接系统对标注数据的需求，可以将无监督学习方法用于候选实体排序任务。常用的方法包括基于向量空间模型的方法和基于信息检索的方法。

基于向量空间模型的方法首先将实体提及m和m对应的某个候选实体分别转化为向量表示。然后，通过计算这两个向量表示之间的距离对不同候选实体进行排序。实体提及和候选实体的不同向量表示生成方法对应了不同的工作。
基于信息检索的方法将每个知识图谱实体对应的维基百科文档作为该实体的表示，并基于该类文档对全部知识图谱实体建立索引。给定输入文本中的一个实体提及m,该类方法首先从输入文本中找到包含m的全部句子集合，并通过去停用词等过滤操作生成一个查询语句。然后，使用该查询语句从知识图谱实体对应的索引中查找得到相关性最高的知识图谱实体，作为m的实体链接结果。
无监督学习方法通常适用于长文本实体链接任务，这是由于短文本无法很好地生成实体提及对应的向量表示或查询语句。
无链接提及预测：

由于知识图谱的不完备性，并不是每个实体提及在知识图谱中都能够找到对应的实体。对于这类实体提及，实体链接系统通常将其链接到一个特殊的”空实体（用符号 NIL 表示）”上去，该任务就是无链接提及预测（unlinkable mention prediction).

无链接提及预测任务常用的策略有三种：

如果一个实体提及对应的候选实体生成结果是空集，那么该实体提及的链接结果是NIL;
如果一个实体提及对应排名最高的候选实体得分低于一个预先设定的阈值，那么该实体提及的链接结果是 NIL.这里用到的阈值通常根据系统在标注数据上的表现进行预设；
给定一个实体提及及其对应排名最高的候选实体，使用二分类器对其进行分类。如果分类结果是1,则返回候选实体作为实体链接结果。否则，该实体提及的链接结果是 NIL. 此外，也可以将NIL 作为一个特殊的实体直接加到每个实体提及对应的候选实体集合中进行打分和排序。
总结：

实体链接任务对智能问答系统而言非常重要。成功识别问题中提到的知识图谱实体不仅有助于问答系统对问题的理解、辅助问答系统完成对问题和答案类型的判断，还能将该实体作为桥梁从知识图谱中找到更多的相关信息帮助答案排序或答案生成任务。

在智能问答场景中，由于真实问题的长度通常较短、知识图谱内容不完备、实体链接对应标注数据集有限等原因，实体链接任务目前依然存在许多问题和挑战。未来的研究需要更大规模和更高覆盖度的标注数据，用于训练更加鲁棒（robust)的实体链接系统。此外，实体链接任务需要和智能问答系统进行整合，进行端到端的训练，这样有助于避免子模块可能产生的错误传递问题。

Original: https://blog.csdn.net/huihuixiaoxue/article/details/124064027
Author: 辉辉小学生
Title: 实体链接(Entity-Linking)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528210/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MATLAB中text函数使用

目录语法说明示例向数据点添加文本说明向多个数据点添加文本显示多行文本指定文本大小和颜色修改现有文本 text函数的功能是向数据点添加文本说明。语法 text(x,…

人工智能 2023年7月4日
0076
如何成为一名优秀的老师？

1）点题：教师是一份受人尊重的、需要无私奉献的职业，成为一名老师是我一直以来的梦想。每种职业都有各自特性，虽然教师职业压力大、待遇不高，但我更加看重教师职…

人工智能 2023年6月26日
0065
车牌识别项目全过程——opencv知识自学(1)

目录什么是opencv? * 图像数字化基础知识图像获取图像变换 – 改变大小车牌识别内容分析 * 定位车牌 – 图像降噪形态学处理阈值分割+边…

人工智能 2023年7月18日
0068
深度学习：AlexNet实现服装分类（Pytorch）

深度学习：AlexNet实现服装分类（Pytorch）前置知识表征学习模型介绍 * 模型架构模型特点代码实战 * 服装分类数据集定义模型测试数据训练模型结果展示 …

人工智能 2023年7月1日
0066
【模板】最短路问题系列

单源最短路径、多源最短路径。 1. 核心思路：更新等式：dis[to] = dis[pos] + edge[pos][to];贪心优化：基本可以认为，由近到远更新答案，是一种更优…

人工智能 2023年6月29日
0083
mac arm 架构安装PHP redis 扩展

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月27日
0069
ROS学习笔记(9)—ros-navigation的应用

这篇文章用于记录如何理解及调用ROS中的导航功能包ros-navigation，对机器人做导航。 1. 框架 ; move_base 定位：核心节点，是导航过程运动控制的最终执行机…

人工智能 2023年6月10日
0096
【OpenCV 例程200篇】201. 图像的颜色空间转换

OpenCV 例程200篇总目录201. 图像的颜色空间转换202. 查表快速替换（cv.LUT）203. 伪彩色图像处理204. 图像的色彩风格滤镜205. 调节色彩平衡/饱和…

人工智能 2023年6月20日
0080
5个时间序列预测的深度学习模型对比总结：从模拟统计模型到可以预训练的无监督模型

时间序列预测在最近两年内发生了巨大的变化，尤其是在kaiming的MAE出现以后，现在时间序列的模型也可以用类似MAE的方法进行无监督的预训练 Makridakis M-Compe…

人工智能 2023年6月15日
0080
R语言实战应用精讲50篇（三十）-R语言ggplot2绘制精美高级地图

本文主要特点使用 sf packacke 并通过 geom_sf() 函数将其集成到 ggplot2 中，现在可以更轻松地快速创建专题地图。这篇文章不仅展示了如何生成一个简单的…

人工智能 2023年6月19日
0068
索爱麦克风免驱动的语音录入测试

树莓派上麦克风的使用方式 – 知乎 (zhihu.com) 1 有趋和免趋无论是麦克风，还是摄像头，都有”有趋”和”免趋&#822…

人工智能 2023年5月27日
0070
opencv人脸识别（一）调用笔记本摄像头

我将分享一个完整的项目，从基础库安装到人脸识别，做一个可视化的界面。 1、opencv-python安装要调用电脑摄像头得安装在python种安装opencv库；使用 pip i…

人工智能 2023年5月28日
0079
高斯过程回归python_GPR(高斯过程回归)详细推导

GPR(高斯过程回归)详细推导一、综述 GPR来源于线性模型，有两种方式可以推导出GPR，一种是weight space view,另外一种是function space vie…

人工智能 2023年6月17日
00139
基于yolov3的行人目标检测算法在图像和视频中识别检测

之后，将将输入的检测特征图转换成二维张量，并将网络前向传播 blob = cv2.dnn.blobFromImage(image, 1 / 255.0, (416, 416), s…

人工智能 2023年6月17日
0070
LVI-SAM：配置环境、安装测试、适配自己采集数据集

LVI-SAM是TixiaoShan大佬在他之前LIO-SAM工作基础上耦合了视觉惯性里程计，算法包含雷达惯性里程计模块及视觉惯性里程计模块，其中视觉惯性里程计采用VINS-MON…

人工智能 2023年6月23日
0075
Python 千猫图，简单技术满足你的收集控

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

实体链接(Entity-Linking)

大家都在看