【论文阅读】Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

2023年6月10日上午3:35 • 人工智能 • 阅读 85

《Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings》

论文来源：ACL2020

关键词：多跳 KGQA

论文链接：https://www.aclweb.org/anthology/2020.acl-main.412.pdf

代码链接：https://github.com/malllabiisc/EmbedKGQA

知识图谱问答（KGQA）：通过在知识图谱上查询知识来回答自然语言问题。

多跳知识图谱问答（Multi-hop KGQA）：需要在知识图谱的多条边上进行推理来推测出正确答案。

现在常用的Multi-hop KGQA方法往往限制了候选答案的跳数范围，比如说在问题中实体的3-hop范围内，这种方法会因为正确答案不在范围内而无法得到正确答案。在稀疏的、不完整的KG中，这种情况时常出现，就比如说：

【论文阅读】Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

如果在Gangster No. 1和Crime间可以有关系has_genre(genre是题材的意思)，这个问题就很好回答。但是由于只是图的不完整性，这条边并不存在，那么从Louis Mellis到Crime之间需要经过四跳才能推理出答案。现存的Multi-hop KGQA方法因为固定了邻域范围的限制，比如三跳，就会使正确答案Crime在范围之外。

最近，也有一些相关工作把文本语料库作为外部信息来辅助KGQA，这种方法在KG不完整时是有用的，但是这增加了QA系统的另一种复杂度，而且文本语料库可能并不总是可用的，限制了这种方法的泛化能力。

在知识图谱领域，常利用知识图谱嵌入来进行链接预测工作，减轻KG的稀疏度。本文想通过利用知识图谱嵌入来克服目前Multi-hop KGQA的这些限制，提出EmbedKGQA。接下来我们结合下边这张图就来看看本文具体的算法细节吧。

EmbedKGQA有三个模块，问题嵌入模块、KG嵌入模块以及答案选择模块。

一、模型介绍

问题描述：给定一个问题q和q中包含的主题实体，任务是抽取一个可以正确回答问题q的尾实体。本文的工作不需要细粒度的标注，不需要标注问题的类型和确切的逻辑推理步骤。

（1）KG嵌入模块

使用经典的知识表示算法ComplEx来训练所有实体和关系的嵌入，ComplEx把关系和实体嵌入到复数空间，打分函数如下：

打分函数为正时，表明三元组为真，否则为假。Re表明一个复数的实部。ComplEx学习的实体嵌入用于学习头实体、问题和答案实体之间的得分函数。基于QA训练集中KG实体的覆盖率，这里学习的实体嵌入要么保持不变，要么允许在后续步骤中进行微调。

（2）问题嵌入模块

该模块将自然语言问题嵌入成一个固定维度的向量，用一个前馈神经网络来完成。首先先用RoBERTa把问题q嵌入成一个768维的向量，然后依次送入4个带ReLU激活函数的全连接层，最后映射到复空间上，维度和实体/关系的嵌入维度相同。给定一个问题q,主题实体h以及答案实体的集合A，通过如下方法来学习问题嵌入：

该模型通过最小化分数与目标标签之间的二元交叉熵损失来学习，其中正确答案的目标标签为1，否则为0。当实体总数很大时，将完成标签平滑。

（3）答案选择模块

在推理时，模型为（头实体，问题）和每个可能的答案打分。对于想MetaQA这种相对较小的知识图谱，我们简单的选择拥有最高得分的实体。然而，如果知识图谱比较大，需要修剪候选实体来增进模型性能。

关系匹配：

学习一个打分函数S(r,q),对于每个问题q给关系r排序。S(r,q)的计算方法：

这个S(r,q)类似于关系和问题的相似度。在所有的关系中，选择关系得分大于0.5的，称为集合Ra。对于每个候选实体a’（本文的模型是把背景知识库中所有的实体都当作候选实体），找到头实体和a’之间最短路径上的关系，这一部分关系构成集合Ra’。然后把每个候选实体的关系得分定义为两个关系集合交集的大小：

用ComplEx得分和关系得分的线性组合来确定最终的正确答案：

二、实验

（1）数据集

MetaQA：包含电影领域的400k个问题，包含1跳到三跳的问题。MetaQA对应的KG包含135k三元组，43k实体和9个关系。

WebQSP：包含4737个问题的较小数据集。它主要包含1跳和2跳的问题，背景知识库是规模很大的Freebase，本文进行了一些修剪。取包含WebQSP问题提及实体2跳内的所有facts的Freebase的子集，再进一步修剪它通过只包含数据集中有的关系。最终修剪的Freesbase有1.8million实体（全部实体当候选的话，这候选集是真的大…..），5.7million三元组。

（2）结果

在MetaQA上的实验结果，可以看出本文模型的优越性，尤其是当背景KG被删除50%的三元组时，也就是说知识图谱的稀疏度更高，这会使问题中的头实体想要到达答案实体之间的路径可能更长。可以看出本文的模型，是带有一些链接预测性质的。

在WebQSP上的实验结果，在这种数据集小但是背景KG大的数据上，本文模型的结果依然效果较好，与MetaQA表现类似。

后边的实验理解部分难度不大，就不多赘述啦～

Original: https://blog.csdn.net/qq_39466623/article/details/109111451
Author: 天才少女101
Title: 【论文阅读】Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595190/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Swin-Transformer目标检测

Swin-Transformer目标检测 * – + 1. 环境搭建 + 2. 训练 + * 2.1 预训练模型的准备 * 2.2 数据集的准备 * 2.3 代码的修改…

人工智能 2023年6月17日
0082
【论文阅读笔记】Multi-Task Feature Learning for Knowledge Graph Enhanced

Multi-Task Feature Learning for Knowledge Graph Enhanced 1.框架 MKR是一个通用的、端对端深度推荐框架，由三个主要部分…

人工智能 2023年6月1日
0061
OpenPCDet 自定义数据集训练

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月21日
0070
Anaconda安装github上下载的包或者本地包

一将github上下载的包，解压后放入anaconda路径下的site-pakages文件夹下我下载的文件名是nda-tools-master 我的路径是F:\anacond…

人工智能 2023年6月24日
0092
气温和降水空间栅格数据下载RS123

中国1980-2015逐年年降水量空间插值数据集介绍中国1980年以来逐年年平均气温、年降水量空间插值数据集是基于全国2400多个气象站点日观测数据，通过整理、计算和空间插值处…

人工智能 2023年7月27日
0083
kaldi安装

本文讲述kaldi安装流程和安装过程中的异常信息以及处理方法，最后测试是否安装成功。安装过程参考 kaldi文档： http://kaldi-asr.org/doc/tutoria…

人工智能 2023年5月27日
00109
js中ECharts的显示相关、动画、交互API、Koa2

文章目录 * – 一、显示相关 – + 1.1主题的使用 + 1.2调色盘和颜色渐变 + 1.3样式 + 1.4图表自适应 – 二、动画的使用 …

人工智能 2023年6月27日
0073
PyTorch 入门：训练一个深度神经网络(DNN)

准备知识 1. NumPy 为什么要学 NumPy？弄懂了 NumPy 的 array，可以轻松上手 PyTorch 的 tensor。请看这个对比：torch v.s. nump…

人工智能 2023年6月25日
0083
LeetCode136. 只出现一次的数字

给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。说明：你的算法应该具有线性时间复杂度。你可以不使用额外空间来实现吗？…

人工智能 2023年6月26日
00122
二分类和混淆矩阵

二值分类器（Binary Classifier）是机器学习领域中应用最为广泛的分类器之一。在二分类的应用场景下，我们可以根据真实类别和预测类别的不同组合，将样本划分为如下四类：真…

人工智能 2023年7月3日
0083
详解一个Python库，用于构建精美数据可视化web app，练习做个垃圾分类app

今天详解一个 Python 库 Streamlit，它可以为机器学习和数据分析构建 web app。它的优势是入门容易、纯 Python 编码、开发效率高、UI精美。上图是用 S…

人工智能 2023年7月1日
00113
pytorch中RNN参数

放几个官方的图片： ; 输入 RNN中的参数必须要的是input_size和hidden_size 首先看input_sizeinput_size的维度是(seq_len, bat…

人工智能 2023年5月30日
0082
linux 环境下安装python3.7

虽然Linux系统默认自带python环境但是比较老了，今天有需要刚好重新配置一下，其他版本同理！不局限于python3.7.0 终端下到python官网找到下载路径, 用wget…

人工智能 2023年6月4日
0059
【教程】Yolov5目标跟踪检测整个流程

这个专栏更新各种AI，以及各种有趣的教程，有兴趣的小伙伴可以订阅一下。正题：目标跟踪听名字顾名思义是用来检测跟踪目标物体的运动轨迹，通过其轨迹我们可以获取相应的数据。比如跟踪一…

人工智能 2023年7月23日
0087
R语言ggplot2可视化可视化聚类图、使用geom_encircle函数绘制多边形标定属于同一聚类簇的数据点、并自定义每个聚类簇数据点的颜色、多边形框的颜色（Cluster Plot）、主副标题题注

以下是使用 Python 代码使用 OPTICS 算法对输电点_云 _数据_进行 _聚类_的示例： python from sklearn. _cluster_ import…

人工智能 2023年6月3日
0085
利用tensorfolw优化器做梯度下降求方程系数和截距最优解（d代码详细步骤说明）以及matlab实现对比

import tensorflow as tf import numpy as np #生成模&#x62D…

人工智能 2023年5月24日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【论文阅读】Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

大家都在看