KBQA 常用数据集之MetaQA

目录

1. 论文相关

2. 数据集概述

2.1 内容介绍

2.2 使用的知识库

2.3 数据统计

2.4 文件内容介绍

3. 模型性能比较

  1. 论文相关

MetaQA [Zhang et al., 2018]
源自论文:Variational reasoning for question answering with knowledge graph

数据集:https://github.com/yuyuz/MetaQA(也可以直接点击下边链接下载数据集:https://drive.google.com/drive/folders/0B-36Uca2AvwhTWVFSUZqRXVtbUE?resourcekey=0-kdv6ho5KcpEXdI2aUdLn_g

各种模型在MetaQA上的性能比较:MetaQA Dataset | Papers With Code

  1. 数据集概述

MetaQAMovie Text Audio QA的缩写。

2.1 内容介绍

数据集提供问答对,不提供SPARQL查询。这个数据集包括3个主要的组件:

① Vanilla text data

它总共有三个数据集:1-hop,2-hop,3-hop。其中 1-hop源自Facebook MovieQA(也称 WikiMovies)数据集中的”wiki_entities”分支,相比MovieQA,Vanilla 1-hop 移除了问题中有歧义的实体,故该数据集也相对较小。

2-hop和3-hop也源于同一个知识库。其中2-hop有21种问题类型,3-hop有15种问题类型,每种类型都有10种文本模板。(如下图所示)

KBQA 常用数据集之MetaQA

② NTM(Neural translation model) text data

在神经翻译模型的帮助下,可以自动引入更多的问题变量。我们将Vanilla数据集中的每个问题翻译成法语,然后用beam search 将其翻译回英语,以得到一个释义问题。实体被证实保留在释义问题中。

③ Audio data

用 Google text-to-speech API 读取Vanilla数据集中所有的问题并将音频保存为mp3文件。为了用户的方便,我们还提供对每个问题提取的MFCC特征。

2.2 使用的知识库

MetaQA中的所有问题都是从MovieQA中的电影知识库Wikidata中生成的。

知识库中存储的三元组形式: subject|relation|object

例:

KBQA 常用数据集之MetaQA

2.3 数据统计

该数据集给1-hop,2-hop,3-hop分别提供了train / dev / test ,且所有组件数据划分相同。数据集划分情况如下:

MetaQA数据集划分情况 1-hop2-hop3-hopTrain96,106118,980114,196Dev9,99214,87214,274Test9,94714,87214,274

2.4 文件内容介绍

kb.txt:知识库。每行都是一个知识三元组。

qa_(test/train/dev)_qtype.txt:问题类型相关文件(将性能分解为不同的问题类型,通常用于QA系统的评估)

entity(文件夹):存储了知识库中所有实体的音频。

entity_mp3.tar.gz:初始的MP3文件(与kb_entity_dict.txt中的索引顺序一致);

kb_entity_dict.txt:有索引的实体(从0开始);

kb_entity.npz:提取到的每个实体的MFCC特征。

  1. 模型性能比较

这一部分主要是根据我看的论文进行了整理,在MetaQA数据集上的性能比较。

各模型在MetaQA数据集上的表现 模型(年份)跳数

Vanilla

Hit@1

论文代码链接

KV-Mem(KV-MemNN)(2016)

1-hop 2-hop 3-hop

95.8

25.1

10.1
Key-value memory networks for directly reading documents Key-Value Memory Networks for Directly Reading Documents | Papers With Code

VRN(2017)1-hop 2-hop 3-hop

97.5

89.9

62.5
Variational Reasoning for Question Answering with Knowledge Graph GitHub – yuyuz/Variational-Reasoning-Networks

GRAFT-Net(2018)1-hop 2-hop 3-hop

97.0

94.8

77.2
Open domain question answering using early fusion of knowledge bases and text https://github.com/haitian-sun/GraftNet

PullNet(2019)1-hop 2-hop 3-hop

97.0

99.9

91.4
Pullnet: Open domain question answering with iterative retrieval on knowledge bases and text

SRN(2020)1-hop 2-hop 3-hop

97.0

95.1

75.2
Stepwise reasoning for multi-relation question answering over knowledge graph with weak supervision

EmbedKGQA(2020)1-hop 2-hop 3-hop

97.5

98.8

94.8
Improving multi-hop question answering over knowledge graphs using knowledge base embeddings https://github.com/malllabiisc/EmbedKGQA

ReifKB(2020)

1-hop

2-hop

3-hop

96.2

81.1

72.3

Scalable neural methods for reasoning with a symbolic knowledge base

RecHyperNet(2021)

1-hop

2-hop

3-hop

99.1

99.2

95.0
Knowledge Base Question Answering through Recursive Hypergraphs

TransferNet(2021)1-hop 2-hop 3-hop

97.5

100

100
TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph https://github.com/shijx12/TransferNet

NSM(2021)1-hop 2-hop 3-hop

97.1

99.9

98.9

Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals https://github.com/​​​​RichardHGL/WSDM2021_NSM

BART-large(2021)3-hop99.9
Unseen Entity Handling in Complex Question Answering over Knowledge Base via Language Generation

以上整理的内容若有不正确的地方,欢迎大家评论补充~

Original: https://blog.csdn.net/lft_happiness/article/details/122864711
Author: Toady 元气满满
Title: KBQA 常用数据集之MetaQA

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/691251/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球