论文阅读_基于知识图谱的约束性问答

介绍

英文题目:Constraint-Based Question Answering with Knowledge Graph
中文题目:基于知识图谱的约束性问答
论文地址:https://readpaper.com/paper/2572289264
领域:自然语言处理、知识图谱、问答系统
发表时间:2016
出处:acl
被引量:142
代码和数据:https://github.com/JunweiBao/MulCQA/tree/ComplexQuestions
阅读时间:2022.03.20

其它介绍

泛读

这是一篇偏应用方法的论文。

  • 针对问题:利用当前的知识库(KB),回答用自然语言提出的问题。
  • 目标:一方面开发用于评价约束性问答的数据集;另一方面开发针对约束性问答的解决方法。
  • 结果:产出评测数据集;提出的多约束查询图算法提升了对复杂问题的解答能力。
  • 核心方法:
  • 复杂问题的分类和处理机制,抽象出六种约束类型,以及对应各类问题的解决方法。
  • 方法
    • 找到问题相关实体节点
    • 找到满足约束的所有路径
    • 将与问题语义相似度最高的作为答案
  • 难点:整个过程中约束到底如何产生作用。

精读

摘要

WebQuestions和SimpleQuestions是近年来常用的基于知识的问答系统(KBQA)数据集,它们之中大多是简单问题,即在现成的数据三元组中就能找到答案,它们缺乏对复杂问题的评价能力。为此,文中提出建构新的数据集,用于评价需要多种知识相关性才能得到答案的复杂问题。另外,文中提出KBQA方法来解决多约束问题。相对于现有方法,文中方法在现有的两个基准数据集上获得了与之前模型差不多的结果,并在复杂问题上取得了显著的改进。

1. 引言

基于知识库的问答任务(KBQA)是:利用当前的知识库(KB),回答用自然语言提出的问题。Freebase是个类似wikipedia的网站,在本文中被用做待查的知识库。WebQuestions和SimpleQuestion两个数据集常被用于评测KBQA问题。

WebQuestion是85%的问题,以及SimpleQuestion中的所有问题都是”简单”问题。所谓简单问题是使用单个关系链接就可以回答的问题(主谓宾三元组),如图一上图中所示的问题。

论文阅读_基于知识图谱的约束性问答

图一中的下图则是复杂问题,它用两个条件得出一个结果。其中的”多约束”是指包含用不同表达式表示的多个语义约束,以限制答案集。回答此类问题需要结合多种关系。

论文的两个主要贡献是:

  • 系统地提出了解决多约束问题的方法:将多约束问题(MulCQ)转换成多约束查询图MulCG。
  • 建立新的QA数据集ComplexQuestions,用于评测多约束问题。且文中模型在复杂数据集上有显著提升。

; 2. 多约束问题

2.1 约束的分类

论文阅读_基于知识图谱的约束性问答

多约束问题被定义为需要多个连接或者需要特殊转换才能找到答案的问题,将其分为六大类:

(1) 多实体约束:一个问题涉及多个实体,比如表-1中问题1的”Forest Whitaker”, “Mark Rydell”共同限制了答案。
(2) 类型约束:问题中指定了答案的类型,比如表-1中问题2限制了回答的类型为City。
(3) 显性时间约束:显示地约束了时间,如表-1中问题3限制了2012年,这种问题很常见。
(4) 隐性时间约束:隐性地约束了时间,如表-1中问题4限制时间在南北战争开始时,处理时需要先将期变换为显性时间,这类约束常出现在从句中。
(5) 顺序约束:问题答案通常需要通过排序才能得到,一般在问题中用最高级短语描述排序规则,如表-1中问题5,回答时需要先对中国河的长度进行排序。
(6) 聚合约束:这类问题通常需要通过统计求出,比如表-1中问题6问个数。

; 2.2 选择问题构建复杂问题数据集

使用以下步骤筛选基于FreeBase能找到答案,且为多约束的问题,然后进行人工标注。
首先,取2015.1.1-2015-4.1搜索引擎三个月的问题,它们满足以下两个条件:不包含代词;问题长度在7-20个单词之间,这是因为问题太短一般不包含约束条件,问题太常又难以回答。进一步采样其中的10%,使用实体链接方法来检测实体,去掉不包含实体的问题;去掉除了实体和停用词不包含其它词的问题;最后将问题分类如下:

(1) 问题至少包含两个不重叠的实体
(2) 问题包含FreeBase中的类型短语
(3) 问题包含NER可识别出的时间日期
(4) 问题中包含关键字,如”when”,”before”,”after”,”during”
(5) 问题中包含WordNet中的最高级短语或序号
(6) 问题中包含对个数的提问。

问题可以包含一个或多个约束,满足条件的有上万条问题,根据其分布筛选问题,然后根据FreeBase中的知识进行手动标注,最终获取了878个问答对。

2.3 问题说明

最终发布的复杂问题数据集,包括2100个多约束问题答案对,包括下面三种来源:
(1) 596个从WebQuestions训练集中选择,326从其测试集中选择。
(2) 300个在2015年由 Yin et al… 发布
(3) 878个基于上一节的方法标注
将其分成训练集1300和测试集800两部分。

3. 定义

3.1 知识库

用K表示知识库,以三元组triple(t)的方式组织数据,比如主语subject(s)是BarackObama,谓语predicate§是 birthday,宾语object(o)是1961。主语和宾语一般是实体或者数值,谓语常用于描述关系。

3.2 多约束查询图

首先定义四种元素:
节点
文中定义了两种类型的节点,已知的恒定节点(方)和未知的可变节点(圆)。

文中定义了两种类型的边,关系边和功能边,上例中的动词birthday是关系边,功能边用于表示大于小于等函数关系,如表-2所示:

论文阅读_基于知识图谱的约束性问答

基本查询图
基本查询图定义为(vs,p,vo),vs表示问题中给出的恒定的节点,vo是可变节点,它隐藏在答案之中,p是连接两者的路径,它可能由一条边或多条边构成。
约束
约束定义为三元组(vs,r,vo),vs是恒定节点,vo是可变节点,r是功能边,实例化后,vo与实体vs需满足关系r。
MulCG
Multi-constraint query graph多约束查询图 ,MulCG基于基本查询图B,它包含一个问题和一系列的约束C={C1,…CN},最终输出符合条件的图gN,它满足所有约束。
从基本查询图的恒定节点开始,根据约束,遍历所有的可变节点,整个过程中所有被连接的实体关系都应满足相关性关系以及常识。

论文阅读_基于知识图谱的约束性问答

图-2展示了MulCG的一个示例,文中的恒定实体是United States,可变实体是x和y,两条边为officals, holder,三个约束分别为C1=(President,Equal,y1),C2=(2000,

Original: https://blog.csdn.net/xieyan0811/article/details/123616848
Author: xieyan0811
Title: 论文阅读_基于知识图谱的约束性问答

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/555439/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球