基于模板匹配的知识图谱问答系统

2023年6月1日下午7:17 • 人工智能 • 阅读 69

KBQA–knowledge base question answering，通过对问题进行语义理解及解析，通过知识库进行查询。

输入：自然语言问句，例如”姚明的老婆是谁？”，”姚明的身高多少？”

输出：知识图谱里的实体或者关系，例如”叶莉”，”2米29″

评价标准：召回率，准确率，F1-Score

步骤：

自然语言查询–>分词(word segmentation)–>意图识别(Intention Recognition)–>实体链指(Entity Linking)+关系识别(Relation Detection) –>查询语句拼装(Query Construction)–>返回结果选择(Answering Selection)

下面简单介绍下各个步骤的内容：
分词(word segmentation) ：简单而言，汉语自动分词就是让计算机系统在汉语文本中的词与词之间自动加上空格或其他边界标记。分词器有很多，比如HanLP分词器、jieba分词器。
HanLP不仅能够分词，而且还可以通过自带或用户自定义的词典标注单词的词性（这个很关键）

意图识别(Intention Recognition)：预先准备好意图模板，可以通过相似度来匹配，也可以通过机器学习里的分类问题来解决，这个是所有问答系统都要面临的问题。
用户自然语言问题向模板的映射：
例如某dict中保存有如下的模板（nm代表电影，nnt代表人物，ng代表电影类型）：
0:nm 评分
1:nm 上映时间
2:nm 类型
3:nm 简介
4:nm 演员列表
5:nnt 介绍
6:nnt ng 电影作品
7:nnt 电影作品
8:nnt 参演评分大于 x
9:nnt 参演评分小于 x
10:nnt 电影类型
11:nnt nnr 合作电影列表
12:nnt 电影数量
13:nnt 出生日期
训练阶段：
对于”刘德华演过哪些电影呀？”这个问题，他可以转化成模板7，也就是nnt 电影作品。我们把这个转化成一个多分类问题，具体流程为：首先可以用cnn（或lstm啥的都行）对”刘德华演过哪些电影呀？”提取特征，接一个全连接层，用这14个分类做一个loss，反向传播。同样的，输入另一段训练语料，比如”刘德华的出生日期”，也可以做训练语料。这样就能训练一个模型，这个模型的作用是：输入一句话，比如”卧虎藏龙的电影类型是什么？”，然后他就会将这句话映射到模板10（也就是nnt 电影类型）上

实体链指(Entity Linking)+关系识别(Relation Detection)：将查询语句中出现的实体和关系映射到知识图谱里，本质是一个命名实体识别NER问题，只是需要将NER结果进一步链接到图谱。

查询语句拼装(Query Construction)：需要根据底层知识图谱数据库的查询语言，拼装成对应的query来查询(sparq等)，最简单的方法就是预先定义好查询模板，根据之前解析出来的(意图，实体，关系)填进模板查询即可。

返回结果选择(Answering Selection)：图谱查询之后的结果可能存在多个，需要选择一个最合适的答案，可以预先指定排序规则去选择答案。

实体识别
将用户的问题进行多分类，进而实现”用户自然语言问题→形式化问题模板”
将实体识别作为问题模板的实参，去图数据库中查询问题的答案。
实体识别阶段：
例如：”刘德华演过哪些电影呀？”
对其进行命名实体识别，就可以得到：”刘德华”，且也能将它标注为”nnt”，nnt实际上就是”人”的词性，这个实体识别过程就相当于一个分词+词性标注过程。（这个过程可以用bert来做，就不会产生用jieba分词把词分错的问题了。比如卧虎藏龙分成了卧虎藏龙两个词）
注意，电影在此处不是个实体，它应该包含在”演过哪些电影”这个问题之中（更简单的理解就是”演过的电影”是一个关系）

测试阶段：
此处共有14个问题模板
那么，比如”刘德华演过哪些电影呀？”这个问题，我们将它输入到我们刚刚训练好的模型里，就可以得到这句话对应的模板类型，也就是7了。（当然，预测结果甚至有可能是2、3这类主语是nm而不是nt的，这时我们就可以做一个限制。由于我们通过ner能得到”刘德华演过哪些电影呀？”中刘德华这个实体，同时也能知道”刘德华”所对应的实体类型为nnt，那么我们就可以只在带有nnt的模板中，选择预测概率最高的）

将实体传入模板中，用图数据库查询语句查答案：
例如”刘德华演过哪些电影呀？”，通过上面的步骤，我们可以得到模板”nnt 电影作品”，也可以得到”刘德华演过哪些电影呀？”这句话中的实体刘德华（nnt），于是可以将nnt所对应的”刘德华”填入到模板”nnt 电影作品”中，就可以得到一条查询语句”刘德华电影作品”了，用图数据库查询语句就是

MATCH (tom:Person {name: "刘德华"})-[:ACTED_IN]->(Movies) RETURN 刘德华,Movies

非常像一条sql语句。
然后就可以查到刘德华参演的所有电影了

四，基于模板方法的优缺点及改进：

基于模板的优点：

查询响应速度快；准确率高，可以回答复杂查询

基于模板的缺点：

要满足用户的各种问法，需要建立庞大的模板库，这个过程是很耗精力的

优化点：

以上步骤最大的问题在于，需要人工事先准备模板，需要很大的工作量，是否可以自动生成模板？

参考论文：Automated Template Generation for Question Answering over KnowledgeGraphs

五，其他方法：

KBQA除了基于模板的方法之外，还有基于语义解析和基于深度学习等方法，后续再开新的文章进行介绍。

Original: https://blog.csdn.net/therain123/article/details/125695201
Author: 月亮&&六便士
Title: 基于模板匹配的知识图谱问答系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558174/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人家网站都免费了，你还用Python去爬？

文章目录 * – ⛳️ 实战场景 – ⛳️ 实战编码 ⛳️ 实战场景这次实战的目标是一个叫做猫肯的字体站点，该站点所有的字体都是免费可商用的，所以为什么还…

人工智能 2023年7月10日
0063
web前端期末大作业——餐品后台管理系统(html+css+javascript)

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年7月29日
0090
【简单明了】anaconda 安装 jupyter 创建 tensorflow-gpu环境，深度学习模型训练用gpu跑，jupyter和pycharm上运行成功

相信学深度学习的童鞋们，都遇到了非常棘手的问题！就是训练模型用的cpu而不是gpu！而gpu是专门用来计算的，不拿来用，岂不是浪费？而网上的教程要装cudo 又要下 cudnn ，…

人工智能 2023年5月25日
00129
125w短波通信距离_军用短波电台音频降噪器——凯池TSD303

短波通信是一种波长在100米 ~ 10米之间，频率范围3MHz~ 30MHz的一种无线电通信技术。短波电台具有通信距离远、机动性好、顽存性强等独特的优点，但它同样存在信道不稳定、背…

人工智能 2023年5月27日
0096
分类预测 | MATLAB实现RF(随机森林)分类预测

分类预测 | MATLAB实现RF(随机森林)分类预测目录 * – 分类预测 | MATLAB实现RF(随机森林)分类预测 – + 基本介绍 + 算法描述…

人工智能 2023年7月2日
0069
【李沐】 softmax回归的代码

对于一个样本使用它的one-hot标签能获得它的正确分类的概率，方便后面使用交叉熵： cmp = y_hat.type(y.dtype) == y 对于yhat中的每一行，也就是每…

人工智能 2023年6月17日
0080
机器学习（三）：基于LightGBM的分类预测

LightGBM介绍 LightGBM是2017年由微软推出的可扩展机器学习系统，是微软旗下DMKT的一个开源项目，由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。…

人工智能 2023年6月30日
0079
VoxelNet点云检测详解

1、前言精确的点云检测在很多三维场景的应用中都是十分重要的一环，比如家用机机器人、无人驾驶汽车等场景。然而高效且准确的点云检测在pointnet网络提出之前，一直没能取得很好的进…

人工智能 2023年6月16日
0096
树莓派视觉小车 — 人脸追踪（人脸识别、PID控制舵机运动）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月17日
0087
深度学习-Non-local Neural Networks非局部神经网络

Non-local Neural Networks非局部神经网络 0.概述 1.相关工作 * 1.1.Non-local image processing.（非局部影像处理） 1….

人工智能 2023年7月21日
00107
OpenCV——单目视觉：方形标定板角点提取

目录一、主要函数 * 1、findChessboardCorners() 2、find4QuadCornerSubpix() 3、drawChessboardCorners 二、…

人工智能 2023年5月28日
00115
沉痛悼念织梦创始人林学先生，他为网站开源系统打开了大门

12 月 4 日，突闻噩耗，国内流行的内容管理系统（CMS） DEDEBIZ 网站发布讣告，DedeCMS 创始人林学先生（IT 柏拉图）因罹患癌症于 2022 年 12 月 3 …

人工智能 2023年7月29日
0059
pandas plot绘图详解：一文教会你各种绘图

pandas.DataFrame.plot绘图详解一、介绍 * 1.1 参数介绍 1.2 其他常用说明二、举例说明 * 2.1 折线图 line 2.2 条型图 bar 2.3…

人工智能 2023年7月4日
0096
目标检测中几个算法的正负样本划分策略

参考:yolov5与Faster-RCNN 训练过程正负样本和评价指标 https://blog.csdn.net/norman_sen/article/details/12197…

人工智能 2023年7月12日
0082
【数学建模】分类问题的几种常见指标（一）——准确率、召回率、F1值

分类问题的几种常见指标（一）——错误率、精度、准确率、召回率、F1值前言 1 错误率与精度 2 准确率与召回率 * 2.1 混淆矩阵 2.2 准确率（Precision） 2.3…

人工智能 2023年7月1日
00159
使用python实现灰度变换

由于最近临近期末，老师留了几个题目，并且兴趣使然，选择学习一下使用python实现图像的处理。在此，墙裂推荐一个b站的up：十四阿哥很nice首先声明，学习内容目前均来自于此up…

人工智能 2023年7月6日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于模板匹配的知识图谱问答系统

四，基于模板方法的优缺点及改进：

五，其他方法：

大家都在看