KBQA-Bert学习记录-数据集构造

2023年5月30日下午9:17 • 人工智能 • 阅读 80

一、数据集构造

1.数据集切分

使用的数据集是来自NLPCC ICCPOL 2016 KBQA 任务集，其包含：

训练样本14 609 个，测试样本9 870个，格式如下：

将测试数据分成两半，一般作为验证数据，一半作为测试数据：

2.NER数据集构造

对train, val, test文件遍历，并从中将训练文本转为如下形式：

每个字对应一个实体标签，存放到列表中，句子与句子之间可以以空格分隔，存为txt格式文件。

之后将question, triple, answer这三类字符串，以CSV文件存储起来。

3.属性相似度数据集构造

一开始存了csv文件，里面就是问题、三元组、答案，因此，直接从三元组里面，截取出来中间的字符串，这个字符串就是属性。比如上面那个图，抽取出来的就是：作者、出版社、出版时间等。

抽取出来后，转换为列表并去重，并把尾部和中间的空格去掉，另外，有些属性是以”-“开头的，也需要把”-“去掉，并再次去重，得到属性列表。

接下来把问题和属性都取出来，对其进行文本预处理之后，在从其他的属性中，随机抽样5个作为负样本。

把正样本和负样本合并起来，这样就得到了一个样本的正负训练数据，形式如下：

之后可以把每一条结果，标注上序号存起来，得到最终属性训练数据。如下：

针对相似度属性的所有文件，我们查看一下句子的最长长度，以选择一个合适的Max Length

4.三元组构造

从原数据中处理即可，最终得到如下形式的训练数据，并以dataframe存储：

5.三元组导入到mysql

需要首先在mysql中，创建好一个数据库，这里直接设置好三个属性即可：entity, attribute, answer

之后通过sqlalchemy.create_engine，建立和数据库的连接。

通过pandas读取数据之后，可以直接通过pd.io.sql.to_sql，把读取好的数据，直接通过engine传入到数据库中。

读取一行看看：

Original: https://blog.csdn.net/Swayzzu/article/details/121932297
Author: Swayzzu
Title: KBQA-Bert学习记录-数据集构造

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545173/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

回归预测基于ELMAN递归神经网络预测及其matlab代码实现

文章目录 1. ELMAN神经网络的简介和算法描述 * 1.1 Elman网络介绍 1.2 Elman结构组成 1.3 ELMAN训练界面的参数解读 2. 建立ELMAN神经网络的…

人工智能 2023年6月16日
00126
ChatGPT教你面试阿里P6测试开发岗

最近ChatGPT爆火，ChatGPT能干什么呢？想必已经看过很多文章了，例如ChatGPT通过美国高考、ChatGPT开发游戏、调试代码、写文章等等。哈哈，作为一个软件测试博主…

人工智能 2023年7月31日
0082
python回归代码_线性回归代码-python

import numpy as np import matplotlib.pyplot as plt from scipy.optimize import leastsq # 方法…

人工智能 2023年6月18日
0065
深度学习 yolov5等结构图

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0075
人生重开模拟器（Python实现）

文章目录人生重开模拟器介绍代码实现 * 打印初始界面设置初始属性设置角色性别设置角色出生点针对每一岁，生成人生经历人生重开模拟器介绍人生重开模拟器是由VickSca…

人工智能 2023年7月29日
0065
注意力、自注意力和多头注意力

把注意力函数的输出结果输入到softmax中进行运算，将得到与键对应的值的概率分布(即注意力权重)。最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。f ( q , ( …

人工智能 2023年7月22日
0048
超级炫酷的3D旋转动态图——Python代码实现

💥💥💥💞💞💞 欢迎来到本博客❤️❤️❤️💥💥💥 📋📋📋 本文目录如下：⛳️⛳️⛳️目录0 💞写在前面1 💥Python爬取美女照片1.1 🎉留恋忘返的网址1.2 📚Python代…

人工智能 2023年7月3日
0084
数据分析 Numpy快速入门

导入库 import numpy as np 1-数组的创建 1-1 列表创建数组 a1 = np.array([1,2,3]) a1 array([1, 2, 3]) 1-2 元…

人工智能 2023年7月16日
0079
tensorflow神经网络多维曲线拟合

计算智能作业二题目：自选非线性分类或曲线拟合问题，用BP网络训练、学习。自选题目：下面列表中的数据是某地区20年公路运量数据，其中属性”人口数量”、&#8…

人工智能 2023年7月13日
0066
conda安装pytorch

1、卸载虚拟环境 conda uninstall -n novelgnn –all 2、conda安装虚拟环境 conda create -n Novelgnn python=3…

人工智能 2023年7月21日
0053
RepVGG：算法简介及repvgg.py代码解析

论文链接：RepVGG: Making VGG-style ConvNets Great Again 代码链接：https://github.com/DingXiaoH/RepVG…

人工智能 2023年6月23日
00133
浅谈sklearn之决策树(分类树)

sklearn之决策树（分类树）分类树sklearn.tree.DecisionTreeClassifier() sklearn.tree.DecisionTreeClassif…

人工智能 2023年7月3日
0065
《动手学深度学习》第三章——（4）softmax回归的简洁实现_学习思考与习题答案

文章目录 * – 重新审视Softmax的实现 – 优化算法 – 训练 – 练习作者github 源码地址 # softmax回归…

人工智能 2023年6月17日
0067
Tensorflow—使用Tensorflow进行机场与湖泊的二分类

人工智能 2023年5月26日
0079
力扣（203.1）补9.2

203.移除链表元素第二次做这题，会做，上次做还用的C语言呢。。。 class Solution {public ListNode removeElements(ListNode…

人工智能 2023年6月26日
0082
Python中的运算符

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

KBQA-Bert学习记录-数据集构造

1.数据集切分

2.NER数据集构造

3.属性相似度数据集构造

4.三元组构造

大家都在看