中文对话数据集

2023年6月1日上午7:42 • 人工智能 • 阅读 91

常识对话生成数据集

语言：中文

常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据，相关常识知识库包含20,000多个实体，44个关系，120,000多个知识三元组。对话数据由 Reddit 论坛收集而来，经过常识知识库的匹配后，保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。

提供方：清华大学计算机系黄民烈副教授

相关论文：Hao Zhou, Tom Yang, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018, Stockholm, Sweden.

数据集地址：https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/17

对话系统问题生成数据集

语言：中文

对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到，共计约49万组。我们筛选了所有session中的第一次对话（与上文无关），且要求Response中包含疑问词（或问号），所包含的疑问词的列表同样在数据集中给出。我们剔除了那些不包含动词或名词的回复从而避免过多的通用提问。数据集中，Post为对话的输入，Response为筛选后的提问回复。除此之外，该数据集还给出了输入与输出中词语间的点互信息(Pointwise Mutual Information, PMI)，用于衡量词语之间的话题相关性。数据集中分别给出了名词间、动词间以及二者共同的PMI。具体的使用方法详见压缩包中的说明文档。
已分词。

论文：Yansen Wang, Chenyi Liu, Minlie Huang, Liqiang Nie. Learning to Ask Questions in Open-domain Conversational Systems with Typed Decoders. ACL 2018, Melbourne, Australia.

数据集地址：https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/13

; 个性化对话生成数据集

语言：中文

个性化对话生成数据集(Personality Conversatrion Generation Dataset)共包含93,262条训练数据和1,000条测试数据，数据覆盖十类属性，分别为姓名(name)、性别(gender)、年龄(age)、居住地(location)、体重(weight)、星座(constellation)、爱好(hobby)、工作(employer)、特长(speciality)以及偶像(idol)。训练数据是从百万量级语料中通过正则表达式筛选，再通过13名志愿者进行标注得到。标注分为两个维度：
（1）属于哪类属性，例如姓名、年龄等；
（2）是否涉及对话者的属性，例如”你多大了？”涉及对话者属性，而”你妹妹多大了？”并不涉及。测试数据由6名志愿者人工编写。对于上述每类属性，分别编写50句涉及对话者属性的问题，以及50句不涉及对话者的混淆问题。

数据格式跟上一个类似，多了属性标注的文件。

相关论文：Qiao Qian, Minlie Huang, Haizhou Zhao Jingfang Xu, Xiaoyan Zhu. Assigning Personality/Profile to a Chatting Machine for Coherent Conversation Generation. IJCAI 2018, Stockholm, Sweden.

数据集地址：https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/14

开放域问答数据集

语言：中文

该任务来自NLPCC 2015评测任务，该任务提供了两个测试数据集，分别为英文和中文。每个测试集都包含一系列问题。我们提供每个问题的标准答案。这些数据可用于提取候选答案或训练QA系统。有关该任务和数据集详细描述请见NLPCC 2015 Shared Task：http://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.html

数据集地址：https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/1（也不知道咋回事，下载之后打开是空文件夹。。。-_-!，可能需要找作者要）

KvPI数据集

语言：中文
一个大规模的中文人工标注数据集KvPI。该数据集的一条基本数据元组包含了键值对角色信息，单轮对话输入-回复对，领域信息，人工抽取的对话回复角色信息以及人工标注的角色一致性标签。考虑数据收集以及公开信息等诸多因素，在角色信息中引入了性别、地点和星座三种常见的基本属性。同时，为了在有限的三种属性内获得尽可能丰富的表达方式，从新浪微博收集了原始的待标注数据。人工标注过程由一组全职的标注人员进行，标注过程持续了约4个月时间。在最终的KvPI数据集中，我们总共收集到了118540条数据。

上表是KvPI数据集的一些例子。这里的一致性关系包括三类：一致（Entailed），矛盾（Contradicted）和无关（Irrelevant）。其中，一致和矛盾都是针对说话者自身的属性而言的；如果包含属性信息但是非说话人的属性，则会被标注为无关。KvPI数据集的构建使得有效训练对话一致性识别模型成为可能。
项目链接：https://github.com/songhaoyu/KvPI

Original: https://blog.csdn.net/weixin_41753316/article/details/119175071
Author: 小白之比白更白
Title: 中文对话数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/555571/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于生成对抗网络结构的图像修复（GAN）

GAN 网络的最初发展史自2014 年10 月Goodfellow 等人提出了一个通过对抗过程生成模型的框架开始，GAN 网络就成为近年来在无监督学习复杂分布中最具前景的方法之一…

人工智能 2023年6月16日
0081
【目标检测-YOLO】YOLOv5-6.1v实践过程

下载源码： wget https://github.com/ultralytics/yolov5/archive/refs/tags/v6.1.zip unzip v6.1.zip…

人工智能 2023年7月12日
0047
Ubuntu16.04 安装 OPENCV详细教程避坑

1.首先大家需要下载一个Opencv压缩包，选择source版本。下载官网：Releases – OpenCV 本教程内采用的opencv-4.5.4这个版本 2.如果…

人工智能 2023年7月19日
0066
OpenCV-Python之画多边形

多边形绘制函数在OpenCV中，用polylines函数画多边形，函数声明如下： polylines(img, pts, isClosed, color[, thickness[…

人工智能 2023年6月19日
0074
100天精通Python（数据分析篇）——第59天：Pandas读写json文件（read_json、to_json）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0089
详解生成对抗网络（GAN）- 体验AI作画

目录 1.GAN是什么？ 2.GAN的计算 3.编写GAN的小小示例 4.GAN的发展与应用 5.AI作画体验-Disco Diffusion 1.GAN是什么？ 2014年，因为…

人工智能 2023年7月27日
0063
【python量化】搭建一个CNN-LSTM模型用于股票价格预测

写在前面下面的这篇文章主要教大家如何搭建一个基于CNN-LSTM的股票预测模型，并将其用于股票价格预测当中。原代码在文末进行获取。 1 CNN-LSTM模型这篇文章将带大家通…

人工智能 2023年7月5日
00260
在MMClassification中使用Swin-Transformer开始一个分类任务

最近, Swin Transformer 当选 ICCV2021的 Best paper。作为基础模型，其在分类、检测与分割等下游任务上都取得了SOTA的结果。MMClassifi…

人工智能 2023年7月2日
0071
PCA（主成分分析法）原理以及应用+代码实现

目录前言一、为什么需要PCA？（为什么要降维）二、PCA简介三、PCA算法推导 1.投影 2.基 3.基变换的矩阵表示编辑 4.方差 5.协方差 6.协方差矩阵 7.特…

人工智能 2023年6月13日
0094
Linux–进程控制

前言：这篇文章主要是讲解Linux下的进程控制，我们会学习到进程等待，进程程序替换, 微型shell，重新认识shell运行原理。最后也编写了一个属于我们自己的shell，尽管…

人工智能 2023年7月31日
0066
HTML中华传统文化题材网页《中国民间年画》HTML+CSS+JavaScript

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月29日
00106
模型训练随机种子及其原理

实习中所跑实验一般都有随机种子但是不知道原理是什么。下边用来记录。来源：https://wenku.baidu.com/view/eed3b921ecf9aef8941ea7…

人工智能 2023年6月4日
0088
深度学习与计算机视觉教程(14) | 图像分割 (FCN,SegNet,U-Net,PSPNet,DeepLab,RefineNet)（CV通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/37 本文地址：https://www.showmeai.tech…

人工智能 2023年5月26日
00105
GAEAT: 面向知识图谱补全的图自动编码注意网络

核心问题：现有方法专注于独立处理三元组中的实体和关系，无法捕获三元组周围局部邻域内固有的隐藏的复杂信息，文章提出了一种既能封装实体特征又能封装关系特征的知识图谱补全方法.具体…

人工智能 2023年6月1日
0079
NLP-文本挖掘-综述

NLP-文本挖掘-综述一、什么是文本挖掘二、文本挖掘五个步骤三、7种文本挖掘的方法一、什么是文本挖掘文本挖掘的意义就是从数据中寻找有价值的信息，来发现或者解决一些实际问题…

人工智能 2023年6月19日
0097
你期待的Photoshop 2022中哪个功能吸引了你？

万众瞩目的2022年已经到来，那些大软件的最新大版本也陆续走到我们的面前，看到很多人都在追捧的期待Photoshop 2022，你知道ta具体有哪些变化么？来看看吧。创意世界在 …

人工智能 2023年6月22日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

中文对话数据集

常识对话生成数据集

对话系统问题生成数据集

; 个性化对话生成数据集

开放域问答数据集

KvPI数据集

大家都在看