中文对话数据集

常识对话生成数据集

语言:中文

常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。

提供方:清华大学计算机系黄民烈副教授

相关论文:Hao Zhou, Tom Yang, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018, Stockholm, Sweden.

数据集地址:https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/17

对话系统问题生成数据集

语言:中文

对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到,共计约49万组。我们筛选了所有session中的第一次对话(与上文无关),且要求Response中包含疑问词(或问号),所包含的疑问词的列表同样在数据集中给出。我们剔除了那些不包含动词或名词的回复从而避免过多的通用提问。数据集中,Post为对话的输入,Response为筛选后的提问回复。 除此之外,该数据集还给出了输入与输出中词语间的点互信息(Pointwise Mutual Information, PMI),用于衡量词语之间的话题相关性。数据集中分别给出了名词间、动词间以及二者共同的PMI。具体的使用方法详见压缩包中的说明文档。
已分词。

中文对话数据集

论文:Yansen Wang, Chenyi Liu, Minlie Huang, Liqiang Nie. Learning to Ask Questions in Open-domain Conversational Systems with Typed Decoders. ACL 2018, Melbourne, Australia.

数据集地址:https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/13

; 个性化对话生成数据集

语言:中文

个性化对话生成数据集(Personality Conversatrion Generation Dataset)共包含93,262条训练数据和1,000条测试数据,数据覆盖十类属性,分别为姓名(name)、性别(gender)、年龄(age)、居住地(location)、体重(weight)、星座(constellation)、爱好(hobby)、工作(employer)、特长(speciality)以及偶像(idol)。 训练数据是从百万量级语料中通过正则表达式筛选,再通过13名志愿者进行标注得到。标注分为两个维度:
(1)属于哪类属性,例如姓名、年龄等;
(2)是否涉及对话者的属性,例如”你多大了?”涉及对话者属性,而”你妹妹多大了?”并不涉及。 测试数据由6名志愿者人工编写。对于上述每类属性,分别编写50句涉及对话者属性的问题,以及50句不涉及对话者的混淆问题。

数据格式跟上一个类似,多了属性标注的文件。

相关论文:Qiao Qian, Minlie Huang, Haizhou Zhao Jingfang Xu, Xiaoyan Zhu. Assigning Personality/Profile to a Chatting Machine for Coherent Conversation Generation. IJCAI 2018, Stockholm, Sweden.

数据集地址:https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/14

开放域问答数据集

语言:中文

该任务来自NLPCC 2015评测任务,该任务提供了两个测试数据集,分别为英文和中文。每个测试集都包含一系列问题。我们提供每个问题的标准答案。这些数据可用于提取候选答案或训练QA系统。有关该任务和数据集详细描述请见NLPCC 2015 Shared Task:http://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.html

数据集地址:https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/1(也不知道咋回事,下载之后打开是空文件夹。。。-_-!,可能需要找作者要)

KvPI数据集

语言:中文
一个大规模的中文人工标注数据集KvPI。该数据集的一条基本数据元组包含了键值对角色信息,单轮对话输入-回复对,领域信息,人工抽取的对话回复角色信息以及人工标注的角色一致性标签。考虑数据收集以及公开信息等诸多因素,在角色信息中引入了性别、地点和星座三种常见的基本属性。同时,为了在有限的三种属性内获得尽可能丰富的表达方式,从新浪微博收集了原始的待标注数据。人工标注过程由一组全职的标注人员进行,标注过程持续了约4个月时间。在最终的KvPI数据集中,我们总共收集到了118540条数据。

中文对话数据集
上表是KvPI数据集的一些例子。这里的一致性关系包括三类:一致(Entailed),矛盾(Contradicted)和无关(Irrelevant)。其中,一致和矛盾都是针对说话者自身的属性而言的;如果包含属性信息但是非说话人的属性,则会被标注为无关。KvPI数据集的构建使得有效训练对话一致性识别模型成为可能。
项目链接:https://github.com/songhaoyu/KvPI

Original: https://blog.csdn.net/weixin_41753316/article/details/119175071
Author: 小白之比白更白
Title: 中文对话数据集

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/555571/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球