【对话生成】常见对话生成数据集整理，含下载链接(更新至2022.06.04)

2023年5月28日上午2:17 • 人工智能 • 阅读 139

本文主要整理对话生成领域相关的数据集，尤其是开放域对话生成。当前可以把开放域对话生成任务划分为：传统开放域对话生成、多模态对话生成、情感对话生成、个性化对话生成、策略控制对话生成等。笔者的划分是根据自己对该任务研究进展梳理而得到的理解，并不一定合理。

IEMOCAP

SEMAINE

发布时间：2012年
论文链接：https://ieeexplore.ieee.org/document/5959155
数据集链接：https://semaine-db.eu/
数据集语言：英文
数据集模态：视频、音频、文本
数据集描述：SEMAINE主要用于对话情感识别，由四个固定形象的机器人与人进行对话，标注了4个情感维度：Valence (愉悦度), Arousal (激活度), Expectancy (预期), Power (力量)。Valence表示情感积极的程度，Arousal表示兴奋的程度，Expectancy表示与预期相符的程度，Power表示情感影响力。其中Valence、Arousa和Expectancy为[-1, 1]范围内的连续值，Power为大于等于0的连续值。

Mastodon

MELD

EMOTyDA

MEmoR

M 3 ^3 3 ED

发布时间：2022年
论文链接：https://aclanthology.org/2022.acl-long.391/
数据集链接：https://github.com/aim3-ruc/rucm3ed
数据集语言：中文
数据集模态：视频、音频、文本
数据集描述：与MELD数据集类似，但其数据来源于56部电视剧，人物更加丰富。文章构建了一个大规模高质量的多模态、多场景、多标签情感对话数据集，从56部中文电视剧，大约500集中选取900多个对话片段，并对对话中的每句话进行多情感标签的标注，共标注24,449句话。文章采用主流的6类基本情感标注（高兴、惊讶、伤心、生气、厌恶，害怕）以及正常无明显情感，共7类离散情感。从数据来源选取，对话片段选取，情感标注，标注后处理等方面进行严格把控，以保证数据的质量，最终得到标注者间一致性0.59，高于MELD 的0.43、IEMOCAP的0.48 以及MSP-IMPROV 中的0.49。

CPED

发布时间：2022年
论文链接：https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接：https://github.com/scutcyr/CPED
数据集语言：中文
数据集模态：视频、音频、文本
数据集描述：该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解，而不是客观的真实条件，这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感，CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景，包含超过12K段对话，将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped。

OpenSubtitles

Cornell Movie-Dialogs

STC

Ubuntu Dialogue Corpus

Douban Conversation Corpus

LCCC

OpenViDial

PchatbotW

WDC-Dialogue

EVA2.0

待更新

发布时间：
论文链接：
数据集链接：
数据集语言：
数据集模态：
数据集描述：

DailyDialog

ESTC

EMPATHETICDIALOGUES

ESConv

CPED

待更新

发布时间：
论文链接：
数据集链接：
数据集语言：
数据集模态：
数据集描述：

PERSONA-CHAT

PersonalDialog

CPED

待更新

发布时间：
论文链接：
数据集链接：
数据集语言：
数据集模态：
数据集描述：

PsyQA

待更新

发布时间：
论文链接：
数据集链接：
数据集语言：
数据集模态：
数据集描述：

CPED

Original: https://blog.csdn.net/m0_37201243/article/details/120051649
Author: YirongChen
Title: 【对话生成】常见对话生成数据集整理，含下载链接(更新至2022.06.04)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528768/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

二维 TCN pytorch实现完整代码和语法记录

pytorch实现T-GCN 参考代码完整二维TCN实现代码相关语法 * Tensor.contiguous() torch.transpose() 和 torch.perm…

人工智能 2023年7月22日
00225
2021APMCM赛后总结——边缘检测

APMCM被称为小美赛，和美赛一样使用英文提交论文，比赛时间又在国赛后美赛前，因此很适合作为MCM的热身赛。第一次参加这种正规比赛，而且是英文写作，作为对美赛的预热，花四天时间提前…

人工智能 2023年6月20日
0088
python的eval函数

目录 1.eval函数的语法及用法（1）语法：eval(expression) （2）作用：接收运行一个字符串表达式，返回表达式的结果值。 2.实例（1）简单的计算用法（2）…

人工智能 2023年7月4日
0080
2022 年最新的实体识别抽取模型框架W2NER

目录一、前言二、抽取模型样例 1.样例简介 2.具体如何建模THW和NHW的向量表示？三、模型结构一：Encoder Layer 二：Convolution Layer卷…

人工智能 2023年7月12日
00114
pandas基础

import pandas as pd #定义字典 mydataset={ ‘sites’:["Goodle","Runoob",&quot…

人工智能 2023年7月6日
0071
stata图像绘制专题【计量经济系列（二）】

stata绘图专题【计量经济系列（二）】文章目录 1. 命令结构 2. 散点图 scatter 3. 折线图 line 4. 面积图 area 5. 直方图 histogram …

人工智能 2023年7月15日
00158
在AI算法中，什么是反向传播算法

什么是反向传播算法？在深度学习中，反向传播算法（Backpropagation）是一种用于训练神经网络的优化算法。它通过计算损失函数对网络参数的梯度，并将其反向传播到网络的每层，…

人工智能 2024年1月3日
0055
人工智能——文本分类（大作业必备）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主大作业系列…

人工智能 2023年7月1日
0068
高德地图哪个语音包最好_高德地图景点语音导览分析&优化

本文主要分析景点语音导览的目标人群是谁，解决了用户的什么问题。如果我是产品，下一次迭代我会怎么做？痛点：目标用户：综上所述，目标用户是希望以极低的价格、较少的精力获取旅游景点…

人工智能 2023年5月27日
0077
爆火的OpenAI及ChatGPT注册详细说明

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0097
【论文阅读】——secureTF: A Secure TensorFlow Framework

secureTF: A Secure TensorFlow Framework 作者：Do Le Quoc, Franz Gregor, Sergei Arnautov，Rolan…

人工智能 2023年5月24日
0067
关于cv2.dnn.readNetFromONNX(path)就报ERROR during processing node with 3 inputs and 1 outputs的解决过程【独家发布】

问题是什么：如图，对vgg16使用opencv的dnn模块进行推理时出现错误。 错误的详&…

人工智能 2023年6月25日
00159
相位测试音频mp3_Audiodope音频编辑软件

1.强大的编辑功能设置2.设备齐全的过滤器、噪声去除工具与声音效3.可以记录从任何连接的源的音频4.内置的 VST 插件5.工具集包括频率分析仪6.语气和噪声发生器和文本到语音功…

人工智能 2023年5月27日
0092
[ 注意力机制 ] 经典网络模型3——ECANet 详解与复现

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年7月30日
0091
监督学习、无监督学习、半监督学习、自监督学习的区别与联系

监督学习：所有数据都有标签或真值，直接对网络输出结果和标签计算loss函数，进行训练。缺点：标签很难获取，且提取的特征依赖于标签（即特定任务），而不是数据本身的特征无监督学习：所…

人工智能 2023年6月17日
00176
fanuc机器人自动程序前怎么回原点_*小星推荐*—FANUC系统的原点和原点回归的几种方法！…

相信很多从事FANUC系统操作的朋友，都遇到过找原点的困扰，现将我的一点心得写出供大家参考，领悟后对FANUC系列找原点再不会感到烦恼。既然是找原点，那先说说什么是原点吧，原点分…

人工智能 2023年6月18日
00223

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【对话生成】常见对话生成数据集整理，含下载链接(更新至2022.06.04)

IEMOCAP

SEMAINE

Mastodon

MELD

EMOTyDA

MEmoR

M 3 ^3 3 ED

CPED

OpenSubtitles

Cornell Movie-Dialogs

STC

Ubuntu Dialogue Corpus

Douban Conversation Corpus

LCCC

OpenViDial

PchatbotW

WDC-Dialogue

EVA2.0

待更新

DailyDialog

ESTC

EMPATHETICDIALOGUES

ESConv

CPED

待更新

PERSONA-CHAT

PersonalDialog

CPED

待更新

PsyQA

待更新

CPED

大家都在看