【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)

本文主要整理对话生成领域相关的数据集,尤其是开放域对话生成。当前可以把开放域对话生成任务划分为:传统开放域对话生成、多模态对话生成、情感对话生成、个性化对话生成、策略控制对话生成等。笔者的划分是根据自己对该任务研究进展梳理而得到的理解,并不一定合理。

IEMOCAP

SEMAINE

发布时间:2012年
论文链接:https://ieeexplore.ieee.org/document/5959155
数据集链接:https://semaine-db.eu/
数据集语言:英文
数据集模态:视频、音频、文本
数据集描述:SEMAINE主要用于对话情感识别,由四个固定形象的机器人与人进行对话,标注了4个情感维度:Valence (愉悦度), Arousal (激活度), Expectancy (预期), Power (力量)。Valence表示情感积极的程度,Arousal表示兴奋的程度,Expectancy表示与预期相符的程度,Power表示情感影响力。其中Valence、Arousa和Expectancy为[-1, 1]范围内的连续值,Power为大于等于0的连续值。

Mastodon

MELD

EMOTyDA

MEmoR

M 3 ^3 3 ED

发布时间:2022年
论文链接:https://aclanthology.org/2022.acl-long.391/
数据集链接:https://github.com/aim3-ruc/rucm3ed
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:与MELD数据集类似,但其数据来源于56部电视剧,人物更加丰富。文章构建了一个大规模高质量的多模态、多场景、多标签情感对话数据集,从56部中文电视剧,大约500集中选取900多个对话片段,并对对话中的每句话进行多情感标签的标注,共标注24,449句话。文章采用主流的6类基本情感标注(高兴、惊讶、伤心、生气、厌恶,害怕)以及正常无明显情感,共7类离散情感。从数据来源选取,对话片段选取,情感标注,标注后处理等方面进行严格把控,以保证数据的质量,最终得到标注者间一致性0.59,高于MELD 的0.43、IEMOCAP的0.48 以及MSP-IMPROV 中的0.49。

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

OpenSubtitles

Cornell Movie-Dialogs

STC

Ubuntu Dialogue Corpus

Douban Conversation Corpus

LCCC

OpenViDial

PchatbotW

WDC-Dialogue

EVA2.0

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

DailyDialog

ESTC

EMPATHETICDIALOGUES

ESConv

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

PERSONA-CHAT

PersonalDialog

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

PsyQA

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

Original: https://blog.csdn.net/m0_37201243/article/details/120051649
Author: YirongChen
Title: 【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/528768/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球