【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成

2023年5月25日上午8:36 • 人工智能 • 阅读 77

Nonparallel Emotional Speech Conversion Using VAE-GAN

from INTERSPEECH 2020 – Ping An Technology

关键词：语音生成、语音情感、网络生成、自编码

[En]

Keywords: speech generation, voice emotion, generation against network, self-encoder

摘要

概括： 采用GAN模型生成情感语音
主要内容： 本文采用的是VAE-GAN框架，采用encoder提取内容相关表示，采用监督的方式提取情感相关信息，利用CycleGAN来进行语音情感域间的转换。最后将内容表示和情感表示结合生成目标情感语音。

简介

介绍了什么是VC（Voice Conversion）和ESC（Emotional Speech Conversion）
有很多ESC的方法，包括两种：基于规则的方法和基于 神经网络的方法，但是需要精准对齐的平行语料库
为什么语音生成需要平行语料库，为什么要对齐？ 这里有对平行语库的解释知乎-语音转换综述，意思是必须样例和结果说话的内容相同才可以
VAE（Variational AutoEncoder）将模型的表征分离，过程分为编码和解码过程
对抗学习能够使得转换出的语音更加自然，CycleGAN不再使用平行语料

本文的创新点

将VAE-GAN结构和CycleGAN结合
提出了一个更加可靠提取情感相关特征的监督学习策略

方法

【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成

采用WORLD提取F0、Spectral Features和Aperiodicity特征，这三个特征采用不同模型进行转换，F0采用logarithm Gaussian Normalized Transformation：
f t r g = e x p ( ( l o g f s r c − μ s r c ) ∗ δ t r g δ s r c + μ t r g ) f_{trg}=exp((log{f_{src}-\mu_{src}})*\frac{\delta_{trg}}{\delta_{src}}+\mu_{trg})f t r g =e x p ((l o g f s r c −μs r c )∗δs r c δt r g +μt r g )
其中aperiodity并没有改变，因为其对语音情感转换影响不大。
对于频谱特征采用VAE-GAN进行转换，其核心思想是通过非监督方式提取内容特征，通过监督方法提取情感特征。本文在训练和转换的过程中使用了情感标签，如图中所示。转换模型有三部分：编码器、解码器和判别器。编码器将声谱特征转换为内容相关的表征，频谱特征片段的情感标签作为情感相关表征，这两种表征随后进入一个解码器，输出结果再输入到判别器分辨是否为假。解码器和判别器部分可以看作一种CycleGAN2的变形。
LOSS设计部分：

这个部分对于不了解CycleGAN的读者来说并不是很清楚，看不出训练的过程。

; 实验

数据库： INEMOCAP，4种情感：Happy、Angry、Sad、Neutral
训练集： 随机从每个语者的每种情感中随机抽取30个样本
cycle loss和identity loss的权重分别设为10和5，这里的权重是如何进行选择的？
网络结构： 其中IN（instance normalization）层，用来做归一化去除说话人的情感信息，只关注于内容相关特征的提取。
优化器： Adam
Batch-Size： 1
评估的三个方面是： 生成音质、 说话人相似度和 情感转换能力

生成音质和说话人相似度： MOS方法，是一种主观人工评分的方法，每个情感转换为其他情感共4*3=12组实验，30个评判者，180条测试语音。结果显示在95%的置信区间之内，语音质量和说话人相似度都有较好效果，语音质量的提升可能归因于两步的adversarial loss，说话人相似度可能提升较少。
情感转换能力： 采用的依然是人工评分的方法，12种情感转换，每种随机抽取10句话作为测试集，结果表明监督学习的方式能够更多提取情感相关表征。

问题

文中仅仅提到利用了类似CycleGAN的原理和loss，但未在图中描述训练过程。
文中所说的情感相关特征提取是监督学习，意思是采用了情感标签结合模型进行训练，这算监督吗？其实是必须要输入的情感标签作为情感转换信息。
人工评分是否不可靠，可以进行修改？一般来说人工评分后会进行显著性测试，以保证结果的分布可靠？
情感转换那里用的数据那么少，还是人工标注，结果真的可靠吗？

Original: https://blog.csdn.net/cherreggy/article/details/121335611
Author: 你的宣妹
Title: 【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513136/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据科学/机器学习项目流程 — 特征工程

目录 1 特征工程定义 2 特征工程流程步骤 2.1 数据获取 2.2 特征理解 2.3 特征改进数据清洗数据编码 2.4 特征选择基于统计的特征选择基于模型的特征选择 2…

人工智能 2023年7月18日
00126
Yolov5的安装配置及实现目标检测

本文内容：本文主要介绍anaconda下yolov5的安装配置方法，以及如何实现目标检测。目录一、yolov5的下载安装（一）环境配置（二）下载yolov5 二、yolov…

人工智能 2023年7月12日
0081
mmdetection-yolox

训练流程注册机制：registry可以看成是一个类映射到一个字符串的映射。 from mmcv.cnn import MODELS as MMCV_MODELS from m…

人工智能 2023年7月9日
0058
【PaddleNLP 基于深度学习的自然语言处理】第三次作业–必修｜快递单信息识别

基本情况 1.数据 train_ds, test_ds = paddlenlp.datasets.load_dataset(“msra_ner”, spli…

人工智能 2023年5月31日
00112
高维数据PCA降维可视化(KNN分类)

在做机器学习的时候，经常会遇到三个特征以上的数据，这类数据通常被称为高维数据。数据做好类别分类后，通过二维图或者三维图进行可视化，对于高维数据可以通过 PCA(Princ…

人工智能 2023年6月15日
0075
安装pygame

在学习了一个学期的python之后，我决定对pygame下手了~ 首先要安装pygame。对于一个计算机小白，安装的过程就比较的痛苦…… 但是怎么说，查阅…

人工智能 2023年7月6日
0084
万物皆可GAN之初试pytorch神经网络

文章目录前言 2.1MNIST图像数据集 2.2获取MNIST数据集 2.3数据预览 2.4简单的神经网络 2.5可视化训练 2.6MNIST数据集类 2.7训练分类器 2.8查…

人工智能 2023年7月13日
0081
使用 scikit-image 进行图像处理

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达划痕试验时间序列分析。图像…

人工智能 2023年7月20日
0059
365天深度学习训练营 P1

目录一.前期准备 1.准备GPU 2.导入数据 3. 数据可视化二、构建CNN 三、正式训练四、结果可视化五、总结 🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍦…

人工智能 2023年6月16日
0098
NLP 前置知识3 —— 预训练模型

一. Pre-training & Fine – tuning 机制 1.定义 Pre-training: 在大规模数据集上学习尽可能好的通用表示 Fine-t…

人工智能 2023年5月28日
0069
Recognition算法中，如何处理大规模数据集

介绍本文将详细讨论Recognition算法中如何处理大规模数据集这个问题。Recognition算法是一种用于对数据进行分类或识别的方法，常用于图像处理、语音识别等领域。大规模…

人工智能 2024年1月3日
0045
Pytorch Transformer Tokenizer常见输入输出实战详解

Tokenizer简介和工作流程 Transformers，以及基于BERT家族的预训练模型+微调模式已经成为NLP领域的标配。而作为文本数据预处理的主要方法-Tokenizer（…

人工智能 2023年7月21日
0080
[机器学习与scikit-learn-25]：算法-聚类-KMeans的适用范围与评估指标

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月16日
0073
问题描述我们要解决的问题是如何预测房屋价格。房屋价格的预测在房地产市场中具有重要意义，能够帮助房地产开发商、投资者和买卖双方做出更明智的决策。算法原理我们将使用线性回归算法来…

人工智能 2023年12月31日
0037
Prompt-Tuning——深度解读一种新的微调范式

Prompt-Tuning——深度解读一种全新的微调范式作者：王嘉宁邮箱：lygwjn@126.com转载请注明出处：https://wjn1996.blog.csdn.net…

人工智能 2023年6月16日
00117
命名实体识别（基于规则-无监督学习-机器学习-深度学习）

文章目录 1 简介 2 NER标注语料库 3 NER工具库 4 序列标注标签方案 5 四类NER方法（规则-无监督学习-机器学习-深度学习） * 5.1 基于规则的NER 5.2 …

人工智能 2023年6月16日
00143

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【论文笔记】Nonparallel Emotional Speech Conversion Using VAE-GAN 基于VAE-GAN的非平行情感语音生成

from INTERSPEECH 2020 – Ping An Technology

摘要

简介

本文的创新点

相关工作

方法

; 实验

问题

大家都在看