【Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 论文阅读】

引言
不考虑前端文本处理的情况下,语音合成 (text-to-Speech, TTS) 的主要建模过程被简化为两个主要阶段。第一阶段:将前端文本处理得到的规范文本序列转换为中间特征表示,如mel-spectrograms声学特征或语言学特征表示。第二阶段:将中间特征表示重构为语音波形。

自回归语音合成模型可以合成高质量的语音,但自回归序列生成方法限制了模型的并行处理能力。因此,非自回归模型应运而生。

[En]

The autoregressive speech synthesis model can synthesize high quality speech, but the autoregressive sequence generation method limits the parallel processing ability of the model. Therefore, non-autoregressive model arises at the historic moment.

针对第一阶段,非自回归语音合成模型需要先使用预训练的自回归 (教师) 语音合成模型提出”文本-声学参数”的注意力对齐关系,来指导非自回归模型训练时的时长对齐学习。最近,一些基于似然 (likelihood) 的方法通过最大化目标声学参数的似然概率来学习时长对齐,从而消除了对之前预训练自回归模型的依赖。

针对第二阶段,一些方法采用基于多判别器的生成对抗网络进行语音波形的重建。其中,不同的判别器用来对不同尺度 (scale) 或不同周期 (period)的声学参数进行建模。

尽管并行化的TTS系统蓬勃发展,但两阶段模型 仍然存在一些问题1.由于第二阶段需要依赖于第一阶段的输出进行训练,因此序列化或微调的训练方式仍然必不可少;2. 可学习的特征表示有助于提升TTS的表现,但是两阶段模型中第一阶段和第二阶段的衔接依赖于预先定义好的中间特征表示,模型表现仍然有进一步提升的空间。

一些工作对基于可学习特征表示的TTS方法进行了研究,例如:FastSpeech2、EATS等模型中:使用音频片段取代之前的完整语音波形作为学习波形重建的学习目标、提出mel-spectrogram decoder来辅助文本特征表示的学习、设计新的spectrogram loss来解决生成语音和原始语音的长度不匹配问题。 但是它们的语音合成整体质量与两阶段模型相比仍有一些差距

本文提出了一个合成质量优于两阶段模型的完全并行化TTS方法。1. 为了实现直接有效的端到端训练,我们基于变分自编码器,使用隐变量作为中间特征表示将两阶段模型融合为单阶段模型;2.为了提升合成语音波形的表现力,提出基于标准化流模型的条件先验分布和对抗学习策略进行语音波形的重建;3. 为了更好的解决语音合成中的一对多问题 (即:TTS模型可以为给定文本合成具有多种多样基频和时长信息的合成语音) ,提出随机时长预测器为给定文本预测多样化的韵律信息。凭借隐变量和随机时长预测的不确定性优势,我们的模型可以更好的学习到文本表示体现不出来的语音韵律变化。

Original: https://blog.csdn.net/hcqwertyuiop123/article/details/122358862
Author: hcqwertyuiop123
Title: 【Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 论文阅读】

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498120/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球