FastSppech2论文阅读

论文链接:FastSpeech 2: Fast and High-Quality End-to-End Text to Speech

文章目录

摘要

非自回归文本到语音 (TTS) 模型,例如 FastSpeech,可以比以前的质量相当的自回归模型更快地合成语音。FastSpeech模型的训练依赖于一个自回归的教师模型进行时长预测(提供更多的信息作为输入)和知识提炼(简化输出中的数据分布),这可以缓解TTS中一对多映射的问题(即多个语音变量对应于同一文本)。但是FastSpeech有几个问题:

  • 老师-学生模型的蒸馏流程复杂、耗时
  • 教师模型提取的时长不够准确,教师模型提取的目标语音谱图由于数据简化而存在信息丢失,限制了语音质量

本论文提出的FastSpeech 2模型通过以下特点解决了FastSpeech中的问题,更好地解决了TTS中的一对多映射问题

  • 直接用Ground Truth目标训练模型,而不是老师模型简化的输出
  • 引入更多的语音变化信息(如音高、能量和更准确的持续时间)作为条件输入

具体地说,从语音波形中提取出持续时间、基音和能量,直接将它们作为训练的条件输入,并使用预测值进行推理。论文进一步设计了FastSpeech 2,其首次尝试直接从文本并行生成语音波形,拥有完全端到端推理的优势。实验结果表明

  • FastSpeech 2的训练速度比FastSpeech提高3倍,而FastSpeech 2的推理速度更快
  • FastSpeech 2和2s在语音质量上优于FastSpeech, FastSpeech 2甚至可以超越自回归模型

简介

以前的神经TTS模型首先从文本自回归生成mel谱图,然后使用单独训练的声码器从生成的mel谱图合成语音。它们通常存在推理速度慢和健壮性(单词跳过和重复)的问题。近年来,非自回归 TTS 模型旨在解决这些问题,以极快的速度生成mel谱图并避免鲁棒性问题,同时实现与以前的自回归模型相当的语音质量。

在这些非自回归的TTS方法中,FastSpeech是最成功的模型之一。FastSpeech设计了两种方法来缓解一对多映射的问题: 1)通过使用从自回归教师模型生成的mel谱图作为训练目标(即知识蒸馏)来减少目标端的数据方差;2)引入持续时间信息(从教师模型的注意力图中提取)以扩展文本序列以匹配 mel谱图序列的长度。虽然FastSpeech中的这些设计简化了TTS中一对多映射问题的学习,但也带来了一些缺点: 1)两阶段的老师-学生模型训练pipeline使训练过程复杂化;2)从教师模型生成的目标mel谱图与Ground Truth相比有一些信息损失,因为从生成的mel谱图合成的音频质量通常比Ground Truth的差;3)从教师模型的注意力图中提取的持续时间不够准确

本论文中提出的FastSpeech 2模型解决了FastSpeech中的问题,并能更好的处理非自回归TTS模型中的一对多映射问题。为了简化训练pipeline并避免由于老师-学生模型蒸馏中的数据简化而导致的信息丢失,直接使用真实目标而不是教师模型的简化输出来训练FastSpeech 2模型。为了减少输入(文本序列)和目标输出(mel谱图)之间的信息差距(输入不包含预测目标的所有信息),缓解非自回归TTS模型训练的一对多映射问题,在FastSpeech中引入了一些语音的变化信息,包括音调、能量和更准确的持续时间: 在训练时,从目标语音波形中提取出持续时间、音调和能量,并直接将其作为条件输入;在推断中,使用与FastSpeech2模型联合训练的预测器所预测的值。考虑到音高对语音韵律很重要,而且随着时间的推移会有较大的波动,很难预测,本论文利用连续小波变换将音高轮廓转换为音高谱图,在频域中预测基音,可以提高预测基音的精度。为了进一步简化语音合成流水线,论文引入了FastSpeech 2s,它不使用mel谱图作为中间输出,直接从文本中产生语音波形,具有较低的推理延迟。在LJSpeech数据集上的实验表明:1)FastSpeech 2具有比FastSpeech更简单的训练pipeline(减少3倍的训练时间),同时继承了其快速、鲁棒和可控(甚至在基音和能量上更可控)的语音合成优势,FastSpeech 2具有更快的推理速度;2) FastSpeech 2和2s在语音质量上优于FastSpeech, FastSpeech 2甚至可以超越自回归模型。

论文的主要贡献:

  • 通过简化训练流程,FastSpeech 2的训练速度是FastSpeech的3倍
  • FastSpeech 2解决了TTS中一对多映射的问题,提高了语音质量
  • FastSpeech 2s通过直接从文本生成语音波形,进一步简化了语音合成的推断流水线,同时保持高语音质量

FastSpeech 2、2s

首先介绍了FastSpeech 2的设计动机,然后介绍了FastSpeech 2的架构,旨在改进FastSpeech,以更好地处理一对多映射问题,更简单的训练管道和更高的语音质量。最后,将FastSpeech 2扩展到FastSpeech 2s,实现完全端到端文本到波形的合成

动机

TTS是一个典型的一对多映射问题,因为多种可能的语音序列可以对应一个文本序列,这是由于语音的变化,如音调、持续时间、音量和韵律。在非自回归TTS中,只有文本的输入信息,不能完全预测语音的方差。在这种情况下,模型很容易对训练集中目标语音的变化进行过拟合,导致泛化能力较差。虽然FastSpeech设计了两种方法来缓解一对多映射问题,但它们也带来了一些问题,包括1)复杂的训练管道;2)目标mel-谱图的信息丢失情况如表1所示;3)Ground Truth持续时间不够准确,如表5a所示。

模型概述

FastSpeech 2的整体模型架构如图1a所示。编码器将音素嵌入序列转换为音素隐藏序列,方差适配器将时长、基音、能量等不同的方差信息加入到隐藏序列中,最后由mel频谱译码器将调整后的隐藏序列并行转换为mel-频谱序列。使用FFT块作为编码器和 mel频谱图解码器。与依赖师生蒸馏pipeline和教师模型的音素持续时间的 FastSpeech 不同,FastSpeech 2 进行了多项改进。首先,去掉了师生蒸馏pipeline,直接使用ground-truthmel谱图作为模型训练的目标,这样可以避免蒸馏mel谱图中的信息丢失,提高语音质量的上限。其次, 方差调整器不仅包括持续时间预测器,还包括基音和能量预测器,其中1)持续时间预测器使用强制对齐得到的音素持续时间作为训练目标,这比从自回归教师模型的注意力图中提取的训练目标更准确;2)额外的音调和能量预测器可以提供更多的方差信息,这对于缓解TTS中的一对多映射问题非常重要。第三,为了进一步简化训练管道,将其推进到一个完全端到端系统,提出了FastSpeech 2s,它直接从文本生成波形,不需要级联mel频谱图生成(声学模型)和波形生成(声码器)。

FastSppech2论文阅读

图1 FastSpeech 2和2s的整体架构;子图(b)中的LR表示FastSpeech中提出的长度调节器。子图(c)中的LN表示层归一化。

; VARIANCE ADAPTOR(方差适配器)

方差适配器的目的是在音素隐藏序列中加入方差信息(如持续时间、音高、能量等),为TTS中的一对多映射问题提供足够的信息来预测变异语音。将方差信息简单介绍如下: 1)音素持续时间,表示语音声音发声的时长; 2)音调,这是传达情感的关键特征,对语音韵律有很大影响; 3)能量,表示mel谱图的帧级幅度,直接影响语音的音量和韵律。可以在方差适配器中添加更多方差信息,例如情感、风格和说话者,将其留待以后的工作。相应的,方差适配器包括1)持续时间预测器(即长度调节器,如FastSpeech中使用的);2)音调预测器;3)能量预测器,如图1b所示。 在训练时,将从录音中提取的持续时间、音高和能量的地面真值作为输入到隐藏序列中,预测目标语音。同时,以ground-truth持续时间、音调和能量为目标训练持续时间、音调和能量预测器,用于推理合成目标语音。如图1c所示,持续时间、节距和能量预测器的模型结构相似(但模型参数不同),由一个2层的ReLU激活的1d -卷积网络组成,每个层后面都有层归一化和dropout层,以及一个额外的线性层来将隐藏状态投影到输出序列中。

Duration Predictor(持续时间预测)

持续时间预测器以音素隐藏序列为输入,预测每个音素的持续时间,即该音素对应多少mel帧,并将其转换为对数域,便于预测。以提取的持续时间为训练目标,利用均方误差损失优化持续时间预测器。 没有使用FastSpeech中预先训练的自回归TTS模型提取音素持续时间,而是使用蒙特利尔强制对齐(Montreal forced alignment, MFA)工具来提取音素持续时间,以提高对齐精度,从而减少模型输入和输出之间的信息差距。

Pitch Predictor(音调预测器)

先前基于神经网络的具有音高预测的 TTS 系统(Deep Voice: Real-time Neural Text-to-SpeechDeep Voice 2: Multi-Speaker Neural Text-to-Speech)通常直接预测音高轮廓。然而,由于ground-truth pitch的高度变化,预测的pitch值的分布与ground-truth分布非常不同。为了更好地预测基音轮廓的变化,使用连续小波变换(CWT)将连续的基音序列分解为基音谱图(Wavelets for intonation modeling in HMM speech synthesis;Speech Prosody in Speech Synthesis: Modeling and generation of prosody for high quality and flexible speech synthesis),并以音高谱图作为训练目标,用MSE损失优化音高预测器。在推理中,音高预测器预测音高谱图,使用逆连续小波变换 (iCWT) 将其进一步转换回音高轮廓。在附录D中描述了基音提取、CWT、iCWT和基音预测器架构的细节。 为了将基音轮廓作为训练和推理的输入,将每一帧的基音F0(训练/推理的ground-truth值/预测值)量化为对数尺度的256个可能值,并将其转化为基音嵌入向量p,加入到扩展的隐藏序列中

Energy Predictor(能量预测器)

将每个短时傅里叶变换 (STFT) 帧的幅度的 L2 范数计算为能量。然后将每帧的能量统一量化为 256 个可能的值,将其编码为能量嵌入 e 并将其添加到扩展的隐藏序列中,类似于音高。使用能量预测器来预测能量的原始值而不是量化值,并使用 MSE 损失优化能量预测器。

FASTSPEECH 2s

为了实现完全端到端文本到波形的生成,本小节将FastSpeech 2扩展到FastSpeech 2s,它直接从文本生成波形,而不需要级联mel频谱图生成(声学模型)和波形生成(声码器)。如图 1a 所示,FastSpeech 2s 在中间隐藏层上生成波形调节,通过丢弃 mel-spectrogram 解码器使其推理更加紧凑,并实现与级联系统相当的性能。首先讨论非自回归文本到波形生成的挑战,然后描述 FastSpeech 2s 的细节,包括模型结构以及训练和推理过程。

文本到波形生成的挑战

在将TTS的pipeline推向完全端到端框架的过程中,有几个挑战:

  • 由于波形比梅尔谱图包含更多的方差信息(例如相位),因此输入和输出之间的信息差距大于文本到谱图生成中的信息差距
  • 由于极长的波形样本和有限的 GPU 内存,很难在对应于全文序列的音频片段上进行训练。只能在对应于部分文本序列的短音频片段上进行训练,这使得模型难以捕捉不同部分文本序列中音素之间的关系,从而损害文本特征提取

论文的方法

为了解决上述问题,在波形解码器中进行了以下几种设计:

如图1d所示,波形解码器基于WaveNet (WaveNet: A Generative Model for Raw Audio)的结构,包括非因果卷积和门脉激活(Conditional Image Generation with PixelCNN Decoders)。波形解码器将对应于短音频剪辑的切片隐藏序列作为输入,并使用转置的一维卷积对其进行上采样以匹配音频剪辑的长度。对抗训练中的鉴别器采用了与 Parallel WaveGAN 中相同的结构,该结构由十层具有泄漏 ReLU 激活函数的非因果扩张一维卷积组成。利用并行WaveGAN后的多分辨率STFT损耗和LSGAN鉴别器损耗优化波形译码器。 推理时,抛弃了mel频谱解码器,而只使用波形解码器合成语音音频

讨论

与 Deep Voice 、 Deep Voice 2 等自回归生成波形并预测时长和音高等方差信息的方法相比,Fastspeech 2 和 2s 采用基于自注意的前馈网络并行生成 mel 频谱图或波形。而现有的一些非自回归声学模型主要关注于提高持续时间的准确性,FastSpeech 2和2s提供更多的变异信息(持续时间、音调和能量)作为输入,以减少输入和输出之间的信息差距。一项并行工作(FastPitch: Parallel Text-to-speech with Pitch Prediction)在音素层面使用了音高预测,而FastSpeech 2和2s在帧层面预测了更细粒度的音高轮廓。此外,为了改善合成语音中的韵律,FastSpeech 2和2s进一步引入连续小波变换对音调变化进行建模。

一些文本到波形的模型,如ClariNet (ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech)联合训练自回归声学模型和非自回归声码器,而FastSpeech 2包含了用于快速推理的完全非自回归架构。一项名为EATS的并行工作(End-to-End Adversarial Text-to-Speech)也采用非自回归架构和对应性训练,直接将文本转换为波形,主要集中在使用可微单调插值方案预测每个音素端到端持续时间。相比于EATS, FastSpeech 2额外提供了更多的变异信息,以缓解TTS中的一对多映射问题。

以前的非自回归声码器(WaveNet、Waveglow、WaveGAN、MelGAN)不是完整的文本到语音系统,因为它们将时间对齐的语言特征转换为波形,并需要一个单独的语言模型来将输入文本转换为语言特征,或需要一个声学模型来将输入文本转换为声学特征(如mel谱图)。FastSpeech 2是第一个完全平行地从音素序列直接生成波形的尝试,而不是语言特征或mel声谱图

实验和结果

实验设置

数据集

在LJSpeech数据集上评估FastSpeech 2和2s,LJSpeech包含13100个英语音频片段(约24小时)和相应的文本;将数据集分成三组:12228个样本用于训练,349个样本(文档标题LJ003)用于验证,523个样本(文档标题LJ001和LJ002)用于测试。对于主观评价,在测试集中随机选择 100 个样本;为了缓解发音错误的问题,使用开源的字素到音素工具(https://github.com/Kyubyong/g2p)将文本序列转换为音素序列。根据Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions中设置 将原始波形转换为mel频谱图,并设置帧大小和跳大小为1024和256,相对于采样率22050

模型配置

FastSpeech 2的编码器和解码器分别由4个FFT块组成,解码器后的输出线性层将隐藏状态转换为 80 维梅尔谱图,模型使用平均绝对误差 (MAE) 进行了优化。在附录A中增加了实验中使用的FastSpeech 2和2s的详细配置,在附录B中增加了训练和推断的详细信息。

结果

FastSppech2论文阅读

表1 音频质量比较

; 模型性能

音频质量

为了评价感知质量,对测试集进行了平均意见评分(MOS) 评价。要求20名母语为英语的人对合成的语音样本做出质量判断。文本内容在不同的系统中保持一致,因此所有测试人员只检查音频质量,没有其他干扰因素。比较了FastSpeech 2和FastSpeech 2产生的音频样本的MOS与其他系统,包括:

  • GT,ground-truth音频
  • GT (Mel + PWG),首先将地面ground-truth音频转换为mel声谱图,然后使用Parallel WaveGAN将mel声谱图转换回音频
  • Tacotron 2 (Mel + PWG)
  • Transformer TTS (Mel + PWG)
  • FastSpeech (Mel + PWG)

结果如表1所示。可以看出,FastSpeech 2的语音质量可以超越和匹配自回归模型Transformer TTS和Tacotron 2。更重要的是,FastSpeech 2的性能优于FastSpeech,它可以提供基音、能量等方差信息和更准确的持续时间,并直接将ground-truth语音作为训练目标,而无需使用师生蒸馏pipeline。

训练和推理加速

FastSpeech 2去掉了师生蒸馏的过程,简化了FastSpeech的训练流程,从而减少了训练时间。在表2中列出了Transformer TTS(自回归教师模型)、FastSpeech(包括Transformer TTS教师模型和FastSpeech学生模型的训练)和FastSpeech 2的总训练时间。可以看出,FastSpeech 2比FastSpeech减少了3.12×总训练时间。注意,这里的训练时间只包括声学模型训练,没有考虑声码器训练。因此,这里不比较FastSpeech 2的训练时间。然后,评估了FastSpeech 2和2s与自回归Transformer TTS模型的推断延迟,该模型与FastSpeech 2和2s的模型参数数量相似,在表2中展示了波形生成的推断加速。可以看出,与Transformer TTS模型相比,FastSpeech 2和2s在波形合成上的音频生成速度分别提高了47.8×倍51.8倍;还可以看到,由于完全端到端生成,FastSpeech 2比FastSpeech 2更快。

FastSppech2论文阅读

表2 波形合成中训练时间和推断延迟的比较;FastSpeech 的训练时间包括教师和学生模型的训练;RTF 表示实时因子,即系统合成一秒波形所需的时间(以秒为单位)

; 方差信息分析

FastSppech2论文阅读

表3 真实和合成音频中音高的标准差 (σ)、偏度 (γ)、峰度 (K) 和平均 DTW 距离 (DTW)

合成语音中更精确的方差信息

对于基音,我们计算真实语音和合成语音的基音分布的矩(标准偏差(σ)、偏度(γ)和峰度(K))和平均动态时间扭曲(DTW)距离。结果如表3所示。可以看出,与FastSpeech相比,FastSpeech 2/2s生成的音频的力矩(σ、γ和K)更接近于ground-truth音频,到ground-truth音高的平均DTW距离也比其他方法小,这说明FastSpeech 2/2s生成的语音音高轮廓比FastSpeech更自然(能够产生更好的韵律)。在附录D中对生成的音高轮廓进行了一个案例研究。

FastSppech2论文阅读

表4 合成语音音频中能量的平均绝对误差(MAE) 对于能量,计算从生成的波形中提取的帧内能量与ground-truth语音之间的平均绝对误差(MAE)。为了保证合成语音和ground-truth语音的帧数相同,在FastSpeech和FastSpeech 2中都使用了MFA提取的ground-truth时长。结果如表4所示,可以看到FastSpeech 2/2s的能量MAE比FastSpeech的要小,说明它们合成的语音音频与地面真实音频的能量更接近。

; 模型训练更准确的持续时间

然后,分析提供的持续时间信息的准确性,以训练持续时间预测器以及更准确持续时间的有效性,以基于 FastSpeech 获得更好的语音质量;手动将教师模型生成的 50 个音频与音素级别的相应文本对齐,并获得真实音素级别的持续时间。分别使用本文中使用的 FastSpeech 教师模型和 MFA 的持续时间来计算绝对音素边界差异的平均值 ;结果如表5a所示。可以看到,MFA可以生成比FastSpeech的教师模型更准确的持续时间。接下来,将FastSpeech中使用的持续时间(来自教师模型)替换为MFA提取的持续时间,并进行CMOS (Loizou, 2011)测试,比较两种使用不同持续时间训练的FastSpeech模型的语音质量。结果如表5b所示,可以看出,更准确的时长信息提高了FastSpeech的语音质量,验证了MFA改进的时长的有效性。

FastSppech2论文阅读

表5 教师模式与MFA模式的学时比较。∆为绝对边界差的平均值

消融实验

音调和能量输入

对这些消融研究进行 CMOS 评估。结果如表 6 所示。发现在 FastSpeech 2 和 2s 中去除能量(两个子表中的第 3 行)会导致语音质量方面的性能下降(分别为 -0.040 和 -0.160 CMOS),表明能量是有效的对于 FastSpeech 2 提高语音质量,对 FastSpeech 2s 更有效。在 FastSpeech 2 和 2s 中移除音高(两个子表中的第 4 行)分别导致 -0.245 和 -1.130 CMOS,这证明了音高的有效性。当同时去除音高和能量(两个子表中的最后一行)时,语音质量进一步下降,这表明音高和能量都有助于提高 FastSpeech 2 和 2s 的性能。

FastSppech2论文阅读

表6 消融研究中CMOS的比较

; 频域预测音调

为了研究使用连续小波变换 (CWT) 在频域中预测音调的有效性,直接用均方误差拟合音调轮廓,如 FastSpeech 2 和 2s 中的能量。进行了 CMOS 评估,FastSpeech 2 和 2s 的 CMOS 下降分别为 0.185 和 0.201。还计算了音高和到 ground-truth 音高的平均 DTW 距离,如表 3 中的第 6 行(表示为 FastSpeech 2 – CWT)所示。结果表明,CWT 可以帮助更好地模拟音高并改善音调的韵律。合成语音,从而获得更好的 CMOS 分数。

FastSpeech 2中的mel频谱图解码器

为了验证 FastSpeech 2s 中 mel-spectrogram 解码器在文本特征提取方面的有效性,移除了 mel谱图解码器并进行 CMOS 评估,它会导致 0.285 CMOS 下降,这表明梅尔谱图解码器对于生成高质量的波形至关重要。

结论

在这项工作中,提出了FastSpeech 2,一个快速和高质量的端到端TTS系统,以解决FastSpeech中的问题和缓解一对多映射问题:1)直接用地面真谱图训练模型,以简化训练管道,同时与FastSpeech相比也避免了信息丢失;2)提高了持续时间精度,引入更多的方差信息,包括基音和能量,以缓解一对多映射问题,并通过引入连续小波变换改进基音预测。此外,在FastSpeech 2的基础上进一步开发了一种非自回归的文本到波形生成模型FastSpeech 2s,它具有完全端到端推理的优点,并实现了更快的推理速度。实验结果表明,FastSpeech 2和2s的性能优于FastSpeech, FastSpeech 2甚至可以在语音质量上超过自回归模型,训练管道更简单,同时继承了FastSpeech快速、鲁棒、可控的语音合成优势。

高质量、快速和完全的端到端训练,没有任何外部库,绝对是神经TTS的终极目标,也是一个非常具有挑战性的问题。为了确保FastSpeech 2的高质量,本论文使用了一个外部高性能对齐工具和基音提取工具,这可能看起来有点复杂,但对高质量和快速的语音合成非常有帮助。相信未来会有更简单的解决方案来实现这一目标,肯定会在没有外部校准模型和工具的情况下开发完全端到端TTS。后续将考虑更多的方差信息,以进一步改善语音质量,并使用更轻量级的模型加快推理速度。

附录

A-模型配置

FastSpeech 2的编码器和解码器中都包含4个FFT块,每个FFT块音素嵌入的维数和注意力层的隐藏大小均设为256。注意头的数量设置为2,自注意层后2层卷积网络中一维卷积的内核大小设置为9和1,第一个层输入/输出大小为256/1024,第二层中的 1024/256;音素词汇的大小为 76,包括标点符号。在方差预测器中,一维卷积的内核大小设置为 3,两层的输入/输出大小为 256/256,dropout 率设置为 0.5。波形解码器由 1 层转置一维卷积组成,滤波器大小为 64 和 30 个扩张残差卷积块,其跳过通道大小和一维卷积的内核大小设置为 64 和 3。FastSpeech 2中鉴别器的配置与Parallel WaveGAN相同;在表7中列出了实验中使用的所有模型的超参数和配置。

FastSppech2论文阅读

表7 Transformer TTS、FastSpeech 和 FastSpeech 2/2s 的超参数

; B-训练与推理

在 1 个 NVIDIA V100 GPU 上训练 FastSpeech 2,批量大小为 48 个句子。使用 Adam 优化器 ,β1 = 0.9,β2 = 0.98,ε = 10−9,并遵循Transformer中的相同学习率计划。训练需要 160k 步直到收敛。在推理过程中,FastSpeech 2的输出梅尔谱图使用预训练的 Parallel WaveGAN 转换为音频样本。对于 FastSpeech 2s,在 2 个 NVIDIA V100 GPU 上训练模型,每个 GPU 上的批大小为 6 个句子。波形解码器将对应于 20,480 个波形样本剪辑的切片隐藏状态作为输入。 FastSpeech 2s 的优化器和学习率计划与 FastSpeech 2 相同。对抗性训练的细节遵循 Parallel WaveGAN。训练需要 600k 步,直到 FastSpeech 2s 收敛。

C-连续小波变换对音高进行建模

连续小波变换

给定一个连续的音高轮廓函数 F 0 F_0 F 0 ​,使用连续小波变换将其转换为音高谱图 W ( τ , t ) W (τ, t)W (τ,t )

FastSppech2论文阅读
其中 ψ ψψ 是 Mexican hat mother wavelet,F 0 ( x ) F_0(x)F 0 ​(x )是位置 x 的音高值,τ ττ 和t t t 分别是小波的尺度和位置。可以使用以下公式通过逆连续小波变换 (iCWT) 从小波表示 W ( τ , t ) W (τ, t)W (τ,t )中恢复原始音高轮廓 F 0 F_0 F 0 ​:
FastSppech2论文阅读
假设将音高轮廓F 0 F_0 F 0 ​分解为 10 个尺度,F 0 F_0 F 0 ​可以表示为 10 个独立的分量,由下式给出:
FastSppech2论文阅读
FastSppech2论文阅读

; 实现细节

首先,我们使用 PyWorldVocoder提取音高轮廓。由于 CWT 对不连续信号非常敏感,对音高轮廓进行如下预处理:

  1. 使用线性插值来填充音高轮廓中的清音帧
  2. 将得到的音高轮廓转换为对数刻度
  3. 将每个话语归一化为零均值和单位方差,并且必须保存原始话语级别的均值和方差用于音调轮廓重建
  4. 使用遵循上述第三个公式的连续小波变换将归一化的音高轮廓转换为音高谱图

如图 2 所示,音高预测器由一个带有 ReLU 激活的 2 层 1D 卷积网络组成,每个网络后面都有层归一化和 dropout 层,以及一个额外的线性层,用于将隐藏状态投影到音高谱图中。为了预测每个语音的基音轮廓恢复的均值/方差,将一维卷积网络输出的隐藏状态在时间维度上平均为一个全局向量,并使用线性层将其投影为均值和方差。

用真实的音高谱图和音高轮廓的均值/方差来训练音高预测器,并用均方误差对其进行优化。在推理过程中,使用音高预测器预测音高谱图和恢复的音高轮廓的均值/方差,根据上述第四个公司使用逆连续小波变换 (iCWT) 将音高谱图反转为音高轮廓,最后使用预测的均值/方差对其进行denormzlize/去归一化。

FastSppech2论文阅读

图2 音高预测器中的详细信息;CWT 和 iCWT 分别表示连续小波变换和逆连续小波变换。

; D-音高轮廓案例研究

对不同方法生成的音频的音高轮廓进行案例研究。从测试集中随机选择 1 个语音,并绘制 ground-truth 音频样本和图 3 中由 FastSpeech、FastSpeech 2、FastSpeech 2s 生成的音调计数器。可以看到,FastSpeech 2和2s可以比FastSpeech更好地捕捉音调变化由于将音高信息作为输入。

FastSppech2论文阅读

图3 从生成的和地面真实音频样本提取的音调轮廓,只绘制音高轮廓的发音部分。文本是”The worst, which perhaps was the English, was a terrible falling-off from the work of the earlier presses”

E-方差控制

FastSpeech 2和2s引入了多个方差信息来缓解TTS中的一对多映射问题。作为额外作用,它们也使合成语音更加可控,可以用来手动控制合成音频的音调、持续时间和能量(音量)。操纵音高输入来控制合成语音的音高,在图 4 中展示了音高操作前后的梅尔谱图;从样本中可以看到,FastSpeech 2 在将 F ^ 0 \hat{F}_0 F ^0 ​ 从 0.75 调整到 1.50 倍后生成了高质量的梅尔谱图,这种操作也可以应用于 FastSpeech 2s。

FastSppech2论文阅读
图4 不同 F ^ 0 \hat{F}_0 F ^0 ​语音的梅尔谱图。F 0 F_0 F 0 ​为原始音频的基频,红色曲线表示F ^ 0 \hat{F}_0 F ^0 ​等高线。文本是”They discarded this for a more completely Roman and far less beautiful letter”

Original: https://blog.csdn.net/zzfive/article/details/126444401
Author: zzfive
Title: FastSppech2论文阅读

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/813672/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球