深度学习非自回归语音合成与自回归语音合成对比

一、语音合成流程

深度学习非自回归语音合成与自回归语音合成对比

二、端到端自回归语音合成

基于深度数据和相应文本的训练,不需要繁琐的人工提取过程。可以合成非常学习的语音合成模型,直接使用非常学习的语音合成和唤醒直接使用接近真实录音质量的语音。

[En]

Training based on depth data and corresponding text, no tedious manual extraction process is needed. Can synthesize the very learning speech synthesis model, directly use the very learning speech synthesis and wake up directly use the recording close to the real recording quality of the speech.

Tacotron

Encoder:BLSTM

Decoder:BLSTM

Attention: Location sensitive attention(串行训练过程)

Input:Char/Phoneme(字符,音素)

Output:Mel-spectrograms

深度学习非自回归语音合成与自回归语音合成对比

如何将文本转成Mel频谱

编码:将每一个字符进行编码(word embedding),进行context交互(双向LSTM),获取读音信息

交互:Location Sensitive Attention ,将两个模态中的数据进行连接

解码:经过几层LSTM生成Mel频谱。

LSTM是自回归结构,每一步会输入上一步的输出,并生成这一步的信息。

Transformer TTS

Encoder: Transformer Encoder
Decoder: Transformer Decoder
Attention: Multi-head Attention(并行训练过程)
Input: Phoneme
Output: Mel-spectrograms

深度学习非自回归语音合成与自回归语音合成对比

Deep voice

Encoder: CNN blocks

Decoder: Causal CNN blocks

Attention: Attention

Input: Char+Phoneme

Output:Mel-spectrograms+World vocoder features

深度学习非自回归语音合成与自回归语音合成对比

特点:有两种输入和输出,由不同的声码器转换成波形。

[En]

Features: there are two kinds of input and output, which are converted into waveforms by different vocoders.

自回归方法语音合成缺陷

  • 传统的端到端方法的 合成速度非常慢,它在一 些对速度和实时性要求较高的场合下较难应用,并且受限于合成速度,这种方法的扩展成本非常高,在高流量高并发的场景下很难提供稳定的服务。
    传统的端到端语音合成中存在重复或遗漏单词的现象,这对于商业语音合成系统来说是非常致命的,是不可容忍的。
    [En]

    the phenomenon of * repetition or omission of words * occurs in traditional end-to-end speech synthesis, which is very fatal and intolerable for commercial speech synthesis systems.*

  • 传统的端到端方法无法 细粒度地控制语速、韵律和停顿等。

如何解决这三大痛点?

三、非自回归语音合成方法——FastSpeech

  • FastSpeech使用 全并行的非自回归架构,解决了生成速度慢的问题,同时引入 知识蒸馏来使得生成音频的性能接近自回归模型。
  • FastSpeech引入了 duration predictor来预测文本和频谱之间的 强对齐,消除了生成语音的跳词、漏词等现象。
  • FastSpeech引入了 length regulator来解决自回归模型的可控性问题。将文本与语音的隐特征建立联系。

深度学习非自回归语音合成与自回归语音合成对比

声音质量

深度学习非自回归语音合成与自回归语音合成对比

加速比

深度学习非自回归语音合成与自回归语音合成对比

Original: https://blog.csdn.net/LarsGyonX/article/details/123261619
Author: bulibuli蛋
Title: 深度学习非自回归语音合成与自回归语音合成对比

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/497940/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球