【NLP】自然语言处理学习笔记（三）语音合成

2023年5月25日下午4:00 • 人工智能 • 阅读 83

前言

这本笔记中提到的课程是李宏毅老师的自然语言处理。

[En]

The course referenced in this note is the natural language processing of teacher Li Hongyi.

课程Link：https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466

TTS

语音合成(TTS)指的是将文字信息转换成语音信息，这在各种自媒体工具上非常常见。

; TTS before End-to-end

在端到端模型出现之前，深度学习已经被应用于语音合成。

[En]

Before the emergence of end-to-end models, deep learning has been applied to speech synthesis.

下图中展示了Deep Voice初代结构，它用了四个模型。
首先，它将输入的文本信息(text)输入到Grapheme-to-phoneme转化成音位(phoneme)，然后分成三部分，第一部分输入到Duration Prediction中，输出各音位的持续时间。第二部分输出到Fundamental Frequency Prediction中，输出各音位的频率，即模拟人发声时声带振动的频率，其中X表示不需要振动。最终，再将第三部分即原因素和前两部分一起输入到Audio Synthesis中，输出最终得到的语音(audio)。

Tacotron

Tacotron是17年提出的端到端的语音合成模型，其中Taco意思是墨西哥鸡肉卷，因为论文作者喜欢tacos，就这么命名。。
Tacotron的模型结构如下图所示：

Tacotron中包含经典的Encoder、Attention、Decoder，后续又添加了一个后处理的CBHG和Vocoder，输出语音信号。

; Encoder

首先看第一部分Encoder。
首先，输入文本，通过embeddings编码成向量，经过一个Pre-net之后输入到CBHG结构，下图中左侧展示了CBHG的具体组成方式，即3个卷积层，1个池化层，1个残差结构，最后通过GRU输出。
不过这个CBHG结构也不是一成不变的，比如图中下侧展示了Tacotronv2版本的CBHG结构，只有3个卷积层和一个LSTM做输出。

Attention

Attention的机制大概和语音识别里的类似，这里只给了Attention效果的评估参考。纵轴是Encoder steps，横轴是Decoder steps，当Attention出现明显的对角线时，说明训练的效果好。个人觉得，也可以这样直观理解：Encoder和Decoder在相同的时间步中聚焦于同一个信号，说明注意力集中效果好，否则注意力涣散，效果不好。

; Decoder

Encoder输出的context vector输入到Decoder，Decoder具有重复类似的结构，每个重复结构都包含一个Pre-net和两个RNN，每个结构输出是多个spectrogram(spectrogram是waveform的频谱图，在语音识别里有提到），其中，选取最后一个spectrogram作为下一层结构的输入。
注意，在第二个RNN结构中，还需要输出一个信号来判断句子是否结束，如果结束，则不再进行下一层的输出。
另外值得注意的是，在Pre-net中，必须有dropout的操作，如果没有dropout效果会很差，这里的dropout就相当于随机采样。

; Post processing

在Decoder之后，进入到后处理(Post processing)，后处理比较简单，将Decoder输出的spectrogram再经过一个CBHG结构输出spectrogram，为什么要再这样处理一下呢？这是因为RNN是根据前面的输入产生输出，是一个顺序结构，如果后面想要进行修改就没机会了。Post processing就是给模型在看过整个句子的情况下，再有一次修改输出的机会。
这里要计算两个Loss，在Post processing处理前后的向量都要和groundtruth做loss。

Vocoder

Vocoder就是将spectrogram转换成语音信号，这里具体结构不作细述。
第一代Tacotron使用的Vocoder是Griffin-Lim
第二代Tacotron使用的Vocoder是Wavnet

; Work

下面通过具体的指标来看看Tacotron的效果。这里的指标采用的是mean opinion score，即让一群人听合成出的声音来进行评分，总分5分，然后取平均值作为MOS。
从下图数据中，可以发现Tacotron1代的评分为3.82，还不如其它方法，但在Tacotron2代，它的评分达到了4.526，基本接近了Ground truth的水平。

Beyond Tacotron

在这一节，将讨论Tacotron之外的一些问题。

Mispronunciation

通过前面对Tacotron的了解，大致知道Tacotron产生的语音是通过模型进行合成的，这就难免会造成一些发音错误(mispronunciation)。
一种解决方式是构造一个词典(lexicon)，这样Tacotron就可以根据词典查询对应的发音。

如果出现了一些词典中没有的新词汇，Tacotron就根据自己的猜测进行发音，如果发音正确，将词典进行扩充。

; More information for Encoder

关于Encoder也有优化的地方。比如，遇到下面这种语法比较复杂的句子，输入时可以对其进行语序划分。比如Syntactic information的方法，以及BERT embedding方法(这个后续会继续深入学习)。

Attention

关于Attention，也有优化的地方，这里简单描述三种优化方式。

Guided Attention

前面提到过Attention最好是一条清晰的对角线。
Guided Attention的思路是给这条对角线限定蓝色区域的范围，如果Attention进入到红色区域，就会收到相应惩罚。

; Monotonic Attention

Monotonic Attention的思路是给Attention加了一个限制，即要求Attention必须要从左向右，如图所示，这样限制出来就近似会接近对角线的情况。

Location-aware attention

Location-aware attention的思路是计算attention是查看上一时刻附近的attention，比如下图中要计算a1,2，就会选取a0,1 a0,2 a0,3的attention参与计算。

; Fast Speech

Fast Speech和DurlAN是同时期独立提出的模型，其结构如下图所示。
输入文本信息，将其Encoder之后，再计算Duration，这里的Duration表示持续时间，取的是整数。比如下图中，Duration取值为2，3，1，Add length就将红色复制为2，蓝色复制为3，黄色不变保持1，然后输入到Decoder中，输出spectrogram。

值得注意的是，由于Duration取值为整数，直接进行反向传播训练时，duration无法求微分，于是训练思路就是在Duration中引入groundtruth进行单独训练。这里的groundtruth比较难直接获取，可以通过其它模型计算得到。

下面看一下对于比较复杂的长难度句，Fast Speech的表现如何。
【NLP】自然语言处理学习笔记（三）语音合成

上图中是一些比较拗口的难句，可以看到Tacotron和Transformer的错误率都在30%左右，而Fast Speech做到了0错误！可见其效果很强。

Dual Learning: TTS v.s. ASR

上面在Fast Speech中提到，Duration的groundtruth可以由其它模型得到，这带来的一个启发就是，是否可以用不同的模型实现对抗竞争性的训练(Dual Learning)。
下图中就提到了一种设计思路，可以将文字转语音(TTS)和语音转文字(ASR)放到一起训练，这样起到了同时训练的效果。

; Controllable TTS

下面将前面的语音合成(TTS)再做进一步拓展。之前的模型结构，基本实现了文字转语音的功能，但是对语音的情绪，包括语调，重音，韵律等没做过多的控制(Control)，下面将考虑这些因素。

下图为训练思路。

[En]

The following picture shows a training train of thought.

在TTS模型中，除了输入需要转换的文本外，还输入一段语音，输出的语音将包含文本的内容和输入语音的特征。然后训练目标就是让输出语音和输入语音尽可能接近。

这和前面语音转换中的思路比较类似，直接这样做会带来的一个问题就是，输出的语音将无限接近输入的语音，最终相当于直接copy输入语音来输出，这样的损失一定最小，这样的话就会忽视了输入文本的内容，因为这样做无法准确地把输入语音的语音信息排除开来。
【NLP】自然语言处理学习笔记（三）语音合成

解决这个问题的办法也比较简单。在输入语音中，增加一个特征抽取器，我们只需要提取输入语音的特征，过滤掉输入语音的语义信息。

[En]

The way to solve this problem is also relatively simple. In the input speech, add a feature extractor, we only need to extract the features of the input speech and filter out the semantic information of the input speech.

; GST-Tacotron

GST-Tacotron方法提供了一个具体的处理方式。
它将输入语音(Reference audio)通过一个特征提取器只输出一个向量，将该向量复制多份和Encoder出的结果进行注意力计算，然后输入到Decoder后面输出，后续结构和Tacotron一样，下图中进行了省略。

让我们来看看特征抽取器的结构。

[En]

Let’s take a look at the structure of the feature extractor.

为什么GST-Tacotron能够将Reference audio的语义信息隔离开呢？
这是因为，Feature Extractor提取的信息不是直接输入到下一层，而是将其变成了一个权重向量。里面有一个已经提前学习好的vector set，这个是真正代表语义风格的Tokens，比如下图中的A代表高音，B代表低音，C代表韵律等特征，attention weight就是调整它们的比例，使其接近输入语音的特征，最后将他们加权相加，输出一个融合的特征向量。

2nd stage training

当然，除了特征提取的思路外，还有另一种处理思路。 2nd stage training就是保持了训练场景和测试场景一样，即输入文本和参考语音。然而，因为这样没有groundtruth，无法直接训练。

于是2nd stage training就借鉴了前面Dual Learning的思想，再输出语音后面加上一个ASR，将输出语音重新转回文本，然后比较输入输出文本的差异，从而做损失进行训练。这样就可以自然地让TTS逐渐倾向于只提取reference audio的特征信息，过滤语义信息。

Original: https://blog.csdn.net/qq1198768105/article/details/125346178
Author: zstar-_
Title: 【NLP】自然语言处理学习笔记（三）语音合成

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514958/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022 秋招数据分析问题笔试题记录

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
0055
惯性导航定位技术

1 惯性导航定位技术介绍惯性是所有质量体本身的基本属性。建立在牛顿定律基础上的惯性导航系统不与外界发生任何光电联系，仅靠系统本身就能对汽车进行连续的三维定位和三维定向。由于惯性…

人工智能 2023年7月27日
0053
3D视觉——2.人体姿态估计(Pose Estimation)入门——OpenPose含安装、编译、使用（单帧、实时视频）

上一话 3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)h…

人工智能 2023年6月17日
0096
[九]深度学习Pytorch-transforms图像增强(剪裁、翻转、旋转)

往期内容 [一]深度学习Pytorch-张量定义与张量创建 [二]深度学习Pytorch-张量的操作：拼接、切分、索引和变换 [三]深度学习Pytorch-张量数学运算 [四]深度…

人工智能 2023年7月5日
0064
图像分类、目标检测、图像分割—-简介

（1）MNIST：10个类别，手写数字体数据集，6万条训练数据和1万条测试数据，28*28的灰度图；（2）FashionMNIST：10个类别，6万条训练数据和1万条测试数据，2…

人工智能 2023年7月10日
0072
ChatGPT: 世界杯征文活动

混个勋章… 文章目录用代码画出足球并且上面有典型的足球的纹路或者其他世界杯相关元素 * 运行效果踢球和软件团队开发软件有什么异同？球队的教练相对于公司的什么职位呢…

人工智能 2023年7月31日
0055
Collaborativ

详细解决 Collaborative Filtering 问题 Collaborative Filtering (协同过滤) 是一种常见的推荐系统算法。它利用用户历史行为数据（如用…

人工智能 2024年1月2日
0044
构建自己的gym训练环境巨详细

环境中主要有六个模块，下面将主要以官方的MountainCarEnv为例对每个模块进行说明。 1. init 主要作用是初始化一些参数如在MountainCarEnv中，对car…

人工智能 2023年6月23日
0077
智能网联汽车网络安全浅析（下）

本文由李玉峰，陆肖元，曹晨红，李江涛，朱泓艺，孟楠联合创作 1 网络安全威胁与防御技术自动驾驶和联网使汽车变成非常复杂的网络物理系统21,也使攻击者看到了新网络空间的更多攻击面，…

人工智能 2023年6月11日
0099
协同过滤算法如何处理缺失数据和异常值

协同过滤算法处理缺失数据和异常值协同过滤算法是一种常用的推荐系统算法，它通过分析用户的历史行为数据来预测用户可能感兴趣的物品。在协同过滤算法中，处理缺失数据和异常值是一个关键问题…

人工智能 2024年1月2日
0054
爬取华农数信院官网的新闻，并且发送到邮箱

信息爬取新闻一．实验背景如今的生活比较繁忙，而接收到的信息量巨大，会有忽略的时候，所以我选择信息爬取实验，来爬取本校数信学院的官网上关于本科生的通知，然后发送到邮箱，方便对信…

人工智能 2023年7月17日
0070
Python实现聚类K-means算法

本文内容、数据参考周志华《机器学习》，代码部分为个人实现，如有错误还请指出。K-means（K均值）算法是最简单的一种聚类算法，它期望最小化平方误差E = ∑ i = 1 k ∑ …

人工智能 2023年7月3日
0080
上手Pandas，带你玩转数据（4）– 数据清洗

文章目录 * – 描述性方法 – + 注： – 汇总数据 – pandas处理文本数据 – 检查缺失值 – …

人工智能 2023年7月7日
0077
【随便整点深度学习01】看看神经网络每层提取了什么？

前言？因为毕设是关于深度学习的，于是从年初开始就断断续续的接触了许多相关的知识。不过到现在也没几个月的时间，还是一个萌萌萌萌萌萌萌新~~写点博客记录一下遇到的并且以后可能会忘记的…

人工智能 2023年7月14日
0083
OpenCV每日函数计算摄影模块(1) 图像修复算法 inpaint函数

一、概述该算法使用区域邻域恢复图像中的选定区域。该功能可用于去除扫描照片上的灰尘和划痕，或去除静止图像或视频中不需要的物体。二、inpaint函数 1、函数原型 void cv…

人工智能 2023年6月20日
0097
Magichub 重口音对话ASR挑战赛颁奖仪式及案例分享

近日，Magichub 重口音对话ASR挑战赛已圆满结束。 7月6日 (周三) 14:00-16:00 将举办线上颁奖仪式及冠军团队案例分享。本次邀请冠军团队 MITC 团队（小…

人工智能 2023年5月27日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【NLP】自然语言处理学习笔记（三）语音合成

; Encoder

Attention

; Decoder

; Post processing

Vocoder

; Work

Mispronunciation

; More information for Encoder

Attention

Guided Attention

; Monotonic Attention

Location-aware attention

; GST-Tacotron

2nd stage training

大家都在看