语音合成论文优选：Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Mod

2023年5月27日下午3:14 • 人工智能 • 阅读 99

免责声明：首选系列演讲合成论文以分享论文为主，分享论文不直接翻译，内容主要是我对论文内容的总结和个人观点。如果是转载，请注明出处。

[En]

Disclaimer: the preferred series of speech synthesis papers mainly share papers, sharing papers without direct translation, and the content is mainly my summary and personal views on the content of the paper. If it is reproduced, please indicate the source.

欢迎关注微信公众号：低调砥砺前行

[En]

Welcome to follow Wechat official account: keep a low profile and forge ahead

Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Modeling

本文是google在2021.04.13更新的文章，主要解决Parallel Tacotron的对齐问题，本系统不需要额外的对齐信息，具体的文章链接

https://arxiv.org/pdf/2103.14574.pdf

第一篇文章

Parallel Tacotron: Non-Autoregressive and Controllable TTS

的链接

https://arxiv.org/pdf/2010.11439.pdf

1 研究背景

tacotron系列以合成高质量语音和闻名，但其自回归模式限制其速度，因此本文提出了非自回归parallel tacotron，当然其合成质量是接近taoctron2。但parallel tacotron需要额外的对齐信息来训练duration decoder，因此本文在parallel tacotron基础上提出了parallel tacotron2，该模型使用一种新颖的attention机制来进行对齐。（对齐矩阵）

2 详细架构

先来看一下图1展示了parallel tacotron系统架构，主要由input encoder, residual encoder, duration decoder, spectrogram decoder构成。当然该系统也需要借助外部的对齐信息来训练duration decoder 。

语音合成论文优选：Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Mod

接下来的parallel tacotron2主要使用下图的结构进行时长估算。首先duration predictor估算每个token的时长，然后learning upsampling模块根据时长信息来学习attention matrix w和auxiliary attention context C。当然这样预测出来的特征跟真实的特征帧数不一样，无法求loss,因此使用soft-DTW来进行求值。最后的loss为公式7。

3 实验结果

table 1，table 2和table 3显示本文的parallel tacotron2在preference好于parallel tacotron和tacotron2 。图3展示了使用本文进行调速。

4 总结

本文主要解决Parallel Tacotron的对齐问题，本系统不需要额外的对齐信息。

Original: https://blog.csdn.net/liyongqiang2420/article/details/116154164
Author: 我叫永强
Title: 语音合成论文优选：Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Mod

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526655/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux系统常用命令(全面总结)

文章目录 1. Linux 之文件目录工作机制 2. Linux命令之文件目录管理 * 2.1 目录管理 – 2.1.1 cd 2.1.2 ls 2.1.3 p…

人工智能 2023年5月30日
0085
【机器学习笔记】【决策树】【泰坦尼克号幸存者的预测】

目录一、导入库以及相关的数据 1.导入所需要的库 2.导入指定的数据集 3.查看数据的相关信息 1.data.info() 2.data.head() 二、数据的预处理 1.处理…

人工智能 2023年5月30日
0071
neo4j与es结合

由于neo4j模糊查询比较慢，所以想研究一下提高查询效率的方法。 1. es插件与容器 es插件下载地址：https://github.com/neo4j-contrib/neo4…

人工智能 2023年6月1日
00118
【好玩的小demo】微信&QQ聊天数据统计分析

突发奇想，想统计一下读研期间和导师的聊天记录，分析一下。实现的效果如下：完整代码见：wechat_ana: 微信、QQ聊天记录分析 – Gitee.com 聊天记录获…

人工智能 2023年7月15日
00107
计算机视觉教程3-1：全面详解图像边缘检测算法(附Python实战)

目录 0 写在前面 1 一阶微分算子 * 1.1 Prewitt算子 1.2 Sobel算子 2 二阶微分算子 * 2.1 Laplace算子 2.2 LoG算子 3 Canny边…

人工智能 2023年7月25日
0065
k-Means——经典聚类算法实验（Matlab实现）

聚类算法—k-Means实验 k-平均（k-Means），也被称为k-均值，是一种得到最广泛使用的聚类算法[1]. k-Means算法以k为参数，把n个对象分为k个簇，使得簇内具有…

人工智能 2023年5月31日
00113
024-继承与多态（重载与重写）案例分析

上一讲：023-普通内部类与静态内部类_CSDN专家-赖老师（软件之家）的博客-CSDN博客下一讲：025-为什么要用抽象类_CSDN专家-赖老师（软件之家）的博客-CSDN博客…

人工智能 2023年6月29日
00366
opencv-python 开发环境的安装、配置

目录一。安装python 1.到python官网下载安装包 2.安装python 3.环境的验证二.安装numpy 1.安装numpy 2 验证numpy 三.安装matplo…

人工智能 2023年7月18日
0061
【手撕Transformer】Transformer输入输出细节以及代码实现（pytorch）

文章目录举例讲解transformer的输入输出细节 * encoder – padding Padding Mask Positional Embedding at…

人工智能 2023年6月23日
0068
【matlab 图像处理】肤色检测

肤色检测肤色是人类皮肤重要特征之一，在检测人脸或手等目标时常采用肤色检测的方法，将相关区域从图像中分割出来。肤色检测方法：肤色检测方法有很多，但无论是基于不同的色彩空间还是不…

人工智能 2023年6月22日
00102
深度学习研究生第一年之际，前来谈谈自己的感受

前言在即将结束研究生第一年之际，前来谈谈自己的感受。你可以把这篇文章当做深度学习者、程序员、研究生的简短自白。可能会有点啰嗦，会有点无趣。但如果有时间、感兴趣，不妨阅读阅读，或…

人工智能 2023年6月4日
00136
图像处理–阈值分割函数《python基础篇》

3.如何实现呢？说了这么多，只是让大家能够更好地理解阈值二值化操作，还有就是为什么我们选择二值化，她的目的是什么！（不多说了），下面来看一般的阈值二值化函数。 1》典型的全局阈值…

人工智能 2023年6月22日
0085
什么是V2X？如何通过V2X技术实现5G智慧交通？

关于V2X V2X，即Vehicle to Everything / vehicle to X，车用无线通信技术，是意向以车辆为中心，与周边车辆、设备、基站通信，从而获取实时路况、…

人工智能 2023年6月2日
0091
YOLOv5目标检测全流程：从标注数据到检测模型

1. 对原始图片打标利用LabelImg工具打标，输出格式选择为PascalVOC，得到xml格式的文件 2. 数据预处理（1）将打标后的文件拷贝到当前工作目录，即放在和代码同…

人工智能 2023年6月17日
0077
pandas的基础使用

快速导入包：对象创建 Series通过传递值列表来创建，让 pandas 创建一个默认整数索引： s = pd.Series([1, 3, 5, np.nan, 6, 8]) …

人工智能 2023年7月6日
0075
软件智能:aaas系统AI众生的“世”和“界” 之15 神经网络及认知水平级别和三张表的关系

本阶段的工作主要目的是要将所有内容高度归纳，然后给出线索和提示，并将他们按照程序的A端和S端的不同侧面的可能的各个侧重点给出一个知识能力中导航搜索和求解的构建过程所需要的互动内容和…

人工智能 2023年6月1日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音合成论文优选：Parallel Tacotron 2: A Non-Autoregressive Neural TTS Model with Differentiable Duration Mod

大家都在看