首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。声称目前公开系统最好效果。
得益于图像领域中把Flow引入VAE提升生成效果的研究，成功把Flow-VAE应用到了完全E2E的TTS任务中。
训练非常简便，完全E2E。不需要像Fastspeech系列模型需要额外提pitch, energy等特征，也不像多数2-stage架构需要根据声学模型的输出来finetune声码器以达到最佳效果。
摆脱了预设的声学谱作为链接声学模型和声码器的特征，成功的应用来VAE去E2E的学习隐性表示来链接两个模块
多说话人模型自然度不下降，不像其他模型趋于持平GT录音MOS分

high level的优缺点总结：

VITS优点

合成速度足够快
三个主要网络结构均为可并行的非自回归结构保证了合成速度：
- 和Fastspeech系统相同的transformer作为文本Encoder
- 和Glow-TTS相同的Flow结构作为VAE的主体
- 和HiFiGAN生成器相同的反卷积作为Decoder
长文本稳定性好
采用了Glow-TTS相同的单调对齐搜索算法(MAS), 保证生成对齐的稳定性
语音多样性好
在预测音素时长的模块中也引入Flow结构增加生成韵律的多样性

缺点：

多样性，稳定性的trade off
训练收敛速度慢
*全局信息学习能力较弱（韵律，风格略平淡）

接近GT，但是单独做CMOS还是比GT要低的。

模型详解：

看懂需要的前置知识，推荐苏神的生成模型系列文章：

VAE系列文章，看到你自己觉得懂了： _ 变分自编码器（一）：原来是这么一回事 – 科学空间|Scientific Spaces_

VAE变分自编码机详解——原理篇 – 知乎

Flow/Glow：

细水长flow之NICE：流模型的基本概念与实现 – 科学空间|Scientific Spaces

细水长flow之RealNVP与Glow：流模型的传承与升华 – 科学空间|Scientific Spaces

上述两者的结合，也就是本篇论文主要部分：

细水长flow之f-VAEs：Glow与VAEs的联姻 – 科学空间|Scientific Spaces

了解一个模型就从它的Loss入手：

三部分 Loss 对应三个主要模块：

1. 变分推断 (Variational Inference)

优化目标：最大化条件下界(ELBO)

符号解释：
z 为线性谱经过后验编码器后得到的隐变量
y_hat 为 z 经过decoder后得到预测音频序列
x 为真实音频的Mel谱
c 为文本， d为音素时长duration，A为对齐矩阵
p(x|c) 和 p(x|z) 分别为目标 x 对 c 和 z 的最大似然

预测音频 y_hat 提取的Mel谱和真实Mel谱的L1 Loss
Decoder为HiFiGAN声码器的generator生成器

通过单调对齐搜索算法(MAS), 获得文本编码后预测的均值方差和隐变量 z 通过Flow后的正态分布的最优对齐矩阵。
时长预测模块去学习这个对齐矩阵序列
Flow应用到此模块增加生成序列的多样性

Decoder 即为 HiFiGAN的生成器，两个Loss 也对应原论文中相同的对抗Loss 和特征鉴别器Loss, 想深入了解可以参考原论文。

总结与思考

整篇文章总体还是很优美，通过合理的应用vae-flow架构，得到了不错的效果。后续微软谭旭的natrual TTS工作也是很大程度借鉴了这篇文章，给出了更多的解释。

目前生成模型包括新的Diffusion模型在常规数据集上都能做到不错的效果，更高难度的高表现力数据的还原将成为未来热点方向。但大概率突破仍然会产生在类似的生成模型架构上。

Original: https://blog.csdn.net/Terry_ZzZzZz/article/details/120458064
Author: Terry_ZzZzZz
Title: VITS 语音合成完全端到端TTS的里程碑

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648812/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python3.9+pycharm2022+opencv库安装到解决无代码提示

文章目录前言一、openCV是什么二、使用步骤 * 1.安装python3.9（不要用最新的3.10版本，可能会有问题） 2.安装opencv开源库（这里最好用国内的镜像源）…

人工智能 2023年5月26日
0073
(学习笔记一)基于YOLOv5的车辆检测项目

1.YOLOv5模型简介 YOLO能实现图像或视频中物体的快速识别，在相同的识别类别范围和识别准确率条件下，YOLO识别速度最快。YOLO有多种模型，其中最新的为V5，V5的特点是…

人工智能 2023年6月16日
00120
Java 实现视频裁剪（附代码） | Java工具类

前言本文提供将视频按照自定义尺寸进行裁剪的Java工具类，一如既往的实用主义。 Maven依赖 com.google.guava guava 30.1.1-jre org.byt…

人工智能 2023年6月4日
0087
目标检测系列算法:YOLOv6代码复现

目录开发环境源码获取与复现 * 训练预测参考 YOLOv6 是一个专用于工业应用的单阶段目标检测框架，具有硬件友好的高效设计和高性能。 YOLOv6-nano 在 COCO…

人工智能 2023年7月9日
0050
全网首发！建筑行业首张数字化知识图谱，免费领！

2021年，建筑业的产值达到29.3万亿元，占该年全年国内生产总值的25.63%。与之不匹配的是，建筑企业利润低，税负重，发展现状不容乐观。据麦肯锡全球研究院统计，数字化可以使…

人工智能 2023年6月10日
0077
老油条表示真干不过，部门新来的00后测试员已把我卷崩溃，想离职了…

在程序员职场上，什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事，我们可以帮他。是技术太强的人吗?也不是。技术很强的同事，可遇不可求，向他学习还来不及呢。真正让…

人工智能 2023年7月30日
0065
相机标定(世界坐标系–>相机坐标系，相机坐标系–>图像坐标系，图像坐标系–>像素坐标系，完成世界坐标系–>像素坐标系)

本篇文章主要介绍如何使用相机标定，实现世界坐标系–>相机坐标系，相机坐标系–>图像坐标系，图像坐标系–>像素坐标系，完成世界坐…

人工智能 2023年6月4日
0064
【python教程入门学习】Pandas是什么

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月11日
0057
C++API搭建Tensorrt深度解析及构建模板(构建引擎/序列化与反序列化/推理)

好久没写一篇关于使用C++ API搭建构建Tensorrt的文章了，而本篇文章该说些什么了，也不想像很多博客介绍Tensorrt的C++API，直接来几个步骤，然后如何搭建网络，构…

人工智能 2023年6月4日
0082
inx函数python_Python数据分析入门

如今数据分析越来越重要，比起使用excel等工具，使用编程语言更加高效。这篇文章主要介绍一些简单的数据分析入门知识，使用的语言是python。读取csv文件数据分析的第一步是要…

人工智能 2023年7月8日
00108
线程池ThreadPoolExecutor

ThreadPoolExecutor是 JDK1.5版本推出的一个线程池。是 ExecutorService接口的实现之一，也是阿里推荐使用的一种线程池。线程池解决了两个不同的问题…

人工智能 2023年6月30日
0049
语音识别笔记

1、语音基础 2、模型结构 2.1 卷积神经网络 1 时频域上的卷积相比于二维的图像输入，语音信号往往是一维时序信号，直接使用一维时序信号建模效果差。因此要在网络的输入中也采用经过…

人工智能 2023年5月25日
0061
THCudaCheck FAIL file=/opt/conda/conda-bld/python/pytorch/work/aten/src/THC/THCCachingHostAllocator.

各位大佬好，我想跑YOLOV5，用极链云租了个实例，按照帮助文档：https://cloud.videojj.com/help/。配置好了环境，pycharm deployment…

人工智能 2023年7月10日
0037
详解关系抽取模型 CasRel

今天来跟大家分享一篇发表在 2020ACL 上的实体关系抽取论文 CasRel。论文名称：《A Novel Cascade Binary Tagging Framework f…

人工智能 2023年6月10日
00174
【TensorRT】记一次使用C++接口TensorRT部署yolov5 v6.1模型的过程

记一次使用C++接口TensorRT部署yolov5 v6.1模型的过程最近因为课题的原因，需要部署下YOLOv5的模型。之前一般部署YOLOv5的常规方法是直接使用Wangxi…

人工智能 2023年7月21日
0041
yolov5导出onnx转ncnn部署到android

yolov5 6.0导出onnx转ncnn 1.导出onnx 自己在 train.py得到训练好的 best.pt，在Yolov5里面运行自带的 export.py python …

人工智能 2023年7月23日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

VITS 语音合成完全端到端TTS的里程碑

突破点：

high level的优缺点总结：

VITS优点

缺点：

看懂需要的前置知识，推荐苏神的生成模型系列文章：

1. 变分推断 (Variational Inference)

总结与思考

大家都在看