2021新网银行金融科技挑战赛 Baseline

2023年5月25日上午7:04 • 人工智能 • 阅读 77

基于TensorFlowTTS的新网语音合成baseline

Github: https://github.com/TensorSpeech/TensorflowTTS

2021″创青春·交子杯”新网银行金融科技挑战赛线上:11 月 1 日周一 00:00 —— 2022-01-15 周六 00:00

报名地址：https://segmentfault.com/e/1160000040894935

扫码报名：

官方qq交流群：740867621

提交地址：https://ftc.xwbank.com/xwbank/competition-pc/index.html#/

作品提交规则：

1.每日最多可上传文件三次（成功提交记一次，失败提交不计次数)；每日最多可提交已上传文件一次；

2.每日上午9:00-12:00为最佳提交作品时间。建议”提早”上传、”错峰”上传，尽量避免在最后一天高峰期上传作品，以免提交或跑分失败影响比赛成绩；

3.不得超过200M，且格式只能为wav；

4.请上传16k样率音频，转换采样率命令 sox ‹原音频› -r 16000 ‹输出音频›。

5.请严格按照《新网AI比赛2021比赛方案》内的要求上传，若因格式错误造成的跑分失败，会占用当日作品提交次数

; 安装所需要的包

TensorlowTTS:一个基于TensorFlow2的，支持最先进模型的、实时语音合成架构，如 Tacotron-2、Melgan、Multiband-Melgan、FastSpeech、FastSpeech2
german_transliterate：用于清理和音译（即规范化）文本，包括缩写，数字，时间戳等。GitHub地址：https://github.com/repodiac/german_transliterate

安装 TensorFlowTTS的时候最好单独创建一个虚拟环境new_envs

!pip install TensorFlowTTS
!pip install git+https://github.com/repodiac/german_transliterate
!pip install h5py

语音合成模型梳理

微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献，发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中，研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等，同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。

论文链接：https://arxiv.org/pdf/2106.15561.pdf

本文从两个方面总结了神经语音合成的发展(逻辑框架如图1所示)。

[En]

This paper summarizes the development of neurospeech synthesis from two aspects (the logical framework is shown in figure 1).

核心模块：分别从文本分析（textanalysis）、声学模型（acoustic model）、声码器（vocoder）、完全端到端模型（fully end-to-end model）等方面进行介绍。

进阶主题：分别从快速语音合成（fast TTS）、低资源语音合成（low-resourceTTS）、鲁棒语音合成（robust TTS）、富有表现力的语音合成（expressive TTS）、可适配语音合成（adaptive TTS）等方面进行介绍

; TTS核心模块

研究人员提出了一个基于神经语音合成系统核心模块的分类系统。每个模块对应一个特定的数据转换过程：

[En]

The researchers proposed a classification system based on the core modules of the neurospeech synthesis system. Each module corresponds to a specific data conversion process:

1）文本分析模块将文本字符转换成音素或语言学特征；

2）声学模型将语言学特征、音素或字符序列转换成声学特征；

3）声码器将语言学特征或声学特征转换成语音波形；

4）完全端到端模型将字符或音素序列转换成语音波形。

图片：（a）TTS核心框架，（b）数据转换流程

文本分析

本文总结了文本分析模块的几个常见任务，包括文本归一化、分词、词性标注、韵律预测、字形转换和多音节消歧。

[En]

This paper summarizes several common tasks of the text analysis module, including text normalization, word segmentation, part of speech tagging, prosodic prediction, glyph conversion and polysyllabic disambiguation.

; 声学模式

在声学模型部分，文章首先简要介绍了在统计参数合成里用到的基于神经网络的声学模型，然后重点介绍了端到端模型的神经声学模型，包括基于 RNN、CNN 和Transformer 的声学模型以及其它基于 Flow、GAN、VAE、Diffusion 的声学模型。

声码器

声码器的发展分为两个阶段，包括传统参数合成里的声码器如 STRAIGHT和 WORLD，以及基于神经网络的声码器。论文重点介绍了基于神经网络的声码器，并把相关工作分为以下几类，包括：

1）自回归声码器（WaveNet，SampleRNN，WaveRNN，LPCNet 等）；

2）基于 Flow 的声码器（WaveGlow，FloWaveNet，WaveFlow，Par. WaveNet 等）；

3）基于 GAN 的声码器（WaveGAN，GAN-TTS，MelGAN，Par. WaveGAN，HiFi-GAN，VocGAN，GED，Fre-GAN 等）；

4）基于 VAE 的声码器（WaveVAE等）；

5）基于 Diffusion 的声码器（DiffWave，WaveGrad，PriorGrad 等）。

; 完全端到端模型

端到端模式的发展经历了以下几个阶段：

[En]

The development of end-to-end model has gone through the following stages:

阶段0：在统计参数合成方法中，使用文本分析、声学模型和声码器三个模块级联；

阶段1：在统计参数合成方法中，将前两个模块合起来形成一个声学模型；

阶段2：直接从语言学特征生成最终的波形，例如 WaveNet；

阶段3：声学模型直接从字符或音素生成声学模型，然后利用神经声码器生成波形；

阶段4：完全端到端的神经网络模型。

TTS模型分类

1）自回归 vs 非自回归；2）生成模型的类型；3）网络结构的类型。

; 模型演进

同时，本文还绘制了相关 TTS 工作随着时间变化的关系图，方便读者更直观地理解各个 TTS 模型及其在 TTS 发展中的位置。

TTS 进阶课题

研究员们还针对 TTS 面临的各种挑战，介绍了相关的进阶课题，包括快速语音合成（fast TTS）、低资源语音合成（low-resource TTS）、鲁棒语音合成（robust TTS）、富有表现力的语音合成（expressive TTS）、可适配语音合成（adaptive TTS）等。

; 加载模型

import tensorflow as tf

import yaml
import numpy as np
import matplotlib.pyplot as plt

import IPython.display as ipd

from tensorflow_tts.inference import AutoConfig
from tensorflow_tts.inference import TFAutoModel
from tensorflow_tts.inference import AutoProcessor

import soundfile as sf
from tqdm import tqdm

Tacotron2

Tacotron2是由Google Brain 2017年提出来的一个语音合成框架。

Tacotron2:一个完整神经网络语音合成方法。模型主要由三部分组成：

声谱预测网络：一个引入注意力机制（attention）的基于循环的Seq2seq的特征预测网络，用于从输入的字符序列预测梅尔频谱的帧序列。
声码器（vocoder）：一个WaveNet的修订版，用预测的梅尔频谱帧序列来生成时域波形样本。
中间连接层：使用低级声学表示–Mel频率声图来连接系统的两个部分。

[En]

Intermediate connection layer: use a low-level acoustic representation-Mel frequency sonogram to connect the two parts of the system.*

tacotron2 = TFAutoModel.from_pretrained("tensorspeech/tts-tacotron2-baker-ch", name="tacotron2")

FastSpeech2

近年来，以 FastSpeech 为代表的非自回归语音合成（Text to Speech, TTS）模型相比传统的自回归模型（如 Tacotron 2）能极大提升合成速度，提升语音鲁棒性（减少重复吐词、漏词等问题）与可控性（控制速率和韵律），同时达到相匹配的语音合成质量。但是，FastSpeech 还面临以下几点问题：

FastSpeech 依赖 Teacher-Student 的知识蒸馏框架，训练流程比较复杂；
由于知识蒸馏，FastSpeech 的训练目标相比真实语音存在信息损失，同时从 Teacher 模型获得的时长（Duration）信息不够准确，两者都会影响合成语音质量。
为了解决上述问题，微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了FastSpeech 的改进版 FastSpeech 2，它抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度，直接用真实的语音数据作为训练目标避免信息损失，同时引入了更精确的时长信息和语音中的其它可变信息（包括音高（Pitch）和音量（Energy）等）来提高合成的语音质量。基于 FastSpeech 2，我们还提出了加强版 FastSpeech 2s 以支持完全端到端的从文本到语音波形的合成，省略了梅尔频谱的生成过程。实验结果表明，FastSpeech 2 和 2s 在语音质量方面优于 FastSpeech，同时大大简化了训练流程减少了训练时间，还加快了合成的速度。

FastSpeech 2 和 2s 的样例音频网址已经公开在：

https://speechresearch.github.io/fastspeech2/

论文公开在：https://arxiv.org/pdf/2006.04558.pdf

fastspeech2 = TFAutoModel.from_pretrained("tensorspeech/tts-fastspeech2-baker-ch", name="fastspeech2")

MB-MelGAN

多频带MelGAN将Parallel WaveGAN中的多尺度短时傅里叶变换损失（multi-resolution STFT loss）引入到MelGAN中，并且在音频的多个子带上分别度量损失。

代码地址：

kan-bayashi/ParallelWaveGAN

rishikksh20/melgan

mb_melgan = TFAutoModel.from_pretrained("tensorspeech/tts-mb_melgan-baker-ch", name="mb_melgan")

预测

基于标准海湾技术标注的数据集训练汉语语音合成模型

[En]

Chinese speech Synthesis Model based on dataset training based on Standard Bay Technology tagging

https://www.data-baker.com/open_source.html

数据集介绍：

&#x3010;&#x4E2D;&#x6587;&#x6807;&#x51C6;&#x5973;&#x58F0;&#x97F3;&#x5E93;&#x3011;&#x91C7;&#x96C6;&#x5BF9;&#x8C61;&#x7684;&#x97F3;&#x8272;&#x98CE;&#x683C;&#x77E5;&#x6027;&#x9633;&#x5149;&#x3001;&#x4EB2;&#x5207;&#x81EA;&#x7136;&#xFF0C;&#x4E13;&#x4E1A;&#x6807;&#x51C6;&#x666E;&#x901A;&#x8BDD;&#x5973;&#x58F0;&#xFF0C;&#x542C;&#x611F;&#x4E50;&#x89C2;&#x79EF;&#x6781;&#x3002;&#x5F55;&#x5236;&#x73AF;&#x5883;&#x4E3A;&#x4E13;&#x4E1A;&#x5F55;&#x97F3;&#x5BA4;&#x548C;&#x5F55;&#x97F3;&#x8F6F;&#x4EF6;&#xFF0C;&#x5F55;&#x97F3;&#x73AF;&#x5883;&#x548C;&#x8BBE;&#x5907;&#x81EA;&#x59CB;&#x81F3;&#x7EC8;&#x4FDD;&#x6301;&#x4E0D;&#x53D8;&#xFF0C;&#x5F55;&#x97F3;&#x73AF;&#x5883;&#x7684;&#x4FE1;&#x566A;&#x6BD4;&#x4E0D;&#x4F4E;&#x4E8E;35dB;&#x5355;&#x58F0;&#x9053;&#x5F55;&#x97F3;&#xFF0C;&#x7528;48KHz 16&#x6BD4;&#x7279;&#x91C7;&#x6837;&#x9891;&#x7387;&#x3001;PCM WAV&#x683C;&#x5F0F;&#x3002;&#x5F55;&#x97F3;&#x8BED;&#x6599;&#x6DB5;&#x76D6;&#x5404;&#x7C7B;&#x65B0;&#x95FB;&#x3001;&#x5C0F;&#x8BF4;&#x3001;&#x79D1;&#x6280;&#x3001;&#x5A31;&#x4E50;&#x3001;&#x5BF9;&#x8BDD;&#x7B49;&#x9886;&#x57DF;&#xFF0C;&#x8BED;&#x6599;&#x8BBE;&#x8BA1;&#x7EFC;&#x5408;&#x8BED;&#x6599;&#x6837;&#x672C;&#x91CF;&#xFF0C;&#x529B;&#x6C42;&#x5728;&#x6709;&#x9650;&#x7684;&#x8BED;&#x6599;&#x6570;&#x636E;&#x91CF;&#x5185;&#xFF0C;&#x5BF9;&#x97F3;&#x8282;&#x97F3;&#x5B50;&#x3001;&#x7C7B;&#x578B;&#x3001;&#x97F3;&#x8C03;&#x3001;&#x97F3;&#x8FDE;&#x4EE5;&#x53CA;&#x97F5;&#x5F8B;&#x7B49;&#x5C3D;&#x53EF;&#x80FD;&#x5168;&#x9762;&#x7684;&#x8986;&#x76D6;&#x3002;&#x6839;&#x636E;&#x5408;&#x6210;&#x8BED;&#x97F3;&#x6807;&#x6CE8;&#x6807;&#x51C6;&#x5BF9;&#x97F3;&#x5E93;&#x8FDB;&#x884C;&#x6587;&#x672C;&#x97F3;&#x5B57;&#x6821;&#x5BF9;&#x3001;&#x97F5;&#x5F8B;&#x5C42;&#x7EA7;&#x6807;&#x6CE8;&#x3001;&#x8BED;&#x97F3;&#x6587;&#x4EF6;&#x8FB9;&#x754C;&#x5207;&#x5206;&#x6807;&#x6CE8;&#x3002;

processor = AutoProcessor.from_pretrained("tensorspeech/tts-tacotron2-baker-ch")

def do_synthesis(input_text, text2mel_model, vocoder_model, text2mel_name, vocoder_name):
    input_ids = processor.text_to_sequence(input_text, inference=True)

    if text2mel_name == "TACOTRON":
        _, mel_outputs, stop_token_prediction, alignment_history = text2mel_model.inference(
            tf.expand_dims(tf.convert_to_tensor(input_ids, dtype=tf.int32), 0),
            tf.convert_to_tensor([len(input_ids)], tf.int32),
            tf.convert_to_tensor([0], dtype=tf.int32)
        )
    elif text2mel_name == "FASTSPEECH2":
        mel_before, mel_outputs, duration_outputs, _, _ = text2mel_model.inference(
            tf.expand_dims(tf.convert_to_tensor(input_ids, dtype=tf.int32), 0),
            speaker_ids=tf.convert_to_tensor([0], dtype=tf.int32),
            speed_ratios=tf.convert_to_tensor([1.0], dtype=tf.float32),
            f0_ratios=tf.convert_to_tensor([1.0], dtype=tf.float32),
            energy_ratios=tf.convert_to_tensor([1.0], dtype=tf.float32),
        )
    else:
        raise ValueError("Only TACOTRON, FASTSPEECH2 are supported on text2mel_name")

    if vocoder_name == "MB-MELGAN":

        if text2mel_name == "TACOTRON":
            remove_end = 1024
        else:
            remove_end = 1
        audio = vocoder_model.inference(mel_outputs)[0, :-remove_end, 0]
    else:
        raise ValueError("Only MB_MELGAN are supported on vocoder_name")

    if text2mel_name == "TACOTRON":
        return mel_outputs.numpy(), alignment_history.numpy(), audio.numpy()
    else:
        return mel_outputs.numpy(), audio.numpy()

def visualize_attention(alignment_history):
    import matplotlib.pyplot as plt

    fig = plt.figure(figsize=(8, 6))
    ax = fig.add_subplot(111)
    ax.set_title(f'Alignment steps')
    im = ax.imshow(
        alignment_history,
        aspect='auto',
        origin='lower',
        interpolation='none')
    fig.colorbar(im, ax=ax)
    xlabel = 'Decoder timestep'
    plt.xlabel(xlabel)
    plt.ylabel('Encoder timestep')
    plt.tight_layout()
    plt.show()
    plt.close()

def visualize_mel_spectrogram(mels):
    mels = tf.reshape(mels, [-1, 80]).numpy()
    fig = plt.figure(figsize=(10, 8))
    ax1 = fig.add_subplot(311)
    ax1.set_title(f'Predicted Mel-after-Spectrogram')
    im = ax1.imshow(np.rot90(mels), aspect='auto', interpolation='none')
    fig.colorbar(mappable=im, shrink=0.65, orientation='horizontal', ax=ax1)
    plt.show()
    plt.close()

input_text = "这是一个开源的端到端中文语音合成系统"


tacotron2.setup_window(win_front=5, win_back=5)

Tacotron2 + MB-MelGAN

mels, alignment_history, audios = do_synthesis(input_text, tacotron2, mb_melgan, "TACOTRON", "MB-MELGAN")
visualize_attention(alignment_history[0])
visualize_mel_spectrogram(mels[0])
ipd.Audio(audios, rate=24000)

phoneme seq: sil zh e4 #0 sh iii4 #0 ^ i2 #0 g e4 #0 k ai1 #0 ^ van2 #0 d e5 #0 d uan1 #0 d ao4 #0 d uan1 #0 zh ong1 #0 ^ uen2 #0 ^ v3 #0 ^ in1 #0 h e2 #0 ch eng2 #0 x i4 #0 t ong3 sil

参考资料

https://www.msra.cn/zh-cn/news/features/neural-speech-synthesis-survey

Original: https://blog.csdn.net/yanqianglifei/article/details/121316351
Author: 致Great
Title: 2021新网银行金融科技挑战赛 Baseline

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512812/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Sklearn】【API详解】【SVM】- sklearn.svm.SVR参数详解（二）

SVR为Support Vector Regression的简写，顾名思义，其是基于支持向量的回归器模型中的两个自由参数为 C 和 epsilon，自由参数不能通过理论推测，可…

人工智能 2023年6月16日
00102
基于Pandas的数据清洗

源数据中会存在缺失值（空值）重复值异常值处理丢失处理有两种丢失数据： None np.nan(NaN) import numpy as np type(None)#None…

人工智能 2023年7月9日
0076
【基于MATLAB的数字图像处理】第四章·图像增强

系列文章 ·【基于MATLAB的数字图像处理】第一章·绪论 ·【基于MATLAB的数字图像处理】第二章·视觉系统与图像处理系统 ·【基于MATLAB的数字图像处理】第三章·基本图像…

人工智能 2023年6月17日
0099
第七届工程训练大赛垃圾分类

第七届全国大学生工程训练大赛垃圾分类前言一、机械结构设计 * 1.Solidworks建模 2.建模的不足以及改进 – 1.挡板的添加 2.履带防滑 3.整体实物 …

人工智能 2023年5月25日
0077
【数值预测案例】(7) CNN-LSTM 混合神经网络气温预测，附TensorFlow完整代码

大家好，今天和各位分享一下如何使用 Tensorflow 构建 CNN卷积神经网络和 LSTM 循环神经网络相结合的混合神经网络模型，完成对多特征的时间序列预测。本文预测模型的主…

人工智能 2023年7月30日
0056
【图像处理】基于matlab GUI多功能图像处理系统【含Matlab源码 1876期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【图像处理】基于matlab GUI多功能图像处理系统【含Matlab源码 1876期】点击上面蓝色字体，直接付费下载，…

人工智能 2023年6月20日
0083
利用Jupyter Notebook进行科学计算和数据分析

Jupyter Notebook Jupyter Notebook 作为一个编辑器，非常的受欢迎。它的代码和输出结果都保存在同一个文件中。需要时直接发一个文件就能在其它电脑快速运行…

人工智能 2023年7月15日
00130
win10上用实例分割网络SOLO训练自己的数据集（mmdetection版本）

这个网络架构在win10上和ubuntu上都搭起来了，里面有的截图是用的ubuntu系统的截图，不影响我的环境 Python版本 3.7CUDA版本 11.1PyTorch版本 …

人工智能 2023年7月10日
0080
IDEA 连接MySQL与使用方式

IDEA 连接MySQL方式 MySQL使用命令行的形式实在是有点难受，多行书写的时候要是写错了就比较难过了，因此还是需要一个图形化的操作界面。有很多可选择方式，由于之前就下载了I…

人工智能 2023年6月4日
0052
计算机视觉人体骨骼点动作识别-1.训练自己的关键点检测模型

人体关键点检测算法关键点并不特指人体骨骼关键点，还有人脸关键点，物体的关键点。其中人体的关键点，也叫作pose Estimation，是最热门，也是最有难度，应用最广的。应用可以…

人工智能 2023年6月26日
00135
神经网络务实：Linux下用GPU玩转TensorFlow

神经网络务实：Linux下用GPU玩转TensorFlow * – 前言： – 零、准备软硬件环境 – + 1、主机：IBMs20工作站 + 2…

人工智能 2023年5月24日
0080
解决pandas：ValueError: Cannot convert non-finite values (NA or inf) to integer

解决pandas：ValueError: Cannot convert non-finite values (NA or inf) to integer 目录解决pandas：V…

人工智能 2023年6月25日
0060
CDGA考试-2022年最新模拟题一套100道题（含答案）

CDGA考试-2022年最新模拟题一套100道题（含答案），最新考试题每道题四个答案。 1.根据DMBOK2,在实施数据治理时,要注重数据标准的建设;以下关于数据标准的描述,错误的…

人工智能 2023年6月19日
0092
基于51单片机的空气温湿度及土壤湿度浇花控制WIFI无线传输系统proteus仿真原理图

功能介绍：0.本系统采用STC89C52作为单片机1.LCD1602实时显示当前土壤湿度，环境温湿度2.按键可设定土壤湿度和环境温湿度阈值3.超过设定阈值时，控制继电器，温度过高时…

人工智能 2023年6月27日
0087
人工智能——多项式回归（Python）

1、概述 1.1 有监督学习 1.2 多项式回归 2 概念 3 案例实现——方法1 3.1 案例分析 3.2 代码实现 3.3 结果 3.4 可视化 4 案例实现——方法2 4.1…

人工智能 2023年6月17日
00134
tensorflow使用中遇到的问题

【关键词：TensorFlow问题】 C:\Users\Administrator\anaconda3\python.exe D:/Users/Administrator/Pych…

人工智能 2023年5月26日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2021新网银行金融科技挑战赛 Baseline

; 安装所需要的包

语音合成模型梳理

; TTS核心模块

文本分析

; 声学模式

声码器

; 完全端到端模型

TTS模型分类

; 模型演进

TTS 进阶课题

; 加载模型

Tacotron2

FastSpeech2

MB-MelGAN

预测

Tacotron2 + MB-MelGAN

参考资料

大家都在看