【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

2023年5月28日上午9:44 • 人工智能 • 阅读 91

作者：Ashutosh Pandey and DeLiang Wang

文末附文章地址及其开源代码地址

1.动机

尽管使用 T-F 表示是最流行的方法，但它也有一些缺点。首先，这些方法通常忽略干净的相位信息，并使用噪声相位进行时域信号重建。

2.方法

受成功实现用于序列建模的 TCNN 以及基于编解码器架构的时域语音增强的有效性的启发，建议将它们结合起来以获得实时增强系统。所提出的模型具有基于编码器-解码器的架构，该架构由因果卷积层组成。在编码器和解码器之间插入一个 TCM，以学习过去的长期依赖关系。

3.TCNN

TCNN 是为具有因果约束的序列建模任务提出的通用卷积网络。给定一个输入序列和相应的输出序列，序列建模网络通过在某个损失函数上训练网络来学习估计输出序列。网络上的因果约束意味着预测序列仅取决于输入序列，而不是未来输入。在时域语音增强的情况下，输入序列是噪声帧序列，输出序列是干净帧序列。

为了施加因果约束，TCNN 由因果卷积层和扩张卷积层组成。因果卷积确保信息不会从未来泄漏到过去。扩张的卷积有助于增加receptive field。receptive field越大，网络越能回顾过去。下说明了使用大小为 2 的滤波器的扩张和因果卷积的示例。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

此外，TCNN 由残差块组成，因此可以使用残差学习充分训练深度网络。下图显示了这项工作中使用的残差块。

4.网络架构

提出的 TCNN 具有三个组件：编码器、解码器和 TCM。编码器和解码器由二维因果卷积层组成，而 TCM 由一维因果卷积层和扩张卷积层组成。所提出框架的框图如下图所示

编码器将噪声帧序列作为输入。输入到编码器的大小为 T × 320 × 1，其中 T 是帧数，320 是帧大小，1 是输入通道数。TCM 将三个膨胀块堆叠在一起。一个膨胀块是通过堆叠六个具有指数增加膨胀率的残差块形成的。在膨胀块中，残差块中的连续膨胀率为 1、2、4、8、16 和 32。解码器是编码器的镜像，由一系列二维因果转置卷积（反卷积）层组成。每一层之后解码器的输出与编码器中相应对称层的输出连接。在训练时，向来自编码器的传入跳过连接添加 0.3 的 dropout。解码器中的每一层都遵循批量归一化和参数 ReLU 非线性。

详细的网络参数在下图中给出。对于编码器和解码器，超参数的格式为 filterHeight × filterWidth，（沿时间步长，沿跨帧步长）。对于 TCM，小括号括起来的条目表示残差块，超参数的格式为 filterSize、dilationRate、outputChannels。

5.实验

5.1 数据集

在 WSJ0 SI-84 数据集上以与说话人和噪声无关的方式评估所提出的框架。WSJ0 SI-84 数据集由 83 位说话者（42 位男性和 41 位女性）的 7138 条话语组成。为测试集选择了六个说话人剩下的 77 个说话人用于创建训练集混合。对于训练噪音，使用来自音效库（可在 www.sound-ideas.com 获得）中的 10000 个非语音声音。训练话语的 SNR 为 -5 dB、-4 dB、-3 dB、-2 dB、-1 dB 和 0 dB。通过以下方式创建噪音。首先，随机选择训练说话者的话语、SNR 和噪声类型。然后在选定的 SNR 处将选定的话语与选定噪声类型的随机片段混合。总共生成了 320000 个训练话语。训练噪音的持续时间约为 125 小时，训练话语的持续时间约为 500 小时。

对于测试集，使用 Auditec CD（可从 http://www.auditec.com 获得）中的两种具有挑战性的噪音（babble and cafeteria）。创建了两个测试集。第一个测试集使用来自训练集的 6 名说话者（3 名男性和 3 名女性）的话语。第二个测试集是根据未包含在训练集中的 6 位（3 位男性和 3 位女性）说话者的话语创建的。这两个测试集评估了受过训练和未受过训练的演讲者的表现。请注意，所有测试话语都从训练集中排除。

5.2 基线

对于基线，训练了两个模型。首先，训练一个基于 LSTM 的实时因果系统。在结果中将此模型称为 LSTM。.从输入层到输出层，LSTM模型有161、1024、1024、1024、1024、161单元。其次，训练了最近提出的另一个实时因果系统。该系统是一种循环卷积架构，它使用基于编码器-解码器的卷积网络和 LSTM 进行循环。在结果中将此模型称为 CRN。请注意，两个基线模型都在频域中运行。

5.3 实验设置

所有的话语都被重新采样到 16 kHz。使用大小为 20 ms 且重叠为 10 ms 的矩形窗口提取帧。所有模型都使用均方误差损失和batch size为8进行训练。小话语被零填充以匹配批次中最大话语的大小。Adam 优化器用于基于随机梯度下降 (SGD) 的优化。学习率设置为一个小的常数值，等于 0.0002。

5.4 实验结果

在STOI和PESQ分数方面比较模型。首先，将 TCNN 与受过训练的说话者的基线进行比较。结果在下表给出

与LSTM相比，两个SNR的STOI平均改善6.1%。PESQ在-5 dB时提高了0.14，在-2 dB时提高了0.17。类似地，与CRN相比，SNR上的STOI提高了4%，PESQ在-5 dB上提高了0.04，在-2 dB上提高了0.09。

在未经训练的说话人上比较模型。结果见下表

除了在这种情况下，TCNN 在 PESQ 分数方面也显着优于 CRN，在性能改进中也观察到了类似的趋势。这表明 CRN 模型过拟合训练集中的说话者。还比较了模型中可训练参数的数量。数字在下表中给出。与基线模型相比，所提出的模型具有更少的参数，使其适合在实际应用中的有效实现。

最后，值得一提的是，所提出的框架可以在输入端接受可变帧大小。唯一需要的更改是根据所需的帧大小从编码器和解码器中添加或删除层。此外，该模型可以轻松应用于其他基于回归的监督语音处理任务，例如说话人分离、去混响和回声消除。

6.结论

在这项研究中，作者提出了一种新颖的全卷积神经网络，用于时域的实时语音增强。所提出的 TCNN 在频域中显着优于现有的实时系统。此外，所提出的框架具有更少的可训练参数。此外，通过对网络的编码器和解码器的简单修改，系统很容易适应不同的帧大小。

开源代码地址：暂无

Original: https://blog.csdn.net/qq_41893773/article/details/123965841
Author: 怕鸭鸭不怕
Title: 【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530825/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python机器学习零基础理解线性回归分析

大家好，我是Mr数据杨。你是否想过，诸葛亮空城计的背后，其实隐藏着一套精细的”线性回归模型”? 他预测敌人行动的依据，犹如构建模型的”目标函数&…

人工智能 2023年7月16日
0051
YOLOv5环境搭建

安装conda 1、Conda 是开源的包管理系统和环境管理系统，可以安装软件包的多个版本和依赖，而且方便切换。可以安装Miniconda，实现安装conda的目的。下载地址,注意…

人工智能 2023年7月13日
0076
ubuntu20.04+ros noetic+ur3+movelt+rivz仿真+实物控制保姆级教程

1 * – Ubuntu20.04安装 – ros安装 – 仿真 – ur3实物控制 – 常用网站 Ubuntu20.0…

人工智能 2023年6月10日
0094
python计算机视觉相机标定–张正友棋盘格标定法

目录前言环境一、实验原理 1.1 相机标定简介 1.2 算法流程 1.3 计算单应性矩阵H 1.4 计算内参数矩阵 1.5 计算外参数矩阵 1.6 最大似然估计二、代码实现…

人工智能 2023年5月28日
0086
本体集成和映射

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、本体集成 * 1 基于单本体的集成 2 基于全局本体-局部本体的集成二、本体映射分类 * …

人工智能 2023年6月1日
0062
什么是Huber回归

关于Huber回归问题 Huber回归是一种鲁棒（robust）回归方法，用于在存在数据噪声或异常值的情况下估计线性模型的参数。与普通的最小二乘回归不同，Huber回归可以更好地处…

人工智能 2023年12月31日
0030
Pascal VOC数据集介绍，内网环境下在上运行TFA代码（Frustratingly Simple Few-Shot Object Detection）

(转载）记录ubuntu16.04安装torch0.4+torchvision0.2 （pip方法,python2.7）。其中torchvision中有的包安装不成功，可以从报错日…

人工智能 2023年5月25日
00119
CoCo数据集下载

文章目录 1.介绍 2.下载 * 2.1 官网 2.2 百度网盘 2.3 下载到linux服务器 1.介绍 MS COCO的全称是Microsoft Common Objects …

人工智能 2023年6月23日
0092
NTU_RGB+D数据集介绍及骨架数据可视化

目录 1–NTU_RGB+D数据集 1-1–NTU_RGB+D数据集下载 1-2–NTU_RGB+D数据集介绍 2–骨架数据可视化代…

人工智能 2023年6月17日
00112
迁移学习(Transfer Learning)

迁移学习作为机器学习的一个分支，一直比较好奇，接着这篇文章对迁移学习做一个简单的了解(本篇只涉及外围，没有太多细节)。文章围绕以下主题产生：1.迁移学习概要2.迁移学习的分类3.迁…

人工智能 2023年6月22日
0064
【NLP基础理论】03 文本分类

注： Unimelb Comp90042 NLP笔记相关tutorial代码链接 Text Classification（文本分类）目录 Text Classification…

人工智能 2023年7月1日
0063
bash美化

立竿见影在 ~/.bashrc里添加两行 PS1="\[\033[m\]|\[\033[1;35m\]\t\[\033[m\]|\[\e[1;31m\]\u\[\e[1…

人工智能 2023年6月4日
0076
Global Tracking Transformers (多目标跟踪2022CVPR)

Global Tracking Transformers 论文地址：https://arxiv.org/abs/2203.13250代码： https://github.com/x…

人工智能 2023年7月10日
0093
讯飞AIUI智能机器人5—–让器理解你（语音技术综合应用）

🍖🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖…

人工智能 2023年7月25日
0059
朴素贝叶斯模型及案例（Python）

1 朴素贝叶斯的算法原理 2 一维特征变量下的贝叶斯模型 3 二维特征变量下的贝叶斯模型 4 n维特征变量下的贝叶斯模型 5 朴素贝叶斯模型的sklearn实现 6 案例：肿瘤预测…

人工智能 2023年7月15日
0073
数字孪生城市三维地图从零开发指南（上）

简介最近，ESMap 推出了数字孪生城市版的三维地图 SDK，对比之前的室内三图场景，城市三维地图场景更大，要解决的问题更多，后面我们会专门介绍城市地图引擎的架构。本文将针对如何…

人工智能 2023年6月4日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

5.1 数据集

5.2 基线

5.3 实验设置

5.4 实验结果

大家都在看