【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

作者:Yanxin Hu,Yun Liu,Shubo Lv,Mengtao Xing,Shimin Zhang,Yihui Fu,Jian Wu,Bihong Zhang, Lei Xie

文末附论文地址及其开源代码地址

  1. 动机

卷积循环网络(CRN)集成了卷积编码器-解码器(CED)结构和长短期记忆(LSTM),已被证明有助于复杂目标,为了更有效地训练复杂目标,在本文中提出了一种新的网络结构称为深度复杂卷积循环网络(DCCRN)。

  1. 方法

本文提出的DCCRN网络架构优化了 SI-SNR 损失。该网络有效地结合了 DCUNET 和 CRN 的优点,使用 LSTM 对时间上下文进行建模,显着降低了可训练参数和计算成本。

  1. DCCRN模型

3.1 卷积循环网络结构

最初在,中描述的卷积循环网络 (CRN) 本质上是一种因果 CED 架构,在编码器和解码器之间有两个 LSTM 层。在这里,LSTM 专门用于对时间依赖项进行建模。编码器由五个 Conv2d 块组成,旨在从输入特征中提取高级特征,或降低分辨率。随后,解码器将低分辨率特征重构为输入的原始大小,从而将编码器-解码器结构引入对称设计。详细地,编码器/解码器Conv2d块由卷积/反卷积层组成,然后是批量归一化和激活函数。跳过连接通过集中编码器和解码器有利于梯度的流动。

与具有幅度映射的原始 CRN 不同,Tan 等人。 最近提出了一种带有一个编码器和两个解码器的改进结构,用于对从输入混合到干净语音的复杂 STFT 频谱图的实部和虚部进行建模。与传统的仅幅度目标相比,同时增强幅度和相位取得了显着的进步。然而,他们将实部和虚部视为两个输入通道,仅应用一个共享实值卷积滤波器的实值卷积运算,不受复杂乘法规则的限制。因此,网络可以在没有先验知识的情况下学习实部和虚部。为了解决这个问题,本文提出的 DCCRN 对 CRN 进行了实质性的修改,在编码器/解码器中加入了复杂的 CNN 和复杂的批量归一化层,并且还考虑了复杂的 LSTM 来替代传统的 LSTM。具体来说,复数模块通过复数乘法的模拟来模拟幅度和相位之间的相关性。

【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

3.2 具有复杂网络的编码器和解码器

【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

复数编码器块包括复数Conv2d、复数批量归一化和实值PReLU。复数的批量归一化和 PReLU 遵循原论文的实现。我们根据DCUNET中的模块设计了复数的Conv2d模块。复数 Conv2d 由四个传统的 Conv2d 操作组成,它们控制整个编码器的复数信息流。

3.3 训练目标

训练时,DCCRN 估计 CRM 并通过信号逼近 (SA) 进行优化。我们可以为 DCCRN 使用三种乘法模式,稍后将与实验进行比较。具体地,估计的干净语音 s˜可以如下计算。DCCRN-C 以 CSA 的方式获得S˜,DCCRN-R 分别估计Y˜的实部和虚部的掩码。此外,DCCRN-E在极坐标中执行,它在数学上类似于 DCCRN-C。不同之处在于 DCCRN-E 使用 tanh 激活函数将掩码幅度限制为 0 到 1。CSA代表CRM的SA,CRM为复比率掩码,SA为信号逼近。

3.4 损失函数

模型训练的损失函数是SI-SNR

  1. 实验

4.1 数据集

首先在 WSJ0上模拟的数据集上评估了所提出的模型以及几个基线,然后在 Interspeech2020 DNS Challenge 数据集上进一步评估了性能最佳的模型。对于第一个数据集,我们从 WSJ0中选择了 24500 个话语(约 50 小时),其中包括 131 名说话者(66 名男性和 65 名女性)。我们将训练、验证和评估集分别打乱和拆分为 20000、3000 和 1500 个话语。噪声数据集包含来自 MUSAN的 6.2 小时无声噪声和 42.6 小时音乐,我们使用 41.8 小时用于训练和验证,其余 7 小时用于评估。训练和验证中的语音噪声混合是通过从语音集和噪声集中随机选择话语并以 -5 dB 和 20 dB 之间的随机 SNR 混合它们来生成的。评估集在 5 个典型 SNR(0 dB、5 dB、10 dB、15 dB、20 dB)下生成。第二个大数据集基于 DNS 挑战提供的数据。180 小时的 DNS 挑战噪音集包括 150 个类别和 65,000 个噪音片段,而干净的语音集包括来自 2150 位演讲者的超过 500 小时的片段。为了充分利用数据集,我们在模型训练期间通过动态混合来模拟语音噪声混合。详细地说,在每个训练时期,我们首先将语音和噪声与一个(RIR)进行卷积,该 (RIR) 是通过图像方法从模拟的 3000-RIR 集中随机选择的。然后通过在 -5 到 20 dB 之间的随机 SNR 下混合混响语音和噪声来动态生成语音-噪声混合。经过 10 个 epoch 的训练,模型”看到”的总数据超过 5000 小时。我们使用官方测试集进行客观评分和最终模型选择。

4.2 训练设置和基线

LSTM:一个半因果模型包含两个 LSTM 层,每层有 800 个单元;我们添加一个卷积层,其中内核大小在时间维度上为 7,前瞻为 6 帧,以实现半因果。输出层是一个 257 个单元的全连接层。输入和输出分别是带有MSA的噪声谱图和估计干净谱图。

CRN:半因果模型包含一个编码器和两个解码器,其最佳配置如[24]所示。输入和输出是噪声和估计的STFT复谱图的实部和虚部。两个解码器分别处理实部和虚部。Kernel size在频率和时间维度上也是 (3,2),步幅设置为 (2,1)。对于编码器,我们在通道维度连接实部和虚部,因此输入特征的形状为[BatchSize, 2, Frequency, Time]。此外,编码器中每一层的输出通道为{16,32,64,128,256,256}。隐藏的 LSTM 单元为 256 个,而具有 1280 个单元的密集层位于最后一个 LSTM 之后。由于跳过连接,实数或虚数解码器的输入通道中的每一层都是{512,512,256,128,64,32}。

DCCRN:DCCRN-R、DCCRN-C、DCCRN-E 和 DCCRN-CL 四种型号(掩蔽如 DCCRN-E)。所有这些模型的直流分量都被删除了。前三个 DCCRN 的通道数是 {32,64,128,128,256,256},而 DCCRN-CL 是 {32,64,128,256,256,256}。Kernel size 大小和步幅分别设置为 (5,2) 和 (2,1)。前三个 DCCRN 的真实 LSTM 是两层,有 256 个单位,而 DCCRN-CL 使用复数 LSTM,实部和虚部分别有 128 个单位。最后一个 LSTM 之后是一个有 1024 个单元的密集层。

DCUNET:我们使用 DCUNET-16 进行比较,时间维度上的步幅设置为 1 以适应 DNS 质询规则。此外,编码器中的通道设置为 [72,72,144,144,144,160,160,180]。

对于半因果卷积的实现,与实践中常用的因果卷积只有两点不同。首先,我们在编码器中每个 Conv2d的时间维度前面填充零。其次,对于解码器,我们在每个卷积层中向前看一帧。这最终导致 6 帧头,总共 6 × 6.25 = 37.5 毫秒,受限于 DNS 质询限制 40 毫秒。

4.3 实验结果与讨论

表 1 显示了测试集上的 PESQ 分数。在每种情况下,最佳结果均以粗体数字突出显示。

【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

在模拟的 WSJ0 测试集上,我们可以看到四个 DCCRN 的性能优于基线 LSTM 和 CRN,这表明了复杂卷积的有效性。DCCRNCL 实现了比其他 DCCRN 更好的性能。这进一步表明,复杂的 LSTM 也有利于复杂的目标训练。此外,我们可以看到全复值网络 DCCRN 和 DCUNET 在 PESQ 中是相似的。值得注意的是,根据我们的运行时测试,DCUNET 的计算复杂度几乎是 DCCRN-CL 的 6 倍。

在 DNS 挑战中,我们使用 DNS 数据集评估两个最佳 DCCRN 模型和 DCUNET。表 2 显示了测试集上的 PESQ 分数。

【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

同样,DCCRN-CL 总体上比 DCCRN-E 实现了一点点更好的 PESQ。但在我们的内部受试者聆听后,我们发现 DCCRN-CL 可能会过度抑制某些片段上的语音信号,从而导致不愉快的聆听体验。DCUNET 在合成非混响集上获得了较好的 PESQ,但在合成混响集上其 PESQ 会显着下降。我们认为,当不同系统的客观分数接近时,主观聆听变得非常重要。由于这些原因,最终选择了 DCCRN-E 进行实时跟踪。为了提高在混响集的性能,我们在训练集中添加了更多的 RIR,以生成一个名为 DCCRN-E-Aug 的模型,该模型被选用于非实时音轨。根据表 3 中最终盲测集的结果,DCCRN-E-Aug 的 MOS 在混响集上有 0.02 的小幅提升。表 3 总结了挑战组织者提供的两个赛道中几个顶级系统的最终 P.808 主观评估结果。我们可以看到我们提交的模型总体上表现良好。DCCRN-E 在所有设置上的平均 MOS 为 3.42,在非混响设置上为 4.00。

  1. 结论

在这项研究中,我们提出了一种用于语音增强的深度复杂卷积循环网络。DCCRN 模型利用复杂网络进行复值频谱建模。在复杂的乘法规则约束下,DCCRN 在模型参数配置相似的情况下,在 PESQ 和 MOS 方面可以取得比其他算法更好的性能。

Original: https://blog.csdn.net/qq_41893773/article/details/123945012
Author: 怕鸭鸭不怕
Title: 【语音增强论文解读 02】DCCRN: Deep Complex Convolution Recurrent Network for Phase-AwareSpeech Enhancement

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/690028/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球