【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

作者:Ashutosh Pandey and DeLiang Wang

文末附文章地址及其开源代码地址

1.动机

尽管使用 T-F 表示是最流行的方法,但它也有一些缺点。首先,这些方法通常忽略干净的相位信息,并使用噪声相位进行时域信号重建。

2.方法

受成功实现用于序列建模的 TCNN 以及基于编解码器架构的时域语音增强的有效性的启发,建议将它们结合起来以获得实时增强系统。所提出的模型具有基于编码器-解码器的架构,该架构由因果卷积层组成。在编码器和解码器之间插入一个 TCM,以学习过去的长期依赖关系。

3.TCNN

TCNN 是为具有因果约束的序列建模任务提出的通用卷积网络 。给定一个输入序列和相应的输出序列,序列建模网络通过在某个损失函数上训练网络来学习估计输出序列 。网络上的因果约束意味着预测序列仅取决于输入序列,而不是未来输入。在时域语音增强的情况下,输入序列是噪声帧序列,输出序列是干净帧序列。

为了施加因果约束,TCNN 由因果卷积层和扩张卷积层组成。因果卷积确保信息不会从未来泄漏到过去。扩张的卷积有助于增加receptive field。receptive field越大,网络越能回顾过去。下说明了使用大小为 2 的滤波器的扩张和因果卷积的示例。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

此外,TCNN 由残差块组成,因此可以使用残差学习充分训练深度网络。下图显示了这项工作中使用的残差块。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

4.网络架构

提出的 TCNN 具有三个组件:编码器、解码器和 TCM。编码器和解码器由二维因果卷积层组成,而 TCM 由一维因果卷积层和扩张卷积层组成。所提出框架的框图如下图所示

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

编码器将噪声帧序列作为输入。输入到编码器的大小为 T × 320 × 1,其中 T 是帧数,320 是帧大小,1 是输入通道数。TCM 将三个膨胀块堆叠在一起。一个膨胀块是通过堆叠六个具有指数增加膨胀率的残差块形成的。在膨胀块中,残差块中的连续膨胀率为 1、2、4、8、16 和 32。解码器是编码器的镜像,由一系列二维因果转置卷积(反卷积)层组成。每一层之后解码器的输出与编码器中相应对称层的输出连接。在训练时,向来自编码器的传入跳过连接添加 0.3 的 dropout。解码器中的每一层都遵循批量归一化和参数 ReLU 非线性。

详细的网络参数在下图中给出。对于编码器和解码器,超参数的格式为 filterHeight × filterWidth,(沿时间步长,沿跨帧步长)。对于 TCM,小括号括起来的条目表示残差块,超参数的格式为 filterSize、dilationRate、outputChannels。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

5.实验

5.1 数据集

在 WSJ0 SI-84 数据集上以与说话人和噪声无关的方式评估所提出的框架。WSJ0 SI-84 数据集由 83 位说话者(42 位男性和 41 位女性)的 7138 条话语组成。为测试集选择了六个说话人剩下的 77 个说话人用于创建训练集混合。对于训练噪音,使用来自音效库(可在 www.sound-ideas.com 获得)中的 10000 个非语音声音。训练话语的 SNR 为 -5 dB、-4 dB、-3 dB、-2 dB、-1 dB 和 0 dB。通过以下方式创建噪音。首先,随机选择训练说话者的话语、SNR 和噪声类型。然后在选定的 SNR 处将选定的话语与选定噪声类型的随机片段混合。总共生成了 320000 个训练话语。训练噪音的持续时间约为 125 小时,训练话语的持续时间约为 500 小时。

对于测试集,使用 Auditec CD(可从 http://www.auditec.com 获得)中的两种具有挑战性的噪音(babble and cafeteria)。创建了两个测试集。第一个测试集使用来自训练集的 6 名说话者(3 名男性和 3 名女性)的话语。第二个测试集是根据未包含在训练集中的 6 位(3 位男性和 3 位女性)说话者的话语创建的。这两个测试集评估了受过训练和未受过训练的演讲者的表现。请注意,所有测试话语都从训练集中排除。

5.2 基线

对于基线,训练了两个模型。首先,训练一个基于 LSTM 的实时因果系统。在结果中将此模型称为 LSTM。.从输入层到输出层,LSTM模型有161、1024、1024、1024、1024、161单元。其次,训练了最近提出的另一个实时因果系统。该系统是一种循环卷积架构,它使用基于编码器-解码器的卷积网络和 LSTM 进行循环。在结果中将此模型称为 CRN。请注意,两个基线模型都在频域中运行。

5.3 实验设置

所有的话语都被重新采样到 16 kHz。使用大小为 20 ms 且重叠为 10 ms 的矩形窗口提取帧。所有模型都使用均方误差损失和batch size为8进行训练。小话语被零填充以匹配批次中最大话语的大小。Adam 优化器用于基于随机梯度下降 (SGD) 的优化。学习率设置为一个小的常数值,等于 0.0002。

5.4 实验结果

在STOI和PESQ分数方面比较模型。首先,将 TCNN 与受过训练的说话者的基线进行比较。结果在下表给出

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

与LSTM相比,两个SNR的STOI平均改善6.1%。PESQ在-5 dB时提高了0.14,在-2 dB时提高了0.17。类似地,与CRN相比,SNR上的STOI提高了4%,PESQ在-5 dB上提高了0.04,在-2 dB上提高了0.09。

在未经训练的说话人上比较模型。结果见下表

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

除了在这种情况下,TCNN 在 PESQ 分数方面也显着优于 CRN,在性能改进中也观察到了类似的趋势。这表明 CRN 模型过拟合训练集中的说话者。还比较了模型中可训练参数的数量。数字在下表中给出。与基线模型相比,所提出的模型具有更少的参数,使其适合在实际应用中的有效实现。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

最后,值得一提的是,所提出的框架可以在输入端接受可变帧大小。唯一需要的更改是根据所需的帧大小从编码器和解码器中添加或删除层。此外,该模型可以轻松应用于其他基于回归的监督语音处理任务,例如说话人分离、去混响和回声消除。

6.结论

在这项研究中,作者提出了一种新颖的全卷积神经网络,用于时域的实时语音增强。所提出的 TCNN 在频域中显着优于现有的实时系统。此外,所提出的框架具有更少的可训练参数。此外,通过对网络的编码器和解码器的简单修改,系统很容易适应不同的帧大小。

开源代码地址:暂无

Original: https://blog.csdn.net/qq_41893773/article/details/123965841
Author: 怕鸭鸭不怕
Title: 【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530825/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球