《CLOSING THE GAP BETWEEN TIME-DOMAIN MULTI-CHANNEL SPEECHENHANCEMENT ON REAL AND SIMULATION CONDIT》论

研究动机

时域上的深度学习方法,不管是多通道还是单通道的语音增强,这些方法都操作在了模拟的数据上面。这样的话,在真实的数据上泛化性能好不好就是未知的。所以这篇论文为了探究在模拟数据和真实数据上的差距而做的实验,并且尽可能去弥补这种差距。最开始的实验这种差距表现的很大,为了弥补这些差距,将多通道的Conv-TasNet整合到beamforming模型中,并且采用了联合训练方式和语音识别模型测试性能。实验数据用的是CHiME-4语料库,这是一个多通道的语料库,通过上述方法可以减小ASR的词错误率。

INTRODUCTION

首先说了一下为什么要用多通道的数据? 因为多通道的数据由语音的空间信息,可以利用空间信息进一步提高增强的性能。最直接使用多通道数据的方法就是把多通道的语音数据应用到单通道的数据模型上面,但是这样操作会使得增强后的语音产生伪影,进而会影响下游任务ASR的性能。所以另一种方法就是应用beamformer,这种方式可以预测到mask,用mask方式去解决。一种传统的波束模型叫做minimum variance distortionless response (MVDR)。这种方法使得下游任务性能比较好,泛化性能好。

这篇论文的主要目的是弥补模拟数据和真实数据之间的差距。因为TasNet有比较好的模型处理能力,MVDR方法使得增强的效果很好,引入的失真很少。所以想采用这两种模型试试增强的效果好不好,但是这种实验只在模拟数据上做过,真实数据上的实验还没有研究过。作者的工作就是将

MC-Conv-TasNet and Beam-TasNet在模拟数据和真实数据上进行了训练,发现在真实数据上会产生音频的损坏。为了减小这种损失,提出了两种训练的方式来提高性能。第一种就是探索在Beam-TasNet上面各种各样的整合策略。第二种就是联合训练f MC-Conv-TasNet 和ASR模型。这里为什么要用ASR模型呢?因为对于真实的数据,是没有参考信号的,所以增强的测试指标的方法是用不了的,转而可以采用测试ASR的词错误率的指标来表现增强的性能好坏。实验结果也表明效果还不错。

第一种方法:

MC-Conv-TasNet模型首先是在模拟数据集上进行训练的,是由多通道的编码器,分离器和解码器组成的。多通道的编码器整合了多个通道的输入到一个隐含的表示,之后经过分离器和解码器的处理产生了单通道的增强信号,为了产生所有通道的增强信号, MC-Conv-TasNet是以一种通道感知的方式去训练的,下面都叫做MC-Conv-TasNet。原始的多通道数据会通过数据的反转和变换等等手段来使得数据增多。MC-Conv-TasNet模型训练用第一个通道的数据作为参考通道的数据。上述的过程可以简短概括为:多通道的数据输入到网络的解码器里面,得到一个高维特征表示,将这个高维特征表示送入到分离器中得到一个mask,将这个mask和高维特征表示逐元素相乘送入到解码器里面分别得到语音和噪音对应的数据。得到了最终的多通道数据之后,需要计算对应的语音和噪声的协方差矩阵,得到协方差矩阵的计算结果之后,去计算MVDR,计算得到MVDR以后,用原始带噪音频去和计算MVDR得到的结果相乘,得到增强语音。

整合的策略:MVDR分为两种,一种是sig-MVDR,一种是mask-MVDR。因为前者可能会对语音的空间信息造成干扰,所以选择了mask的方式。

第二种方法:

这种方法是联合训练和优化 e MC-Conv-TasNet和ASR,这样可以减少增强网络和识别网络之间的不匹配性质。联合训练的方式损失是增强的损失和识别的损失。

数据准备:

用的是6个通道的数据,评估是在看不见的环境下评估的。42828(9600), 1640 (1640), and 1320 (1320) simulated (real) 。为了训练,又多加了一个数据集,WSJ。

实验结果:

结论

实验证明在多通道的数据集上,迷你数据和真实数据之间会产生比较大的差距,但是这种差距可以进行后天的人为弥补。

Original: https://blog.csdn.net/qq_46079584/article/details/123738567
Author: qq_46079584
Title: 《CLOSING THE GAP BETWEEN TIME-DOMAIN MULTI-CHANNEL SPEECHENHANCEMENT ON REAL AND SIMULATION CONDIT》论

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/516113/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球