基于深度学习的单通道语音增强

2023年5月27日上午6:32 • 人工智能 • 阅读 63

本文代码请见：https://github.com/Ryuk17/SpeechAlgorithms

博客地址(转载请指明出处)：https://www.cnblogs.com/LXP-Never/p/14142108.html
如果你觉得很不错，就像👍一样，关注就是对我最大的支持，谢谢😃

[En]

If you think it’s pretty good, like 👍, follow is the biggest support for me, thank you 😃

传统的语音增强方法都是基于一些先验假设，但这些先验假设是不合理的。此外，传统的语音增强依赖于参数设置、人工体验等。随着深度学习的发展，越来越多的人开始关注利用深度学习来解决语音增强问题。鉴于单声道的广泛应用，本文以单声道语音增强为例。

[En]

Traditional speech enhancement methods are based on some a priori assumptions, but these prior assumptions are unreasonable. In addition, traditional speech enhancement depends on the setting of parameters, manual experience and so on. With the development of deep learning, more and more people begin to pay attention to using deep learning to solve the problem of speech enhancement. As single-channel is widely used, this paper takes single-channel speech enhancement as an example.

目前基于DNN单通道大致可以分为两种方法，

第一种寻求噪声语音谱与纯净语音谱的映射
*第二种基于mask的方法

基于映射的语音增强

基于映射的语音增强方法训练神经网络模型来映射噪声谱和纯谱之间的关系。该过程如下图所示。很多博客和文章也谈到了这种方法，但我觉得不详细，这让初学者看起来很困惑。

[En]

The mapping-based speech enhancement method trains the neural network model to map the relationship between the noise spectrum and the pure spectrum. The process is shown in the following figure. Many blogs and articles also talk about this method, but I think it is not detailed, which makes the beginners look confused.

训练阶段

输入：这里采用较为简单地特征，即 带噪声语音信号的幅度谱，也可以采用其他的特征。值得一提的是，如果你的输入是一帧，对应输出也是一帧的话效果一般不会很好。因此一般采用扩帧的技术，如下图所示，即每次输入除了当前帧外还需要输入当前帧的前几帧和后几帧。这是因为语音具有短时相关性，对输入几帧是为了更好的学习这种相关性

Label：数据的 label为纯净语音信号的幅度谱，这里只需要一帧就够了。
损失函数：学习噪声幅度谱与纯净语音信号的幅度谱类似于一个回归问题，因此损失函数采用回归常用的损失函数，如均方误差(MSE)、均方根误差(RMSE)或平均绝对值误差(MAE)等….
最后一层的激活函数：由于是回归问题，最后一层采用线性激活函数
其他：输入的幅度谱进行 归一化可以加速学习过程和更好的收敛。如果不采用幅度谱可以采用功率谱，要注意的是功率谱如果采用的单位是dB，需要对数据进行预处理，因为log的定义域不能为0，简单的方法就是在取对数前给等于0的功率谱加上一个非常小的数

增强阶段

输入：输入为噪声信号的幅度谱，这里同样需要扩帧。对输入数据进行处理可以在语音信号加上值为0的语音帧，或者舍弃首尾的几帧。如果训练过程对输入进行了归一化，那么这里同样需要进行归一化
输出：输入为估计的纯净语音幅度谱
重构波形：在计算输入信号幅度谱的时候需要保存每一帧的相位信息，然后用保存好的相位信息和模型输出的幅度谱重构语音波形，代码如下所示。

spectrum = magnitude * np.exp(1.0j * phase)

基于Mask的语音增强

Mask这个单词有的地方翻译成掩蔽有的地方翻译成掩膜，我个人倾向于翻译成”掩蔽”，本文就用掩蔽作为Mask的翻译。

时频掩蔽

我们都知道，语音信号可以用时域波形或各种频谱来表示。这种外语语谱图可以同时在时域和频域显示信息，因此得到了广泛的应用，如下图所示。

[En]

We all know that speech signals can be represented by time domain waveforms or various frequency spectra. This foreign language spectrogram can display information in both time domain and frequency domain, so it is widely used, as shown in the following figure.

现在让我们假设有两个语音信号，一个是音乐信号，另一个是噪声信号，它们混合在一起，时域波形和对应的谱图如下图所示。

[En]

Now let’s assume that there are two speech signals, one is music signal, the other is noise, they are mixed together, and the time domain waveform and the corresponding spectrogram are shown in the following figure.

如果我们想要从混合信号中提取音乐信号(这一过程称为语音分离)，在时域中很容易做到。现在我们从频域的角度来解决语音分离问题。首先，我们提出了两个假设：

[En]

If we want to extract the music signal from the mixed signal (a process called speech separation), it is easy to do in time domain. Now we solve the problem of speech separation from the perspective of frequency domain. First of all, we put forward two hypotheses:

1、我们假设信号能量稀疏的，即对于大多数时频区域它的能量为0，如下图所示，我们可以看到大多数区域的值，即频域能量为0。

2、我们假设信号能量不相交的，即它们的时频区域不重叠或者重叠较少，如下图所示，我们可以看到时频区域不为0的地方不重叠或者有较少部分的重叠。

基于上述两个假设，我们可以将期望信号从噪声信号中分离出来。为可能属于信号源的区域分配掩码1，为其余区域分配掩码0，如下图所示。

[En]

Based on the above two assumptions, we can separate the desired signal from the noise signal. Assign a mask of 1 to areas that may belong to a signal source, and assign a mask of 0 to the rest, as shown in the following figure.

我们通过0和1的二值掩码然后乘以混合信号的语谱图就可以得到我们想要喜好的语谱图了，如下图所示。

但是，这里存在一个问题，我们无法从语谱图中还原语音信号。为了解决这一问题，我们首先还原所有的频率分量，即对二值掩码做个镜像后拼接。假设我们计算语谱图时使用的是512点SFTF，我们一般去前257点进行分析和处理，在这里我们将前257点的后255做镜像，然后拼接在一起得到512点频率分量，如下图所示。

然后根据这个还原语音信号。这里指的一提的是，在进行STFT后的相位信息要保存，用于还原语音信号。

接下来介绍如何计算掩蔽值，掩蔽值计算方法有许多，但一般来说有两种常用的计算方法，分别为理想二值掩蔽(Ideal Binary Mask, IBM)和理想比值掩蔽(Ideal Ratio Mask, IRM)。IBM的计算公式如下：

$$公式1：I B M(t, f)=\left{\begin{array}{l}
1, \operatorname{SNR}(t, f)>L C \
0, \text { else }
\end{array}\right.$$

其中LC为阈值，一般取0，SNR计算公式为：

$$公式2：\operatorname{SNR}(t, f)=10 * \log 10\left(\frac{|S(t, f)|^{2}}{|N(t, f)|^{2}}\right)$$

IRM为一个[0-1]的值,计算公式为：

$$公式3：\operatorname{IRM}(t, f)=\left(\frac{S^{2}(t, f)}{S^{2}(t, f)+N^{2}(t, f)}\right)^{\beta}=\left(\frac{\operatorname{SNR}(t, f)}{\operatorname{SNR}(t, f)+1}\right)^{\beta}$$

其中$\beta$为可调节尺度因子，一般取0.5。

基于mask方法的语音增强一般基于这种假设，在带噪语音谱中即存噪声信号又存在语音信号，因此将噪声信号掩蔽掉剩下的就是语音信号。目前常用的两种掩蔽方法：理想二值掩蔽、理想比值掩蔽

理想二值掩蔽(Ideal Binary Mask，IBM)，将分离任务变成了一个二分类问题。这类方法根据听觉感知特性，把音频信号分成不同的子带，根据每个时频单元上的信噪比，在噪声占主导情况下，把对应的时频单元的能量设为0，在目标语音占主导的情况下，保持原样。
理想比值掩蔽(Ideal Ratio Mask，IRM)，它同样对每个时频单元进行计算，但不同于IBM的”非零即一”，IRM中会计算语音信号和噪音之间的能量比，得到介于0到1之间的一个数，然后据此改变时频单元的能量大小。IRM是对IBM的演进，反映了各个时频单元上对噪声的抑制程度，可以进一步提高分离后语音的质量和可懂度。

基于掩蔽的语音增强和基于映射的语音增强模型的训练和增强过程是相似的，这里只提到几个要点，其余的参考上文。

[En]

Masking-based speech enhancement and mapping-based speech enhancement model training and enhancement process is similar, only a few important points are mentioned here, and the rest refer to the above.

Label：数据的label为根据信噪比计算的IBM或者IRM，这里只需要一帧就够了
损失函数：IBM的损失函数可以用交叉熵，IRM的损失函数还是用均方差
最后一层的激活函数：IBM只有0和1两个值，IRM范围为[0,1]，因此采用sigmoid激活函数就可以了
重构波形：首先用噪声幅度谱与计算的Mask值对应位置相乘，代码如下，然后根据相位信息重构语音波形。

enhance_magnitude = np.multiply(magnitude, mask)

Demo效果以及代码

首先，我们来看看实验结果，首先，基于映射语音增强的结果：

[En]

First of all, let’s take a look at the experimental results, first of all, based on the results of mapped speech enhancement:

基于IBM语音增强的结果：

基于IRM语音增强的结果：

训练代码：

"""
@FileName: IBM.py
@Description: Implement IBM
@Author: Ryuk
@CreateDate: 2020/05/08
@LastEditTime: 2020/05/08
@LastEditors: Please set LastEditors
@Version: v0.1
"""
&#x200B;
import numpy as np
import librosa
from sklearn.preprocessing import StandardScaler
from keras.layers import *
from keras.models import Sequential
&#x200B;
&#x200B;
def generateDataset():
    mix, sr = librosa.load("./mix.wav", sr=8000)
    clean,sr = librosa.load("./clean.wav",  sr=8000)
&#x200B;
    win_length = 256
    hop_length = 128
    nfft = 512
&#x200B;
    mix_spectrum = librosa.stft(mix, win_length=win_length, hop_length=hop_length, n_fft=nfft)
    clean_spectrum = librosa.stft(clean, win_length=win_length, hop_length=hop_length, n_fft=nfft)
&#x200B;
    mix_mag = np.abs(mix_spectrum).T
    clean_mag = np.abs(clean_spectrum).T
&#x200B;
&#x200B;
    frame_num = mix_mag.shape[0] - 4
    feature = np.zeros([frame_num, 257*5])
    k = 0
    for i in range(frame_num - 4):
        frame = mix_mag[k:k+5]
        feature[i] = np.reshape(frame, 257*5)
        k += 1
&#x200B;
    snr = np.divide(clean_mag, mix_mag)
    mask = np.around(snr, 0)
    mask[np.isnan(mask)] = 1
    mask[mask > 1] = 1
&#x200B;
    label = mask[2:-2]
&#x200B;
    ss = StandardScaler()
    feature = ss.fit_transform(feature)
    return feature, label
&#x200B;
&#x200B;
def getModel():
    model = Sequential()
    model.add(Dense(2048, input_dim=1285))
    model.add(BatchNormalization())
&#x200B;
    model.add(LeakyReLU(alpha=0.1))
    model.add(Dropout(0.1))
&#x200B;
    model.add(Dense(2048))
    model.add(BatchNormalization())
    model.add(LeakyReLU(alpha=0.1))
    model.add(Dropout(0.1))
&#x200B;
    model.add(Dense(2048))
    model.add(BatchNormalization())
    model.add(LeakyReLU(alpha=0.1))
    model.add(Dropout(0.1))
&#x200B;
    model.add(Dense(257))
    model.add(BatchNormalization())
    model.add(Activation('sigmoid'))
    return model
&#x200B;
def train(feature, label, model):
    model.compile(optimizer='adam',
                  loss='mse',
                  metrics=['mse'])
    model.fit(feature, label, batch_size=128, epochs=20, validation_split=0.1)
    model.save("./model.h5")
&#x200B;
def main():
    feature, label = generateDataset()
    model = getModel()
    train(feature, label, model)
&#x200B;
&#x200B;
if __name__ == "__main__":
    main()

增强代码：

"""
@FileName: Inference.py
@Description: Implement Inference
@Author: Ryuk
@CreateDate: 2020/05/08
@LastEditTime: 2020/05/08
@LastEditors: Please set LastEditors
@Version: v0.1
"""
&#x200B;
import librosa
import numpy as np
from basic_functions import *
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from keras.models import load_model
&#x200B;
def show(data, s):
    plt.figure(1)
    ax1 = plt.subplot(2, 1, 1)
    ax2 = plt.subplot(2, 1, 2)
    plt.sca(ax1)
    plt.plot(data)
    plt.sca(ax2)
    plt.plot(s)
    plt.show()
&#x200B;
&#x200B;
model = load_model("./model.h5")
data, fs = librosa.load("./test.wav", sr=8000)
&#x200B;
win_length = 256
hop_length = 128
nfft = 512
&#x200B;
spectrum = librosa.stft(data, win_length=win_length, hop_length=hop_length, n_fft=nfft)
magnitude = np.abs(spectrum).T
phase = np.angle(spectrum).T
&#x200B;
frame_num = magnitude.shape[0] - 4
feature = np.zeros([frame_num, 257 * 5])
k = 0
for i in range(frame_num - 4):
    frame = magnitude[k:k + 5]
    feature[i] = np.reshape(frame, 257 * 5)
    k += 1
&#x200B;
ss = StandardScaler()
feature = ss.fit_transform(feature)
mask = model.predict(feature)
mask[mask > 0.5] = 1
mask[mask <= 0.5]="0"  fig="plt.figure()" plt.imshow(mask, cmap="Greys" , interpolation="none" ) plt.show() plt.close(fig) magnitude="magnitude[2:-2]" en_magnitude="np.multiply(magnitude," mask) phase="phase[2:-2]" en_spectrum="en_magnitude.T" * np.exp(1.0j phase.t) frame="librosa.istft(en_spectrum," win_length="win_length," hop_length="hop_length)" show(data, frame) librosa.output.write_wav(". output.wav",frame, sr="8000)</code">
</=>

参考文献

DNN单通道语音增强(附Demo代码)(大量抄袭于它)

基于Mask的语音分离

补充一下：https://blog.csdn.net/shichaog/article/details/105890125

Original: https://blog.csdn.net/qq_34218078/article/details/111307415
Author: 凌逆战
Title: 基于深度学习的单通道语音增强

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/524731/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Pytorch】基于卷积神经网络实现的面部表情识别

作者：何翔学院：计算机学院学号：04191315班级：软件1903转载请标注本文链接： https://blog.csdn.net/HXBest/article/details/1…

人工智能 2023年5月26日
0077
YOLOv5如何进行区域目标检测（手把手教学）

YOLOv5如何进行区域目标检测（手把手教学） 提示：本项&#…

人工智能 2023年6月16日
0061
CoordAttention解读

简介在轻量级网络上的研究表明，通道注意力会给模型带来比较显著的性能提升，但是通道注意力通常会忽略对生成空间选择性注意力图非常重要的位置信息。因此，新加坡国立大学的Qibin Ho…

人工智能 2023年5月28日
0066
强化学习rllib简明教程 ray

人工智能 2023年5月26日
0097
像素级红外与可见光图像融合方法研究

基本方法：一、基于传统方法的红外与可见光图像融合方法基于多尺度变换的融合方法、基于稀疏表达的融合方法、基于显著性检测的融合方法、基于空间转换的融合方法和其他方法。 ①基于多尺度…

人工智能 2023年6月18日
0061
改进方法实验测试

文章目录前言一、实验参数设置二、实验环境三、改进方法及结果 * （一）baseline-YOLOv5s实验结果 – 1.网络结构（二）ELAN+深度可分离卷积…

人工智能 2023年6月26日
0060
ubuntu下的openpose+tensorflow1.14+python3.7的环境搭建（可能出现的问题解决）

用学校的服务器进行环境搭建，学校服务器预装了anaconda，cuda，cudnn等等，此文章并没有关于这些的安装教程，另外需要先创建自己的账号可以看文章实验室服务器教程_一慕逸一…

人工智能 2023年5月24日
0076
数据包络分析（DEA）详解（以第八届宁夏省赛为例）

目录一、基本介绍 1.1原理 1.2CCR模型 1.3BCC模型二、代码 2.1MATLAB代码 2.2Python代码三、案例分析 3.1案例介绍 3.2案例分析 3.3案…

人工智能 2023年6月17日
0089
什么是多层感知机

多层感知机的概念我们要了解多层感知机，首先应该知道感知机是什么感知机感知机是人工智能最早的模型；是一个有监督的学习算法；本质上感知机是一个二分类的问题：输入大于0就输出1…

人工智能 2023年6月13日
0069
关联分析——关联规则应用及案例

数据挖掘最早使用的方法是关联分析，主要应用于零售业。其中最有名的是售货篮分析，帮助售货商制定销售策略。数据挖掘是从海量的数据里寻找有价值的信息和数据。数据挖掘中常用的算法有：关联…

人工智能 2023年6月19日
00107
【深度学习】DETR解读

DETR解读文章目录 DETR解读 * 1 贡献点 2 模型结构 – 2.1 Backbone 2.2 Transformer + 2.2.1 Position Em…

人工智能 2023年7月9日
0045
python 数据处理中的 LabelEncoder ，OrdinalEncoder 和 OneHotEncoder

LabelEncoder 是对不连续的数字或者文本进行编号，处理标签专用。处理多维数组用OrdinalEncoder from sklearn.preprocessing impo…

人工智能 2023年7月17日
0083
TransUnet官方代码训练自己数据集（彩色RGB3通道图像的分割）

码字不易，收藏之余，别忘了给我点个赞吧！ ———Start 官方代码：https://github.com/Beckschen/TransUNe…

人工智能 2023年7月3日
0045
SLAM14讲错误笔记（第五讲OpenCV篇）

出现错误：安装完成Opencv3.4.16后，运行示例程序（imageBasics），make报错。 /usr/bin/ld: CMakeFiles/undistortImage….

人工智能 2023年7月19日
0062
LabVIEW开放神经网络交互工具包（ONNX)下载与超详细安装教程

文章目录前言一、LabVIEW开放神经网络交互工具包（ONNX)简介二、安装前的准备工作三、LabVIEW开放神经网络交互工具包（ONNX）下载四、LabVIEW开放神经…

人工智能 2023年5月28日
0071
distill_bert和tiny_bert

distill_bert：哈工大出品，按照传统的知识蒸馏方式产出。1，bert_base是12层，distill_bert6层，每两层丢弃一层，以对应transformer层的参数…

人工智能 2023年5月28日
0051

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于深度学习的单通道语音增强

训练阶段

增强阶段

时频掩蔽

大家都在看