应用谱减法进行语音去噪的算法研究

2023年5月25日下午9:12 • 人工智能 • 阅读 79

众所周知，语言是人类传播信息和表达感情的重要媒介，在人类的交流中起着极其重要的作用。二十一世纪是信息科学的世纪，移动电话、数字助听器、车载导航系统等各种各样的人机交互语音处理系统在人们的日常生活中的应用越来越多。因此，对人们交流中最常用的语音来说，对其进行处理在现代信息处理中就占有极为重要的地位。

语音信号处理技术一直以来都是国内外学者研究的热点，它跨声学、信号处理、仿生学等多个学科，应用前景广阔。然而在人们的语音通信过程中，不可避免地会受到来自周围环境、传输媒介引入的噪声,通信设备内部的电噪声,乃至其他讲话者的干扰。这些很强的背景噪声干扰，严重影响通话质量、影响了语音通信的正常进行。语音识别系统同样也会受到背景噪声的影响，背景噪声的存在不仅严重破坏了语音信号原有的模型参数和声学特性，导致许多语音处理系统服务质量的降低，而且会影响系统输出语音的可懂程度，使听众产生听觉疲劳。语音增强目的就是从被污染的语音信号中，提取尽可能纯净的原始语音，改善语音质量，使听者不觉的疲劳，并且能够提高语音的可懂度。在上述情况下，语音增强技术作为一种预处理技术，是消除这些噪声干扰的一个最重要的手段，它通过对带噪语音进行处理来改善语音质量，使人们易于接受或提高语音处理系统的性能。

有关抗噪声技术的研究，早在60年代起就已引起人们的注意，此后人们一直锲而不舍地进行这方面的研究，并取得了丰富的研究成果，现在各种的不同的学科的专门知识也引入到语音处理领域。对于增强被加性噪声污染的语音信号这一问题，近些年来，有了一定的进展。下面对国内外语音增强研究的常用方法作介绍。

频谱相减法：单声道语音增强方法中目前常用的是一类基于短时谱幅度估计的语音增强方法，该方法认为语音信号的感知不重要，没有必要精确计算。文献[2]中通过实验为此提供了一定的依据，文献[3]中则证明在一定条件下语音相位的最小均方误差(MMSE)估计就是带噪语音相位本身，因此，基于STSA估计的语音增强方法一般都是直接采用带噪语音的相位作为增强语音的相位。基于STSA估计的语音增强方法包括谱减法及其各种变形，MMSE估计法等。谱减法通过从带噪语音的STSA中直接减去噪声的平均谱幅度来得到增强语音的STSA，实现起来简单，但是剩余噪声大，并且产生不舒服的”音乐噪声”。后来，Ephraim等人提出了STSA的MMSE估计法，部分解决了”音乐噪声”问题，但在带噪语音SNR较低时其剩余噪声还是很大，尤其是当信噪比小于5dB时。本文中介绍一种改进谱减法，他相对于传统谱减法有很好的去噪效果。

自适应噪声对消法：适用于在带噪语音信号采集过程中同时能获得参考噪声源的自适应噪声对消技术，已日趋成熟。据专家报告：运用此技术增强带噪语音，在实验环境中，信噪比SNR有40dB左右的改善，在实际中也有20dB左右的提高。

小波变换法：频谱相减法是在短时平稳假定的基础上，采用固定窗傅立叶变换，时—频分辨率均是固定不变的。然而对某些”严格非平稳” 的语音，这种分析模糊了语音的细节特征，小波变换正是满足这一需要的有力工具。

在本次语音信号的去噪研究中，使用的纯净语音文件是利用window录音设备录制的wav格式的语音文件。wav文件是Windows标准的文件格式，wav文件作为多媒体中使用的声波文件格式之一。采样速率是指声音信号在”模→数”转换过程中单位时间内采样的次数。程序实现中我们用wavread读取wav语音文件，返回抽样数据、抽样速率、每一抽的比特数。仿真程序如下：

[wavinn,fs,nbits]=wavread(‘C:\Documents and Settings\妮子的\桌面\1.wav’);

为了验证改进之后算法的去噪能力增强，所以我们在程序开始时加入了输入信噪比可调的加白噪声函数awgn，该函数为matlab自带函数，输入纯净语音以及要求的信噪比，输出规定信噪比的语音信号。

在进行进一步处理时都是按帧从数据区取出语音数据，处理完后再取出下一帧，如此反复直到所有语音数据处理完。已取出的一帧语音s(n)要经过加窗处理。加窗实质上是用了一个短时窗w(n)截取信号。由数字信号处理理论可知，两个信号时域相乘相当于在频域卷积。矩形窗频谱旁瓣成分大，滚降衰减速度慢，加这种窗将影响语音信号的高频部分如频谱泄漏使得语音信号能量泄漏到其他频率处。为避免这些影响，通常采用高频分量幅度较小的窗形，如hamming窗。

在分帧时可以说帧长是时间和点数，具体的选择标准是10ms～30ms之间，但是为了方便傅立叶变换，一般说来，帧长取2^n,n为整数。在取数据时，前一帧和后一帧的交叠称为帧移[29]。帧移和帧长的比值一般取为0～1／2。依据此标准以及实际采样率，确定了分帧时帧长以及步长的选择标准。并且，编写了分帧函数enframe。程序如下：

帧长步长选择标准

case 8000 frame_len=256; step_len=128;

case 10000 frame_len=400; step_len=200;

case 12000 frame_len=512; step_len=256;

case 16000 frame_len=800; step_len=400;

case 44100 frame_len=2048; step_len=1024;

otherwise frame_len=1800; step_len=900;

2）分帧函数enframe(x,win,inc)，其中x表示读取的语音文件的信息，win为帧长，inc为

重叠的步长。

function f=enframe(x,win,inc)

nx=length(x(:));

nwin=length(win);

nf = fix((nx-len+inc)/inc);

f=zeros(nf,len);

indf= inc*(0:(nf-1)).’;

inds = (1:len);

f(:) = x(indf(:,ones(1,len))+inds(ones(nf,1),:));

由于汉明窗更适用于频域处理，所以选用汉明窗,这里我们应用matlab自带函数hamming求汉明窗。仿真程序如下：

window=hamming(frame_len); %定义汉明窗

fft_inframe(:,i)=fft(enframe(:,i).*window

如图所示，为在10dB输入信噪比的情况下，原始程序和去掉窗函数程序输出波形图

频谱图的对比：

从图中可以看出左下角加窗的程序输出的波形在非语音部分多余噪声较少，且波形相对左上角更加错落有致。同时，通过听两种方法输出的声音，也可以听出加窗后尖叫的噪声较少。因此，可以看出通过加窗是可以避免分帧时的截断效应的。

1）设置幅度小于噪声信号的语音

a=3; %当a取1时是普通功率谱相减法

abs_inframe2(j,i)

Original: https://blog.csdn.net/ccsss22/article/details/114435799
Author: fpga和matlab
Title: 应用谱减法进行语音去噪的算法研究

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516075/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch—基础篇（常用函数）

说明：大部分关于张量的函数 torch.function()都可以使用 tensor.function() pytorch中张量的类型 tensor = tensor.half()…

人工智能 2023年7月22日
0075
Hector slam算法原理解析与代码详解

写了markdown 上传，公式都乱码，无果，截图上传吧目录 1. hector 原理解析 1.4 多重分辨率地图 2.代码框架 2.1 回调函数 2.2 更新 3. 扫描匹配 …

人工智能 2023年6月11日
0071
数据分析项目-合集-day04

第一部分：数据类型处理 – 数据加载 – 字段&…

人工智能 2023年7月7日
0061
分享117个PHP源码，总有一款适合你

文件下载地址：分享117个PHP源码，总有一款适合你下面是文件的名字，我放了一些图片，文章里不是所有的图主要是放不下…，大家下载后可以看到。仓库管理系统手机电子名片免…

人工智能 2023年6月27日
0065
《机器学习》学习笔记8：无监督学习 – 聚类与降维

Week8 无监督学习：聚类与降维基于吴恩达《机器学习》课程参考黄海广的笔记[TencentCloudSDKException] code:FailedOperation.Serv…

人工智能 2023年6月2日
00105
【论文精读】Point-NeRF:Point-based Neural Radiance Fields

CVPR2022 oral的一篇文章，文章还行，代码比较乱，超参非常多且没有注释，代码也有bug原文链接：https://arxiv.org/abs/2201.08845代码链接：…

人工智能 2023年7月12日
0065
深度学习 – 语音应用

1 语音技术概览语音的定义语音指的是人们讲话时发出的话语它是构成一种语言的声音，或者是带有语言信息的声音。 [En] It’s a sound that make…

人工智能 2023年5月27日
0082
Qt中配置OpenCV

的步骤如下： 1. 安装 5 在终端输入以下命令： sudo apt-get update sudo apt-get install</p> <p>5-d…

人工智能 2023年7月19日
0047
【李宏毅机器学习CP1-3】(task1)机器学习简介&分类|回归

文章目录 1.机器学习的过程 2.机器学习相关分类 3.选择合适的model，loss function 4.CP3 * 一、回归定义和应用例子 – 回归定义应用举例…

人工智能 2023年6月17日
0089
[源码解析] TensorFlow 分布式环境(4) — WorkerCache

[源码解析] TensorFlow 分布式环境(4) — WorkerCache 文章目录 [源码解析] TensorFlow 分布式环境(4) — WorkerCac…

人工智能 2023年5月25日
0090
MaxPool2d详解–在数组和图像中的应用

MaxPool2d详解–在数组和图像中的应用 * – 1、环境要求 – 2、原理讲解 – 3、函数要求 – 4、例子 &…

人工智能 2023年6月16日
0072
【语义分割】label2color2label_灰度标签彩色化、彩色标签灰度化

label来源【deepfashoin】 +人体解析_self-correction-human-parsing、获得语义标签 ; 0.应用背景 语&amp…

人工智能 2023年7月18日
0089
Flink 数据交换策略 Partitioner

传送门：Flink 系统性学习笔记任务之间的数据交换策略决定了数据会分发到下游算子的哪个实例上，在 Flink 中有八种不同的策略，也称为分区器： GlobalPartition…

人工智能 2023年6月27日
0074
WangDeLiangReview2018 – (5.1&5.2)语音增强&语音增强的泛化

【WangDeLiangOverview2018】 Supervised Speech Separation Based on Deep Learning: An Overview…

人工智能 2023年5月25日
0084
【Pytorch深度学习50篇】·······第六篇：【常见损失函数篇】—–BCELoss及其变种

新年新气象，兄弟们新年快乐。撒花！！！之前我们的项目已经讲过了常见的4种深度学习任务（当然还有一些没有接触到的，例如GAN和今年大红的Transformer），今天这个blog我…

人工智能 2023年7月27日
0081
tensorflow 运行问题: module ‘tensorflow.keras.applications‘ has no attribute ‘MobileNetV3Small‘

运行强化学习报错没找到相关解决问题的帖子哪位大佬能指点一下 Traceback (most recent call last):File “F:/G/quanzho…

人工智能 2023年5月24日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

应用谱减法进行语音去噪的算法研究

大家都在看