webRTC中语音降噪模块ANS细节详解(三)

2023年5月25日上午5:24 • 人工智能 • 阅读 70

上篇(webRTC中语音降噪模块ANS细节详解(二))讲了ANS的处理流程和语音在时域和频域的相互转换。本篇开始讲语音降噪的核心部分，首先讲噪声的初始估计以及基于估计出来的噪声算先验信噪比和后验信噪比。

1，初始噪声估计

webRTC中ANS的初始噪声估计用的是分位数噪声估计法（QBNE，Quantile Based Noise Estimation），对应的论文为《Quantile Based Noise Estimation For Spectral Subtraction And Wiener Filtering》。分位数噪声估计认为，即使是语音段，输入信号在某些频带分量上也可能没有信号能量，那么将某个频带上所有语音帧的能量做一个统计，设定一个分位数值，低于分位数值的认为是噪声，高于分位数值的认为是语音。算法大致步骤如下：

webRTC ANS在做初始估计时，分三个阶段，第一个阶段是前50帧，第二个阶段是51~200帧，第三个阶段是200帧以后的。50帧以后的只用分位数噪声估计法来估计噪声，而前50帧是分位数噪声估计法和噪声模型相结合，使噪声估计的更准确。先看每个阶段都有的分位数噪声估计的处理，过程如下：

1）算出每个频点的幅度谱的自然对数值，即对数谱inst->lmagn，后续用lmagn表示

2）更新分位数自然对数值(inst->lquantile，后续用lquantile表示)和概率密度值(inst->density，后续用density表示)。共有三组lquantile和density值，每一帧有129个频点，所以lquantile和density的数组大小为387（129*3）。内存布局示意如图1：

图1

三组不同的lquantile和density的更新由inst->counter（后续用counter表示）来控制。counter数组有三个整数值，每个值控制一组。counter数组的初始值基于200（表示前200帧），将200一分为三，即为[66, 133, 200]。每处理完一帧counter值会加1，当值变为200时就会变为0。这样处理第二帧时counter值变为[67, 134, 0]，处理第三帧时counter值变为[68, 135, 1]，以此类推。当初始200帧处理完后，counter也完成了0~200的遍历。

下面看counter怎么控制lquantile和density的，对于第i组第j个频点而言，先定义变量：

更新分位数：当频点对数谱lmagn[j] > lquantile[i*129 + j]时，表示lquantile偏小，需要增大，反之则需要减小。更新数学表达式如下式1

更新概率密度：当|lmagn[j] – lquantile[i*129+j]| < WIDTH(值为0.01)时，意味着当前的噪声估计比较准确了，因此要更新概率密度。更新的数学表达式如下式2：

3）当帧数小于200时，对最后一组（即第二组）的lquantile做自然指数运算，将其作为噪声估计值（noise[j]，每个频点一个值），可以看出每帧估出的噪声是不同的。当帧数大于等于200后，只有当counter数组里的值等于200时，才会将对应的组的lquantile做自然指数运算，将其作为噪声估计值。可以看出当帧数大于等于200后每过66帧或者67帧噪声估计值才会更新。

再看前50帧利用分位数噪声估计法与噪声模型相结合来估计初始噪声。先定义如下四个变量：

需要注意的是上述4个变量定义时均没有用到前5个频点，因为i是从5开始的。再利用上面定义的变量表示白噪声（white noise）和粉红噪声（pink noise）的参数，表示如下：

其中overdrive是根据设置的降噪程度而得到的一个值（在初始化中设置）。

其中blockInd表示当前帧的index 。

这样，可以使用白噪声和粉色噪声的参数来估计模型噪声，如下所示：

[En]

In this way, the parameters of white noise and pink noise can be used to estimate the model noise, as follows:

其中当频点id小于5时，usedBin = 5, 其他情况下usedBin = 频点id。

最后根据分位数估计噪声noise和模型估计噪声parametric_noise得到最终的估计噪声了。对于每个频点j来说，表达式如下式3:

(3)

至此，前50帧的结合分位数噪声估计和模型噪声估计的噪声就估计出来了。这样不管是第几帧，初始噪声都能估计出来，下面根据估计出来的初始噪声来算先验信噪比和后验信噪比。

2，算先验信噪比和后验信噪比

在webRTC中语音降噪模块ANS细节详解(一)中说过后验信噪比σ是带噪语音Y与噪声N的功率比值，先验信噪比ρ是干净语音S与噪声N的功率比值，表达式如下式4和5：

(4)

(5)

其中m表示第几帧，k表示第几个频点，即每一个频点上都有先验SNR和后验SNR。由于噪声N已通过分位数估计法估计出来，而且带噪语音Y已知，因而后验SNR可以算出来。

因为

从而

所以得到式6：

(6)

即先验SNR等于后验SNR – 1。

至于算先验SNR，用的是判决引导法（Decision-Directed，简称DD）。根据式5和式6可以得到式7：

(7)

对先验SNR的估算可以将上式递推化得到，具体如式8：

(8)

这里α为权重（或叫平滑系数），以代替上式中的1/2。从上式看出估算当前帧的先验SNR是基于上一帧的先验SNR和当前帧的后验SNR。max()用以保证估值是非负的。平滑系数α取值范围为0 < α < 1，典型取值为0.98，webRTC ANS中就是用的这个值。

在具体软件实现中，WebRTC中为了减小运算load，并未严格按照定义的公式去计算，而是采用幅度谱的比值去计算，即式9和式10中第二个等号的右边部分。

(9)

(10)

算当前帧的先验SNR时，上一帧的带噪语音Y(k, m-1)是已知的，上一帧的维纳滤波器系数的值H(k, m-1)（即inst-smooth数组里的值）也是已知的，根据维纳滤波原理，从而上一帧的估计出来的干净语音S(k, m-1) = H(k, m-1)Y(k, m-1)也是已知的，所以上一帧的先验SNR计算如式11：

(11)

将其带入式8可得当前帧的先验SNR计算表达式如式12：

(12)

这样当前帧的先验SNR和后验SNR都计算出来了，用于后面的语音噪声概率计算中。下一篇将讲基于带噪语音和特征的语音和噪声的概率计算方法和噪声估计更新以及基于维纳滤波的降噪。

Original: https://blog.csdn.net/david_tym/article/details/121040570
Author: david_tym
Title: webRTC中语音降噪模块ANS细节详解(三)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512450/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习：基于聚类K-Means算法实现图像的分割研究

目录摘要序言图像分割实验： 1、实验步骤 2、程序代码 3、实验数据 4、实验总结及分析总结摘要在一幅图像中,景物往往有众多的目标组成，反映在图像中是众多的区域。图像分…

人工智能 2023年5月31日
0085
数据分析03pandas

Pandas 功能在于筛选清洗和处理 Series 中文叫做序列，pandas模块的一种数据类型，是一个一维的、带索引的数组对象，Series就像排行榜。左侧是索引（index） …

人工智能 2023年7月17日
0041
30系显卡配置tensorflow1.x环境

说明：nvidia 30系显卡仅支持cuda11.0及以上版本，对应cudnn最低版本为8.0，tf版本为2.4.0在win系统中无法实现30系显卡运行tf1的代码该教程使用的环…

人工智能 2023年5月24日
0083
echarts做企业关系图谱_知识图谱平台化助力知识图谱行业大发展

知识图谱平台是知识图谱成功的保障作者：漆桂林 2019年5月份的CSDN CTA核心技术及应用峰会，我做了一个知识图谱技术分析和平台化路线的主题演讲，回顾这一年来知识图谱的发展，…

人工智能 2023年6月10日
0080
hanlp安装

HanLP是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点；提供词法分析（中文分词、…

人工智能 2023年5月27日
0063
OpenCV-Python实战（4）——OpenCV常见图像处理技术

[ _OpenCV_是一款非常强大的计算机视觉库，其中包含了很多功能强大的 _图像处理_和计算机视觉算法。而在这个系列的第三篇文章中，我们将重点介绍如何在 _OpenCV_中绘制图…

人工智能 2023年6月19日
0053
Praat脚本-030 | 谈谈自动标注这点儿事（4）

在大家面前，我介绍或推荐了几种与自动标注相关的内容。 [En] In front of you, I introduced or recommended several kinds…

人工智能 2023年5月25日
0070
ML之FE：RFM指标(衡量客户价值和客户创利能力的指标)/RFM模型的简介、意义、应用之详细攻略

ML之FE：RFM指标(衡量客户价值和客户创利能力的指标，距离最近一次购买时间/购买次数/购买金额)/RFM模型的简介、使用方法、应用实现之详细攻略目录 RFM指标的简介 1、R…

人工智能 2023年7月16日
0093
K-means聚类及距离度量方法小结

基本概念不再介绍，直接进行关键点的总结叙述。 kmeans算法又名k均值算法,K-means算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，…

人工智能 2023年5月31日
0084
第一周学习图像处理的总结

文章目录前言一、什么是数字图像？二、关于图像处理的库和一些小实验。 1.库 2. 总结前言本文介绍关于数字图像处理的一些基本内容和一些代码演示一、什么是数字图像？数字…

人工智能 2023年6月20日
0063
【聚类】一种自适应Eps和Minpts的DBSCAN方法的改进（python实现）

一、算法来源 1、DBSCAN算法原型这个算法原型非常简单，有很多博主都有写，大家自己去看看就好了，也不用花太多时间，顶多十分钟就能了解个大概。 2、自适应Eps和Minpts参数…

人工智能 2023年5月31日
00102
体育外交类毕业论文文献包含哪些？

本文是为大家整理的体育外交主题相关的10篇毕业论文文献，包括5篇期刊论文和5篇学位论文，为体育外交选题相关人员撰写毕业论文提供参考。 1.[期刊论文]我国体育外交研究热点与演化分析…

人工智能 2023年6月10日
0065
浅谈VMD—变分模态分解

很多场景下，我们需要将信号进行分解，为我们下一步操作提供方便，常用的分解方法可以有EMD族类，例如EMD、EEMD、FEEMD、CEEMDAN、ICEEMDAN等，当然也有小波分解…

人工智能 2023年7月26日
00249
《scikit-learn机器学习》 – PCA算法原理解释和k-均值算法【单纯理解】

目录 PCA算法 k-均值算法 PCA算法 PCA算法是 Principal Component Analysis的简称[TencentCloudSDKException] cod…

人工智能 2023年6月2日
0044
Data Mining:图聚类(Graph clustering)

Betweenness Centrality (from wikipedia) 在图论中，介数中心性（英語：Betweenness Centrality）是基于最短路径针对网络图…

人工智能 2023年5月31日
0092
半监督学习近几年相关论文解读（分类）

分类任务部分半监督一.Mixmatch（ NeurIPS2019） MixMatch: A Holistic Approach to Semi-Supervised 论文地址：h…

人工智能 2023年7月1日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

webRTC中语音降噪模块ANS细节详解(三)

大家都在看