WebRTC中AECM算法简介

2023年5月25日上午5:45 • 人工智能 • 阅读 144

1，算法介绍以及整体框架

1.1算法整体框架

AECM 属于 WebRTC 语音处理引擎(Voice Engine)的子模块，是为移动设备专门设计的回声消除处理模块，其内部有根据芯片类型进行汇编指令级的特殊优化。AECM 的主体工程文件可以从 WebRTC 工程根目录下的 modules/audio_processing/aecm子目录找到，包含 delay_estimator.c、 delay_estimator_wrapper.c、aecm_core.c、aecm_core_c.c、echo_control_mobile.c 这五个回声消除的核心功能的 c 语言实现文件，其中 delay_estimator.c、delay_estimator_wrapper.c 用于回声时延的精确估计， aecm_core.c、aecm_core_c.c 则是回声消除的核心工作流程，包括将远端信号从缓冲区中取出、将信号转换到频域、远端信号对齐、自适应滤波器更新以及回声消除等功能， echo_control_mobile.c 则是对核心功能的一层包装，它提供对外直接调用的接口函数，其中常用函数有五个： WebRTCAecm_Create用于为核心数据结构分配内存， WebRTCAecm_Init 用于核心数据结构以及部分函数指针的初始化， WebRTCAecm_BufferFarend用于向回声消除模块写入远端信号， WebRTCAecm_Process 用于写入向回声消除模块写入近端信号并同时得到处理完成后的输出信号。 WebRTCAecm_Free 在整个回声消除工作完成后释放内存，其中 WebRTCAescm_Process 是回声消除算法的主体部分的入口，由它的内部包装了核心功能的调用。

1.2 工作流程

从图可以看到，AECM模块的自适应滤波、滤波器系数的更新以及回声消除工作都在频域进行，然后将处理后的频域信号变换到时域后直接输出。

从上一小节的介绍可知，AECM回声消除的主体功能都由WebRTCAecm_Process 函数内部调用，因此可以通过一步步分析其调用链来查看和分析 AECM 的核心工作流程。下图为 WebRTCAecm_Process 函数调用链示意图，其中横向箭头表示函数间嵌套调用，纵向箭头表示函数内顺序调用或处理过程，整个调用链比较复杂，因此笔者选择其中比较重要的几个函数和处理过程进行简要分析。

; 2，回声时延估计

WebRTCAecm_Process 只是一个上层的包装函数，它内部有一个容量为 4000 的环形缓存，用来缓存输入的远端信号，然后由传入的时延估计参数 msInSndCardBuf 计算出远端信号缓存的初始读取位置 readpos 用来完成远端信号和近端信号的初步对齐：
r e a d p o s = m s I n S n d C a r d B u f 1000 ∗ f ∗ 75 % readpos = \frac{msInSndCardBuf}{1000 }f75 \%r e a d p o s =1 0 0 0 m s I n S n d C a r d B u f ∗f ∗7 5 %
其中 f 为抽样频率。当远端信号缓存中的数据未达到初始读取位置 readpos 时，则直接将输入近端数据复制到输出并直接返回；当缓存数据量达到 readpos，则在缓存中将数据从 readpos 处读取一帧出来并和当前近端信号帧后输入 WebRTCAecm_ProcessFrame 函数。由于 readpos 的存在，导致后续处理过程的远端信号和近端信号之间始终有长度为readpos 的时间差，从而使两个信号之间完成初步的对齐。

WebRTCAecm_ProcessFrame 的主要功能则是将传入的远端帧和近端帧数据分别存储到两个环形队列缓存中，根据上一帧计算的回声时延得到与当前近端帧相对应的远端帧在缓存中的位置，然后按照 64 个采样点为单位分块(Block)，将指向每一个近端和远端数据块的指针输入 WebRTCAecm_ProcessBlock。

在 WebRTCAecm_ProcessBlock 中的处理过程依次按顺序有 10 个调用或处理过程，这里选取比较重要的几个过程进行阐述和分析。

2.1 将输入远、近端信号变换到频域

频域变换的主要实现过程在函数 TimeToFrequencyDomain 内部，它使用快速傅里叶变换将远端信号和近端信号变换到频域。在进行频域变换的时也是使用的定点数计算，输出信号频域表示也是采用定点数的形式。算法内部默认使用长度为 128 点 FFT 且不可更改。考虑到 FFT 可能会引起的印谱泄露和栅栏效应[49]，AECM 在变换之前对时域信号采用加汉宁窗的方法缓解这一效应。汉宁窗也成升余弦窗，长度为 N 的离散汉宁窗为：
W H n = 1 2 ( 1 − c o s [ 2 Π N n ] ) , n = 1 , 2 , 3 , . . . . . , N − 1 W_{Hn}= \frac{1}{2}(1-cos[\frac{2Π}{N}n]),n=1,2,3,…..,N-1 W H n =2 1 (1 −c o s [N 2 Πn ]),n =1 ,2 ,3 ,…..,N −1
同时注意到，传入此函数数据为单个数据块，长度为 64，但是 FFT 运算的长度却是128即两个数据块，这是因为这里运用了重叠保留法(overlap-save)的技巧来处理线性卷积和周期卷积的问题。由数字信号处理基本理论可知，时域的卷积运算可以通过使用傅里叶变换将信号转换到频域，并利用频域的乘法计算后将结果用逆傅里叶变换转换到时域来代替。然而通过这种频域乘法的方法计算的卷积称为周期卷积，而在时域直接计算的卷积称为线性卷积，这两种卷积计算的结果有一定差异，但是它们的前边一部分是相同的。因此可以通过延长输入信号并取卷积计算的一部分作为结果，从而使周期卷积的结果等于线性卷积，这就是重叠保留法的原理。在 AECM 中具体实现过程为，将当前输入的数据块缓存起来，然后将上一次缓存的数据块与当前的数据块一起进行 FFT得到长度为 128 的频谱 X_k。由于 FFT 的对称特性，所以只取变换结果的前 65 个频点取模后作为一个频域数据块输出。

2.2 计算回声时延并对齐远端频域数据块

回声时延的计算主要实现在函数 WebRTCAecm_DelayEstimatorProcessFix 内部，它首先从远端频域数据块的 65 个频点中选取序号为 12~43 的 32 个频点，将这 32 个频点值的均值作为门限 H，然后将这它们依次与门限值比较进行二值化，从而将每一个远端频域数据块转换为一个 32 位的无符号整型：
H = 1 32 ∑ i = 32 43 X i H = \frac{1}{32}\sum^{43}_{i=32} X_i H =3 2 1 i =3 2 ∑4 3 X i

B i = c ( u ) = { 0 ， X i − 22 < H 1 ， X i − 22 ≥ H B_i=c(u)=\begin{cases} 0，X_{i-22}

其中 Xi 是远端频域块的第 i 个频点值，Bi 为二值化后的第 i 位二进制。将二值化后的 32位整型插入远端二值化整型缓存的最前端，其他数据依次后移，整个过程如下图所示。

在此之后，用相同的方法计算当前近端频域数据块的二值化整型 Db，然后遍历远端二值化整型缓存。将近端二值化整型与缓存中第 i 个历史数据 Xbi相做异或运算得到 di，取缓存中 di 最小的那个整型，它所代表的远端数据块与当前近端数据块的频谱差异最小，然后根据其在缓存中的位置来计算回声时延 delay，单位为 ms：
d i = D b 异或 X b i , i = a r g { m i n { d 1 , d 2 , d 3 , . . . . d M } } d_i = D_b异或X_{bi},i=arg { min {d_1,d_2,d_3,….d_M}}d i =D b 异或X b i ,i =a r g {m i n {d 1 ,d 2 ,d 3 ,….d M }}

d e l a y = i ∗ N f ∗ 1000 delay = \frac{iN}{f}1000 d e l a y =f i ∗N ∗1 0 0 0

其中 M 为缓存长度，f=8000 或 16000 为抽样频率，N=64 为数据块长度。完成时延的计算后，紧接着会调用 WebRTCAecm_AlignedFarend 函数并传入时延 delay。该函数的功能为根据时延从远端的历史缓存中取出对应的远端频域数据块并返回，从而完成远端数据块和近端数据块的对齐。

从时延计算算法的流程可以看到，这里的远端二值化整型缓存长度 M 的大小决定了内部时延计算的最大范围。为了提高运算效率，内部的默认值设置为 10，因此如果抽样频率 f=16000Hz，那么的时延计算范围仅为 0 ~ 40 ms。根据 4.1 小节的分析，智能终端设备的回声时延范围 100~400ms，远远超出这里的计算范围。因此这里的回声时延计算以及远、近端数据块的对齐是以 WebRTCAecm_Process 函数中传入 msInSndCardBuf 时延估计参数为前提的，是在其基础上的一种更加精细的小范围内对时延的计算和对齐。如果 msInSndCardBuf 不准确，则将直接影响在这里回声时延计算的效率和准确性。

; 2.3 语音活动检测（VAD）

AECM 在 WebRtcAecm_CalcEnergy 函数中对远端信号进行 VAD。AECM 中远端信号的 VAD 有两个目的：第一个是判定远端信号中是否含有语音，将一个块内远端信号的以 2 为底的对数域能量值 E l o g E_{log}E l o g 与判决门限 T1 的值进行比较，如果 E 大于 T1 则认为远端信号中存在语音，反之则认为远端语音不存在；另一个目的是控制滤波器系数的更新，对远端频谱的每个频点的值，在该点对应频域点的幅值设置一个门限 T2，在系数更新时会进行判决，只有当该点频域幅度值大于 T2 才会对该点的滤波器系数进行系数更新。

除了利用远端信号对数域能量值 Elog 进行 VAD，WebRTCAecm_CalcEnergy 还根据该值计算并保存了一些用于后续计算的能量中间状态值，如远端能量最大值E m a x E_{max}E m a x 、和远端能量最小值 E m i n E_{min}E m i n ，其迭代计算规则如下：

其中E m a x E_{max}E m a x 和E m i n E_{min}E m i n 的初始值分别设置为-32767 和 32767。

3，滤波器步长计算及系数更新

AECM 的滤波器系数更新采用的是频域变步长 NLMS 算法。在更新滤波器之前首先根据计算得带的时延通过调用函数 WebRTCAecm_CalcStepSize 计算以 2 为底的负对数域步长 mu，如果 VAD 的结果为不存在语音，则将步长设置为 0。然后将步长参数和远、近端频域数据块传入 WebRTCAecm_UpdateChannel 函数进行滤波器系数的更新。需要注意的是，AECM 内部默认采用双滤波器的结构进行系数更新。关于具体的更新算法可以参考 NLMS 算法的详细阐述，这里重点只介绍步长的计算方法。

根据上一小节中计算的能量中间状态值E m a x E_{max}E m a x 和E m i n E_{min}E m i n ，负对数域的步长 mu 的计算式
如下：
m u = μ m i n − 1 − ( μ m i n − μ m a x ) E l o g − E m i n E m a x − E m i n mu = \mu_{min}-1-(\mu_{min}-\mu_{max}) \frac{E_{log}-E_{min}}{E{max}-E_{min}}m u =μm i n −1 −(μm i n −μm a x )E m a x −E m i n E l o g −E m i n
其中μ m a x μ_{max}μm a x 和μ m i n μ_{min}μm i n 都是常数，分别是负对数域步长的最大值和最小值，AECM 内分别设定为 1 和 10。

4，后续处理步骤

3.1 NLP（非线性滤波）

WebRTC采用了维纳滤波器。此处只给出传递函数的表达式，设估计的语音信号的功率谱为Ps(w)，噪声信号的功率谱为Pn(w)，则滤波器的传递函数为
H ( w ) = P s ( w ) P s ( w ) + P n ( w ) H(w) =\frac{Ps(w)}{Ps(w)+Pn(w)}H (w )=P s (w )+P n (w )P s (w )

3.2 CNG(舒适噪声产生）

WebRTC采用的舒适噪声生成器比较简单，首先生成在[0 ,1 ]上均匀分布的随机噪声矩阵，再用噪声的功率谱开方后去调制噪声的幅度。

这些操作是对回声消除后的信号进行修改和改进，可以进一步提高通信质量。但是，这些过程不是本文的重点，因此我不会在此详细说明。

[En]

These operations are the modification and improvement of the signal after echo cancellation, which can further improve the quality of communication. However, these processes are not the focus of this article, so I will not elaborate here.

总结：在移动终端，由于回声时延很大程度上取决于设备的硬件或者操作系统设置，而 WebRtc 只是一个应用框架，它没有办法获知这些先验知识，因此它将问题交给应用开发人员，要求传入回声时延估计参数 msInSndCardBuf，然后由 AECM 内部在这个基础上进行回声时延的精确计算，因此传入的时延估计参数的准确性将影响到AECM 时延计算的效率和准确性。综上所述，传入参数 msInSndCardBuf 的值会根据设备的变化以及时延的波动而变化。

需要AECM源码可在下方评论或私信我！！！

参考文献：

《基于WebRtc的智能门禁系统回声消除方案，王亚楼》
《VoIP中一种基于WebRTC的回声消除改进算法，姚力》

Original: https://blog.csdn.net/qq_44085437/article/details/124494041
Author: 王二黑_Leon
Title: WebRTC中AECM算法简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512514/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【PyTorch深度学习项目实战100例】—— 基于LeNet5实现交通标志分类任务 | 第50例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月1日
0091
opencv进阶-windows10下进行Tensorflow环境搭建与街头行人检测实验

参考：link1link2link3 Tensorflow对象检测API安装与测试 1.安装opencv4版本下载opencv4版本的开发包，具安装和配置方法参考：opencv学…

人工智能 2023年5月26日
00102
uniapp开发微信小程序，从构建到上线

前言：本文主要介绍 uniapp 的基础使用，以及使用 uniapp 在企业开发的过程中的一个详细流程，比较适合第一次使用uniapp 开发微信小程序的伙伴，或者没有过实战经验的小…

人工智能 2023年5月30日
00100
【自动驾驶】路径规划——ReedsShepp 曲线总结

1.1 基本概念曲线示例如下：图片来源：https://blog.csdn.net/robinvista/article/details/95137143 如上图可以知道，在 …

人工智能 2023年6月1日
0071
python 中，sklearn包下的f1_score、precision、recall使用方法，Accuracy、Precision、Recall和F1-score公式，TP、FP、TN、FN的概念

目录 sklearn.metrics.f1_score sklearn.metrics.precision_score sklearn.metrics.recall_score A…

人工智能 2023年7月26日
00222
推荐系统的发展历程

1.协同过滤算法(Collaborative Filtering,CF)对于协同过滤的研究可以追溯到1992年，Xerox的研究中心开发了一种基于协同过滤的邮件筛选系统，用以过滤一…

人工智能 2023年7月16日
0055
Python制作自动填写脚本，100%准确率

前言环境使用 Python 3.8 Pycharm 模块使用 import requests —> 数据请求模块 pip install requests import p…

人工智能 2023年7月6日
0058
数据分析之客户价值模型(RFM)技术总结

©作者 |leo 管理学中有一个重要概念那就是客户关系管理(CRM)，它核心目的就是为了提高企业的核心竞争力，通过提高企业与客户间的交互，优化客户管理方式，从而实现吸引新客户、保留…

人工智能 2023年7月18日
0055
黑苹果N卡显卡驱动，10.13.6

最新驱动下载地址： Nvidia Web Driver – 387.10.10.10.40.140 10.13.6 10.13.5 10.13.4 10.13.3 10…

人工智能 2023年6月27日
0074
机器学习 | MATLAB实现SVR(支持向量机回归)fitrsvm参数设定

回归预测 | MATLAB实现SVR(支持向量机回归)多输入多输出目录 * – 回归预测 | MATLAB实现SVR(支持向量机回归)多输入多输出 – +…

人工智能 2023年6月18日
00396
【论文精读】RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0086
字节面试 transformer相关问题整理复盘

transformer 动机： RNN特点：给你一个序列，计算是从左往右一步一步往前的。对句子来说，就是一个词一个词的看，对第t个词会计算一个ht,也叫做他的隐藏状态，是由前一个词…

人工智能 2023年5月27日
00107
李亚普洛夫稳定、一致稳定、一致渐近稳定、局部渐近稳定、全局渐近稳定区分

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言一、稳定、一致稳定、一致渐近稳定、局部渐近稳定、全局渐近稳定概念前言这里仅涉及非线性非自治（也即非线性时变…

人工智能 2023年6月24日
0077
什么是过拟合

什么是过拟合？过拟合(Overfitting)是指在机器学习中，模型在训练集上表现良好，但在未见过的测试数据上表现较差的现象。也就是说，模型过于拟合了训练数据中的噪音和特定样本，…

人工智能 2023年12月29日
0064
【无标题】

Series Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之对应的索引（数据标签）组成。 import numpy as np impor…

人工智能 2023年7月7日
0078
COMSC

原文：Consensus One-step Multi-view Subspace Clustering 创新点：传统的子空间聚类分为两个步骤。首先是学一个亲和矩阵，也就是原文中…

人工智能 2023年6月2日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31