语音端点检测原理VAD——Voice Activity Detection(个人整理)

2023年5月27日下午6:09 • 人工智能 • 阅读 55

语音端点检测原理VAD——Voice Activity Detection(个人整理)

语音端点检测：用于确定给定音频数据中是否存在语音，通常用于语音编解码、降噪、增益控制、波束形成和唤醒识别。

[En]

Speech endpoint detection: used to determine whether there is speech in a given audio data, which is commonly used in speech codec, noise reduction, gain control, beamforming and wake-up recognition.

VAD检测给定音频数据含有语音的概率，VAD方法通常包括特征提取和语音/非语音判决两部分。

目前，语音信号在时间域和频域有两个主要的特征。

[En]

At present, there are two main speech features in time domain and frequency domain.

时域特征：
①能量波动；
②过零率
③最大能量
④最小能量等。

频域特征：
①基频；
②频谱组成；
③频谱质心；
④谱差；
⑤谱密度；
⑥谱衰减；

用于VAD判决的特征通常可以分为六大类：
①能量；
②频域；
③倒谱；
④谱差；
⑤谐波；
⑥长时信息；

基于能量的特征计算简单，如能量过零率，基于谱（频谱，倒谱和谱差）在低SNR可以获得较好的效果，当SNR为0dB时，基于语音谐波和长时语音特征判决方法的鲁棒性更强。

当前的判决准则可以分为3类：
①基于门限；
②基于统计模型；
③基于深度学习；

很多开源的语音宣发都是基于统计模型的判决方法，如WebRTC和Speex中基于高斯混合模型的VAD检测方法，这类方法对信噪比较高的音源检测效果良好。

随着深度学习的兴起，基于深度学习的VAD方法也已经在一些特定的场景商用，最新的WebRTC集成了基于RNN模型的VAD检测方法，该方法作为WebRTC新一代AGG（Automatic Gain Control，自动增益控制）算法的一个子部分存在。

远场情境下，由于传播路径较远，反射、散射、吸收、衰减的影响变强，这导致语音的SNR和SDR比近场差很多，如果此时仅用基于统计模型的检测方法并不能得到很好的判决结果，则有两种解决思路，一种是先提高SNR，再进行VAD检测，另一种是直接对低SNR的带噪语音进行检测，如一些基于深度学习的方法在训练语料中加入噪声，这类方法在数据集充分的前提下，其准确性可以超过基于统计模型的方法。

[TencentCloudSDKException] code:InvalidParameter.MissingParameter message:Check whether the parameters are carried or empty requestId:a0142caa-c8b9-4322-a11d-2c9d797c2f19

[En]

1.特征选取
特征对VAD检测尤为重要，好的特征应有如下特性。
①区分能力：
噪声语音和噪声音频之间的分离程度应该尽可能高。从理论上讲，好的特征可以防止语音特征和噪声特征的交叉。

[En]

The degree of separation between noisy speech and noisy audio should be as high as possible. In theory, good features can prevent the intersection of speech features and noise features.

②噪声鲁棒性：
背景噪声会导致语音失真，影响特征提取的分辨能力。

[En]

Background noise will cause speech distortion, which will affect the feature discrimination ability of extraction.

（1）基于能量的特征
信号的能量强度是基于能量的VAD检测方法的主要依据，在满足语音能量大于背景噪声能量的假设下，当能量大于某一门限时，则可以认为有语音存在，当噪声能量达到和语音能量一样大时，能量特征无法区分是语音还是纯噪声。

早先基于能量的方法将宽带语音分成各个子带，求各个子带能量，因为语音在2kHz以下频带含有大量的能量，而噪声在2~4kHz及4KHz以上的频带能量往往比在0到2KHz频带的能量高。这其实就是频谱平坦度的概率，WebRTC中基于统计模型方法用了频谱平坦度这一特征。基于能量方法在信噪比低于10dB时，语音和噪声的区分性能会加速下降。

（2）短时能量过零率
采集的语音信号在数字域中是正的和负的。从坐标轴上看，有些在正半轴上，有些在负半轴上，如图3-1所示。过零率等于一段时间内通过水平轴的次数与采样点总数的比值，反映了信号变化的速度。虽然它是一种时域特征，但它反映了频域信息的变化程度。过零率对低频噪声比较敏感，在实际应用中可以滤除低频部分。

[En]

The collected speech signals are positive and negative in the digital domain. From the coordinate axis, some are in the positive half axis and some in the negative half axis, as shown in figure 3-1. The zero-crossing rate is equal to the ratio of the number of times passing through the horizontal axis to the total number of sampling points in a period of time, which reflects the speed of signal change. Although it is a time-domain feature, it reflects the frequency-domain information in the degree of change. The zero-crossing rate is sensitive to low-frequency noise, and the low-frequency part can be filtered out in practice.

（3）频域特征
通过STFT将时域信号变成频域信号，俗称声谱图，即使SNR为0dB，一些频带的长时包络还是可以用于区分语音和噪声。

（4）倒谱特征
能量倒谱峰值确定了语音信号的基频，也有使用MFCC特征作为VAD判决的输入特征。

（5）基于谐波的特征
语音的一个明显特征是包含了基频F0及其多个谐波频率，即使在强噪声场景，谐波这一特征也是存在的，可以使用自相关的方法找到基频所在频点。

（6）长时特征
言语是一种不稳定的信号。在正常语速下，大多数人通常每秒发出10到15个音素，而且音素的频谱分布不同，导致语音统计特征随时间发生变化。此外，日常噪声大多是平稳的(变化较慢)，如白噪声，也可以根据音频的长期统计特征来区分语音/噪声。

[En]

Speech is an unsteady signal. At normal speech speed, most people usually emit 10 to 15 phonemes per second, and the spectral distribution of phonemes is different, which leads to the change of speech statistical characteristics with time. In addition, most of the daily noise is steady (the change is relatively slow), such as white noise, which can also be used to distinguish speech / noise according to the long-term statistical characteristics of audio.

2.判决准则

2.1 门限

语音端点检测原理VAD——Voice Activity Detection(个人整理)

最小和最大能量值分别记为E0和E1，对应的门限为

则可以得到自适应门限：

大多数应用使用平滑策略来更新阈值，并使用平滑因子α来控制更新率。

[En]

Most applications use smoothing strategy to update the threshold and use smoothing factor α to control the update rate.

2.2 统计模型法
统计模型法最先源于似然比检验（LRT），这种方法假设语音和背景噪声是独立的高斯分布，这样它们的DFT系数可以用高斯随机变量来描述，设

分别表示非语音和语音。给定第k帧谱

噪声和语音的概率密度函数分别由以下表达式表示：

[En]

The probability density functions of noise and speech are expressed by the following expressions respectively:

其中，i是频点索引，

上式，分别是噪声和语音的方差向量。这些参数可以通过噪声估计和谱减的方法从训练数据集获得。然后可以获得第i个频段的似然比

判决为

当

被认为是有声音的，否则被认为是非声音的。

[En]

Is considered to be voice, otherwise it is considered to be non-voice.

WebRTC用定点化的方法实现了该似然比检验。取对数均值以提升判决的可靠性，但由于左侧log总是正数，因而这似然比偏向Hs，这种偏差可以通过减少只有噪声时似然比波动的判决引导（DD）方法来纠正，DD方法在与引导非语音变换区域容易发生错误，这又可以基于时域平滑减少错误的发生。

2.3 机器学习法
机器学习的思想是收集给定问题的大量语音和非语音样本，并通过机器学习方法获得决策模型(基于深度神经网络)的参数，从而可以使用具有大量参数的神经网络模型。最终的训练模型比高斯模型更接近真实语音模型。

[En]

The idea of machine learning is to collect a large number of speech and non-speech samples for a given problem, and the parameters of the decision model (based on depth neural network) are obtained by machine learning method, so that the neural network model with a large number of parameters can be used. The final trained model is closer to the real speech model than the Gaussian model.

机器学习法通常收集和标注训练集（音频集），提取合适的神经网络输入参数（特征），然后使用深度神经网络开发工具搭建网络模型，网络结构会使用（DNN、CNN、RNN、DCUNet）及他们组合的网络模型，根据训练结果选择适合的模型和参数作为部署模型。

同时，深度学习方法有两大缺点：

[En]

At the same time, the deep learning method has two major disadvantages:

①计算资源通常比传统方法更昂贵。

[En]

① computing resources are usually more expensive than traditional methods.

二是②模型的泛化能力通常比传统方法差。

[En]

The other is that the generalization ability of ② model is usually worse than that of traditional methods.

针对计算资源消耗大的问题，可以通过改变网络模型的结构、模型剪枝、压缩和定点等方法进行优化。

[En]

The problem of high consumption of computing resources can be optimized by changing the structure of the network model, model pruning, compression and fixed point.

针对该模型泛化能力较弱的问题，可以通过采用各种规则化方法、扩大训练数据集、改变网络输入特性等方法来改善。

[En]

The problem of weak generalization ability of the model can be improved by using various regular methods, expanding the training data set and changing the network input characteristics.

参考文献：
实时语音处理–实用指南

[En]

Real-time speech processing– A practical Guide

Original: https://blog.csdn.net/pk296256948/article/details/121664107
Author: 抽屉疯了
Title: 语音端点检测原理VAD——Voice Activity Detection(个人整理)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527181/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络方法——美国波士顿房价(回归问题)

一、回归问题——线性回归和softmax回归线性回归—指一类为一个或多个自变量之间的关系建立模型的方法。在自然科学领域和社会科学领域，回归经常表示输入和输出的关系。二、美国波…

人工智能 2023年6月18日
0059
【论文笔记】知识图谱研究综述思维导图

写在前面是论文笔记，主要是思维导图。DOI:10.13451/j.cnki. shanxi. univ( nat. sci.).2017.03.008 摘要知识图谱以结构化…

人工智能 2023年6月1日
0071
YOLOFastestv2 训练自己的数据集—辛酸仨小时

首先下载YOLOFastestv2：https://github.com/dog-qiuqiu/FastestDet 我是训练的行人目标检测。yolofastestv2需要数据集格…

人工智能 2023年6月29日
0068
深度学习之目标检测（五）– RetinaNet网络结构详解

深度学习之目标检测（五）– RetinaNet网络结构详解 * – 深度学习之目标检测（五）RetinaNet网络结构详解 – + 1. Ret…

人工智能 2023年5月26日
00125
2021 年“泰迪杯”数据分析技能赛 B 题肥料登记数据分析

2021年”泰迪杯”数据分析技能 B题肥料登记数据分析赛题* 一、背景肥料是农业生产中一种重要的生产资料，其生产销售必须遵循《肥料登记管理办法》，依法在农…

人工智能 2023年7月6日
0079
多分类混淆矩阵的理解

借用其它博客的一张例子示意图，该图为一个三分类问题的混淆矩阵，对角线的值表示分类器对该类别预测正确的个数，每一列纵轴表示这个类别真实的样本数，例如从第一列可以得知猫一共有10+3+…

人工智能 2023年6月30日
0067
深度学习基础学习-残差

在看过一些基本资料之后进行的小总结大佬绕道 1、残差的数学概念是指估计值与实际值直接的差，如果存在一个映射f(x)=b，x=x0时，则b-f(x0)则为残差，x-x0为误差 2、…

人工智能 2023年6月16日
0071
2021年研究生数学建模竞赛优秀论文汇总

竞赛题目一般来源于工程与管理等领域的实际问题，并经过提炼加工，不要求参赛者预先掌握深入的专门知识。面向全国研究生培养单位和企事业单位广泛征集竞赛命题，由专家委员会讨论最终确定。 …

人工智能 2023年7月27日
0057
XGB(有监督学习)和多维时序模型结合——预测风电出力

新能源风力发电机上保存有很多实时传感器的感应数据。解决的问题： 1，想要通过传感器数据预测未来一段时间出力功率。2，单XGB等有监督的机器学习模型，根据输入感应器数据预测出力功率…

人工智能 2023年6月23日
00110
跨平台Android和IOS百度语音在线识别原生插件

Step4：打开manifest.json—》App原生插件配置—》选择云端插件 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9IzlYwGd-1…

人工智能 2023年5月27日
0097
DGL安装教程

诸神缄默不语-个人CSDN博文目录 DGL官方安装教程网址：Deep Graph Library 以下仅考虑Linux系统的情况。（在Windows上跑GNN是不是太身残志坚了） …

人工智能 2023年6月16日
00394
华为海思新品SD3403

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月25日
0055
pandas中 map,apply的用法和进度条设置

pandas中 map,apply,applymap的用法和进度条设置在pandas中一般有两种数据结构对象Series、DataFrame。想要批量精心化操作Series、Da…

人工智能 2023年7月8日
0067
方差分析ANOVA、单因素方差分析、协变量方差分析ANCOVA、重复测量方差分析、双因素方差分析（ two-way ANOVA）、多元方差分析MANOVA、多元协方差分析MANCOVA

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0054
手把手教你使用YOLOV5训练自己的目标检测模型-口罩检测-视频教程

手把手教你使用YOLOV5训练自己的目标检测模型大家好，这里是肆十二（dejahu），好几个月没有更新了，这两天看了一下关注量，突然多了1k多个朋友关注，想必都是大作业系列教程来…

人工智能 2023年6月26日
00112
R语言使用cowplot包的plot_grid函数将两个ggplot2可视化结果并排组合起来并添加图像标签A、B、设置组合图像使用共享的图例（shared legend in cowplot）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音端点检测原理VAD——Voice Activity Detection(个人整理)

语音端点检测原理VAD——Voice Activity Detection(个人整理)

大家都在看