顾名思义,VAD(Voice Activity Detection)算法的作用是检测是否是人的语音,它的使用
范围极广,降噪,语音识别等领域都需要有vad检测。vad检测有很多方法,这里我们之介绍一
下webrtc里面的vad检测。
webrtc的vad检测原理是根据人声的频谱范围,把输入的频谱分成六个子带
(80Hz250Hz,250Hz500Hz,500Hz1K,1K2K,2K3K,3K4K。) 分别计算这六个子带的、
能量。然后利用高斯模型的概率密度函数得到对数似然比函数。对数似然比得分
[En]
Energy. Then the probability density function of Gaussian model is used to obtain a logarithmic likelihood ratio function. Logarithmic likelihood ratio score
全局和局部,全局是六个子带的加权和,局部意味着每个子带都是局部的,所以语音判断将
[En]
Global and local, global is the weighted sum of six subbands, and local means that each subband is local, so voice judgment will
先判子带,当没有判子带时,就判断全局,只要一方过关,哪怕有声音。
[En]
First judge the subband, when the subband is not judged, it will judge the overall situation, as long as one party passes, even if there is a voice.
webrtc的vad检测代码比较简洁,核心代码只在三个文件中。
webrtc_vad.c 该文件是用户调用的API函数,使用vad一般只需要调用该里面的函数即可。
使用函数:WebRtcVad_Create WebRtcVad_Init 申请内存和初始化一些参数。
使用函数:WebRtcVad_set_mode 设置vad要处理的采样率,一般是8000或16000
使用函数:WebRtcVad_Process 核心函数,完成检测是否有人声的核心。
vad_core.c 该文件是webrtc_vad.c 文件中函数的实现代码,也是vad最深层的核心代码。
使用方法:
初始化调用:
WebRtcVad_Create();
WebRtcVad_Init();
WebRtcVad_set_mode();
处理调用:
WebRtcVad_Process();
注意事项:
这里共有三种帧长可以用到,分别是80/10ms,160/20ms,240/30ms。其它采样率
的48k,32k,24k,16k会重采样到8k来计算VAD。之所以选择上述三种帧长度,是因为语
音信号是短时平稳信号,其在10ms~30ms之间可看成平稳信号,高斯马尔科夫等比较
的信号处理方法基于的前提是信号是平稳的,在10ms~30ms,平稳信号处理方法是可
以使用的。
从vad的代码中可以看出,实际上,系统只处理默认10ms,20ms,30ms长度的数据,
其它长度的数据没有支持,笔者修改过可以支持其它在10ms-30ms之间长度的帧长度
发现也是可以的。
vad检测共四种模式,用数字0~3来区分,激进程度与数值大小正相关。
0: Normal,1:low Bitrate, 2:Aggressive;3:Very Aggressive 可以根据实际的使用
它可以在初始化期间进行配置。
[En]
It can be configured during initialization.
动也会带来影响,所以取了80Hz以上的信号。
Original: https://blog.csdn.net/sdsszk/article/details/110143331
Author: sdsszk
Title: VAD检测原理及其过程
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/525171/
转载文章受原作者版权保护。转载请注明原作者出处!