语音信号处理基础知识-常用特征及预处理

目录

一、语音信号的特点

其主要特点如下所示:
a) 语音信号的 带宽约为5 K h z 5Khz 5 K h z , 主要能量集中在低频段。
b) 语音信号总体为 非平稳时变信号,一般认为是 短时平稳( 10 m s − 30 m s 10ms-30ms 10 m s −30 m s)。
c) 说话的声音主要可以分为 清音浊音
浊音:发声时 声带振动,语音信号在时域上有明显的周期性。
清音:发声时 声带不振动
特点:
浊音的短时能量大短时平均幅度大短时过零率低
清音的短时能量小短时平均幅度小短时过零率高
声音一般可分为 清音浊音,发浊音时,声带振动,语音信号在 时域上有明显的周期性,这种声带振动的频率称为 基音频率。基音周期的估计又叫 基音检测

二、常用语音特征参数

一般情况下,原始语音信号比较复杂,直接送入神经网络作为输入,计算复杂度高,性能较差,因此需要对语音信号进行特征提取。

[En]

In general, the original speech signal is more complex, which is directly sent to the neural network as input, which has high computational complexity and poor performance, so it is necessary to extract the features of the speech signal.

a) 短时过零率,即 一帧语音信号波形穿过横轴的次数。一般, 高频语音过零率较高低频语音过零率较低,故 短时过零率是区分 清音(多数能量集中在高频)和 浊音(多数能量集中在低频)的有效参数。 短时过零率具体定义如下:Z n = 1 2 ∑ m = 0 N − 2 ∣ sgn ⁡ [ x n ( m ) ] − sgn ⁡ [ x n ( m − 1 ) ] ∣ Z_{n}=\frac{1}{2} \sum_{m=0}^{N-2}\left|\operatorname{sgn}\left[x_{n}(m)\right]-\operatorname{sgn}\left[x_{n}(m-1)\right]\right|Z n ​=2 1 ​m =0 ∑N −2 ​∣sgn [x n ​(m )]−sgn [x n ​(m −1 )]∣其中,x n ( m ) x_{n}(m)x n ​(m )表示短帧信号,N N N表示帧长,sgn ⁡ [ ∙ ] \operatorname{sgn}[\bullet]sgn [∙] 表示符号函数。对一段语音信号 分帧后求出其 所有帧短时过零率,如下图所示。

语音信号处理基础知识-常用特征及预处理
这段语音信号中 某两帧的过零率如下所示:
语音信号处理基础知识-常用特征及预处理
因此由上图可知,第 834帧语音信号为 浊音(过零率低),第 828帧语音信号为 清音(清音)。
b) 短时平均幅度是语音信号 能量大小特征,由其 包络原始信号包络十分 相似,常用于 语音识别语音活动检测(Voice Activity Detection, VDA)判断等领域。定义如下:M n = ∑ m = 0 N − 1 ∣ x n ( m ) ∣ M_{n}=\sum_{m=0}^{N-1}\left|x_{n}(m)\right|M n ​=m =0 ∑N −1 ​∣x n ​(m )∣ 其中,x n ( m ) x_{n}(m)x n ​(m )表示 短帧信号,N N N表示 帧长。对一段语音信号进行短时平均幅度分析如下所示:
语音信号处理基础知识-常用特征及预处理
c) 基因周期发浊音时声带振动语音信号在时域上有 明显的周期性声带振动频率称作基音频率,相应的周期称为 基因周期,这一参数广泛被用在语音识别、说话人确认、语音合成,男女生辨别等领域。目前常用的基音检测方法可分为两大类:
基于事件检测方法,主要是通过对声门闭合时刻进行定位来估计基音周期,主要有 小波变换法希尔伯特变换法
非基于事件的检测法,主要利用语音的短时 平稳性,将语音分为 短时语音段,然后对每一段进行求解。主要方法有: 自相关函数法平均幅度差函数法倒谱法
补充: 男性的 基音频率较低,其范围大概为 70Hz-200Hz之间,说话人为 女性的基音频率大概再 200-450Hz之间。

d) 共振峰频率,人体说话时 声带振动产生准周期脉冲激励,当 激励进入声道时,受声道模型的影响,会引起共振, 产生一组共振频率,称作共振峰频率。目前,共振峰的常用检测方法有 倒谱法线性预测法

语音信号处理基础知识-常用特征及预处理

; 三、语音信号预处理

a) 预加重与去加重受口唇辐射的影响功率谱随频率的增加而减小,语音的 能量主要集中在 低频部分高频部分信噪比较低,为了抵消这种不利影响,需要对语音信号进行 预加重和去加重处理
– 预加重一般使用一阶的 FIR的高通滤波器加重语音信号的 高频分量,滤波器的传递函数H ( z ) = 1 − a z − 1 H(z)=1-a z^{-1}H (z )=1 −a z −1 ,a a a为预加重系数,通常为0.9 < a < 1.0 0.9。 Matlab中可以用y=filter([1, -0.98],1,x)指令来实现预加重,其结果如下图所示。

语音信号处理基础知识-常用特征及预处理
a) 分帧加窗,对语音信号需要 分帧加窗处理后进行 短时分析,使得每一帧语音信号的 长度一般为 10 − 30 m s 10-30ms 10 −30 m s
– 在实际处理过程中,为了保证 语音的连续性且充分利 用帧与帧之间的相关性,使得 帧与帧之间平滑过渡,需要使用 交叠分段的方法。
语音信号处理基础知识-常用特征及预处理
分帧加窗后的结果如下图所示,
语音信号处理基础知识-常用特征及预处理

四、参考链接

1、陈林. 会议电话中的实时回声消除算法研究与实现[D].东南大学,2019.

Original: https://blog.csdn.net/ProgrammersFighting/article/details/120576692
Author: Salute=
Title: 语音信号处理基础知识-常用特征及预处理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/512149/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球