语音信号处理基础知识-常用特征及预处理

2023年5月25日上午4:19 • 人工智能 • 阅读 81

其主要特点如下所示：
a) 语音信号的带宽约为5 K h z 5Khz 5 K h z , 主要能量集中在低频段。
b) 语音信号总体为 非平稳时变信号，一般认为是 短时平稳( 10 m s − 30 m s 10ms-30ms 10 m s −30 m s)。
c) 说话的声音主要可以分为清音和浊音。
浊音：发声时 声带振动，语音信号在时域上有明显的周期性。
清音：发声时 声带不振动。
特点：
浊音的短时能量大， 短时平均幅度大， 短时过零率低。
清音的短时能量小， 短时平均幅度小， 短时过零率高。
声音一般可分为清音和浊音，发浊音时，声带振动，语音信号在 时域上有明显的周期性，这种声带振动的频率称为 基音频率。基音周期的估计又叫 基音检测。

二、常用语音特征参数

一般情况下，原始语音信号比较复杂，直接送入神经网络作为输入，计算复杂度高，性能较差，因此需要对语音信号进行特征提取。

[En]

In general, the original speech signal is more complex, which is directly sent to the neural network as input, which has high computational complexity and poor performance, so it is necessary to extract the features of the speech signal.

a) 短时过零率，即 一帧语音信号波形穿过横轴的次数。一般， 高频语音过零率较高， 低频语音过零率较低，故 短时过零率是区分清音（多数能量集中在高频）和浊音（多数能量集中在低频）的有效参数。 短时过零率具体定义如下：Z n = 1 2 ∑ m = 0 N − 2 ∣ sgn ⁡ [ x n ( m ) ] − sgn ⁡ [ x n ( m − 1 ) ] ∣ Z_{n}=\frac{1}{2} \sum_{m=0}^{N-2}\left|\operatorname{sgn}\left[x_{n}(m)\right]-\operatorname{sgn}\left[x_{n}(m-1)\right]\right|Z n =2 1 m =0 ∑N −2 ∣sgn [x n (m )]−sgn [x n (m −1 )]∣其中，x n ( m ) x_{n}(m)x n (m )表示短帧信号，N N N表示帧长，sgn ⁡ [ ∙ ] \operatorname{sgn}[\bullet]sgn [∙] 表示符号函数。对一段语音信号分帧后求出其 所有帧的 短时过零率，如下图所示。

这段语音信号中 某两帧的过零率如下所示：
语音信号处理基础知识-常用特征及预处理

因此由上图可知，第 834帧语音信号为浊音(过零率低)，第 828帧语音信号为清音(清音)。
b) 短时平均幅度是语音信号 能量大小的特征，由其包络与 原始信号包络十分相似，常用于 语音识别、 语音活动检测(Voice Activity Detection, VDA)判断等领域。定义如下：M n = ∑ m = 0 N − 1 ∣ x n ( m ) ∣ M_{n}=\sum_{m=0}^{N-1}\left|x_{n}(m)\right|M n =m =0 ∑N −1 ∣x n (m )∣ 其中，x n ( m ) x_{n}(m)x n (m )表示 短帧信号，N N N表示帧长。对一段语音信号进行短时平均幅度分析如下所示：
语音信号处理基础知识-常用特征及预处理

c) 基因周期， 发浊音时， 声带振动语音信号在时域上有 明显的周期性， 声带振动频率称作基音频率，相应的周期称为 基因周期，这一参数广泛被用在语音识别、说话人确认、语音合成，男女生辨别等领域。目前常用的基音检测方法可分为两大类：
– 基于事件检测方法，主要是通过对声门闭合时刻进行定位来估计基音周期，主要有 小波变换法和 希尔伯特变换法。
– 非基于事件的检测法，主要利用语音的短时 平稳性，将语音分为 短时语音段，然后对每一段进行求解。主要方法有： 自相关函数法、 平均幅度差函数法和 倒谱法。
补充：男性的 基音频率较低，其范围大概为 70Hz-200Hz之间，说话人为女性的基音频率大概再 200-450Hz之间。

d) 共振峰频率，人体说话时 声带振动， 产生准周期脉冲激励，当 激励进入声道时，受声道模型的影响，会引起共振， 产生一组共振频率，称作共振峰频率。目前，共振峰的常用检测方法有 倒谱法、 线性预测法。

; 三、语音信号预处理

a) 预加重与去加重， 受口唇辐射的影响， 功率谱随频率的增加而减小，语音的能量主要集中在 低频部分， 高频部分信噪比较低，为了抵消这种不利影响，需要对语音信号进行 预加重和去加重处理。
– 预加重一般使用一阶的 FIR的高通滤波器来加重语音信号的 高频分量，滤波器的传递函数H ( z ) = 1 − a z − 1 H(z)=1-a z^{-1}H (z )=1 −a z −1 ，a a a为预加重系数，通常为0.9 < a < 1.0 0.9。 Matlab中可以用y=filter([1, -0.98],1,x)指令来实现预加重，其结果如下图所示。

a) 分帧加窗，对语音信号需要 分帧加窗处理后进行 短时分析，使得每一帧语音信号的 长度一般为 10 − 30 m s 10-30ms 10 −30 m s
– 在实际处理过程中，为了保证 语音的连续性且充分利 用帧与帧之间的相关性，使得 帧与帧之间平滑过渡，需要使用 交叠分段的方法。

分帧加窗后的结果如下图所示，

四、参考链接

1、陈林. 会议电话中的实时回声消除算法研究与实现[D].东南大学,2019.

Original: https://blog.csdn.net/ProgrammersFighting/article/details/120576692
Author: Salute=
Title: 语音信号处理基础知识-常用特征及预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512149/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

无人驾驶信号灯

人工智能 2023年5月26日
0059
【深度学习】YOLO-Pose 人体关键点估计人体姿态估计

论文： https://arxiv.org/abs/2204.06806代码：https://github.com/TexasInstruments/edgeai-yolov5h…

人工智能 2023年6月29日
0089
【论文笔记】KGAT: Knowledge Graph Attention Network for Recommendation

原文作者：Xiang Wang，Xiangnan He，Yixin Cao，Meng Liu，Tat-Seng Chua 原文标题：KGAT: Knowledge Graph At…

人工智能 2023年6月1日
0078
机器学习题目汇总

1. 深度学习中的激活函数需要具有哪些属性？计算简单非线性具有饱和区几乎处处可微 ABD。解析：（1）非线性：导数不能是常数。（2）几乎处处可微：sigmoid处处可微，R…

人工智能 2023年6月16日
0095
【OpenCV】—图像金子塔与图片尺寸缩放

序言：继续，继续，开干！！！本节学习OpenCV中的函数pyrUp和pyrDown对图像进行向上和向下采样，以及了解专门用于缩放图像尺寸的resize函数的用法文章目录 * &…

人工智能 2023年6月21日
0095
DANN-经典论文概念及源码梳理

没错，我就是那个为了勋章不择手段的屑（手动狗头）。快乐的假期结束了哭哭… DANN 对抗迁移学习域适应Domain Adaption-迁移学习；把具有不同分布的源域（…

人工智能 2023年6月25日
0075
sklearn-鸢尾花分类

0、导入所需的包 from sklearn.svm import SVC from sklearn import datasets from sklearn.preprocessi…

人工智能 2023年7月3日
0049
Matlab 图像处理

目录 1.1 图片的读写和显示 1.2 彩色图、灰度图和二值化 RGB分离与合并彩色图转灰度图 rgb2gray 对灰度图进行二值化 (0或1) imbinarize 1.3 M…

人工智能 2023年6月20日
0074
【常见的优化算法介绍】

常见的优化算法介绍 1. 批量梯度下降算法（batch gradient descent BGD）每次迭代都需要把所有样本都送入，这样的好处是每次迭代都顾及了全部的样本，做的是全…

人工智能 2023年6月16日
0063
7种不同的数据标准化(归一化)方法总结

数据的归一化是数据预处理中重要的的一步，很多种方法都可以被称作数据的归一化，例如简单的去除小数位，而更高级归一化技术才能对我们训练有所帮助，例如 z-score 归一化。所以本文…

人工智能 2023年6月16日
0092
语音识别基础知识一

1 、人耳组成的三部分：外耳：外耳包含耳翼和外耳道，耳翼具有定向作用，外耳道同其它管道一样也有共振频率，大约是3400Hz。鼓膜位于外耳道内端，声音的振动通过鼓膜传到内耳。中耳…

人工智能 2023年5月25日
0075
【Python机器学习项目】项目一：心脏病二分类问题

使用机器学习预测心脏病根据一些病理学属性预测心脏病特别说明：开新坑啦！本系列共2个项目，难度不大，特别适合新手入坑由于本项目只是系列课程的第一个项目，所以很多细节不深挖，仅…

人工智能 2023年7月2日
00109
python读取数据库的值并保存为csv格式的文件

由于自己不怎么会写存储过程，不能再数据库中直接处理数据，只能通过python读取数据库的数据用python处理数据。需要引用的包为 import pymssql import p…

人工智能 2023年7月8日
0046
通过pd.to_sql()将DataFrame写入Mysql

循环创建表，并且创建主键、外键 import pandas as pd from sqlalchemy import create_engine from sqlalchemy.t…

人工智能 2023年6月2日
0056
【TGRS】Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention译读笔记

论文信息 Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention …

人工智能 2023年7月12日
0046
数学建模复盘 — 人力资源安排的最优化模型

0 说明这次建模是由学长亲自带队指导某校学生校赛，并且这次题目质量出的还不错，而且资源优化模型也是各个建模大赛喜欢出的题目，这里学长把作品分享出来给大家。 1 描述某大学数学系…

人工智能 2023年7月2日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音信号处理基础知识-常用特征及预处理

目录

大家都在看