# 语音识别原理与应用 第三章 语音特征提取

3.1预处理

3.2 短时傅立叶变换

3.3听觉特性

3.4线性预测

3.5倒谱分析

3.6常用的声学特征

[En]

The original speech is a time series signal of variable length, which is not suitable to be directly used as the input of traditional machine learning algorithms. It generally needs to be converted into a specific feature vector representation. This process is called * speech feature extraction * .

[En]

With the development of deep learning, the original signal can also be directly used as the input of the network, but because of its large redundancy in time domain, it will increase the difficulty of training. Feature extraction is still one of the key links of speech signal processing technology.

## 3.1预处理

[En]

Firstly, the original speech signal in time domain is preprocessed, including * pre-emphasis * , * framing * and * windowing * .

（1） 预加重

（2） 分帧

（3） 加窗

[En]

The above framing method is equivalent to adding a rectangular window to the speech signal, truncating the signal in the time domain, the passband in the corresponding frequency domain is narrow, and there are multiple sidelobe at the boundary, which leads to serious spectrum leakage.

，如下所示：

## 3.2 短时傅立叶变换

[En]

The signal of each frequency can be represented by sine wave and modeled by sine function. Based on the Euler formula, the sine function can be corresponding to a unified exponential form.

[En]

The sine function has orthogonality, that is, the product of any two sine waves of different frequencies, the integral in the common period of the two is equal to zero. The orthogonality is expressed by complex exponential operation as follows:

，如果

[En]

Based on the orthogonality of sinusoidal function, sinusoidal signals corresponding to different frequencies can be separated from speech signals by correlation processing.

DFT系数通常是复数形式，因为

[En]

In speech signal processing, we mainly pay attention to the spectrum amplitude of the signal, also known as the amplitude spectrum, which is expressed as follows:

[En]

The energy spectrum is expressed by the square of the amplitude spectrum:

[En]

Most of the sounds produced by various sound sources are compound sounds composed of sounds of different intensities and frequencies.

。根据复数的奇、偶、虚、实关系，采用快速傅里叶变换（FFT），可简化计算复杂度，在的时间内计算出DFT。

## 3.3听觉特性

[En]

Human beings have different perceptions of speech at different frequencies:

1kHz以下，与频率呈线性关系。

1kHz以上，与频率成对数关系。

## 3.5倒谱分析

（1）傅里叶变换。将时域的卷积信号转化为频域的乘积信号：

（2）对数运算。将乘积信号转变为加性信号：

（3）傅里叶反变换。得到时域的语音信号倒谱。

## 3.6常用的声学特征

Original: https://blog.csdn.net/hnlg311709000526/article/details/120952729
Author: 楚歌汉水
Title: 语音识别原理与应用 第三章 语音特征提取

(0)

### 大家都在看

• #### Python学习3-层次聚类

目录 0.层次聚类的概念 0.1 聚合层次聚类 0.2 分裂层次聚类 1.凝聚层次聚类算法步骤 1.1 算法过程 1.2算法案例 0.层次聚类的概念 层次聚类和k-means一样都…

人工智能 2023年5月31日
0148
• #### OpenCV 高级形态学函数cv2.morphology()

morphology:形态学 Python: cv.morphologyEx( src, op, kernel[, dst[, anchor[, iterations[, bord…

人工智能 2023年7月20日
0161
• #### Python安装Pandas库

方法一：cmd命令行执行pip install pandas1.Windows+R，输入cmd打开命令行窗口，输入pip install pandas。如下图所示2.若出现下图所示…

人工智能 2023年7月4日
0160
• #### KITTI数据集详解

人工智能 2023年7月28日
0404
• #### ResNet与Densenet之间的关系以及区别

一、ResNet和DenseNet的之间的关系以及区别，如参数量和训练速度。 简单介绍下ResNet以及DenseNet ResNet的最大的贡献是缓解深层的神经网络训练中的梯度消…

人工智能 2023年7月12日
0120
• #### 点云3D目标检测之——尝试SFD代码跑通（超详细！！）

前言 到目前为止还没跑通，但是bug实在太多了，我的每一步都有错，如果不记录下来又会有遗漏，（肯定已经遗漏了很多），在这里把能想起来的都记录一下以便不时之需。另外，本人深度学习小白…

人工智能 2023年7月9日
0151
• #### [ 数据集 ] ImageNet 数据集介绍

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年6月16日
0234
• #### DETR源码笔记（二）

搭建Transformer Encoder Decoder DETR搭建 LOSS计算和GT匈牙利匹配 PostProcess后处理 main（三） 构建数据集、训练验证操作 搭建…

人工智能 2023年6月17日
0144
• #### C++进阶-3-3deque容器

C++进阶-3-3deque容器 C++进阶-3-3deque容器 1 #include 2 #include 3 #include 4 using namespace std; …

人工智能 2023年6月4日
0153
• #### 【SQL刷题】DAY14—-SQL使用子查询专项练习

​ 博主昵称：跳楼梯企鹅博主主页面链接： 博主主页传送门博主专栏页面连接： 专栏传送门–网路安全技术创作初心：本博客的初心为与技术朋友们相互交流，每个人的技术都存在短板…

人工智能 2023年7月30日
0166
• #### Informer源码分析

首先是数据准备阶段的入口函数，位于Exp_Informer类的train函数内 train_data, train_loader = self._get_data(flag = ‘…

人工智能 2023年6月23日
0183
• #### 网络安全事件应急响应实战

一、应急响应 1、 Window 入侵排查 当企业发生黑客入侵、系统崩溃或其它影响业务正常运行的安全事件时，急需第一时间进行处理，使企业的网络信息系统在最短时间内恢复正常工作，进一…

人工智能 2023年6月2日
0193
• #### EVM220_A2开发笔记

环境准备流程（参考EVM220A2主板手册）： 1 在ubuntu环境下安装开发环境2 安装交叉编译器（arm64和m0），这里每次执行一下 source /etc/profile…

人工智能 2023年7月12日
0184
• #### 马尔科夫型决策以及使用python计算方法

一、马尔可夫性 考察某工厂一台自动加工机的工作状态。该机器有两种工作状态：正常状态和故障状态。在每个整数钟点的起始时刻检查机器的工作情况，若机器处于正常状态，则让它继续工作；若机器…

人工智能 2023年6月16日
0207
• #### NLP中的数据增强方法！

🥇作者简介：大家好我是 uu 人工智能硕博在读、精通python、某大厂nlp算法经历、机器学习、深度学习、自然语言处理、计算机视觉🥈个人主页：uu主页觉得uu写的不错的话 麻烦动…

人工智能 2023年5月30日
0161