语音中常用输入特征的提取过程：MFCC、FBank

2023年5月25日下午4:58 • 人工智能 • 阅读 56

介绍
*
梅尔(Mel)频率
掩蔽效应和临界带宽
Mel滤波器
MFCC提取流程
*
1.预加重
2.加窗
3.DFT
4.Mel滤波
5.DCT变换
Fbank提取流程
总结

介绍

要了解 MFCC 的提取流程，我们先复习一下相关知识。

梅尔(Mel)频率

梅尔频率为人耳所感知到的声音频率。当音频的物理频率 f f f 在1kHz 以下，其梅尔频率 M e l ( f ) Mel(f)M e l (f ) 与 f f f 近似为线性关系，而在1kHz 以上则近似为对数关系。两者的对应关系可用下式来近似：
M e l ( f ) = 1127 l n ( 1 + f / 700 ) Mel(f)=1127{\rm ln} (1+f/700)M e l (f )=1 1 2 7 l n (1 +f /7 0 0 )
在 f > f>f > 1kHz 时，对数曲线如下：

曲线斜率逐渐减小，即改变相同的 f f f，在频率较低处的 M e l ( f ) Mel(f)M e l (f ) 变化更大，而在频率较高处的 M e l ( f ) Mel(f)M e l (f ) 变化更小，因此人耳对较低频率更为敏感，而对较高频率更为不敏感。（注意这里说的较高频率、较低频率都是1kHz 以上的频率）

; 掩蔽效应和临界带宽

当两个声音的频率差小于某个带宽 W W W 时，人耳无法分出而把两个声音听成一个的现象称为掩蔽效应，W W W 则称为临界带宽。当声压恒定时，一段音频的频率在临界带宽内变化，人耳所感知到的只是该带宽中心频率的一个纯音，而无法感知其频率变化。
根据前面的分析，在频率大于1kHz时，人耳对较低频率更为敏感，因此较低频率处的掩蔽效应较弱，临界带宽更小；而频率较高处的掩蔽效应更强，临界带宽更大。（这里说的临界带宽是在物理频率刻度下，梅尔频率刻度下临界带宽是一直不变的，因此梅尔频率更符合人的听觉感知）

Mel滤波器

Mel滤波器是一组三角形滤波器，每个滤波器都是在一个临界带宽内的带通滤波器，由于临界带宽随着频率越来越大，因此滤波器组由密到疏，且带宽内中心频率的响应要大，两边响应要小。
进行滤波时，每个带通滤波器 j j j 和信号幅度的加权和 m j m_j m j 为该滤波器的输出，若有 p p p 个滤波器，则可提取到 p p p 维的特征 [ m 1 , m 2 , . . . , m p ] [m_1, m_2, …, m_p][m 1 ,m 2 ,…,m p ]。
(至于为什么是三角形的，我觉得也可以换成别的，只要是带通即可)

; MFCC提取流程

1.预加重

假设 x ( n ) x(n)x (n ) 为原信号，则按照下式进行加重：
y ( n ) = x ( n ) − 0.97 x ( n − 1 ) y(n)=x(n)-0.97x(n-1)y (n )=x (n )−0 .9 7 x (n −1 )
y ( n ) y(n)y (n ) 为加重后的信号。
从频率上看，相当于将原始信号通过一个高通滤波器：

[En]

From a frequency point of view, it is equivalent to passing the original signal through a high-pass filter:

H ( z ) = 1 − 0.97 z − 1 H(z)=1-0.97z^{-1}H (z )=1 −0 .9 7 z −1
目的是突出高频，减少嘴唇辐射的影响。

[En]

The aim is to highlight the high frequency and reduce the effect of lip radiation.

2.加窗

S w ( n ) = y ( n ) ∗ W ( n ) S_w(n)=y(n)W(n)S w (n )=y (n )∗W (n )
一般采用汉明窗。
语音信号本身并不稳定，但在成帧后，每一帧都被视为平滑的，因此会导致帧的开头和结尾不连续，加窗使整体更连续，减少了吉布斯效应。

[En]

The speech signal itself is not stable, but after framing, it is treated as smooth in each frame, so it will lead to discontinuity at the beginning and end of the frame, and windowing makes the whole more continuous and reduces the Gibbs effect.

因为汉明窗口削弱了两侧的数据，所以当移位帧时，它会部分重叠，从而确保削弱的部分出现在下一帧中。

[En]

Because the hamming window weakens the data on both sides, it partially overlaps when the frame is shifted, ensuring that the weakened part appears in the next frame.*

3.DFT

; 4.Mel滤波

为了更贴合人耳感知，把原信号的物理频率刻度换成 Mel 刻度。
设一组有M M M个带通滤波器，其中第 m m m 个滤波器的加权系数为H m H_m H m ，则滤波得到的特征为 S = [ S 1 , S 2 , . . . , S M ] S=[S_1, S_2, …, S_M]S =[S 1 ,S 2 ,…,S M ]，其中 S i S_i S i 为第 i i i 个滤波器的输出能量：

取对数可实现信号的同态处理，便于去除卷积通道噪声。

[En]

Taking logarithm is to realize homomorphic signal processing, which is convenient to remove convolution channel noise.

5.DCT变换

由于 Mel 滤波器组之间有重叠，因此上一步得到的特征维度之间会有相关性。有些情况下不需要特征的相关特性，因此利用 DCT 去相关：

注意DCT变换后，能量基本集中在低频，因此只需取前面几维即可，相当于对上一步得到的特征进行了降维操作。

; Fbank提取流程

FBank 特征不需要做 DCT 去相关，即在第4步 Mel 滤波后，得到的特征即为 FBank 特征。FBank 各维度之间有相关性，而一般来说 CNN 能够有效地利用这种相关性，因此 CNN 中用 FBank 作为输入性能更好。

总结

Original: https://blog.csdn.net/ly41811/article/details/117025126
Author: ly41811
Title: 语音中常用输入特征的提取过程：MFCC、FBank

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515141/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多模态机器学习基础、应用及预训练模型介绍

早在公元前四世纪，哲学家和艺术学家提出了多模态的概念，用以定义融合不同内容的表达形式与修辞方法。在当今大数据时代，我们总说数据是多源异构的：多源：数据持有方多样化。比如数据来源于…

人工智能 2023年5月26日
00119
Diffusion models代码实战：从零搭建自己的扩散模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月12日
0056
利用Python进行数据分析：数据聚合与分组运算（基于DataFrame）

利用Python进行数据分析：数据聚合与分组运算在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的groupby功能，对数据集进…

人工智能 2023年7月17日
00115
第11讲：Python列表对象中元素修改操作

第 1 章软件包的安装和介绍………………..1 1.1 Python 简介……&#…

人工智能 2023年7月30日
0047
Halcon边缘检测Sobel、Laplace和Canny算子

提示：文章参考了网络上其他作者的文章，以及相关书籍，如有侵权，请联系作者。文章目录前言一、像素级边缘提取 * 1.经典的边缘检测算子 2.边缘检测的一般流程 3.sobel＿…

人工智能 2023年6月24日
0052
opencv 场景文字识别

opencv 场景文字识别文章目录 opencv 场景文字识别前言 * 目标 API – 场景文字检测：cv::dnn::TextDetectionModel 场景…

人工智能 2023年7月20日
0059
Python数据分析之不只是拟合数据，还要获得洞察力，轻量级的 Python包可以让您深入了解回归问题

; 为什么需要洞察力？先说第一件事。为什么线性回归很重要？线性回归是一项基本技术，它深深植根于经过时间考验的统计学习和推理理论，并为现代数据科学管道中使用的所有基于回归的算法提供…

人工智能 2023年6月11日
0090
Collaborativ

问题介绍 Collaborative filtering是一种常用的推荐算法，通过分析用户间的相似性来预测用户的兴趣或偏好。在这个问题中，我们将使用Collaborative fi…

人工智能 2024年1月2日
0024
R语言采用优化方法拟合曲线并计算AIC,BIC,LRT

文章目录前言一、R代码实现 * 1.导入库 2.随机生成原始数据 3.RMSD 4.梯度下降 5.最大似然估计 6.做出优化后图像 7.求AIC,BIC 8.求LRT 二、运行…

人工智能 2023年6月16日
0039
【Python数据分析基础笔记（仅供本人学习记录）】P2.DataFrame对象及常用操作

DataFrame的数据结构特点如下： 1.DataFrame由共用相同索引的一组列组成2.DataFrame是一个表格型数据结构，每列值类型可以不同3.DataFrame常用于表…

人工智能 2023年6月11日
0058
AI眼中的世界 ——人工智能绘画入门

目录什么是Disco Diffusion？如何使用Disco Diffusion？正文准备工作入门教程开始行动默认跑一个默认的描述A beautiful painti…

人工智能 2023年7月25日
0057
Pandas快速实现excel分类查询并将每一类数据导入到新表格中不同Sheet中

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档提示：工作中经常会用到这样的操作，对于老板给的一个表格，需要根据其中的某一列进行筛选，将同一类的数据粘贴到另一个表…

人工智能 2023年6月11日
00200
阅读书籍《深度学习之PyTorch物体检测实战》

阅读书籍《深度学习之PyTorch物体检测实战》第一篇物体检测基础知识计算机视觉领域图像成像：成像是计算机视觉较为底层的技术，深度学习在此发挥的空间更多的是成像后的应用，…

人工智能 2023年7月23日
0051
Baseline 【CCKS 2021：表型-药物-分子多层次知识图谱的链接预测】

1. 数据集介绍（不包括测试集） schema.json：包含的是所有的实体类型（ 6种），以及所有的关系类型（ 7种） { "entity_type": […

人工智能 2023年6月1日
0097
mac版 SimHei添加教程

mac版本matplotlib SimHei配置一、环境描述python 3.7mac 10.15.4二、问题描述使用matplotlib绘制图片的时候，所有的中文字符无法正常显…

人工智能 2023年5月31日
0066
【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN：基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月13日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

语音中常用输入特征的提取过程：MFCC、FBank

梅尔(Mel)频率

; 掩蔽效应和临界带宽

Mel滤波器

1.预加重

2.加窗

3.DFT

; 4.Mel滤波

5.DCT变换

大家都在看