# FBK和MFCC特征

FBK: filter bank

MFCC: Mel-frequency ceptral coefficients 梅尔频率倒谱系数

MFCC特征的计算过程：

1.预加重pre emphasis:

[En]

Why should it be pre-aggravated: when the voice travels in the air, the high-frequency part attenuates more, and this part of the attenuation should be restored.

pre_emphasis_coeff = 0.95
x(n) = x(n) - pre_emphasis_coeff * x(n-1)


2.分帧：

frame_len = 25 # each frame length (ms)
frame_shift = 10 # frame shift length (ms)
frame_len_samples = frame_len*fs//1000 # each frame length (samples) =200
frame_shift_samples = frame_shift*fs//1000 # frame shifte length (samples) =80


3.预加窗

[En]

Why pre-window: the window function is very smooth, so that the sampling points at both ends of each frame can be smoothly attenuated to zero, so that the intensity of the post-sidelobe of the Fourier transform can be obtained and a higher quality spectrum can be obtained.

[En]

You can see that after windowing, both ends of the frame data are gradually attenuated to zero.

1. (离散)傅里叶变换

[En]

Physical meaning: convert the signal from time domain to frequency domain to get the amplitude and phase of each frequency (or each frequency point).

K=512 # length of DFT

4.计算能量谱

[En]

Get the energy at each frequency (at each frequency point).

[En]

Calculation method: the sum of squares of the real and imaginary parts of a complex number

power_spec = np.absolute(freq_domain_data) ** 2 * (1/K) # power spectrum


5.梅尔滤波Mel-filter

WHY: 人耳对语音的低频部分和高频部分的敏感度不一样，对低频部分更敏感，对高频部分不敏感。

""" 3. Apply the mel filterbank to the power spectrum, sum the energy in each filter.

The Mel scale relates perceived frequency, or pitch, of a pure tone to its actual measured frequency.

Humans are much better at discerning small changes in pitch at low frequencies than they are at high frequencies.

Incorporating this scale makes our features match more closely what humans hear.

The formula for converting from frequency to Mel scale is:
M(f) = 2595*log10(1+f/700)
And formula for converting from Mel scale to frequency is:
F(m) = 700*(10**(m/2595)-1)
"""
low_frequency = 20 # We don't use start from 0 Hz because human ear is not able to perceive low frequency signal.

high_frequency = fs//2 # if the speech is sampled at f Hz then our upper frequency is limited to 2/f Hz. =4000
low_frequency_mel = 2595 * np.log10(1 + low_frequency / 700) # =31.74
high_frequency_mel = 2595 * np.log10(1 + high_frequency / 700) # = 2146.06


[En]

Calculation method: construct a set of filters, and then multiply the filter with the energy spectrum

6.取log

WHY：纵轴的放缩，可以放大低能量处的能量差异。想想log的图像

7.离散余弦变换DCT

[En]

Generally, only the first 12 or 20 points after discrete cosine transform are retained.

num_ceps = 12 # MFCC feature dims, usually between 2-13.

feature from other dims are dropped beacuse they represent rapid changes in filter bank coefficients and they are not helpful for speech models.

mfcc = dct(log_fbank, type=2, axis=1, norm="ortho")[:, 1 : (num_ceps + 1)]


1.MFCC特征是在FBK特征的基础上计算得到；

2.MFCC特征比FBK特征维度更低。一般FBK特征是40维，MFCC特征是13维。

Original: https://blog.csdn.net/huang_yx005/article/details/122474081
Author: huang_yx005
Title: FBK和MFCC特征

(0)

### 大家都在看

• #### Web UI自动化测试专栏博客汇总

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0136
• #### 使用python和opencv通过边缘填充的方式在不改变图像比例的前提下resize图像到目标大小

导读 最近在做一个项目，需要使用人脸关键点的坐标变化作为特征。但是发现经过前期的人脸配准、裁剪、resize预处理之后，图像由于宽高比例发生了变化，其中的人脸已经发生了扭曲变形。在…

人工智能 2023年6月22日
0162
• #### Linux:文件目录类指令(内含：文件目录所有用法总结摘要+所有用法案例)

1.总结/摘要 文件目录： pwd:显示当前工作目录的绝对路径 ls -a:显示当前目录所有的文件和目录，包含隐藏的 ls -l:以列表的方式显示信息。 cd:切换到指定目录(cd…

人工智能 2023年6月29日
0117
• #### R语言中三线表是什么？使用table1包绘制（生成）三线表实战

R语言中三线表是什么？使用table1包绘制（生成）三线表实战 目录 R语言中三线表是什么？使用table1包绘制（生成）三线表实战 Original: https://blog….

人工智能 2023年7月15日
0154
• #### 【NLP】RNN理解（Pytorch实现）

【参考：【循环神经网络】5分钟搞懂RNN，3D动画深入浅出_哔哩哔哩_bilibili】 【参考：RNN的Excel实现_哔哩哔哩_bilibili】 参数理解 上面这张图最能表明…

人工智能 2023年7月22日
0142
• #### 语音识别笔记

1、语音基础 2、模型结构 2.1 卷积神经网络 1 时频域上的卷积相比于二维的图像输入，语音信号往往是一维时序信号，直接使用一维时序信号建模效果差。因此要在网络的输入中也采用经过…

人工智能 2023年5月25日
0133
• #### OpenCV-白平衡(灰度世界算法)

作者：翟天保Steven版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处 实现原理 白平衡的意义在于，对在特定光源下拍摄时出现的偏色现象，通过加强对应的…

人工智能 2023年5月26日
0170
• #### pandas DataFrame的修改方法

pandas DataFrame的增删查改总结系列文章： 对于DataFrame的修改操作其实有很多，不单单是某个部分的值的修改，还有一些索引的修改、列名的修改，类型修改等等。我们…

人工智能 2023年6月2日
0179
• #### Pytorch 批量归一化（Batch Normalization）

Pytorch 批量归一化（Batch Normalization） 0. 环境介绍 环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的 动手学深度学习 网…

人工智能 2023年7月22日
0154
• #### 基于MK-MMD度量迁移学习的轴承故障诊断方法研究

摘要 上一篇文章实验是基于凯斯西厨大学轴承数据集，使用同一负载情况下的6种轴承数据进行故障诊断，并没有进行不同负载下轴承故障诊断。之前没做这块迁移学习实验，主要是对于迁移学习理解不…

人工智能 2023年5月23日
0135
• #### 无人驾驶虚拟仿真（十五）–障碍物检测与识别1

简介：无人驾驶虚拟仿真环境中，道路障碍物默认有3种，路障、小鸭子（模拟行人）和小车，其中路障是静止状态，小鸭子和小车可以是静止状态，也可以是运动状态。障碍物色彩复杂多变、在道路中的…

人工智能 2023年6月2日
0257
• #### 2022搜狐校园NLP算法大赛情感分析第一名方案理解和复现

目录 一、比赛和方案理解 baseline的缺陷 第一名的方案 数据维度变化 二、代码实现 第一名代码 swa——平均权重 baseline代码 三、效果展示 第一名的方案： a、…

人工智能 2023年6月16日
0119
• #### python库–pandas–DataFrame

转换 索引,迭代 运算符 功能应用,分组及窗口 计算/描述统计 重新索引/选择/标签操作 缺失数据处理 形状变换/排序/转置 组合/加入/合并 时间序列相关 绘图 序列化/IO/转…

人工智能 2023年6月2日
0118
• #### pandas DataFrame 交集并集补集

1.场景，对于colums都相同的dataframe做过滤的时候 例如： df1 = DataFrame([[‘a’, 10, ‘男’], [‘b’, 11, ‘男’], [‘c’…

人工智能 2023年6月2日
0201
• #### Python CSV 合并到多个sheet工作表

目标 将多个CSV文件，合并到一个Excel文件中的，多个sheet工作表。 前言 网上大多方法都是将csv 直接合并在一起，也不分别创建sheet表。还有一些解答说CSV不支持合…

人工智能 2023年7月7日
0128
• #### 生成式深度学习

我们的感知模式、语言和艺术作品都具有统计结构。学习这种结构是深度学习算法所擅长的。机器学习模型能够对图像、音乐和故事的统计潜在空间( l a t e n t s p a c e )…

人工智能 2023年5月28日
0201