MFCC语音信号特征提取——主要知识点总结

2023年5月25日下午7:41 • 人工智能 • 阅读 67

MFCCs(Mel Frequency Cepstral Coefficents) 是一种常用语语音识别，说话人识别的特征提取方法。

一、提取特征的主要过程：

对语音进行 预加重、分帧和加窗；
对每一个 短时分析窗， 通过FFT 得到对应的频谱；
将上面的频谱通过 Mel滤波器组 得到 Mel频谱；
在Mel 频谱上面进行 倒谱分析，获得 MFCC【Mel频率倒谱系数】，这个MFCC就是这帧语音的特征；

; 1、预加重

对输入的语音信号进行高频部分的提升，使信号的频谱变得平坦，保持在低频到高频的整个频带重，能用同样的信噪比求频谱。此外，对发声过程中声带和嘴唇产生的影响进行消除。

2、分帧

帧时：（frame duration) 将N个采样点集合成一个观测单元，称为帧。
通常，设定N=256或者512；时间为20~30ms；
一般人说话的声音在10ms-30ms的时间段内被认为是短时平稳的，所以一般取10~25时间作为帧时；
帧移：（frame shift) 为了避免相邻两帧的变化过大，两个帧之间有一段重叠的区域，包含M个采样点。表示取下一帧时窗移动的距离（毫秒级）。
通常，设定M=1/2 _N或者M=1/3_N；
通常，语音识别语音识别的采样频率为8KHZ 或16KHZ，如果帧的长度为256个采样点，那么对应的 帧移时间长度为256/8000 *1000 = 32ms;

通常，帧时取25ms或者20ms.帧移取10ms.

; 3、预加重系数（preemphasis coefficient)

相当于高通滤波器。
通常，取0.95-0.97.

speech = filter([1-alpha], 1, speech);

alpha 就是预加重系数，speech还是原来得到的语音信号。

4、加窗（Hamming Window) ——w(n)

将每一帧乘上汉明窗，增加帧左端和右端的连续性。
假设，分帧之后的信号为S（n）,n = 0 , 1 , . . . , N − 1 n=0,1,…,N-1 n =0 ,1 ,…,N −1，W （ n ） W（n）W （n ）的形式如下：

不同的a的值会产生不同的汉明窗；
通常，a = 0.46;
获取某个函数的详细说明

help hamming

matlab画图：

plot(hamming(256))

频率范围（frequency range): 一般使用300Hz – 3400Hz（电话语音），或者取采样频率的一半，fs/2;
Mel滤波器（filterbank channels): 个数一般取20-26个；
倒谱系数（cepstral coefficients): 个数因具体情况而异，可以取12个，16个和19个；不同的倒谱系数对语音识别或者说话人识别的性能具有不同程度的影响。
提升参数（liftering parameter):主要是为了让不同的倒谱系数拥有不同过的权重。【因为倒谱系数影响性能，所以需要不同的权重】

4、快速傅里叶变换（FFT）

加窗后乘FFT
将时域上的变换转换为频域上的能量变换。【因为时域上很难看出信号的特征】
不同的能量分布，代表不同的语音特征。所以乘上汉明窗后，每帧还必须通过FFT得到频谱上的能量分布。
具体方式，对分帧加窗后的 每帧信号 进行 FFT得到 各帧的频谱。并对语音信号的频谱 取模平方 得到语音信号的 功率谱 。

FFT变换

取模平方

加窗后的帧

每帧的频谱

功率谱

DFT：离散余弦傅里叶变换

x ( n ) x(n)x (n ) 表示输入的语音信号，N表示傅里叶变换的点数。

; 代码实现（MATLAB)

1、获取 振幅，采样频率（fs)

// A code block
[x fs]=wavread('000.wav');

Original: https://blog.csdn.net/Daisysworld/article/details/123230150
Author: Quake~
Title: MFCC语音信号特征提取——主要知识点总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515753/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ValueError: Input 0 of layer dense is incompatible with the layer: expected axis -1 of input shape

ValueError: Input 0 of layer dense is incompatible with the layer: expected axis -1 of inp…

人工智能 2023年5月25日
0089
单目标跟踪（模板更新）（UpdateNet）《Learning the Model Update for Siamese Trackers》

文章标题：《Learning the Model Update for Siamese Trackers》文章地址：[1] arXiv，[2] ICCV2019 openacces…

人工智能 2023年5月28日
00102
MySQL事务详解

SET [SESSION | GLOBAL] TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ COMMITTED | RE…

人工智能 2023年7月30日
0046
【Python】mmSegmentation语义分割框架教程（自定义数据集、训练设定、数据增强）

文章目录 0.mmSegmentation介绍 1.mmSegmentation基本框架 * 1.1.mmSegmentation的model设置 1.2.mmSegmentati…

人工智能 2023年6月16日
0067
[趣味][人工智能生成文字]chatGPT使用教程

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0075
放回不等概率抽样-PPS抽样

agpop数据文件介绍：美国政府每五年做一次有关农业的普查，收集50个州的所有农场的有关数据。数据文件中共有3041个美国县级农场或与县级农场相当的农场数据。共有4个区域（regi…

人工智能 2023年7月17日
0051
人工智能：智能语音技术应用场景介绍

智能语音技术是市场上人工智能产品应用最为广泛的技术，今天给大家聊聊智能语音技术常见的应用场景，希望对大家能有所帮助！智能客服智能客服是基于大规模知识处理基础上发展起来的，它具有…

人工智能 2023年7月25日
00108
yolov7训练BDD100k自动驾驶环境感知2D框检测模型

文章目录数据集的选取 bdd100k数据集介绍、下载标签格式转换 * BDD转COCO COCO转YOLO 参考链接数据集的选取自动驾驶相关的数据集有很多，这里需要的是做目…

人工智能 2023年7月27日
0065
【OpenCV图像处理6】滤波器

文章目录六、滤波器 * 1、卷积 – 1.1 什么是图像卷积 1.2 步长 1.3 padding 1.4 卷积核的大小 1.5 卷积案例 2、方盒滤波和均值滤波 &…

人工智能 2023年7月19日
0057
VIT模型个人笔记

前言 VIT模型即vision transformer，其想法是将在NLP领域的基于自注意力机制transformer模型用于图像任务中，相比于图像任务中的传统的基于卷积神经网络模…

人工智能 2023年5月27日
00161
yolov5检测框重合重复，手动调参方法(调整detect,val的conf,iou)

一、问题描述：检测框重复出现上述问题一般是整体检测方向没错，但conf-thres和iou-thres的参数需要调整。（在默认值0.25和0.45的基础上，提高置信区间，降低io…

人工智能 2023年6月17日
00149
java计算机毕业设计web智慧医疗平台设计与实现源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0086
OpenCV-Python实战（13）——OpenCV与机器学习的碰撞

OpenCV-Python实战（13）——OpenCV与机器学习的碰撞 * – 0. 前言 – 1. 机器学习简介 – + 1.1 监督学习 +…

人工智能 2023年6月15日
0088
使用卷积神经网络(CNN)实现图片分类

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月2日
00101
OpenCV——分离颜色通道,图像对比度,亮度调整,离散傅里叶变换(10)

离散傅里叶变换离散傅里叶变换(DFT): 是指傅里叶变换在时域和频域上是离散的,将时域信号的采用变换为在离散傅里叶变换频域上的采用。形式上，变换两端是有限的，但实际上这两组序列是…

人工智能 2023年7月19日
0057
Colmap学习一：基础知识（坐标系、相机模型、整体框架）

1.colmap坐标系： a. 左上角坐标是（0.5，0.5）为了双线性插值 b. 坐标系方向xyz分别是红绿蓝、右下前 c. colmap的pose是 word2camera的…

人工智能 2023年5月26日
00241

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31