声音处理之-梅尔频率倒谱系数(MFCC)

2023年5月25日下午7:55 • 人工智能 • 阅读 61

梅尔（Mel）频率分析

在语音识别（SpeechRecognition）和话者识别（SpeakerRecognition）方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients，简称MFCC）。根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度，和频率的赫兹的关系如下:

m=2595*log10(1+f/700)

所以当在梅尔刻度上面上是均匀分度的话，对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，这也是梅尔刻度的物理意义所在。

倒谱分析

对于一个语音的频谱图，峰值就表示语音的主要频率成分，我们把这些峰值称为共振峰（formants），而共振峰就是携带了声音的辨识属性（就是个人身份证一样）。所以它特别重要。用它就可以识别不同的声音。

我们要提取的不仅仅是共振峰的位置，还得提取它们转变的过程。所以我们提取的是频谱的包络（Spectral Envelope）。这包络就是一条连接这些共振峰点的平滑曲线。我们可以这么理解，将原始的频谱由两部分组成：包络和频谱的细节。这里用到的是对数频谱，所以单位是dB。那现在我们需要把这两部分分离开，这样我们就可以得到包络了。

这就用到了倒谱分析。倒谱（cepstrum）是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。倒谱分析可用于将信号分解，两个信号的卷积转化为两个信号的相加。

假设上面的频率谱X(k)，时域信号为x(n)，那么满足

X(k)=DFT(x(n))

考虑将频域X(k)拆分为两部分的乘积：

X(k)=H(k)E(k)

假设两部分对应的时域信号分别是h(n)和e(n)，那么满足：

x(n)=h(n)∗e(n)

此时我们是无法区分开h(n)和e(n)，对频域两边取log：

log(X(k))=log(H(k))+log(E(k))

然后进行反傅里叶变换：

IDFT(log(X(k)))=IDFT(log(H(k)))+IDFT(log(E(k)))

得到的时域信号如下：

X'(n)=h'(n)+e'(n)

此时获得时域信号x'(n)即为倒谱，已经和原始的时域信号x(n)不一样，但是可以把时域信号的卷积关系转化为了线性加关系。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系，所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号h'(t)。

梅尔频率倒谱系数MFCC

通常，计算MFCC之前，还会通过预加重、分帧和加窗、短时FFT等手段将原始原始声音信号的spectrogram声谱图，MFCC对声谱信号进行分析。

提取MFCC特征的过程：

1）先对语音进行预加重、分帧和加窗；

2）对每一个短时分析窗，通过FFT得到对应的频谱；

3）将上面的频谱通过Mel滤波器组得到Mel频谱；

4）在Mel频谱上面进行倒谱分析（取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来代替上文的IDFT，取DCT后的第2个到第13个系数作为MFCC系数），获得Mel频率倒谱系数MFCC。

[x fs]= audioread ('test.wav');

bank=melbankm(24,256,fs,0,0.4,'t');%Mel&#x6EE4;&#x6CE2;&#x5668;&#x7684;&#x9636;&#x6570;&#x4E3A;24&#xFF0C;fft&#x53D8;&#x6362;&#x7684;&#x957F;&#x5EA6;&#x4E3A;256&#xFF0C;&#x91C7;&#x6837;&#x9891;&#x7387;&#x4E3A;16000Hz

%&#x5F52;&#x4E00;&#x5316;mel&#x6EE4;&#x6CE2;&#x5668;&#x7EC4;&#x7CFB;&#x6570;

bank=full(bank);

bank=bank/max(bank(:));

for k=1:12                            %&#x5F52;&#x4E00;&#x5316;mel&#x6EE4;&#x6CE2;&#x5668;&#x7EC4;&#x7CFB;&#x6570;

    n=0:23;

    dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));

end

w=1+6*sin(pi*[1:12]./12);%&#x5F52;&#x4E00;&#x5316;&#x5012;&#x8C31;&#x63D0;&#x5347;&#x7A97;&#x53E3;

w=w/max(w);%&#x9884;&#x52A0;&#x91CD;&#x6EE4;&#x6CE2;&#x5668;

xx=double(x);

xx=filter([1-0.9375],1,xx);%&#x8BED;&#x97F3;&#x4FE1;&#x53F7;&#x5206;&#x5E27;

xx=enframe(xx,256,80);%&#x5BF9;x 256&#x70B9;&#x5206;&#x4E3A;&#x4E00;&#x5E27;

%&#x8BA1;&#x7B97;&#x6BCF;&#x5E27;&#x7684;MFCC&#x53C2;&#x6570;

for i=1:size(xx,1)

    y=xx(i,:);

    s=y'.*hamming(256);

    t=abs(fft(s));%fft&#x5FEB;&#x901F;&#x5085;&#x7ACB;&#x53F6;&#x53D8;&#x6362;

    t=t.^2;

    c1=dctcoef*log(bank*t(1:129));

    c2=c1.*w';

    m(i,:)=c2';

end

%&#x6C42;&#x53D6;&#x4E00;&#x9636;&#x5DEE;&#x5206;&#x7CFB;&#x6570;

dtm=zeros(size(m));

for i=3:size(m,1)-2

    dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);

end

dtm=dtm/3;

%&#x6C42;&#x53D6;&#x4E8C;&#x9636;&#x5DEE;&#x5206;&#x7CFB;&#x6570;

dtmm=zeros(size(dtm));

for i=3:size(dtm,1)-2

    dtmm(i,:)=-2*dtm(i-2,:)-dtm(i-1,:)+dtm(i+1,:)+2*dtm(i+2,:);

end

dtmm=dtmm/3;

%&#x5408;&#x5E76;mfcc&#x53C2;&#x6570;&#x548C;&#x4E00;&#x9636;&#x5DEE;&#x5206;mfcc&#x53C2;&#x6570;

ccc=[m dtm dtmm];

%&#x53BB;&#x9664;&#x9996;&#x5C3E;&#x4E24;&#x5E27;&#xFF0C;&#x56E0;&#x4E3A;&#x8FD9;&#x4E24;&#x5E27;&#x7684;&#x4E00;&#x9636;&#x5DEE;&#x5206;&#x53C2;&#x6570;&#x4E3A;0

ccc=ccc(3:size(m,1)-2,:);

subplot(2,1,1)

ccc_1=ccc(:,1);

plot(ccc_1);title('MFCC');ylabel('&#x5E45;&#x503C;');

[h,w]=size(ccc);

A=size(ccc);

subplot(212)

plot([1,w],A);

xlabel('&#x7EF4;&#x6570;');

ylabel('&#x5E45;&#x503C;');

title('&#x7EF4;&#x6570;&#x4E0E;&#x5E45;&#x503C;&#x7684;&#x5173;&#x7CFB;')

运行上段代码需要用到matlab的语音处理工具箱，voicebox是一个MATLAB中的语音处理工具箱，支持MATLAB6.5以上的版本。其中包含了对语音的分帧处理，滤波，加窗，参数提取等等函数，是语音识别几乎不可缺少的一个工具箱。

官方下载：http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.zip

voicebox的添加

解压下载的voicebox，把解压包放在某一个路径下d:/…/voicebox

打开MATLAB，在命令行设置MATLAB的搜索路径

addpath(genpath('d:/&#x2026;/voicebox'))

或者

path(' d:/&#x2026;/voicebox',path)

检验是否设置成功，在命令行上输入 which activlev.m，看一下是否显示正确的路径。这样MATLAB就可以使用voicebox的函数了，

Original: https://blog.csdn.net/qingfengxd1/article/details/121129473
Author: studyer_domi
Title: 声音处理之-梅尔频率倒谱系数(MFCC)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515811/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在Ubuntu服务器上搭建深度学习环境（Ubuntu 18.04+Anaconda3+pytorch+PyCharm）

回答1： 18.04深度学习需要以下步骤： 1. 安装CUDA和cuDNN：CUDA是NVIDIA提供的用于GPU加速的并行计算平台，cuDNN是NVIDIA提供的用于深度学习的…

人工智能 2023年6月16日
0088
python生成随机字符串

随机字符的场景大致有以下场景： 1.产生随机字符串无数字 2.产生随机长度的字符串无数字、有数字 3.产生随机手机号 4.产生随机n位的数字 5.产生随机n以内的数字随机使用…

人工智能 2023年7月6日
0056
【机器学习】sklearn中使用k近邻来完成缺失值的填补(KNNImputer)

1 方法介绍 class sklearn.impute.KNNImputer(*, missing_values=nan, n_neighbors=5, weights=’unif…

人工智能 2023年6月16日
0090
Pandas的数据结构

Pandas可处理的数据格式处理CSV 文件 CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文…

人工智能 2023年6月29日
0071
量化感知训练QAT(Quantification Aware Training)

目录前言对称量化非对称量化基于Pytorch官方API量化代码实现前言为了减少网络模型的空间占用和运行速度，除了在网络方面进行改进，模型剪枝和量化算是最常用的优化方法。…

人工智能 2023年7月12日
0059
使用 MoveNet 和 TensorFlow.js 的下一代姿态检测

发布人：Ronny Votel 和 Na Li，Google Research 团队今天，我们很高兴推出最新的姿态检测模型 MoveNet，并在 TensorFlow.js 中添…

人工智能 2023年5月25日
0068
TensorFlow2.0+LSTM实现文本分类

功能描述给定一段文本，判断文本的分类。常用于新闻分类、文本情感分类等。原理 RNN（Recurrent Neural Network，循环神经网络）实现序列文本分析。 RNN…

人工智能 2023年5月26日
0060
MXNe

问题介绍 MXNet（深度学习框架）是一个开源的、轻量级且高性能的深度学习框架，可以用于构建神经网络模型。在使用MXNet进行模型训练时，我们常常需要计算网络的误差值。针对这个问题…

人工智能 2023年12月31日
0041
【机器学习】——白话入门及术语解释

文章目录前言一、以普通例子循序渐进讲解什么是机器学习二、通过西瓜的例子类比学习一些相关术语 * 1. 以数据表格方式学习 2. 还记得坐标系么 3. 训练相关的一些术语三、…

人工智能 2023年6月15日
0071
Detectron2安装踩坑记录（比较详细版）

目录第一章创建一个detectron2的环境 1.1打开Prompt，然后输入 1.2激活环境第二章安装pytorch1.9.0 2.1依据自身环境查看版本 2.2安装py…

人工智能 2023年7月20日
00321
PointNet：基于深度学习的3D点云分类和分割模型

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0096
超详细neo4j安装教程

一、neo4j简介最近开始学习知识图谱，所以首先想先学习一下neo4j的使用。Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。由于知识图谱…

人工智能 2023年5月27日
0095
基于opencv的人脸识别

一、需求分析. 1.1 功能与技术需求 1.2 开发环境与运行需求二、设计过程 2.1 主要技术原理 2.2采用的关键技术 2.3系统设计流程 2.4系统各功能模块三、实验运…

人工智能 2023年6月19日
00109
【翻译论文】Support-Vector Networks（1995）

【翻译论文】Support-Vector Networks（1995）Corinna Cortes，Vladimir Vapnik DOI :10.1023/A:102262741…

人工智能 2023年7月1日
0063
动态场景下的语义SLAM的简单实现（基于YOLOv5目标检测）

动态场景下的语义SLAM的简单实现感谢这篇博客在前期给了我一点方向：https://blog.csdn.net/ns2942826077/article/details/1037…

人工智能 2023年6月18日
0072
在linux系统上使用conda 安装GPU版本TensorFlow-GPU（详细步骤）

文章目录 * – + 使用conda 还是miniconda + * – 一、下载miniconda 可以选择python版本等信息: – 二、…

人工智能 2023年5月23日
00156

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

声音处理之-梅尔频率倒谱系数(MFCC)

大家都在看