语音信号处理-语音究竟要浮点还是整数？MFCC又是如何变化？

2023年5月27日下午12:55 • 人工智能 • 阅读 84

语音信号处理

写作原因
wav文件读取
*
wav格式
读取wav文件（matlab/python）
–
- matlab audioread()
- python
写入wav文件（matlab/python）
–
- matlab audiowrite()
- python
audition查看语音幅值
MFCC
*
–

写作原因

知道了语音信号需要采样率和采样位数，知道了MFCC提取的整个流程，但是中间的幅值变化的细枝末节还是需要细究的，比如：

matlab/python读取wav文件默认是浮点数，但是保存是整数？
调整音频幅度后，MFCC如何变化？

因为它是备忘录的属性，所以文本是口语化的，也就是废话很多，焦点模糊。

[En]

Because it is the attribute of the memo, the text is colloquial, that is, there is a lot of nonsense and the focus is vague.

wav文件读取

wav格式

标头；
第一块：通道数、采样率等信息

[En]

first block: information such as number of channels, sampling rate, etc.*
第二块：数据，按小端顺序存储。
[En]
the second block: data, stored in small end order.*

内容以区块(chunk)为最小单位，每一区块长度为4字节 ，从这可以看出，数据是整数还是 浮点数 ，取决于读取的方式。

读取wav文件（matlab/python）

养成读 matlab源代码的习惯：
open function_name

matlab audioread()

audioread(filename, range, datatype)

前两项不做解释。仅关注数据读出类型时，使用 AUDIOREAD(FILENAME, DATATYPE)，当 DATATYPE='double'时，读出的数据为范围为 0.0~1.0的浮点数；当 DATATYPE='native'时，读出的数据是 采样位数 范围内的整数。

当不加 DATATYPE参数时，读出的数据是浮点数。

%   [Y, FS]=AUDIOREAD(FILENAME, DATATYPE) specifies the data type format of
%   Y used to represent samples read from the file.

%   If DATATYPE='double', Y contains double-precision normalized samples.

%   If DATATYPE='native', Y contains samples in the native data type
%   found in the file.  Interpretation of DATATYPE is case-insensitive and
%   partial matching is supported.

%   If omitted, DATATYPE='double'.

python

python读wav文件的方式很多，librosa默认是读成浮点数的，待查证。

写入wav文件（matlab/python）

matlab audiowrite()

audiowrite(filename,y,Fs,varargin)

保存语音数据时，不需要指定数据类型。数据类型信息被包括在数据中。基于该功能的评论如下：

[En]

When saving voice data, you do not need to specify the data type. The data type information is included in the data. The comments based on the function are as follows:

%   Data Type of Y    Valid Range for Y
%   -----------------------------------
%       uint8            0

所以如果想用整数保存数据时，一定要先将数据转为目标格式。比如 class(ones(1, 16000))查看数据类型， ones默认生成 double数据，给它乘上大于1的整型数据，得出的结果依然是 double类型，直接保存wav文件时，大于 1.0的部分被截断，得不到想要的结果。

python

待补充。

audition查看语音幅值

调出 振幅统计 窗口

&#x5BFC;&#x822A;&#x680F; -> &#x7A97;&#x53E3; -> &#x632F;&#x5E45;&#x7EDF;&#x8BA1;

audition的振幅统计计算如最下面的小字所示，参考的国际电联推荐标准《ITU-R BS.1770-3》。

MFCC

教材上已经有许多MFCC特征提取的步骤了，回过神来，尽是《信号与系统》的基础知识。所以难怪都默认大家能够推导出来吗，真是一段艰难的路程。

还有，不觉得最后这个 C系数很难理解吗？每次教材里给出一堆三角形的Mel banks后，直接DCT然后就得出个系数，通常是一串向量/一个矩阵，真的很难理解。

看matlab一步一步计算，发现一个Mel bank对一帧频谱只得出一个结果，为什么是这样？然后刚才突然想到了：一帧频谱中，对每个刻度的频率只有一个系数来表示，那么一个Mel bank对应的就是一个刻度的频率，所以这个bank的系数就代表了能量，n 个Mel bank得出n个能量系数。所以多帧Mel bank的系数，就叫做Mel 频谱。

至于DCT系数，它对应的应该是傅里叶变换中的那个e − j ω n e^{-j \omega n }e −j ωn（写的是连续傅里叶变换的符号，不过都差不多啦），也就是它的n越多，恢复的信号和原信号的差别越小。

把一帧数目可能是512、1024、2048的频谱变成最多13个的mel频谱，再变回n个DCT系数的信号，语音真是大大压缩了啊。

话说偶尔也能想通这些事情，但是很快就会忘记，重复这样的循环，这次记下来应该就不会忘了吧。另外，突然卷积神经网络！每个卷积层，可以自行设定卷积核的数目，一个卷积核是3维的，宽、高和输入特征层的通道数。普通卷积，首先每个卷积核的通道和对应的特征通道进行计算，然后所有通道相加的结果，作为这个通道的输出。而深度可分离卷积中的depthwise层，只有一个卷积核，且每个通道与特征通道计算，但是最后 没有相加 。

与语音幅值的变化关系

参考赵力《语音信号处理实验教程》 C3_4_y_4.m相关程序。

语音信号幅值比较

原语音简单乘以 0.5，用以比较。

; 预加重

% 预加重滤波器
xx=double(x);
xx=filter([1 -0.9375],1,xx);

如果滤波器只在频域工作，难道不会减少时间域的信号量吗？虽然说增加了高频成分，但低频成分呢？

[En]

If the filter only works in the frequency domain, won’t the semaphore in the time domain be reduced? Although it is said to increase the high-frequency component, but what about the low-frequency component?

好了！我在一篇硕士毕业论文中看到，预加重的目的是增强高频部分，平坦化信号的频谱，使其保持在从低频到高频的整个频段，并在相同信噪比下计算频谱进行频谱分析。

[En]

! I saw in a master’s graduation thesis that the purpose of pre-emphasis is to enhance the high frequency part, flatten the frequency spectrum of the signal, keep it in the whole frequency band from low frequency to high frequency, and calculate the spectrum with the same signal-to-noise ratio for spectrum analysis.

分帧

对输入数据的第一帧进行处理，并绘制一张图片来显示它。

[En]

Process the first frame of the input data and draw a picture to show it.

; 一帧MFCC特征提取

% fft后频谱对称，所以只取一半
n2=fix(frameSize/2)+1;
% 计算每帧的MFCC参数
for i=1:size(xx,1)
  y = xx(i,:);
  s = y' .* hamming(frameSize);
  t = abs(fft(s));
  t = t.^2;
  c1=dctcoef * log(bank * t(1:n2));
  c2 = c1.*w';
  m(i,:)=c2';
end

每一步都将按照本程序进行绘制。

[En]

Each step will be plotted according to this procedure.

加海明窗

; 频谱取绝对值且平方

通过mel滤波器得到mel频谱

8个不同颜色绘制的mel滤波器

它看起来不像一个三角形，也许程序不使用三角形。

[En]

It doesn’t look like a triangle, maybe the program doesn’t use a triangle.

新生成的频谱系数

这是针对每个过滤器的，并且只生成一个系数值(为什么？)

[En]

This is for each filter, and only one coefficient value is generated (why? ).

; mel系数log化

matlab里用的都是 log，但其实是 ln

DCT倒谱

首先看一下DCT系数的样子，因为想输出12个MFCC系数，所以DCT有12行。显示的是第12行。

按行去对12行DCT系数相加，最后得到的结果都是约为0，所以！

d c t c o e f ∗ l o g _ s p e e c h 1 = d c t c o e f ∗ ( l o g _ s p e e c h 0.5 + l n 4 ) = d c t c o e f ∗ l o g _ s p e e c h 0.5 + d c t c o e f ∗ l n 4 ≈ d c t c o e f ∗ l o g _ s p e e c h 0.5 + 0 = d c t c o e f ∗ l o g _ s p e e c h 0.5 dctcoef * log_speech_{1} \ = dctcoef * (log_speech_{0.5} + ln4 ) \ = dctcoef * log_speech_{0.5} + dctcoef * ln4 \ \approx dctcoef * log_speech_{0.5} + 0 \=dctcoef * log_speech_{0.5}d c t c o e f ∗l o g _s p e e c h 1 =d c t c o e f ∗(l o g _s p e e c h 0 .5 +l n 4 )=d c t c o e f ∗l o g _s p e e c h 0 .5 +d c t c o e f ∗l n 4 ≈d c t c o e f ∗l o g _s p e e c h 0 .5 +0 =d c t c o e f ∗l o g _s p e e c h 0 .5

即原始语音无论乘以多少倍，在经过log，倍数变 加减数；加减数乘以 dctcoef后，数值约为0；因此语音的MFCC几乎无变化。

原本我以为频谱随着时域系数变化，体现了能量的变化，MFCC也一定随之变化。结果真是大大出乎我的意料。该试试，语音乘以2 倍数 2^{倍数}2 倍数什么样子了。

语音乘以2 倍数 2^{倍数}2 倍数，MFCC无改变。

Original: https://blog.csdn.net/joyjun_1/article/details/110855043
Author: 好像不对劲
Title: 语音信号处理-语音究竟要浮点还是整数？MFCC又是如何变化？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526220/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于边缘检测和透视变换的文档图像校正

实验任务与要求：对发生透视变换的文档图像进行几何校正处理，得到规范的文档图像。几何校正的目的是把发生了透视变换的目标变换为具有真实比例和角度的目标，如下图所示：左图中的地板砖经过…

人工智能 2023年6月20日
0067
R语言逻辑运算符（Logical Operators，大于、小于、等于、不等于、与或非、是否为真）、R语言逻辑运算符（Logical Operators）实战示例

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
00125
二元logistic回归、ROC曲线及cutoff值

最近在做患病与否和PRS、年龄、性别等回归方程，这里把我的做法做一个总结，以下以SPSS为例R中也一样glm一下2、回归我用的是患病与否做因变量，所以我选择二元逻辑回归(分析→回归…

人工智能 2023年6月18日
0081
解决Pycharm安装库出现Installing Packages Failed错误

在学习和应用Python的过程当中，我们经常需要使用到各种各样的Python库，而大部分的库都是需要我们自己安装的。本文详细介绍在pycharm中，当我们进行安装库的操作时，出现I…

人工智能 2023年7月5日
0061
人工智能不仅应当提高物质福利，而且应当满足人类的精神需求

然而，遵循阿西莫夫三定律而建造的人工智能或者机器人是奴隶般的，它们在社会上运行可以帮助人类整体，但它们奴隶般的地位是我们人类希望的吗？这是技术社会的理想形态吗？弗洛里迪说：&#82…

人工智能 2023年5月31日
00115
java计算机毕业设计web扶贫产品物资管理平台源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0092
基于ROS搭建仿真环境——B站苏的一休抓取环境复现

大佬链接：https://www.bilibili.com/video/BV19f4y1h73E?vd_source=6f2fc443cc3323efe0300c7cb662e8a…

人工智能 2023年6月2日
0088
图片文字识别python

一、功能介绍利用python对图片内文字内容进行识别提取。二、调用库下载我们需要下载两个模块： pip install pytesseract pip install pil…

人工智能 2023年7月5日
0073
Ubuntu18.04 安装ROS全过程及各种问题解决方法

文章目录前言一、ROS版本选择二、安装步骤 * 1.添加ROS软件源 2.添加密钥 3.更新可升级列表 4. 安装ROS Melodic 5.初始化rosdep 6.设置环境…

人工智能 2023年6月2日
00122
python实现超级玛丽小游戏（动图演示+源码分享）

大家好，我是梦执，对梦执着。希望能和大家共同进步！下面给大家带来python实现超级玛丽小游戏的源码分享效果演示：基础源码 * – 1.基础设置（tools部分）…

人工智能 2023年6月23日
00115
matlab做神经网络的步骤,matlab建立神经网络模型

matlab怎么利用神经网络做预测谷歌人工智能写作项目：小发猫如何利用matlab进行神经网络预测 matlab带有神经网络工具箱，可直接调用，建议找本书看看，或者MATLAB…

人工智能 2023年7月12日
00118
图像分类卷积神经网络

1. lenet5 def lenet5_1(input_shape,classiers_n): #lenet5 inputShape = input_shape model = …

人工智能 2023年7月2日
0093
ICCV21 – 无监督语义分割《Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals》

文章目录 * – 原文地址 – 初识 – 相知 – 回顾原文地址点我跳转到原文初识在无监督设置下，学习密集语义表征(dens…

人工智能 2023年6月15日
00138
核密度估计（细节拿捏，到底怎么算告诉你）

首先，既然是要来论述核密度估计，那么首先就先上公式。其实这条公式无非讲的就是密度函数 f （ x）的核密度估计，关于这条公式是如何推出来的这里就不做详细的介绍了，但是首先需要明确…

人工智能 2023年6月15日
00173
【javaEE初阶】文件操作和IO

今天不学习，明&#…

人工智能 2023年6月26日
0087
Android Studio App开发实战项目之计时器（附源码简单易懂，适合新手学习）

运行有问题或需要源码请点赞关注收藏后评论区留言~~~ 一、Handler的延迟机制活动页面的Java代码通常是串行工作的，而且App界面很快就加载完成容不得半点延迟，不过偶尔也需…

人工智能 2023年6月27日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音信号处理-语音究竟要浮点还是整数？MFCC又是如何变化？

语音信号处理

wav格式

读取wav文件（matlab/python）

matlab audioread()

python

写入wav文件（matlab/python）

matlab audiowrite()

python

audition查看语音幅值

与语音幅值的变化关系

语音信号幅值比较

; 预加重

分帧

; 一帧MFCC特征提取

加海明窗

; 频谱取绝对值且平方

通过mel滤波器得到mel频谱

; mel系数log化

DCT倒谱

大家都在看