librosa 语音库（二）STFT 的实现

2023年5月27日下午5:25 • 人工智能 • 阅读 60

librosa是一个应用广泛的音频处理python库。

在 librosa中有一个方法叫做 stft，功能是求音频的短时傅里叶变换, librosa.stft 返回是一个矩阵

短时傅立叶变换（STFT），返回一个复数矩阵使得D(f,t)

当调用的形式是 np.abs( stft() ), 代表的是取，取出复数矩阵的实部，即频率的振幅。
当调用的形式是 np.angle( stft() ), 代表的是取，取出复数矩阵的虚部，即频率的相位。

This function returns a complex-valued matrix D such that
– np.abs(D[f, t]) is the magnitude of frequency bin f
at frame t, and
– np.angle(D[f, t]) is the phase of frequency bin f
at frame t.

The integers t and f can be converted to physical units by means
of the utility functions frames_to_sample and fft_frequencies.

librosa.stft 函数

librosa.stft(y, n_fft=2048, hop_length=None, win_length=None, window='hann', center=True, pad_mode='reflect')

参数：

y：音频时间序列
n_fft：FFT窗口大小，n_fft=hop_length+overlapping
hop_length：帧移，如果未指定，则默认win_length / 4。
win_length：每一帧音频都由window（）加窗。窗长win_length，然后用零填充以匹配N_FFT。默认win_length=n_fft。
window：字符串，元组，数字，函数 shape =（n_fft, )
窗口(字符串、元组或数字)

[En]

Window (string, tuple, or number)
窗函数，例如scipy.signal.hanning
长度为n_fft的向量或数组
center：bool
如果为True，则填充信号y，以使帧 D [:, t]以y [t * hop_length]为中心。
如果为False，则D [:, t]从y [t * hop_length]开始
dtype：D的复数值类型。默认值为64-bit complex复数
pad_mode：如果center = True，则在信号的边缘使用填充模式。默认情况下，STFT使用reflection padding。

返回：
STFT矩阵，shape = (1+ n f f t 2 \frac{n_{fft}}{2}2 n ff t , n f r a m e s n_{frames}n f r am es )

stft的输出帧数

音频经过短时傅里叶变换后，取其幅值即可得到音频的线性谱。

[En]

After the short-time Fourier transform of audio, the linear spectrum of audio can be obtained by taking the amplitude of audio.

对线性谱进行mel刻度的加权求和，可以得到语音识别和语音合成中常用的mel谱。

短时傅立叶变换的过程是先将音频分割成帧，然后再对每一帧进行单独变换。

[En]

The process of short-time Fourier transform is to divide the audio into frames first, and then transform each frame separately.

在应用stft方法求解短时傅里叶变换时，发现求出的特征帧的数目有点反常。

比如我有一个长度是400个点的音频，如果帧长是100，那么我自然而然的想到，最后应当得到4帧。

但事实并非如此，实际的帧数量是5帧。这真是太神奇了。

[En]

But this is not the case, the actual number of frames is 5 frames. That’s kind of magical.

分析了一下，原因如下。

为了方便讨论，假设帧长为200，帧移为100，fft size是200。

上图中是一条长度为430的音频，在经过stft后，输出5帧。

过程是这样的。

在音频的左右两侧padding，padding size是fft size的一半
现在音频长度变成了430 + 200 = 630
总帧数为(630 – 100) // 100
如上图示意，最后得到5帧

所以，librosa求stft的输出帧数，当音频长度在400

Original: https://blog.csdn.net/chumingqian/article/details/124843635
Author: mingqian_chu
Title: librosa 语音库（二）STFT 的实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527065/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【UNet3+】遥感影像分割

文章目录 1. 项目准备 * 1.1. 问题导入 1.2. 数据集简介 2. UNet3+模型 * 2.1. 背景介绍 2.2. 模型介绍 – (1) 全尺度跳跃连接 …

人工智能 2023年6月16日
00260
TensorFlow实战之softmax多分类

文章目录前言一、Keras的mnist数据集二、建立sequential顺序model * 2.绘图结果和测试结果三、网络容量和优化总结前言 Keras是TensorF…

人工智能 2023年5月24日
0098
Canny边缘检测算法(python 实现）

文章目录最优边缘准则算法实现步骤 * 1. 应用高斯滤波来平滑(模糊)图像，目的是去除噪声 2. 计算梯度强度和方向 3. 应用非最大抑制技术NMS来消除边误检 4. 应用双阈…

人工智能 2023年5月26日
00103
图像处理之高通滤波器与低通滤波器

目录高频与低频区分：高通滤波器： 1.傅里叶变换：低通滤波器：总结：高频与低频区分：在了解图像滤波器之前，先谈一下如何区分图像的高频信息和低频信息，所谓高频就是该像素点…

人工智能 2023年5月26日
0095
R语言summary.lm信息进一步挖掘

废话不多说，直接上例子（由于summary出来的结果是有截断的，以下比较会有一定误差，要精确的话可以自己从model里面取出相应系数） `r data(“faithfu…

人工智能 2023年6月17日
0062
图解机器学习：分类模型性能评估指标

人间出现一种怪病，患病人群平时正常，但偶尔暴饮暴食，这种病从外观和现有医学手段无法分辨。为了应对疫情，准备派齐天大圣去下界了解情况。事先神官从人间挑选了一些健康人和患病者来对大圣…

人工智能 2023年7月1日
0086
常用自然语言处理NLP模型原理

一、文本处理流程文本清洗：html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息预处理：去除停用词、加载自定义词库（实体词库、垂直领域词库）、分…

人工智能 2023年6月1日
0091
【Deep-sort多目标跟踪流程及其改进方法的解读】

【Deep-sort多目标跟踪流程及其改进方法的解读】文前白话 * 相关的文章、资源链接流程及其改进方法的梳理 – 一、多目标跟踪的流程二、Sort 与 deep…

人工智能 2023年7月29日
0087
读论文12——NeRF：Representing Scenes as Neural Radiance Fields for View Synthesis

目录 Abstract Introduction Related Work Neural Radiance Field Scene Representation Volume Re…

人工智能 2023年6月25日
00103
【动手撸深度学习】不吹不黑一份代码即可进Kaggle排行榜！

大家好，我是cv君，今天分享一份源码，有了这份代码，你就是一个Kaggle的一个图像分类赛排行榜因为这是很久以前的比赛，不知道还开不开榜，比如选择你还可以去刷Kaggle的Mnis…

人工智能 2023年7月14日
0096
pytorch中LSTM参数详解（一张图帮你更好的理解每一个参数）

对LSTM网络的理解对LSTM网络不理解的请看这篇博客，对新手比较友好，也很容易理解，只有理解了LSTM，才知道下面要讲的参数分别对应什么 LSTM参数列表 Pytorch中创建…

人工智能 2023年7月13日
0090
Python pandas 心得小点

一、使用pandas import pandas as pd 二、读取excel表 1、read_excel(excel表路径，其他属性) 2、其中其他属性有：sheet_name…

人工智能 2023年7月7日
0051
【数据挖掘】时序模式-白噪音-时序图-ADF检验-一阶差分-acf && pacf（2021-11-11

时序模式 2、根据课堂上所讲的概念，编写程序产生以下时间序列数据（时间可以简化用1,2,3. . . . .表示），每种类型数据至少20条数据。并根据自己想法，使用程序画出相应的…

人工智能 2023年7月17日
0058
OpenCV：04图像的基本变换

文章目录图像的放大与缩小 * 放缩到指定大小：根据xy轴的比例进行放缩：图像的翻转仿射变换 * 仿射变换之图像的平移仿射变换之图像的旋转 – 方法一：利用旋转…

人工智能 2023年7月20日
0078
YOLOV7训练自己的数据集，我先来试试火（VisDrone数据集）

源码：https://github.com/WongKinYiu/yolov7论文：https://arxiv.org/abs/2207.02696 这个yolov7是yolov4…

人工智能 2023年6月16日
0084
手写数字识别（识别纸上手写的数字）

说明使用pytorch框架，实现对MNIST手写数字数据集的训练和识别。重点是，自己手写数字，手机拍照后传入电脑，使用你自己训练的权重和偏置能够识别。数据预处理过程的代码是重点。…

人工智能 2023年6月18日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

librosa 语音库（二）STFT 的实现

大家都在看