语音信号处理-概念(二):幅度谱(短时傅里叶变换谱/STFT spectrum)、梅尔谱(Mel spectrum)【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】

语音的深度学习使用了什么样的频谱?

[En]

What kind of spectrum is used in the in-depth learning of speech?

答:以”幅度谱”和”梅尔谱”为主,通常可以用librosa库或者torchaudio库进行提取。

Mel谱:在幅值谱的基础上,乘以“Mel变换”,得到80维的Mel谱。这一频谱的80个频率组更接近人耳的听觉感知范围。但相应地,所包含的语音信息小于幅度谱。因此,它更常用于一些以人为本的语音任务中。

[En]

Mel spectrum: on the basis of the amplitude spectrum, multiply by a “Mel transform” to get the 80-dimensional Mel spectrum. The 80 frequency groups of this spectrum are closer to the auditory perception range of the human ear. But correspondingly, the speech information contained is less than the amplitude spectrum. Therefore, it is more commonly used in some human-oriented voice tasks.

请注意,深度学习中的Mel谱在大多数情况下是指对数Mel谱!!

[En]

Note that the Mel spectrum in deep learning refers to * logarithmic Mel spectrum in most cases! !*

  • “幅度谱”的频率组中的频率以 线性等间隔增加;10Hz、20Hz、30Hz、…

  • “梅尔谱”的频率组中的频率以 对数间隔增加;10Hz、15Hz、17Hz、18Hz、…

语音信号处理-概念(二):幅度谱(短时傅里叶变换谱/STFT spectrum)、梅尔谱(Mel spectrum)【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】
  1. 从2015年深度学习广泛取得较好的效果以来,大多数语音任务普遍采用STFT(amp) 谱或者melspec作为训练输入。
  2. melspec在大多数论文中默认是取对数的,即使论文本身使用的单词是melspec,但 是实际上训练的时候,代码中会加上log ( ) 函数。
  3. STFT谱的特征维度可以随意,一般习惯使用1024、512、256维,但是较多的训练过程的melspec还是采用80维。

一般而言,参数设置如下:

[En]

In general, the parameters are set as follows:

  • 幅度谱:n_fft = 1024(n_dim = 513);
  • 梅尔

Original: https://blog.csdn.net/u013250861/article/details/125476186
Author: u013250861
Title: 语音信号处理-概念(二):幅度谱(短时傅里叶变换谱/STFT spectrum)、梅尔谱(Mel spectrum)【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/515172/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球