语音识别基础-梅尔谱图

Transfomer应用及改进系列文章目录

第一章 语音识别基础-梅尔谱图
第二章 李宏毅hw4语音识别数据集及需求详解
第三章 从rnn到gru、lstm及双向神经网络
第四章 编码器解码器架构、seq2seq、注意力机制及机器翻译应用代码实现
第五章 transfomer详解及代码实现
第六章 李宏毅hw4语音识别模型改进(conformer+amsoftmax)

语音识别基础-梅尔谱图及其python实现

前言

本系列文章围绕李宏毅课堂作业hw4,之前学习了tranfomer模型,但是感觉是勿囵吞枣,其中很多都理解的不是很透彻。故从rnn到transfomer的改进进行复习,旨在熟悉模型和改进模型的方法。其中该作业的要求就不详细说了,直接到官网看吧。

一、数据集

直接给我一些困扰了我很长时间的问题。

[En]

Directly give me questions that have puzzled me for a long time.

当我打开metadata.json中feature_pathd的uttr0-XXXXXXXXXX.pt文件时

语音识别基础-梅尔谱图
语音识别基础-梅尔谱图
才豁然开朗。 .pt 文件保存的就是音频文件。

; 二、梅尔谱图

因为它不是专门研究信号的,所以它是用来理解和写一些通俗的科学理解的,而不是做深入的。

[En]

Because it is not specialized in signaling, it is designed to understand and write some popular scientific understanding, not to do in-depth.

1.原理

人耳对低频段的变化敏感,对高频段的变化迟钝,即人耳对频率的感受是对数的(logarithmic)

语音识别基础-梅尔谱图
但传统的频谱图,就像通常记录在手机上的图像一样,
[En]

But the traditional spectrum chart, like the image usually recorded on a mobile phone,

语音识别基础-梅尔谱图

此时高频数据因为人耳不敏感,放到深度学习中去一些高频特征用处不大,也就是说,在频域上a点和b点与c点的距离,在人耳能感受的实际距离并不是频谱图上所示的距离,可能a和b点就会离得更近了。这里使用梅尔谱图进行转换,按如下公式进行转化。

语音识别基础-梅尔谱图
其中f代表原本的频率,m代表转换后的梅尔频率。这样,原本的频率越大,转换后就变得越平缓。也就更接近人耳的感受。
语音识别基础-梅尔谱图

随意网上找个无损音乐.wav文件,画出频谱图

语音识别基础-梅尔谱图
转换为梅尔谱图
语音识别基础-梅尔谱图
有图可得,其y轴频率轴,从10000降到8192,有效降低了高频域。且低频的亮域比起转化前更明显了。

; 总结

如果您想更进一步,请参考下面的文章。

[En]

If you want to go further, refer to the following article.

语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理
语音合成基础(3)——关于梅尔频谱你想知道的都在这里
如何用python画出语谱图(spectrogram)和mel谱图(mel spectrogram)

Original: https://blog.csdn.net/weixin_43427728/article/details/125143895
Author: 傍晚轻风拂面
Title: 语音识别基础-梅尔谱图

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498276/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球