python音频特征提取_音频特征提取方法和工具汇总

本文首发于:行者AI

大多数音频特征源于语音识别任务,可以简化原始波形采样信号,从而加快机器对音频语义的理解。自20世纪90年代末以来,这些音频特征也被应用于乐器识别等音乐信息检索任务,并出现了更多的音频音乐设计特征。

[En]

Most audio features originate from speech recognition tasks, which can simplify the original waveform sampling signals, thus accelerating the machine’s understanding of the semantic meaning of audio. Since the late 1990s, these audio features have also been applied to music information retrieval tasks such as musical instrument recognition, and more features for audio music design have emerged.

  1. 音频特征的类别

理解音频特征的不同类别并不是为了准确地对一个特征进行分类,而是加深我们对该特征的物理含义的理解。一般来说,我们可以从以下几个维度区分音频特征:

[En]

Understanding the different categories of audio features is not to accurately classify a feature, but to deepen our understanding of the physical meaning of the feature. Generally speaking, we can distinguish audio features from the following dimensions:

(1)特征是由模型从信号中直接提取还是基于模型的输出得到的统计,如均值、方差等;

(2)特征表示的是瞬态还是全局上的值,瞬态一般以帧为单位而全局则覆盖更长的时间维度;

(3)特征的抽象程度,底层特征抽象程度最低也是最易从原始音频信号中提取,它可以进一步被处理为高一级的中间特征代表乐谱中常见的音乐元素,如音高、音符的起始时间等;高层特征最为抽象大多用于音乐的曲风和情绪任务;

(4)根据特征提取过程的差异可以分为:从原始信号中直接提取的特征(如过零率)、将信号转换为频率得到的特征(如谱心质)、需经过特定的模型得到的特征(如旋律)、受人耳听觉认知启发改变量化特征尺度得到的特征(如MFCCs)。

我们以”特征提取过程的差异”为主要分类基准,列出各类下比较常见的特征:

python音频特征提取_音频特征提取方法和工具汇总

同时我们也发现部分特征并非完全属于其中一个类别例如MFCC,因为提取MFCC会将信号从时域转换至频域然后根据模仿人类听觉响

Original: https://blog.csdn.net/weixin_33314238/article/details/113994367
Author: vsoo粉
Title: python音频特征提取_音频特征提取方法和工具汇总

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/526868/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球