音频格式对ASR模型的影响

2023年5月25日下午4:54 • 人工智能 • 阅读 63

如果你写过read或load音频文件的程序，你会发现，音频数组和采样率通常会同时出现。如果你不知道采样率是什么，可以看看这篇文章。

作为一名炼金术士，对参数的敏感性已成为一种条件反射。一个自然浮现在脑海中的问题是：采样率是否会影响模型的识别结果？答：是的。

[En]

As an alchemist, sensitivity to parameters has become a conditioned reflex. A natural question that comes to mind is: will the sampling rate affect the recognition results of the model? A: yes.

除了采样率，音频的属性还有采样深度、通道数等，音频的格式也各种各样，比如wav、mp3、flac等，这些会影响模型的识别吗？答：都会，但影响程度不一样。

采样率

采样率，简单地说，就是每秒采样的数量。语音识别场景常见的采样率有8000、16000、32000等。以采样率16000为例，一秒钟的语音（假设单通道）就是一个长度为1.6w的数组。

如果给你一个长1.6w的数组，不告诉你采样率，你没法确定这段语音的时长是多少。那这跟模型有什么关系呢？或者说，采样率怎么影响语音识别模型呢？

如果用采样率1.6w的语音训练一个模型，而测试集语音的采样率是8k，那测试集的语音每两秒被模型当做一秒，相当于语速加快了一倍，这会导致什么样的后果呢？

想象一下，你正在房间里背诵古文，你的母亲走进来，问你正在读什么，你说的是文言文。你妈妈一言不发就是一记耳光，你敢叫我滚出去吗？你很委屈，你明明说了两个字，但因为速度太快，她以为你只说了一个字。

[En]

Imagine you are reciting ancient prose in your room, your mother comes in and asks you what you are reading, and you say classical Chinese. Your mother is a slap in the face without saying a word, dare you tell me to get out of here? You are very aggrieved, you clearly said two words, but because the speed is too fast, she thought you only said one word.

因此，训练集和测试集的采样率必须统一。

[En]

Therefore, the sampling rate of the training set and the test set must be unified.

统一多少比较好？没有固定的标准，语音识别一般使用16000。如果追求精度，请使用高采样率；如果追求效率，请使用低采样率。

[En]

How much is better to unify? There is no fixed standard, speech recognition generally uses 16000. If you pursue precision, use a high sampling rate; if you pursue efficiency, use a low sampling rate.

采样深度

在图像识别任务中，图像输入模型之前，要进行归一化处理，最简单的方式就是image/255，因为像素取值范围是0~255。

在语音识别任务中，也需要对语音进行归一化处理。与图像识别的不同之处在于，语音样本的范围不是固定的，这取决于采样深度。

[En]

In the speech recognition task, it is also necessary to normalize the speech. The difference from image recognition is that the range of speech samples is not fixed, which depends on the sampling depth.

如果采样深度是16位，那么语音样本的取值范围是[ − 2 15 , 2 15 − 1 ] [-2^{15}, 2^{15}-1][−2 1 5 ,2 1 5 −1 ]，简单的归一化就是a u d i o / 2 15 audio/2^{15}a u d i o /2 1 5；相应的，32位的采样深度对应的取值范围是[ − 2 31 , 2 31 − 1 ] [-2^{31}, 2^{31}-1][−2 3 1 ,2 3 1 −1 ]，归一化便是a u d i o / 2 31 audio/2^{31}a u d i o /2 3 1。

因此，采样深度影响语音数据的归一化。

[En]

Therefore, sampling depth affects the normalization of speech data.

不过，很多时候read或load出来的语音数据本身就是[-1,1]之间的浮点数，这是因为已经做了归一化处理。

通道数

语音识别一般采用单声道语音，如果您的音频是多声道，则应转换为单声道。

[En]

Speech recognition generally uses single-channel voice, if your audio is multi-channel, it should be converted to single-channel.

如何从多渠道转变为单渠道？理想情况下，您想要识别的语音在某个通道中，并且您知道它是哪个通道，因此只需调出该通道的数据，这样您就可以避免其他与通道无关的信息对识别的干扰。

[En]

How to change from multi-channel to single-channel? Ideally, the voice you want to recognize is in a channel, and you know which channel it is, so just bring up the data from that channel, so that you can avoid the interference of other channel-independent information to the recognition.

理想的情况通常并不存在，但实际情况是所有通道都有声音出现，或者你不知道哪个通道会发出声音，但处理方法也是简单粗略的，即对每个通道的值进行平均得到一个通道。

[En]

The ideal situation usually does not exist, but the actual situation is that voice appears in all channels, or you do not know which channel will produce voice, but the processing method is also simple and rough, that is, averaging the values of each channel to get a channel.

音频格式

音频的格式有很多种，mp3、wav、flac、ogg等。我们知道，不同格式的音频的编码是不一样的。这对语音识别有没有影响呢？比如，用mp3音频训练的模型，再用wav的音频测试，会不会因为格式不同导致准确率低或者模型完全听不懂呢？答：几乎不会。

我们知道，同一张图的jpg和png两种格式，虽然编码方式不一样，但是解码后展示出来的图是差不多的，一般肉眼看不出什么差别。用png图片训练模型，用jpg图像测试模型，完全没问题。

音频也是一样，用wav音频训练模型，用MP3音频测试模型，也是没有问题。

最后

推荐一个可以修改音频采样率、采样深度、通道数的python脚本：

https://github.com/wapping/SpeechUtils/blob/master/audio/reset.py

支持多种音频格式，支持单次或批量音频转换。

[En]

Support multiple formats of audio, support single or batch audio conversion.

脚本依赖pydub库，而pydub依赖ffmpeg，所以要安装pydub和ffmpeg。

Original: https://blog.csdn.net/lhp171302512/article/details/122722942
Author: warpin
Title: 音频格式对ASR模型的影响

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515125/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像检索知识整理（传统方法）

图像检索知识整理 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is…

人工智能 2023年6月3日
0071
教你用OpenCV 和 Python实现圆物检测

点击上方” 码农的后花园“，选择” 星标” 公众号精选文章，第一时间送达基于python使用OpenCV实现在一张图片中检测出…

人工智能 2023年7月18日
0062
学习一：人脸识别

学习一：人脸识别 1.opencv 简介： OpenCV的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉库。OpenCV是由…

人工智能 2023年7月20日
0074
R语言学习—添加回归模型拟合线（一）

回归模型重要的基础或者方法就是回归分析，回归分析是研究一个变量（被解释变量）关于另一个（些）变量（解释变量）的具体依赖关系的计算方法和理论，是建模和分析数据的重要工具。常见的回…

人工智能 2023年6月16日
00114
ESP8266-Arduino编程实例-VCNL4040趋近传感器

; VCNL4040趋近传感器 1、VNCL4040介绍 VCNL4040 将趋近传感器 (PS)、环境光传感器 (ALS) 和高功率 IRED 集成到一个小型封装中。它通过CMO…

人工智能 2023年5月30日
0080
【数值预测案例】(3) LSTM 时间序列电量预测，附Tensorflow完整代码

大家好，今天和各位分享一下如何使用循环神经网络LSTM完成时间序列预测，本文是针对单个特征的预测，下一篇是对多个特征的预测。文末有完整代码 1. 导入工具包这里使用GPU加速计…

人工智能 2023年7月4日
0061
NLP 进行文本摘要的三种策略代码实现和对比：TextRank vs Seq2Seq vs BART

本文将使用 Python 实现和对比解释 NLP中的3 种不同文本摘要策略：老式的 TextRank（使用 gensim）、著名的 Seq2Seq（使基于 tensorflow）和…

人工智能 2023年5月27日
00119
DataFrame数据框模糊查询与去重

1.数据框模糊查询数据框查询使用contains函数+正则表达式来实现。语法格式如下： data[data.列名.str.contains()] 1.1查询以某某开头的数据 dat…

人工智能 2023年7月8日
0076
使用计算机视觉和深度学习创建现代 OCR 管道

文章目录 * – 研究和原型设计 – 字深网 – 字检测器 – 组合式端到端系统 – 生产化 – 性能调优 …

人工智能 2023年6月23日
0087
ARGO数据集—自动驾驶场景（版本：Argoverse 1.1）

前言 ARGO是一个自动驾驶场景的数据集，它有竞赛排行（立体深度估计、运动预测、3D检测、3D跟踪等等），截止2021.12最新版本是Argoverse 1.1；Argoverse…

人工智能 2023年6月11日
0069
爬虫-保存数据到Excel

爬虫-保存数据到Excel 利用python库xlwt将抽取的数据datalist写入Excel表格操作步骤：（以utf-8编码）创建一个Excel对象创建一个sheet表 …

人工智能 2023年7月16日
0062
决策树之挑选西瓜

目录一.决策树二.西瓜挑选问题描述三.利用信息增益选择最优划分属性四.用Python求解五.用sk-learn库对西瓜数据集，分别进行ID3、C4.5和CART的算法代码…

人工智能 2023年6月30日
0072
YOLOv3 -＞ YOLOv4 -＞ YOLOv5的改进（tricks）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0066
基于Java+Springboot+Vue+elememt社区疫情返乡管控系统设计实现

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

人工智能 2023年7月29日
00119
Pandas 库之 DataFrame

1 简介 DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。或许说它可能有点像matlab的矩阵，但是matlab的矩阵只能放数…

人工智能 2023年6月2日
0067
【Unity】OpenCV Plus Unity 获取Unity中摄像机并调用opencv使其灰度化实例

前言 OpenCV Plus Unity 有关的教程实在很难找到，Opencv的有很多，但是在Unity上应用的相关教程很少，比如付费的OpenCV For Unity ，就已经很…

人工智能 2023年6月4日
00116

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

音频格式对ASR模型的影响

大家都在看