音频分类-数据集：AudioSet【Google发行的声音版ImageNet】

2023年6月30日下午5:13 • 人工智能 • 阅读 73

GitHub：https://github.com/audioset/ontology

谷歌发布的大规模音频数据集，AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。

音频本体 (ontology) 被确定为事件类别的一张层级图，覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。

AndioSet能为音频事件检测提供一个常见的、实际的评估任务，也是声音事件的综合词汇理解的一个开端。

该数据集收集了所有与我们合作的人类标注者从 YouTube 视频中识别的声音。我们基于 YouTube 元数据和基于内容的搜索来挑选需要标注的片段。

在我们的音频本体中，得到的数据集在音频事件类上有极好的覆盖。

训练神经网络时，最重要的是数据，其次是网络类型或结构等。尤其是音频标记、声音事件检测任务中，标注准确的公开数据屈指可数。DCASE2013、2016、2017等中，声音事件检测（Sound event detection，SED）的数据集，基本都是两个小时左右的规模。2017年，Google在ICASSP上发布了大型音频数据集AudioSet，为 general audio-related tasks提供了可用的数据集，但美中不足的是，AudioSet只含有片段级别（10秒左右）的标签，即我们常说的弱标签（Weak label）。

弱标签（Weak label）通常用于音频分类（audio classification）、音频标记（audio tagging）等任务，用于指示此片段中是否含有相应的声音事件。而如果想要知道声音事件在片段中具体的开始和结束的时间，那就需要强标签（Strong label）。所以，弱标签是片段级别（clip level）的标签，含有全局信息；强标签是更细致的帧级别（frame level）的标签，含有局部信息。强标签一般用于不仅需要预测音频片段中事件的种类，也需要预测对应事件的开始和结束时间的任务，例如声音事件检测（Sound event detection，SED）。

细粒度的音频事件标注是非常耗时费力的，若想精确到帧级别（例如40ms），那么标注1分钟长度的片段，可能需要10分钟不止，要是遇到某些难以确定开始和结束范围的事件，可能需要翻来覆去听好几遍才能确定。若标注任务中有复音音频事件，那同一个片段可能需要听更多次，每次专注于单个音频事件。所以，这也导致了大规模的音频数据标注工作一般由大公司发起，而对应的结果是，他们标注的数据集很少有公开的。

所以，当从今年的 ICASSP2021 论文集中看到Google发布的这篇文章时，可说是喜大普奔。文中从拥有1.8M的10秒音频片段的AudioSet中，选出了67K个片段、共456类事件，对其进行了帧级别（分辨率0.1秒）的标注，得到了对应的强标签。这对整个研究社区无疑贡献巨大，但这也无形间提升了研究的门槛，以后要是想发事件检测相关的论文，审稿人若问为什么没有在AudioSet上的实验结果，之前还可以说AudioSet中只有弱标签，没有事件级别的强标签，做不了相关实验，但现在AudioSet有了强标签，就不能再用这个理由逃避了。（但没有足够的计算资源，就难以开展相关的研究，难）

参考资料：
关于Audioset的音频分类研究
 AudioSet指标解释
 AudioSet数据集介绍(含国内镜像地址)
音频标签化1：audioset与训练模型 | 音频特征样本
 公开数据集记录：语音、音乐和其他音频数据集
 【论文随笔3】AudioSet终于有了强（帧级别）标签：THE BENEFIT OF TEMPORALLY-STRONG LABELS IN AUDIO EVENT CLASSIFICATION
音频模式识别中的涨点方法与影响因素分析

Original: https://blog.csdn.net/u013250861/article/details/125757341
Author: u013250861
Title: 音频分类-数据集：AudioSet【Google发行的声音版ImageNet】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/661711/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

什么是路由守卫？

第一次认识路由守卫：之前我做过的小项目里面，我们直接在浏览器网址的地方进行修改就能跳转页面，这是不安全的，因此就需要路由守卫，实现通过路由拦截，来判断用户是否登录，该页面用户是否有…

人工智能 2023年7月23日
0069
（5）OpenPose – Pytorch版用于人体姿态检测、关键点提取、摔倒检测

1.下载OpenPose – Pytorch版源码 github下载地址：https://github.com/Hzzone/pytorch-openpose权重下载：…

人工智能 2023年7月21日
0064
MATLAB实现智能计算方法实验：实验四 RBF神经网络

资源链接 MATLAB实现智能计算方法课程所有实验代码资源链接为：MATLAB实现智能计算方法课程所有实验代码资源实验汇总 MATLAB实现智能计算方法课程所有实验汇总博客链接为…

人工智能 2023年6月24日
0094
人工智能导论——逻辑推理

; 比比叨叨复习起来比想象的慢啊啊啊啊！挺住！一定要好好复习完。突然想到霸王别姬里的这句话，帆神如是，陈老如是，我也要加油啊！ 0. 逻辑推理概述逻辑推理这章的重要考点必然是归…

人工智能 2023年6月1日
0095
关于游戏介绍的HTML网页设计 HTML5期末考核大作业 HTML静态游戏网页作业 web前端开发技术 web课程设计网页规划与设计

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案例…

人工智能 2023年6月26日
00101
机器学习之过拟合和欠拟合

文章目录前言什麽是过拟合和欠拟合? 过拟合和欠拟合产生的原因： * 欠拟合(underfitting)：过拟合(overfitting)：解决欠拟合(高偏差)的方法 * &…

人工智能 2023年7月31日
0071
数据可视化怎么操作？看完这篇你就明白了

如今，各行各业对数据分析的关注度也越来越高，很多企业已经意识到通过数据分析而获得的知识和信息对企业的日常经营活动具有积极的促进作用。但如何用最简单、最有效的方式将关键信息传达给企业…

人工智能 2023年7月16日
0068
MATLAB作图颜色

matlab默认配色参考链接 https://zhuanlan.zhihu.com/p/492683309matlab的默认配色也是很漂亮的，其RGB三元组和十六进制代码可以在 …

人工智能 2023年7月5日
00113
Tensorflow2.0使用Sequential 搭建神经网络

参考: https://www.bilibili.com/video/BV16A41157LW?p=15视频及课件来源北京大学曹建搭建神经网络的八股文tf.keras 搭建神…

人工智能 2023年7月14日
0064
如何在Kaggle上利用免费Gpu训练Yolox的模型

本文不包含Kaggle的入门步骤，如何上传数据集，如何选择GPU自行学习文章目录开头的话一、Kaggle的使用 * 1、为什么选择Kaggle 2、Kaggle的操作难度二…

人工智能 2023年6月24日
00106
Python实现12种概率分布（附代码）

今天给大家带来的这篇文章是关于机器学习的，机器学习有其独特的数学基础，我们用微积分来处理变化无限小的函数，并计算它们的变化；我们使用线性代数来处理计算过程；我们还用概率论与统计学…

人工智能 2023年6月25日
0077
Python实现一元及多元线性回归

Python实现线性回归实现目标实验数据结果分析 * 数据集1下的回归分析数据集2下的回归分析源代码实现目标 1.实现一元（或多元）线性回归a. 根据对客观现象的定性认…

人工智能 2023年6月18日
0079
数据挖掘：针对小样本与不均衡样本的机器学习算法实践

01 小样本、不均衡样本在分类任务中普遍存在随着计算能力、存储空间、网络的高速发展，人类所积累的数据量正在快速增长，而分类在数据挖掘中是一项非常重要的任务，已渐渐融入到了我们的日…

人工智能 2023年7月18日
0060
睡眠音频分割及识别问题(四)–YAMNet简介

简介 YAMNet模型是在 AudioSet 数据集（一个大型音频、视频数据集）上训练的音频事件分类器。模型输入该模型接收包含任意长度波形的float32一维张量或 NumPy…

人工智能 2023年5月25日
0082
【机器学习算法】聚类分析-2 聚类算法的分类，层次聚类算法的选择

目录聚类算法的分类层次聚类的算法，单一聚类法（single link）完全链结法平均链结法中心链结法Ward’s法我的主页：晴天qt01的博客_CSDN博客-数据分析…

人工智能 2023年6月30日
00106
深度学习、机器学习领域毕业设计选题方法及建议

目录 1 .机器学习、深度学习选题方向 2.毕业论文命题（选题）技巧 3. 难度把控 3 最后 1 .机器学习、深度学习选题方向深度学习已经在语音识别、图像处理等方面取得了巨大成…

人工智能 2023年6月16日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

音频分类-数据集：AudioSet【Google发行的声音版ImageNet】

大家都在看