VoxCeleb1 数据集下载

前言

VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取,有比较丰富的噪声。(有空补介绍) 由于我只使用音频数据,这里只介绍音频数据相关的下载流程

如果可以使用谷歌表单和翻译软件应该就可以顺利下载,私下分发数据集有侵权风险。

正文

官网如下:

VoxCeleb VoxCeleb1 数据集下载https://www.robots.ox.ac.uk/~vgg/data/voxceleb/;

但是很神奇的是现在(2022-7-12),这个网站所有的下载链接被取消了。

VoxCeleb VoxCeleb1 数据集下载https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html ;

VoxCeleb1 数据集下载

可以看到,只能下载到 Metadata,音频文件暂时不可用。

搜了好久后发现在下面的链接可以下载,一开始担心不是官网,后面发现这是一个韩国的实验室,承接了第四次的 VoxCeleb Speaker Recognition Challenge (VoxSRC)

VoxCeleb VoxCeleb1 数据集下载https://mm.kaist.ac.kr/datasets/voxceleb/;下载前需要填个 Google Form,填入单位姓名等。由于是自动流程,所以填完不久就可以检查邮箱收件箱了,会看到一个邮件给出了 用户名和口令。

https://docs.google.com/forms/d/e/1FAIpQLSdQhpq2Be2CktaPhuadUMU7ZDJoQuRlFlzNO45xO-drWQ0AXA/viewform?fbzx=7440236747203254000

这里有说明,给出的身份只能使用 1 个月。

获得用户名和口令之后就好办了,使用 Windows 和浏览器的可以直接在下面的链接找到对应的数据集下载,因为过大所以官方做了分片,具体的操作官网有详细说明,下载的时候点击链接,会弹出需要填入用户名和口令,输入即可开始下载。VoxCeleb VoxCeleb1 数据集下载https://mm.kaist.ac.kr/datasets/voxceleb/;

额外补充一下,Linux 环境的下载命令。

wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip  --http-user=username--http-passwd=password

将 链接 [http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wavip](http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip "http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wavip") 切换为你需要下载的文件,然后 username 和 password 做替换即可。

官网给出了 md5,可以顺手校验一下。

 md5sum vox1_dev_wav.zip

然后是解压,用 unzip 命令。

unzip -d vox1_dev_wav vox1_dev_wav.zip

然后就大工搞成了,数据集的使用可以参照 GitHub 找 voxceleb trainer,此外用 Pytorch 的用户可以参照 torchaudio.datasets.voxceleb1 — Torchaudio nightly documentation。这个 API 比较新,比较古早的版本可能没有。

补充

对于将要使用这个数据集 Train 模型的同学补充说明一下,Identification 任务的训练也是要下载 Test 数据的。

直接用 https://mm.kaist.ac.kr/datasets/voxceleb/meta/iden_split.txt 这个文件读取数据集,会报错,id10270-id10309 的数据是缺失的,但是 iden_split 这个文件却标注了一些 id 在这个范围的说话人的数据为 Training,我本以为只用 Training Data (因为不是做 ASV)所以没有下载 Test……结果就报错了,找不到音频文件。

VoxCeleb1 数据集下载

VoxCeleb1 数据集下载

Original: https://blog.csdn.net/Haulyn5/article/details/125741841
Author: Haulyn5
Title: VoxCeleb1 数据集下载

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/719455/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • python知识图谱问答系统代码_简单构建基于RDF和SPARQL的KBQA(知识图谱问答系统)…

    本文主要通过python实例讲解基于RDF和SPARQL的KBQA系统的构建。该项目可在python2和python3上运行通过。 注:KBQA即是我们通常所说的基于知识图谱的问答…

    人工智能 2023年6月10日
    082
  • 使用 Python 生成二维码

    使用 Python 生成二维码 现在二维码应用随处可见,生活中二维码可以说是无处不在了:加好友,付钱,扫个码。python生成二维码非常方便。本文就来讲解如何用python开发生成…

    人工智能 2023年7月5日
    060
  • Prediction)任务方面有哪些应用和优势

    问题:在任务方面,预测有哪些应用和优势? 详细介绍 预测是机器学习中的一个重要任务,它可以通过使用历史数据来建模和预测未来事件或观测结果。在不同领域中,预测技术被广泛应用,例如金融…

    人工智能 2024年1月1日
    046
  • 深入剖析Focal loss损失函数

    目标检测方法常常使用先验框提高预测性能,一张图像可能生成成千上万的先验框,但是其中只有很少一部分能匹配到目标(正样本),而没有匹配到目标的先验框占大多数。这种情况造成了One-St…

    人工智能 2023年7月26日
    072
  • CVPR2022去噪+超分

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    人工智能 2023年7月22日
    057
  • 度秘语音引擎app_带有语音识别功能的APP

    实验目的: 调用讯飞api实现一个带有语音识别功能的app, 功能主要包括 1.实现语音输入转换成文本,显示在输入文本框中 实现语音合成,能让文本框中的文字转换成语音输出 先跑通这…

    人工智能 2023年5月27日
    0121
  • RTX 3060+CUDA+CUDAnn+Pytorch安装(自己踩过的)

    昨天买了一个铭瑄RTX3060的卡,准备回来做深度学习,结果各种踩坑,现在发一下我最后一次装成功的过程。 1、按装英伟达3060的驱动 直接百度搜索NVIDIA驱动,就会出来官方G…

    人工智能 2023年7月22日
    051
  • YOLOv5目标检测算法——通俗易懂的解析

    目录 YOLOv5目标检测算法 * 前沿 一.网络结构 1.1.Backbone 1.2.Neck 1.3.Head 二.数据增强 – 2.1.Mosaic 2.2.C…

    人工智能 2023年6月17日
    0115
  • 【pyTranscriber】开源免费语音转字幕软件及替代方案

    目录 一、pyTranscriber下载 二、pyTranscriber安装 三、pyTranscriber启动 四、替代方案:网易见外工作台 pyTranscriber是一款免费…

    人工智能 2023年5月25日
    0107
  • 【CV】FPN:用于目标检测的特征金字塔网络

    论文名称:Feature Pyramid Networks for Object Detection论文下载:https://arxiv.org/abs/1612.03144论文年…

    人工智能 2023年7月9日
    099
  • k中心点聚类算法伪代码_K-means聚类算法

    K-means聚类算法 1、算法思想 首先,我们可以随机选取K个对象作为初始的聚类中心,然后计算每个对象与每一个种子聚类中心的距离,然后分别把这些对象分配给距离对象最近的一个聚类中…

    人工智能 2023年6月2日
    054
  • 无监督算法

    无监督算法简介 就是依靠数据之间的相似度,形成数据的类别。(下图有些是网上扒的,如有侵权望告知,立删) 层次聚类 比如有7个数据点,A,B,C,D,E,F,G。我们采用数据的欧式距…

    人工智能 2023年5月31日
    059
  • differentiation)是如何实现的

    问题:关于分化(differentiation)是如何实现的? 详细介绍 分化是微积分中的一个基本概念,用于计算函数的斜率或变化率。在计算机科学中,我们可以使用数值方法来近似计算函…

    人工智能 2023年12月31日
    039
  • OpenCV图像处理入门

    😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介:⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

    人工智能 2023年7月4日
    048
  • 图像拼接(Image Stiching)方向论文微总结

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

    人工智能 2023年5月26日
    076
  • 张雪英部分论文集

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

    人工智能 2023年5月25日
    080
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球