WenetSpeech数据集的处理和使用

2023年5月23日下午7:49 • 人工智能 • 阅读 75

WenetSpeech数据集

10000+小时的普通话语音数据集， 使用地址：PPASR

WenetSpeech数据集包含了10000+小时的普通话语音数据集，所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量，WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

所有数据分为 3 类，如下表所示：

数据分类时长（小时）可信度可用系统强标签10005>=0.95监督训练弱标签2478[0.6, 0.95]半监督或噪音训练无标签9952/无监督训练或预训练总共22435//

High Tag根据域名、说话风格、场景分为10组，如下表所示：

[En]

High tags are divided into 10 groups by domain, speaking style and scene, as shown in the following table:*

领域Youtube（小时）Podcast（小时）全部（小时）有声读物0250.9250.9现场解说112.6135.7248.3纪录片386.790.5477.2戏剧4338.204338.2采访324.2614938.2新闻0868868阅读01110.21110.2讨论20490.7294.7综艺603.3224.5827.8其他144507.5651.5总共6113389210005

3个子集，即S，M并且L对不同的数据规模建设ASR系统

训练数据可信度时长（小时）L[0.95, 1.0]10005M1.01000S1.0100

评估测试数据

评估数据时长（小时）来源描述DEV20互联网专为一些需要在训练中设置交叉验证的语音工具而设计TEST_NET23互联网比赛测试TEST_MEETING15会议远场、对话、自发和会议数据集

本教程介绍如何使用该数据集训练语音识别模型，只是用强标签的数据，主要分三步。下载并解压WenetSpeech数据集，在官网填写表单之后，会收到邮件，执行邮件上面的三个命令就可以下载并解压数据集了，注意这要500G的磁盘空间。
然后制作数据集，下载原始的数据是没有裁剪的，我们需要根据JSON标注文件裁剪并标注音频文件。在 tools目录下执行 create_wenetspeech_data.py程序就可以制作数据集了，注意此时需要3T的磁盘空间。 --wenetspeech_json参数是指定WenetSpeech数据集的标注文件路径，具体根据读者下载的地址设置。

cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json

最后创建训练数据，跟普通使用一样，在项目根目录执行 create_data.py就能过生成训练所需的数据列表，词汇表和均值标准差文件。这一步结束后就可以训练模型了，具体看训练模型

python create_data.py

项目地址：https://github.com/yeyupiaoling/PPASR

Original: https://blog.csdn.net/qq_33200967/article/details/121641830
Author: 夜雨飘零1
Title: WenetSpeech数据集的处理和使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/497726/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Anaconda的安装和使用】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0064
硬件开发——语音模块开发（包含语音识别模块代码等资料包）

一、语音模块和硬件模块的开发 [En] I. the development of voice modules and hardware modules 硬件模块的开发——常用：语…

人工智能 2023年5月27日
0086
查全率与查准率的计算方法

查全率和查准率的概念和计算方法查全率概念：查全率（R）是测量检索系统检出相关文献能力的一种尺度，指系统检出的相关文献数（ w）与系统信息库中存储相关文献数（ x）之比，用公式…

人工智能 2023年7月3日
00244
《人工智能原理》读书笔记：第2章体系论

目录第2章体系论 2.1 引言 2.2 人工智能的研究途径 2.2.1 控制论与人工智能 2.2.2 符号和亚符号 2.2.3 整齐与不整齐 2.2.4 逻辑与反逻辑 2.2….

人工智能 2023年5月30日
0070
软件智能：aaas文档主体标头标记法DSHN (续2）

本篇是前面的”续1″篇（链接如下）的续篇。 2、 DSHN的设想idea DSHN表示了一个共同的AI主题下新话题的自动识别和已知话题的持续跟踪的三个不同的…

人工智能 2023年6月1日
0059
【源码解析】如何从零实现一个回归模型？

说明：本文源代码来源于MACHINE LEARNING 2022 SPRING课程，我只是针对源代码进行了一些加工处理。感谢互联网，让我们能免费接触到这些优秀的课程。前置知识什…

人工智能 2023年6月17日
0076
实践 | 基于全连接神经网络实现房价预测

使用PaddlePaddle建立房价预测模型线性回归中：假设函数：用数学的方法描述自变量和因变量之间的关系，它们之间可以是一个线性函数或非线性函数。在本次线性回顾模型中，我们…

人工智能 2023年7月14日
0066
【SVM分类】基于matlab改进的人工蜂群算法优化SVM分类【含Matlab源码 1833期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【SVM分类】基于matlab改进的人工蜂群算法优化SVM分类【含Matlab源码 1833期】获取代码方式2：付费专…

人工智能 2023年7月1日
0087
【C++】TinyXML读取xml文件用法详解

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 TinyXML是个解析库，它由两个头文件（.h文件）和四个CPP文件（.cpp文件）构成，用的时候，只要将（tin…

人工智能 2023年7月9日
0043
Apollo_Lattice palnner

Lattice与Piecewise方法明显的不同，Lattice是沿参考线分解，横向运动（l,l’,l”），纵向运动（s,s’,s”…

人工智能 2023年6月2日
0097
c++ 文字识别_AI算法测试——语音识别（ASR）模型评估指标探索

如上图所示，在将语音转换为文本时，我们通过微信发送了一个语音。语音识别引擎首先将语音分成帧(切成几个小片段)，然后使用声学模型将每一帧的声学特征识别为“状态”。将多个状态组合成音素…

人工智能 2023年5月27日
0057
pytorch dataloader详解

构建自己的dataloader是模型训练的第一步，本篇文章介绍下pytorch与dataloader以及与其相关的类的用法。 DataLoader类中有一个必填参数为 datase…

人工智能 2023年7月21日
0071
C罗老矣，我的程序人生还有多远

☆ 随着12月11号摩洛哥1-0葡萄牙比赛的结束，不仅说明葡萄牙对要结束本届卡塔尔世界杯了，就连C罗此生的世界杯之旅也将画上句号了。☆ 37岁的球星本该是人生最璀璨的阶段，但在足球…

人工智能 2023年7月31日
0045
特征编码2 – 无监督一维编码（序数编码、计数编码）及python示例

后续的python代码中，我们使用这个示例： import numpy as np import pandas as pd import category_encoders as …

人工智能 2023年7月8日
0073
【计算机视觉】03数字图像处理基础：图像增强（灰度/点运算、直方图修正、平滑/滤波、锐化）

目录 1. 图像增强算法概述 1.1 图像增强方法分类 2. 图像灰度变换（点运算） 2.1 灰度变换的作用 2.2 灰度线性变换 2.3 灰度分段线性变换 2.4 对数变换（非线…

人工智能 2023年7月28日
0088
android车机系统刷机_四大主流国产车机系统，代表了中国造的强大实力

作为汽车第二”大脑”的车机系统，随着科技的不断进步与汽车智能化的不断发展，如今的车机系统越来越强大，那么在自主品牌中所采用的那些车机系统究竟如何？今天马拉车…

人工智能 2023年5月27日
00155

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

WenetSpeech数据集的处理和使用

大家都在看