WenetSpeech数据集的处理和使用

WenetSpeech数据集

10000+小时的普通话语音数据集, 使用地址:PPASR

WenetSpeech数据集的处理和使用

WenetSpeech数据集 包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

  • 所有数据分为 3 类,如下表所示:

数据分类时长(小时)可信度可用系统强标签10005>=0.95监督训练弱标签2478[0.6, 0.95]半监督或噪音训练无标签9952/无监督训练或预训练总共22435//

  • High Tag根据域名、说话风格、场景分为10组,如下表所示:
    [En]

    High tags are divided into 10 groups by domain, speaking style and scene, as shown in the following table:*

领域Youtube(小时)Podcast(小时)全部(小时)有声读物0250.9250.9现场解说112.6135.7248.3纪录片386.790.5477.2戏剧4338.204338.2采访324.2614938.2新闻0868868阅读01110.21110.2讨论20490.7294.7综艺603.3224.5827.8其他144507.5651.5总共6113389210005

  • 3个子集,即S,M并且L对不同的数据规模建设ASR系统

训练数据可信度时长(小时)L[0.95, 1.0]10005M1.01000S1.0100

  • 评估测试数据

评估数据时长(小时)来源描述DEV20互联网专为一些需要在训练中设置交叉验证的语音工具而设计TEST_NET23互联网比赛测试TEST_MEETING15会议远场、对话、自发和会议数据集

  1. 本教程介绍如何使用该数据集训练语音识别模型,只是用强标签的数据,主要分三步。下载并解压WenetSpeech数据集,在官网 填写表单之后,会收到邮件,执行邮件上面的三个命令就可以下载并解压数据集了,注意这要500G的磁盘空间。
  2. 然后制作数据集,下载原始的数据是没有裁剪的,我们需要根据JSON标注文件裁剪并标注音频文件。在 tools目录下执行 create_wenetspeech_data.py程序就可以制作数据集了,注意此时需要3T的磁盘空间。 --wenetspeech_json参数是指定WenetSpeech数据集的标注文件路径,具体根据读者下载的地址设置。
cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json
  1. 最后创建训练数据,跟普通使用一样,在项目根目录执行 create_data.py就能过生成训练所需的数据列表,词汇表和均值标准差文件。这一步结束后就可以训练模型了,具体看训练模型
python create_data.py

项目地址:https://github.com/yeyupiaoling/PPASR

Original: https://blog.csdn.net/qq_33200967/article/details/121641830
Author: 夜雨飘零1
Title: WenetSpeech数据集的处理和使用

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/497726/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球