kaldi中文语音识别(一)：multi_cn

2023年5月25日下午4:48 • 人工智能 • 阅读 63

网上有很多用kaldi中的aishell,thchs30来做语音识别的。这两个方案的语音数据量都比较少，所以效果可能不够好。

这里采用multi_cn方案，它集合了所有openslr中开源的中文语音数据集。

1.先安装kaldi。

2.拷贝egs/wsj/s5下的steps和utils两个文件夹到egs/multi_cn/s5下

3.由于我们需要下载的数据量有点多，如果使用原下载链接速度可能较慢，所以修改一下run.sh脚本的url如下：

aidatatang_url=openslr.magicdatatech.com/resources/62
aishell_url=openslr.magicdatatech.com/resources/33
magicdata_url=openslr.magicdatatech.com/resources/68
primewords_url=openslr.magicdatatech.com/resources/47
stcmds_url=openslr.magicdatatech.com/resources/38
thchs_url=openslr.magicdatatech.com/resources/18

run.sh中的dbase参数时数据集的存放位置，结合自己习惯，自行修改一下。

修改完url你会发现速度基本能在500K-1M左右，因为wget是单线程下载的这还是不够快啊。

安装aria2c，至于这么安装自己baidu一下。

然后找到s5/local文件夹下的下面六个文件

thchs_download_and_untar.sh
aidatatang_download_and_untar.sh
aishell_download_and_untar.sh
magicdata_download_and_untar.sh
primewords_download_and_untar.sh
stcmds_download_and_untar.sh

这六个文件夹中的每个文件夹中都有以下代码可供下载：

[En]

There is the following code in each of these six folders to download:

  cd $data
  if ! wget --no-check-certificate $full_url; then
    echo "$0: error executing wget $full_url"
    exit 1;
  fi

修改上述wget –no-check-certificate为aria2c -s 16 -x 16

OK，现在下载速度起飞。

3.执行bash run.sh

4.等待下载。

Original: https://blog.csdn.net/qq_25348431/article/details/112783249
Author: 克己|
Title: kaldi中文语音识别(一)：multi_cn

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515107/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv6：又快又准的目标检测框架开源啦

近日，美团视觉智能部研发了一款致力于工业应用的目标检测框架 YOLOv6，能够同时专注于检测的精度和推理效率。在研发过程中，视觉智能部不断进行了探索和优化，同时吸取借鉴了学术界和工…

人工智能 2023年6月15日
0052
【Python数据科学快速入门系列 | 06】Matplotlib数据可视化基础入门(一)

这是机器未来的第52篇文章原文首发地址：https://robotsfutures.blog.csdn.net/article/details/126899226 ; 《Pyth…

人工智能 2023年7月4日
0075
Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION（论文阅读）

Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章，是针对Detr 的改进。论文：《DEFORMABLE DETR: DEFOR…

人工智能 2023年7月9日
0090
图像的卷积

图像的卷积写在前面 * 什么是卷积图像的卷积操作 – + * – + 怎么将卷积运用到我们的图像处理上呢？ + 图像卷积 + 没什么用的卷积核通过卷积…

人工智能 2023年6月20日
0090
人工智能发展历程、机器学习分类、人工智能设计到的数学知识

人工智能的发展：分为三个阶段1)1956年人工智能诞生。2)上世纪90年代的专家系统阶段3)大数据背景下的深度学习神经网络阶段（Alpha go 战胜围棋高手李世石）机器学习的定义…

人工智能 2023年7月3日
0068
[渝粤教育] 山东科技大学遥感数字图像处理参考资料

教育-遥感数字图像处理-章节资料考试资料-山东科技大学【】第1章单元测验1、【单选题】一幅数字图像的辐射量化等级是4 bit，这幅图像所存储的灰度值范围是多少？A、0－3B、1－…

人工智能 2023年6月20日
0058
数据库系统课程设计（高校成绩管理数据库系统的设计与实现）

目录 1、需求分析 1 1.1 数据需求描述 1 1.2 系统功能需求 3 1.3 其他性能需求 4 2、概念结构设计 4 2.1 局部E-R图 4 2.2 全局E-R图 5 2….

人工智能 2023年7月30日
0061
Keras实现RNN和LSTM做回归预测（python）

学习了RNN和LSTM的理论知识，下面再来使用Keras实现一下这些模型。理论知识：循环神经网络（RNN） LSTM神经网络和GRU Keras实现神经网络： Keras实现全…

人工智能 2023年6月18日
0057
【opencv-c++】cv::ximgproc::thinning图像细化算法

【opencv-c++】cv::ximgproc::thinning图像细化算法 1、背景 2、示例 3、说明 ; 1、背景 cv::ximgproc::thinning函数官方文…

人工智能 2023年7月20日
00109
AI算法中常见的过滤器是如何与其他数据处理步骤（如特征选择、归一化等）相互作用的

问题：AI算法中常见的过滤器是如何与其他数据处理步骤（如特征选择、归一化等）相互作用的？详细介绍：在AI算法中，过滤器是一种常见的数据处理步骤，它通过对数据进行预处理来提取有用…

人工智能 2024年1月5日
0036
智慧供应链的学习笔记（库存管理、配补货、仓间调拨、控制塔等）

文章目录 1 供应链集成系统案例 * 1.1 京东物流一体化供应链 – 1.1.1 算法中台 1.1.2 易卜工程化平台 1.2 美团：到店供应链及商品平台建设实践 2…

人工智能 2023年6月24日
0062
知识表示学习（五）：RotatE

一.摘要我们研究了在知识图中学习实体和关系的表示以预测缺失链接的问题。这种任务的成功很大程度上依赖于建模和推断关系模式（或关系模式）的能力。在本文中，我们提出了一种新的知识图…

人工智能 2023年6月1日
0049
一文详解 Spring AOP

一文详解 Spring AOP 1.关于AOP 2.初步使用AOP环境配置 3.使用原生Spring API接口实现AOP 4.使用自定义类实现AOP 5.使用注解实现AOP 1….

人工智能 2023年6月27日
0064
【代码审计-PHP】审计方法、敏感函数、功能点

博主：网络安全领域狂热爱好者（承诺在CSDN永久无偿分享文章）。殊荣：CSDN网络安全领域优质创作者，2022年双十一业务安全保卫战-某厂第一名，某厂特邀数字业务安全研究员，ed…

人工智能 2023年6月30日
0082
Docker数据卷&&自定义Docker镜像

目录宿主机与容器之间的文件拷贝引言：利用MySQL镜像安装MySQL服务从容器中拷贝文件到宿主机从宿主机拷贝文件到容器数据卷数据卷容器 Dockerfile自定义镜像 …

人工智能 2023年7月31日
0029
Ubuntu 18.04 ——— VINS-Fusion运行与EVO的评测与使用

Ubuntu 18.04 ——— VINS-Fusion运行与EVO的评测与使用一、运行环境搭建 * 1. VINS-Fusion安装 – 1. 创建ros工作空间 …

人工智能 2023年6月1日
00102

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

kaldi中文语音识别(一)：multi_cn

大家都在看