kaldi中文语音识别(一):multi_cn

网上有很多用kaldi中的aishell,thchs30来做语音识别的。这两个方案的语音数据量都比较少,所以效果可能不够好。

这里采用multi_cn方案,它集合了所有openslr中开源的中文语音数据集。

1.先安装kaldi。

2.拷贝egs/wsj/s5下的steps和utils两个文件夹到egs/multi_cn/s5下

3.由于我们需要下载的数据量有点多,如果使用原下载链接速度可能较慢,所以修改一下run.sh脚本的url如下:

aidatatang_url=openslr.magicdatatech.com/resources/62
aishell_url=openslr.magicdatatech.com/resources/33
magicdata_url=openslr.magicdatatech.com/resources/68
primewords_url=openslr.magicdatatech.com/resources/47
stcmds_url=openslr.magicdatatech.com/resources/38
thchs_url=openslr.magicdatatech.com/resources/18

run.sh中的dbase参数时数据集的存放位置,结合自己习惯,自行修改一下。

修改完url你会发现速度基本能在500K-1M左右,因为wget是单线程下载的 这还是不够快啊。

安装aria2c,至于这么安装自己baidu一下。

然后找到s5/local文件夹下的下面六个文件

thchs_download_and_untar.sh
aidatatang_download_and_untar.sh
aishell_download_and_untar.sh
magicdata_download_and_untar.sh
primewords_download_and_untar.sh
stcmds_download_and_untar.sh

这六个文件夹中的每个文件夹中都有以下代码可供下载:

[En]

There is the following code in each of these six folders to download:

  cd $data
  if ! wget --no-check-certificate $full_url; then
    echo "$0: error executing wget $full_url"
    exit 1;
  fi

修改上述wget –no-check-certificate为aria2c -s 16 -x 16

OK,现在下载速度起飞。

3.执行bash run.sh

4.等待下载。

Original: https://blog.csdn.net/qq_25348431/article/details/112783249
Author: 克己|
Title: kaldi中文语音识别(一):multi_cn

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/515107/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球