基于Python的深度学习的中文语音识别系统

2023年5月25日上午7:33 • 人工智能 • 阅读 80

1. Introduction

该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模，其中声学模型包括 CNN-CTC、GRU-CTC、CNN-RNN-CTC，语言模型包含 transformer、CBHG，数据集包含 stc、primewords、Aishell、thchs30 四个数据集。

 the  0 th example.

&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A; lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A; lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A; &#x7EFF;&#x662F;&#x9633;&#x6625;&#x70DF;&#x666F;&#x5927;&#x5757;&#x6587;&#x7AE0;&#x7684;&#x5E95;&#x8272;&#x56DB;&#x6708;&#x7684;&#x6797;&#x5CE6;&#x66F4;&#x662F;&#x7EFF;&#x5F97;&#x9C9C;&#x6D3B;&#x79C0;&#x5A9A;&#x8BD7;&#x610F;&#x76CE;&#x7136;
&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A; &#x7EFF;&#x662F;&#x9633;&#x6625;&#x70DF;&#x666F;&#x5927;&#x5757;&#x6587;&#x7AE0;&#x7684;&#x5E95;&#x8272;&#x56DB;&#x6708;&#x7684;&#x6797;&#x5CE6;&#x66F4;&#x662F;&#x7EFF;&#x5F97;&#x9C9C;&#x6D3B;&#x79C0;&#x5A9A;&#x8BD7;&#x610F;&#x76CE;&#x7136;

如果您构建自己的模型，则需要删除现有模型，重新配置参数Trading，具体实现过程参考本页末尾。

[En]

If you build your own model, you need to delete the existing model, reconfigure the parameter training, the specific implementation process refer to the end of this page.

2. 声学模型

声学模型采用 CTC 进行建模，采用 CNN-CTC、GRU-CTC、FSMN 等模型 model_speech，采用 keras 作为编写框架。

3. 语言模型

新增基于 self-attention 结构的语言模型 model_language\transformer.py，该模型已经被证明有强于其他框架的语言表达能力。

基于 CBHG 结构的语言模型 model_language\cbhg.py，该模型之前用于谷歌声音合成，移植到该项目中作为基于神经网络的语言模型。

4. 数据集

Nametraindevtestaishell120098143267176primewords4078350465073thchs-30100008932495st-cmd100006002000

数据标签整理在 data 路径下，其中 primewords、st-cmd 目前未区分训练集测试集。

若需要使用所有数据集，只需解压到统一路径下，然后设置 utils.py 中 datapath 的路径即可。

与数据相关参数在 utils.py 中：

data_type: train, test, dev
data_path: 对应解压数据的路径
thchs30, aishell, prime, stcmd: 是否使用该数据集
batch_size: batch_size
data_length: 我自己做实验时写小一些看效果用的，正常使用设为 None 即可
shuffle：正常训练设为 True，是否打乱训练顺序

def data_hparams():
    params = tf.contrib.training.HParams(

        data_type = 'train',
        data_path = 'data/',
        thchs30 = True,
        aishell = True,
        prime = False,
        stcmd = False,
        batch_size = 1,
        data_length = None,
        shuffle = False)
      return params

5. 配置

使用 train.py 文件进行模型的训练。

声学模型可选 cnn-ctc、gru-ctc，只需修改导入路径即可：

from model_speech.cnn_ctc import Am, am_hparams

from model_speech.gru_ctc import Am, am_hparams

语言模型可选 transformer 和 cbhg:

from model_language.transformer import Lm, lm_hparams

from model_language.cbhg import Lm, lm_hparams

使用 test.py 检查模型识别效果。
模型选择需和训练一致。

the_inputs (InputLayer) (None, None, 200, 1) 0

conv2d_11 (Conv2D) (None, None, 200, 32) 320

batch_normalization_11 (Batc (None, None, 200, 32) 128

conv2d_12 (Conv2D) (None, None, 200, 32) 9248

batch_normalization_12 (Batc (None, None, 200, 32) 128

max_pooling2d_4 (MaxPooling2 (None, None, 100, 32) 0

conv2d_13 (Conv2D) (None, None, 100, 64) 18496

batch_normalization_13 (Batc (None, None, 100, 64) 256

conv2d_14 (Conv2D) (None, None, 100, 64) 36928

batch_normalization_14 (Batc (None, None, 100, 64) 256

max_pooling2d_5 (MaxPooling2 (None, None, 50, 64) 0

conv2d_15 (Conv2D) (None, None, 50, 128) 73856

batch_normalization_15 (Batc (None, None, 50, 128) 512

conv2d_16 (Conv2D) (None, None, 50, 128) 147584

batch_normalization_16 (Batc (None, None, 50, 128) 512

max_pooling2d_6 (MaxPooling2 (None, None, 25, 128) 0

conv2d_17 (Conv2D) (None, None, 25, 128) 147584

batch_normalization_17 (Batc (None, None, 25, 128) 512

conv2d_18 (Conv2D) (None, None, 25, 128) 147584

batch_normalization_18 (Batc (None, None, 25, 128) 512

conv2d_19 (Conv2D) (None, None, 25, 128) 147584

batch_normalization_19 (Batc (None, None, 25, 128) 512

conv2d_20 (Conv2D) (None, None, 25, 128) 147584

batch_normalization_20 (Batc (None, None, 25, 128) 512

reshape_2 (Reshape) (None, None, 3200) 0

dense_3 (Dense) (None, None, 256) 819456

Total params: 1,759,174
Trainable params: 1,757,254
Non-trainable params: 1,920

loading acoustic model…

loading language model…

INFO:tensorflow:Restoring parameters from logs_lm/model


## &#x4F7F;&#x7528;&#x8BED;&#x97F3;&#x8BC6;&#x522B;&#x7CFB;&#x7EDF;

`python

for i in range(5):
    print('\n the ', i, 'th example.')
    # &#x8F7D;&#x5165;&#x8BAD;&#x7EC3;&#x597D;&#x7684;&#x6A21;&#x578B;&#xFF0C;&#x5E76;&#x8FDB;&#x884C;&#x8BC6;&#x522B;
    inputs, outputs = next(am_batch)
    x = inputs['the_inputs']
    y = inputs['the_labels'][0]
    result = am.model.predict(x, steps=1)
    # &#x5C06;&#x6570;&#x5B57;&#x7ED3;&#x679C;&#x8F6C;&#x5316;&#x4E3A;&#x6587;&#x672C;&#x7ED3;&#x679C;
    _, text = decode_ctc(result, train_data.am_vocab)
    text = ' '.join(text)
    print('&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A;', text)
    print('&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A;', ' '.join([train_data.am_vocab[int(i)] for i in y]))
    with sess.as_default():
        _, y = next(lm_batch)
        text = text.strip('\n').split(' ')
        x = np.array([train_data.pny_vocab.index(pny) for pny in text])
        x = x.reshape(1, -1)
        preds = sess.run(lm.preds, {lm.x: x})
        got = ''.join(train_data.han_vocab[idx] for idx in preds[0])
        print('&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A;', ''.join(train_data.han_vocab[idx] for idx in y[0]))
        print('&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A;', got)
sess.close()

 the  0 th example.

&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A; lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A; lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A; &#x7EFF;&#x662F;&#x9633;&#x6625;&#x70DF;&#x666F;&#x5927;&#x5757;&#x6587;&#x7AE0;&#x7684;&#x5E95;&#x8272;&#x56DB;&#x6708;&#x7684;&#x6797;&#x5CE6;&#x66F4;&#x662F;&#x7EFF;&#x5F97;&#x9C9C;&#x6D3B;&#x79C0;&#x5A9A;&#x8BD7;&#x610F;&#x76CE;&#x7136;
&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A; &#x7EFF;&#x662F;&#x9633;&#x6625;&#x70DF;&#x666F;&#x5927;&#x5757;&#x6587;&#x7AE0;&#x7684;&#x5E95;&#x8272;&#x56DB;&#x6708;&#x7684;&#x6797;&#x5CE6;&#x66F4;&#x662F;&#x7EFF;&#x5F97;&#x9C9C;&#x6D3B;&#x79C0;&#x5A9A;&#x8BD7;&#x610F;&#x76CE;&#x7136;

 the  1 th example.

&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A; ta1 jin3 ping2 yao1 bu4 de li4 liang4 zai4 yong3 dao4 shang4 xia4 fan1 teng2 yong3 dong4 she2 xing2 zhuang4 ru2 hai3 tun2 yi4 zhi2 yi3 yi1 tou2 de you1 shi4 ling3 xian1
&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A; ta1 jin3 ping2 yao1 bu4 de li4 liang4 zai4 yong3 dao4 shang4 xia4 fan1 teng2 yong3 dong4 she2 xing2 zhuang4 ru2 hai3 tun2 yi4 zhi2 yi3 yi1 tou2 de you1 shi4 ling3 xian1
&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A; &#x4ED6;&#x4EC5;&#x51ED;&#x8170;&#x90E8;&#x7684;&#x529B;&#x91CF;&#x5728;&#x6CF3;&#x9053;&#x4E0A;&#x4E0B;&#x7FFB;&#x817E;&#x86F9;&#x52A8;&#x86C7;&#x884C;&#x72B6;&#x5982;&#x6D77;&#x8C5A;&#x4E00;&#x76F4;&#x4EE5;&#x4E00;&#x5934;&#x7684;&#x4F18;&#x52BF;&#x9886;&#x5148;
&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A; &#x4ED6;&#x4EC5;&#x51ED;&#x8170;&#x90E8;&#x7684;&#x529B;&#x91CF;&#x5728;&#x6CF3;&#x9053;&#x4E0A;&#x4E0B;&#x7FFB;&#x817E;&#x86F9;&#x52A8;&#x86C7;&#x884C;&#x72B6;&#x5982;&#x6D77;&#x8C5A;&#x4E00;&#x76F4;&#x4EE5;&#x4E00;&#x5934;&#x7684;&#x4F18;&#x52BF;&#x9886;&#x5148;

 the  2 th example.

&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A; pao4 yan3 da3 hao3 le zha4 yao4 zen3 me zhuang1 yue4 zheng4 cai2 yao3 le yao3 ya2 shu1 di4 tuo1 qu4 yi1 fu2 guang1 bang3 zi chong1 jin4 le shui3 cuan4 dong4
&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A; pao4 yan3 da3 hao3 le zha4 yao4 zen3 me zhuang1 yue4 zheng4 cai2 yao3 le yao3 ya2 shu1 di4 tuo1 qu4 yi1 fu2 guang1 bang3 zi chong1 jin4 le shui3 cuan4 dong4
&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A; &#x70AE;&#x773C;&#x6253;&#x597D;&#x4E86;&#x70B8;&#x836F;&#x600E;&#x4E48;&#x88C5;&#x5CB3;&#x6B63;&#x624D;&#x54AC;&#x4E86;&#x54AC;&#x7259;&#x500F;&#x5730;&#x8131;&#x53BB;&#x8863;&#x670D;&#x5149;&#x8180;&#x5B50;&#x51B2;&#x8FDB;&#x4E86;&#x6C34;&#x7A9C;&#x6D1E;
&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A; &#x70AE;&#x773C;&#x6253;&#x597D;&#x4E86;&#x70B8;&#x836F;&#x600E;&#x4E48;&#x88C5;&#x5CB3;&#x6B63;&#x624D;&#x54AC;&#x4E86;&#x54AC;&#x7259;&#x500F;&#x5730;&#x8131;&#x53BB;&#x8863;&#x670D;&#x5149;&#x8180;&#x5B50;&#x51B2;&#x8FDB;&#x4E86;&#x6C34;&#x7A9C;&#x6D1E;

 the  3 th example.

&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A; ke3 shei2 zhi1 wen2 wan2 hou4 ta1 yi1 zhao4 jing4 zi zhi1 jian4 zuo3 xia4 yan3 jian3 de xian4 you4 cu1 you4 hei1 yu3 you4 ce4 ming2 xian3 bu2 dui4 cheng1
&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A; ke3 shei2 zhi1 wen2 wan2 hou4 ta1 yi1 zhao4 jing4 zi zhi1 jian4 zuo3 xia4 yan3 jian3 de xian4 you4 cu1 you4 hei1 yu3 you4 ce4 ming2 xian3 bu2 dui4 cheng1
&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A; &#x53EF;&#x8C01;&#x77E5;&#x7EB9;&#x5B8C;&#x540E;&#x5979;&#x4E00;&#x7167;&#x955C;&#x5B50;&#x53EA;&#x89C1;&#x5DE6;&#x4E0B;&#x773C;&#x7751;&#x7684;&#x7EBF;&#x53C8;&#x7C97;&#x53C8;&#x9ED1;&#x4E0E;&#x53F3;&#x4FA7;&#x660E;&#x663E;&#x4E0D;&#x5BF9;&#x79F0;
&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A; &#x53EF;&#x8C01;&#x77E5;&#x7EB9;&#x5B8C;&#x540E;&#x5979;&#x4E00;&#x7167;&#x955C;&#x5B50;&#x77E5;&#x89C1;&#x5DE6;&#x4E0B;&#x773C;&#x7751;&#x7684;&#x7EBF;&#x53F3;&#x7C97;&#x53F3;&#x9ED1;&#x4E0E;&#x53F3;&#x4FA7;&#x660E;&#x663E;&#x4E0D;&#x5BF9;&#x79F0;

 the  4 th example.

&#x6587;&#x672C;&#x7ED3;&#x679C;&#xFF1A; yi1 jin4 men2 wo3 bei4 jing1 dai1 le zhe4 hu4 ming2 jiao4 pang2 ji2 de lao3 nong2 shi4 kang4 mei3 yuan2 chao2 fu4 shang1 hui2 xiang1 de lao3 bing1 qi1 zi3 chang2 nian2 you3 bing4 jia1 tu2 si4 bi4 yi1 pin2 ru2 xi3
&#x539F;&#x6587;&#x7ED3;&#x679C;&#xFF1A; yi1 jin4 men2 wo3 bei4 jing1 dai1 le zhe4 hu4 ming2 jiao4 pang2 ji2 de lao3 nong2 shi4 kang4 mei3 yuan2 chao2 fu4 shang1 hui2 xiang1 de lao3 bing1 qi1 zi3 chang2 nian2 you3 bing4 jia1 tu2 si4 bi4 yi1 pin2 ru2 xi3
&#x539F;&#x6587;&#x6C49;&#x5B57;&#xFF1A; &#x4E00;&#x8FDB;&#x95E8;&#x6211;&#x88AB;&#x60CA;&#x5446;&#x4E86;&#x8FD9;&#x6237;&#x540D;&#x53EB;&#x5E9E;&#x5409;&#x7684;&#x8001;&#x519C;&#x662F;&#x6297;&#x7F8E;&#x63F4;&#x671D;&#x8D1F;&#x4F24;&#x56DE;&#x4E61;&#x7684;&#x8001;&#x5175;&#x59BB;&#x5B50;&#x957F;&#x5E74;&#x6709;&#x75C5;&#x5BB6;&#x5F92;&#x56DB;&#x58C1;&#x4E00;&#x8D2B;&#x5982;&#x6D17;
&#x8BC6;&#x522B;&#x7ED3;&#x679C;&#xFF1A; &#x4E00;&#x8FDB;&#x95E8;&#x6211;&#x88AB;&#x60CA;&#x5446;&#x4E86;&#x8FD9;&#x6237;&#x540D;&#x53EB;&#x5E9E;&#x5409;&#x7684;&#x8001;&#x519C;&#x662F;&#x6297;&#x7F8E;&#x63F4;&#x671D;&#x8D1F;&#x4F24;&#x56DE;&#x4E61;&#x7684;&#x8001;&#x5175;&#x59BB;&#x5B50;&#x957F;&#x5E74;&#x6709;&#x75C5;&#x5BB6;&#x5F92;&#x56DB;&#x58C1;&#x4E00;&#x8D2B;&#x5982;&#x6D17;

Original: https://blog.csdn.net/newlw/article/details/122512802
Author: biyezuopinvip
Title: 基于Python的深度学习的中文语音识别系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512910/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于深度学习的恶意代码分类（一）

基于深度学习的恶意代码分类序言由于本学期课程的安排，所以不得不将深度学习和网络攻防的知识进行结合，因此，对本门课程的学习进行一个记录，下面是学习的相关知识的过程，仅为本人个人理…

人工智能 2023年7月3日
0098
深度学习之图像分类（十一）–MobileNetV2 网络结构

深度学习之图像分类（十一）MobileNetV2 网络结构目录 * – 深度学习之图像分类（十一）MobileNetV2 网络结构 – + 1. 前言 +…

人工智能 2023年7月21日
0066
关于allegro找不到env文件解决方法

使用allegro的友人时对于env文件并不陌生。在我们设计的过程中经常使用env文件设置快捷键从而达到快速拉线的目的。但是新安装的allegro软件中会找不到env文件，因为今天…

人工智能 2023年6月4日
0083
k-means聚类算法及其优化

欢迎关注笔者的微信公众号在机器学习中有这样一种场景，需要对已知数据按照一定的关系归到不同的类别中（无监督） k-means是比较流行的聚类方法其基本算法流程如下：随机设置K个…

人工智能 2023年5月31日
0082
EasyX 图片透明设置

屏蔽图/掩码图：目的就是使位图背景透明。 SRCAND 目标图像 = 目标图像 AND 源图像 SRCPAINT 目标图像 = 目标图像 OR 源图像原图：黑底彩图屏蔽图：白…

人工智能 2023年6月20日
0085
如何通过.exe文件控制一台电脑

CVE-2022-21999漏洞如何实现发送一个.exe文件偷偷控制他人的电脑？这个想法很刑的，所以我只是说明我的实现方式，具体操作建议仅用于hvv等专业领域，请勿以身试法。首…

人工智能 2023年7月30日
0058
Windows安装Anaconda，创建pytorch环境，pycharm配置环境

目录 1、简介 2、安装Anaconda 3、创建一个独立的环境 4、安装依赖的库 5、安装pytorch 6、pycharm中使用conda环境 7、到这里安装就结束了，希望对您…

人工智能 2023年7月22日
0078
技巧派：linux帮忙可视化前预处理

技巧派是一个新篇章。渐渐发觉，计算机这个行当里，排斥着光说不练的假把式，凡事都要手底下见真章。而真章下除了日以继夜的付出、保持好奇心、还有就是一些个小技巧。事情那么多，一件事如…

人工智能 2023年6月11日
0075
使用 OpenCV 在 Python 中检测图像中的形状

import cv2 import numpy as np from matplotlib import pyplot as plt # reading image img = c…

人工智能 2023年7月18日
0089
Mahout实践：Mahout分类算法-11

Mahout实践：Mahout 分类算法 1、实验描述本实验在Hadoop集群已经部署的前提下，使得mahout运行local模式下，然后做mahout的分类算法分析。实验时长…

人工智能 2023年7月2日
0082
Python基础之lambda表达式

1、lambda函数介绍 2、lambda函数与def函数的区别 3、lambda案例 4、map方法混搭有时在使用函数时不需要给函数分配一个名称，该函数就是”匿名函…

人工智能 2023年7月3日
0073
在neo4j中导入owl文件

我的neo4j版本为4.3.7社区版，注意3版本和4版本的设置不一样。 1.提前准备： 1.1下载相关jar包，用于neo4j使用owl文件下载扩展neosemantics ja…

人工智能 2023年6月1日
0096
机器学习——K近邻算法及乳腺癌检测分类

一、引言 KNN 可用于分类和回归，用于分类时是多分类方法。注意:由于此方法根据预测点近邻的各类点的个数多少来确定该预测点的类别，因此原始类别数据不均衡，将严重影响最终分类效果。…

人工智能 2023年7月1日
0097
selenium用法详解【从入门到实战】【Python爬虫】【4万字】

👉跳转文末👈 获取实战源码与作者联系方式，共同学习进步文章目录 * – 简介 – selenium安装 – 安装浏览器驱动 –…

人工智能 2023年7月29日
00158
R3LIVE(升级R2LIVE)：编译与运行

R3LIVE相关参考：R3LIVE(升级R2LIVE)：编译与运行https://blog.csdn.net/handily_1/article/details/122271243…

人工智能 2023年5月26日
00167
回归的误差服从正态分布吗_环研 | 回归要求因变量正态分布？高中数学选修23落泪…

看到这条推送的小可爱们新年快乐！本推送过于数学，看不懂的小伙伴划到最后给我点个赞再看里评论一个不明觉厉就行。上周做环研作业，题目是探究二氧化碳排放的主要影响因素。有同学跟我说…

人工智能 2023年6月18日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31