用pytorch+CTC+WFST实现汉语语音识别

2023年5月25日上午7:14 • 人工智能 • 阅读 81

最近，我留出了很多时间来写我一直犹豫要写的智力理论，并做了一些语音识别的实验，所以我有了这个项目。

[En]

Recently, I have set aside a lot of time to write the intelligence theory that I have been hesitant to write, and to do some experiments with speech recognition, so I have this project.

语音识别实验比可选的工具有kaldi，wav2letter，espnet等，使用比较广泛工具是kaldi，但是对于前端语音处理的部分，我觉得kaldi所使用的HMM-GMM方式相当的不直观，Kaldi所使用的nnet神经网络也不是目前主流的深度学习工具。而kaldi创建者Daniel Povey要推出的与pytorch接口良好的kaldi新的版本也还没有出来。但是kaldi的WFST解码系统在处理文本模型的表现相当的出色，我想要的工具是pytorch处理语音前端，再加上WFST处理文本模型。
我在网上找了一下，找到了一个项目比较满足我的需求，它就是github上的eesen（https://github.com/isi-vista/eesen），eesen和传统kaldi处理方式对比如下：
传统的kaldi处理方式：
• Hidden Markov models (HMMs)
• Gaussian mixture models (GMMs)
• Decision trees and phonetic questions
• Dictionary, if characters are used as the modeling units
• …

eesen的处理方式：
• Acoustic Model — Bi-directional RNNs with LSTM units.

• Training — Connectionist temporal classification (CTC) as the training objective.

• Decoding — A principled decoding approach based on Weighted Finite-State Transducers (WFSTs).

eesen项目最近的更新已经是两年前，所使用的依赖库也比较早期，对于神经网络的处理还是使用nnet，所使用的例子也是英文。所以在github上我又参考了两个相关的项目，一个是ctc-asr（https://github.com/placebokkk/ctc-asr）和 eesen-for-thchs30（https://github.com/Sundy1219/eesen-for-thchs30），经过一段时间的调试，我做了第一个实验，语音处理前端使用pytorch处理，其输出是基于拼音的概率矩阵，然后用WFST处理得到文字输出。
注意：首先要安装好eesen，由于这个项目时间久远，支持的库比较老，我折腾了好久，我目前在ubuntu16.04上编译成功，cuda使用的9.2版本，pytorch我使用anaconda安装，使用版本的是python3.7，pytorch1.2，cuda9.2。
使用的实验语料是清华实验室提供的thchs30，安装好后首先要在before_run.sh中设置好thchs30语料的所在的目录，然后运行run-ctc.sh，如果要继续训练，需要将exp/train*/model/final.pt 复制到exp/init.pt，然后运行train_continue.sh.

项目访问地址https://github.com/lixinyu2001/eesen-pytorch-thchs30

Original: https://blog.csdn.net/m0_37135912/article/details/119259481
Author: lixinyu99
Title: 用pytorch+CTC+WFST实现汉语语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512848/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于产品的RFM模型的k-means聚类分析

首先我们可以看看数据集的数据形态：导入rfm数据，查看数据的统计学参数 df =pd.read_csv(‘rfm.csv’) df.describe() 在实施Kmeans聚类之前…

人工智能 2023年7月17日
0045
利用Anaconda安装、使用、配置jupyternotebook

目录 1. 引言 2. 安装anaconda 3. 安装pytorch环境 4. 安装jupyter 5. 检查运行jupyter 6. 修改jupyter的根目录引言 jupy…

人工智能 2023年7月23日
0067
详解torch.nn.utils.clip_grad_norm_ 的使用与原理

从上面文章可以看到， clip_grad_norm最后就是对所有的梯度乘以一个 clip_coef，而且乘的前提是 clip_coef一定是小于1的，所以，按照这个情况： clip…

人工智能 2023年7月26日
0042
Halcon深度学习常用算子及参数解释，完整流程（一）

前言 HALCON 提供了深度学习网络算子供开发人员使用，但是网上资料很多，对于一些基础性概念和解释以及流程并没有很清楚，本专栏着重讲述halcon深度学习的基本算子和概念，基础概…

人工智能 2023年7月10日
00107
SigmaStar星宸科技新推出嵌入式CPU–SSD212芯片，内置64MByte DDR，以太网MAC+PHY，USB2.0（主/从），嵌入式Linux/RTOS系统，支持LittleVGL开发

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月25日
0059
14-js正则表达式

正则表达式 RegularExpression，简称RegExp 规则表达式：用来检测字符串是否符合规则书写方式：由一些特殊符号按照指定语法书写语法：双斜杠 / ??? /&a…

人工智能 2023年6月26日
0051
【OpenCV 例程 300篇】249. 特征描述之视网膜算法（FREAK）

『youcans 的 OpenCV 例程300篇 – 总目录』【youcans 的 OpenCV 例程 300篇】249. 特征检测之视网膜算法（FREAK） 1. …

人工智能 2023年7月31日
0087
金融数值方法之回归计算-python实践

python的回归学习前言回归和插值是金融中常用的两种数学方法，本章将介绍关于回归的一些常用方法和代码。一、回归是什么回归是一种高效的求解函数近似值的工具，不仅对一维函数适…

人工智能 2023年6月17日
0078
tensorflow gpu版本最新安装方法(2021.06)

刚开始接触深度学习，因为有的教程是基于pytorch有的是基于tensorflow，前几天安装完成了pytorch，现在安装一下tensorflow，查看pytorch安装教程请移…

人工智能 2023年5月26日
0075
Python简单处理excel数据（拆分合并单元格、根据表头合并sheet、添加列数、添加内容操作）

简介：大量数据存于excel表中。利用python语言对按要求对存有数据的excel进行预处理，使其成为便于利用的整洁数据关键词： Python Excel openpyxl Pa…

人工智能 2023年7月15日
0096
基于tensorfolw与matplotlib实现的二元梯度下降法预测模型

最近嘛，在学tensorflow，就学到了梯度下降法，也用3D网格画图，途中遇到了不少问题，踩了一些坑，于是准备记录下来，其中有tensorflow的张量运算问题（和numpy的有…

人工智能 2023年5月25日
0056
三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

当前T2I模型的一大限制就是如何有效地融合文本和图像信息？目前常用的有特征拼接（features concatenation）、跨模态注意（cross-modal attenti…

人工智能 2023年6月16日
0063
数据清洗及特征处理

数据清洗及特征处理导入numpy、pandas包和数据 import numpy as np import pandas as pd df = pd.read_csv(‘trai…

人工智能 2023年7月8日
0071
[[概率论与数理统计-2]：随机函数、概率、概率函数、概率分布函数

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年7月2日
00107
Python之Tensorflow：生成均匀分布随机数

一、题目生成一个[0,1)之间均匀分布的随机数数组，包含1000个元素，随机种子为612。接收用户输入一个1-100之间的数字。打印随机数组中所有索引值可以被输入整数整除的数字…

人工智能 2023年5月26日
0060
遥感多光谱数据下载与预处理(一、数据选择下载)

首先说明本人并非专业大牛，不是教程贴只是记录一下学习过程和大家交流，过程有不严谨不合规范不对的地方欢迎各位大神指正。本人目前做过接触过最多的是多光谱遥感数据，也是与无人机、雷达、…

人工智能 2023年6月22日
0092

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

用pytorch+CTC+WFST实现汉语语音识别

大家都在看