端到端语音识别的espnet在cpu上aishell预训练模型中文语音配置跑通

2023年5月27日上午7:16 • 人工智能 • 阅读 57

系统环境

ubuntu 20.04 lts, 系统安装的python3默认为python3.8，我在海外的linode云主机测试的。

安装环境：

sudo apt update
sudo apt-get install python3 cmake sox libsndfile1-dev ffmpeg flac -y
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python3 get-pip.py
git clone https://github.com/espnet/espnet
cd espnet/tools
./setup_python.sh $(command -v python3)

fix bug on matplotlib

sudo apt-get install libfreetype6-dev -y
pip install torch==1.7.1 chainer==6.0.0 kaldiio espnet
make TH_VERSION=1.7.1 CPU_ONLY=0

安装实用工具

apt install lrzsz pcp

import soundfile
from espnet_model_zoo.downloader import ModelDownloader
from espnet2.bin.asr_inference import Speech2Text
d = ModelDownloader()
speech2text = Speech2Text(
**d.download_and_unpack("kamo-naoyuki/aishell_conformer"),
    # Decoding parameters are not included in the model file
    maxlenratio=0.0,
    minlenratio=0.0,
    beam_size=20,
    ctc_weight=0.3,
    lm_weight=0.5,
    penalty=0.0,
    nbest=1
)
audio, rate = soundfile.read("t.wav")
nbests = speech2text(audio)
text, *_ = nbests[0]
print(text)

性能：推理解码速度挺快，但和cpu有关，推理时8线程cpu全部占满，5秒出结果。

功能效果：

t.wav测试文件中我的原话是：”我说一句话，你给我识别一下看看，看效果怎么样”

识别后的中文为：”我说一句话你不要看看他说我什么样”

Original: https://blog.csdn.net/huxuanlai/article/details/111646193
Author: huxuanlai
Title: 端到端语音识别的espnet在cpu上aishell预训练模型中文语音配置跑通

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/524920/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Pytorch的神经网络之CNN

目录 1.引言 2.基本结构 2.1 输入层 2.2 卷积层 2.3 激励层 2.4 池化层 2.5 全连接层 3. 数字识别 3.1 搭建部分这里主要讲讲神经网络的搭建部分。 …

人工智能 2023年7月14日
0058
图像处理（一）图像灰度化的三种方式

图像处理的第一步操作基本都是进行灰度化，二灰度化的方式都很多种，可以根据自己的具体需要进行参数调整，基本分为四大种，分别为 YUV亮度灰度化、最大值灰度化、平均值灰度化、 Ga…

人工智能 2023年6月17日
0081
某集团大数据平台整体架构及实施方案

1—项目概述 14 1.1.1 集团已有基础 14 1.1.2 痛点及需提升的能力 14 1.1.3 大数据趋势 15 1.2.1 总体目标 15 1.2.2 分阶段建…

人工智能 2023年6月11日
00145
图像处理各种变换、运算、算法的简明原理、作用和应用场合

1 图像仿射变换原理：仿射变换就是图像的旋转、平移和缩放操作的统称，一个仿射变换可以表示为线性变换和平移变换的叠加。仿射变换的数学表示是先乘以一个线性变换矩阵再加上一个平移向量。应…

人工智能 2023年6月20日
0081
如何进行探索性数据分析

一般数据分析项目第一步都需要探索性数据分析。主要包括三个方面：使用描述性统计汇总数据使用图标可视化数据识别缺失值通过上述三个方面分析，可以在执行假设检验或统计模型之前对数据…

人工智能 2023年7月6日
0067
赶紧进来修内功!!! 详细讲解在内存中数据的存储方式(整形篇)

本文详细介绍了所有整形家族类型的取值范围;整形数据在内存中的存储方式(大小端存储方式)以及对应的解析,介绍讲解判断当前机器的存储方式代码练习题,掌握后编程基础更进一步牢固!!! 数…

人工智能 2023年5月30日
0093
win10跑深度学习程序无法调用gpu的问题（已解决）

win10跑深度学习真的是一言难尽，但是windows系统又使用的比较习惯，过去使用过ubuntu系统，里面写文档什么的确实不习惯，所以自己做的实验项目也主要是以win10为主工具…

人工智能 2023年7月6日
0058
Android 进程数据库更新时机

1.相关知识点：进程初始化顺序进程初始化顺序：ContentProvider(即数据库) > Application > Service；参考：https://www….

人工智能 2023年6月27日
0065
6.28大华笔试

上午刚做完大华提前批笔试，记录一下。笔试时间60分钟，13道题，10道选择填空+3道简答。题型跟在牛客看到的去年大家笔试的不太一样，没有编程题。 new delete 与mal…

人工智能 2023年5月26日
0082
反向传播算法在训练神经网络时有哪些常见的挑战和注意事项

问题描述在训练神经网络时，反向传播算法是一种常用的方法。请详细介绍反向传播算法在训练神经网络时面临的常见挑战和注意事项。包括算法原理、公式推导、计算步骤、复杂Python代码示例…

人工智能 2024年1月5日
0052
数据结构04

循环队列队列溢出后就是后面满了，就再从头开始，也就是头尾相接的循环。我们把队列的这种头尾相接的顺序存储结构称为循环队列。当队首指针 Q->front = MAXSIZE-…

人工智能 2023年6月27日
0069
python音频处理（持续更新）

准备工作：首先，我们需要 import 几个工具包，一个是 python 标准库中的 wave 模块，用于音频处理操作，另外两个是 numpy 和 matplot，提供数据处理函数…

人工智能 2023年5月25日
0083
安装好cuda和cudnn后，安装tensorflow的一些问题

安装cuda和cudnn 1.下载 2018-12-Windows-x86_64.exe 安装anaconda并以管理员身份启动anaconda prompt: 升级 pipcur…

人工智能 2023年5月25日
0067
OpenCV中霍夫直线检测相关函数详解

目录 1、HoughLines()函数 2、HoughLinesP()函数 3、HoughLinesPointSet()函数 4、fitLine()函数 1、HoughLines(…

人工智能 2023年7月19日
0054
windows下 C++ openCV配置及x86编译(傻瓜式教程)

本傻瓜教程需要的环境如下: IDE: vs2015或vs2017 , windows 10 或 11 vs2017下载地址如下: ①百度网盘链接：https://pan.baid…

人工智能 2023年6月19日
0081
目标检测-小目标检测技巧

目前阶段，目标检测对小目标的检测效果还不尽如人意，例如yolov5经过FPN后有三种输出尺寸，1919， 3838， 7676 ，最大的7676负责检测小目标,而对应到608608…

人工智能 2023年5月26日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

端到端语音识别的espnet在cpu上aishell预训练模型中文语音配置跑通

系统环境

安装环境：

fix bug on matplotlib

安装实用工具

大家都在看