语音识别开源项目汇总

2023年5月25日上午8:15 • 人工智能 • 阅读 75

语音识别技术随着神经网络的兴起和发展，准确率得到了很大的改善，在很多场景下都可以逐步商用落地了，很多公司也组建了语音团队。其实在github上，语音识别相关的项目也是层出不穷，其中的一些项目的质量很高，如果好好借鉴学习的话可以避免从头造轮子，毕竟造轮子也不是那么容易的 = =！。在这里，对一些比较流行的项目做一些汇总和简单介绍。

1.1 kaldi

最流行的语音识别工具包，不过比较古老了，在神经网络时代有些落后，目前作者Daniel Povey 在小米在major update，期待下一代kaldi

1.2 espnet

espnet是基于pytorch的端到端语音工具包，不仅包括ASR还包括了TTS。espnet使用kaldi进行特征提取等，espnet2不再依赖kaldi，不过espnet2下的recipe还不是很多。espnet和kaldi一样有很多egs，并且包括了各种主流的端到端方法，比如CTC，RNN-T, Transformer等。是学习试验端到端方法很好的工具。

1.3 其他

出门问问开源的ASR toolkit，实现了 Unified Two Pass (U2) 流式和非流式端到端模型，基于pytorch，可以同时部署在服务器和端上。有aishell-1的例子，中文语音识别可以学习借鉴

C++实现的语音识别框架，运行效率高

用pytorch代替了kaldi中的神经网络部分，特征提取和解码等还是使用kaldi，没在维护了

tensorflow实现的一些端到端模型，没在维护了

pytorch实现的transformer中文语音识别（aishell）

2.1 ARM-KWS

arm开源的在他们mcu上的kws，英文识别，输出的单元整个英文WORD

2.2 kws（你好小瓜）

西工大张彬彬开源的中文唤醒(你好小瓜)，中文语音唤醒可以借鉴，采用fbank + dnn + fst的方案。

Original: https://blog.csdn.net/u013498583/article/details/113752657
Author: yuchiwang
Title: 语音识别开源项目汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513068/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言使用＜-操作符创建新的变量、使用attach函数绑定数据、直接使用两个数据列名称通过加和创建新的数据列（sum variables to make new featurs in datafram

好的，我来给你讲解一下。首先，我们需要使用 pandas 库来处理数据。假设我们有一个名为 df 的数据_表，我们可以 _使用_以下代码来 _创建_市局透视表和交叉表： p…

人工智能 2023年7月18日
0046
机器学习之支持向量机（SVM）的求解方法

文章目录前言梯度下降法 SMO算法参考前言支持向量机就是寻找一个超平面，将不同的样本分分隔开来，其中间隔分为硬间隔和软间隔，硬间隔就是不允许样本分错，而软间隔就是允许一定…

人工智能 2023年6月15日
00179
2022最新软件测试八股文，能不能拿心仪Offer就看你背得怎样了

前言鉴于目前测试就业越来越严峻，内卷也成了测试领域的代名词了。我的一个HR朋友告诉我，由于门槛较低，现在普通测试岗（偏功能）的投递比已经将近100，也就是一个岗位差不多有百分简历…

人工智能 2023年7月3日
00106
kaggle竞赛-树叶图片分类项目

数据集：176种树叶，27152张图片，其中训练集18353张，测试集8799张。准备工作环境：Windows11+Pytorch 1.12.0+Jupyter noteboo…

人工智能 2023年6月20日
00174
基于强化学习的图像配准 – Image Registration: Reinforcement Learning Approaches

配准定义给定参考图像 I_f 和浮动图像 I_m ，所谓的配准就是寻找一个图像变换T，将浮动图像I_m变换到和 I_f 相同的坐标空间下，使得两个图像中对应的点处于同一坐标下，从…

人工智能 2023年5月28日
00101
Python+Opencv实现图像匹配——模板匹配

1、原理简单来说，模板匹配就是拿一个模板（图片）在目标图片上依次滑动，每次计算模板与模板下方的子图的相似度，最后就计算出了非常多的相似度；如果只是单个目标的匹配，那只需要取相似度…

人工智能 2023年7月24日
0082
yolov5使用tensorboard可视化训练结果

tensorboard可视化可以实时跟进训练情况话不多说，直接记录！！！yolov5的可视化第一步找到yolo.py文件，将里面关于tensorboard的部分注释掉，如下图第二…

人工智能 2023年7月21日
00115
MATLAB仿真实现图像去噪

摘要数字图像处理是一门新兴技术，随着计算机硬件的发展，其处理能力的不断增强，数字图像的实时处理已经成为可能。由于数字图像处理的各种算法的出现，图像处理学科在飞速发展的同时逐渐向其…

人工智能 2023年7月18日
0066
100天精通Python（爬虫篇）——第43天：爬虫入门知识

### 回答1：这个问题的意思是询问一个学习 Python_数据分析的 _100 天_计划，我的回答如下： _Python_数据分析是非常重要的技能之一，学习它需要长时间的实践和…

人工智能 2023年7月5日
0082
《自然语言处理实战入门》基于知识图谱的问答机器人 —- KBQA

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0080
C++ 灰度图像伪彩色处理

真彩色是指影像中的物体颜色和人类肉眼所见的颜色非常相似。在黑白影像中全彩则是指物体的明亮程度。但因为颜色染料等媒体的化学等性质和人类肉眼不同，因此不可能得到绝对的真彩色。伪彩色的…

人工智能 2023年6月22日
0096
（理论+代码）K-Means与DBSCAN聚类算法

文章目录一、基本概念二、K-Means * 2.1 基本步骤与流程 2.2 代码实现 – 2.2.1 手写python代码实现 2.2.2 算法优化 + 2.2.2…

人工智能 2023年6月2日
0084
双目深度算法——双目深度算法总结

双目深度算法——双目深度算法总结双目深度算法——双目深度算法总结双目深度算法——双目深度算法总结之前在工作上有接触过一些双目深度算法，但是当时限于精力有限没有对这类算法进行一…

人工智能 2023年6月24日
0077
【java】IO流

文章目录 File类 * File类概述和构造方法 File类创建功能 File类判断和获取功能 File类删除功能递归递归+File：案例–遍历目录 IO流 * …

人工智能 2023年6月27日
0075
语音识别的一些开源项目整理

1、语音识别主流工具包（1）ESPNET 推荐指数：★★★★★ star数量：4.4k 工具特点：支持多个语音任务，支持多个ASR端到端系统，当前最活跃的语音开源社区，是第三代端…

人工智能 2023年5月25日
0060
超详细整理Detectron2目标检测源码在Win10下的环境配置

超详细整理Detectron2目标检测源码在Win10下的环境配置 Welcome to unique_Hang’s blog. 鲁迅说过：看unique_Hang博客…

人工智能 2023年7月10日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31