离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

2023年5月25日上午6:58 • 人工智能 • 阅读 95

文章大纲

简介
*
语音识别基础
语音识别分类
安装 Sphinx
*
zh-CN 普通话识别配置
普通话识别效果测试
安装paddlepaddle
*
注意事项
验证安装
模型下载
PaddlePaddle ASR toolkit
参考文献

; 简介

本文主要针对中文语音识别问题，选用常用的模型进行离线 demo 搭建及实践说明。

语音识别基础

语音识别技术是允许机器通过识别和理解的过程将语音信号转换成相应的文本或命令的技术。

[En]

Speech recognition technology is the technology that allows the machine to transform the speech signal into the corresponding text or command through the process of recognition and understanding.

语音识别本质上是一个模式识别的过程。将未知语音的模式与已知语音的参考模式逐一进行比较，并将最佳匹配的参考模式作为识别结果。

[En]

speech recognition is essentially a process of pattern recognition. The pattern of unknown speech is compared with the reference pattern of known speech one by one, and the best matching reference pattern is taken as the recognition result.*
语音识别的目的是让机器给人听觉特征，听懂人说的话，并相应地采取行动。目前，从语音生成机制的角度来看，大多数语音识别技术都是基于统计模式的。
[En]
the purpose of speech recognition is to enable the machine to give people the auditory characteristics, understand what people say, and act accordingly. At present, most speech recognition technologies are based on statistical mode, from the point of view of speech generation mechanism.*

Original: https://blog.csdn.net/wangyaninglm/article/details/118416865
Author: shiter
Title: 离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512785/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

transformer学习之位置编码

参考原文➡️Transformer Architecture: The Positional Encoding 文章目录 * – + 题目 + * 位置编码（POSIT…

人工智能 2023年7月14日
0088
深度学习之图像分类（十二）–MobileNetV3网络结构

深度学习之图像分类（十二）MobileNetV3 网络结构目录 * – 深度学习之图像分类（十二）MobileNetV3 网络结构 – + 1. 前言 +…

人工智能 2023年7月23日
0053
基于Windows中学习Deep Learning之搭建Anaconda+Cudnn+Cuda+Pytorch+Pycharm工具和配置环境完整最简版

基于Windows中学习Deep Learning之搭建Anaconda+Cudnn+Cuda+Pytorch+Pycharm工具和配置环境完整最简版一、思路和目的 Pytorc…

人工智能 2023年7月23日
0061
【目标检测】【边界框回归】Bounding-Box regression

最近开始看目标检测的论文，第一篇为R-CNN论文，是两阶段目标检测的开山奠基之作。论文中的损失函数包含了边界框回归，且在R-CNN论文里面有详细的介绍。一、为什么要做边界框回归？…

人工智能 2023年6月17日
0071
pandas.replace的用法

pandas.replace()介绍 pandas.Series.replace 官方文档 Series.replace(to_replace=None, value=NoDefa…

人工智能 2023年7月6日
0084
【问题解决】训练和验证准确率很高，但测试准确率很低

前情提要：采用ResNet50预训练模型训练自己的图像分类模型。训练和验证阶段准确率很高，但随机输入一张图片时，大多数情况下依旧预测得不准确。 (于是开始搜索各种”验…

人工智能 2023年6月24日
0082
常见的图像增强方法

上一篇文章已经介绍了opencv和PIL怎么去读图和他们两者的区别，那它们两个还有啥别的能力吗，不能就只会读个图吧，当然不会，他们还可以对图像做一些处理。这些处理可以我统称为aug…

人工智能 2023年7月20日
0045
语音 AI 技术简介

语音 AI 技术（e.g. 语音识别、语音合成）是人工智能重要的研究和应用方向。但是，不同于 CV、NLP 等”显学”，语音相关的从业人员（学界和业界）相对…

人工智能 2023年5月25日
0089
pandas读写csv

pandas python提供了csv库专门用于csv文件的读写，但它的功能不是很强大。而pandas则弥补了这些问题：有专门支持读取csv文件的pd.read_csv()函数…

人工智能 2023年7月8日
0068
java计算机毕业设计智能道路交通管理系统源代码+系统+数据库+lw文档

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0089
监督学习（回归、分类问题）与无监督学习（聚类问题）

在机器学习中，根据训练的样本是否具备标签Label，或者是否对样本数据进行类别标记，分为方式和方式。简单来说，监督学习方式需要事先准备样本数据，这些样本数据具备标签（Labe…

人工智能 2023年6月2日
00132
R语言pmax函数和pmin函数按位计算向量最大值、最小值实战

R语言pmax函数和pmin函数按位计算向量最大值、最小值实战目录 R语言pmax函数和pmin函数按位计算向量最大值、最小值实战 #基本语法< Original: htt…

人工智能 2023年5月31日
0067
问题解决：Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the

pytorch训练过程中出现如题错误的解决方案常规解决方案从报错问题描述中可以找到错误原因输入的数据类型为 torch.cuda.FloatTensor，说明输入数据在GPU…

人工智能 2023年7月21日
0052
语音预处理之分帧加窗

对于成帧窗口，可以分为三个步骤。第一步是找出为什么有必要设置窗口化。第三步是弄清楚如何实现成帧和窗口化操作。最后是代码实现。 [En] For framing windowing,…

人工智能 2023年5月27日
0081
【云原生】Apache Livy on k8s 讲解与实战操作

文章目录 * – 一、概述 – 二、开始编排部署 – + 1）部署包准备 + 1）构建镜像 + 2）创建livy chart模板 + 3）修改y…

人工智能 2023年6月29日
0074
关于pytorch nn.KLDivLoss()损失计算loss值为负数的原因

原因1：预测值和标签值都需要进行softmax归一化处理原因2：预测值还需要再进行log计算，标签值不需要 KL散度 KL散度，又叫相对熵，用于衡量两个分布（离散分布和连续分布）…

人工智能 2023年6月24日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

文章大纲

语音识别基础

大家都在看