python基于PocketSphinx实现简单语音识别

2023年5月25日下午6:47 • 人工智能 • 阅读 91

一、实现环境

系统环境：win 10

编译环境：Pycharm 2020.1.4 x64

编程语言：python 3.8.3

依赖库的版本：

SpeechRecognition 3.8.1
PocketSphinx 0.1.15
PyAudio 0.2.11
Numpy 1.18.1
Scipy 1.5.1
wave 0.0.2

如果识别后需要电子语音反馈，还需要安装：

[En]

If you need electronic voice feedback after recognition, you also need to install:

playsound 1.2.2
pyttsx3 2.90

二、实现思路：

三、具体实现步骤：

通过 pyaudio 和 scipy.fftpack 实现；

运用双门限法进行音频有效值提取；( 这段代码真的很感谢 rocketeerLi 大神的分享，音频的预处理实在是困扰了我好久，直到看到了 rocketeerLi 大神的文章才解决了我将数学函数代码化的问题 )

原理文章：

关于这一步，基本上有相关的教程。我不会在这里重复它们。你可以自己在互联网上找到教程。

[En]

There are basically related tutorials on this step. I will not repeat them here. You can find tutorials on the Internet on your own.

在这一步你必须要有耐心！你必须要有耐心！你必须要有耐心！

[En]

You must be patient in this step! You must be patient! You must be patient!

循序渐进才能做到，一定要有耐心！

[En]

Follow the steps step by step can be done, must be patient!

找到 SpeechRecognition 安装位置，例如我的安装位置为：C:\Users\hp\AppData\Local\Programs\Python\Python37\Lib\site-packages\speech_recognition
打开 pocketsphinx-data 文件夹，会发现里面有一个名为 en-US 的文件夹，这个文件夹就是 PocketSphinx 的识别库；
CMU Sphinx 打开此网站，找到 Mandarin 点进去并下载其中的压缩包并解压；
解压并得到 “cmusphinx-zh-cn-5.2” 文件夹，在其中找到 zh_cn.dic 文件，以记事本打开，因为数据量比较大，所以打开的时候可能会卡顿一下。这个文件就是中文的对照表，一定要保存好；
在桌面新建一个文件夹，并在里面创建一个名为 command.txt 的文件，在文件中写下你想要定义的中文词汇，例如：

开门
西瓜开门

Sphinx Knowledge Base Tool – VERSION 3 打开此网站，上传刚刚我们写好的 txt 文件并点击 “COMPILE KNOWLEDGE BASE” 按钮，跳转到新页面后，点击最后一个文件，网页将会自动下载，下载好后解压到桌面；
选取文件类型为 “dic”、”lm” 的两个文件剪切到刚刚创建 txt 的文件夹下，将两个文件分别重命名为：

language-model.lm.bin
pronounciation-dictionary.dict

打开之前的中文对照表 “zh_cn.dic” 文件，打开我们刚刚改名的 “pronounciation-dictionary.dict” 文件，在 “zh_cn.dic” 文件按下 Ctrl+f 搜索你的自定义词汇，复制其中的译音文字，粘贴到我们 “pronounciation-dictionary.dict” 文件中相对应的词汇后面，如果中文对照表中没有你要的词，可以单个字搜索，然后拼接起来，例如：

开门  k ai1 m en2
西瓜开门    x i1 g ua1 k ai1 m en2

（注意：中文和译音文字之间有一个Tab的空格，每个译音文字之间有个空格，比如 "西瓜 x i1+空格+g ua1"）

保存文件后，将我们自己的两个文件替换掉 “cmusphinx-zh-cn-5.2” 文件夹中的 “zh_cn.dic” 文件和 “zh_cn.lm.bin” 文件（注意，记得先将 “zh_cn.dic” 文件先保存到另一个地方，方便以后自定义词汇时使用），将 “cmusphinx-zh-cn-5.2” 文件夹名称改为 “zh-CN” ，打开 C:\Users\hp\AppData\Local\Programs\Python\Python37\Lib\site-packages\speech_recognition 将文件夹放进去，参照 “en_US” 文件夹中的命名，将 “zh-CN” 文件夹中的文件检查一边，没有按照 “en_US” 文件夹命名的，全都更改过来；

至此，中文指挥词汇定制工作已经完成。调用方法：

[En]

At this point, the customization of Chinese command vocabulary has been completed. Call method:

print(r.recognize_sphinx(audio, language='zh-cn'))

直接调用已安装好的 PocketSphinx API 即可，注意 SpeechRecognition 在导入时需要写成 speech_recognition 的形式，否则会报错；

SpeechRecognition 库的具体用法可以参考以下文章：

注意：这里的识别表现出来的反应基本在 7s 左右，其实不是识别的速度慢，而是 pyttsx3 的语音回馈慢，自定义词的识别速度与您自定义词库的大小有关，一般自定义词库的识别速度在 1~2s 左右，当然，要想提高 pyttsx3 语音回馈的反应速度也有其他的解决方法，就是将您希望用到的回馈语音先保存下来，提取有效片段，在语音识别完成后利用 Playsound库进行播放也可以达到高速反应的目的；

至此，pyhton基于PocketSphinx实现简单语音识别项目结束

如果您对项目有什么疑问，欢迎您给我发送邮件进行讨论：damowangazhong@gmail.com

特别感谢 rocketeerLi 大神，虽然我们素未谋面，但是您的文章确实对我启发极大，解决了我在这个项目上的大部分疑问，希望大家也去看看 rocketeerLi 大神的文章，真的写得很棒！

Original: https://blog.csdn.net/Zbreakzhong/article/details/109127837
Author: 疯人忠
Title: python基于PocketSphinx实现简单语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515526/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VIT transformer详解

1.VIT 整体架构对图像数据构建patch序列对于一个图像，将图像分为9个窗口，要将这些窗口拉成一个向量，比如一个10103维的图像，我们首先要将这个图像拉成一个300维的向…

人工智能 2023年6月25日
00100
怎么提取图片里的颜色？图像颜色特征提取

图像的颜色一直是研究和关注的热点，也是特征工程不可或缺的feature，今天就简单介绍一种非常基础的颜色的rgb特征。目的：我们希望图片的rgb特征转化成一个可衡量的指标，例如…

人工智能 2023年6月15日
0060
Flask 报错：WARNING: This is a development server. Do not use it in a production deployment.

因为最近尝试部署flask 的项目到服务器，所以遇到特别多的琐碎事。在win 下就没报错，一放到线上就各种报错！估计我是写的代码或逻辑上还不够规范。继续加油！因为部署到服务器，在…

人工智能 2023年7月6日
0060
强化学习–tf2.4 超级马里奥（super mario） PPO复现

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、安装库二、使用步骤总结前言我真的是醉了，刚开始无意间看到超级马里奥的强化学习，我就想学…

人工智能 2023年5月26日
0082
OpenCV4.5.5 各模块说明

OpenCV4.5.5 各模块说明： 提示：主要&#x4ECB…

人工智能 2023年7月20日
0054
pandas基础操作

pandas基础操作 1.Series * 1.Series的创建 – 1.由列表或numpy数组创建 2.由字典创建 2.Series的常用属性以及常用方法 &#82…

人工智能 2023年7月7日
0075
使用LSTM来完成文本情感分类最终篇

LSTM和GRU的注意点：第一次调用之前，需要初始化隐藏状态，如果不初始化，默认创建全为0的隐藏状态往往使用LSTM or GRU的输出最后一维的结果，来代表LSTM、GRU对…

人工智能 2023年7月2日
0087
机器学习方法的分类

监督学习给机器的训练数据拥有”标记”或者”答案”。就比如上图的MNIST数据集，我们需要给出每一行所对应的数字，机器才能学习。这里…

人工智能 2023年7月1日
0079
李航《统计学习方法》第2版第6章课后习题答案

; 习题6.1 题目：确认逻辑斯谛分布属于指数分布族. 习题6.2 题目：写出逻辑斯谛回归模型学习的梯度下降算法. ; 习题6.3 题目：写出最大熵模型学习的DFP算法.（关于一般…

人工智能 2023年6月18日
0074
Pandas 判断一列是否包含某字符串

1.直接判断 my_df.loc[my_df[‘往来单位名称’].str.contains(‘en’), ‘客户类型’] = ‘国外客户’ 2.字符串截取一部分判断 my_df.l…

人工智能 2023年6月15日
00385
脑电EEG代码开源分享【6. 分类模型-深度学习篇】

往期文章希望了解更多的道友点这里0. 分享【脑机接口 + 人工智能】的学习之路1.1 . 脑电EEG代码开源分享【1.前置准备-静息态篇】1.2 . 脑电EEG代码开源分享【…

人工智能 2023年6月30日
00103
单目视觉SLAM在无人机上的应用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月10日
0067
Matlab图像分类(AlexNet)

Demo代码以及测试数据下载：https://download.csdn.net/download/Ango_/15946085 图像分类是神经网络最典型的应用之一，常用的分类网络…

人工智能 2023年7月3日
0067
中文命名实体识别（ner）迁移学习

文章目录 1.首先将中文ner项目克隆到本地 2.去ALBERT下载中文模型 3.安装gpu运行环境 4.配置虚拟环境 5.创建命令执行脚本 6.补充说明 1.首先将中文ner项目…

人工智能 2023年5月30日
0099
【多视图】Incomplete Multiview Spectral Clustering With Adaptive Graph Learning

论文题目：基于自适应图学习的不完全多视图谱聚类Authors：Jie Wen , Yong Xu , Senior Member, IEEE, and Hong Liu, Memb…

人工智能 2023年6月2日
00102
写给Python社群的第9课：学一下文件处理，Python基础提高篇

⛳️ 文件处理从本篇博客开始，《写给 Python 社群》系列博客进入第二阶段，从各应用场景入手，为大家丰富 Python 基础知识理论栈。本篇博客学习 Python 中的文件…

人工智能 2023年6月30日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python基于PocketSphinx实现简单语音识别

一、实现环境

二、实现思路：

三、具体实现步骤：

至此，pyhton基于PocketSphinx实现简单语音识别项目结束

大家都在看