python+keras汉字单字语音识别

2023年5月25日下午5:31 • 人工智能 • 阅读 102

python+keras单字语音识别

一、两种思路
二、代码更新
三、汉字语音识别

一、两种思路

就目前的研究而言，语音识别有两种方法。

[En]

As far as the current study is concerned, there are two ways of speech recognition.

1、将语音文件提取mfcc，即转为二维张量形式，然后进行dense全连接层叠层训练，当然这个也可以使用传统机器学习方法。
转为二维张量格式为：

2、将语音文件提取mfcc转为三维张量形式即频谱图，然后进行cnn卷积神经网络训练，看了几个资料，这个似乎准确率更高，但是比较麻烦
因此，请尝试下面的第一种方法。

[En]

So try it in the first way below.

频谱图形式为：

; 二、代码更新

采取第一种思路的代码为大佬南方朗郎：《python+keras实现语音识别》，这个代码有些小问题
1、keras版本问题
报错

准确的说，这个不是keras版本问题，应该是tensorflow版本的问题，tensorflow是keras的后端，我的python版本是3.8，所以安装的tensorflow版本是2.0以上的，而作者源码是建立在keras后端tensorflow1.0以上的版本，所以出现这样的错误，这样的错误会很多，一个个修改非常麻烦，但是python3.8好像没有支持的tensorflow1.0以上的版本，只有2.0以上的版本。
不过，幸运的是，我有两个python版本，一个3.7，一个3.8，python3.7有支持的tensorflow1.0以上的版本，于是我用python3.7安装了tensorflow1.15.5版本的tensorflow,
这个问题得以解决

2、代码有部分出现缺漏
报错

这个报错是由于num_class没有传递过来，导致label标签one-hot化不成功
打印num_class时发现num_class=0，应该为2的

将之传递过来

模型正常训练

但精确度并不高。笔者曾提到，似乎是因为数据本身的原因，有些数据出现了问题。

[En]

But the accuracy is not good. The author has mentioned that it seems to be because of the data itself, and there are problems with some data.

3、代码特征处理会报list index out of range
这一行

不需要修改作者运行的语音数据集，因为它都是16000，但如果你运行自己的数据集，你必须修改它，因为它不一定是16000。

[En]

There is no need to modify the voice data set run by the author, because it is all 16000, but if you run your own data set, you have to modify it, because it is not necessarily 16000.

修改为：

data.remove(0)

dense层模型调控最优的结果为测试集上93%左右
设置为：

    model = Sequential()
    model.add(Dense(1024, activation='relu'))
    model.add(Dropout(0.2))
    model.add(Dense(512, activation='relu'))
    model.add(Dense(256, activation='relu'))
    model.add(Dense(128, activation='relu'))

三、汉字语音识别

1、数据集问题
该数据集使用百度语音合成来合成3500个常用汉字，每个汉字大约有8个不同的说话人，然后进行数据增强。

[En]

The dataset uses Baidu speech synthesis to synthesize 3500 commonly used Chinese characters, each with about 8 different speakers, followed by data enhancement.

数据增强主要是对波形、位移以及加噪等处理，可以参见大佬凌逆战：《音频数据增强及python实现》链接: 音频数据增强及python实现.

2、跑的结果
三个数据集，每个数据集有32个音频文件，总共96个，训练集85个，测试集15个，三个分类样本数据平均，测试集结果1.0。

[En]

Three data sets, each data set has 32 audio files, a total of 96, training set 85, test set 15, three classification sample data average, test set result 1.0.

3、问题
这里的问题是，数据增强的体积只是暂时使用的，所以测试集和训练集可能没有差异，导致了这个结果，并且经过噪声添加、波形延伸等之后，精度可能会迅速下降。

[En]

The problem here is that the volume of data enhancement is only used for the time being, so there may be no difference between the test set and the training set, resulting in this result, and the accuracy may decline rapidly after noise addition, waveform elongation, and so on.

Original: https://blog.csdn.net/python__reported/article/details/113406613
Author: python__reported
Title: python+keras汉字单字语音识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515264/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【pandas基本操作】

本文记录自己使用pandas的常用方法和心得。 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。特别使用读取csv和excel格式的额文件。 1….

人工智能 2023年7月7日
0074
【Python百日基础系列】Day18 – Pandas 数据合并、重塑与透视

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月8日
0067
OpenCV基础（10）使用OpenCV进行Blob检测

本教程解释了使用OpenCV进行简单的blob检测。 ; 1.Blob是什么？ Blob是图像中共享某些共同属性(例如灰度值)的一组连接的像素。在上图中，暗连通区域是Blob，Bl…

人工智能 2023年7月19日
0076
PyTorch-05神经网络与全连接（Logistic Regression、交叉熵、交叉熵来优化一个多分类的问题、全连接层（MLP网络层）、激活函数与GPU加速、测试、Visdom可视化）

PyTorch-05神经网络与全连接（Logistic Regression逻辑回归、交叉熵、交叉熵来优化一个多分类的问题、全连接层（MLP网络层）、激活函数与GPU加速、测试（v…

人工智能 2023年7月2日
0088
6. 手写数字图片数据集MNIST

MNIST数据集（http://yann.lecun.com/exdb/mnist/）手写数字图片数据集，存在60000个训练样本，10000个测试样本。每个样本为一个28X28…

人工智能 2023年6月30日
0085
机器学习：Kmeans聚类算法总结及GPU配置加速demo

机器学习：Kmeans聚类算法总结及GPU配置加速demo * – Kmeans算法介绍 – 版本1：利用sklearn的kmeans算法，CPU上跑 &#…

人工智能 2023年5月31日
00143
3.吴恩达机器学习–神经网络

本文旨在完成吴恩达机器学习的课后作业，搭建一个简单的神经网络来实现多分类问题，以手写数字识别为例。 1. 导入所需第三方库 from sklearn.datasets import…

人工智能 2023年7月13日
0069
windows下CUDA的卸载以及安装

一、缘由对于CUDA新手来说，安装问题里面有很多需要注意的细节，很多自定义的选项，如果漏选就会出现一些莫名奇妙的问题。为此，会经常出现卸载CUDA，再安装CUDA的问题，下面总结…

人工智能 2023年7月26日
00169
【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化

目录一、介绍二、下载数据三、获取数据四、分析数据五、移动平均预测六、封装函数最后一、介绍移动平均（Moving Average，MA），⼜称移动平均线，简称均线。…

人工智能 2023年7月4日
0094
vue知识图谱可视化_Vue 2019开发者图谱

作为 Vue 的初学者，您或许已经听过很多关于它的专业术语了，例如：单页面应用程序、异步组件、服务器端呈现等，您可能还听过和Vue经常一起被提到的工具和库，如Vuex、Webpac…

人工智能 2023年6月1日
0089
人工智能实验——八数码难题

人工智能实验——八数码难题人工智能实验——八数码难题人工智能实验——八数码难题 * 八数码难题简介八数码难题所用到的算法简介代码实现解释运行结果显示代码附件程序可视化…

人工智能 2023年7月4日
0099
halcon 代码注释 print_check.hdev

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月21日
0080
YOLOv7——训练自己的数据集

论文地址：https://arxiv.org/abs/2207.02696 源码地址：https://github.com/WongKinYiu/yolov7 下载好代码包，解压后…

人工智能 2023年7月21日
0087
一元（多元）线性回归推导

一元线性回归设模型为一元线性函数：y = w 1 x + w 0 y = w_1 x + w_0 y =w 1 x +w 0 现有样本：( x 1 , y 1 ) , ( x…

人工智能 2023年6月17日
00102
MATLAB画图自动确定坐标范围（GUI）

今天在用MATLAB做我的毕设的时候碰到一个很纠结的问题，之所以说纠结是因为我觉得这个问题很简单，可是一时半会就是弄不出来(ー`´ー)。鼓捣了半个小时左右吧，终于搞出来了。下面做个…

人工智能 2023年6月6日
00128
python——dataframe基本操作

df = df[0:(len(df) – 1)] df[[column1，column2]] df.iloc[:,0:200] df.describe() df.dtypes df…

人工智能 2023年7月7日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python+keras汉字单字语音识别

python+keras单字语音识别

大家都在看