【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

2023年5月25日上午7:03 • 人工智能 • 阅读 77

⛄一、获取代码方式

获取代码方式1：
完整代码已上传我的资源：【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】
点击上面的蓝色字体，付费直接下载，就可以了。

[En]

Click on the blue font above, pay to download directly, and you can.

备注：
点击上面蓝色字体 付费专栏Matlab语音处理（初级版），扫描上面二维码，付费29.9元订阅海神之光博客 付费专栏Matlab语音处理（初级版），凭支付凭证，私信博主，可免费获得 1份本博客上传CSDN资源代码（ 有效期为订阅日起，三天内有效）；
点击CSDN资源下载链接：1份本博客上传CSDN资源代码

⛄二、隐马尔可夫模型简介

隐马尔可夫模型(Hidden Markov model, HMM)是一种结构最简单的动态贝叶斯网的生成模型，它也是一种著名的有向图模型。它是典型的自然语言中处理标注问题的统计机器学模型，本文将重点介绍这种经典的机器学习模型。
1 引言
假设有三个不同的骰子(6面、4面、8面)，每次先从三个骰子里面选择一个，每个骰子选中的概率为1/3，如下图所示，重复上述过程，得到一串数值[1,6,3,5,2,7]。这些可观测变量组成可观测状态链。同时，在隐马尔可夫模型中还有一条由隐变量组成的隐含状态链，在本例中即骰子的序列。比如得到这串数字骰子的序列可能为[D6, D8, D8, D6, D4, D8]。

【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

隐马尔可夫类型示意图如下：

[En]

The diagram of the hidden Markov type is as follows:

在图中，箭头表示变量之间的依赖关系。图中的箭头如下所示：

[En]

In the figure, the arrows represent the dependencies between variables. The arrows in the figure are described as follows:

在任意时刻，观测变量(骰子)仅依赖于状态变量(哪类骰子)，同时t时刻的状态qt仅依赖于t-1时刻的状态qt-1。这就是马尔科夫链，即系统的下一时刻仅由当前状态（无记忆），即”齐次马尔可夫性假设”

2 隐马尔可夫模型的定义
根据上面的例子，这里给出隐马尔可夫的定义。隐马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个可观测的随机序列的过程，隐藏的马尔可夫链随机生成的状态序列，称为状态序列(也就上面例子中的D6，D8等)；每个状态生成一个观测，而由此产生的观测随机序列，称为观测序列(也就上面例子中的1，6等)。序列的每个位置又可以看作是一个时刻。
隐马尔可夫模型由初始的概率分布、状态转移概率分布以及观测概率分布确定。具体的形式如下，这里设Q是所有可能的状态的集合，V是所有可能的观测的集合，即有：

3 前向算法

对于步骤一的初始，是初始时刻的状态i1 = q1和观测o1的联合概率。步骤(2) 是前向概率的递推公式，计算到时刻t+1部分观测序列为o1,o2,…,ot,ot+1 且在时刻t+1处于状态qi的前向概率。如上图所示，既然at(j)是得到时刻t观测到o1,o2,…,ot并在时刻t处于状态的qj前向概率，那么at(j)aji就是到时刻t观测到o1,o2,…,ot并在是时刻t处于qj状态而在时刻t+1到达qi状态的联合概率。对于这个乘积在时刻t的所有可能的N个状态求和，其结果就是到时刻t观测为o1,o2,…,ot，并在时刻t+1处于状态qi的联合概率。最后第三步，计算出P(O|lamda)的结果。

当然，这只是众多算法中的一个，类似于后向算法(您可以查看相关书籍进行了解)。为了解决隐马尔可夫模型的动态规划预测问题，维特比算法得到了最广泛的应用。

[En]

Of course, this is only one of the many algorithms, similar to the backward algorithm (you can see the relevant books to understand). For dynamic programming to solve the prediction problem of hidden Markov model, Viterbi algorithm is most widely used.

; ⛄三、部分源代码

%本程序应用多窗谱法估计的语音信号功率谱密度（PSD）来进行谱减语音增强

clear;
a=2; %过减因子
b=0.01; %增益补偿因子
c=0; %c=0时，不对增益矩阵进行开方，c=1时，进行开方运算

%读取语音文件—————————————————————
[filename,pathname]=uigetfile(‘SNR_0-增大.wav’,’请选择语音文件：’);
[wavin_t,fs]=audioread([pathname filename]);
wav_length=length(wavin_t);

%基音周期最大为20ms，为使ifft还原后语音失真尽量小，帧长至少要为基音周期的2倍
%根据fs选择帧长：
% switch fs
% case 8000
% frame_len=320;step_len=160;
% case 10000
% frame_len=400;step_len=200;
% case 12000
% frame_len=480;step_len=240;
% case 16000
% frame_len=640;step_len=320;
% case 44100
% frame_len=1800;step_len=900;
% otherwise
% frame_len=1800;step_len=900;
% end;
frame_len=320;step_len=160;
frame_num=ceil((wav_length-step_len)/step_len);
wavin=zeros(1,frame_numframe_len);
wavin(1:wav_length)=wavin_t(😃;
inframe=zeros(frame_len,frame_num);
for i=1:frame_num;
inframe(:,i)=wavin(((i-1)step_len+1)😦(i-1)*step_len+frame_len));
end;
%inframe=(ENFRAME(wavin,frame_len,step_len))’; %分帧
%frame_num=size(inframe,2); %求帧数
window=hamming(frame_len); %定义汉明窗

%分别对每帧fft，求幅值，求相角———————————————–
for i=1:frame_num;
fft_frame(:,i)=fft(window.*inframe(:,i));
abs_frame(:,i)=abs(fft_frame(:,i));
ang_frame(:,i)=angle(fft_frame(:,i));
end;

%每相邻三帧平滑————————————————————-
abs_frame_f=abs_frame;
for i=2:frame_num-1;
abs_frame_f(:,i)=mean(abs_frame(:,(i-1):(i+1)),2);
end;
abs_frame=abs_frame_f;

%求增益矩阵—————————————————————–
%矩阵中每一元素为：
%g(k)=(Py(k)-a*Pn(k))/Py(k)
%Py和Pn分别为带噪语音和噪声的功率谱估计，都用MATLAB中自带的pmtm函数来估计
%可根据需要调节a的大小，来得到更好的效果

%用多窗谱法法对每一帧数据进行功率谱估计
for i=1:frame_num;
per_PSD(:,i)=pmtm(inframe(:,i),3,frame_len,’twosided’);
end;

%对功率谱的每相邻三帧进行平滑
per_PSD_f=per_PSD;
for i=2:frame_num-1;
per_PSD_f(:,i)=mean(per_PSD(:,(i-1):(i+1)),2);
end;
per_PSD=per_PSD_f;

%取前20帧作为噪声帧，取其平均作为噪声的功率谱估计
noise_PSD=mean(per_PSD(:,1:20),2);

%求增益矩阵
for k=1:frame_num;
g(:,k)=(per_PSD(:,k)-a _noise_PSD)./per_PSD(:,k);
end;
function test(hmm)
clc;
load mylabel.mat;
load myhmm.mat;
tn=98;%测试样本个数
num=length(label);%模版个数
ccount=0;%识别正确的命令个数
for i=1:tn
fname = sprintf(‘test\%d.wav’,i);
x = audioread(fname);
[x1 x2] = vad(x);
x=0.2_x/max(x);%幅度统一化
m = mfcc(x);
m = m(x1-2:x2-2,:);
for j=1:num
pout(j) = viterbi(hmm{j}, m);
end
[d,n] = max(pout);
%n = mod(n, 10);
fprintf(‘第%d个命令, 识别为%s%s\n’, i,label(n,1),label(n,2));
aa=ceil(i/7);

⛄四、运行结果

; ⛄五、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.

[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.

3 备注
本部分摘录自互联网，仅供参考，如有侵权，请联系删除

[En]

Brief introduction this part is extracted from the Internet, for reference only, if infringement, contact to delete

Original: https://blog.csdn.net/TIQCmatlab/article/details/120712367
Author: 海神之光
Title: 【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512808/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络-张量

向量数据：2D张量，形状为(samples,features) 其为最常见的数据。对这种数据集，每个数据点都被编码为一个向量，因此一个数据批量就被编码为2D张量（即向量组成的数组）…

人工智能 2023年7月14日
0061
什么是知识图谱？有哪些典型应用？终于有人讲明白了

导读：本文将详细阐述知识图谱的基本概念，包括知识图谱的背景、定义以及典型应用。作者：邵浩张凯李方圆张云柯戴锡强来源：大数据DT（ID：hzdashuju） 01 知识图…

人工智能 2023年6月1日
00100
gsc框架下bf和bm路的构造

bf的构造根据方向得到的导向向量构造类似于w = [ e j w τ 1 e j w τ 2 e j w τ 3 . . . ] w=[e^{jw\tau1} \quad e^{…

人工智能 2023年5月25日
0091
MUDA：对齐特定域的分布和分类器以实现来自多源域的跨域分类

简介：1、提出了一个具有两个对齐阶段的MUDA新框架。 2、该框架不仅分别对齐多个特定特征空间中每对源域和目标域的分布，而且还利用特定域的决策边界对齐分类器的输出。如下图所示，在…

人工智能 2023年7月1日
0069
40_OpenCV均匀调整图像大小，增大或缩小图像

目录 1. 均匀调整大小 cv::resize() 2. 图像金字塔 2.1 cv::pyrDown() 2.2 cv::buildPyramid() 2.3 cv::pyrUp(…

人工智能 2023年5月28日
0057
iNeuOS工业互联网操作系统，在线报表（Excel）开发工具

目录概述… 2 视频介绍… 2 应用过程… 2 概述 iNeuOS工业互联网操作系统在线报表（Excel）工具的开发与发布，意味着设备驱动（…

人工智能 2023年6月4日
0077
Pandas DataFrame新增一列

一、直接赋值二、df.apply()方法三、np.where()方法四、df.assign()方法五、按照条件选择分组分别赋值在进行数据分析时，经常需要按照一定的条件创建…

人工智能 2023年7月7日
0075
Python实现朴素贝叶斯分类器

朴素贝叶斯分类器文章目录朴素贝叶斯分类器一、贝叶斯分类器是什么？ * 贝叶斯判定准则朴素贝叶斯分类器举个栗子二、相关代码 * 1.数据处理 2.生成朴素贝叶斯表（字典）…

人工智能 2023年6月15日
0063
数学建模复盘 — 人力资源安排的最优化模型

0 说明这次建模是由学长亲自带队指导某校学生校赛，并且这次题目质量出的还不错，而且资源优化模型也是各个建模大赛喜欢出的题目，这里学长把作品分享出来给大家。 1 描述某大学数学系…

人工智能 2023年7月2日
0067
论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

作者：景单位：燕山大学论文来源代码地址 ; 前言先说说通常意义上的预训练模型，以BERT为例，它采用大规模预料对Transformer编码器进行预训练，保存编码器参数后接下游任…

人工智能 2023年5月30日
0082
【图像去噪】基于matlab GUI HSI彩色图像去噪【含Matlab源码 1786期】

⛄一、HSI彩色图像去噪简介针对彩色图像中噪声难以去除的问题，根据HSI空间独特的色彩分离特点，对受高噪声污染的彩色图像的噪声去除进行了研究。首先将彩色图像投影到色彩特征空间HS…

人工智能 2023年6月20日
0067
Encoder-Decoder 模型架构详解

文章目录概述 Seq2Seq（ Sequence-to-sequence ） Encoder-Decoder的缺陷 Attention 机制的引入 Transformer中的En…

人工智能 2023年6月23日
0084
提升CUDA程序运行效率的几个关键点

目录 2、提高PCI接口与GPU显卡的数据吞吐量 3、优化GPU内部存储到处理器之间的数据传输效率 4、利用性能分析工具进行程序性能分析，根据建议进行程序的性能优化最近由于项目需…

人工智能 2023年7月14日
0063
分布式训练(二)——分布式策略

目录 1.为什么需要分布式 2.tensorflow 支持的分布式策略 2.1 MirroredStrategy 2.2 CentralStorageStrategy 2.3 Mu…

人工智能 2023年5月23日
0067
易康——图像分类

目录一、分割方法二、图像分类 2.1 最近邻分类 2.1.1样本点选择 2.1.2构建最近邻特征与分类 2.2 分类器分类 2.2.1样本选择 2.2.2分类算法一、分割方法…

人工智能 2023年6月21日
00303
微服务系列文章目录

QQ群：1022985150 VX：kklldog 一起探讨学习.NET技术作者：Agile.Zhou(kklldog)出处：http://www.cnblogs.com/kkll…

人工智能 2023年6月6日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

⛄一、获取代码方式

⛄二、隐马尔可夫模型简介

; ⛄三、部分源代码

⛄四、运行结果

; ⛄五、matlab版本及参考文献

大家都在看