基于Python的语音识别系统（孤立词）

2023年7月28日上午3:38 • 人工智能 • 阅读 63

目录
1 任务介绍 1
2 项目实现 1
2.1 预处理 2
2.2 特征提取 3
2.2.1 归一化 3
2.2.2 预加重 3
2.2.3 分帧 3
2.3 加窗 4
2.3.1 端点检测 6
2.3.2 快速傅里叶变换 8
2.3.3 梅尔频率域特征 10
2.4 识别模型 12
2.4.2 数据加载 13
2.4.3 模型训练 13
2.5 识别交互 14
2.5.1 前端界面 14
2.5.2 服务器端 15
3 总结 15

1任务介绍
语音识别是通往真正的人工智能的不可缺少的技术。尽管能真正听懂人类说话的智能机器任然在未来不可捉摸的迷雾之中，但我们必须先解决如何识别出人类语音中包含的自然语言信息的问题。而数字信号处理技术将为这一任务赋能。在本课程项目的任务之中，我们面对的是一个简化的语音识别场景——即孤立词识别。
我们针对 20 个关键词，采集了所有参与课程的同学朗读每个词 20 遍的语音。我将以此为数据集来构建一个能正
确识别这 20 个关键词的孤立词识别系统。
2项目实现
基于一学期跟随老师学习到的关于信号处理与语音识别技术的知识，我额外查阅多方资料，最终呈现出了我的语音识别系统与报告。
我实现的语音识别系统的亮点有以下几个方面：
说话人无关的孤立词识别是语音识别技术发展中一个里程碑。从现代的观点来看，如果将语言信号视作时间序列，那么孤立词识别就是一个模式识别中的分类问题。模式识别问题的解决一般分为特征提取与模型构建两个部分。我们将这两个部分分开处理，使得代码的实现更加具有结构性和层次性。报告也将这两部分的处理分开叙述
我在整个系统的实现中，除了利用了数值处理函数包 numpy 和自动求导工具包 pytorch之外的所有核心代码
都是单纯使用 python 实现。即真正锻炼了代码实现能力，也加深了对语音识别技术的理解。在报告中我也强调了各个方法和过程的代码实现，并将关键代码添加到附录之中以方便检阅
特别地，我基于课堂上所学的蝶形变换方法，实现了以 2 为基的快速傅里叶变换，并运用到了频域特征的分析之中。这让我更加领略到该算法的优美
根据我自行实现的快速傅里叶变换，实现了梅尔频率域的倒谱系数的计算，并根据通过梅尔滤波器之后得到梅尔频谱特征设计了基于卷积神经网络的识别算法
我将计算出的频谱特征视为图片，因而可以使用近年来在大规模图片分类任务上大放异彩的卷积神经网络来进行分类识别。我采用了 2014 年在 ImageNet 的比赛上获胜的VGG Net 作为我们的识别模型，并使用了批归一化和 Dropout 手段来避免过拟合，提高模型的泛化能力
2.1预处理
首先我对数据进行了清洗。
各个同学上交的文件结构并不一致，有的是一个压缩包下包含所有文件，有的是一个压缩包中还有以自己的学号命名的文件夹，此外还有一些同学提交的压缩包是在 MacOS 上进行打包的，因此还有一个额外的缓存文件夹。这样的结构不利于我们对数据进行批量的读入。
因此我编写了程序先解压所有压缩包，然后进行深度优先搜索来遍历所有文件夹，根据文件的命名规则把所有文件提取出来，按照 data/学号/文件名.wav 的格式统一存储。同时因为需要大规模地进行复制提取，为了效率的考
量，我使用多线程的方式完成了这一任务。
此外有几个文件显示已损坏而无法读取，以及一个文件录音长度大于两秒。为了数据的一致性，必须去除掉异常数据，但仅仅删除数据将导致样本不均衡的问题。为此我采用随机替换的方式，本文转载自http://www.biyezuopin.vip/onews.asp?id=13404用同一个同学在同一个词下的另一个语音文件进行替换。这样就可以缓解数据缺失带来的样本不均衡的问题。

同时，考虑到最终测试时是采用集外测试的方法，理论上讲应剔除女生的数据。

import argparse
import flask
import os
from flask import Flask, request, send_from_directory
from cnn_melspec import build_model, infer

model_path = "/home/zfhu/playground/DSP/project/save/checkpoint.ptr"

"""
&#x4F7F;&#x7528;chrome&#x8FDB;&#x884C;&#x6D4B;&#x8BD5;&#x65F6;&#xFF0C;&#x5982;&#x679C;&#x670D;&#x52A1;&#x7AEF;&#x4E0D;&#x662F;host&#x5728;localhost&#x4E0A;&#xFF0C;&#x4F1A;&#x5BFC;&#x81F4;getUserMedia&#x4E0D;&#x53EF;&#x7528;&#xFF08;&#x61D2;&#x5F97;&#x641E;https&#xFF09;&#xFF0C;&#x6240;&#x4EE5;&#x8981;&#x5728;&#x4FE1;&#x8D56;&#x6A21;&#x5F0F;&#x4E0B;&#x542F;&#x52A8;chrome
"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --unsafely-treat-insecure-origin-as-secure="http://10.141.208.102" --user-data-dir="temp"
"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --unsafely-treat-insecure-origin-as-secure="http://10.141.208.102:22339" --user-data-dir="temp2"
"""

if __name__ == "__main__":
    argparser = argparse.ArgumentParser()
    args = argparser.parse_args()

    app = flask.Flask(__name__, static_folder='interface')
    app.debug = True

    model, __ = build_model(model_path)

    @app.route('/', methods=['POST', 'GET'])
    def home():
        return send_from_directory('interface', 'index.html')

    @app.route('/save-record', methods=['POST'])
    def save_record():
        file = flask.request.files['file']
        app.logger.debug(file.filename)
        os.makedirs("upload", exist_ok=True)
        save_to = "upload/{}".format(file.filename)
        file.save(save_to)
        return infer(model, save_to)

    @app.route('/js/<path:path>')
    def send_js(path):
        return send_from_directory('interface/js', path)

    app.run(host="0.0.0.0", port=22339)
</path:path>

Original: https://blog.csdn.net/sheziqiong/article/details/127358671
Author: biyezuopin
Title: 基于Python的语音识别系统（孤立词）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/719705/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

语音处理/语音识别基础（六）- 语音的端点检测（EPD/VAD)

端点检测（End-point Detection，简称 EPD）的目标，是要找到音频信号（音讯）的开始和结束的位置，所以又可以称为 Speech Detection 或是 VAD …

人工智能 2023年7月26日
00307
知识蒸馏(Knowledge Distillation)

知识蒸馏(Knowledge Distillation) 从大型、深层的教师网络中提炼知识并转移到小型、简单的学生网络中更深更广→更浅更薄 ; 知识(Knowledge) 基于响…

人工智能 2023年6月1日
0074
【蓝桥杯考前一天总结PYthon终结篇】

最短路之Floyd：适用领域:既可以是有向图也可以是无向图,权重可以为负，通常用来求各顶点之间的距离（多源）缺点就是时间复杂度高，加上Python本身跑得慢….就祈…

人工智能 2023年7月6日
0092
Mythril自动化测试智能合约并进行分类存储

1、Mythril介绍 mythril工具是由以太坊开源社区所提供的安全分析工具，并且它是免费的，能够检测出Solidity智能合约中的安全漏洞并实现深入分析，是用以分析以太网智能…

人工智能 2023年6月30日
00115
基于stm32单片机语音识别控制小车机器人

资料编号：067 下面是相关功能视频演示： 67-基于stm32单片机语音识别控制小车机器人（实物图+源码+原理图+全套资料）单片机采用stm32，可以通过语音控制小车前后左右行…

人工智能 2023年6月26日
00100
玉米叶片病害分类的深度转移模型（改进AlexNet）

目前，深度学习在图像分析和目标分类中发挥着重要作用。玉米病害导致产量下降，进而成为全球农业经济损失的突出因素。此前，研究人员已经使用手工制作的特征对玉米植株的叶片疾病进行图像分类和…

人工智能 2023年7月1日
0073
是否适用于时序数据

人工智能 2024年1月2日
0045
Polytree 的随笔

前几天，有个朋友向我推荐了一个github 的开源项目https://github.com/OhBonsai/RedisTree, 可以用redis 直接读写polytree 的数…

人工智能 2023年6月10日
0071
要打造团队知识库产品，这4个问题得先想明白

知识管理相信大家并不陌生，但我在身边简单调研一圈之后发现，大部分人没有系统的去管理自己的知识。在工作之余的阅读过程中，我接触到卢曼的卡片笔记法，接触到obsidian、Notion…

人工智能 2023年6月10日
0068
【pytorch学习实战】第二篇：多项式回归

往期相关文章列表：【pytorch学习实战】第一篇：线性回归【pytorch学习实战】第二篇：多项式回归【pytorch学习实战】第三篇：逻辑回归【pytorch学习实战】…

人工智能 2023年6月17日
0088
【超详细】支持向量机（SVM）数学推导

目录一、硬间隔SVM（Hard Margin SVM) 二、对偶问题（Dual Problem) 1.将有约束问题转变为无约束问题 2.强对偶关系 3.计算拉格朗日函数的最小值 …

人工智能 2023年7月28日
0075
数字图像处理-图像基础-复习总结

文章目录数字图像处理复习总结 * 数字图像基础 – 数字图像基础概念采样和量化非均匀采样与量化数字图像常见失真类型数字图像处理基础 – 数字图像处…

人工智能 2023年7月25日
0050
Visual Transformer (ViT)模型与代码实现（PyTorch）

文章目录摘要一. Vision Transformer (ViT)模型 * 1.1 ViT模型整体结构 1.2小结二. VIT 代码实现PyTorch版本 * 2.1 整体对…

人工智能 2023年7月21日
00186
pytorch模型的保存与加载

torch.save 与 torch.load 模型保存有两种形式，一种是保存模型的 state_dict()，只是保存模型的参数。那么加载时需要先创建一个模型的实例 model，…

人工智能 2023年7月21日
0069
cuda和cudnn下载安装

Visual Studio、cuda和cudnn下载安装严格按照以下顺序执行，否则可能会报错一、Visual Studio2019下载安装网址：https://visuals…

人工智能 2023年7月22日
0064
Ai-WB2系列的固件烧录指导

文章目录前言一、软硬件的准备二、原始硬件接线三、烧录软件的使用联系我们前言本文章教学视频链接：视频链接一、软硬件的准备 Ai-WB2系列模组或者开发板一个 Ai-W…

人工智能 2023年6月24日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于Python的语音识别系统（孤立词）

大家都在看