基于深度学习的语音活动检测-Pytorch

2023年7月13日上午2:16 • 人工智能 • 阅读 51

基于深度学习的语音活动检

这里写目录标题

*
– 基于深度学习的语音活动检
* 语音活动检测
*
– 背景
– 传统检测方法
– 目前主流检测方法
* 项目实践
*
– 获取数据集
– 数据预处理
– 构建神经网络
– 训练模型
– 测试预评估模型
* 总结

语音活动检测

能看到我这篇博客的同志们想必就是冲着用深度学习的方法来实现语音活动检测这一项任务来的。这里就不过多解释有关语音活动检测的概念了，下面简单的说一下概念以及比较有名的一些检测方法，重点还是方法项目实践上。

背景

语音活动检测指的是在存有噪音信号的情况下，能够正确找出音频说话的开始与终止位置的一项技术。在日常生活中并不是所有的声音信号都是”干净”的，通常来说，一段经典语音中的有声部分和无声部分比例约为 4:6。在使用音频数据时，有近一半的语音信号实际上对人们来说都是无用的，使用语音活动检测技术，对待使用的语音信号进行预先处理，找出其语音部分的位置，再利用相关的语音分离手段，提取出”干净”的语音信号供我们后续使用。这样做，不仅能有效提高信道利用率，同时对语音增强、语音识别、语音编码等技术具有重要作用。
起初，由于硬件条件的限制，使得通信信号传输效率很低，一段传输信号中，绝大部分的信号对人们来说是无用的，假设信道传输的信号都是人们想要的，这样的传输效率会提高很多。于是乎，语音活动检测就诞生了，目的就是识别并去除语音信号中非语音那一部分对资源的占用。后来，硬件水平大幅提升，语音信号中非语音部分对信道资源的占用已经几乎可以忽略不及了，但这时候，语音识别，语音增强等等领域的发展使得语音活动检测这一项技术一直没有落伍，反而在不断融合新方法提升效果。

传统检测方法

传统经典的语音活动检测方法主要包括：
1、能量阈值法
2、零交叉率法
3、最小二乘周期估计法
4、几何自适应能量阈值法
5、基于统计模型的方法

目前主流检测方法

目前语音活动检测最流行的方法就是 WebRTC提出的 vad方法，该方法在信噪比较高的情况下效果非常好，能够很好的区分出语音和非语音， 实时性也非常好， 但是在信噪比较高的情况下，这种方法效果就大大折扣了，亲身体检，语音中的 轻微电流音可能会被误判为语音信号。最近几年流行起来的还有一类方法，就是利用 机器学习、深度学习的方法来 训练语音活动检测模型，用模型来进行结果预测，这种方法得到的效果很好，而且只要数据集比较好的话，原理上就会解决传统方法在信噪比较低的情况下检测效果不理想的问题，但是这种方法也带来了一个问题 – 实时性可能比较差，不容易做成实时的语音活动检测效果。

项目实践

最近几年，深度学习非常流行，一般情况下机器学习能做的，深度学习就一定能做，而且最终效果可能也还更好。用深度学习的角度来看，机器学习就相当于浅层神经网络来训练模型，一般的可以看做一两层左右，而深度学习却不一样，他可以有很多层，可根据项目任务的特点来构建适当层数的神经网络，这也就说明，深度学习有着更好的特征提取能力，还有，相对于机器学习来说，深度学习特征提取是全自动的，相当于端到端的那种感觉。（以上都是个人理解，若有错误欢迎指正！）。
本文使用深度学习的方法来完成语音活动检测任务。主要使用工具及环境如下：
1、SAM语料库（电影字幕自动对齐语料库）
2、PyTorch深度学习框架
3、二维卷积神经网络
4、Python及相关计算、绘图库等
5、Kaldi开源语音识别工具
6、Ubuntu18.04-GPU服务器、Windows10（RTX3060-6G显卡）

获取数据集

SAM 数据集[8]是南加州大学，信号分析与解释实验室， Krishna Somandepalli 和 Shrikanth Narayanan 两位研究者开源提供的。SAM 数据集是由 2014 到 2018 年之间 95 部电影中的语音片段组成。SAM 数据集最主要的特点是使用了自动生成字幕的方式，得到了一段对话的近似还是时间和结束时间的时间戳列表。也正是由于这个特点使得该语料库数据的准确性无法达到非常准确的程度，不过对于实验是够用了。

数据预处理

由于这里下载的数据是特征数据集，是已经完成数据预处理的语料库。因此不用专门对数据进行预处理了。不过可以说一下对于一般数据来说，我们应该怎么预处理来适应这个模型的训练。
一、重采样、转格式
利用FFmpeg工具将音频文件已16kHz的采样率进行采样，采样完成后，以.wav格式来存储。
二、分窗、加帧、预加重
以0.64s的时间间隔来进行分帧，这样做是便于后续64×64维度的卷积神经网络的输入。
三、计算能量谱
四、获得Mel滤波系数
五、对Mel滤波系数取对数，得到FBank特征。
以上步骤全部利用kaldi工具来完成。

; 构建神经网络

根据传统的卷积神经网络原理以及 SAM 数据集特点，构建了本文中的网络结构，如下图：

主要包括7层卷积，3层最大池化以及1层平均池化，主要使用了relu激活函数以及softmax激活函数，整体如上图所示。利用上述网络来进行模型训练。
前向传播部分代码：

class VADModel(nn.Module):
    def __init__(self, ):
        super(VADModel, self).__init__()
        self.convmpblock1 = ConvMPBlock(num_convs=2,
                                        in_channels=1,
                                        out_channels=32)
        self.convmpblock2 = ConvMPBlock(num_convs=2,
                                        in_channels=32,
                                        out_channels=64)
        self.convmpblock3 = ConvMPBlock(num_convs=3,
                                        in_channels=64,
                                        out_channels=128)
        self.linear = nn.Linear(128, 256)
        self.activation = nn.ReLU()
        self.gap = nn.AdaptiveAvgPool2d(1)
        self.linear_stack = nn.Sequential(nn.Linear(256, 128),
                                          nn.BatchNorm1d(128),
                                          nn.ReLU(),
                                          nn.Linear(128, 64),
                                          nn.BatchNorm1d(64),
                                          nn.ReLU(),
                                          nn.Linear(64, 2))
        self.softmax = nn.Softmax(dim=1)

    def forward(self, x):
        x = self.convmpblock1(x)
        x = self.convmpblock2(x)
        x = self.convmpblock3(x)
        x = x.permute(0, 2, 3, 1).contiguous()
        x = self.activation(self.linear(x))
        x = x.permute(0, 3, 1, 2).contiguous()
        x = self.gap(x)
        x = x.squeeze()
        x = self.linear_stack(x)
        x = self.softmax(x)
        return x

训练模型

训练得过程就不说了，其实差不多每个项目的训练过程都大同小异，最终迭代调优得到一个效果好的权重参数，即模型。

测试预评估模型

经过个epoch的训练，其中训练损失、验证损失、正确率趋势图如下：

其中模型评估数据如下：

AccuracyPreciseRecallF1-source96.36%94.75%95.99%0.95

选取了一段蜘蛛侠3-英雄无归的音频文件进行预测。（选自蜘蛛侠与章鱼博士在桥上对战的片段，以hello，Peter结尾）结果可视化如下图：

后续，（为了方便我录制了一小段话，内容是”你好”）我通过预测出来的有效语音时间戳将语音数据提取出来，结果如下图：

; 总结

利用深度学习的方法来实现语音活动检测是完全可行的且效果也比较好，经过实验发现，这种方法在低信噪比下效果要远远好于传统的能量阈值的方法，比如上述预测蜘蛛侠语音片段那部分，效果还是可以的。不过存在一个问题就是，模型不算小，预测起来不是很方便，另外一点就是实时性不好，可能还需要优化才能完成实时的语音活动检测。
这里就简单的介绍了一下我做过得这个项目，没有讲其中的代码，尤其是神经网络构建以及模型训练那一块代码。如果大家有什么问题欢迎留言，同时要是有什么错误，也欢迎大家指正！谢谢！

Original: https://blog.csdn.net/onlyone__/article/details/125599112
Author: 星河亦无恙
Title: 基于深度学习的语音活动检测-Pytorch

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688869/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

盘点两种使用Python读取.nc文件的方法

点击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤啼…

人工智能 2023年7月14日
0050
机器学习—降维-特征选择6-5（LDA方法）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0062
RepVGG论文详解以及使用Pytorch进行模型复现

RepVGG: Making VGG-style ConvNets Great Again 是 2021 CVPR的一篇论文，正如他的名字一样，使用 structural re-p…

人工智能 2023年6月25日
0058
OpenCV_信用卡识别代码_唐宇迪实战项目

PyCharm环境配置添加将所需的两个图片的路径 PyCharm中添加OpenCV库 1.导入工具包 2.设置图片的路径 argparse.ArgumentParser()函数：…

人工智能 2023年7月10日
0088
【论文阅读-对比学习】SimCSE Simple Contrastive Learning of Sentence Embeddings

今天分享下Danqi大佬的SimCSE。文章首发于https://zhuanlan.zhihu.com/p/477334784 Title: SimCSE: Simple Cont…

人工智能 2023年5月31日
0076
python3.8 安装tensorflow2.6问题

import tensorflow as tf loss_obj_scc = tf.keras.losses.SparseCategoricalCrossentropy() 使用如…

人工智能 2023年5月24日
0066
（win10）deeplab环境安装：tensorflow1.15+cuda10+cudnn7.4

deeplab源码：models/research/deeplab at master · tensorflow/models · GitHub 把它克隆到当地仓库里就行了。 [E…

人工智能 2023年5月25日
0066
NumPy数据分析基础：数组形态转换转置操作一文详解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0047
推荐20个开源的不错前端低代码项目

近几年，在技术领域低代码是比较热门的话题，比如阿里云推出了易搭，通过简单的拖拽、配置，即可完成业务应用的搭建，腾讯云则是推出了微搭，通过行业化模板、拖放式组件和可视化配置快速构建多…

人工智能 2023年6月27日
0094
初学者入门知识图谱必看的能力：推理

摘要：本文从知识推理的基本概念出发，通俗易懂得介绍了知识图谱知识推理的应用和方法。本文分享自华为云社区《0基础入门知识图谱的超能力——知识推理》，作者：Cheri Chen。一…

人工智能 2023年6月1日
0091
RTSP H264/HEVC 流 Wasm 播放

本文将介绍 RTSP H264/HEVC 裸流如何于网页前端播放。涉及 WebSocket 代理发送流数据， Wasm 前端解码等。代码:https://github.com/i…

人工智能 2023年6月4日
00172
基于大数据的农产品价格信息监测分析系统

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 项目简介本项目利用网络爬虫技术从某蔬菜网采集所有农产品的价格数据，包括北京、上海、安徽、湖北等…

人工智能 2023年7月16日
0062
Pandas中的连接函数汇总

如有错误欢迎指正~ 在数据分析的过程中数据的重构是非常重要的，本篇文章将详细讲解pandas中四个重要的连接函数：concat(), merge(), join(), append…

人工智能 2023年7月9日
0046
OpenCV（25）轮廓检测（轮廓提取、属性、近似轮廓、外接矩形和外接圆）

目录一、轮廓检测基础理论 1、轮廓概述 2、API介绍 1、cv.findContours函数（查找轮廓） 2、cv.drawContours函数（画出轮廓）检测轮廓并画出：（…

人工智能 2023年7月18日
0075
手把手教你用pytorch实现k折交叉验证，解决类别不平衡

在用深度学习做分类的时候，常常需要进行交叉验证，目前pytorch没有通用的一套代码来实现这个功能。可以借助 sklearn中的 StratifiedKFold，KFold来实现，…

人工智能 2023年7月20日
0064
beam search（束搜索）与 vliterbi（维特比算法）；语音识别算法vad、asr、tts

人工智能 2023年5月23日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30