DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

2023年7月14日上午9:06 • 人工智能 • 阅读 49

文章目录

1. 简介
2. 模型架构
*
2.1 分段
2.2 块处理
2.3 重叠相加
3. 实验部分

DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

; 1. 简介

DPRNN提出的依据：因此如果出现超长的语音序列，使用传统的RNN模型将无法高效的处理。而一维卷积的感受野小于音频序列长度，因此无法进行utterance-level的语音分离。

DPRNN 是一种双路径递归神经网络，在深度模型上优化RNN，使其可以对极长的语音序列进行建模。其将较长的音频片段分成较小的块（chunk），迭代应用块内和块间操作。

当前时域的语音分离方法主要分为两个部分：自适应前端和直接回归

自适应前端方法：构建可学习的前端（Encoder）来代替STFT，生成类似时频图的特征作为分离模块的输入进行分离。这 个方法的好处是可以在窗口大小和前端基频数量方面有更多灵活的选择。代表模型为Conv-TasNet。
直接回归方法：通过一维卷积神经网络(1-D CNN)来学习混合语音到干净语音的映射关系，而无需明确的短时傅里叶变换。
模型架构

模型包含三个阶段：分段，块处理和重叠相加。

; 2.1 分段

该阶段将长序列输入数据分割成重叠的小块(chunk)，并连接成3-D张量。

输入序列数据表示为W ∈ R N × L W \in R^{N \times L}W ∈R N ×L，其中N表示特征维度（取决于Encoder部分的维度），L表示序列长度（时间步的长度）。将W分割成长度为K，块移(hop size)为P的块（chunk）。使用零扩展(zero-padding)处理第一个块和最后一个块。最终得到S个块，每块数据用D s ∈ R N × K D_s \in R^{N \times K}D s ∈R N ×K表示，所有块组成3-D张量T ∈ R N × K × S T \in R^{N \times K \times S}T ∈R N ×K ×S。

2.2 块处理

分块后的数据T输入到B个DPRNN块中进行处理。用b表示第b个DPRNN处理块，T b T_b T b 表示第b个处理块的输入数据。每个处理块包含块内处理和块间处理两个部分。块内处理是双向的，应用于输入数据的第二个维度，即在S个块的每个块内。

其中U b ∈ R H × K × S U_b \in R^{H \times K \times S}U b ∈R H ×K ×S表示RNN的输出，T b [ : , : , i ] ∈ R N × K T_b[:,:,i] \in R^{N \times K}T b [:,:,i ]∈R N ×K表示块i定义的序列。利用线性全连接层将U b U_b U b 转换回T b T_b T b 。

之后使用层归一化：

然后在LN层输出与块输入之间应用残差连接：

之后，T ^ b \hat{T}_b T ^b 作为块间RNN子模块的输入，块间RNN应用于输入数据的第三个维度：

块间处理中同样使用线性全连接、层归一化和残差连接。

; 2.3 重叠相加

将DPRNN处理的数据重叠相加，变换回原来的序列Q ∈ R N × L Q \in R^{N \times L}Q ∈R N ×L。

实验部分

采用Conv-TasNet相同的设置，encoder和decoder部分使用64个滤波器，separator部分使用6个DPRNN层，用BiLSTM实现，包含128个隐藏单元。

4秒长度的语音片段，训练100个周期，初始学习率1e-3，每两个周期衰减0.98，10个周期的early stop。Adam被用作优化器。所有实验均使用最大L2范数为5的梯度削波。

Original: https://blog.csdn.net/aidanmo/article/details/123949566
Author: Aidanmomo
Title: DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691733/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析python，线性回归

本节是python实现一元回归的代码部分，理论参考链接: link. 代码下载地址link. 代码可直接赋值运行，如有问题请留言 1 环境准备 import numpy as np…

人工智能 2023年6月11日
0080
AI遮天传 ML-KNN

我们之前学习的方法如决策树、回归分析、贝叶斯分析都可以看作是三步走的学习方法，即：估计问题的特征(如分布) 做出模型假设(LSE、Decision、Tree、MAP、MLE …

人工智能 2023年6月15日
0094
颜表情记录（自用

（°ο°） Σ( ° △ °\|\|\|)︴∑(っ °Д °;)っ (°□°；) (⊙□⊙) ( ° ▽、° ) ⊙▂⊙ ミ ?Д?彡脸红 o(▽)q ┌( ?_?)┘ ?(??…

人工智能 2023年6月27日
0071
zip、dataframe、open、concat、merge、dataframe的列名重新排序用法总结

zip zip() 函数是 Python 内置函数之一，它可以将多个序列（列表、元组、字典、集合、字符串以及 range() 区间构成的列表）”压缩”成一…

人工智能 2023年7月6日
0078
[机器学习入门] tensor 是什么以及 torch.reshape()的使用

在 torch.reshape() 函数是对数据类型张量tensor 进行形状shape 的改变，因此我们首先得了解机器学习里最基本的数据结构 tensor（即张量）。 ten…

人工智能 2023年6月15日
0089
识别图片中曲线并获取其坐标

识别图片中曲线并获取其坐标有时候需要用到一些数据库里面曲线图的数据，进行进一步的变换处理，但是很多时候都只有图片，没有数据。基于这个问题，给出了以下算法。思路： 1）通过图像算法…

人工智能 2023年5月28日
00114
Tensorflow1.15实现Transformer(一):使用self-attention来实现文本分类

要学会一个算法，最好的办法还是自己复现一遍这里也是对自己学习的过程做一个记录了o(￣▽￣)ブ尽量用最简洁的语言和最短的代码来实现一个Transformer,ViT,BERT,Swi…

人工智能 2023年5月26日
00122
pytorch 一个最简单的回归预测

回归预测其实就是根据数据找出对应的拟合函数，假设我们需要拟合的函数为，也就是给一个x，可以输出一个x^2。第一步产生训练数据与对应标签：生成的训练数据只有一个特征值，每一个数据…

人工智能 2023年7月21日
0058
Challenges in unsupervised clustering of single-cell RNA-seq data

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0062
《数字图像处理》——低通滤波器

Matlab自写函数代码如下： function g=LPF(type,f,D0,n) f1=im2double(f); [R, C]=size(f1); f1=padarray(…

人工智能 2023年6月18日
0065
数据分析之Pandas(三) DataFrame入门

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组…

人工智能 2023年6月2日
0080
Entity Alignment between Knowledge Graphs Using Attribute Embeddings

文章目录 Entity Alignment between Knowledge Graphs Using Attribute Embeddings(基于属性嵌入的知识图谱实体对齐)…

人工智能 2023年6月1日
0092
对话预训练_NLP中的预训练语言模型（一）—— ERNIE们和BERT-wwm

随着bert在NLP各种任务上取得骄人的战绩，预训练模型在这不到一年的时间内得到了很大的发展，本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型，这一期先介绍几个…

人工智能 2023年6月10日
0095
免费GPU：九天•毕昇平台使用教程

背景深度学习非常依赖设备，训练模型就类似在”炼丹”，没有好的炼丹炉，想要复现顶刊中那些动辄8卡/4卡 Tesla V100显卡训练的模型，只能是&#822…

人工智能 2023年6月23日
00129
pytorch–＞optimizer.zero_grad()、loss.backward()、optimizer.step()和scheduler.step()

优化器就是需要根据网络反向传播的梯度信息来更新网络的参数，以起到降低loss函数值的作用。一般来说，以下三个函数的使用顺序如下： # compute gradient and do…

人工智能 2023年7月24日
0063
常用的医学图像分割评价指标

常用的图像分割评价指标非常多，论文中常用的指标包括像素准确率，交并比（IOU）,Dice系数，豪斯多夫距离，体积相关误差。下面提到的所有案例都是二分类，标签中只有0和1 目录 …

人工智能 2023年7月27日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

文章目录

; 2.1 分段

2.2 块处理

; 2.3 重叠相加

大家都在看