[语音分离论文小记]Dual-Path RNN (DPRNN)

2023年5月23日下午9:07 • 人工智能 • 阅读 67

模型结构

DPRNN的组成部分： 分割，块处理和重叠相加。分割阶段将顺序输入分割为重叠的块，并将所有块连接为一个3-D张量。然后将张量传递到堆叠的DPRNN块，以交替方式迭代应用局部（块内 intra-chunk RNN）和全局（ 块间Inter-chunk RNN）建模。最后一层的输出通过重叠相加法转换回顺序输出。
分割：输入时间序列W ∈ R N × L W\in\mathbb{R}^{N×L}W ∈R N ×L，N为特征维度，L为时间序列；将W按照步长为P，大小为K的形式分割为S个块D s ∈ R N × K , s = 1 , 2 , . . . , S D_s\in\mathbb{R}^{N×K},s=1,2,…,S D s ∈R N ×K ,s =1 ,2 ,…,S（为了 保证均匀分割，第一个块和最后一个块要补零），之后所有块串联起来形成一个三维tensor T ∈ R N × K × S T\in\mathbb{R}^{N×K×S}T ∈R N ×K ×S
块处理1：将T输入到就有 B个DPRNN块的堆栈中。每个DPRNN块包含块内RNN和块间RNN两部分。首先输入到块内RNN的数据记为T b ∈ R N × K × S , b = 1 , 2 , . . . , B , T 1 = T T_b\in\mathbb{R}^{N×K×S},b=1,2,…,B,T_1=T T b ∈R N ×K ×S ,b =1 ,2 ,…,B ,T 1 =T，块内RNN是双向的， 作用于单个混合语音块相当于是D s D_s D s ，RNN的输出为U b = [ f b ( T b [ : , : , i ] , i = 1 , . . . , S ) ] , U b ∈ R H × K × S U_b=[f_b(T_b[:,:,i],i=1,…,S)], U_b\in\mathbb{R}^{H×K×S}U b =[f b (T b [:,:,i ],i =1 ,…,S )],U b ∈R H ×K ×S，i表示输入到块间RNN的第i个混合语音块,f b f_b f b 表示RNN中定义的映射函数。之后U b U_b U b 通过FC层将特征维度从H映射到T b T_b T b 的N U b ^ = [ G U b [ : , : , i ] + m , i = 1 , . . . , S ] , U b ∈ R N × K × S , G ∈ R N × H \hat{U_b}=[GU_b[:,:,i]+m,i=1,…,S],U_b\in\mathbb{R}^{N×K×S},G\in\mathbb{R}^{N×H}U b ^=[G U b [:,:,i ]+m ,i =1 ,…,S ],U b ∈R N ×K ×S ,G ∈R N ×H是FC的权重。对U b ^ \hat{U_b}U b ^使用层归一化增加泛化能力，最后在LN的输出层加一个残差连接得到块内RNN的输出T b ^ = T b + L N ( U b ) ^ \hat{T_b}=T_b+LN(\hat{U_b)}T b ^=T b +L N (U b )^
块处理2：块内RNN的输出作为块间RNN的输入。块间RNN由于需要对全局序列进行建模，因此在在混合语音块的 时间维度上进行操作（也就是D s ∈ R N × K D_s\in\mathbb{R}^{N×K}D s ∈R N ×K中的K），RNN的输出为V b = [ h b ( T b ^ [ : , i , : ] ) , i = 1 , . . . , K ] , V b ∈ R H × K × S , T b ^ [ : , i , : ] V_b=[h_b(\hat{T_b}[:,i,:]),i=1,…,K],V_b\in\mathbb{R}^{H×K×S},\hat{T_b}[:,i,:]V b =[h b (T b ^[:,i ,:]),i =1 ,…,K ],V b ∈R H ×K ×S ,T b ^[:,i ,:]是S个混合语音块的第i个时间步，由于RNN是双向的，因此T b ^ \hat{T_b}T b ^中的每个时间步都包含它所属区块的全部信息，这使得块间RNN能够执行完全序列级建模。和块内RNN一样，块间RNN也需要层归一化和残差连接。
堆叠相加：在最后一个DPRNN块的输出T b + 1 ∈ R N × K × S T_{b+1}\in\mathbb{R}^{N×K×S}T b +1 ∈R N ×K ×S应用重叠添加方法恢复成语音波形。
本文未考虑实时语音分离的情况

[En]

this article does not consider the situation of real-time voice separation*

Original: https://blog.csdn.net/weixin_43414694/article/details/122353970
Author: 五好市民金闪闪
Title: [语音分离论文小记]Dual-Path RNN (DPRNN)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/498078/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用百度飞桨 EasyDL 完成垃圾分类

一、EasyDL 产品介绍EasyDL 从 2017 年 11 月中旬起，在国内率先推出针对 AI 零算法基础或者追求高效率开发的企业用户的零门槛 AI 开发平台，提供从数据采集、…

人工智能 2023年7月1日
0077
GEE：线性回归

本文记录了GEE中的线性回归函数，并分别以影像集合、多个波段之间的相关性、多个列表数据的相关性为例。文章目录 * – + 一，针对影像集合（ImageCollecti…

人工智能 2023年6月16日
0082
YOLOV5超参数设置与数据增强解析

1、YOLOV5的超参数配置文件介绍 YOLOv5有大约30个超参数用于各种训练设置。它们在*xml中定义。/data目录下的Yaml文件。更好的初始猜测将产生更好的最终结果，因此…

人工智能 2023年7月30日
0055
蓝桥杯试题及答案分享(Python版)

1 比赛介绍蓝桥杯大赛的举办得到了教育部、工业和信息化部有关领导的高度重视，相关司局的大力支持，也得到了各省教育厅和各有关院校的积极响应，更得到了参赛师生的广泛好评，参赛学校超过…

人工智能 2023年7月29日
0061
通过IDEA将Javafx (14后版本) 项目打包成.jar文件并生成exe丨踩坑速记

【531吐槽】地球上怎么会有两个人在一天内写完全一样的内容连主题和网站都一样啊，为什么他没有早发我没有早看到啊，崩溃了（这个blog）试了一晚上，最后这个方式结合参考1 + 参…

人工智能 2023年6月4日
00115
一种基于模板匹配的图像配准方法

01 前言如下图所示，有时候参考图像与浮动图像的灰度区别很大，但是它们又有某一个小区域比较相似，这种情况下直接通过特征点匹配或形变优化来配准的效果并不理想。这个时候我们可以尝试…

人工智能 2023年7月19日
0056
YOLOX改进之损失函数修改（上）

文章内容：如何在YOLOX官网代码中修改– 置信度预测损失环境：pytorch1.8 损失函数修改内容：（1）置信度预测损失更换：二元交叉熵损失替换为 FocalLoss或者 …

人工智能 2023年6月17日
00130
深度学习中图像格式选用jpg还是png？答：png

目录 1. 参考链接 2. 结论 3. 将jpg转为png的代码（使用PIL库）参考链接 jpeg 与 png 图片格式的区别 png、jpg图片格式的区别及一个有趣逐步尝试的…

人工智能 2023年7月19日
0045
学习笔记31-自回归-建立时间序列预测模型(ARIMA方法)

时间序列(Time Series）定义：按照时间的顺序把一个随机事件变化发展的过程记录。安装包 import pandas as pd import numpy as np im…

人工智能 2023年6月17日
00127
ESP32+TFTLCD实现WiFi天气语音播报（八）

ESP32实现天气播报文章目录 ESP32实现天气播报前言 1、实现功能 2、获取并解析天气数据 3、获取天气 4、LCD显示 5、按键实现切换城市和界面 6、语音播报天气总…

人工智能 2023年5月25日
00135
DataFrame 更改列的顺序、指定某列的位置(用insert()、index、pop)

需求简单描述即，我的dataframe列顺序是：col1=[‘a’,’b’,’c’,’d&#82…

人工智能 2023年7月7日
0080
Pandas Series 与 DataFrame 数据创建

>>> import pandas as pd >>> import numpy as np >>> print(np.__v…

人工智能 2023年6月2日
0099
代理模型介绍大全

目录 1.代理模型简介 1.1代理模型的由来 1.2什么是代理模型 1.3代理模型的类别 2.如何构建代理模型 3.代理模型中的高低可信度模型 1.代理模型简介一次看文献的时候，…

人工智能 2023年7月25日
00100
学习pandas下的dataframe画图参数 ——转载

学习pandas数据框的绘…

人工智能 2023年6月2日
0071
人工智能、机器学习、深度学习和神经网络的关系

人工智能、机器学习、深度学习和神经网络的关系人工智能（Artificial Intelligence）人工智能（Artificial Intelligence），英文缩写为AI…

人工智能 2023年6月25日
0088
论文Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs阅读报告

摘要：这篇论文主要是介绍知识图谱补全的一个模型，对三元组中的关系预测，即（h,r,?），（?,r,t），（h,?,t）。近期的一些工作表明，基于卷积神经网络的模型会生成更丰富，更具…

人工智能 2023年6月1日
0085

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[语音分离论文小记]Dual-Path RNN (DPRNN)

大家都在看