模型结构
- DPRNN的组成部分: 分割,块处理和重叠相加。 分割阶段将顺序输入分割为重叠的块,并将所有块连接为一个3-D张量。 然后将张量传递到堆叠的DPRNN块,以交替方式迭代应用局部(块内 intra-chunk RNN)和全局( 块间Inter-chunk RNN)建模。 最后一层的输出通过重叠相加法转换回顺序输出。
- 分割:输入时间序列W ∈ R N × L W\in\mathbb{R}^{N×L}W ∈R N ×L,N为特征维度,L为时间序列;将W按照步长为P,大小为K的形式分割为S个块D s ∈ R N × K , s = 1 , 2 , . . . , S D_s\in\mathbb{R}^{N×K},s=1,2,…,S D s ∈R N ×K ,s =1 ,2 ,…,S(为了 保证均匀分割,第一个块和最后一个块要补零),之后所有块串联起来形成一个三维tensor T ∈ R N × K × S T\in\mathbb{R}^{N×K×S}T ∈R N ×K ×S
- 块处理1:将T输入到就有 B个DPRNN块的堆栈中。每个DPRNN块包含块内RNN和块间RNN两部分。首先输入到块内RNN的数据记为T b ∈ R N × K × S , b = 1 , 2 , . . . , B , T 1 = T T_b\in\mathbb{R}^{N×K×S},b=1,2,…,B,T_1=T T b ∈R N ×K ×S ,b =1 ,2 ,…,B ,T 1 =T,块内RNN是双向的, 作用于单个混合语音块相当于是D s D_s D s ,RNN的输出为U b = [ f b ( T b [ : , : , i ] , i = 1 , . . . , S ) ] , U b ∈ R H × K × S U_b=[f_b(T_b[:,:,i],i=1,…,S)], U_b\in\mathbb{R}^{H×K×S}U b =[f b (T b [:,:,i ],i =1 ,…,S )],U b ∈R H ×K ×S,i表示输入到块间RNN的第i个混合语音块,f b f_b f b 表示RNN中定义的映射函数。之后U b U_b U b 通过FC层将特征维度从H映射到T b T_b T b 的N U b ^ = [ G U b [ : , : , i ] + m , i = 1 , . . . , S ] , U b ∈ R N × K × S , G ∈ R N × H \hat{U_b}=[GU_b[:,:,i]+m,i=1,…,S],U_b\in\mathbb{R}^{N×K×S},G\in\mathbb{R}^{N×H}U b ^=[G U b [:,:,i ]+m ,i =1 ,…,S ],U b ∈R N ×K ×S ,G ∈R N ×H是FC的权重。对U b ^ \hat{U_b}U b ^使用层归一化增加泛化能力,最后在LN的输出层加一个残差连接得到块内RNN的输出T b ^ = T b + L N ( U b ) ^ \hat{T_b}=T_b+LN(\hat{U_b)}T b ^=T b +L N (U b )^
- 块处理2:块内RNN的输出作为块间RNN的输入。块间RNN由于需要对全局序列进行建模,因此在在混合语音块的 时间维度上进行操作(也就是D s ∈ R N × K D_s\in\mathbb{R}^{N×K}D s ∈R N ×K中的K),RNN的输出为V b = [ h b ( T b ^ [ : , i , : ] ) , i = 1 , . . . , K ] , V b ∈ R H × K × S , T b ^ [ : , i , : ] V_b=[h_b(\hat{T_b}[:,i,:]),i=1,…,K],V_b\in\mathbb{R}^{H×K×S},\hat{T_b}[:,i,:]V b =[h b (T b ^[:,i ,:]),i =1 ,…,K ],V b ∈R H ×K ×S ,T b ^[:,i ,:]是S个混合语音块的第i个时间步,由于RNN是双向的,因此T b ^ \hat{T_b}T b ^中的每个时间步都包含它所属区块的全部信息,这使得块间RNN能够执行完全序列级建模。和块内RNN一样,块间RNN也需要层归一化和残差连接。
- 堆叠相加:在最后一个DPRNN块的输出T b + 1 ∈ R N × K × S T_{b+1}\in\mathbb{R}^{N×K×S}T b +1 ∈R N ×K ×S应用重叠添加方法恢复成语音波形。
- 本文未考虑实时语音分离的情况
[En]
this article does not consider the situation of real-time voice separation*
Original: https://blog.csdn.net/weixin_43414694/article/details/122353970
Author: 五好市民金闪闪
Title: [语音分离论文小记]Dual-Path RNN (DPRNN)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498078/
转载文章受原作者版权保护。转载请注明原作者出处!