[语音分离论文小记]Dual-Path RNN (DPRNN)

模型结构

  • DPRNN的组成部分: 分割,块处理和重叠相加。 分割阶段将顺序输入分割为重叠的块,并将所有块连接为一个3-D张量。 然后将张量传递到堆叠的DPRNN块,以交替方式迭代应用局部(块内 intra-chunk RNN)和全局( 块间Inter-chunk RNN)建模。 最后一层的输出通过重叠相加法转换回顺序输出。[语音分离论文小记]Dual-Path RNN (DPRNN)
  • 分割:输入时间序列W ∈ R N × L W\in\mathbb{R}^{N×L}W ∈R N ×L,N为特征维度,L为时间序列;将W按照步长为P,大小为K的形式分割为S个块D s ∈ R N × K , s = 1 , 2 , . . . , S D_s\in\mathbb{R}^{N×K},s=1,2,…,S D s ​∈R N ×K ,s =1 ,2 ,…,S(为了 保证均匀分割,第一个块和最后一个块要补零),之后所有块串联起来形成一个三维tensor T ∈ R N × K × S T\in\mathbb{R}^{N×K×S}T ∈R N ×K ×S
  • 块处理1:将T输入到就有 B个DPRNN块的堆栈中。每个DPRNN块包含块内RNN和块间RNN两部分。首先输入到块内RNN的数据记为T b ∈ R N × K × S , b = 1 , 2 , . . . , B , T 1 = T T_b\in\mathbb{R}^{N×K×S},b=1,2,…,B,T_1=T T b ​∈R N ×K ×S ,b =1 ,2 ,…,B ,T 1 ​=T,块内RNN是双向的, 作用于单个混合语音块相当于是D s D_s D s ​,RNN的输出为U b = [ f b ( T b [ : , : , i ] , i = 1 , . . . , S ) ] , U b ∈ R H × K × S U_b=[f_b(T_b[:,:,i],i=1,…,S)], U_b\in\mathbb{R}^{H×K×S}U b ​=[f b ​(T b ​[:,:,i ],i =1 ,…,S )],U b ​∈R H ×K ×S,i表示输入到块间RNN的第i个混合语音块,f b f_b f b ​表示RNN中定义的映射函数。之后U b U_b U b ​通过FC层将特征维度从H映射到T b T_b T b ​的N U b ^ = [ G U b [ : , : , i ] + m , i = 1 , . . . , S ] , U b ∈ R N × K × S , G ∈ R N × H \hat{U_b}=[GU_b[:,:,i]+m,i=1,…,S],U_b\in\mathbb{R}^{N×K×S},G\in\mathbb{R}^{N×H}U b ​^​=[G U b ​[:,:,i ]+m ,i =1 ,…,S ],U b ​∈R N ×K ×S ,G ∈R N ×H是FC的权重。对U b ^ \hat{U_b}U b ​^​使用层归一化增加泛化能力,最后在LN的输出层加一个残差连接得到块内RNN的输出T b ^ = T b + L N ( U b ) ^ \hat{T_b}=T_b+LN(\hat{U_b)}T b ​^​=T b ​+L N (U b ​)^​
  • 块处理2:块内RNN的输出作为块间RNN的输入。块间RNN由于需要对全局序列进行建模,因此在在混合语音块的 时间维度上进行操作(也就是D s ∈ R N × K D_s\in\mathbb{R}^{N×K}D s ​∈R N ×K中的K),RNN的输出为V b = [ h b ( T b ^ [ : , i , : ] ) , i = 1 , . . . , K ] , V b ∈ R H × K × S , T b ^ [ : , i , : ] V_b=[h_b(\hat{T_b}[:,i,:]),i=1,…,K],V_b\in\mathbb{R}^{H×K×S},\hat{T_b}[:,i,:]V b ​=[h b ​(T b ​^​[:,i ,:]),i =1 ,…,K ],V b ​∈R H ×K ×S ,T b ​^​[:,i ,:]是S个混合语音块的第i个时间步,由于RNN是双向的,因此T b ^ \hat{T_b}T b ​^​中的每个时间步都包含它所属区块的全部信息,这使得块间RNN能够执行完全序列级建模。和块内RNN一样,块间RNN也需要层归一化和残差连接。
  • 堆叠相加:在最后一个DPRNN块的输出T b + 1 ∈ R N × K × S T_{b+1}\in\mathbb{R}^{N×K×S}T b +1 ​∈R N ×K ×S应用重叠添加方法恢复成语音波形。
  • 本文未考虑实时语音分离的情况
    [En]

    this article does not consider the situation of real-time voice separation*

Original: https://blog.csdn.net/weixin_43414694/article/details/122353970
Author: 五好市民金闪闪
Title: [语音分离论文小记]Dual-Path RNN (DPRNN)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498078/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球