波束和BSS问题中的gevd

2023年5月27日下午4:41 • 人工智能 • 阅读 66

– 波束部分

1. MaxSNR Beamforming
根据MaxSNR Beamforming的公式有:w = a r g _ m a x w h R s w w h R n w w=arg_max \frac{w^hR_sw}{w^hR_nw}w =a r g m a x w h R n w w h R s w ,其中w w w即为滤波器系数。如上的无约束最大值问题对于w s n r = k ∗ w s n r w{snr}=k*w_{snr}w s n r =k ∗w s n r 仍然是成立的，也就是有一个尺度上的无约束。可设定w h R n w w^hR_nw w h R n w=1；则转化为:a r g _ m a x w h R s w 1 arg_max\frac{w^hR_sw}{1}a r g _m a x 1 w h R s w 且w h R n w = 1 w^hR_nw=1 w h R n w =1。如上问题为一个有约束的优化问题，可通过拉格朗日乘子约束转化为无约束问题:
f ( w ) = w h R s w + λ ( w h R n w − 1 ) f(w)=w^hR_sw+\lambda(w^hR_nw-1)f (w )=w h R s w +λ(w h R n w −1 )
通令求f ( w ) f(w)f (w )的微分=0即可转化为GEVD问题:R s w = λ R n w R_sw=\lambda R_nw R s w =λR n w。
设λ 1 \lambda_1 λ1 ,λ 2 \lambda_2 λ2 ,w 1 w_1 w 1 ,w 2 w_2 w 2 为(R s R_s R s ,R n R_n R n )的广义特征值和对应的特征向量，λ 1 \lambda_1 λ1 >λ 2 \lambda_2 λ2 。其中w 1 w_1 w 1 即为上述问题的解。而w 2 w_2 w 2 为m i n f ( w ) min{f(w)}m i n f (w )问题的解。
如果R s R_s R s 是秩1矩阵，即R s = a a H R_s=aa^H R s =a a H。则a a H w 1 = γ a = λ R n w 1 aa^Hw_1=\gamma a=\lambda R_nw_1 a a H w 1 =γa =λR n w 1 ,进而有a = β R n w 1 a=\beta R_nw_1 a =βR n w 1 。a即为源s的RTF或者理解为导向向量（此处省去了常数因子）。

对于R_s,R_n均为正定的Hermitian矩阵来说，具有如下性质:w 1 R s w 2 = w 1 R n w 2 = 0 w_1R_sw_2=w_1R_nw_2=0 w 1 R s w 2 =w 1 R n w 2 =0。注意这也是aux-iva中常用的正交迭代约束。

根据如上性质，推导出a H w 2 = 0 a^Hw_2=0 a H w 2 =0,a a a理解为导向向量或者delay_sum的滤波器系数，其正交的w 2 w_2 w 2 理解为a a a构造出来的BM系数。
2. gev beamforming和MVDR的关系
w m v d r = R n − 1 a a H R n − 1 a = γ w m a x s n r β w H R n w = α w m a x s n r w_{mvdr}=\frac{R_n^{-1}a}{a^HR_n^{-1}a}=\frac{\gamma w_{maxsnr}}{\beta w^HR_nw}=\alpha w_{maxsnr}w m v d r =a H R n −1 a R n −1 a =βw H R n w γw m a x s n r =αw m a x s n r MVDR只是gev 波束中通过约束a = a / ( a 1 ) a=a/(a_1)a =a /(a 1 )限制a a a的大小，解决scaling问题一种方式，二者的滤波器系数方向都是一样的。
3. scale问题
一般在说scale问题的时候大家会想到的是ica类的盲源方法，但gev波束同样也存在。在1.中已经对其产生的原因进行了解释。论文中一般会有这样的一种方式来解决：g b a n = s q r t ( w H R n H R n w / N ) w H R n w g_{ban}=\frac{sqrt(w^HR_n^HR_nw/N)}{w^HR_nw}g b a n =w H R n w s q r t (w H R n H R n w /N ),看上去和MVDR很像。笔者猜测就是w m v d r = g b a n ∗ w g e v w_{mvdr}=g_{ban}w_{gev}w m v d r =g b a n ∗w g e v (细节推导这里就不体现了),但该公式的物理意义是什么？
g b a n = ( w H R n H R n w / N ) w H R n w = λ ( w H R s H R s w ) / N λ w H R s w = ( w H R s H R s w ) / N w H R s w g_{ban}=\frac{\sqrt{(w^HR_n^HR_nw/N)}}{w^HR_nw}=\frac{\lambda \sqrt{(w^HR_s^HR_sw)/N}}{\lambda w^HR_sw}=\frac{\sqrt{(w^HR_s^HR_sw)/N}}{w^HR_sw}g b a n =w H R n w (w H R n H R n w /N )=λw H R s w λ(w H R s H R s w )/N =w H R s w (w H R s H R s w )/N
( g b a n ∗ ( w H ( R n + R s ) w ) ) 2 = w H ( R s H R s + R n H R n ) w / N (g_{ban}(w^H(R_n+R_s)w))^2=w^H(R_s^HR_s+R_n^HR_n)w/N (g b a n ∗(w H (R n +R s )w ))2 =w H (R s H R s +R n H R n )w /N
因为声源s s s和噪声n n n并不相关，则
w H ( R s H R s + R n H R n ) w / N = w H ( R s + R n ) H ( R s + R n ) w = w H R x H R x w w^H(R_s^HR_s+R_n^HR_n)w/N=w^H(R_s+R_n)^H(R_s+R_n)w=w^HR_x^HR_xw w H (R s H R s +R n H R n )w /N =w H (R s +R n )H (R s +R n )w =w H R x H R x w
如上有：
g b a n = ( w H R x H R x w / N ) w H R x w g_{ban}=\frac{\sqrt{(w^HR_x^HR_xw/N)}}{w^HR_xw}g b a n =w H R x w (w H R x H R x w /N )
w H R x w {w^HR_xw}w H R x w解释为波束后的能量，( w H R x H R x w / N ) \sqrt{(w^HR_x^HR_xw/N)}(w H R x H R x w /N )为波束后的输出和mic信号相关取模。类似于公式E ( x y ) E ( y y ) \frac{E(xy)}{E(yy)}E (y y )E (x y )。通过这种方式可以使得波束后输出信号scale和mic端的信号一个尺度。该方法和ica中只提取一路信号后用Minimal Distortion Principle准则解决scale问题是一致的。
4. 波束的痛点
如上的推导虽然完整，但R n R_n R n 和R s R_s R s 在没有外界信息的情况下是不可获得的。一般基于mask的方式对R n R_n R n 和R s R_s R s 进行估计。R s = E ( m a s k s ∗ X X H ) R_s=E(mask_sXX^H)R s =E (m a s k s ∗X X H ) R n = E ( m a s k n ∗ X X H ) R_n=E(mask_nXX^H)R n =E (m a s k n ∗X X H )mask表征什么样的物理意义，我们这里暂且认为m a s k t f s = ∣ s t f ∣ / ∣ x t f ∣ mask_{tf}^s=|s_{tf}|/|x_{tf}|m a s k t f s =∣s t f ∣/∣x t f ∣（这里只讨论幅度谱的mask)。遗憾的是mask也难以得到。当然我们也可以通道doa_mask或者nn_mask的形式获得。波束问题通过mask控制R n R_n R n 和R s R_s R s 的更新过程，而自适应对消则通过mask控制步长。 下面我们讨论下盲分离是如何看待这一问题的。

– 盲分离部分

1. 基础回顾
讨论波束时我们强调R n R_n R n 和R s R_s R s 的估计需要引入外界信息，但在bss框架下则通过引入源模型(source model)这一概念来实现对R n R_n R n 和R s R_s R s 的估计， 可以理解盲分离是一种全盲波束，它通过对信号幅度谱进行假设建模实现混合数据的分离， 而波束是假设数据为高斯分布的半盲分离/提取。
盲分离的一种objective function为:
J ( W ) = ∑ k = 1 K E [ G ( y k ) ] − ∑ w = 1 N w l o g ∣ d e t W ( w ) ∣ J(W)=\sum^K_{k=1}E[G(\mathbf{y}k)]- \sum{w=1}^{N_w}log|detW(w)|J (W )=∑k =1 K E [G (y k )]−∑w =1 N w l o g ∣d e t W (w )∣,其中G ( y k ) = − l o g p ( y k ) G(\mathbf{y}_k)=-logp(\mathbf{y_k})G (y k )=−l o g p (y k )。
应用辅助函数（这部分大家还是去看论文吧），则有：J ( w ) < = E [ G ′ ( r w ) / r w ∗ ∑ w = 1 N w ∣ y k ( w ) ∣ 2 ] + R k J(w)。
J ( w ) < = ∑ w = 1 N w w h V k ( w ) w + R k , V ( k ) = E [ G ( y ) / r ∗ x ( w ) x ( w ) h ] J(w)

ica:p ( y ) = α e − ( y ) 2 / 2 p(y)=\alpha e^{-(y)^2/2}p (y )=αe −(y )2 /2,时不变高斯模型,G ( y ) ′ / y = 1 G(y)^{‘}/y=1 G (y )′/y =1
ica:p ( y ) = α e − ∣ y ∣ / 2 p(y)=\alpha e^{-|y|/2}p (y )=αe −∣y ∣/2,laplace模型,G ( y ) ′ / y = 1 / ∣ y ∣ G(y)^{‘}/y=1/|y|G (y )′/y =1 /∣y ∣
ica:p ( y t f ) = α e − ( y t f ) 2 / r t f p(y_{tf})=\alpha e^{-(y_{tf})^2/r_{tf}}p (y t f )=αe −(y t f )2 /r t f ,时变高斯模型,G ( y ) ′ / y = 1 / r t f G(y)^{‘}/y=1/r_{tf}G (y )′/y =1 /r t f
如上看到，如果假设源信号为时不变高斯分布，则E [ G ′ ( r w ) / r w ∣ x k ( w ) ∣ 2 ] = E ∣ x k ( w ) 2 ∣ E[G^{‘}(r_w)/r_{w}|x_k(w)|^2]=E|x_k(w)^2|E [G ′(r w )/r w ∣x k (w )∣2 ]=E ∣x k (w )2 ∣,这也是波束中协方差阵的形式。平时我们说bss问题是最大化非高斯准则，如果源信号是高斯信号则是不可分的(其对应为J ( w ) J(w)J (w )函数很难优化，w w w找不到一个优化方向)。这句话成立的前提是我们并不知道哪段是语音，哪段是干扰，需要用全盲的方法去做，而对于半盲的方法类似波束，则可以提取出期望信号。这里再多提一句,时变高斯模型组成的协方差阵在WPE中使用。回顾到波束部分的协方差阵估计，在已知mask的情况下，假设源数据为时变高斯信号，则加权协方差阵的形式为:R n = E ( 1 / r t f ∗ X X H ) = E ( X X H / ( m a s k 2 ∗ ∣ ∣ X ∣ ∣ 2 ) ) R_n=E(1/r_{tf}XX^H)=E(XX^H/(mask^2||X||^2))R n =E (1 /r t f ∗X X H )=E (X X H /(m a s k 2 ∗∣∣X ∣∣2 )) 。
2. 优化迭代
对J ( w ) J(w)J (w )进行微分=0操作则有：w l H V l w k = δ l k w_{l}^HV_lw_k=\delta_{lk}w l H V l w k =δl k 即典型的Hybrid Exact-Approximate Joint Diagonalization [HEAD] problem。如果V l V_l V l 按照时不变高斯分布组成的协方差阵形式，该问题很难优化，而在其他数据分布下可通过ip,ip2,iss,iss2等方法进行迭代求解，具体可参考文献。
两个源两个mic的情况下(对于多源问题同样可以转化为GEVD问题来求解，这里不进行推导)满足：
w 1 H V 1 w 1 = 1 w 1 H V 1 w 2 = 0 w_1^HV_1w_1=1 \qquad w_1^HV_1w_2=0 w 1 H V 1 w 1 =1 w 1 H V 1 w 2 =0
w 2 H V 2 w 1 = 0 w 2 H V 2 w 2 = 1 w_2^HV_2w_1=0 \qquad w_2^HV_2w_2=1 w 2 H V 2 w 1 =0 w 2 H V 2 w 2 =1
由上可得：
w 1 V 1 = λ w 1 V 2 w_1V_1=\lambda w_1V_2 w 1 V 1 =λw 1 V 2 ,也就是和maxSnr波束类似的GEVD问题的解析解形式。选择最大特征值对应的特征向量则可表征为:f ( w ) = m a x w H V 1 w w H V 2 w f(w)=max\frac{w^HV_1w}{w^HV_2w}f (w )=m a x w H V 2 w w H V 1 w ,V 1 V_1 V 1 对应的矩阵为语音阵,V 2 V_2 V 2 对应的矩阵为噪声阵。根据如式依次迭代最终便分离出两个源信号。 由于初始化的问题，在整个全盲求解过程中最终分离的结果顺序未知。
3. scale问题和source image
根据波束篇已经讨论了一种scaling问题的求解方式且适用于盲分离，这里讨论另外一种形式。已知分离矩阵W W W(存在scale问题）,则A W = 1 AW=1 A W =1约束下可以得A = W − 1 A=W^{-1}A =W −1。A表征源S到mic的传递函数。对于A . ∗ W X = [ y 11 y 12 ; y 21 y 22 ] A.WX=[y_{11} \quad y_{12};y_{21} \quad y_{22}]A .∗W X =[y 1 1 y 1 2 ;y 2 1 y 2 2 ]反应的是[S 1 S 2 S_{1} \quad S_{2}S 1 S 2 ]到[m i c 1 m i c 2 mic_{1} \quad mic_{2}m i c 1 m i c 2 ]的接收信号，即source image，至此scale问题解决。其中A = [ a 11 a 12 ; a 21 a 22 ] A=[a_{11} \quad a_{12};a_{21} \quad a_{22}]A =[a 1 1 a 1 2 ;a 2 1 a 2 2 ]。a 11 + a 12 a_{11}+a_{12}a 1 1 +a 1 2 反应的是对S 1 S1 S 1进行delay_sum为90度的波束。a 11 − a 12 a_{11}-a_{12}a 1 1 −a 1 2 反应的是对S 1 S1 S 1进行差分的波束。即在盲源问题中可以分别求得源S到mic端的接收信号，对于波束问题同样也可以得到source image，只是beamforming 很少进行这样的讨论。在有些论文中我们看到对source image后再进行固定波束delay_sum的处理，是一种基于已知数据方向后的加权修正方式。
4. BSS框架下的扩展讨论*
通过控制r t f r_{tf}r t f 即控制了输出结果，和波束问题一样但加权的系数不同。论文通过导向向量[ e i w τ 1 e i w τ 2 . . . ] [e^{iw\tau_1} \quad e^{iw\tau_2}…][e i w τ1 e i w τ2 …]加权到协方差阵的方式个人认为并不合适，由于导向向量的形式并不能真实反映RTF，加入的不准确先验会影响真实数据构成协方差阵的结果，还不如通过先验r t f r_{tf}r t f 来的直接，比如基于doa信息计算doa_mask来估计r t f r_{tf}r t f (大概估计结果就行，不需要完全准确)，bss模型计算出来的r t f r_{tf}r t f 和先验r t f r_{tf}r t f 加权等。对于ive,ilrma,mnmf,和bss和网络的结合这里不进行讨论。
Minimal Distortion Principle for Blind Source Separation

Original: https://blog.csdn.net/longtaochen/article/details/124107580
Author: longtaochen
Title: 波束和BSS问题中的gevd

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526926/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Framework是否支持分布式训练中的参数同步和通信机制

详细介绍在机器学习的分布式训练中，参数同步和通信机制是非常重要的技术，可以确保不同计算节点之间的参数保持一致。一个好的分布式训练框架应该支持这些机制，以实现高效的模型训练。算法…

人工智能 2024年1月1日
0040
旋转框目标检测mmrotate v0.3.1 训练DOTA数据集（二）

1、数据集构建 MMRoteate 支持的数据集 ; 类别 The object categories in DOTA-v1.0: plane, ship, storage tan…

人工智能 2023年7月28日
0055
SVM支持向量机原理及代码实现（包含数学原理，超详细）

记得刚开始接触svm算法的时候是在sklearn的课程上，那时候对机器学习还处于一个出生婴儿的阶段，学了一大段时间之后，也就记得了初始化，拟合模型，输出预测结果三行代码。对这个算法…

人工智能 2023年6月15日
0079
sklearn 缺失值处理器： SimpleImputer

class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy=’mean’, fil…

人工智能 2023年7月7日
0064
人工智能初学1

1、大数据是什么？（1）大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营…

人工智能 2023年7月18日
0045
【Educoder作业】问题求解——字符信息

这次作业就是处理字符，关键在于字符串的一些函数要掌握熟练。这个题是容易的，只需要做到8 8 8位取出来就行，具体处理题目描述里已经给出了。 def parseQR(x) : l …

人工智能 2023年7月5日
0077
〖Python 数据库开发实战 – MongoDB篇②〗- Mac环境下的MongoDB数据库安装

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0055
复现 S2ANet RTX 2080Ti

0.租服务器GPU 1.INSTALL.MD conda create -n s2anet python=3.7 -y source activate s2anet conda i…

人工智能 2023年7月12日
0059
pytorch获取全部权重参数、每一层权重参数

pytorch获取全部权重参数、每一层权重参数首先需要安装torchsummary在相应的虚拟环境下pip install torchsummary 1、打印每层参数信息：sum…

人工智能 2023年7月6日
0066
2021-11-15

下载nltk中的stopwords报错如何解决错误如下： [nltk_data] Error loading stopwords: import nltknltk.downloa…

人工智能 2023年5月30日
00119
中文文本多标签文本分类（python tensorflow2实现）

NLP（中文文本多标签文本分类）本文主要是说明中文文本多标签分类的具体流程，结果不理想暂不考虑，后续再进行优化（刚接触NLP）。先来说说多标签分类和二分类，多分类的区别。二分类…

人工智能 2023年5月25日
0081
语义分割系列2-Unet（pytorch实现）

Unet发布于MICCAI。其论文的名字也说得相对很明白，用于生物医学图像分割。《U-Net: Convolutional Networks for Biomedical Ima…

人工智能 2023年6月24日
0076
深度强化学习-Dueling DQN算法原理与代码

Dueling Deep Q Network(Dueling DQN)是对DQN算法的改进，有效提升了算法的性能。如果对DQN算法还不太了解的话，可以参考我的这篇博文：深度强化学习…

人工智能 2023年7月21日
0079
MINIST手写数字数据集–神经网络（mini-batch）

1.1 数据集介绍 MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共有10 类，分别对应从0～9 ，共10 个阿拉伯数字。 1.2 思路介绍导入数据集对导入…

人工智能 2023年6月16日
00102
Python：opencv画点、圆、线、多边形、矩形

简介：机器学习视觉方向一般都需要在图像中添加标注框，标注框有着很大的用处，特别是对图像中某些需要关注的特征起到圈定的效果，方便对特征选择进行处理。相关攻略：机器学习：基本流程P…

人工智能 2023年6月18日
0092
人脸识别系统FaceNet原理

概述近年来，随着深度学习在CV领域的广泛应用，人脸识别领域也得到了巨大的发展。在深度学习中，通过多层网络的连接，能够学习到图像的特征表示，那么两张人脸的图像，是不是可以通过深度学…

人工智能 2023年6月16日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

波束和BSS问题中的gevd

– 波束部分

– 盲分离部分

大家都在看