Title:《Attention-driven Graph Clustering Network》Authors:Zhihao Peng, Hui Liu, Yuheng Jia, Junhui HouSource:2021, ACM MultimediaOther:1 Citations, 46 ReferencesPaper:DownloadCode:DownloadTask: Deep Clustering、Graph Clustering、Graph Convolutional Network
研究现状:使用自动编码器提取节点属性特征,利用图卷积网络捕获拓扑图特征。
缺点如下:
*
– 没有一种灵活的机制融合 AE 和 GCN 产生的特征表示。[ 说白了就是实验效果不好 ]
+ 忽略不同层 embedding 的多尺度信息,进行后续的聚类分配导致聚类结果较差。[ 本文的一个优势 ]
本文提出的方法: AGCN (无监督)
AGCN
包括了两个 融合 模块
*
– AGCN heterogeneity-wise fusion module (AGCN-H
):AGCN-H 自适应地合并了来自同一层的 GCN 特征和 AE 特征。
+ AGCN scale-wise fusion module (AGCN-S
):AGCN-S 动态地连接了来自不同层的多尺度特征。
上述两个模块都是基于 attention-based 机制 ,动态度量相应特征对后续特征融合的重要性。
Basic definition:如 Table 1 所示:
围绕着 AE 和 GCN 提出的聚类算法。此类方法存在的 缺点如下:
- 将拓扑图特征和节点属性特征的重要性同等看待。[一个是从 GCN 抽取,一个是从 AE 中抽取 ]
- 忽略了不同嵌入层的多尺度信息。此外,图结构特征与节点属性特征之间的交互在一定程度上不够。[ 融合机制不好 ]
本章节,先介绍 AGCN-H 和 AGCN-S ,然后介绍训练过程。
AGCN 架构如下:
具体的两个模块:
3.1 AGCN-H
AGCN-H 自适应地合并了来自同一层的 GCN 特征和 AE 特征。通过注意力系数学习,随后进行加权特征融合。
AGCN-H 的对应说明如 Figure 2(a) 所示,实现细节如下:
Step1:利用自编码器提取潜在表示,重构损失如下:
LR=∥X−X^∥2F s.t. {Hi=ϕ(WeiHi−1+bei)Hi=ϕ(WdiHi−1+bdi),i=1,⋯,l}(1)LR=‖X−X^‖F2 s.t. {Hi=ϕ(WieHi−1+bie)Hi=ϕ(WidHi−1+bid),i=1,⋯,l}(1)\begin{array}{l}\mathcal{L}{R}=|\mathrm{X}-\hat{\mathrm{X}}|{F}^{2} \text { s.t. } \quad\left{\mathrm{H}{i}=\phi\left(\mathrm{W}{i}^{\mathrm{e}} \mathrm{H}{i-1}+\mathrm{b}{i}^{\mathrm{e}}\right)\right. \left.\hat{\mathrm{H}}{i}=\phi\left(\mathrm{W}{i}^{d} \hat{\mathrm{H}}{i-1}+\mathrm{b}{i}^{d}\right), i=1, \cdots, l\right}\end{array}\quad \quad \quad (1)
其中:
*
– X∈Rn×dX∈Rn×d\mathrm{X} \in \mathbb{R}^{n \times d} 代表了原始数据(raw data);
+ X∈Rn×dX∈Rn×d\hat{\mathrm{X}} \in \mathbb{R}^{n \times d} 代表了重构数据( reconstructed data);
+ Hi∈Rn×diHi∈Rn×di\mathrm{H}{i} \in \mathbb{R}^{n \times d{i}} 代表了 Encoder 第 iii 层的输出;
+ Hi∈Rn×diHi∈Rn×di\hat{\mathrm{H}}{i} \in \mathbb{R}^{n \times \hat{d}{i}} 代表了 Decoder 第 iii 层的输出;
+ ϕ(⋅)ϕ(⋅)\phi(\cdot) 代表了激活函数,如 Tanh, ReLU ;
+ WeiWieW {i}^{e} 和 beibieb {i}^{e} 代表了 Encoder 第 iii 层的权重参数和偏置项;
+ WdiWid \mathrm{W}{i}^{d} 和 bdibid\mathrm{b}{i}^{d} 代表了 Dncoder 第 iii 层的权重参数和偏置项;
+ HlHl \hat{\mathrm{H}}{l} 代表了重构后的 XX\hat{\mathrm{X}} ;
+ Zi∈Rn×diZi∈Rn×diZ{i} \in \mathbb{R}^{n \times d_{i}} 代表了 GCN 从第 iii 层学到的特征;
+ Z0Z0\mathrm{Z}{0} 和 H0H0\mathrm{H}{0} 代表原始数据 XX\mathrm{X} ;
Step2:学习相应的注意力系数
Step2 可以公式化为 :
Mi=ℓ2(softmax(( LeakyReLU ([Zi∥Hi]Wai))))(2)Mi=ℓ2(softmax(( LeakyReLU ([Zi‖Hi]Wia))))(2)\mathrm{M}{i}=\ell{2}\left(\operatorname{softmax}\left(\left(\text { LeakyReLU }\left(\left[\mathrm{Z}{i} | \mathrm{H}{i}\right] \mathrm{W}_{i}^{a}\right)\right)\right)\right)\quad \quad\quad(2)
其中:
*
– Mi=[mi,1∥mi,2]∈Rn×2Mi=[mi,1‖mi,2]∈Rn×2\mathrm{M}{i}=\left[\mathrm{m}{i, 1} | \mathrm{m}{i, 2}\right] \in \mathbb{R}^{n \times 2} 是 attention coefficient matrix ,且 每项大于 0;
+ mi,1mi,1\mathrm{m}{i, 1}, mi,2 mi,2 \mathrm{~m}{i, 2} 是衡量 ZiZi\mathrm{Z}{i}、HiHi\mathrm{H}_{i} 重要性的权重向量;
Step 3:融合第 iii 层的 GCN 的特征 ZiZiZ_{i} 和 AE 的特征 HiHi \mathrm{H}_{i} :
Z′i=(mi,11i)⊙Zi+(mi,21i)⊙Hi(3)Zi′=(mi,11i)⊙Zi+(mi,21i)⊙Hi(3)\mathrm{Z}{i}^{\prime}=\left(\mathrm{m}{i, 1} 1_{i}\right) \odot \mathrm{Z}{i}+\left(\mathrm{m}{i, 2} 1_{i}\right) \odot \mathrm{H}_{i}\quad \quad \quad (3)
其中:
*
– 1i∈R1×di1i∈R1×di1_{i} \in \mathbb{R}^{1 \times d_{i}} 代表着全 111 向量;
+ ′⊙′′⊙′ ‘\odot’ 代表着 Hadamard product ;
Step 4:将上述生成的 Z′i∈Rn×diZi′∈Rn×diZ_{i}^{\prime} \in \mathbb{R}^{n \times d_{i}} 当作第 i+1i+1i+1 层 GCN 的输入,获得 Zi+1Zi+1\mathrm{Z}_{i+1} :
Zi+1= LeakyReLU (D−12( A+I)D−12Z′iWi)(4)Zi+1= LeakyReLU (D−12( A+I)D−12Zi′Wi)(4)\mathrm{Z}{i+1}=\text { LeakyReLU }\left(\mathrm{D}^{-\frac{1}{2}}(\mathrm{~A}+\mathrm{I}) \mathrm{D}^{-\frac{1}{2}} \mathrm{Z}{i}^{\prime} \mathrm{W}_{i}\right)\quad \quad (4)
*
– GCN 原始模型中的邻接矩阵 AAA 变形为 D−12(A+I)D−12D−12(A+I)D−12 D^{-\frac{1}{2}}(A+ I) \mathrm{D}^{-\frac{1}{2}} ;
+ I∈Rn×nI∈Rn×n\mathrm{I} \in \mathbb{R}^{n \times n} ;
3.2 AGCN-S
Step1:将 multi-scale features ZiZiZ_{i} 拼接在一起。
Z′=Z1∥⋯∥Zi∥⋯∥Zl∥Zl+1Z′=Z1‖⋯‖Zi‖⋯‖Zl‖Zl+1\mathrm{Z}^{\prime}=\left[\mathrm{Z}{1}|\cdots| \mathrm{Z}{i}|\cdots| \mathrm{Z}{l} | \mathrm{Z}{l+1}\right]\quad\quad \quad (5)
其中:
*
– Zl+1=Hl∈Rn×dlZl+1=Hl∈Rn×dl\mathrm{Z}{l+1}=\mathrm{H}{l} \in \mathbb{R}^{n \times d_{l}} 表示 Zl+1Zl+1\mathrm{Z}_{l+1} 的信息只来自自编码器。
Step2:将上述生成的 Z′Z′\mathrm{Z}^{\prime} 放入全连接网络,并使用 softmax- ℓ2 softmax- ℓ2\text { softmax- } \ell_{2} 标准化:
U=ℓ2(softmax(LeakyReLU([Z1∥⋯∥Zi∥⋯∥Zl∥Zl+1]Ws)))(6)U=ℓ2(softmax(LeakyReLU([Z1‖⋯‖Zi‖⋯‖Zl‖Zl+1]Ws)))(6)\mathrm{U}=\ell_{2}\left(\operatorname{softmax}\left(\operatorname{LeakyReLU}\left(\left[\mathrm{Z}{1}|\cdots| \mathrm{Z}{i}|\cdots| \mathrm{Z}{l} | \mathrm{Z}{l+1}\right] \mathrm{W}^{s}\right)\right)\right)\quad \quad\quad(6)
其中:
*
– U=[u1∥⋯∥ui∥⋯∥ul∥ul+1]∈Rn×(l+1)U=[u1‖⋯‖ui‖⋯‖ul‖ul+1]∈Rn×(l+1)\mathrm{U}=\left[\mathrm{u}{1}|\cdots| \mathrm{u}{i}|\cdots| \mathrm{u}{l} | \mathrm{u}{l+1}\right] \in \mathbb{R}^{n \times(l+1)} 且每个数大于 000 ;
+ uiuiu_{i} 代表了 ZiZi\mathrm{Z}_{i} 的 parallel attention coefficient ;
Step3:为了进一步探究多尺度特征,考虑在 attention 系数上施加一个相应的权重:
Z′=(u111)⊙Z1∥⋯∥(ui1i)⊙Zi∥⋯∥(ul1l)⊙Zl∥(ul+11l+1)⊙Zl+1Z′=(u111)⊙Z1‖⋯‖(ui1i)⊙Zi‖⋯‖(ul1l)⊙Zl‖(ul+11l+1)⊙Zl+1\mathrm{Z}^{\prime}= {\left[\left(\mathrm{u}{1} 1{1}\right) \odot \mathrm{Z}{1}|\cdots|\left(\mathrm{u}{i} 1_{i}\right) \odot \mathrm{Z}{i}|\cdots|\left(\mathrm{u}{l} 1_{l}\right) \odot \mathrm{Z}{l} |\right.} \left.\left(\mathrm{u}{l+1} 1_{l+1}\right) \odot \mathrm{Z}_{l+1}\right]\quad \quad \quad (7)
Step4 :Z′Z′ Z^{\prime} 将作为最终预测的输入,预测输出为 Z∈Rn×kZ∈Rn×kZ \in \mathbb{R}^{n \times k} ,其中 kkk 代表聚类数。
Z=softmax(D−12( A+I)D−12Z′W) s.t. ∑kj=1zi,j=1,zi,j>0(8)Z=softmax(D−12( A+I)D−12Z′W) s.t. ∑j=1kzi,j=1,zi,j>0(8)\begin{array}{l}\mathrm{Z}=\operatorname{softmax}\left(\mathrm{D}^{-\frac{1}{2}}(\mathrm{~A}+\mathrm{I}) \mathrm{D}^{-\frac{1}{2}} \mathrm{Z}^{\prime} \mathrm{W}\right) \text { s.t. } \quad \sum_{j=1}^{k} z_{i, j}=1, z_{i, j}>0\end{array}\quad \quad\quad (8)
预测输出计算:
yi=argmaxjzi,j s.t. j=1,⋯,k(9)yi=argmaxjzi,j s.t. j=1,⋯,k(9)\begin{array}{l} y_{i}=\underset{j}{\arg \max };;; \mathrm{z}_{i, j} \ \text { s.t. } \quad j=1, \cdots, k \end{array}\quad\quad\quad (9)
3.3 Training process
训练过程包括两个步骤:
Step 1:
使用 Student’s t-distribution 作为核来度量 embedded point 和质心之间的相似度:
qi,j=(1+∥∥hi−μj∥∥2/α)−α+12∑j(1+∥∥hi−μj∥∥2/α)−α+12(10)qi,j=(1+‖hi−μj‖2/α)−α+12∑j(1+‖hi−μj‖2/α)−α+12(10){\large q_{i, j}=\frac{\left(1+\left|\mathrm{h}{i}-\mu{j}\right|^{2} / \alpha\right){-\frac{\alpha+1}{2}}}{\sum_{j}\left(1+\left|\mathrm{h}{i}-\mu{j}\right|{2} / \alpha\right)^{-\frac{\alpha+1}{2}}}}\quad\quad\quad(10)
辅助目标分布 PPP:
pi,j=q2i,j/∑iqi,j∑′jq2i,j/∑iqi,j(11)pi,j=qi,j2/∑iqi,j∑j′qi,j2/∑iqi,j(11){\large p_{i, j}=\frac{q_{i, j}^{2} / \sum_{i} q_{i, j}}{\sum_{j}^{\prime} q_{i, j}^{2} / \sum_{i} q_{i, j}}} \quad\quad\quad(11)
Step 2:
通过辅助目标分布 PPP 最小化组合特征分布 ZZZ 和自编码器特征分布 HHH 的 KL 散度。
LKL=λ1∗KL(P,Z)+λ2∗KL(P,H)=λ1∑i∑jpi,jlogpi,jzi,j+λ2∑i∑jpi,jlogpi,jqi,j(12)LKL=λ1∗KL(P,Z)+λ2∗KL(P,H)=λ1∑i∑jpi,jlogpi,jzi,j+λ2∑i∑jpi,jlogpi,jqi,j(12)\begin{aligned}\mathcal{L}{K L} &=\lambda{1} * K L(\mathrm{P}, \mathrm{Z})+\lambda_{2} * K L(\mathrm{P}, \mathrm{H}) \&=\lambda_{1} \sum\limits {i} \sum\limits{j} p_{i, j} \log \frac{p_{i, j}}{z_{i, j}}+\lambda_{2} \sum\limits_{i} \sum\limits_{j} p_{i, j} \log \frac{p_{i, j}}{q_{i, j}}\end{aligned}\quad\quad\quad(12)
其中:
*
– λ1>0λ1>0\lambda_{1}>0 和 λ2>0λ2>0\lambda_{2}>0 是 trade-off parameters ;
联合 Eq.1 和 Eq.12 得到总损失为:
L=LR+LKL(13)L=LR+LKL(13)\mathcal{L}=\mathcal{L}{R}+\mathcal{L}{K L}\quad\quad\quad(13)
AGCN 的训练过程如 Algorithm 1 所示:
4.1 Datasets
4.2 Results
4.3 Ablation Study
进行消融研究,以评估 AGCN-H 模块和 AGCN-S 模块的效率和有效性。此外,我们还分析了不同尺度特征对聚类性能的影响。结果如 Table 4 所示:
- *Analysis of AGCN-H module
我们可以观察到,AGCN-H 模块在一定程度上提高了性能 【相较于没有使用】。
- *Analysis of AGCN-S module
从两个方面评价 AGCN-S module:
*
1. the multi-scale feature fusion (marked as AGCN-S[S]) ;
2. the attention-based scale-wise strategy (marked as AGCN-S[A]) ;
在第一个方面,通过比较表4中每个数据集的第二行和第三行的实验结果,我们可以发现,在大多数情况下,多尺度特征融合可以帮助获得更好的聚类性能。唯一的例外是HHAR,其中间层的一些特征受到过度平滑的问题,导致负传播。
对于第二个方面,通过比较表4中第三行和第四行的每个数据集的结果,我们可以发现,考虑基于注意力的规模级策略能够获得最好的聚类性能。特别是在HHAR数据集中,考虑基于注意力的规模级策略可以充分应对上述性能下降的问题。这一现象被认为是由于基于注意力的尺度策略可以分配一些权值较小的负特征,避免了负传播。这曾经验证了基于注意力的机制的有效性。
- *Analysis of different scale features.
为了评估不同尺度特征对聚类性能的贡献,我们在HHAR数据集上使用所提模型的不同层进行聚类。从 Figure 3 中,我们可以看出,与仅使用来自一层的特征相比,动态融合来自不同层的特征可以显著提高聚类性能。
- *Analysis of different 𝑘′.
由于邻域 𝑘’ 的数量显著影响邻接矩阵的质量,我们对非图数据集,即USPS、HHAR和路透社进行了 𝑘’ 的参数分析。从 Figure 4 中,我们可以观察到我们的模型对 𝑘’ 不敏感。
4.4 Visualization
为了直观地验证我们的方法的有效性,我们绘制了我们方法的学习表示的二维t分布随机邻域嵌入(t-SNE) 可视化,以及图5中HHAR数据集上比较最好的[24]可视化。我们可以发现,通过我们的方法获得的特征表示对不同的簇具有最好的可分性,其中来自同一类的样本自然地聚集在一起,不同组之间的差距是最明显的一个。这一现象证实了,与最先进的方法相比,我们的方法产生了最有区别的表示。
在本文中,我们提出了一种新的深度聚类方法,即注意驱动图聚类网络(AGCN),它同时考虑了动态融合策略和多尺度特征融合。通过利用两个新的基于注意力的融合模块,AGCN能够自适应地学习权重的异质性,以实现这些特征融合。此外,在常用的基准数据集上进行的大量实验,验证了所提出的网络优于最先进的方法,特别是对于低质量的图。
- Paper Information
- Abstract
- 1 Introduction
- 2 Related work
- 3 Proposed method
- 3.1 AGCN-H
- 3.2 AGCN-S
- 3.3 Training process
- 4 Experiments
- 4.1 Datasets
- 4.2 Results
- 4.3 Ablation Study
- 4.4 Visualization
-
5 Conclusion EOF [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z40JN5aq-1645135599768)(https://blog.csdn.net/BlairGrowing)]Blair – 本文链接: https://blog.csdn.net/BlairGrowing/p/15901648.html
-
关于博主: 评论和私信会在第一时间回复。或者直接私信我。
- 版权声明: 本博客所有文章除特别声明外,均采用BY-NC-SA 许可协议。转载请注明出处!
- 声援博主: 如果您觉得文章对您有帮助,可以点击文章右下角【[推荐](javascript:void(0)😉】一下。
Original: https://blog.csdn.net/qq_43479892/article/details/122995311
Author: qq_43479892
Title: 论文解读(AGCN)《 Attention-driven Graph Clustering Network》
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/560220/
转载文章受原作者版权保护。转载请注明原作者出处!