(SDCN)Structural Deep Clustering Network 2020 WWW

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:12119922-98ee-49cb-97f6-bacc24f260ab

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:78754d62-d2d7-4c40-958a-3e3a3fb0b7ee

本文结合GCN在图结构编码方面的优势,将结构化信息集成到深层聚类中,提出了一种结构化深层聚类网络(SDCN)。

具体来说,提出的 SDCN 算法结合了自动编码器和 GCN 算法的优点,采用了一种新颖的传递算子和双重自监督模块。这是第一次将结构化信息明确地应用到深度聚类中。

设计了一个传递算子,将自动编码器学习到的表示转移到相应的 GCN 层,并设计了一个双重自监督机制,将这两种不同的深层神经结构统一起来,引导整个模型的更新。这样,从低阶到高阶的数据的多种结构自然地与自动编码器学习的多种表示形式结合起来。

在此基础上,对传递算子进行了理论分析,即 GCN 通过传递算子将自身编码的特定表示提高为高阶图正则化约束(GCN 为 DNN 表示提供了一个近似的二阶图正则化),而自身编码器有助于缓解 GCN 中的过平滑问题。

(SDCN)Structural Deep Clustering Network 2020 WWW
首先根据原始数据构造一个 KNN 图。然后将原始数据和 KNN 图分别输入到自动编码器和 GCN 中。我们将自动编码器的每一层与 GCN 的相应层连接起来,这样我们就可以通过传递操作符将自动编码器特定的表示集成到结构感知表示中。同时,提出了一种双重自监督机制来监督自动编码器和 GCN 的训练过程。

KNN Graph

假设我们有原始数据 x。对于每个样本,我们首先找到它的 k项最相似邻居,然后设置边将它与邻居连接起来。

计算样本相似矩阵 s 的方法有很多种。下面列举了两种常用的构造 KNN 图的方法:

  1. Heat Kernel. 针对连续数据,比如图片
    (SDCN)Structural Deep Clustering Network 2020 WWW
  2. Dot-product.针对离散数据,比如bag-og-words。
    (SDCN)Structural Deep Clustering Network 2020 WWW
    在计算相似度矩阵 s 后,选取每个样本的最高 k 个相似度点作为邻接点,构造一个无向 k 最近邻图。通过这种方法,我们可以从非图形数据中得到邻接矩阵 a。

DNN Module

编码器:

(SDCN)Structural Deep Clustering Network 2020 WWW
(SDCN)Structural Deep Clustering Network 2020 WWW
损失函数:重构损失
(SDCN)Structural Deep Clustering Network 2020 WWW

GCN Module

(SDCN)Structural Deep Clustering Network 2020 WWW
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:a9a706ab-b3a1-4a7d-8767-8018265f90bf
[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:99079a5a-5c68-486f-a265-9e756385870f

(SDCN)Structural Deep Clustering Network 2020 WWW
然后作为下一层GCN的输入:
(SDCN)Structural Deep Clustering Network 2020 WWW
第一层和最后一层:第一层直接输入原始数据X,最后一层使用softmax激活函数做多分类层
(SDCN)Structural Deep Clustering Network 2020 WWW
Dual Self-Supervised Module

对于 i 样本和 j 样本,我们使用 Student 的 t 分布作为核心来度量嵌入表示 hi 和聚类中心向量 μj 之间的相似性,如下所示:

(SDCN)Structural Deep Clustering Network 2020 WWW
qij可以看作是将样本i分配给聚类j的概率,即软分配。

在得到聚类结果分布 Q后,我们通过学习高信任度分配来优化数据表示。具体来说,我们希望使数据表示更接近集群中心,从而提高集群内聚力。

因此,我们计算目标分布 p 如下:

(SDCN)Structural Deep Clustering Network 2020 WWW

其中f j = ∑ i q i j f_j = \sum_i q_{ij}f j ​=∑i ​q i j ​是软集群频率。在目标分布 p 中,对 q 中的每个赋值进行平方和归一化,使得赋值具有更高的置信度,从而得到以下目标函数:

(SDCN)Structural Deep Clustering Network 2020 WWW
对于GCN模块的训练,我们可以将隶属向量Z作为最终标签。我们可以用P分布来监督Z分布,防止噪声和琐碎的解导致模型崩溃:
(SDCN)Structural Deep Clustering Network 2020 WWW
目标函数有两个优点: (1)与传统的多分类损失函数相比,KL 散度更新整个模型的方式更”温和”,以防止数据表示受到严重干扰; (2) GCN 和 DNN 模块统一在同一个优化目标中,使其结果在训练过程中趋于一致。由于 DNN 模块和 GCN 模块的目标是近似目标分布 p,这两个模块之间有很强的联系,我们称之为双重自监督机制。

总的损失函数:

(SDCN)Structural Deep Clustering Network 2020 WWW
算法:代码地址
(SDCN)Structural Deep Clustering Network 2020 WWW

Original: https://blog.csdn.net/qq_16543881/article/details/125300115
Author: 东方小虾米
Title: (SDCN)Structural Deep Clustering Network 2020 WWW

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/561648/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球