论文阅读“DeepDPM: Deep Clustering With an Unknown Number of Clusters” (CVPR 2022)

2023年5月31日上午7:30 • 人工智能 • 阅读 81

论文标题

DeepDPM: Deep Clustering With an Unknown Number of Clusters

论文作者、链接

作者：Ronen M, Finder S E, Freifeld O.

链接：https://arxiv.org/abs/2203.14309

代码： https://github.com/BGU-CS-VIL/DeepDPM.

摘要翻译

深度学习在无监督任务的聚类中显示出很大的潜力。这意味着，虽然传统的（非深度）的聚类方法的无参数的好处是总所周知的，但是深度聚类方法往往是有参数的：也就是说，这些方法需要一个预定义的并且固定的簇中心个数，记为K。但是在K值并不清楚的时候，依靠模型的标准选择一个合适的K值往往会导致需要大量的计算。这种情况在深度学习中尤为严重，因为往往需要经过无数次训练过程。本文工作中，作者提出了一种有效的深度聚类方法，这种方法不需要预先知道K值，因为会在训练过程中推断K值。使用一个分裂/融合网络，以一种动态结构来适应K值的变化，提出了一个新颖的loss计算函数。本文方法比现有的无参数方法表现更好（在深度和传统两方面皆是如此）。与此同时，现有的深度无参数方法往往不会缺少可扩展性，作者也将成为第一个在ImageNet上介绍它们的性能的人（这句话我怎么看不懂啊？）。作者也证明了推断K值而不是取一个固定值的重要性，在不平衡数据集上，当假设的K值距离真实值更远时会导致模型效果的退化。

相关工作

含参数的深度聚类方法：主要分成两种类型，两阶段的方法和端到端的方法。前者是在完成代理任务（pretext task）的过程中学习到特征提取。强调了SCAN在参数并非最优的时候会导致性能恶化。后者是交替进行特征学习和簇分配的。本文着重于聚类部分而不是特征学习，并且将展示如何将两种方法结合起来。本文指出，其他方法都是用一个预定义的、固定的K值，有效的K值需要大量的时间去训练才能获得（所以使用模型选择来寻找正确的K值是消耗巨大且不实用的）

无参数的传统聚类方法：贝叶斯无参数（BNP）混合模型，也称为DPM。大量计算机视觉的聚类方法依赖于贝叶斯无参聚类，部分原因是缺少针对大规模数据集的有效推理方法。有研究员针对这个提出了更高效的DPM采样器。值得注意的是，采样的一个重要替代方法是变分DPM推理。一种不基于贝叶斯的无参方法DBSCAN，该方法以密度为基础，将密集的点聚集到一起。虽然DBSCAN非常高效，但是它对参数非常敏感并且难以精调。

无参数的深度聚类方法：很少有方法会去寻找K值。有些方法使用离线的DPM推理来计算伪标签。有些依赖于缓慢DPM采样器的方法无法应用于大规模数据集。总得来说就是别人的方法要么不够高效要么不能应用于大规模数据集，要么就是利用有监督的方法。

预备知识：

高斯混合模型Gaussian Mixture Model（GMM）：高斯混合模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。（取自：高斯混合模型_百度百科）

折棍子模型Stick Breaking：参考这篇文章从折棍子（Stick Breaking）模型到狄利克雷过程（DP）_sysuhu的博客-CSDN博客

逆威沙特分布I nverse Wishart (IW)：逆威沙特分布，也叫 反威沙特分布，是统计学中出现的一类概率分布函数，定义在实值的正定矩阵上。（取自：逆威沙特分布_百度百科）

狄利克雷过程高斯混合模型Dirichlet Process GMM（DPGMM）： 是DPM的一种具体情况，包含有无限多高斯函数的混合概念:

论文阅读“DeepDPM: Deep Clustering With an Unknown Number of Clusters” (CVPR 2022)

让

表示高斯k的参数，这里是k不是聚类的簇个数，表示的是第k个高斯函数

（下来的太难了我开始说胡话了）

和

假设是(独立地)从它们自己的先验分布中得出的：π是在浓度参数α>0的情况下从Griffiths-Engen-McCloskey stick-breaking process (GEM)获得的；

是独立的统一分布（先验知识），从先验分布

中提取出，是典型的正态-逆威沙特分布。虽然存在无限多的分量，但簇的数量仍然是有限的，因为潜在随机变量K的上界是N。通过可能的重命名聚类索引，我们可以假定，不失一般性，有

DPGMM算法往往用在K值不确定的情况下，往往会寻找

以及

，找到了z其实就是找到了K。K值受

以及正态-逆威沙特分布的超参数影响。本文在DPM sampler的基础上，选择了其分裂/融合网络的网络架构，增加了潜变量

。对于每一个

，都添加了一个子簇标签

。对于每一个

，都添加了两个子变量

，以及非负数权值

。然后，分裂/融合操作允许改变K值，通过Metropolis-Hastings模型（译者：作者有给该论文链接，感兴趣的可以自己看一下）。在推理过程中，每经过一定次数的迭代，就会将簇k分割成它的子簇。这种分割被接受的概率为min(1, Hs)

在分裂被接受后，每个新生成的簇群都用两个子簇群进行扩充。Hs可以解释为，将 _两个子簇下的数据的边际似然性_与其在该簇下的边际似然性进行比较的结果。

论文方法：

DeepDPM模型

DeepDPM可以被看作是一种DPM推理算法，通过分裂/融合操作来改变K值，并对每一个簇维护一个子簇对。使用一个由一个新颖的分期（amortized：adj. 分期偿还；已摊销的；已分期偿还的
n. 摊销额 vt. 摊销（amortize的过去分词）；分期偿还；把…转让）推理训练的深度网络。DeepDPM主要由两部分构成。

第一部分是一个聚类网络clustering net

其中，

，是样本点对簇k的软分布（也称为簇k对样本点x的责任值，样本点x分配到簇k的概率）

并且

然后计算出硬分布值

通过

第二部分是K个子聚类网络 _K_subclustering nets

对于每一个子聚类网络

，输入的是每个子簇的硬分布值，输出的是每个子簇的软分布值，公式如下：

其中，

，是样本点x对子簇

的软分布,并且有

。学习到的子簇分布将用来进行分裂操作。

对于这1+K个网络（1个聚类网络，K个子聚类网络），都是一个MLP加单层隐藏层。聚类网络的最后一层有K个神经元，子聚类网络的最后一层有2个神经元。

损失函数

在贝叶斯GMM中引入一种新的由最大期望EM引起的损失。在每一轮的训练中，聚类网络都被优化，并生成更好的软分布。每经过E个step的训练，就会在贝叶斯GMM中进行一个标准的M step，其中最大后验估计Maximum-a-Posterior(MAP)中使用的软赋值是由聚类网络产生的。

对于每一个样本点

已经每一个

，都计算标准的E-step概率

，其中，

是根据前一个epoch中的

计算得来。请注意

。

为了鼓励聚类网络生成相似的软分布，使用一个KL散度计算损失：

其他研究员使用了加权版本的MAP估计计算

，其中的参数为

的值。本文中使用相同的损失函数但是由不同的参数构成，将

替换成

（也就是聚类网络的输出）。与那些强制/假设权重是均匀的方法(例如K-means或SCAN)不同，本文通过计算推断的聚类权重

是被允许偏离一致性的（大概意思应该是K值是动态变化的吧）

对于子簇网络的loss函数为：

其中，

是簇k的子簇 j 的均值。在每一个epoch的结尾计算子簇的损失，以及子簇的权重和协方差，使用加权MAP估计，与簇网络的的情况相似。这个loss函数，在子簇的计算时，比KL散度的效果更好。上述的迭代过程需要一个初始化，本文使用K-means进行初始化（对于聚类网络，使用K的某个初始值，对于子聚类网络使用K=2）。DeepDPM对初始K具有相当强的鲁棒性，因此可以任意选择初始K。

通过分裂\融合操作改变K值

每经过几个epoch就会进行分裂\融合操作。因为K值在不断变化，所以聚类网络和子聚类网络的最后一层的输出神经元数目也是不断变化的。并且，分裂\融合操作有助于避免局部最优解。

分裂

分裂操作中，将一个簇分成两个簇。分裂操作的使用是随机被接受的，概率为

。为了适应K值的变化，如果对簇k使用了分裂操作，复制聚类网络最后一层的第k个单元，以及连接到前一隐藏层的权值，然后利用子聚类网络学习到的参数初始化两个新聚类的参数（相当于把聚类网络的输出部分复制一份）

其中，

和

代表两个新簇。并且对每一个新簇分配一个子簇网络。

融合

执行融合操作的时候必须保证不会同时执行多个融合操作，比如：在簇

和

进行融合的时候，进行

和

的融合，会错误的融合出三个簇（

）。因此，分裂操作可以同时操作，而融合操作不能同时操作。为避免顺序地考虑所有可能的合并，本文将只按顺序融合相邻的三个邻居。融合操作的进行\阻止将以通过Hastings ratio决定，其中

。如果执行融合操作，两个簇将被融合，并且初始化一个新的子簇。在技术实现上，将合并后的簇的最后一层单元和连接到前一层的网络权值，并从簇网络中移除，并使用加权MAP估计初始化新簇的参数和权值。

分期最大期望推理

假设关闭分裂\融合操作并使用真实的K值。看起来，每个epoch将变成简单的单个最大期望迭代。即使这样，本文方法仍然可以得到比标准EM更好的结果。作者假设出现这样结果的原因是使用了分期最大期望推理。利用网络学习到的函数的平滑性，改进了对当前epoch和其他epoch的预测。平滑度也作为一种归纳偏差，使得观察空间中接近的点应该有相似的标签。

不用本文的loss也可以使用GMM的负对数似然，但是这会带来不稳定的优化\更差的结果。不仅如此，本文的损失基于匹配软标签，而不是似然函数/后验知识，这使得本文方法更加通用:聚类网络和聚类损失可以用于任何成分类型，而不仅仅是符合高斯分布的数据。

消融实验

探究了模型在平衡\不平衡数据集的表现

探究了初始K值对模型效果影响

Original: https://blog.csdn.net/qq_43497436/article/details/124132318
Author: 不吃香菜的zbw
Title: 论文阅读“DeepDPM: Deep Clustering With an Unknown Number of Clusters” (CVPR 2022)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549766/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析实例-餐饮行业分析

本次数据分析案例共有8道题开发工具：jupyter bootbook 话不多说，首先导入本次案例需要用到的包导包 import pandas as pd import matp…

人工智能 2023年7月16日
0063
three.js之组对象

文章目录简介例子查看组对象组对象相关方法 * add remove 层级模型节点命名、查找、遍历 * 模型命名例子遍历查找本地坐标与世界坐标 * 例子本地坐标世…

人工智能 2023年7月30日
0055
cuda11.3+torch1.12.0+torchvision0.13.0

前言本电脑之前已安装CUDA，但一些老版本的torchvision并不支持新的网络，为了构建网络方便，就重新安装了CUDA、cuDNN、torch和torchvision。 CU…

人工智能 2023年6月16日
0092
FPN网络详解

1 特征金字塔特征金字塔(Feature Pyramid Networks， FPN)的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试，目的是提升检测算法对…

人工智能 2023年7月30日
0059
【深度学习】训练集、测试集和验证集

码字不易，如果各位看官感觉该文章对你有所帮助，麻烦点个关注，如果有任何问题，请留言交流。如需转载，请注明出处，谢谢。文章链接：https://blog.csdn.net/hero…

人工智能 2023年6月15日
00103
图像质量评估指标：PSNR / SSIM 原理及Python代码

2023.6.19 更新：PSNR与SSIM的API已迁移至 skimage.metrics.peak_signal_noise_ratio 和 skimage.metrics.s…

人工智能 2023年7月5日
0080
深度学习 | TensorFlow 2.x 和 1.x 限制显存（超详细）

本文为 HinGwenWoong 原创，如果这篇文章对您有帮助，欢迎转载，转载请阅读文末的【授权须知】，感谢您对 HinGwenWoong 文章的认可！部署深度学习服务的时候，往…

人工智能 2023年5月23日
0094
python文字转语音哪个库好用

*python文字转语音哪个库好用？ Python 文字转语音（TTS，TextToSpeech）有很多库可以实现，例如： pyttsx3 gTTS IBM Watson TTS …

人工智能 2023年5月23日
0080
python中的range()函数

range()函数：用于生成一个整数序列； range()的三种创建方式：第一种：只有一个参数（小括号中只给了一个数）即range(stop) 例如：range(10)指的是默认…

人工智能 2023年7月4日
0085
Tensorflow模型保存与预测

目录 1. Estimator形式 1.1 模型导出 A. 用到了tf.feature_column接口 B. 没用到tf.feature_column接口，需要自己定义featu…

人工智能 2023年5月23日
0089
torch.nn.parallel.DistributedDataParallel

Node: 一个节点, 可以理解为一台电脑. Device: 工作设备, 可以简单理解为一张卡, 即一个GPU. Process: 一个进程, 可以简单理解为一个Python程序….

人工智能 2023年7月21日
0053
多智能体强化学习之值函数分解：VDN、QMIX、QTRAN系列优缺点分析（转载）

这个博客是转载网易伏羲实验室的博客，为了让自己能更详细的记住这个博客的内容，所以决定手动抄写一遍。考虑到一些道友的爱好，我会用一些比较诙谐的语言来形象的解释一些枯燥的学术定理。 …

人工智能 2023年7月28日
0083
pandas获取数据集数据类型分布（更细粒度的分割）

方法一：使用pandas内置接口在pandas中，获取数据类型有几个方法，以泰坦尼克号数据集为例， 1.拿到numerical数据类型 df.select_dtypes(‘num…

人工智能 2023年7月7日
0071
常用的图像处理标准图片汇总

常用的图像处理标准图片汇总在进行图像处理时，有一些常用的图像数据需要用到，这里总结一下这些图像。 1.Lena、Baboon等数据主要包括：Baboon、Barbara、Cam…

人工智能 2023年6月18日
0081
基于机器学习的恶意样本静态检测的代码详解(ember)

文章目录 1. 类与类之间的关系 2. 每个类的详细分析 * 2.1 ByteHistogram 2.2 ByteEntropyHistogram 2.3 SectionInfo …

人工智能 2023年7月2日
0060
【目标检测】SSD+yolo系列（v1-v7)

目录 SSD: Single Shot MultiBox Detector — 2016 YOLO V1 — 2016 YOLO V2 — 20…

人工智能 2023年7月10日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文阅读“DeepDPM: Deep Clustering With an Unknown Number of Clusters” (CVPR 2022)

DeepDPM模型

损失函数

通过分裂\融合操作改变K值

分裂

融合

分期最大期望推理

大家都在看