干货！深度描述聚类——加州大学戴维斯分校计算机系博士生张洪境

2023年6月2日上午10:46 • 人工智能 • 阅读 77

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

本文旨在研究可解释聚类，现有的可解释聚类大多针对于特征可理解的表格型数据，然而大部分深度聚类模型被运用在图像，文本等特征抽象复杂的数据上。在这项工作中，我们通过引入语义标签提出了一种新的针对复杂数据的深度可解释聚类模型。具体地说，我们通过最大化互信息来进行无监督聚类，根据聚类的中间结果与语义标签我们求解一个基于整数规划的解释性目标函数来为每个簇生成简洁且正交的解释。最后我们提出一个自监督的成对样本损失函数来最大化聚类特征空间和类别解释模块的一致性。在公共图像数据集的实验结果表明我们提出的模型可以生成高质量的类别解释与优异的聚类效果。

本期AI TIME PhD直播间我们邀请到加州大学戴维斯分校博士——张洪境，为我们带来报告分享《深度描述聚类》。

张洪境：

加州大学戴维斯分校计算机系博士研究生，博士导师为Ian Davidson,主要研究方向为半监督学习，可解释AI和公平性机器学习。以第一作者在IJCAI, SDM, ECMLPKDD, DMKD等国际会议与期刊上发表多篇论文。个人主页: https://honhjingz.github.io/。

背景

机器学习模型在很多场景下都能够替代人类进行决策，因此理解模型的决策十分重要。可解释AI致力于提高复杂机器学习模型的可解释性，尤其是深度学习相关的算法。本文工作主要关注深度聚类算法的可解释性，假设我们使用深度聚类算法对下图左边的6个动物进行聚类生成A、B两个簇（cluster），这里就会有一个问题：如何描述和概括这两个簇？

现有的工作主要分为两类，一类是Explanation by Design，即学习聚类的同时生成相应解释，这类算法不适用文本图像等特征较抽象且难以理解的数据，并且不同的聚类算法需要设计不同可解释方法；另一类是Explanation by Post-Processing，需要引入额外语义标签帮助解释，可以应用于不同聚类模型。

受到Explanation by Post-Processing的启发，我们引入语义标签作为深度聚类算法输入，帮助产生更好聚类算法的结果解释。

下面是一个深度描述聚类的例子，输入是无类别标签的图片和相应语义标签，输出是聚类结果和语义标签组成的类别表示。

现有的深度聚类算法是将需要聚类的数据输入到神经网络，然后生成聚类结果，而没有利用好相应的语义标签进行聚类解释的后处理。因此我们期望利用语义标签来提升深度聚类算法的效果和解释聚类结果。

方法

本文提出的深度描述聚类（DDC）方法主要包括三个部分，第一个部分是基础深度聚类模型，用来对数据聚类，生成聚类结果。第二个部分根据语义标签和基础聚类模型的聚类结果求解一个带约束的类别解释目标函数，这部分输出包括生成的类别解释和一个语义解释映射函数，这个映射函数会过滤掉冗余标签来得到解释空间。

第三部分通过自监督学习生成约束对并进行优化——我们为具有相似解释但是在聚类空间中差异较大的样本对生成一致性约束，通过优化这种成对约束，我们最终使得解释空间中相似的样本对在聚类空间中也保持相似。

关于我们的基础聚类模型，它与传统的判别式聚类算法一致，我们通过最大化样本输入和类别指派的互信息来学习聚类。在我们提出的类别解释目标函数中，我们主要求解一个类别解释-整数规划问题，主目标是为每个簇求得简洁的语义解释，我们希望相同的解释在同一个簇的样本中拥有高的覆盖率，而这些解释在不同簇中尽量正交。在第三个模块中，我们通过最小化自生成的成对样本聚类结果的交叉熵来确保聚类特征空间与生成的解释空间保持高度一致。

实验

数据集：AwA / aPY

评价指标：

实验结果：

下面是本文方法DDC与2018年Dao的聚类算法的对比，可以看出本文方法的解释拥有最高的TC值，意味着本文方法给的解释能够准确描述每个簇。此外DDC也达到了最高的ITF值，这意味着DDC给出的解释是独特的。好的聚类解释可以提升聚类效果，相比Dao的算法，DDC的聚类结果也更好，相近的动物都被聚类到一起。

当解释类别或者解释标签过多时，为了方便的验证与理解我们生成的解释。本文提出了另一种基于图形ontology的解释，我们分别为aPY和AwA生产了相对应的图形化解释。

下图中的节点名称是基于簇中的大多数类而决定的，当两个簇共享一定数量的语义标签时，我们会为两个簇生成一条边，表示这两类具有一定的相似性。我们可以从左边apy数据集对应的ontology图看出，我们生成的聚类结果大致被分为了四个群体，分别是动物，家具，小的物件和交通工具。同样的，右图是awa数据集对应的图解释，相同科属的动物因为分享了一些类似的语义标签从而被连接到了一起，比如狮子、老虎以及猫科动物。

提

醒

论文链接:

https://www.ijcai.org/proceedings/2021/0460.pdf。

点击”阅读原文”，即可观看本场回放

整理：爱国

审核：张洪境

直播预告

1月26日 19:30 青年科学家-16

《青光眼估计和预测的深度学习模型》——香港理工大学电子计算学系研究助理教授许林川

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

2019年，清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起”AI TIME science debate”，希望用辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家与爱好者，打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

哦

点击 阅读原文 查看回放！

Original: https://blog.csdn.net/AITIME_HY/article/details/122711210
Author: AITIME论道
Title: 干货！深度描述聚类——加州大学戴维斯分校计算机系博士生张洪境

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560612/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

新零售场景（图像检索、识别，分类）sku级别数据集

1.AiProducts-Challenge（阿里2020）下载地址：2020-AiProducts-Challenge-dataset数据介绍：Large-scale Prod…

人工智能 2023年6月30日
00168
深度学习中的模型设计

文章目录 1. 如何学会深度学习模型设计与优化 * 1.1 深度学习之模型设计 – 1.1.1 模型深度——性能提升的关键 1.1.2 通道维度变换——基础设计单元 1…

人工智能 2023年7月13日
0071
《一文搞懂IoU发展历程》GIoU、DIoU、CIoU、EIoU、αIoU、SIoU

《一文搞懂IoU发展历程》GIoU、DIoU、CIoU、EIoU、αIoU、SIoU 文章目录《一文搞懂IoU发展历程》GIoU、DIoU、CIoU、EIoU、αIoU、SIoU…

人工智能 2023年7月25日
0061
PyTorch中的模型保存和加载是如何实现的

问题：PyTorch中的模型保存和加载是如何实现的？详细介绍在深度学习中，模型的保存和加载是非常重要的功能。通过保存模型，我们可以在训练期间定期保存模型的参数，以便稍后使用它们…

人工智能 2024年1月5日
0047
SSM框架实现登录注册功能

刚刚写出来的SSM登录注册案例，网上随便翻一下都有，本篇直接上手，使用Maven工程搭建一个简单的SSM框架实现简单的登录注册，验证重名功能。目录项目结构图持久层相关配置文…

人工智能 2023年7月29日
0089
深度强化学习-DDPG算法原理与代码

深度强化学习-DDPG算法原理与代码引言 1 DDPG算法简介 2 DDPG算法原理 2.1 经验回放 2.2 目标网络 2.2.1 算法更新过程 2.2.2 目标网络的更新 2…

人工智能 2023年6月26日
0094
火力发电行业三大知识图谱应用场景，助力火力发电厂清洁高效智慧化运营

据国家统计局数据显示，2020年全年中国累计发电量达到了74170.4亿千瓦时，其中火力发电量达52798.7亿千瓦时。我国的能源资源禀赋和能源格局使得火力发电依然占据主导地位，…

人工智能 2023年6月1日
0085
《Globally and locally consistent image completion》图像修复论文解读

作者在context encoder的基础上进行改进，整个网络由一个修复网络和两个鉴别网络（全局鉴别网络和局部鉴别网络）组成。修复网络用来对进入其中的图像进行修复，而鉴别网络用来对…

人工智能 2023年6月20日
0070
CUDA、cuDNN以及pytorch的版本选择和下载

CUDA、cuDNN以及pytorch的版本选择和下载安装前言一、CUDA * – 1、查看当前可支持的最高CUDA版本 2、CUDA下载 3、更高版本CUDA 二…

人工智能 2023年7月21日
0081
双目摄像头Matlab参数定标

一、前期准备 1、安装好python3，可以在anaconda中安装python3。2、一个合适的双目摄像头。3、一台可以运行Matlab的电脑。4、一张棋盘图（可A4打印，若效果…

人工智能 2023年7月5日
00103
RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublas‘

调用nn.linear时出现RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublas&…

人工智能 2023年7月21日
0052
Windows下配置yolov5并且实现cpu以及安装CUDA和cudnn实现gpu运行

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、准备工作 * 1.准备好anaconda作为python库管理软件 2.部署源码 3.安装依赖…

人工智能 2023年5月28日
00173
机器学习【基于sklearn库】-回归、分类、聚类

机器学习-回归、分类、聚类 1.是什么？ 2.一些基础概念（建议先看具体例子再返过来看概念） * mse均方误差、r2等等衡量标准过拟合和欠拟合 – 为了防止过拟合方…

人工智能 2023年5月31日
0080
源大模型API开源，让大模型飞入千行百业

近年来人工智能（AI）和深度学习（Deep learning）技术飞速发展，极大改变了我们日常的学习、工作与生活。伴随人类社会数字化和信息化产生的海量数据，人工智能技术能够有效学习…

人工智能 2023年5月31日
0086
python tips系列1——pandas的map函数

前言大家在使用pandas的时候，大部分可能就是一些匹配关系，主要也就是使用merge函数之类的。但是有时候在匹配的时候，并不需要使用merge的函数，使用别的函数也是可以做到，…

人工智能 2023年7月15日
0073
在anaconda中创建、删除虚拟环境并安装卸载包等问题

一虚拟环境 virtual environment 它是一个虚拟化，从电脑独立开辟出来的环境。通俗的来讲，虚拟环境就是借助虚拟机docker来把一部分内容独立出来，我们把这部分独…

人工智能 2023年7月21日
0038

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

干货！深度描述聚类——加州大学戴维斯分校计算机系博士生张洪境

大家都在看