子空间聚类的常见评估指标及pytorch实现

2023年5月31日上午11:40 • 人工智能 • 阅读 62

子空间聚类的常见评估指标：ACC, SRE 和 CONN

引言
Evaluation Metrics
*
聚类准确度（Clustering accuracy, ACC）
子空间保持误差（SRE）
连通性（Connectivity, CONN）

本文参考了本组的论文S3C-OMP的附录，代码部分摘自本组的SENet， 未引用这两篇论文的转载是不被允许的。

引言

在评估聚类效果的时候，常常使用NMI和ARI，即归一化互信息和调整兰德指数，但这两个指标是以结果为导向的，无论采用了何种聚类方式。 但NMI和ARI只能告诉你聚类结果好不好，却无法知道你的聚类方法是否在有效工作。

在目前最流行的子空间聚类方法中，我们是通过构造coeff矩阵C来得到affinty A，之后通过谱聚类（spectral clustering）得到partition Q。子空间聚类已被证明和self-attention机制是密切相关的，因此是高效的，但也具有和self-attention一样的平方复杂度缺陷。

要了解子空间聚类是否真的在有效工作，就要评估系数矩阵C，这便是SRE和CONN这两个指标。，如接下来所介绍的那样。

Evaluation Metrics

聚类准确度（Clustering accuracy, ACC）

相比于有标签的准确度，聚类准确度的计算更加麻烦些，它是依据ground truth和分割矩阵Q来计算的。在实践中，ACC的好坏与否与ARI指标高度相关。如果ACC不理想，想办法提高ARI先！

acc指标表示了预测结果和ground truth之间的差距：

其中，有个100倍的系数是因为输出是百分比值，est即为estimation的缩写，true就是ground truth。当第j个点属于第i个cluster时，这两个Q在第( i , j ) (i,j)(i ,j )个元素为1，否则为0，也就是说Q的每行都是one-hot的。需要注意，其中π \pi π表示n个cluster的组合，因为聚类得到的是伪标签，必须用如匈牙利算法把伪标签和ground truth最大匹配起来。

; 子空间保持误差（SRE）

SRE有两种写法：Subspace Recovery Error和 Subspace-preserving Representation Error，但其实都表示一个意思，就是 衡量了C的子空间保持性质，SRE越低说明了误差越小，连通的分量c i j c_{ij}c i j 大都来自相同的子空间。
具体地，对于每个c j c_j c j ，我们计算它的来自其他子空间的ℓ 1 \ell_1 ℓ1 范数的分数，对所有j j j做求和平均：

其中w i j ∈ { 0 , 1 } w_{ij}\in {0,1}w i j ∈{0 ,1 }为true affinity。

给出SRE的pytorch实现：

def subspace_preserving_error(A, labels, n_clusters):
    one_hot_labels = torch.zeros([A.shape[0], n_clusters])
    for i in range(A.shape[0]):
        one_hot_labels[i][labels[i]] = 1.0
    mask = one_hot_labels.matmul(one_hot_labels.T)
    l1_norm = torch.norm(A, p=1, dim=1)
    masked_l1_norm = torch.norm(mask * A, p=1, dim=1)
    e = torch.mean((1. - masked_l1_norm / l1_norm)) * 100.

    return e

连通性（Connectivity, CONN）

connectivity衡量了C的连通性。我们希望低的SRE，但是过低的SRE往往会让C过于稀疏而在谱聚类时产生过分割最终影响聚类结果，因此我们希望连通性要高点好： CONN度量了同一个cluster中C的稠密程度，即我们希望同一类中的尽量不要出现c i j = 0 c_{ij}=0 c i j =0 。

所以，显然SRE和CONN是一对矛盾的指标，CONN提高往往导致SRE变差，SRE降低往往导致CONN下降。 子空间聚类方法好不好还要考虑到它能不能有效权衡SRE和CONN。实验也证明，只有CONN和SRE取得一个合理的balance的时候聚类精度才上得去。

不过，CONN的计算比较反直觉，这里介绍 代数连通性（algebratic connectivity），它的定义是： 归一化后的图拉普拉斯矩阵的第二小的特征值。对于一个无向权重图，权重为W ∈ R N × N W\in\mathbb R^{N\times N}W ∈R N ×N和度矩阵D = d i a g ( W ⋅ 1 ) D=diag(W\cdot 1)D =d i a g (W ⋅1 )，那么它的归一化图拉普拉斯为：

取L L L的第二个eigen value λ 2 ∈ [ 0 , n − 1 n ] \lambda_2 \in [0,\frac{n-1}{n}]λ2 ∈[0 ,n n −1 ]。为了评估具有n个cluster的affinity gpraph的连通性，我们计算每个n个子图的第二最小特征值，那么就得到了n个对应于第i i i个cluster的特征值{ λ 2 ( i ) } i = 1 n {\lambda_2^{(i)}}_{i=1}^n {λ2 (i )}i =1 n 。对于CONN有两种计算方法：取最小值或求平均值：

取最小值的话，实际中conn容易很小，比如1 0 − 16 10^{-16}1 0 −1 6量级，这个时候考虑取平均值：

小技巧：合成数据集上用最小值，真实数据集上用平均值

给出归一化图拉普拉斯的实现：

def normalized_laplacian(A):
    D = torch.sum(A, dim=1)
    D_sqrt = torch.diag(1.0 / torch.sqrt(D))
    L = torch.eye(A.shape[0]) - D_sqrt.matmul(A).matmul(D_sqrt)
    return L

CONN的pytorch实现：

def connectivity(A, labels, n_clusters):
    c = []
    for i in range(n_clusters):
        A_i = A[labels == i][:, labels == i]
        L_i = normalized_laplacian(A_i)
        eig_vals, _ = torch.symeig(L_i)
        c.append(eig_vals[1])
    return np.min(c)

def sparse_connectivity(A, labels, n_clusters):
    c = []
    for i in range(n_clusters):
        A_i = A[labels == i][:, labels == i]
        L_i = csgraph.laplacian(A_i)
        eig_vals, _ = sparse.linalg.eigsh(L_i, k=2, which='SA')
        eig_vals = sorted(eig_vals)
        c.append(eig_vals[1])
    return np.mean(c)

Original: https://blog.csdn.net/weixin_44876302/article/details/121500112
Author: 塔_Tass
Title: 子空间聚类的常见评估指标及pytorch实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550806/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

盘点两种使用Python读取.nc文件的方法

点击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤啼…

人工智能 2023年7月5日
0083
Pandas DataFrame构造简析

参考书籍：《利用Python进行数据分析》 DataFrame简介： DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）…

人工智能 2023年6月2日
0064
步进电机原理及参数详解

步进电机常见型号：20,28,35,39,42,57,86等，功能大同小异，差异主要点在尺寸和输出力的大小不一样。下面我们以57为例详细说明其原理。步进电机常见和用到最多的是2相步…

人工智能 2023年6月2日
0043
【深度学习】“OSError [WinError 1455]页面文件太小，无法完成操作”解决方案

目录前言解决方案 * 1.调整Dataloader中的参数num_workers为0 2.分配虚拟内存（页面文件） References 前言跑别人的深度学习论文代码时，出现…

人工智能 2023年7月20日
0047
利用opencv带你玩转人脸识别-下篇（人脸录入，数据训练，人脸识别小案例快速入门）

本文将介绍如何使用 OpenCV_进行 _人脸识别_模型的 _训练。 1. 收集人脸数据首先需要准备一些标记了人脸_的图像，可以通过人工标注或使用自动化工具来收集。要求每…

人工智能 2023年7月25日
0047
AU类型的fault占比过高，覆盖率低，Debug步骤

More articles You can follow the official account：”IC练习生”IC民工不定期更新 AU为ATPG unt…

人工智能 2023年6月26日
00130
抖音电商NLP日常实习生面经

首先先说下楼主的基本情况吧，研一在读，之前做过cv，后面转了nlp，无论文，有很水的比赛，就看过之前一些很basic的模型，读了transformer，bert等模型等一些源码。 …

人工智能 2023年5月28日
0055
亚运会倒计时！AI目标检测助力亚运陈共举办！

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 目标检测…

人工智能 2023年7月12日
0051
【自动驾驶】路径规划——ReedsShepp 曲线总结

1.1 基本概念曲线示例如下：图片来源：https://blog.csdn.net/robinvista/article/details/95137143 如上图可以知道，在 …

人工智能 2023年6月1日
0065
df pd 属性_pd.DataFrame()函数解析

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。== DataFrame的单元格可以存放数值、字符串等，这和excel表很像，同时…

人工智能 2023年7月8日
0081
Registration based Few-Shot Anomaly Detection

Registration based Few-Shot Anomaly Detection paper:https://arxiv.org/abs/2207.07361code:h…

人工智能 2023年7月28日
0053
python离线语音转文字

1、安装SpeechRecognition第三方库 pip install SpeechRecognition 2、安装pocketsphinx第三方库，安装时，可能会报错erro…

人工智能 2023年5月25日
0075
三元音音频分析以及三基色熵的计算

什么是元音？百度百科中所解释的”元音” 元音（Vowel），又称母音，是音素的一种，与辅音相对，是在发音过程中由气流通过口腔而不受阻碍发出的音。元音发音…

人工智能 2023年5月27日
0088
Ubuntu20.04配置pytorch深度学习环境（亲测有效）

Ubuntu20.04深度学习GPU环境配置首先将NVIDIA驱动安装好，这是一切开始的前提！！！！ 1.背景深度学习环境配置真是令人头大的一件事，在配置的过程中遇到了很多坑，…

人工智能 2023年7月23日
0080
【深度学习】逻辑回归及其损失函数的理解

文章目录一、什么是二分类与逻辑回归(Logistic Regression)？二、逻辑回归基本思路三、定义损失函数(Loss Function) 一、什么是二分类与逻辑回归(…

人工智能 2023年6月15日
0073
local_rank，rank，node等理解

node:代表物理节点，即电脑台数，一台电脑可以有多个GPU nnodes：物理节点数，就是电脑数量 node_rank：物理节点的序号，每个电脑的序号 nproc_per_nod…

人工智能 2023年7月26日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

子空间聚类的常见评估指标及pytorch实现

子空间聚类的常见评估指标：ACC, SRE 和 CONN

聚类准确度（Clustering accuracy, ACC）

; 子空间保持误差 （SRE）

连通性 （Connectivity, CONN）

大家都在看

; 子空间保持误差（SRE）

连通性（Connectivity, CONN）