十分钟掌握聚类算法的评估指标

2023年5月31日上午6:38 • 人工智能 • 阅读 56

聚类算法属于非监督学习，它并不像分类算法那样可以使用训练集或测试集中的数据来计算准确率、召回率等。

那么如何评估聚类算法得好坏呢？

好的聚类算法，一般要求类簇具有：

簇内 (intra-cluster) 相似度高
簇间 (inter-cluster) 相似度底

一般来说，评估聚类质量有两个标准，内部评估评价指标和外部评估指标。

内部评估的方法

内部评估指标主要基于数据集的集合结构信息从紧致性、分离性、连通性和重叠度等方面对聚类划分进行评价。即基于数据聚类自身进行评估的。

轮廓系数适用于实际类别信息未知的情况。

对于单个样本，设a是与它同类别中其他样本的平均距离，b是与它距离最近不同类别中样本的平均距离，其轮廓系数为：

s = b − a m a x ( a , b ) s = \frac {b-a} {max(a, b)}s =m a x (a ,b )b −a

对于一个样本集合，它的轮廓系数是所有样本轮廓系数的平均值。

轮廓系数的取值范围是[-1,1]，同类别样本距离越相近，不同类别样本距离越远，值越大。当值为负数时，说明聚类效果很差。

不适合基于密度的聚类算法（DBSCAN）。

在真实的分群label不知道的情况下，Calinski-Harabasz可以作为评估模型的一个指标。

Calinski-Harabasz指数通过 计算类中各点与类中心的距离平方和来度量类内的紧密度，通过 计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标 由分离度与紧密度的比值得到。从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。

当簇的密集且分离较好时，分数更高。
得分计算很快，与轮廓系数的对比，最大的优势：快！相差几百倍！毫秒级。
凸的簇的CH指数通常高于其他类型的簇。例如，通过 DBSCAN 获得基于密度的簇；所以，不适合基于密度的聚类算法（DBSCAN）。

DB指数是计算任意 两类别的类内距离平均距离之和除以 两聚类中心距离求最大值。DB越小，意味着类内距离越小同时类间距离越大。 零是可能的最低值，接近零的值表示更好的分区。

其公式为：

R i j = s i + s j d i j R_{ij} = \frac {s_i+s_j} {d_{ij}}R i j =d i j s i +s j

D B = 1 k ∑ i = 1 k max ⁡ i ≠ j R i j DB = \frac {1} {k} \sum_{i=1}^k{\max_{i \neq j} R_{ij}}D B =k 1 i =1 ∑k i =j max R i j

其中，s i s_i s i 表示簇的每个点与该簇的质心之间的平均距离，也称为簇直径。d i j d_{ij}d i j 表示聚类i和j的质心之间的距离。

算法生成的聚类结果越是朝着簇内距离最小（类内相似性最大）和簇间距离最大（类间相似性最小）变化，那么Davies-Bouldin指数就会越小。

缺点：

因使用欧式距离，所以对于环状分布聚类评测很差。

外部评估的方法

外部有效指标是指 当数据集的外部信息可用时，通过比较聚类划分与外部准则的匹配度，可以评价不同聚类算法的性能。即通过将聚类结果与已经有”ground truth”分类进行对比。

要么通过人进行手动评估，要么通过一些指标在特定的应用场景中进行聚类用法的评估。

不过该方法是有问题的，如果真的有了label，那么还需要聚类干嘛，而且实际应用中，往往都没label；另一方面，这些label只反映了数据集的一个可能的划分方法，它并不能告诉你存在一个不同的更好的聚类算法。

兰德指数是将聚类看成是一系列的决策过程，即对文档集上所有 N ( N − 1 ) / 2 N(N-1)/2 N (N −1 )/2 个【文档对】进行决策。当且仅当两篇文档相似时，我们将它们归入同一簇中。

正确决策:

TP 将两篇相似文档归入一个簇 (同 – 同)
TN 将两篇不相似的文档归入不同的簇 (不同 – 不同)

错误决策:

FP 将两篇不相似的文档归入同一簇 (不同 – 同)
FN 将两篇相似的文档归入不同簇 (同- 不同)

RI 则是计算「正确决策」的比率(精确率, accuracy)。

其公式为：

\text{RI} = \frac{a + b}{C_2^{n_{samples}}} = \frac {TP+TN} {TP + TN + FP + FN} = \frac {TP+TN} {C_2^{n_{samples}}}

其中，C表示实际类别信息，K表示聚类结果，a表示在C与K中都是 同类别的元素对数，b表示在C与K中都是 不同类别的元素对数，C 2 n s a m p l e s C_2^{n_{samples}}C 2 n s a m p l e s 表示数据集中可以组成的对数。

RI取值范围为[0,1]，值越大意味着聚类结果与真实情况越吻合。

对于随机结果，RI并不能保证分数接近零。为了实现”在聚类结果随机产生的情况下，指标应该接近零”，调整兰德系数（Adjusted rand index）被提出，它具有更高的区分度。

其公式为：

ARI = RI − E [ RI ] max ⁡ ( RI ) − E [ RI ] \text{ARI} = \frac{\text{RI} – E[\text{RI}]}{\max(\text{RI}) – E[\text{RI}]}ARI =max (RI )−E [RI ]RI −E [RI ]

ARI取值范围为[-1,1]，值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度。

优点：

对任意数量的聚类中心和样本数，随机聚类的ARI都非常接近于0。
取值在［－1，1］之间，负数代表结果不好，越接近于1越好。
对簇的结构不需作出任何假设：可以用于比较聚类算法。。

缺点：

互信息是用来衡量两个数据分布的吻合程度。它也是一有用的信息度量，它是指两个事件集合之间的相关性。互信息越大，词条和类别的相关程度也越大。

假设U与V是对N个样本标签的分配情况，则两种分布的熵（熵表示的是不确定程度）分别为：

H(U) = – \sum_{i=1}^{|U|}P(i)\log(P(i))

H ( V ) = − ∑ j = 1 ∣ V ∣ P ′ ( j ) log ⁡ ( P ′ ( j ) ) H(V) = – \sum_{j=1}^{|V|}P'(j)\log(P'(j))H (V )=−j =1 ∑∣V ∣P ′(j )lo g (P ′(j ))

U与V之间的互信息的表达式为：

MI ( U , V ) = ∑ i = 1 ∣ U ∣ ∑ j = 1 ∣ V ∣ P ( i , j ) log ⁡ ( P ( i , j ) P ( i ) P ′ ( j ) ) \text{MI}(U, V) = \sum_{i=1}^{|U|}\sum_{j=1}^{|V|}P(i, j)\log\left(\frac{P(i,j)}{P(i)P'(j)}\right)MI (U ,V )=i =1 ∑∣U ∣j =1 ∑∣V ∣P (i ,j )lo g (P (i )P ′(j )P (i ,j ))

其中，P ( i , j ) = ∣ U i ∩ V j ∣ / N P(i, j) = |U_i \cap V_j| / N P (i ,j )=∣U i ∩V j ∣/N是随机选取的对象同时属于 $U_i $类和 V j V_j V j 类的概率。

它也可以用集合基数公式表示：
$$
\text{MI}(U, V) = \sum_{i=1}^{|U|} \sum_{j=1}^{|V|} \frac{|U_i \cap V_j|}{N}\log\left(\frac{N|U_i \cap V_j|}{|U_i||V_j|}\right)

标准互信息的表达式为：
NMI ( U , V ) = MI ( U , V ) mean ( H ( U ) , H ( V ) ) \text{NMI}(U, V) = \frac{\text{MI}(U, V)}{\text{mean}(H(U), H(V))}NMI (U ,V )=mean (H (U ),H (V ))MI (U ,V )

利用基于互信息的方法来衡量聚类效果需要实际类别信息，MI与NMI取值范围为[0,1]，它们都是值越大意味着聚类结果与真实情况越吻合。

调整后的互信息是 对互信息评分的进行调整。

它考虑到对于具有更大数量的聚类群，通常MI较高，而不管实际上是否有更多的信息共享，它 通过调整聚类群的概率来纠正这种影响。

其表达式为：
AMI = MI − E [ MI ] mean ( H ( U ) , H ( V ) ) − E [ MI ] \text{AMI} = \frac{\text{MI} – E[\text{MI}]}{\text{mean}(H(U), H(V)) – E[\text{MI}]}AMI =mean (H (U ),H (V ))−E [MI ]MI −E [MI ]

AMI取值范围为[-1,1]，它们都是值越大意味着聚类结果与真实情况越吻合。

当两个聚类集相同（即完全匹配）时，AMI返回值为1；随机分区（独立标签）平均预期AMI约为0，也可能为负数。

两个指标：

同质性（homogeneity）：每个群集只包含单个类的成员。
完整性（completeness）：给定类的所有成员都分配给同一个群集。

V-measure是同质性homogeneity和完整性completeness的调和平均数。

其表达式为：

v = ( 1 + β ) × homogeneity × completeness ( β × homogeneity + completeness ) v = \frac{(1 + \beta) \times \text{homogeneity} \times \text{completeness}}{(\beta \times \text{homogeneity} + \text{completeness})}v =(β×homogeneity +completeness )(1 +β)×homogeneity ×completeness

V-measure取值范围为 [0,1]，越大越好，但当样本量较小或聚类数据较多的情况，推荐使用AMI和ARI。

FMI是Precision（精度）和 Recall（召回）的几何平均数。取值范围为 [0,1]，越接近1越好。

Recall（召回）和 Precision （精度），公式如下
R e c a l l = T P T P + F N Recall = \frac {TP} {TP+FN}R e c a l l =T P +F N T P

P r e c i s i o n = T P T P + F P Precision = \frac {TP} {TP+FP}P r e c i s i o n =T P +F P T P

但是其中定义的 TP,FP,TN,FN 和常见的分类任务不太一样，具体定义如下：

TP：样本对在GT(真实值)中是一个蔟，同时在Pred(预测值)中也是一个蔟
FP：样本对在Pred中是一个蔟，但是在GT中不是一个蔟
FN：样本对在GT中是一个蔟，但是在Pred中不是一个蔟
TN：样本对在GT中不是一个蔟，同时在Pred中也不是一个蔟

对于总样本有 n 个的聚类任务，假如是 s 1 , . . . , s n s_1,…,s_n s 1 ,…,s n 那么可以组成 ( n − 1 ) ∗ n 2 \frac {(n-1)*n}{2}2 (n −1 )∗n 个样本对，即 $ C_n^2$，而 TP,FP,TN,FN 是定义这些样本对的基础上，在因此有下面的等式成立：

T P + F P + T N + F N = ( n − 1 ) ∗ n 2 TP+FP+TN+FN = \frac {(n-1)*n}{2}T P +F P +T N +F N =2 (n −1 )∗n

FMI的公式定义为：

F M I = T P ( T P + F P ) ( T P + F N ) FMI = \frac {TP} { \sqrt { (TP+FP)(TP+FN)}}F M I =(T P +F P )(T P +F N )T P

一般情况下，主要是对无y值的数据进行聚类操作。如果在评价中用到外部指标，就需通过人工标注等方法获取y值，成本较高，因此内部指标的实际实用性更强。

Original: https://blog.csdn.net/scgaliguodong123_/article/details/121303457
Author: 李国冬
Title: 十分钟掌握聚类算法的评估指标

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549466/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

HOI经典论文WACV 2018 | Learning to Detect Human-Object Interactions 论文学习笔记

本文研究内容为在静态图像种检测人物交互关系。其被定义为预测一个人、物边界框，以及一个将他们联系起来的交互类标签。HOI检测是计算机视觉种一个基本的问题，因为它提供了被检测物体之间交…

人工智能 2023年7月1日
0080
pandas数据分析工具

pandas : python data analysis lib基于numpy 的数据分析工具，可以高效的操作大型结构化结构化结构化的数据数据结构：数据在计算机中的存储、…

人工智能 2023年7月9日
0086
ROS点云话题sensor_msgs::PointCloud2转pcl::PointCloud的两种方式

在ROS中订阅点云话题的时候，需要先将数据类型转换成PCL格式之后再做操作。方式一：直接调用pcl自带的函数 pcl::fromROSMsg(const sensor_msgs…

人工智能 2023年5月26日
00112
深度学习中欠拟合解决方案

欠拟合与过拟合欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况；过拟合是指模型在训练集上表现很好，到了验证和测试阶段就大不如意了，即模型的泛化能力很差。欠拟合和过拟合…

人工智能 2023年5月28日
0073
中医meta分析，成功投稿二区期刊

研究分析—怎么进行具体的研究关键：熟练掌握Revman软件，PRISMA流程管理（1）流程管理，PRISMA the guidelines for Preferred Rep…

人工智能 2023年6月11日
0046
卷积层在CNN中扮演什么角色

卷积层在CNN中的角色卷积层是卷积神经网络（Convolutional Neural Network，CNN）中的一个关键组件，它被用来提取输入图像中的特征。卷积层在CNN中起到…

人工智能 2024年1月1日
0034
torch.mul()——矩阵点乘运算

torch.mul(input, other, *, out=None) 输入：两个张量矩阵；输出：他们的点乘运算结果用途： ①实现两个张量矩阵的点乘运算，可以实现广播功能(具…

人工智能 2023年7月23日
0062
LSTM算法详细解析（含案例）

LSTM单元结构图。前向传播：在Understanding LSTM Networks博客中已经详细得不能再详细的介绍了LSTM网络的前向传播过程。如果英文能力不是很好，也可以参…

人工智能 2023年7月12日
0077
毕业设计第一次总结（基于知识图谱的医疗问答）

毕业设计第一次总结（基于知识图谱的医疗问答）写在文章前面：之所以做总结是因为本人也是一个刚入门知识图谱的本科萌新，也不是什么大佬，在整个过程中遇到了不少困难，然后也有一些自己的心…

人工智能 2023年6月1日
00104
yolov3原理加代码的理解

前言哈喽呀，好久没有写word了，这里是我记录学习心得的地方，希望自己写出来的东西有啥不对的地方欢迎批评指正哟！前一阵子，最开始作为啥也不会的小白的时候，我看了唐宇迪的课，然后建…

人工智能 2023年7月9日
0077
3层神经网络的实现

输入层到第一层从输入层到第1层的第1个神经元的信号传递过程，如下图所示：现在用数学式表示 a1(1) 。 a1(1)通过加权信号和偏置的和按如下方式进行计算。使用矩阵的乘法运算，…

人工智能 2023年7月12日
0081
图像的形态学开操作(开运算)和闭操作(闭运算)的概念和作用,并用OpenCV的函数morphologyEx()实现对图像的开闭操作

大家看这篇博文前可以先看一看下面这篇博文，下面这篇博文是这篇博文的基础：详解图像形态学操作之图形的腐蚀和膨胀的概念和运算过程,并利用OpenCV的函数erode()和函数dilat…

人工智能 2023年6月19日
0093
图像恢复(加噪与去噪)

人工智能导论实验导航实验一：斑马问题 https://blog.csdn.net/weixin_46291251/article/details/122246347 实验二：图像…

人工智能 2023年6月24日
0092
pandas—删除某行或某列数据

首先，创建一个DataFrame格式数据作为举例数据。 data = {‘a’: [‘a0’, ‘a1’, ‘a2’], ‘b’: [‘b0’, ‘b1’, ‘b2’], ‘c’:…

人工智能 2023年7月5日
00109
调参侠带你入门深度学习：Lenet分类实战（1）：模型的构建

前言为什么要再次学习呢？因为我以前都是基于飞桨学的，飞桨实现起来是真的很容易，但是吧，我虽然知道咋实现的，但是我没有能力去将其自己写出来，也不够深入，所以本次学习为了摆脱这种困境…

人工智能 2023年7月2日
0079
java计算机毕业设计的健身房管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

十分钟掌握聚类算法的评估指标

内部评估的方法

外部评估的方法

大家都在看