聚类的评价指标

2023年9月26日下午10:37 • Python • 阅读 53

聚类的评价指标

对于聚类结果的评价方法一般可以分为内部评估法（internal evaluation）与外部评估方法（external evaluation）。

外部评估方法是指在知道真实标签（ground truth ）的情况下来评估聚类结果的好坏， 例如纯度（ Purity）、兰德系数（Rand Index, RI）、F值（F-score）和调整兰德系数（Adjusted Rand Index,ARI）。一般来说在做论文，或者是有少量的标注数据时，都可以用外部评估法选择一个相对最优的聚类模型，然后再应用到其它未被标记的数据中。

纯度：用聚类正确的样本数除以总的样本数。
兰德系数（Rand Index, RI）和 F值（F-score）：

TP：表示两个同类样本点在同一个簇（布袋）中的情况数量；

FP：表示两个非同类样本点在同一个簇中的情况数量；

TN：表示两个非同类样本点分别在两个簇中的情况数量；

FN：表示两个同类样本点分别在两个簇中的情况数量；

TP=20的含义就是在所有簇中，任一簇中任取两个样本均是同一类别的情况总数；

则表示在所有簇中，任两簇中各取一个样本均不是同一类别的情况总数。

在这里RI和

的取值范围均为

，越大表示聚类效果越好。

*调整兰德系数

调整兰德系数是兰德系数的一个改进版本，目的是为了去掉随机标签对于兰德系数评估结果的影响。（随机将每个样本都划到一个簇中（也就是17个簇））

根据聚类得到的结果和真实标签我们便能得到如下所示的列联表（ contingency table）：

内部评估法是不借助于外部信息，仅仅只是根据聚类结果来进行评估， 常见的有轮廓系数（ Silhouette Coefficient）、Calinski-Harabasz Index等，这些sklearn中也都有实现可以直接调用。一般来说，在完全没有标记数据的情况下可以通过这种方式来评估聚类结果的好坏。

轮廓系数（Silhouette Coefficient）聚类性能评估-轮廓系数 – 知乎

是聚类效果好坏的一种评价方式。轮廓系数取值范围为[-1,1]，取值越接近1则说明聚类性能越好，相反，取值越接近-1则说明聚类性能越差。

a：某个样本与其所在簇内其他样本的平均距离
b：某个样本与其他簇样本的平均距离

针对某个样本的轮廓系数s为：

聚类总的轮廓系数SC为：

轮廓系数的优点

轮廓系数为-1时表示聚类结果不好，为+1时表示簇内实例之间紧凑，为0时表示有簇重叠。
轮廓系数越大，表示簇内实例之间紧凑，簇间距离大，这正是聚类的标准概念。

轮廓系数的缺点

对于簇结构为凸的数据轮廓系数值高，而对于簇结构非凸需要使用DBSCAN进行聚类的数据，轮廓系数值低，因此，轮廓系数不应该用来评估不同聚类算法之间的优劣，比如Kmeans聚类结果与DBSCAN聚类结果之间的比较。

根据折线图可直观的找到系数变化幅度最大的点，认为发生畸变幅度最大的点就是最好的聚类数目。

Calinski-Harabaz 指数 聚类模型评价（python） – 知乎

Calinski-Harabaz指数也可以用来选择最佳聚类数目，且运算速度远高于轮廓系数。当内部数据的协方差越小，类别之间的协方差越大，Calinski-Harabasz分数越高。

Original: https://blog.csdn.net/weixin_39915444/article/details/120979705
Author: 儒雅的晴天
Title: 聚类的评价指标

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/785436/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

初识设计模式 – 模板方法模式

在模板方法设计模式（Template Method Design Pattern）中比较重要的两个概念是基本方法和模板方法。实现具体逻辑步骤的方法可以称之为基本方法，而把基…

Python 2023年10月17日
0051
在Python中寻找数据异常值的三种方法

1. 引言在数据处理和机器学习领域，我们经常需要处理各种数据。本文重点介绍了三种非常简单的方法来检测数据集中的离群点。别说闲话了，我们开始吧。 [En] In the field…

Python 2023年5月24日
0054
Python使用numpy包编写自定义函数计算平均绝对误差(MAE、Mean Absolute Error)、评估回归模型和时间序列模型、解读MAE

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月24日
0042
跟我学Python图像处理丨图像分类原理与案例

摘要：本篇文章将分享图像分类原理，并介绍基于KNN、朴素贝叶斯算法的图像分类案例。本文分享自华为云社区《[Python图像处理] 二十六.图像分类原理及基于KNN、朴素贝叶斯算法…

Python 2023年9月15日
0055
接口自动化框架之python pytest-mark（三）

一、mark标签介绍在测试用例/测试类前面加上： @pytest.mark.标签名，打标记…

Python 2023年9月12日
0042
flask中使用FileField上传文件的两种方式+前端页面上传文件（flask三种上传文件方式）

文章目录上传文件方式一： * 1.index.html文件： 2.主文件main.py: 上传文件方式二： * 1.index2.html文件： 2.main.py文件：上传文…

Python 2023年8月12日
0093
第十九章 webpack5项目搭建Vue-Cli(合并配置)

对于开发环境的配置和生产环境的配置，有大部分代码配置是重复的，因此我们希望将配置合并减少代码体积。对于Vue-Cli的合并配置，我们使用 webpack.prod.js进行改造。…

Python 2023年10月7日
0053
论文解读（PCL）《Probabilistic Contrastive Learning for Domain Adaptation》

论文信息论文标题：Probabilistic Contrastive Learning for Domain Adaptation论文作者：Junjie Li, Yixin Zh…

Python 2023年10月13日
0041
【无标题】pytest中一个测试类中的参数定义的规范

以前写pytest的测试类，总是稀里糊涂的就把类定义的变量放在了setup_class（）方法中，甚至与认为所有的测试方法都可以直接使用或者修改方法中定义的变量，来传到参数，结果后…

Python 2023年9月13日
0050
python pygame模块按键延迟_Pygame程序中的奇怪延迟

我在pygame中运行一个小游戏，在主循环的每次迭代之间需要一个恒定的延迟。虽然我把FPS数锁定在60pygame.Clock.tick\u busy\u循环()，我观察到延迟的变…

Python 2023年9月22日
0048
图像数据预处理

文章 * – + 1.下载数据集 + 2.数据集划分 + 3.数据预处理代码 1.下载数据集首先我们需要先到网上下载猫狗数据集： 猫&#…

Python 2023年9月28日
0062
如何让你的Python程序，定时定点地去执行任务？

我们项目中总是避免不了要使用一些定时任务，比如说最近的项目，用户点击报名考试以后需要在考试日期临近的时候推送小程序消息提醒到客户微信上，翻了翻 fastapi 中的实现，虽然方法和…

Python 2023年5月24日
0073
python学习笔记

一、1.”init.py”是什么当文件夹下有__init__.py时，表示当前文件夹是一个’”包”package，其下的多个模块m…

Python 2023年8月12日
0047
爬虫之selenium

selenium介绍基本使用 selenium用法元素操作等待元素被加载元素各项属性执行js代码切换选项卡浏览器前进后退无界面浏览器 xpath的使用简单介绍 s…

Python 2023年11月1日
0049
js跳转(js跳转网页)

javascript常用的页面跳转方法为： window.location.href=some_url; 下面举例演示点击按钮后，延迟3秒跳转页面： 1、HTML结构 2、java…

Python 2023年10月9日
0075
爬虫日记(66)：Scrapy的设置参数-抓取风格

Scrapy允许我们采用不同的风格来抓取网页。针对不同的需求，需要采用不同的抓取方式。比如我们去抓取小说网站的时候，就需要采用深度优先的方式，因为一部小说是一章接着一章更新下去的，…

Python 2023年10月5日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类的评价指标

聚类的评价指标

大家都在看