聚类（六）—— 聚类评估

2023年5月31日下午12:39 • 人工智能 • 阅读 110

主要内容
聚类分析概述
 K-Means聚类
 层次聚类
 基于密度的聚类
 其他聚类方法
 聚类评估
 小结

六、聚类评估

聚类评估用于对在数据集上进行聚类的可行性和被聚类方法产生的结果的质量进行评估。聚类评估主要包括以下任务。
1.估计聚类趋势
2.确定数据集中的划分簇数
3.测定聚类质量

聚类趋势的估计

（3）

如果D是均匀分布的，H接近0.5。

聚类簇数的确定

找出正确的簇数依赖于数据集分布的形状和尺度，也依赖于用户要求的聚类分辨率。有许多估计簇数的可能方法。这里简略介绍几种简单但流行和有效的方法。

它基于如下观察：增加簇数有助于降低每个簇的簇内方差之和。这是因为有更多的簇可以捕获更细的数据对象簇，簇中对象之间更为相似。然而，如果形成太多的簇，则降低簇内方差和的边缘效应可能下降，因为把一个凝聚的簇分裂成两个簇只能使簇内方差和的稍微降低。因此，一种选择正确的簇数启发式方法是使用簇内方差和关于簇数曲线的拐点。

聚类质量的测定

1.外在方法

有许多度量（如熵、纯度、精度、召回率和F度量）用来评估分类模型的性能。对于分类，度量预测的类标号与实际类标号的对应程度。但是这些度量通过使用簇标号而不是预测的类标号，不需要做较大的改变。

兰德系数RI 和ARI：

a表示表示在实际类别信息与聚类结果中都是同类别的元素对数，b表示在实际类别信息与聚类结果中都是不同类别的元素对数，分母表示数据集中可以组成的总元素对数。

兰德系数的值在[0,1]之间，当聚类结果完美匹配时，兰德系数为1。对于随机结果，RI并不能保证分数接近零。为了实现”在聚类结果随机产生的情况下，指标应该接近零”，调整兰德系数（Adjusted rand index）被提出，它具有更高的区分度。

ARI取值范围为[-1,1]，负数代表结果不好，值越大意味着聚类结果与真实情况越吻合。ARI可用于聚类算法之间的比较。

sklearn中的ARI计算

from sklearn import metrics
labels_true = [0,0,0,1,1,1]
labels_pred = [0,0,1,1,2,2]
print(metrics.adjusted_rand_score(labels_true,labels_pred))

0.24242424242424243

2.内在方法

内在方法用于没有基准可用时的聚类质量评估，通过考察簇的分离情况和簇的紧凑度进行聚类评估。

sklearn中通过sklearn.metrics.silhouette_score()方法计算聚类的轮廓系数。

对Iris数据聚类并计算轮廓系数。

import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics
from sklearn.metrics import silhouette_score
from sklearn.datasets import load_iris
X = load_iris().data
kmeans_model = KMeans(n_clusters=3,random_state=1).fit(X)
labels = kmeans_model.labels_
metrics.silhouette_score(X,labels,metric='euclidean')

0.5528190123564091

Original: https://blog.csdn.net/shi_jiaye/article/details/119840606
Author: shi_jiaye
Title: 聚类（六）—— 聚类评估

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/551000/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch载入数据与对应的标签，使用torch.utils.data详解，DataLoader的使用

在进行深度学习处理的时候，我们需要将数据输入到神经网络中进行训练，训练网络的学习能力，其实是根据一定的规则更新网络节点中的参数，而这个规则的来源就是依赖于数据与标签。我们需要将数据…

人工智能 2023年7月14日
0076
TensorFlow2.8.0代码分析之例子examplesspeech_commandstest_streaming_accuracy之main函数

功能：对于连续的音频流，使用音频识别模型生成识别准确率的统计数据。 [En] Function: for a continuous audio stream, the audio …

人工智能 2023年5月24日
0088
Java图片或视频生成GIF动图，发送微信

目录前言 GIF简介代码生成 * 图片合成GIF 自定义GIF动图视频生成GIF 发送微信小结前言别人的博客文章中有动态显示这是怎么做到的呢？别人的微信发送的表情动态为…

人工智能 2023年6月21日
0083
盘点10个冷门Python库，原来Python还能实现这些功能？

目录 👉 1 PrettyErrors 👉 2 Rich 👉 3 Dear PyGui 👉 4 HummingBird 👉 5 HiPlot 👉 6 Norfair 👉 7 Geo…

人工智能 2023年7月25日
00112
【深度学习】(9) CNN中的混合域注意力机制（DANet，CBAM），附Tensorflow完整代码

各位同学好，今天和大家分享一下如何使用 Tensorflow构建 DANet和 CBAM混合域注意力机制模型。在之前的文章中我介绍了CNN中的通道注意力机制 SENet 和 EC…

人工智能 2023年6月16日
00221
2021车中国车联网行业发展环境（PEST）分析：政策加持下，车联网市场持续爆发[图]

一、车联网行业政策环境分析（P） 2017年至今，中国汽车行业发布了一系列行业支持和引导政策，实现汽车行业转型升级。从政策法规发布方向来看，电动化、智能化、网联化已经成为汽车行业发…

人工智能 2023年6月11日
0086
旋转框目标检测mmrotate v0.3.1入门

1、旋转目标监测的定义受益于通用物体检测的蓬勃发展，目前大多数旋转物体检测模型都是基于经典的通用物体检测模型。随着检测任务的发展，水平箱已经不能满足某些细分领域研究人员的需求。通…

人工智能 2023年7月10日
0091
六种常见聚类算法

目录 Kmeans DBSCAN-基于密度的空间聚类算法谱聚类ＧＭＭ-高斯混合模型 MeanShift-均值迁移层次聚类代码 Kmeans 聚类原则：以空间中k个点为中心进…

人工智能 2023年6月16日
00107
基于深度学习的短时交通流预测与优化

TOC 第二章数据预处理与短时交通流量特性分析 2.1 数据来源数据记录了明尼苏达州双子城19条高速环城公路一整年的交通流量，交通流量数据采样间隔为30秒(采用2018年6月1…

人工智能 2023年6月15日
0086
回归预测 | MATLAB实现RBF径向基神经网络多输入单输出

回归预测 | MATLAB实现RBF径向基神经网络多输入单输出目录 * – 回归预测 | MATLAB实现RBF径向基神经网络多输入单输出 – + 预测效…

人工智能 2023年6月18日
0084
A5000 VS 3090，谁更强？

为了迎接618的到来，平台上新了数百台机器，其中，2021年上市的A5000，相对于更早发布的30系列，大家可能还不太熟悉，这边先放上某东618的价格截图，大家参考一下。由于显存…

人工智能 2023年7月29日
0087
实时目标追踪：ByteTrack算法步骤详解和代码逐行解析

ByteTrack算法简介 ByteTrack算法是一种基于目标检测的追踪算法，和其他非ReID的算法一样，仅仅使用目标追踪所得到的bbox进行追踪。追踪算法使用了卡尔曼滤波预测…

人工智能 2023年5月26日
00130
Pandas中的loc与iloc用法详解

1.基本简介 1.1 loc与iloc基本含义 loc函数：通过行索引 “Index” 中的具体值来取行数据（如取”Index”为…

人工智能 2023年7月7日
0065
率先推出器件可替代分析功能，达观知识图谱推理技术赋能库存管理智能化

一直以来，备件管理是工业制造型企业库存管理的重要工作，也是公司降低运营成本、改善库存周转效率的主要举措。完善的管理体系结合先进的技术，是工业制造领域优秀企业的进行库存管理的关键。达…

人工智能 2023年6月10日
00103
从零开始的时间序列分类

文章目录介绍加载数据：FordA 数据集 * 数据集描述读取 TSV 数据可视化数据标准化数据建立模型训练模型根据测试数据评估模型绘制模型的训练和验证损失介绍 …

人工智能 2023年7月1日
00100
opencv自适应二值化的应用

opencv自适应二值化前言一、二值化是什么？二、自适应二值化 * 1.为什么要用自适应二值化 2.自适应二值化代码实现(c++) 前言最近在工作中，要实现自动绘制ROI的…

人工智能 2023年7月19日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类（六）—— 聚类评估

六、聚类评估

大家都在看