它假设数据满足凸分布（即数据在二维平面图像上看起来是一个凸函数的样子），并且它假设数据是各向同性的（isotropic），即是说数据的属性在不同方向上代表着相同的含义。但是现实中的数据往往不是这样。所以使用Inertia作为评估指标，会让聚类算法在一些细长簇，环形簇，或者不规则形状的流形时表现不佳。

第3章 KMeans效果评估的方法

3.1 当真实标签已知的时候

虽然我们在聚类中不输入真实标签，但这不代表我们拥有的数据中一定不具有真实标签，或者一定没有任何参考信息。当然，在现实中，拥有真实标签的情况非常少见（几乎是不可能的）。

但如果拥有真实标签，我们更倾向于使用分类算法。

但不排除我们依然可能使用聚类算法的可能性。如果我们有样本真实聚类情况的数据，我们可以对于聚类算法的结果和真实结果来衡量聚类的效果。常用的有以下三种方法：

三种方法的原理不用，但在使用方法确实一致的：就是用输入样本的标签与预测值进行比较。

输入样本的标签值
模型的预测值

由于带标签的情况，往往采用分类算法，而不是聚类算法，因此这种情形不多探讨。

3.2 当真实标签未知的时候：基本思想

在99%的情况下，我们是对没有真实标签的数据进行探索，也就是对不知道真正答案的数据进行聚类。这样的聚类，基本的评估思想是：

（1）簇内的稠密程度（簇内差异小）

（2）簇间的离散程度（簇外差异大）

现在就要找到合适的算法，来计算 簇内的稠密程度和簇间的离散程度。

3.3 当真实标签未知的时候：轮廓系数

轮廓系数是最常用的 聚类算法的评价指标。

它是对 每个样本来定义的，它能够同时衡量：

1）样本与其自身所在的簇中的 其他所有样本的相似度a（相似度用距离来表达），等于样本与同一簇中所有其他点之间的 平均距离

2）样本与 其他簇中的所有样本的相似度b（相似度用距离来表达），等于样本与下一个最近的簇中的所有点之间的平均距离。

根据聚类的要求”簇内差异小，簇外差异大”，我们希望：

b永远大于a，
并且大得越多越好。

轮廓系数范围是(-1,1)

（1）好：s值越接近1，表示样本与自己所在的簇中的样本 相似好，并且与其他簇中的样本 不相似

（2）差：当样本点与簇外的样本更相似的时候，轮廓系数就为负。这些样本点在其族内就是属于异类。

（3）同族：当轮廓系数为0时，则代表两个簇中的这些样本的相似度一致，两个簇 本应该是一个簇。

可以总结为轮廓系数越接近于1越好，负数则表示聚类效果非常差。

如果一个簇中的 大多数样本具有比较高的轮廓系数，则簇会有较高的总轮廓系数，则整个数据集的平均轮廓系数越高，则聚类是合适的。

如果 大量的样本点具有低轮廓系数甚至负值，则聚类是不合适的，聚类的超参数K可能设定得太大或者太小。

轮廓系数的表达方式：

（1）轮廓系数的所有样本的均值

在sklearn中，我们使用模块metrics中的类silhouette_score来计算轮廓系数，它返回的是一个数据集中，所有样本的轮廓系数的均值。

（2）轮廓系数的单样本的实际值

我们还有同在metrics模块中的silhouette_sample，它的参数与轮廓系数一致，但返回的是数据集中每个样本自己的轮廓系数。

3.4 轮廓系数的代码演示

from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples

X: &#x6BCF;&#x4E2A;&#x5B9E;&#x9645;&#x6837;&#x672C;&#x7684;&#x5411;&#x91CF;&#x503C;
y_pred&#xFF1A;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x5206;&#x7C7B;&#x9884;&#x6D4B;&#x503C;
y_pred = cluster.fit_predict(X)
print("X.shape", X.shape)
print("y_pred",  y_pred.shape)
print("y_pred",  y_pred[0:12])

score = silhouette_score(X, y_pred)
print("&#x5E73;&#x5747;&#x8F6E;&#x5ED3;&#x5206;&#x6570;&#xFF1A;",score)

samples = silhouette_samples(X,y_pred)
print("&#x5355;&#x6837;&#x672C;&#x7684;&#x8F6E;&#x5ED3;&#x5206;&#x6570;:\n", samples[0:12])

X.shape (500, 2)
y_pred (500,)
y_pred [2 2 3 1 0 1 0 0 0 0 2 2]
平均轮廓分数： 0.6505186632729437
单样本的轮廓分数:
 [0.62903385 0.43289576 0.55834047 0.82660742 0.35213124 0.74123252
 0.68902347 0.58705868 0.04062548 0.73241492 0.59363669 0.75135825]

轮廓系数有很多优点:

它在有限空间中取值，使得我们对模型的聚类效果有一个”参考”。
并且，轮廓系数对数据的分布没有假设，因此在很多数据集上都表现良好。
它在每个簇的分割比较清洗时表现最好。

轮廓系数也有缺陷

它在凸型的类上表现会虚高，比如基于密度进行的聚类，或通过DBSCAN获得的聚类结果，如果使用轮廓系数来衡量，则会表现出比真实聚类效果更高的分数。

3.5 当真实标签未知的时候：Calinski-Harabaz Index

除了轮廓系数是最常用的，我们还有卡林斯基-哈拉巴斯指数（Calinski-Harabaz Index，简称CHI，也被称为方差比标准），戴维斯-布尔丁指数（Davies-Bouldin）以及权变矩阵（Contingency Matrix）可以使用。

在这里我们重点来了解一下卡林斯基-哈拉巴斯指数。

Calinski-Harabaz指数越高越好。

对于有k个簇的聚类而言，Calinski-Harabaz指数s(k)写作如下公式：

3.6 卡林斯基-哈拉巴斯指数代码示例

from sklearn.metrics import calinski_harabasz_score

X: &#x6BCF;&#x4E2A;&#x5B9E;&#x9645;&#x6837;&#x672C;&#x7684;&#x5411;&#x91CF;&#x503C;
y_pred&#xFF1A;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x5206;&#x7C7B;&#x9884;&#x6D4B;&#x503C;
y_pred = cluster.fit_predict(X)
calinski_harabasz_score(X, y_pred)

2704.4858735121097

卡林斯基-哈拉巴斯指数是没有边界的指数，该值越大越高。

3.7 上述两个指标运行时间比较

from time import time
t0 = time()
calinski_harabasz_score(X, y_pred)
print(time() - t0)

t0 = time()
silhouette_score(X,y_pred)
print(time() - t0)

0.0
0.005000114440917969

轮廓系数虽然在[-1,1]之间，是有界指标，直观，但耗时也是比较大的。

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/123459216

Original: https://blog.csdn.net/HiWangWenBing/article/details/123459216
Author: 文火冰糖的硅基工坊
Title: [机器学习与scikit-learn-25]：算法-聚类-KMeans的适用范围与评估指标

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639192/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python采集某网站小视频内容, m3u8内容下载

前言大家早好、午好、晚好吖~ 目录标题 * – 前言 – 环境使用: – 模块使用: – 模块安装问题: – + * …

人工智能 2023年6月19日
00106
【SVR预测】基于matlab EMD优化SVR预测【含Matlab源码 1403期】

⛄一、EMD及SVM简介 1 引言时间序列预测是将预测目标的历史数据按照时间的顺序排列成为时间序列，然后分析它随时间的变化趋势，外推预测值。时间序列预测，尤其是非平稳、非线性时间序…

人工智能 2023年7月13日
0061
pandas read_excel 参数及使用

pandas.read_excel(io, sheet_name…) 参数说明 io: 文件路径 sheet_name 列名，默认为0，可以是数字/列名/list(数…

人工智能 2023年7月7日
0098
VOC和COCO数据集讲解

相对其他计算机视觉任务，目标检测算法的数据格式更为复杂。为了对数据进行统一的处理，目标检测数据一般都会做成 VOC或者 COCO的格式。 VOC和 COCO都是既支持检测也支持分割…

人工智能 2023年6月17日
0050
姿态解算-陀螺仪+欧拉法

目录 1、基本原理 2、捷联矩阵 3、陀螺仪+欧拉角法姿态解算参考博士论文《多旋翼无人机的姿态与导航信息融合算法研究》张欣 1、基本原理姿态解算指的是求出导航坐标系（一般选择…

人工智能 2023年6月16日
0068
pandas 数据透视表

pandas 数据透视表及逆透视主要参数说明 pd.pivot_table(df,index= [] ,columns= [] ,values = [] , aggfunc={&…

人工智能 2023年7月8日
0065
二分类模型评价指标

前言该文只作为个人懒得每次都百度这个指标问题，收藏东西又太多不好翻找所作总结，仅供参考 1 混淆矩阵混淆矩阵预测正例预测反例真实正例TP（真正例）FN（假反例）真实反例FP（…

人工智能 2023年7月1日
0096
多输入多输出回归模型（Multiple Input – Multiple Output）

大家所熟悉的机器学习算法的回归结果通常就是一个变量，而最近项目中遇到一个问题，希望利用多输入变量预测多输出变量，也就是multiple input -multiple output…

人工智能 2023年6月17日
0079
Python: 用open3D库，连续多帧显示点云（查看localization pose的好坏）

* import os from os import listdir import open3d as o3d import numpy as np #获&a…

人工智能 2023年7月27日
0050
【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究

概述：BERT+CRF/CNN实现古文知识表示和断句 ; 2 古汉语自动断句模型条件随机场是一种经典的序列标注模型，在中文分词、词性标注、命名实体识别等自然语言处理任务中均有着广…

人工智能 2023年5月30日
0069
Python xlwings操作Excel（摸鱼划水必备技能）——（2）python xlwings与VBA间的互相调用

目录一、知识储备二、VBA程序调用Python代码三、python xlwings调用VBA模块一、知识储备 xlwings是一款python操作Excel的库。可以通过p…

人工智能 2023年6月11日
00101
Python攻防-APK批量自动反编译与数据分析

文章目录前言 Pull APK * 1.1 根据包名列表 1.2 根据手机路径逆向APK * 2.1 自动化反编译 2.2 数据快速检索数据分析 * 3.1 txt文本的比较…

人工智能 2023年6月11日
00104
大数据呀大数据

大数据啥是大数据?我自己的一些经历–>>在做代码开发之前,一直觉得大数据这件事是高大上的一门学问,门槛很高,而且我上大学的时候这个词才刚刚在众多互联网记住中展露头角;…

人工智能 2023年7月30日
0057
Python环境的配置

文章目录 * – 一、Anaconda安装 – 二、Jupyter的安装与相关配置 – + 1、安装命令: + 2、修改默认空间： + 3、安装…

人工智能 2023年5月23日
00101
Transformer详解（附代码）

T r a n s f o r m e r \mathrm{Transformer}Transformer模型是G o o g l e \mathrm{Google}Google团…

人工智能 2023年7月27日
0066
python调用matlab

python调用matlab 最近实验室老师让干点小活，主要是写一个程序来调用一下matlab脚本以及一个Fortran程序，然后就去网上搜了一些资料，搞了一下，趁着自己还记得，就…

人工智能 2023年7月5日
00101

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[机器学习与scikit-learn-25]：算法-聚类-KMeans的适用范围与评估指标

前言：

第1章 KMeans的适合与不适合场景

1.1 KMeans的本质与适用场景

1.2 KMeans的不适用场合

1.3 不适合场合下的错误聚类

第2章 KMeans效果评估面临的问题

2.1 概述

2.2 KMeans的Inertia指标面临的问题