确定最佳聚类的算法（一）

2023年5月31日上午11:29 • 人工智能 • 阅读 92

一、背景

聚类最难得就是确定最佳的聚类数，下面介绍几种方法。

二、确定最佳聚类数

2.1 轮廓系数（Silhouette）

Silhouette系数是对聚类结果有效性的解释和验证，由Peter J. Rousseeuw于1986提出。
图解原理如下：

具体方法如下：

计算簇内不相似度
计算样本i i i 到同簇其他样本的平均距离a i a_i a i 。a i a_i a i 越小，说明样本i i i 越应该被聚类到该簇。将a i a_i a i 称为样本i i i 的 簇内不相似度。
簇C中所有样本的a i 均值称为簇C的簇不相似度。
计算簇间不相似度
计算样本i i i 到其他某簇C j C_j C j 的所有样本的平均距离b i j b_{ij}b i j ，称为样本i i i 与簇C j C_j C j 的不相似度。定义为样本i i i 的簇间不相似度：b i = m i n { b i 1 , b i 2 , . . . , b i k } b_i =min{b_{i1}, b_{i2}, …, b_{ik}}b i =m i n {b i 1 ,b i 2 ,…,b i k }
b i b_i b i 越大，说明样本i i i 越不属于其他簇。
计算轮廓系数
根据样本i的簇内不相似度a i a_i a i 和簇间不相似度b i b_i b i ，定义样本i i i 的轮廓系数：
判断：
s i s_i s i 接近1，则说明样本i i i 聚类合理；
s i s_i s i 接近-1，则说明样本i i i 更应该分类到另外的簇；
s i s_i s i 近似为0，则说明样本i i i 在两个簇的边界上。

; 2.2 离散度（Dispersion score）

2.2.1 定义

The dispersion coefficient is based on the consensus matrix (i.e. the average of connectivity matrices) and was proposed by Kim et al. (2007) to measure the reproducibility of the clusters obtained from NMF.

it is defined as:

ρ = ∑ i , j = 1 n 4 ( C i j − 1 2 ) 2 ρ = ∑{i,j=1}^n 4 (C{ij} – \frac{1}{2})^2 ρ=i ,j =1 ∑n 4 (C i j −2 1 )2

where n is the total number of samples.

By construction, 0 ≤ ρ ≤ 1 0 \leq \rho \leq 1 0 ≤ρ≤1 and ρ = 1 \rho =1 ρ=1 only for a perfect consensus matrix, where all entries 0 or 1. A perfect consensus matrix is obtained only when all the connectivity matrices are the same, meaning that the algorithm gave the same clusters at each run. See Kim et al. (2007).

2.2.2 Consensus matrix

谈到consensus matrix，不得不讨论一下共识聚类（一致性聚类）。共识聚类是为不同的聚类算法，选择最优的聚类数量（K）。其具体的原理是：基于有放回地重采样方法，考量任意一个数据在不同样本中聚类表现的一致性来确定聚类的参数是否合适。

通俗的步骤理解为：*

第一步：从原始数据中随机抽取子集，当然子集的规模不能太小，最好是原始数据集的半数以上，子集要尽量多，以确保里面的每一个数据都多次被取到（100次以上）。然后，将聚类方法（可以使K-means或者层次聚类应用于所有的数据子集，执行分别聚类。
第二步：这一步的关键在于建立一个新的矩阵：consensus matrix。我们之前说聚类的输入通常是一个distance matrix。那么consensus matrix怎么建呢？假设有D 1 , D 2 , . . . D n D_1,D_2, . . . D_n D 1 ,D 2 ,…D n 等N N N 个数据，那么 consensus matrix是N × N N \times N N ×N 的方阵。

D1D2…DnD1C11C12…C1nD2C11C12…C2n………Cij…DnCn1Cn2…Cnn

其中，C i j C_{ij}C i j 代表的是在多次的聚类过程中，数据 D i D_i D i 和数据 D j D_j D j 被聚到同一类里面的概率（该值在0和1之间，等于1代表100次聚类这两个数据点全部在同一个类里面，等于0代表代表100次聚类全部不在同一个类里面。

那么，好的聚类方法会得到怎么样的consensus matrix呢？对了，全部由0或1组成的方阵，代表着那些很像的数据总在一类，而不像的数据则总是不在一类，这正符合了聚类的初衷是吧。

第三步：再对consensus matrix做一次聚类(这里用层次聚类方便可视化），只有0和1的矩阵，就让是1的都聚在一起，而0的都分开来，用heatmap看起来就是下面这样的。

; 2.3 共表型相关系数（Cophenetic correlation)

在基于NMF的聚类中，共表型相关性系数的计算是：

The cophenetic correlation coeffificient is based on the consensus matrix (i.e. the average of con- nectivity matrices) and was proposed by Brunet et al. (2004) to measure the stability of the clusters obtained from NMF.
It is defined as the Pearson correlation between the samples’ distances induced by the consensus matrix (seen as a similarity matrix) and their cophenetic distances from a hierachical clustering based on these very distances (by default an average linkage is used). See Brunet et al. (2004).

Cophenetic Coefficient
How good is the clustering that we just performed? There is an index called Cross Correlation or Cophenetic Correlation Coefficient (CP) that shows the goodness of fit of our clustering similar to the Correlation Coefficient of regression.

To compute the Cophenetic Correlation Coefficient of hierarchical clustering, we need two informations:

Distance matrix
Cophenetic matrix

基于层次聚类的方式计算共表型相关系数。

第一步：基于距离相似度（如欧几里德距离）计算样本间的距离相似值（distance matrix）。
这里我们仅展示左下角的距离矩阵。
第二步：基于层次聚类算法，计算cophenetic matrix
首先，基于层次聚类中single linkage算法，计算归类后的”加权”距离。

其次，基于”加权”的距离，构建cophenetic matrix
第三步：基于distance matrix和cophenetic matrix，计算相关性（如，pearson相关性）
首先，将两个距离矩阵表进行整合（如下）：

其次，计算相关性（如pearson相关性）

Cophenetic Correlation Coefficient is simply correlation coefficient between distance matrix and Cophenetic matrix = Correl (Dist, CP) = 86.399%. As the value of the Cophenetic Correlation Coefficient is quite close to 100%, we can say that the clustering is quite fit.

Original: https://blog.csdn.net/nixiang_888/article/details/123893331
Author: Xiaofei@IDO
Title: 确定最佳聚类的算法（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550780/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

针对pytorch中的CRF不存在属性

为了更加便捷地使用CRF模块，有大佬真们对CRF封装起来，方便大家使用。关于CRF的左右，本博客不具体介绍，有兴趣的朋友可以百度查找。本文查阅相关的博客，都没有人提到这个方法： …

人工智能 2023年5月24日
0094
腾讯云ubuntu20服务器安装tensorflow以及使用docker运行tensorflow

ubuntu安装tensorflow 腾讯云的ubuntu服务器在使用 pip下载时默认使用腾讯云自己的镜像源进行下载，在默认python3的情况下直接使用命令 sudo pip …

人工智能 2023年5月24日
0079
人工智能、机器学习、深度学习之间的关系

人工智能、机器学习、深度学习之间的关系一、人工智能二、机器学习三、深度学习三者之间的关系 * 参考资料一、人工智能人工智能（Artificial Intelligenc…

人工智能 2023年7月28日
0047
plotly 坐标轴(axes)设置

坐标轴设置 axes import plotly.io as pio import plotly.express as px import plotly.graph_objects…

人工智能 2023年7月5日
00312
【综述】一文读懂卷积神经网络(CNN)

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Netwo…

人工智能 2023年7月13日
0046
Mosaic数据增强

YOLO-V5 代码中数据增强代码理解对 u 版 yolo-v5 中的 load_mosaic 代码的理解。 ; 前言【个人学习笔记记录，如有错误，欢迎指正】 YOLO-V4 …

人工智能 2023年7月9日
0087
三元组事件抽取与简单代码实现

系列文章三元组事件抽取与简单代码实现事件抽取技术综述与简单代码实现目录系列文章事件抽取的定义使用jieba分词基于ltp依存句法分析和语义角色标注的事件三元组抽取方法…

人工智能 2023年6月1日
0069
无人机影像的纹理特征提取【ENVI+Python】–纯操作无原理

主要包含辐射定标，layer stacking，PCA，提取第一主成分，基于GLCM提取纹理特征（Co-occurrence Measures）。 8种纹理因子：均值（Mean）…

人工智能 2023年7月15日
00114
常用的图像处理标准图片汇总

常用的图像处理标准图片汇总在进行图像处理时，有一些常用的图像数据需要用到，这里总结一下这些图像。 1.Lena、Baboon等数据主要包括：Baboon、Barbara、Cam…

人工智能 2023年6月18日
0065
ARMA模型的性质之ARMA模型

目录一、ARMA模型的定义二、平稳条件与可逆条件三、传递形式与逆转形式四、ARMA(p,q)模型的统计性质 1.均值 2.自协方差函数 3.自相关系数 4.ARMA(p,q…

人工智能 2023年6月16日
0095
目标检测指标AP和mAP.

一、准确率&回归率术语表：预测正例预测反例真值正例 TPFN真值反例 FPTN 准确率Precision公式表示： P r e c i s o n = T P T P…

人工智能 2023年7月11日
0081
OpenCV C++案例实战二十四《多目标匹配》

OpenCV C++案例实战二十四《多目标匹配》前言一、图像预处理二、单目标匹配三、多目标匹配 * 1、效果显示四、结果显示 * 1、效果显示五、源码总结前言 …

人工智能 2023年5月26日
0076
Yolo系列学习笔记

Yolov1：2015/6/8无anchor；分成7 _7 = 49个区域，每个区域预测2个bbox，输出7_7 _30( 2_5 + 20 )特征层。使用IOU做confiden…

人工智能 2023年7月11日
0048
简单记录阿里云语音识别API调用方法

Author：qyan.liDate：2022.5.15Topic：简单记录阿里云语音识别 API调用 ~~~~~~最近的课程设计需要 语&#x9…

人工智能 2023年5月25日
0060
自动求导autograd.grad的学习包含torch和tensorflow对jacobi的支持

可以确定的是： 1.pytorch采用动态计算图机制，默认的tensor requires_grad这个参数为False，只有自己设为True，到时才会计算这个tensor的梯度。…

人工智能 2023年5月24日
0087
机器学习入门：第三章逻辑(Logistic)回归极大似然估计(2)

回头过来看，可能会觉得最小二乘法跟我们讨论中的芒果酸甜问题，并不是一回事。但从另外一种概括的角度来讲：通过一种模型，预测一种输出就能够分类。在监督学习中，当输出变量Y取有限个离散…

人工智能 2023年6月18日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30