【python-scipy】scipy.cluster.hierarchy 学习 & 总结 (fcluster, linkage等)

2023年6月16日上午2:57 • 人工智能 • 阅读 128

博主最近在依据scipy的手册学习，按每个模块进行记录，对scipy其他部分有疑惑的可以看一下博主的相关合集。p.s. 更新中

当我们需要对一个集合S中的元素进行聚类的时候，我们肯定预先有一个评价标准d d d，用于计算任意两个节点a和b之间的距离d ( a , b ) d(a,b)d (a ,b )，再依据计算的结果进行聚类。说得更清楚一些，有两个方式来实现聚类，一个是从单个到总体：我们首先将每个向量都当作一个类，利用d d d计算出两两之间的距离，合并距离最小的两个，循环进行；另一个是从整体到单一：先把所有的看作同一类，利用d d d计算出两两之间的距离，跳出距离最大的a,b，其他向量计算到a,b的距离进而分为2类，后续以此类推。
其实看到后面会发现，这个hierarchy cluster（层级聚类）在算法上是定死的，给我们留下的空间只在于选择何种评价标准d d d。我们首先看看这个d d d应该有哪些性质。

数学上来讲，度量是一个二元函数D × D → R ≥ 0 \mathbf{D} \times \mathbf{D} \rightarrow \mathbb{R}_{\geq 0}D ×D →R ≥0 ，并且满足以下三条性质：

非负性（分离性）
d ( a , b ) ≥ 0 ( ∀ a , b ∈ D ) d(a,b) \geq 0 \quad (\forall a,b \in \mathbf{D})\quad d (a ,b )≥0 (∀a ,b ∈D ) 并且d ( a , b ) = 0 ⇔ a = b \quad d(a,b) = 0 \, \Leftrightarrow \, a = b d (a ,b )=0 ⇔a =b
对称性
d ( a , b ) = d ( b , a ) ( ∀ a , b ∈ D ) d(a,b) \, = d(b,a) \quad (\forall a,b \in \mathbf{D})d (a ,b )=d (b ,a )(∀a ,b ∈D )
三角不等式
d ( a , c ) ≤ d ( a , b ) + d ( b , c ) ( ∀ a , b , c ∈ D ) d(a,c) \, \leq \, d(a,b) + d(b,c) \quad (\forall a,b,c \in \mathbf{D})d (a ,c )≤d (a ,b )+d (b ,c )(∀a ,b ,c ∈D )

需要注意的是，在scipy中，通过 linkage的接口我们能从以下度量中进行选择：
‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘cityblock’, ‘correlation’, ‘cosine’, ‘dice’, ‘euclidean’, ‘hamming’, ‘jaccard’, ‘jensenshannon’, ‘kulsinski’, ‘mahalanobis’, ‘matching’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule
我们列举几个比较常用的度量：

欧式度量(euclidean) 就是我们最熟悉的度量
d i s t ( x 1 , x 2 ) = ∑ k = 1 n ( x k 1 − x k 2 ) 2 ∀ x i = ( x 1 i , . . . , x n i ) ∈ R n i = 1 , 2 dist(x_1,x_2)=\sqrt{\sum_{k=1}^n(x_k^1-x_k^2)^2} \quad \forall x_i=(x_1^i,…,x_n^i) \in \mathbb{R}^n \quad i=1,2 d i s t (x 1 ,x 2 )=k =1 ∑n (x k 1 −x k 2 )2 ∀x i =(x 1 i ,…,x n i )∈R n i =1 ,2
p范数诱导的度量(minkowski)
d i s t ( x 1 , x 2 ) = ∣ ∣ x 1 − x 2 ∣ ∣ p dist(x_1,x_2)=||x_1-x_2||_p d i s t (x 1 ,x 2 )=∣∣x 1 −x 2 ∣∣p
曼哈顿度量(cityblock)
d i s t ( x 1 , x 2 ) = ∑ k = 1 n ∣ x k 1 − x k 2 ∣ dist(x_1,x_2)=\sum_{k=1}^n|x_k^1-x_k^2|d i s t (x 1 ,x 2 )=k =1 ∑n ∣x k 1 −x k 2 ∣
欧式度量的平方(sqeuclidean)
余弦(cosine)
d i s t ( x 1 , x 2 ) = < x 1 , x 2 > ∣ ∣ x 1 ∣ ∣ ∣ ∣ x 2 ∣ ∣ dist(x_1,x_2)=\frac{d i s t (x 1 ,x 2 )=∣∣x 1 ∣∣∣∣x 2 ∣∣
-协方差(correlation)

linkage中如何调用这些度量

linkage(y, method='single', metric='euclidean', optimal_ordering=False)
在metric参数上，我们可以通过输入上一节中提及的度量名称对使用的度量进行修改。
但是特别地，我们需要注意一下 method参数

读者到这里可以回顾一下之前提到的聚类的两种方法：从单一到整体和从整体到单一，我们在此用前举例。我们在脑子里想象一下整个过程，第一步是明确的，计算两两元素之间的距离，最近的两个进行分类。那么假设我们总共有n个向量{ x i } i = 1 n { x_i } {i=1}^n {x i }i =1 n 等待分类，经过这一步我们剩余n-2个向量{ x i } i = 3 n { x_i } {i=3}^n {x i }i =3 n 和一个由2个向量组成的cluster [ x 1 , x 2 ] [x_1,x_2][x 1 ,x 2 ]；按照之前的说法，在进行第二步的时候需要计算这剩下的n-1个东西相互之间两两的距离，这时候有一个问题，前面剩余的n-2个向量之间计算距离是简单的，只需利用选好的 metric去计算d i s t ( x i , x j ) dist(x_i,x_j)d i s t (x i ,x j )，但是如何计算其与cluster之间的距离呢？
这就是我们为什么需要 method。我们 linkage的 method中可以选择以下几种方法：
single, complete, average, weighted, centroid, ward
其具体含义基本望文生义，其余可参考scipy的文档。往下拉一点就是了

函数返回给我们一个矩阵 Z，其包含了聚类中每一步的操作以及一些信息。

X = [[i] for i in [2, 8, 0, 4, 1, 9, 9, 0]]
Z = linkage(X)

Z =
[[ 2.  7.  0.  2.]
 [ 5.  6.  0.  2.]
 [ 0.  4.  1.  2.]
 [ 8. 10.  1.  4.]
 [ 1.  9.  1.  3.]
 [ 3. 11.  2.  5.]
 [12. 13.  4.  8.]]

一共有8个元素，需要进行7次聚类，所以 Z有7行。每一行有四个元素，前两个是进行cluster操作的向量的索引值，第三个是d i s t dist d i s t，第四个是该类目前有几个元素。在生成新的cluster后，其会被赋予索引值8,9,10等，一点一点往上加，这也是为什么只有8个元素但是最后几行的索引值有10+。

fcluster的用法

首先 fcluster处理的是 linkage的返回值 Z，其通过这样一个矩阵进行进一步的细分。其实也可以理解这种功能的拆分，因为在聚类的过程中涉及的变量太多，全怼在一个函数里看不到中间过程，也不利于调参。
fcluster(Z, t, criterion='inconsistent', depth=2, R=None, monocrit=None)
其中 t是一个阈值，用于后续分类，criterion是依据d i s t dist d i s t判断是否需要将其归为一类的判别法，depth和R当且仅当criterion=’inconsistent’时有用, R是一个矩阵，monocrit是当判别法为monocrit或maxcluster_monocrit时需要指定的变量。
criterion只介绍几种，一些原因是一部分用的很少，另一些原因是我也没看懂doc里面说的什么意思（所以还请大佬在评论区不吝赐教，感谢！！）

‘distance’ with threshold t
类内距离和初始的元素< t 时放进来，否则单独分为两类
‘maxclust’ with threshold t
所聚类数量不多于t个

Original: https://blog.csdn.net/Petersburg/article/details/121981388
Author: Petersburg
Title: 【python-scipy】scipy.cluster.hierarchy 学习 & 总结 (fcluster, linkage等)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/619243/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何使用 Web Speech API 在浏览器中识别语音

当您运行此代码时，Chrome 会请求使用麦克风的权限。如果您在 Web 服务器上托管页面，请记住您在浏览器中的权限。允许使用麦克风并说话。当您结束对话时，它将 SpeechRec…

人工智能 2023年5月25日
0080
计算机视觉教程2-2：详解图像滤波算法(附Python实战)

目录 1 分类 2 邻域滤波 * 2.1 线性滤波 – 2.1.1 方框滤波 2.1.2 高斯滤波 2.2 非线性滤波 3 频域滤波 * 3.1 低通滤波 3.2 高通…

人工智能 2023年6月18日
0071
各种生成模型：VAE、GAN、flow、DDPM、autoregressive models

目录 1 生成模型分类 12 Autoregressive model 23 变分推断 33.1 ELBO 33.2 变分分布族Q 54 VAE 65 GAN 66 flow模型 …

人工智能 2023年6月23日
0073
马斯克称已将大脑上传到云端【系统或已开源】

神经网络的发展趋势如何？神经网络的云集成模式还不是很成熟，应该有发展潜力，但神经网络有自己的硬伤，不知道能够达到怎样的效果，所以决策支持系统中并不是很热门，但是神经网络无视过程的…

人工智能 2023年7月14日
0058
神经网络学习（三）：解偏微分方程

前言在完成了常微分的数值解之后，我开始如法炮制的来解偏微分，我觉得解法上是一样的，都直接使用autograd就可以了，所以理论是难度并不大（虽然实际上我是花的时间最长的），只不…

人工智能 2023年6月15日
0070
022-final关键字在 java 中的作用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0059
Transformer架构：位置编码

2017年，Google的Vaswani 等人提出了一种新颖的纯注意力序列到序列架构，闻名学术界与工业界的 Transformer 架构横空出世。它的可并行化训练能力和优越的性能使…

人工智能 2023年5月31日
00223
python 报错 TypeError: tuple indices must be integers or slices, not tuple

报错原因：元组的索引必须是整数或者切片，不能是元组项目报错原因：：原项目导入 from sklearn.utils.linear_assignment_ import lin…

人工智能 2023年7月4日
0064
YOLOR 或 YOLOv5：哪个更好？

YOLOR 和 YOLOv5都是最先进的目标检测算法，性能相当，但哪一个更好？但在进行比较之前，让我们先讨论一下什么是对象检测？对象检测技术被广泛用作工业中许多应用程序的后端，包…

人工智能 2023年7月9日
0077
python下opencv安装

1、查看python版本cmd输入命令行,python。2、根据对应python版本，去https://www.lfd.uci.edu/~gohlke/pythonlibs/，下载…

人工智能 2023年6月18日
0082
Vue实现手机端界面的购物车案例

目录前期准备 Goods Counter 今天用Vue实现的一个手机端的购物车案例，着重阐述组件化思想的优势，将页面的内容分成各个模块进行书写，然后数据传输，父传子、子传父、兄弟…

人工智能 2023年7月31日
0072
将中文开放知识图谱的owl文件导入到neo4j中，踩坑总结

neo4j安装下载neo4j，配置好环境变量。 https://neo4j.com/artifact.php?name=neo4j-community-3.5.25-window…

人工智能 2023年6月1日
0070
Python 基于OpenCV+face_recognition实现人脸捕捉与人脸识别（照片对比）

1.安装包依赖与上篇通过摄像头动态识别人脸一样，先下载好opencv-python、face-recognition，这里因为使用的是照片对比的方式，特意使用tkinter画了一…

人工智能 2023年6月19日
0064
【mmdetection】绘制训练结果中验证集测试的mAP曲线图

【mmdetection】绘制训练结果中验证集测试的mAP曲线图 mAP可视化工具 * 绘制工具：analyze_logs.py 结果展示 mAP可视化工具在训练模型的时候，我们…

人工智能 2023年7月10日
00150
pandas基础_1

数据使用泰坦尼克数据基本操作读取训练集数据 df = pd.read_csv(‘train.csv’) 常用的基本信息查询 df.head() #默&am…

人工智能 2023年7月6日
0037
【Pytorch学习】Pytorch安装遇到的错误及解决方法

在Anaconda环境和Pycharm软件的基础上安装Pytorch深度学习框架。一.创建pytorch虚拟房间首先打开 Anaconda Prompt,通过conda创建名为…

人工智能 2023年7月21日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【python-scipy】scipy.cluster.hierarchy 学习 & 总结 (fcluster, linkage等)

linkage中如何调用这些度量

fcluster的用法

大家都在看