一文读懂层次聚类（Python代码）

2023年5月31日上午6:44 • 人工智能 • 阅读 71

大家好，我是东哥。

本篇想和大家介绍下 层次聚类，先通过一个简单的例子介绍它的基本理论，然后再用一个实战案例 Python代码实现聚类效果。

首先要说，聚类属于机器学习的无监督学习，而且也分很多种方法，比如大家熟知的有 K-means。层次聚类也是聚类中的一种，也很常用。下面我先简单回顾一下 K-means的基本原理，然后慢慢引出层次聚类的定义和分层步骤，这样更有助于大家理解。

层次聚类和K-means有什么不同？

K-means 工作原理可以简要概述为：

决定簇数（k）
从数据中随机选取 k 个点作为质心
将所有点分配到最近的聚类质心
计算新形成的簇的质心
重复步骤 3 和 4

这是一个迭代过程，直到新形成的簇的质心不变，或者达到最大迭代次数。

但是 K-means 是存在一些缺点的，我们必须在算法开始前就决定簇数 K 的数量，但实际我们并不知道应该有多少个簇，所以一般都是根据自己的理解先设定一个值，这就可能导致我们的理解和实际情况存在一些偏差。

层次聚类完全不同，它不需要我们开始的时候指定簇数，而是先完整的形成整个层次聚类后，通过决定合适的距离，自动就可以找到对应的簇数和聚类。

什么是层次聚类？

下面我们由浅及深的介绍什么是层次聚类，先来一个简单的例子。

假设我们有以下几点，我们想将它们分组：

我们可以将这些点中的每一个分配给一个单独的簇，就是4个簇（4种颜色）：

然后基于这些簇的相似性（距离），将最相似的（距离最近的）点组合在一起并重复这个过程，直到只剩下一个集群：

上面本质上就是在构建一个层次结构。先了解到这里，后面我们详细介绍它的分层步骤。

; 层次聚类的类型

主要有两种类型的层次聚类：

凝聚层次聚类
分裂层次聚类

凝聚层次聚类

先让所有点分别成为一个单独的簇，然后通过相似性不断组合，直到最后只有一个簇为止，这就是凝聚层次聚类的过程，和我们上面刚刚说的一致。

分裂层次聚类

分裂层次聚类正好反过来，它是从单个集群开始逐步分裂，直到无法分裂，即每个点都是一个簇。

所以无论是 10、100、1000 个数据点都不重要，这些点在开始的时候都属于同一个簇：

现在，在每次迭代中拆分簇中相隔最远的两点，并重复这个过程，直到每个簇只包含一个点：

上面的过程就是 分裂层次聚类。

; 执行层次聚类的步骤

上面已经说了层次聚类的大概过程，那关键的来了，如何确定点和点的相似性呢？

这是聚类中最重要的问题之一了，一般计算相似度的方法是： 计算这些簇的质心之间的距离。距离最小的点称为相似点，我们可以合并它们，也可以将其称为 基于距离的算法。

另外在层次聚类中，还有一个称为 邻近矩阵的概念，它存储了每个点之间的距离。下面我们通过一个例子来理解如何计算相似度、邻近矩阵、以及层次聚类的具体步骤。

案例介绍

假设一位老师想要将学生分成不同的组。现在有每个学生在作业中的分数，想根据这些分数将他们分成几组。关于拥有多少组，这里没有固定的目标。由于老师不知道应该将哪种类型的学生分配到哪个组，因此不能作为监督学习问题来解决。下面，我们将尝试应用层次聚类将学生分成不同的组。

下面是个5名学生的成绩：

; 创建邻近矩阵

首先，我们要创建一个邻近矩阵，它储存了每个点两两之间的距离，因此可以得到一个形状为 n X n 的方阵。

这个案例中，可以得到以下 5 x 5 的邻近矩阵：

矩阵里有两点需要注意下：

矩阵的对角元素始终为 0，因为点与其自身的距离始终为 0
使用欧几里得距离公式来计算非对角元素的距离

比如，我们要计算点 1 和 2 之间的距离，计算公式为：

( 10 − 7 ) 2 = 9 = 3 \sqrt{(10-7)^2}=\sqrt{9}=3 (1 0 −7 )2 =9 =3

同理，按此计算方法完成后填充邻近矩阵其余元素。

执行层次聚类

这里使用凝聚层次聚类来实现。

步骤 1：首先，我们将所有点分配成单个簇：

这里不同的颜色代表不同的簇，我们数据中的 5 个点，即有 5 个不同的簇。

步骤2：接下来，我们需要 查找邻近矩阵中的最小距离并合并距离最小的点。然后我们更新邻近矩阵：

最小距离是 3，因此我们将合并点 1 和 2：

让我们看看更新的集群并相应地更新邻近矩阵：

更新之后，我们取了1、2 两个点中值 (7, 10) 最大的来替换这个簇的值。当然除了最大值之外，我们还可以取最小值或平均值。然后，我们将再次计算这些簇的邻近矩阵：

第 3 步：重复第 2 步，直到只剩下一个簇。

重复所有的步骤后，我们将得到如下所示的合并的聚类：

这就是凝聚层次聚类的工作原理。但问题是我们仍然不知道该分几组？是2、3、还是4组呢？

下面开始介绍如何选择聚类数。

; 如何选择聚类数？

为了获得层次聚类的簇数，我们使用了一个概念，叫作 树状图。

通过树状图，我们可以更方便的选出聚类的簇数。

回到上面的例子。当我们合并两个簇时，树状图会相应地记录这些簇之间的距离并以图形形式表示。下面这个是树状图的原始状态，横坐标记录了每个点的标记，纵轴记录了点和点之间的距离：

当合并两个簇时，将会在树状图中连接起来，连接的高度就是点之间的距离。下面是我们刚刚层次聚类的过程。

然后开始对上面的过程进行树状图的绘制。从合并样本 1 和 2 开始，这两个样本之间的距离为 3。

可以看到已经合并了 1 和 2。垂直线代表 1 和 2 的距离。同理，按照层次聚类过程绘制合并簇类的所有步骤，最后得到了这样的树状图：

通过树状图，我们可以清楚地形象化层次聚类的步骤。树状图中垂直线的距离越远代表簇之间的距离越大。

有了这个树状图，我们决定簇类数就方便多了。

现在我们可以设置一个 阈值距离，绘制一条水平线。比如我们将阈值设置为 12，并绘制一条水平线，如下：

从交点中可以看到，聚类的数量就是与阈值水平线与垂直线相交的数量（红线与 2 条垂直线相交，我们将有 2 个簇）。与横坐标相对应的，一个簇将有一个样本集合为 (1,2,4)，另一个集群将有一个样本集合 (3,5)。

这样，我们就通过树状图解决了分层聚类中要决定聚类的数量。

Python代码实战案例

上面是理论基础，有点数学基础都能看懂。下面介绍下在如何用代码 Python来实现这一过程。这里拿一个 客户细分的数据来展示一下。

数据集和代码在这里：

https://github.com/xiaoyusmd/PythonDataScience

分享不易，还请给个star！

这个数据来源于UCI 机器学习库。我们的目的是根据批发分销商的客户在不同产品类别（如牛奶、杂货、地区等）上的年度支出，对他们进行细分。

首先对数据进行一个标准化，为了让所有数据在同一个维度便于计算，然后应用层次聚类来细分客户。

from sklearn.preprocessing import normalize
data_scaled = normalize(data)
data_scaled = pd.DataFrame(data_scaled, columns=data.columns)

import scipy.cluster.hierarchy as shc
plt.figure(figsize=(10, 7))
plt.title("Dendrograms")
dend = shc.dendrogram(shc.linkage(data_scaled, method='ward'))

x 轴包含了所有样本，y 轴代表这些样本之间的距离。距离最大的垂直线是蓝线，假如我们决定要以阈值 6 切割树状图：

plt.figure(figsize=(10, 7))
plt.title("Dendrograms")
dend = shc.dendrogram(shc.linkage(data_scaled, method='ward'))
plt.axhline(y=6, color='r', linestyle='--')

现在我们有两个簇了，我们要对这 2 个簇应用层次聚类：

from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')
cluster.fit_predict(data_scaled)

由于我们定义了 2 个簇，因此我们可以在输出中看到 0 和 1 的值。0 代表属于第一个簇的点，1 代表属于第二个簇的点。

plt.figure(figsize=(10, 7))
plt.scatter(data_scaled['Milk'], data_scaled['Grocery'], c=cluster.labels_)

到这里我们就成功的完成了聚类。

参考：https://www.analyticsvidhya.com/blog/2019/05/beginners-guide-hierarchical-clustering/

数据挖掘、机器学习、深度学习干货等原创文章持续更新，可以微信搜一搜「 Python数据科学」第一时间阅读。

Original: https://blog.csdn.net/yuxiaosmd/article/details/121460524
Author: Python数据科学
Title: 一文读懂层次聚类（Python代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549500/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

centernet-产品缺陷检测

1.使用Renset50作为主干特征提取网络，最终会获得一16x16x2048的有效特征层 2.对获取到的特征进行上采样，进行分类预测和回归预测 Renset50 其中的CONV表…

人工智能 2023年7月10日
0049
多视图聚类综述

多视图聚类方法分类：区分方法（基于相似性）的方法： MVC的目的是将N个主体分成K个类别，最终我们会得到一个成员矩阵H∈（N×K),它会指示哪一个主题是在同一个簇而其他主体是在其…

人工智能 2023年5月31日
0062
使用SwinUnet训练自己的数据集

参考博文： https://blog.csdn.net/qq_37652891/article/details/123932772 数据集准备遥感图像多类别语义分割，总共分为7类…

人工智能 2023年5月28日
00124
LSTM理解（附Keras代码实例）

背景：最近在用CRNN做OCR，CRNN的R就是LSTM，从开始深度学习的多年来一直在回避的东西这次躲不过去了，就试着去完整理解一下。 1、我之前的误解。当输入LSTM的Tenso…

人工智能 2023年5月31日
0061
AI人工智能可以做哪些课题的毕业设计毕设

常规我们可以依托百度智能云的AI智能识别人脸识别公司签到系统植物大全智能识别系统动物大全智能识别系统果蔬大全智能识别系统菜品大全智能识别系统红酒大全智能识别系统地标大…

人工智能 2023年7月28日
0042
机器学习建模流程

机器学习实战机器学习三把斧 ; 1.数据清洗 1.1缺失值的处理某一列的特征缺失值达到40%左右，删除这个特征值；或者某一个样本的缺失值过大，那么删除这个样本。而当某个特征的…

人工智能 2023年6月15日
0068
OpenCV——单目视觉：方形标定板角点提取

目录一、主要函数 * 1、findChessboardCorners() 2、find4QuadCornerSubpix() 3、drawChessboardCorners 二、…

人工智能 2023年7月19日
0040
ROS1代码向ROS2移植

ROS1代码向ROS2移植前言安装ros2 foxy 配置vscode ros2基本操作 * 创建工作空间添加工作空间环境变量创建ros2功能包安装第三方功能包节点相关…

人工智能 2023年6月2日
00289
（六）多项式回归

文章目录前言 1. 一个例子 2. 多项式回归模型 3. 代码实现前言这篇文章介绍多项式回归。一个例子线性回归可以很好地拟合线性分布的数据，但是对于非线性的数据却派不上…

人工智能 2023年6月23日
0079
《动手学数据分析》第一章1.4

第一章：数据载入及初步观察 1.4 知道你的数据叫什么 * 1.4.1 任务一：pandas中有两个数据类型DateFrame和Series，通过查找简单了解他们。然后自己写一个关…

人工智能 2023年7月6日
0085
ImageNet数据集 & 下载

文章目录 1. ImageNet 说明 2. ILSVRC2012 说明 3. ImageNet下载方式 4. ImageNet数据组织与使用 ImageNet 说明 ImageN…

人工智能 2023年6月15日
00114
pandas入门的12个技巧

Pandas 是一个非常流行的 Python 库，它提供了强大、灵活和高性能的数据处理工具。今天，就为大家总结一下 “Pandas数据处理的12技巧”，随…

人工智能 2023年7月6日
0051
ERROR: Could not find a version that satisfies the requirement matplotlib (from versions: none)

今天在Ubuntu中的pycharm软件安装matplotlib模块时出现，如下问题，提示pip版本不符合，需要更新ERROR: Could not find a version …

人工智能 2023年7月4日
00101
Fashion MNIST数据集的处理——“…-idx3-ubyte”文件解析

MNIST数据集可能是计算机视觉所接触的第一个图片数据集。而 Fashion MNIST 是在遵循 MNIST 的格式和大小的基础上，提升了一定的难度，在比较算法的性能时可以有更好…

人工智能 2023年6月15日
0086
双11降噪音蓝牙耳机：2021主动降噪蓝牙耳机推荐

想必很多人都有这样的困扰：自己想安静地听会音乐看会电影，周围环境却嘈杂不得安宁。其实，一个好的蓝牙降噪耳机，也许可以帮你实现”闹中取静”的愿望。我们不妨一起…

人工智能 2023年5月25日
0055
【语音算法】wav2vec系列原理和使用

文章目录前言 1. wav2vec 2. vq-wav2vec 3. wav2vec2.0 * 3.1 encoder 3.2 context 3.3 wav2vec2.0的使用…

人工智能 2023年6月23日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30