层次聚类概述

2023年7月16日下午6:34 • 人工智能 • 阅读 136

文章目录

层次聚类
*
聚合式聚类
簇间距离的计算
–
分拆式聚类
层次聚类算法总结

层次聚类

层次聚类（hierarchical clustering）试图在不同层次对数据集进行划分，从而形成树形的聚类结构，
数据集的划分可采用”自底向上（合并）”的聚合策略，也可采用”自顶向下（拆分）”的分析策略。依据采用的策略可以将层次聚类方法分为：
聚合式聚类（agglomerative clustering）
分拆式聚类（divisive clustering）
两种方法均是启发式的策略，没有去优化一个明确的目标函数来实现聚类，很难严格评价聚类的效果。
层次聚类得到的结果是 *“树状图”

根据不同虚线的位置，可以得到不同数量的聚类

; 聚合式聚类

在开始时把每个样本都每个样本都当成一簇，然后在每一次迭代中将最相似的（距离最近）的两个簇合并，直到把所有簇合并为包含所有样本的一簇

流程：

将每个样本看做一个簇:C i ← { i } , i = 1 , 2 , . . . , n C_i \leftarrow {i}, i = 1,2,…,n C i ←{i },i =1 ,2 ,…,n
初始化可供合并的簇集：S ← { 1 , 2 , . . . , n } S \leftarrow {1,2,…,n}S ←{1 ,2 ,…,n }
计算出簇间距离矩阵
重复迭代如下步骤直至没有可供合并的簇：
选择两个最相似的簇进行合并：( j , k ) ← a r g min ⁡ j , k ∈ S d j , k (j,k) \leftarrow arg\min_{j,k \in S} d_{j,k}(j ,k )←a r g min j ,k ∈S d j ,k
创建新簇C l ← C j ∪ C k C_l \leftarrow C_j \cup C_k C l ←C j ∪C k
从S S S 中取出已合并的j j j和k k k：S ← S ∖ { j , k } S \leftarrow S\setminus{ j,k}S ←S ∖{j ,k }
如果C l ≠ { 1 , 2 , . . . , n } C_l \neq { 1,2,…,n}C l ={1 ,2 ,…,n }，那么增加一个可合并集S ← S ∪ { l } S \leftarrow S \cup {l}S ←S ∪{l }
对于每个i ∈ S i \in S i ∈S ，更新簇间距离矩阵d ( i , l ) d(i,l)d (i ,l )

簇间距离的计算

单链接(single-linkage)

也称为 最近邻距离，即簇G G G 和簇H H H之间的距离定义为两簇之间最近的成员之间的距离：
d s l ( G , h ) = min ⁡ i ∈ G , i ′ ∈ H d i , i ′ d_{sl}(G,h) = \min_{i \in G, i^{‘} \in H}d_{i,i^{‘}}d s l (G ,h )=i ∈G ,i ′∈H min d i ,i ′

; 全链接(complete-linkage)

也称为 最远邻距离，即簇G和簇H之间的距离定义为两簇之间最远的成员之间的距离。
d c l ( G , H ) = max ⁡ i ∈ G , i ′ ∈ H d i , i ′ d_{cl}(G,H) = \max_{i \in G, i^{‘} \in H}d_{i,i^{‘}}d c l (G ,H )=i ∈G ,i ′∈H max d i ,i ′

平均链接(average-linkage)

表示两簇之间所有成员对的平均距离

d a v g ( G , H ) = 1 n G n H ∑ i ∈ G ∑ i ′ ∈ H d i , i ′ d_{avg}(G,H) = \frac 1{n_Gn_H}\sum_{i \in G}\sum {i^{‘} \in H}d{i,i^{‘}}d a v g (G ,H )=n G n H 1 i ∈G ∑i ′∈H ∑d i ,i ′

n G n_G n G 和n H n_H n H 是簇G和簇H的样本个数。

; 三种距离方式的比较

单链接(single-linkage)
只需要考虑两簇之间有成员对距离足够近就将两簇合并，而并没有考虑其他簇内其他成员的距离。因此单连接法形成的簇很有可能 违背紧致性特征，即簇内成员应该尽可能相似
全连接法（complete-linkage）：
只有两簇的联合的成员间的距离相对较小时，才将两簇合并，因此完整连接法倾向于生成紧致簇
均连接法（average-linkage）
介于单连接和全连接之间的方法
易于生成相对紧致的簇同时簇间距离较远。

分拆式聚类

分拆聚类将所有样本集合看作一簇，以自上而下的方式，递归地将现有的簇分拆为两个子簇。

利用不同的启发式方法进行分拆方式的选择：

二分K-means聚类
选择半径最大的簇，对该簇进行K（2）-means聚类分为两个子簇
重复此过程直到到达想要的簇个数
最小生成树法
将每个样本看作一个图节点，将样本间距离看作节点边的权重，根据此图建立最小生成树。
从权重最大处将该簇分拆为两簇，然后重复此过程直到达到想要的簇个数。实际上，该方法得到的聚类结果和单连接的聚合聚类得到的结果一致。

层次聚类算法总结

层次聚类一次性地得到了整个聚类的过程，想要分多少个簇都可以直接根据”树状图”来得到结果，改变簇的数目不再需要再次计算数据点的归属类别；
单连接和全连接代表了簇间距离度量的两个极端，它们对离群点或噪声数据过分敏感
平均连接时一种计算量大，而且错分在层次聚类中时不可修正的，一旦某个样本被分到某个聚类中，则该样本永远停留在该聚类中。
层次聚类的缺点是：
计算量大
而且错分在聚合式聚类中是不可修正的，一旦某个样本被分到某个聚类中，则该样本永远停留在该聚类中。

Original: https://blog.csdn.net/WWWzq_/article/details/124234976
Author: WWWzq_
Title: 层次聚类概述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696985/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于回归模型的协同过滤（随机梯度下降+交替最小二乘优化）

将评分看作是一个连续的值而不是离散的值，就可以借助线性回归思想来预测目标用户对某物品的评分。其中一种实现策略被称为Baseline（基准预测）。 1. Baseline：基准预测 …

人工智能 2023年6月17日
00105
利用OpenCV和Python一百行代码快速实现人脸检测和人脸识别

利用OpenCV和Python一百行代码快速实现人脸检测和人脸识别目录利用OpenCV和Python一百行代码快速实现人脸检测和人脸识别 * – 1、前言 2、准备…

人工智能 2023年7月18日
0064
OpenCV中的非线性滤波——中值滤波，双边滤波(15)

非线性滤波：中值滤波，双边滤波 1.1 非线性滤波滤波器是线性的，即两个信号之和的响应是它们各自响应的和(每个像素的输出值是一些输入像素的加权和。线性滤波器易于构造，但是很多情况…

人工智能 2023年7月20日
0065
二维平面中相对坐标与绝对坐标的转换公式

public class CoordTrans7Param { public double[,] values=new double[7,1]; //{{dx},{dy},{dz}…

人工智能 2023年6月10日
00109
SPSS数据分析之描述性统计、区间估计与假设检验【操作详解】

文章目录 * – + 1、描述统计 + 2、区间估计 + 3、假设检验 1、描述统计（1）依次点击分析，描述性统计，描述。（2）选项可以选择需要进行描述统计的统计变量…

人工智能 2023年6月19日
00191
Python imgaug库安装与使用（图片加模糊光雨雪雾等特效）

imgaug库简介安装 Overview * 特效 Project 结构程序 * 参考的源代码（来源于网络）简易变换试效果使用模糊光雨雪雾 else * 重命名000…

人工智能 2023年6月18日
00106
Resnet 18网络模型

残差网络：（Resnet）残差块：让我们聚焦于神经网络局部：如图左侧所示，假设我们的原始输入为x，而希望学出的理想映射为f(x)（作为上方激活函数的输入）。左图虚线框中的部分需…

人工智能 2023年7月5日
0078
matlab回归预测值预测区间_matlab建立多元线性回归模型并进行显著性检验及预测问题 -…

matlab建立多元线性回归模型并进行显著性检验及预测问题例子; x=[143 145 146 147 149 150 153 154 155 156 157 158 159 1…

人工智能 2023年6月18日
00128
爬虫框架 Scrapy 详解

一、Scrapy 基础知识 Scrapy 是适用于 Python 的一个快速、高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy …

人工智能 2023年7月4日
0054
数字图像处理之matlab实验（五）：形态学图像处理

常见的形态学处理包括腐蚀、膨胀、开运算、闭运算。不同的操作有不同的作用，同样的操作在不同类型的图片上也有不同效果，具体效果如下表格所示。要求熟练掌握对二值图像的形态学处理。不同操…

人工智能 2023年7月28日
0085
DeepPath：一种知识图推理的强化学习方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0075
Vue实现手机端界面的购物车案例

目录前期准备 Goods Counter 今天用Vue实现的一个手机端的购物车案例，着重阐述组件化思想的优势，将页面的内容分成各个模块进行书写，然后数据传输，父传子、子传父、兄弟…

人工智能 2023年7月31日
0090
【论文考古】量化SGD QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding

本文以梯度方差为中间变量，研究得到了parallel SGD中量化比特数与收敛性的关系；在重申随机取整重要性的基础上，将方差打造成了新的研究热点 D. Alistarh, D. G…

人工智能 2023年6月4日
00104
华为手机怎么强制关机_华为手机电源键，原来还有那么玩法，你不会只用来锁屏和关机吧？…

如今，几乎所有的智能手机都有电源键，很多朋友认为电源键只能用来开关机，也可以用来亮屏、锁屏。这是个大错误。玩华为手机的电源按键有很多实用的方法。让我们来看看。 [En] Nowad…

人工智能 2023年5月27日
00216
深度盘点：时序预测之异常检测算法综述

本文将介绍在时间序列预测相关问题中常见的异常检测算法，可以很大程度上帮助改善最终预测效果。喜欢记得收藏、关注、点赞。注：完整版代码、数据、技术交流，文末获取异常分类时间序列…

人工智能 2023年6月16日
00143
以太网交换机自学习、转发帧的流程

以太网交换机自学习、转发帧的流程以太网交换机工作在数据链路层（也包括物理层）以太网收到帧后，在帧交换表中查找帧的目的地址MAC地址所对应的接口号，然后通过该接口转发帧。以太网…

人工智能 2023年6月29日
00123

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31