聚类算法之层次聚类

2023年6月15日上午9:06 • 人工智能 • 阅读 130

层次聚类

1. 基本介绍

层次聚类有聚合（自下而上）和分裂（自上而下）两种方式。

聚合聚类开始将每个样本各自分到个类:之后将相距最近的两类合井，建立一个新的类，重复此操作直到满足停止条件

分裂聚类开始将所有样本分到一个类之后将己有类中相距最远的样本分到两个新的类，重复此操作直到满足停止条件

2. 聚合聚类

对于给定的样本集合，开始将每个样本分到一个类，然后按照一定规则，例如类间距离最小，将最满足规则条件的两个类进行合并如此反复进行，每次减少一个类，直到满足停止条件

聚合聚类需要预先确定下面三个要素:

距离或相似度：欧氏距离、曼哈顿距离、夹角余弦等
合并规则：最短距离，最长距离，中心距离，平均距离等
停止条件：类的个数达到阈值、类的直径超过阈值等

3. 聚合聚类算法流程

如果采用欧氏距离作为样本间的距离，类间距离最小作为合并规则，类的个数为1作为停止条件，那么聚合聚类算法流程如下：

输入 : n 个样本组成的样本集合及样本之间的距离输入: n 个样本组成的样本集合及样本之间的距离输入:n 个样本组成的样本集合及样本之间的距离

输出 : 对样本集合的个层次化聚类输出:对样本集合的个层次化聚类输出:对样本集合的个层次化聚类

计算n n n个样本两两之间的欧氏距离d i j d_{ij}d i j
构造n n n个类，每个类只包含一个样本
合井类间距离最小的两个类，其中最短距离为类间距离，构建一个新类。
计算新类与当前各类的距离。若类的个数为1，终止计算，否则回到步骤3

4. `Scipy` 中的层次聚类

from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt

X = [[i] for i in [2, 8, 0, 4, 1, 9, 9, 0]]

Z = linkage(X, 'average')

fig = plt.figure(figsize=(5, 3))
dn = dendrogram(Z)
plt.show()

scipy.cluster.hierarchy.linkage(y, method='single', metric='euclidean', optimal_ordering=False)

y：是距离矩阵,可以是1维压缩向量（距离向量），也可以是2维观测向量（坐标矩阵）。若 y是1维压缩向量，则 y必须是n个初始观测值的组合，n是坐标矩阵中成对的观测值。
method：是指计算类间距离的方法
single：
d ( u , v ) = m i n ( d i s t ( u [ i ] , v [ j ] ) ) d(u,v)=min(dist(u[i],v[j]))d (u ,v )=m i n (d i s t (u [i ],v [j ]))
complete：
d ( u , v ) = m a x ( d i s t ( u [ i ] , v [ j ] ) ) d(u,v)=max(dist(u[i],v[j]))d (u ,v )=m a x (d i s t (u [i ],v [j ]))
average：
d ( u , v ) = ∑ i j d i s t ( u [ i ] , u [ j ] ) ( ∣ u ∣ ⋅ ∣ v ∣ ) d(u,v)=\sum_{ij}\frac {dist(u[i],u[j])} {(|u| \cdot |v|)}d (u ,v )=i j ∑(∣u ∣⋅∣v ∣)d i s t (u [i ],u [j ])
ward：
d ( u , v ) = ∣ v ∣ + ∣ s ∣ N d i s t ( v , s ) 2 + ∣ v ∣ + ∣ t ∣ N d i s t ( v , t ) 2 − ∣ v ∣ N d i s t ( s , t ) 2 d(u,v)=\sqrt {\frac {|v|+|s|}{N}dist(v,s)^2+\frac {|v|+|t|}{N}dist(v,t)^2-\frac {|v|} {N}dist(s,t)^2}d (u ,v )=N ∣v ∣+∣s ∣d i s t (v ,s )2 +N ∣v ∣+∣t ∣d i s t (v ,t )2 −N ∣v ∣d i s t (s ,t )2
其中，u u u是s 和 t s和t s 和t组成的新类，v v v初始时的类。N = ∣ v ∣ + ∣ s ∣ + ∣ t ∣ N=|v|+|s|+|t|N =∣v ∣+∣s ∣+∣t ∣

返回值： ( n − 1 , 4 ) (n-1,4)(n −1 ,4 )的矩阵Z Z Z

5. `Sklearn` 中的层次聚类

from sklearn.cluster import AgglomerativeClustering
from scipy.cluster.hierarchy import dendrogram
from matplotlib import pyplot as plt
import numpy as np

X = [[i] for i in [2, 8, 0, 4, 1, 9, 9, 0]]

def plot_dendrogram(model, **kwargs):
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack(
        [model.children_, model.distances_, counts]
    ).astype(float)

    dendrogram(linkage_matrix, **kwargs)

model = AgglomerativeClustering(n_clusters=None, distance_threshold=0, linkage='average')

model.fit(X)

plot_dendrogram(model)

plt.show()

sklearn.cluster.AgglomerativeClustering

n_clusters：聚类数目
linkage: 计算类间距离的方法

返回值的属性

labels_：每一点的聚类标签
children_：每个非叶节点的子节点。小于 n_samples的值对应于原始样本树的叶子。大于或等于 n_samples的节点 i是一个非叶节点，具有子节点 children_[i - n_samples]。或者，在第 i次迭代时，将 children[i][0]和 children[i][1]合并成节点 n_samples + i。
数据 X一共有8个样本，那么在进行层次聚类是，这8个样本各自一类，类别名称是0、1、2、3、4、5、6、7
第一行：[5, 6]意思是类别5和类别6距离最近，首先聚成一类，并自动定义类别为8(=8-1+1)
第二行：[2, 7]意思是类别2和类别7距离最近，聚成一类，类别为9(=8-1+2)
依次类推

6. 实例演示

import numpy as np
import matplotlib.pyplot as plt

from sklearn import cluster, datasets
from sklearn.preprocessing import StandardScaler

np.random.seed(0)

n_samples = 1500
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=0.05)
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

data_sets = [
    (
        noisy_circles,
        {
            "n_clusters": 2
        }
    ),
    (
        noisy_moons,
        {
            "n_clusters": 2
        }
    ),
    (
        blobs,
        {
            "n_clusters": 3
        }
    )
]
colors = ["#377eb8", "#ff7f00", "#4daf4a"]
linkage_list = ['single', 'average', 'complete', 'ward']

plt.figure(figsize=(20, 15))

for i_dataset, (dataset, algo_params) in enumerate(data_sets):

    params = algo_params

    X, y = dataset
    X = StandardScaler().fit_transform(X)

    for i_linkage, linkage_strategy in enumerate(linkage_list):

        ac = cluster.AgglomerativeClustering(n_clusters=params['n_clusters'], linkage=linkage_strategy)

        ac.fit(X)

        y_pred = ac.labels_.astype(int)

        y_pred_colors = []

        for i in y_pred:
            y_pred_colors.append(colors[i])

        plt.subplot(3, 4, 4*i_dataset+i_linkage+1)
        plt.title(linkage_strategy)
        plt.scatter(X[:, 0], X[:, 1], color=y_pred_colors)

plt.show()

7. 层次聚类小结

优点：

距离和规则的相似度容易定义，限制少
不需要预先制定聚类数
可以发现类的层次关系
可以聚类成其它形状

缺点：

计算复杂度太高，的复杂度是 O ( n 3 m ) O(n^3m)O (n 3 m )其中m m m是样本的维数，n n n是样本个数。
奇异值也能产生很大影响
算法很可能聚类成链状

Original: https://blog.csdn.net/qq_42735631/article/details/120995743
Author: 何如千泷
Title: 聚类算法之层次聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614280/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

目标检测——yolov3论文精读

📝论文下载 Abstract(摘要) YOLOv3在YOLO的基础上做了一些更新，重点在于提升检测的精度。当图片的分辨率为320 × 320，YOLOv3只使用了22 ms进行…

人工智能 2023年6月17日
0088
Collaborativ

问题介绍 Collaborative Filtering（协同过滤）是一种常用的推荐系统算法，通过分析用户的历史行为和对物品的评价来预测用户对其他物品的兴趣。本文将详细介绍Coll…

人工智能 2024年1月2日
0022
NNI模型压缩正则梯度裁剪

1.L0范数指向量中非0的元素的个数。 2.L1范数指向量中各个元素绝对值之和 3.L2范数是指向量各元素的平方和然后求平凡根如何评估一个连接的重要性？视觉密码基于视觉密码的…

人工智能 2023年6月22日
0052
Ubuntu22.04 在线安装 MySQL8

使用APT安装MySQL sudo apt-get -y install mysql-server 确保记住您设置的根密码。以后想设置密码的用户可以在对话框中将密码字段留空，然后按…

人工智能 2023年6月28日
00130
Android C/C++层hook和java层hook原理以及比较

作者：Denny Qiao（乔喜铭），云智慧/架构师。云智慧集团成立于2009年，是全栈智能业务运维解决方案服务商。经过多年自主研发，公司形成了从IT运维、电力运维到IoT运维的…

人工智能 2023年6月4日
0089
Raki的读paper小记：ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

Abstract & Introduction & Related Work 研究任务预训练语言模型已有方法和相关工作面临挑战虽然它们在转移到下游的NLP任…

人工智能 2023年5月28日
0086
使用TF-IDF算法进行数据处理（附代码）

· 什么是TF-IDF？ TF-IDF(term frequency–inverse document frequency)是一种加权技术，用于文本数据的挖掘与清洗。 · 使用情境…

人工智能 2023年6月19日
0086
python处理未知数据类型的字符，整型浮点型字符串转换为浮点型数字

python处理未知数据类型的字符，整型浮点型字符串转换为浮点型数字 def IsNum(str): """ 只&#x8…

人工智能 2023年6月28日
0077
Python-Pytorch框架-实现AI自动瞄准(下)

OpenCV与Ptorch框架搭建一个利用目标骨骼关键点检测实现AI自动瞄准的娱乐项目（该项目仅供学习OpenCV、Ptorch框架、游戏自动化等参考）。该项目思路大致分为如下步…

人工智能 2023年7月28日
0072
【opencv图像处理】–4. 低、高通滤波，卷积和各种算子

系列所有代码，复制粘贴即可运行。希望有能力的朋友还是拿C++运行一下。本节讨论图像的低通滤波（卷积，方盒，中值双边，高斯），高通滤波（Sobel,Scharr,Laplace,c…

人工智能 2023年6月25日
0088
裂缝检测专题（3）裂缝数据集dataset总结1-分类

裂缝检测技术-基于图像处理 * – 用于裂缝分类用于裂缝分类 Concrete Crack Images for Classification 像素值：227&#21…

人工智能 2023年5月26日
0054
【论文阅读】目标检测中的分类回归特征解耦

论文来源：知网以下仅仅是学习过程中的部分笔记，用作自己复习。摘要 ….. 目标检测不仅需要判别图像中存在的目标的类别，还需要回归目标在图像中的位置。特征耦合具体表现…

人工智能 2023年6月30日
00108
盘点AI的认证

近年来，在数字经济不断推进的大背景下，人工智能发展迅速，并与多种应用场景深度融合。深度理解人工智能行业，也逐渐成为推动经济创新发展的重要技术。AI认证作为衡量AI工程师能力水平的重…

人工智能 2023年7月27日
0063
110配线架打法图解_【布线经验】110语音配线架详细安装教程（图文）

原标题：【布线经验】110语音配线架详细安装教程(图文) 110语音配线架是机房工程中常用的语音配线工具，常用来管理大对数语音电缆。本文将详细介绍25对大对数语音电缆在110语音配…

人工智能 2023年5月27日
00633
【Matlab】一键Matlab代码转python代码详细教程

Motivation 博主最近在看的一篇做biomedical image SR的论文，其对数据的预处理用matlab做的…要在集群上跑的话还要重新配环境装matlab…

人工智能 2023年7月5日
0057
CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）

( a ) (a)(a ) 具体每步迭代结果如下所示（默认ROOT是指向parsed的）： StackBufferNew dependencyTransition[ROOT][To…

人工智能 2023年7月14日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31