聚类算法简介

2023年6月2日上午8:52 • 人工智能 • 阅读 127

聚类

文章目录

聚类
*
一.什么是聚类
–
二.K-means算法
–
三.Canopy算法
四.聚类算法的评价指标
–
五.层次聚类
–
六.密度聚类方法
–
七.谱聚类
–
- 1.什么是谱
- 2.算法简介
八.标签传递算法

一.什么是聚类

1.聚类定义

聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。由这个定义，我们便可以知道，数据集并没有目标值。因此聚类算法属于无监督算法。

2. 相似度的衡量

之前在k-means算法的简介当中，提及过一个欧式距离。但实际上，相似度的衡量方式有很多种。比如说：

欧式距离（这里列出的是欧式距离的拓展，闵可夫斯基距离）：

杰卡德相似系数(Jaccard)

余弦相似度：
cos ⁡ ( θ ) = x T y ∣ x ∣ ⋅ ∣ y ∣ \cos(\theta) = \frac{x^Ty}{|x|\cdot |y|}cos (θ)=∣x ∣⋅∣y ∣x T y
这个是x向量与y向量之间的夹角为theta。如果x，y都是多维呢？如下：

Pearson相似系数：

相对熵(K-L距离)：

Hellinger距离：

在Hellinger距离当中，特殊的，我们取a=0的时候：

对于这几种距离到底适用于哪种场景，优缺点是什么，其实很难说，查了一些资料，一句话引起了我的注意：

其实你会发现，选择不同的相似性度量方法，对结果的影响是微乎其微的。 ——《集体智慧编程》

; 3. 聚类与降维的关系

我们看下面这个示例，我们假设有x1,x2, ……, xn堆样本，每堆样本有m个数据，那么这m个堆样本就组成了n*m的矩阵。
( x 1 x 2 x 3 . . . . x n ) ⇒ ( x 1 ( 1 ) x 1 ( 2 ) … … x 1 ( m ) x 2 ( 1 ) x 2 ( 2 ) … … x 2 ( m ) x 3 ( 1 ) x 3 ( 2 ) … … x 3 ( m ) … … … … … … … … … … … … … … … … … … … … … … … … x n ( 1 ) x n ( 2 ) … … x n ( m ) ) \begin{pmatrix} x_{1}\ x_{2}\ x_{3}\ .\ .\ .\ .\ x_{n} \end{pmatrix} \Rightarrow \begin{pmatrix} x_{1}^{(1)} && x_{1}^{(2)} && …… && x_{1}^{(m)} \ x_{2}^{(1)} && x_{2}^{(2)} && …… && x_{2}^{(m)} \ x_{3}^{(1)} && x_{3}^{(2)} && …… && x_{3}^{(m)} \ ……&&……&&……&&……\ ……&&……&&……&&……\ ……&&……&&……&&……\ x_{n}^{(1)} && x_{n}^{(2)} && …… && x_{n}^{(m)} \ \end{pmatrix}⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛x 1 x 2 x 3 ….x n ⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞⇒⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛x 1 (1 )x 2 (1 )x 3 (1 )………………x n (1 )x 1 (2 )x 2 (2 )x 3 (2 )………………x n (2 )……………………………………x 1 (m )x 2 (m )x 3 (m )………………x n (m )⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞

聚类，就是要把这些样本进行分类，是一种无监督的分类。那么，经过分类之后，发现整体有k=6个簇。依据不同的簇，又可以组成一个m*6的one-hot矩阵如下：

( x 1 ( 1 ) x 1 ( 2 ) … … x 1 ( m ) x 2 ( 1 ) x 2 ( 2 ) … … x 2 ( m ) x 3 ( 1 ) x 3 ( 2 ) … … x 3 ( m ) … … … … … … … … … … … … … … … … … … … … … … … … x n ( 1 ) x n ( 2 ) … … x n ( m ) ) ⇒ ( o n e _ h o t 矩阵 ) ⇒ n ∗ 6 矩阵 \begin{pmatrix}x_{1}^{(1)} && x_{1}^{(2)} && …… && x_{1}^{(m)} \x_{2}^{(1)} && x_{2}^{(2)} && …… && x_{2}^{(m)} \x_{3}^{(1)} && x_{3}^{(2)} && …… && x_{3}^{(m)} \……&&……&&……&&……\……&&……&&……&&……\……&&……&&……&&……\x_{n}^{(1)} && x_{n}^{(2)} && …… && x_{n}^{(m)}\end{pmatrix} \Rightarrow (one_hot矩阵) \Rightarrow n*6矩阵⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛x 1 (1 )x 2 (1 )x 3 (1 )………………x n (1 )x 1 (2 )x 2 (2 )x 3 (2 )………………x n (2 )……………………………………x 1 (m )x 2 (m )x 3 (m )………………x n (m )⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞⇒(o n e _h o t 矩阵)⇒n ∗6 矩阵

这就是一种降维。所以在某些情景里面，降维和聚类具有一定的相通的地方。

4.聚类的思想

基本思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好

二.K-means算法

这个，先看一看简介：k-means算法简介
这个之前有介绍过基本原理，但是需要做一些补充

1. 算法步骤

假定输入样本为S=x 1 ,x 2 ,…,x m ,则算法步骤为:

选择初始的k个类别中心μ1, μ2 … μk
对于每个样本xi ,将其标记为距离类别中心最近的类别,即:
l a b e l i = a r g m i n 1 < = j < = k ∣ ∣ x i − u j ∣ ∣ label_{i} = argmin_{1
将每个类别中心更新为隶属该类别的所有样本的均值
μ j = 1 ∣ c j ∣ ∑ i ∈ c j x i \mu_{j} = \frac{1}{|c_{j}|}\sum_{i\in c_j}x_{i}μj =∣c j ∣1 i ∈c j ∑x i
重复最后两步,直到类别中心的变化小于某阈值。

中止条件：迭代次数/簇中心变化率/最小平方误差MSE(Minimum Squared Error)，这个需要你自己指定

2. k-means公式化解读

其实，对于k-means算法，和之前的机器学习算法一样，也有一个目标函数，我们假设有K个簇中心为 u1 , u2 , …… , uk ,每个簇的样本数目为 N1 , N2 , …… , Nk，我们使用平方误差做目标函数，就会得到如下公式：

如何理解这个损失函数呢？

我们假定有三个类别，分别服从三个不同的正态分布N(u1, a1^2), N(u2, a2^2), N(u3, a3^2)。分别求这三个类别里面，所有样本的最大似然估计。以第一个类别为例：
x ( i ) ∼ N ( u 1 , σ 1 2 ) ∼ 1 2 π σ 1 e − ( x ( i ) − u 1 ) 2 2 σ 1 2 x^{(i)}\thicksim N(u1,\sigma_{1}^2)\thicksim \frac{1}{\sqrt{2\pi}\sigma_{1}} e^{-\frac{(x^{(i)}-u1)^2}{2\sigma1^2}}x (i )∼N (u 1 ,σ1 2 )∼2 πσ1 1 e −2 σ1 2 (x (i )−u 1 )2

第一个类别里面的所有样本都是服从这样一个分布，我们按照求最大似然估计的套路，先累乘，就是：
∏ i = 1 n 1 2 π σ 1 e − ( x ( i ) − u 1 ) 2 2 σ 1 2 \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma_{1}} e^{-\frac{(x^{(i)}-u1)^2}{2\sigma1^2}}i =1 ∏n 2 πσ1 1 e −2 σ1 2 (x (i )−u 1 )2
那么，三个类别我们都进行累乘，然后取对数。前面带有pi的系数是常量，可以不管，最后剩下的就是xi-uj。

通过上述这个推导，有没有想过这样一个事情，为什么正态分布的情况竟然能够和损失函数完美对接呢？由此，也可以大体猜出一件事情：k-means对样本分布是有一定的要求的，即：整体符合正态分布。即使单个样本不一定是服从于正态分布，但如果样本足够大，那么通过大数定律，使得整体大概符合正态分布也是可以的。

如果针对这个损失函数，我们对不同的中心点，即：u1, u2, u3, ……, uk求偏导，然后求驻点，会如何呢？

由此可见：有好多个极值点，从这个角度来说，k-means可以当作是那个所示函数在梯度下降上的一个应用。而依据上面这个数学推导，我们大致就可以画出目标函数的一个大致的图像：

那么很显然，你到底初值选哪里，才更容易迭代到更好的结果，还真是不太容易搞，就像上图当中的，你选3点，肯定比1点能迭代到更小的损失值。说白了：初值选的好不好，直接影响到你能否迭代到一个好的结果。这就引申出了一个很重要的问题： k-means是初值敏感的。就像下面这个图：

如果我像左图那样选定初始点，那么久可能分成右侧那个图的样子。但是实际上，那个最大的圈，还可以至少分成两部分。

那么如何解决这个事情？

; 3. k-means ++

解决上述问题的一种思路是：初始选择的样本点，距离要尽可能的大。k-means算法一开始都会选初值。假定我选定了一个点，那么我把各个样本到这个点的距离全部计算一次，这样就得到了一组距离：d1, d2, d3 ……, dn。我们令D = d1 + d2 + …… + dn。然后得到若干个概率p1= d1/D, p2= d2/D, ……pn = dn/D。我们按照概率来选择哪个点是优先选择的点。

什么叫依概率选择呢？其实就是说，以上这若干的概率，哪个值最大，就越有可能会被选中，是不是一定选中呢？不一定！！不过，这个可能意味着运算量会很大。有一段代码很好的说明了这个思路：

cluster_center = np.zeros((k,n))
j= np.random.randint(m)
cluster_center[0] = data[j][:]
dis = np.zeros(m) - 1
i=0
while i<k-1:
    for j in ramge(m):
        d = (cluster_center[i]-data[j]) ** 2
        d = np.sum(d)
        if (dis[j]<0) or (dis[j] > d):
            dis[j] = d
        j = random_select(dis)
        i += 1
        cluster_center[i] = data[j][:]

如此一来，我们就得到了另一个算法：k-means++，相比纯粹的k-means，他就是多了一个这样的初始选择方式。这个方式颇有点这种味道：跳远比赛，不能每个人只跳一次，而是每个人跳好多次，综合考虑。

4.Mini-Batch K-Means

如果我们在k-means的基础上考虑SGD, BGD。如果我们所有点都考虑，那么就是SGD，但是如果我们从各个样本之间随机选若干个样本，然后做这些事情呢，那不就是BGD的思想。实际上，还真就有这种方式的k-means。这个方式有另外一个名字：Mini-Batch K-Means

5. k-means总结：

首先，我们看看它的优点:

k-means是解决聚类问题的一种经典算法,简单、快速
对处理大数据集,该算法保持可伸缩性和高效率
当簇近似为高斯分布时,它的效果较好

但是，k-means的缺点也很明显，上面已经分析过了：

在簇的平均值可被定义的情况下才能使用,可能不适用于所有的应用场景
必须事先给出k(要生成的簇的数目，这个是个超参数，自己调整不是很好拿捏)，而且对初值敏感，对于不同的初始值可能会导致不同结果。
不适合于发现非凸形状的簇或者大小差别很大的簇
对躁声和孤立点数据敏感

与此同时，k-means可作为其他聚类方法的基础算法,如谱聚类

三.Canopy算法

这个算法，最开始其实是用来做空间索引的，但是它也可以应用于聚类问题。

这个算法的大体思路如下：

我们假定，有给定样本 x1 , x2 …… xm ，首先，我们给定先验值 r1 , r2 , 假设r1

Original: https://blog.csdn.net/johnny_love_1968/article/details/116708871
Author: 南方惆怅客
Title: 聚类算法简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560341/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Spark SQL 之 DataFrame

Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。 …

人工智能 2023年6月2日
0094
建立私人知识网站并用cpolar内网穿透发布 1-2

系列文章建立私人知识网站并用cpolar内网穿透发布 1-2 建立私人知识网站并用cpolar内网穿透发布 2-2 维基百科（wiki）相信大家都有所耳闻，作为全球最有名的百…

人工智能 2023年6月26日
0065
质量评估指标：PSNR（Peak signal-to-noise ratio 峰值信噪比）

文章目录一、峰值信噪比二、定义三、质量评估和性能比较 * – 1、质量评估 2、性能比较四、PNSR 代码一、峰值信噪比峰值信噪比( PSNR ) 用于表示…

人工智能 2023年6月17日
00125
微软认知服务-语音识别相关

微软认知服务在csdn上面看到有微软认知服务的试用，之前正好因为一些需求，接触到了这块的一些东西，正好总结一下，之前使用的是国外的账号，这个登录以后看到是国内世纪互联运营的国内的…

人工智能 2023年5月25日
0068
OpenCV（2）——基本图像处理

函数接口： cv2.cvtColor(存储彩色图&#x50CF…

人工智能 2023年6月22日
00135
Win11+tensorflow+keras+opencv的踩坑实录

由于换了个电脑，系统也由W10换成了W11，原来带有python3.5的anaconda也不知道怎么回事一直处于闪退当中，于是无奈之下安装了python3.7，所有的包也重新安装，…

人工智能 2023年5月24日
0098
使用Yolov5进行目标检测并训练自己的VOC格式数据集

使用Yolo v5进行目标检测并训练自己的VOC格式数据集一、前提准备二、下载代码及配置环境三、下载预训练模型四、预测五、训练 * 5.1、在data文件夹下新建make…

人工智能 2023年7月11日
0082
贪心算法笔记

贪婪者总是一贫如洗 ——克劳德兰纳斯目录什么是贪心怎样实现例一 AC代码例二 AC代码总结步骤写在最后什么是贪心 360百科里是这样说的：贪婪算法是一种对某些求最…

人工智能 2023年6月27日
0086
联邦学习后门攻击总结（2019-2022）

联邦学习后门攻击总结（2019-2022）联邦学习安全性问题框架概览下表和下图为联邦学习中常见的安全性问题，本文重点关注模型鲁棒性问题中的后门攻击问题。攻击手段安全性问题攻击…

人工智能 2023年7月27日
0063
tensorflow2.3实现PPLCNet——一个速度更快、准确率更高的轻量级骨干网络

前言 PPLCNet是百度团队结合Intel-CPU端侧推理特性而设计的轻量高性能网络PP-LCNet，所提方案在图像分类任务上取得了比ShuffleNetV2、MobileNet…

人工智能 2023年5月23日
0074
论文阅读 Convolutional 2D Knowledge Graph Embeddings

Convolutional 2D Knowledge Graph Embeddings 卷积二维知识图谱嵌入摘要：知识图的链接预测是预测实体之间缺失关系的任务。以往关于链接预测的…

人工智能 2023年6月1日
0080
数字视频稳定的概念与模型

一、基本概念 1、数字视频所面临的问题随着智能设备的普及，我们可以在用各种各样的移动设备在不同的场景和环境进行视频拍摄。在短视频时代下，人们对于视频拍摄的需求日益增大。在需求量增…

人工智能 2023年6月22日
0085
LSTM入门

文章目录 LSTM入门 * LSTM原理与应用及训练方法 – Sequence Prediction Sequence Classification. Sequence…

人工智能 2023年5月25日
0088
数据结构与算法树课后习题选择题部分

1.下列说法正确的是：C A.二叉树中任何一个结点的度都为2. B.二叉树的度为2. C.一棵二叉树的度可小于2 D.任何一棵二叉树中至少有一个结点的度为2. 分析：二叉树可以有…

人工智能 2023年6月28日
0085
深度学习经典应用——鸢尾花分类(基于sklearn包)+三维成果可视化

文章目录任务描述数据集 Step1. 数据准备 Step2. 模型搭建 Step3.模型训练 Step4. 模型评估 Step5. 模型使用 3D可视化模型任务描述构建一个…

人工智能 2023年6月15日
00154
NanoDet代码逐行精读与修改（一）Backbone

–neozng1@hnu.edu.cn 笔者已经为nanodet增加了非常详细的注释，代码请戳此仓库：nanodet_detail_notes: detail ever…

人工智能 2023年7月10日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31