聚类及DBSCAN 聚类算法

2023年5月31日上午9:06 • 人工智能 • 阅读 60

聚类及DBSCAN 聚类算法

一、聚类

1.概念

聚类就是按照某个特定标准把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。

2.聚类与分类的区别

聚类时，我们并不关心某一类是什么，目标只是把相似的东西聚到一起。因此聚类通常不需要使用训练数据进行学习，可以看作无监督学习。

分类时，一个分类器需要训练集进行”学习”，从而具备对未知数据进行分类的能力，属于监督学习。

3.聚类分类

（1）基于划分

原理解析：假设有一堆散点需要聚类，首先确定该堆散点需要聚成几类，然后挑选几个点作为初始中心点，再然后给数据点做迭代重置（iterative relocation），直到最后达到”类内的点都足够近，类间的点都足够远”的目标效果。

主要算法：k-means算法及其变体。

优点：很适合发现中小规模的数据库中小规模的数据库中的球状簇；对于大型数据集简单高效、时间复杂度、空间复杂度低。
缺点：计算量大；数据集大时结果容易局部最优；需要预先设定K值，对最先的K个点选取很敏感；对噪声和离群值非常敏感；只用于numerical类型数据；不能解决非凸（non-convex）数据。

（2）基于层次

层次聚类主要有两种类型：合并的层次聚类和分裂的层次聚类。

合并的层次聚类是一种自底向上的层次聚类算法，从最底层开始，每一次通过合并最相似的聚类来形成上一层次中的聚类，整个当全部数据点都合并到一个聚类的时候停止或者达到某个终止条件而结束，大部分层次聚类都是采用这种方法处理。
分裂的层次聚类是采用自顶向下的方法，从一个包含全部数据点的聚类开始，然后把根节点分裂为一些子聚类，每个子聚类再递归地继续往下分裂，直到出现只包含一个数据点的单节点聚类出现，即每个聚类中仅包含一个数据点。

主要算法：BIRCH算法、CURE算法、CHAMELEON算法。

优点：可解释性好；可以解决K-means不能解决的非球形族。
缺点：时间复杂度高。

（3）基于密度

原理解析：k-means解决不了不规则形状的聚类。于是就有了Density-based methods来系统解决这个问题。该方法同时也对噪声数据的处理比较好。其原理简单说画圈儿，其中要定义两个参数，一个是圈儿的最大半径，一个是一个圈儿里最少应容纳几个点。只要邻近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类,最后在一个圈里的，就是一个类。

主要算法：DBSCAN算法、OPTICS算法、DENCLUE算法。

优点：对噪声不敏感；能发现任意形状的聚类。
缺点：聚类的结果与参数有很大的关系。

（4）基于网格

原理解析：将数据空间划分为网格单元，将数据对象集映射到网格单元中，并计算每个单元的密度。根据预设的阈值判断每个网格单元是否为高密度单元，由邻近的稠密单元组形成”类”。

主要算法：STING算法、CLIQUE算法、WAVE-CLUSTER算法。

优点：速度很快，因为其速度与数据对象的个数无关，而只依赖于数据空间中每个维上单元的个数。
缺点：参数敏感、无法处理不规则分布的数据、维数灾难等；这种算法效率的提高是以聚类结果的精确性为代价的。经常与基于密度的算法结合使用。

（5）基于模型

原理解析：为每簇假定了一个模型，寻找数据对给定模型的最佳拟合，这一类方法主要是指基于概率模型的方法和基于神经网络模型的方法，尤其以基于概率模型的方法居多。这里的概率模型主要指概率生成模型（generative Model），同一”类”的数据属于同一种概率分布，即假设数据是根据潜在的概率分布生成的。

主要算法：高斯混合模型（GMM，Gaussian Mixture Models）、SOM（Self Organized Maps）。

优点：对”类”的划分不那么”坚硬”，而是以概率形式表现，每一类的特征也可以用参数来表达。
缺点：执行效率不高，特别是分布数量很多并且数据量很少的时候。

（6）基于模糊

主要算法：模糊C均值（FCM）。

二、DBSCAN 聚类算法

1.DBSCAN密度定义

DBSCAN基于一组邻域来描述样本集的紧密程度， 参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。其中，ϵ描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。

假设样本集：D=(x1,x2,…,xm),则DBSCAN具体的密度描述定义如下：
1）ϵ-邻域：对于xj∈D，其ϵ-邻域包含样本集D中与xj的距离不大于ϵ的子样本集，即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)|。
2) 核心对象：对于任一样本xj∈D，如果其ϵ-邻域对应的Nϵ(xj)至少包含MinPts个样本，即如果|Nϵ(xj)|≥MinPts，则xj是核心对象。
3）密度直达：如果xi位于xj的ϵ-邻域中，且xj是核心对象，则称xi由xj密度直达。注意反之不一定成立，即此时不能说xj由xi密度直达, 除非且xi也是核心对象。
4）密度可达：对于xi和xj,如果存在样本样本序列p1,p2,…,pT,满足p1=xi,pT=xj, 且pt+1由pt密度直达，则称xj由xi密度可达。也就是说，密度可达满足传递性。此时序列中的传递样本p1,p2,…,pT−1均为核心对象，因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性，这个可以由密度直达的不对称性得出。
5）密度相连：对于xi和xj,如果存在核心对象样本xk，使xi和xj均由xk密度可达，则称xi和xj密度相连。注意密度相连关系是满足对称性的。

从下图可以很容易看出理解上述定义，图中MinPts=5，红色的点都是核心对象，因为其ϵ-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内，如果不在超球体内，则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是密度相连的。

; 2.DBSCAN密度聚类思想

DBSCAN的聚类定义很简单：由密度可达关系导出的最大密度相连的样本集合，即为最终聚类的一个类别，或者说一个簇。

这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的ϵ-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的ϵ-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的ϵ-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。

那么怎么才能找到这样的簇样本集合呢？DBSCAN使用的方法很简单，它任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

基本上这就是DBSCAN算法的主要内容了，是不是很简单？但是我们还是有三个问题没有考虑。

第一个是一些异常样本点或者说少量游离于簇外的样本点，这些点不在任何一个核心对象在周围，在DBSCAN中，我们一般将这些样本点标记为 噪音点。

第二个是距离的度量问题，即如何计算某样本和核心对象样本的距离。在DBSCAN中，一般采用最近邻思想， 采用某一种距离度量来衡量样本距离，比如欧式距离。这和KNN分类算法的最近邻思想完全相同。对应少量的样本，寻找最近邻可以直接去计算所有样本的距离，如果样本量较大，则一般采用KD树或者球树来快速的搜索最近邻。如果大家对于最近邻的思想，距离度量，KD树和球树不熟悉，建议参考之前写的另一篇文章K近邻法(KNN)原理小结。

第三个问题比较特殊，某些样本可能到两个核心对象的距离都小于ϵ，但是这两个核心对象由于不是密度直达，又不属于同一个聚类簇，那么如果界定这个样本的类别呢？一般来说，此时DBSCAN采用 先来后到，先进行聚类的类别簇会标记这个样本为它的类别。也就是说DBSCAN的算法不是完全稳定的算法。

3.DBSCAN聚类算法

下面对DBSCAN聚类算法的流程做一个总结。

&#x8F93;&#x5165;&#xFF1A;&#x6837;&#x672C;&#x96C6;D=(x1,x2,...,xm)&#xFF0C;&#x90BB;&#x57DF;&#x53C2;&#x6570;(&#x3F5;,MinPts), &#x6837;&#x672C;&#x8DDD;&#x79BB;&#x5EA6;&#x91CF;&#x65B9;&#x5F0F;
1&#xFF09;&#x521D;&#x59CB;&#x5316;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x96C6;&#x5408;&#x3A9;=&#x2205;, &#x521D;&#x59CB;&#x5316;&#x805A;&#x7C7B;&#x7C07;&#x6570;k=0&#xFF0C;&#x521D;&#x59CB;&#x5316;&#x672A;&#x8BBF;&#x95EE;&#x6837;&#x672C;&#x96C6;&#x5408;&#x393; = D,  &#x7C07;&#x5212;&#x5206;C = &#x2205;&#x3002;
2) &#x5BF9;&#x4E8E;j=1,2,...m, &#x6309;&#x4E0B;&#x9762;&#x7684;&#x6B65;&#x9AA4;&#x627E;&#x51FA;&#x6240;&#x6709;&#x7684;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#xFF1A;
    a) &#x901A;&#x8FC7;&#x8DDD;&#x79BB;&#x5EA6;&#x91CF;&#x65B9;&#x5F0F;&#xFF0C;&#x627E;&#x5230;&#x6837;&#x672C;xj&#x7684;&#x3F5;-&#x90BB;&#x57DF;&#x5B50;&#x6837;&#x672C;&#x96C6;N&#x3F5;(xj)&#xFF1B;
    b) &#x5982;&#x679C;&#x5B50;&#x6837;&#x672C;&#x96C6;&#x6837;&#x672C;&#x4E2A;&#x6570;&#x6EE1;&#x8DB3;|N&#x3F5;(xj)|&#x2265;MinPts&#xFF0C; &#x5C06;&#x6837;&#x672C;xj&#x52A0;&#x5165;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x6837;&#x672C;&#x96C6;&#x5408;&#xFF1A;&#x3A9;=&#x3A9;&#x222A;{xj}&#x3002;
3&#xFF09;&#x5982;&#x679C;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x96C6;&#x5408;&#x3A9;=&#x2205;&#xFF0C;&#x5219;&#x7B97;&#x6CD5;&#x7ED3;&#x675F;&#xFF0C;&#x5426;&#x5219;&#x8F6C;&#x5165;&#x6B65;&#x9AA4;4&#x3002;
4&#xFF09;&#x5728;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x96C6;&#x5408;&#x3A9;&#x4E2D;&#xFF0C;&#x968F;&#x673A;&#x9009;&#x62E9;&#x4E00;&#x4E2A;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;o&#xFF0C;&#x521D;&#x59CB;&#x5316;&#x5F53;&#x524D;&#x7C07;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x961F;&#x5217;&#x3A9;cur={o}, &#x521D;&#x59CB;&#x5316;&#x7C7B;&#x522B;&#x5E8F;&#x53F7;k=k+1&#xFF0C;&#x521D;&#x59CB;&#x5316;&#x5F53;&#x524D;&#x7C07;&#x6837;&#x672C;&#x96C6;&#x5408;Ck={o}, &#x66F4;&#x65B0;&#x672A;&#x8BBF;&#x95EE;&#x6837;&#x672C;&#x96C6;&#x5408;&#x393;=&#x393;&#x2212;{o}&#x3002;
5&#xFF09;&#x5982;&#x679C;&#x5F53;&#x524D;&#x7C07;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x961F;&#x5217;&#x3A9;cur=&#x2205;&#xFF0C;&#x5219;&#x5F53;&#x524D;&#x805A;&#x7C7B;&#x7C07;Ck&#x751F;&#x6210;&#x5B8C;&#x6BD5;, &#x66F4;&#x65B0;&#x7C07;&#x5212;&#x5206;C={C1,C2,...,Ck}, &#x66F4;&#x65B0;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x96C6;&#x5408;&#x3A9;=&#x3A9;&#x2212;Ck&#xFF0C; &#x8F6C;&#x5165;&#x6B65;&#x9AA4;3&#x3002;&#x5426;&#x5219;&#x66F4;&#x65B0;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x96C6;&#x5408;&#x3A9;=&#x3A9;&#x2212;Ck&#x3002;
6&#xFF09;&#x5728;&#x5F53;&#x524D;&#x7C07;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;&#x961F;&#x5217;&#x3A9;cur&#x4E2D;&#x53D6;&#x51FA;&#x4E00;&#x4E2A;&#x6838;&#x5FC3;&#x5BF9;&#x8C61;o&#x2032;,&#x901A;&#x8FC7;&#x90BB;&#x57DF;&#x8DDD;&#x79BB;&#x9608;&#x503C;&#x3F5;&#x627E;&#x51FA;&#x6240;&#x6709;&#x7684;&#x3F5;-&#x90BB;&#x57DF;&#x5B50;&#x6837;&#x672C;&#x96C6;N&#x3F5;(o&#x2032;)&#xFF0C;&#x4EE4;&#x394;=N&#x3F5;(o&#x2032;)&#x2229;&#x393;, &#x66F4;&#x65B0;&#x5F53;&#x524D;&#x7C07;&#x6837;&#x672C;&#x96C6;&#x5408;Ck=Ck&#x222A;&#x394;, &#x66F4;&#x65B0;&#x672A;&#x8BBF;&#x95EE;&#x6837;&#x672C;&#x96C6;&#x5408;&#x393;=&#x393;&#x2212;&#x394;,  &#x66F4;&#x65B0;&#x3A9;cur=&#x3A9;cur&#x222A;(&#x394;&#x2229;&#x3A9;)&#x2212;o&#x2032;&#xFF0C;&#x8F6C;&#x5165;&#x6B65;&#x9AA4;5&#x3002;
&#x8F93;&#x51FA;&#x7ED3;&#x679C;&#x4E3A;&#xFF1A; &#x7C07;&#x5212;&#x5206;C={C1,C2,...,Ck}

4.DBSCAN总结

与传统的K-Means算法相比，DBSCAN最大的不同就是不需要输入类别数k，当然它最大的优势是可以发现任意形状的聚类簇，而不是像K-Means，一般仅仅使用于凸的样本集聚类。同时它在聚类的同时还可以找出异常点，这点和BIRCH算法类似。

那么我们什么时候需要用DBSCAN来聚类呢？一般来说，如果数据集是稠密的，并且数据集不是凸的，那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的，则不推荐用DBSCAN来聚类。

下面对DBSCAN算法的优缺点做一个总结。
DBSCAN的主要优点有：
1）可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。
2）可以在聚类的同时发现异常点，对数据集中的异常点不敏感。
3）聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。
DBSCAN的主要缺点有：
1）如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合。
2）如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。
3）调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵ，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

参考文献：

聚类及聚类算法的分类：https://blog.csdn.net/count_on_me/article/details/82193745
聚类方法：DBSCAN算法研究（1）–DBSCAN原理、流程、参数设置、优缺点以及算法：https://blog.csdn.net/zhouxianen1987/article/details/68945844?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-2.pc_relevant_paycolumn_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-2.pc_relevant_paycolumn_v2&utm_relevant_index=5
DBSCAN 聚类算法：https://blog.csdn.net/chengyq116/article/details/87250193
DBSCAN 密度聚类算法：https://www.cnblogs.com/pinard/p/6208966.html

Original: https://blog.csdn.net/qq_41904191/article/details/122324422
Author: 小程是个什么鬼
Title: 聚类及DBSCAN 聚类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550194/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习笔记：常用数据集之scikit-learn生成分类和聚类数据集

目录 1. 前言 2. make_classification¶ 3. make_blobs 4. make_moons 5. make_circles 6. make_gauss…

人工智能 2023年6月16日
0067
yolov7_实例分割（有待完善）

源码：https://github.com/jinfagang/yolov7需要的安装包：–torch 1.11 (stable version)–onnx–alfred-py–n…

人工智能 2023年6月25日
0083
fNIRS功能近红外数据处理服务

在脑科学和神经科学领域，功能近红外成像技术（functionalnear-infrared spectroscopy, fNIRS）已经逐渐成为研究大脑活动的重要技术手段之一。该技…

人工智能 2023年7月15日
0077
独热(One-Hot)编码简述

目录 1.前言 2.什么是 one-hot 编码？ 3.Python 代码 1.前言今天看Colab上的代码的时候突然看到了这个概念，抱着好奇的心态学习了一下，挺基础也很重要的一…

人工智能 2023年7月26日
0056
FastAPI 快速入门

👑 FastAPI 快速入门文章目录 👑 FastAPI 快速入门 😉前言 * 一、👻FastApi？？ – 1.😎FastAPI可以做什么 2.🚲为什么要学习 Fa…

人工智能 2023年7月4日
0058
pandas常用方法

1、了解 1.1 DataFrame和Series关系 pandas读取数据会返回一个 DataFrame的数据结构，查看某一列或者某一行的数据类型，会返回一个 Series的数据…

人工智能 2023年7月7日
0059
利用opencv-python的hsv空间进行图像提取

文章目录 HSV颜色空间简介图像提取的例子 * 1.识别按钮的简单例子 2.水果分类 HSV颜色空间简介 HSV(Hue, Saturation, Value)是根据颜色的直观特…

人工智能 2023年7月19日
0057
代码的表示学习：CodeBERT及其他相关模型介绍

什么是CodeBert CodeBERT是微软在2020年开发的BERT模型的扩展。它是一个用于编程语言(PL)和自然语言(NL)的双峰预训练模型，可以执行下游的(NL-PL)任务…

人工智能 2023年5月27日
0083
Remote Sensing Image Super-resolution and Object Detection: Benchmark and State of the Art

标题遥感图像超分和目标检测的benchmark和SOTA。摘要在过去的二十年里，人们一直在研究遥感（RS）图像中的目标检测方法。在大多数情况下，用于遥感图像中小目标检测的数据…

人工智能 2023年7月23日
0079
学习记录648@python之pandas周期转化resample函数的使用

需求对于金融数据，我们常常需要改变数据的周期，比如将分钟数据的周期变为日周期的数据。以下以股票5分钟数据为准，将其转化为15分钟的数据数据。代码 import numpy as…

人工智能 2023年7月7日
0056
【多元统计分析】均值向量和协方差阵的检验——spss上机实验

均值向量和协方差阵的检验——spss上机实验参考书目为《多元统计分析》（第五版）——何晓群.中国人民大学出版社如有错误，请指正！谢谢~ 关注公众号搜索同名文章获取数据~ 习题2…

人工智能 2023年7月14日
00181
演化博弈与GAN网络

演化博弈与GAN网络 0.摘要 1.引言 2.博弈论相关 * 2.1二人零和博弈 2.2交叉熵 3.对抗生成网络模型 * 3.1模型概述 3.2手写体数据集实验 3.3图片生成实验…

人工智能 2023年6月20日
0086
最新python大数据毕业设计选题推荐（三）

文章目录 0 前言 1 大数据相关题目 2 开题指导 * 2.1 起因 2.2 如何避坑(重中之重) 2.3 为什么这么说呢？ 2.4 难度把控 2.5 题目名称 3 最后 0 前…

人工智能 2023年7月4日
0034
空洞卷积（膨胀卷积）的相关知识以及使用建议（HDC原则）

空洞卷积的介绍空洞卷积（Atrous Convolution）又名膨胀卷积（Dilated Convolution）。 dilated 英 [daɪ&…

人工智能 2023年6月16日
0057
神经网络——Tensor、计算图、训练方法

Tensor、Variable 和 Parameter 经过 Pytorch 0.4.0 的更新后，前两个都是一个 torch.Tensor 对象，可以理解为两者等价；后者是 Pa…

人工智能 2023年7月13日
0059
stata怎么画分类图_Stata怎么画直方图或折线图-Stata教程

软件功能：Stata官方版是一款相当优秀的实用型理科统计软件，Stata官方版功能强悍，高效专业，提供了数据分析、数据管理和绘制专业图表等功能，Stata支持线性混合模型、均衡重复…

人工智能 2023年6月18日
00137

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

聚类及DBSCAN 聚类算法

一、聚类

1.概念

2.聚类与分类的区别

3.聚类分类

（1）基于划分

（2）基于层次

（3）基于密度

（4）基于网格

（5）基于模型

（6）基于模糊

二、DBSCAN 聚类算法

1.DBSCAN密度定义

; 2.DBSCAN密度聚类思想

3.DBSCAN聚类算法

4.DBSCAN总结

参考文献：

大家都在看