DBSCAN算法(python代码实现)

2023年5月31日上午7:24 • 人工智能 • 阅读 112

DBSCAN

上次学了kmeans基于划分的方法，这次学一个基于密度的聚类算法：DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

一个例子

想象有一个很大的广场，上面种了很多的鲜花和绿草。快要到国庆节了，园丁要把上面的鲜花和绿草打造成四个字：欢度国庆。于是园丁开始动手，用绿草作为背景去填补空白的区域，用红色的鲜花摆成文字的形状，鲜花和绿草之间都要留下至少一米的空隙，让文字看起来更加醒目。

国庆节过后，园丁让他的大侄子把这些花和草收起来运回仓库，可是大侄子是红绿色盲，不能通过颜色来判断，这些绿草和鲜花的面积又非常大，没有办法画出一个区域来告知大侄子。这可怎么办呢？

想来想去，园丁一拍脑袋跟大侄子说：”你就从一个位置开始收，只要跟它连着的距离在一米以内的，你就摞在一起；如果是一米以外的，你就再重新放一堆。” 大侄子得令，开开心心地去收拾花盆了。最后呢，大侄子一共整理了三堆花盆：所有的绿草盆都摞在一起，”国” 字用的红花摞在一起，”庆” 字用的红花摞在了一起。这就是一个关于密度聚类的例子了。

; DBSCAN算法将数据点分为三类：

核心点：在半径Eps内含有不少于MinPts数目的点
界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内
噪音点：既不是核心点也不是边界点的点

在这幅图里，MinPts = 4，点 A 和其他红色点是核心点，因为它们的 ε-邻域（图中红色
圆圈）里包含最少 4 个点（包括自己），由于它们之间相互相可达，它们形成了一个聚类。
点 B 和点 C 不是核心点，但它们可由 A 经其他核心点可达，所以也和A属于同一个聚类。点 N 是局外点，它既不是核心点，又不由其他点可达。

算法原理

上面的例子看起来比较简单，但是在算法的处理上我们首先有个问题要处理，那就是如何去衡量密度。在 DBSCAN 中，衡量密度主要使用两个指标，即半径和最少样本量。

对于一个已知的点，以它为中心，以给定的半径画一个圆，落在这个圆内的就是与当前点比较紧密的点；而如果在这个圆内的点达到一定的数量，即达到最少样本量，就可以认为这个区域是比较稠密的。

在算法的开始，要给出半径和最少样本量，然后对所有的数据进行初始化，如果一个样本符合在它的半径区域内存在大于最少样本量的样本，那么这个样本就被标记为核心对象。

这里我画了一幅图，假设我们的最小样本量为 6，那么这里面的 A、 B、 C 为三个核心对象。

对于在整个样本空间中的样本，可以存在下面几种关系：

直接密度可达：如果一个点在核心对象的半径区域内，那么这个点和核心对象称为直接密度可达，比如上图中的 A 和 B 、 B 和 C 等。
密度可达：如果有一系列的点，都满足上一个点到这个点是密度直达，那么这个系列中不相邻的点就称为密度可达，比如 A 和 D。
密度相连：如果通过一个核心对象出发，得到两个密度可达的点，那么这两个点称为密度相连，比如这里的 E 和 F 点就是密度相连。

; DBSCAN 处理步骤

经过了初始化之后，再从整个样本集中去抽取样本点，如果这个样本点是核心对象，那么从这个点出发，找到所有密度可达的对象，构成一个簇。

如果这个样本点不是核心对象，那么再重新寻找下一个点。
不断地重复这个过程，直到所有的点都被处理过。

这个时候，我们的样本点就会连成一片，也就变成一个一个的连通区域，其中的每一个区域就是我们所获得的一个聚类结果。

当然，在结果中也有可能存在像 G 一样的点，游离于其他的簇，这样的点称为异常点。

算法优缺点

优点

不需要划分个数。跟 K-means 比起来， DBSCAN 不需要人为地制定划分的类别个数，而可以通过计算过程自动分出。
可以处理噪声点。经过 DBSCAN 的计算，那些距离较远的数据不会被记入到任何一个簇中，从而成为噪声点，这个特色也可以用来寻找异常点。
可以处理任意形状的空间聚类问题。从我们的例子就可以看出来，与 K-means 不同， DBSCAN 可以处理各种奇怪的形状，只要这些数据够稠密就可以了。

缺点

需要指定最小样本量和半径两个参数。这对于开发人员极其困难，要对数据非常了解并进行很好的数据分析。而且根据整个算法的过程可以看出， DBSCAN 对这两个参数十分敏感，如果这两个参数设定得不准确，最终的效果也会受到很大的影响。
数据量大时开销也很大。在计算过程中，需要对每个簇的关系进行管理。所以当数据量大的话，内存的消耗也非常严重。
如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差。

在使用的过程中十分要注意的就是最小样本量和半径这两个参数，最好预先对数据进行一些分析，来加强我们的判断

python 代码实现

今天我们使用的数据集不再是鸢尾花数据集，我们要使用 datasets 的另外一个生成数据的功能。

在下面的代码中可以看到，我调用了 make_moons 这个方法，在 sklearn 的官网上，我们可以看到关于这个方法的介绍：生成两个交错的半圆环，从下面的生成图像我们也能够看到，这里生成的数据结果，是两个绿色的半圆形。

我们今天调用的聚类方法是 sklearn.cluster 中的 dbscan。

from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import dbscan #&#x4ECA;&#x5929;&#x4F7F;&#x7528;&#x7684;&#x65B0;&#x7B97;&#x6CD5;&#x5305;
import numpy as np
X,_=datasets.make_moons(500,noise=0.1,random_state=1) #&#x5355;&#x5355;&#x7528;x=&#x3002;&#x3002;&#x3002;&#x7684;&#x8BDD;&#x6700;&#x540E;&#x9762;&#x8FD8;&#x4F1A;&#x6709;&#x4E00;&#x4E2A;&#x7C7B;&#x522B;&#x7684;&#x6570;&#x7EC4;
df = pd.DataFrame(X,columns=['x','y'])
df.plot.scatter('x','y',s=200,alpha=0.5,c='green')

&#x63A5;&#x4E0B;&#x6765;&#x6211;&#x4EEC;&#x5C31;&#x7528;dbscan&#x7B97;&#x6CD5;&#x6765;&#x8FDB;&#x884C;&#x805A;&#x7C7B;&#x8BA1;&#x7B97;
eps&#x4E3A;&#x90BB;&#x57DF;&#x534A;&#x5F84;&#xFF0C; min_samples&#x4E3A;&#x6700;&#x5C11;&#x6837;&#x672C;&#x91CF;
core_samples,cluster_ids=dbscan(X,eps=0.2,min_samples=20)
cluster_ids&#x4E2D; -1&#x8868;&#x793A;&#x5BF9;&#x5E94;&#x7684;&#x70B9;&#x4E3A;&#x566A;&#x58F0;
df= pd.DataFrame(np.c_[X,cluster_ids],columns=['x','y','cluster_id'])
np.c &#x4E2D;&#x7684;c &#x662F; column(&#x5217;)&#x7684;&#x7F29;&#x5199;&#xFF0C;&#x5C31;&#x662F;&#x6309;&#x5217;&#x53E0;&#x52A0;&#x4E24;&#x4E2A;&#x77E9;&#x9635;&#xFF0C;&#x5C31;&#x662F;&#x628A;&#x4E24;&#x4E2A;&#x77E9;&#x9635;&#x5DE6;&#x53F3;&#x7EC4;&#x5408;&#xFF0C;&#x8981;&#x6C42;&#x884C;&#x6570;&#x76F8;&#x7B49;&#x3002;
df['cluster_id']=df['cluster_id'].astype('i2') #&#x53D8;&#x6574;&#x6570;

df.plot.scatter('x','y',s=200,c=list(df['cluster_id']),cmap='Reds',colorbar=False,alpha=0.6,title='DBSCAN')

最后，我们使用不同的颜色来标识聚类的结果，从图上可以看出有两个大类，也就是两个月亮的形状被聚类算法算了出来。

但是眼尖的同学可能看到，在月亮两头的区域有一些非常浅色的点，跟两个类别的颜色都不一样，这里就是最后产生的噪声点，根据我们设置的参数计算，这些点不属于任何一个类别。

Original: https://blog.csdn.net/abc1234564546/article/details/126135022
Author: ybhybh666
Title: DBSCAN算法(python代码实现)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549736/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

css flex布局 —— 项目属性 align-self

align-self属性定义 flex 子项单独在侧轴（纵轴）方向上的对齐方式，可覆盖 align-items 属性。默认值为 auto，表示继承父元素的 align-items…

人工智能 2023年7月30日
0048
Argoverse数据集可视化/Argoverse-api

github:GitHub – argoai/argoverse-api: Official GitHub repository for Argoverse datas…

人工智能 2023年6月15日
00136
回归算法是一种机器学习方法，用于预测连续变量的值。它建立一个数学模型，通过分析输入特征与输出变量之间的关系来进行预测

介绍回归算法是机器学习中常用的一种方法，用于预测连续变量的值。它通过建立一个数学模型来分析输入特征和输出变量之间的关系，并利用该模型进行预测。回归算法在各个领域中都有广泛的应用，…

人工智能 2023年12月31日
0050
【SVM回归预测】基于matlab混沌灰狼算法优化SVM回归预测【含Matlab源码 1576期】

⛄一、混沌灰狼算法简介 1 Tent混沌反向学习策略为保持种群多样性和使初始化种群个体尽可能均匀分布。在目前文献中,采用较多的是混沌映射Logistic,但它在[0,0.1]和[0…

人工智能 2023年6月18日
0089
Interior Point Method (IPM)——内点法复杂度分析

写在前面：当前不同文章对IPM的复杂度分析结果有所不同，本人在这里根据自己的理解进行了总结，读者如有不同的意见欢迎写在评论区。首先需要说明的是IPM是用于求解凸问题的常用有效方法…

人工智能 2023年7月28日
00155
企业关联图谱源码提供

企业关联图谱（Enterprise Profile）提供企业多维度信息查询，资深挖掘企业之间、企业与个人关系链路。通过数据可视化、分析、检索赋能各行业应用。企业关联图谱主要构建企…

人工智能 2023年6月4日
0093
数据可视化图表

数据可视化图表（未完待续）1、森林图森林图展示了单个研究和Meta分析的效应估计值及可信区间。每个研究都由位于干预效果点估计值位置的方块来代表，同时一条横线分别向该方块的两边延伸出…

人工智能 2023年7月17日
0099
《Python程序设计与算法基础教程（第二版）》江红余青松课后选择题课后填空题答案

一、选择题 Python语言属于 C A.机器语言 B.汇编语言 C.高级语言 D.以上都不是在下列选项中，不属于Python特点的是 B C.可移植性 D.免费和开源 A.面向…

人工智能 2023年7月29日
0077
【Numpy总结】第七节：Numpy常用的函数（汇总所有函数，收藏这一篇就OK啦~）

一、Numpy 的加减乘除 numpy 进行加减乘除时，可以使用运算符号，即： +，-，*，/ ，也可以使用对应的…

人工智能 2023年7月5日
0049
域适应(DA)—域泛化(DG)

; 域泛化数据分类 PACS数据集 PACS\VLCS\office-home 提取码：tmid ImageNet-C 衡量分类器对损坏的鲁棒性，包含15种corruption，…

人工智能 2023年6月16日
0092
一文搞懂如何在VS中使用OpenCV

下载OpenCV并在VS2019上进行配置 1.进入OpenCV官网选择想要的版本进行下载 https://opencv.org/releases/ 点击对应的应用场景即可…

人工智能 2023年6月17日
0059
【Java】反射, 枚举,Lambda表达式

✨系列专栏: 【Java SE】✨一句短话:难在坚持,贵在坚持,成在坚持! 文章目录一. 反射 * 1. 反射的概述 2. 反射的使用 – 2.1 反射常用的类 2….

人工智能 2023年7月29日
0061
【YOLOv5】SPP、SPPF模块及添加ASPP模块

文章目录 YOLOv5配置文件 SPP介绍 YOLOv5中的SPP SPPF ASPP 又名，整理整理自己不靠谱的学习记录。 YOLOv5配置文件 YOLOv5通过yaml配置文件…

人工智能 2023年7月6日
0064
机器学习——梯度提升决策树（GBDT）

相关文章链接：机器学习——人工神经网络（NN）机器学习——卷积神经网络（CNN）机器学习——循环神经网络（RNN）机器学习——长短期记忆（LSTM）机器学习——决策树（d…

人工智能 2023年6月25日
0099
关联规则挖掘-Apriori算法例题分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月19日
0089
torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False manual_seed控制程序的随机性

cuda 是NVIDIA 针对自家的CPU设计的并行计算的框架， cuDNN是is a GPU-accelerated library of primitives for deep…

人工智能 2023年7月13日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DBSCAN算法(python代码实现)

一个例子

; DBSCAN算法将数据点分为三类：

优点

缺点

在使用的过程中十分要注意的就是最小样本量和半径这两个参数，最好预先对数据进行一些分析，来加强我们的判断

我们今天调用的聚类方法是 sklearn.cluster 中的 dbscan。

大家都在看