DBSCAN算法

2023年6月3日上午6:01 • 人工智能 • 阅读 142

定义

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

算法流程

将所有点标为未标记点，依次遍历所有点，判断该点是否被标记，如果被标记则遍历下个点，反之计算该点邻域点，判断邻域点个数，如果小于min_sample(邻域半径内最小邻域点个数)则将该点标记为噪声点，反之标记为簇Ci(i为不同簇标号)，并将该点及其邻域点存入簇Ci，从Ci中选出一个点，判断该点是否为噪声点，若是将其标号改成簇Ci标号，反之判断该点邻域点个数是否大于min_sample，如果大于说明该点可继续扩充，将该点及其邻域点加入到Ci，继续遍历Ci中点，直到Ci中所有点被遍历完，则返回开头，遍历下一个点，如果该点邻域点个数小于min_sample，说明该点是簇Ci中的边界点，不可继续扩充，则标记该点为簇Ci点，继续遍历Ci中下一个点。直到原数据所有点被遍历完，算法结束，返回数据对应的簇标号。

代码

#寻找某点的邻域元素,返回对应的索引  便于后续判断该点的标签类别（即簇类别）
def find_nerighborhood(p, data, eps):
    N = []  #存放某个点邻域元素的索引
    for i in range(len(data)):
        distance = np.sqrt(np.sum((p - data[i])**2))
        if distance < eps:
            N.append(i)
    return N

#扩充簇元素
def expand_cluster(N, data, eps, min_sample, mask, clusters_label):
    #遍历簇中每个元素，找到符合扩充条件的元素 添加到簇中
    i = 0
    while i < len(N):
        #如果该点被标为噪声点，则将其改成簇标号 且不用计算该邻域元素因为以前被标为噪声点说明现在只是边缘点
        if mask[N[i]] == -1:
            mask[N[i]] = clusters_label
        #如果该点未被标记则标为簇标号
        elif mask[N[i]] == 0:
            mask[N[i]] = clusters_label
            #计算该点邻域点
            N_new = find_nerighborhood(data[N[i]], data, eps)
            if len(N_new) > min_sample:
                #将该点邻域存入簇
                N += N_new
        i += 1
    # return N

def DBSCAN_re(data, eps, min_sample):
    #所有数据标为未标记数据
    # mask = np.zeros_like(data[:, 0], dtype=bool)   #存放标记号
    mask = np.zeros(data.shape[0])
    # clusters = []   #存放某种簇所有元素
    clusters_label = 0  #簇类别号
    for p in range(len(data)):
        #如果该点被标记则跳过该点
        if mask[p] != 0:
            continue

        #如果该点未被处理则计算该点邻域点
        N = find_nerighborhood(data[p], data, eps)
        num_ner = len(N)
        #如果邻域元素过少则标为噪声点
        if num_ner < min_sample:
            mask[p] = -1
        else:
            #将该点标为第i类 i = 1, 2, ...

            clusters_label += 1
            mask[p] = clusters_label
            #扩充簇元素
            expand_cluster(N, data, eps, min_sample, mask, clusters_label)
    return mask  #返回每个点对应的类别标号

效果演示

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:dd0c18b6-7ec7-451c-973a-3ee19babf257

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:6f83b108-58c5-4a9a-b2f1-7c20f410c9c8

算法优势

（1）聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类；

（2）与K-MEANS比较起来，不需要输入要划分的聚类个数；

（3）聚类簇的形状没有偏倚；

（4）可以在需要时输入过滤噪声的参数。

算法劣势

（1）当数据量增大时，要求较大的内存支持I/O消耗也很大；

（2）当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差，因为这种情况下参数MinPts和Eps选取困难。

（3）算法聚类效果依赖与距离公式选取，实际应用中常用欧式距离，对于高维数据，存在”维数灾难”。

算法待改进之处

（1）减小算法复杂度，便于处理大数据集

（2）邻域半径及邻域点个数阈值不易选取

参数选择方式

(1) K-距离：随机选中某个点，计算该点与所有点的距离，当某个距离对应的邻域点个数发生突变时，将该距离设定为Eps。（该方式不是原K距离方式）

原K-距离方式：给定K邻域参数k,对于数据中的每个点，计算对应的第k个最近邻域距离，并将数据集所有点对应的最近邻域距离按照降序方式排序，称这幅图为排序的k距离图，选择该图中第一个谷值点位置对应的k距离值设定为Eps。一般k选4。
(2) MinPts的选取与k相似时，效果较好。

参数选择效果

月牙数据集eps=0.1，min_sample=4

双圆加点簇数据集eps=0.4，k=4

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:f44b8a20-0b74-4a12-849f-3fd8af04c3a0

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:bc61c7aa-8a6d-4d34-a06e-4c3fb364f5fe

Original: https://blog.csdn.net/qq_62945476/article/details/124509474
Author: 小魏612
Title: DBSCAN算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/563354/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JanusGraph源码本地编译

JanusGraph源码本地编译背景笔者也是刚接触JanusGraph不久的小白，对JanusGraph的一些功能实现点也是一知半解，但由于生活所迫对新事物的好奇心，接下来…

人工智能 2023年6月10日
0085
【go微服务】RPC的原理与Go RPC

本文介绍了RPC的概念以及Go语言中标准库rpc的基本使用。什么是RPC RPC（Remote Procedure Call），即远程过程调用。它允许像调用本地服务一样调用远程服…

人工智能 2023年6月26日
0090
C语言读取bmp图像

BMP图像编码 BMP即bitmap，也就是位图，一般由4部分组成：文件头信息块、图像描述信息块、颜色表（在真彩色模式无颜色表）和图像数据区。在图像数据之前，如图所示，共有54位…

人工智能 2023年6月17日
00112
只要5秒就能“克隆”本人语音！美玉学姐不再查寝，而是吃起了桃桃丨开源

博雯萧箫发自凹非寺量子位报道 | 公众号 QbitAI 现在，AI已经能克隆任意人的声音了！比如，还有一秒，美玉姐姐还在宿舍里登记： [En] For example,…

人工智能 2023年5月25日
00186
《全网最强》详解机器学习分类算法之决策树（附可视化和代码）

剪枝是决策树算法_中一个重要的步骤，它的目的是防止过拟合。CART(Classification and Regression Trees) _分类决策树_剪枝主要有两种方法…

人工智能 2023年7月2日
0069
YOLO算法之YOLOv5

目录一、什么是YOLOv5？二、YOLO目标检测技术发展史 * 1、发展历程一览 2、各版本差异三、YOLOv5网络结构和组件一、什么是YOLOv5？参考学习：了解YO…

人工智能 2023年7月25日
0071
重学深度学习系列—LeNet5实现手写数字识别(TensorFlow2-mnist数据集)

重学深度学习系列—LeNet5实现手写数字识别(TensorFlow2-mnist数据集) 文章目录重学深度学习系列—LeNet5实现手写数字识别(TensorFlo…

人工智能 2023年5月23日
0059
ACL2022 | 利用中文语言层级异质图强化预训练语言模型

北京大学数据管理实验室李彦增博士《Enhancing Chinese Pre-trained Language Model via Heterogeneous Linguistic…

人工智能 2023年6月1日
0073
数据项目总结 – 租房数据分析（完整篇）

Datawhale干货作者：皮钱超，厦门大学，Datawhale成员深圳租房数据分析完整篇从2020年11月发表第一篇深圳租房数据分析的文章，到这篇基于深度学习框架Keras…

人工智能 2023年6月16日
0078
tf1常用损失函数

tf.nn.sigmoid_cross_entropy_with_logits() 表示和sigmoid搭配使用的交叉熵tf.nn.softmax_cross_entropy_wi…

人工智能 2023年5月26日
00100
如何使用最小二乘法来求解一元线性回归

本文通过使用最小二乘法来求解一元线性回归方程来解释一下为啥线性回归可以直接求解一、什么是线性回归模型线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关…

人工智能 2023年6月17日
0079
【神经网络】(17) EfficientNet 代码复现，网络解析，附Tensorflow完整代码

各位同学好，今天和大家分享一下如何使用 Tensorflow 复现 EfficientNet卷积神经网络模型。 EfficientNet 的网络结构和 MobileNetV3 比较…

人工智能 2023年5月26日
0084
自然语言处理（二）：文本预处理之文本处理的基本方法

文本预处理中包含的主要环节文本处理的基本方法文本张量表示方法文本语料的数据分析文本特征处理数据增强方法文本处理的基本方法分词词性标注命名实体识别文本张量表示方法…

人工智能 2023年5月31日
0086
图像数据预处理

文章 * – + 1.下载数据集 + 2.数据集划分 + 3.数据预处理代码 1.下载数据集首先我们需要先到网上下载猫狗数据集： 猫&#…

人工智能 2023年7月28日
0072
KBQA 图谱问答论文整理

公众号系统之神与我同在本文来自知乎和微信公众号收集 Core techniques of question answering systems over knowledge b…

人工智能 2023年6月1日
0060
matplotlib画折线与散点

数据分析简单理解就是如何用数据来绘制图表这一类的。一般学习推荐使用jupyter notebook 使用matplptlib画图，先准备好以下代码： import matplot…

人工智能 2023年7月15日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DBSCAN算法

大家都在看