密度聚类之DBSCAN聚类算法

2023年6月2日下午4:53 • 人工智能 • 阅读 90

DBSCAN聚类算法

1、算法原理

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一个有代表性的基于密度的空间聚类算法。它将类定义为密度相连的点的最大集合，通过在样本空间中不断寻找最大集合从而完成聚类。该算法在带噪声的样本空间中发现任意形状的聚类并排除噪声。

2、DBSCAN算法涉及的基本定义：

ϵ \epsilon ϵ 邻域：对于p i p_i p i ∈ \in ∈ D，其ϵ \epsilon ϵ邻域包含对象集合 D_中与 p i p_i p i 的距离不大于 ϵ \epsilon ϵ的子对象集，即N ϵ N_ϵN ϵ(p i p_i p i )={x j x_j x j ∈ \in ∈ _D| distance(x i x_i x i ,x j x_j x j )≤ \leq ≤ϵ \epsilon ϵ}，这个子对象集的个数记为 |N ϵ N_ϵN ϵ(p i p_i p i )|

核心点(Core point)：如果给定对象的ϵ \epsilon ϵ邻域内的样本点数大于设定的MinPts，则称该对象为核心点（核心对象）。

边界点(Border point)：若样本 p i p_i p i 的邻域内包含的样本数目小于MinPts，但是它在其它核心点的邻域内，则称样本点p i p_i p i 为边界点。

噪声点(Noise point)：既不是核心点也不是噪声点的点

直接密度可达：给定对象集合 D，如果对象 _p_在对象 _q_的ϵ \epsilon ϵ邻域内，且 _p_是 _D_的一个核心对象，则称为对象 _p_从对象 _q_出发是直接密度可达的。

密度可达：给定对象集合 D，如果存在一个对象链p 1 p_1 p 1 ,p 2 p_2 p 2 ,p 3 p_3 p 3 ,···,p n p_n p n ，p 1 p_1 p 1 =q，p n p_n p n =p，∀ \forall ∀p i p_i p i ∈ \in ∈ D(1 ≤ \leq ≤i ≤ \leq ≤n-1)都有p i + 1 p_{i+1}p i +1 与p i p_i p i 是直接密度可达的，则称对象 _p_从对象 _q_出发是密度可达的。

密度相连：如果存在对象 o ∈ \in ∈ _D_使得对象 _p_和对象 _q_都是从 _o_出发密度可达的，则称对象 _p_从对象 _q_出发是密度相连。

; 3、DBSCAN密度聚类思想

DBSCAN的聚类定义很简单：由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。

这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的ϵ-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的ϵ-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的ϵ-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。

那么怎么才能找到这样的簇样本集合呢？DBSCAN使用的方法很简单，它任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

在DBSCAN密度聚类思想中，有一下三点需要注意的地方：

1.样本中的异常样本点。这些点不在任何一个核心对象的周围，在DBSCAN中，我们一般将这些样本点标记为噪声点。

2.距离度量问题。即如何计算某样本和核心对象样本间的距离。在DBSCAN中，一般采用最近邻思想，采用某一种距离度量来衡量样本距离，比如欧氏距离，这和KNN分类算法的最近邻思想完全相同。对于少量样本，寻找最近邻可以直接去计算所有样本的距离，如果样本量较大，则一般采用KD树或者球树来快速的搜索最近邻。

3.某些样本可能到两个核心对象的距离都小于ϵ \epsilon ϵ，但是这两个核心对象由于不是密度直达，且也不属于同一个聚类簇，则对于这种样本，一般来说，此时DBSCAN采用先来后到，先进行聚类的类别簇会标记这个样本为该类别。也就是说DBSCAN算法不是完全稳定的算法。

4、算法实现

输入：样本集 D =(p 1 p_1 p 1 ,p 2 p_2 p 2 ,…,p n p_n p n ),邻域参数 (ϵ \epsilon ϵ,MinPts)，样本距离度量方式

输出：簇划分 C

步骤：

1.初始化核心对象集合Ω \Omega Ω=∅ \emptyset ∅，初始化聚类簇数k=0，初始化未访问样本集合Γ \Gamma Γ= D，簇划分 C=∅ \emptyset ∅
2.对于i=1,2,…,n，按下面的步骤找出所有的核心对象：
(a)通过距离度量方式，找到样本x i x_i x i 的ϵ \epsilon ϵ邻域子样本集N ϵ N_ϵN ϵ(p i p_i p i )
(b)如果子样本集样本个数满足 |N ϵ N_ϵN ϵ(p i p_i p i )|≥ \geq ≥ MinPts，则将样本x i x_i x i 加入核心对象样本集合：Ω \Omega Ω=Ω \Omega Ω⋃ \bigcup ⋃{x i x_i x i }
3.如果核心对象集合Ω \Omega Ω=∅ \emptyset ∅，则算法结束，否则转入步骤4.
4.在核心对象集合Ω \Omega Ω中，随机选择一个核心对象 o，初始化当前簇核心对象队列Ω c u r Ω_{cur}Ωc u r ={ o}，初始化类别序号k=k+1，初始化当前簇样本集合C k C_k C k ={ o},更新未访问样本集合Γ \Gamma Γ=Γ \Gamma Γ-{ o}
5.如果当前簇核心对象队列Ω c u r Ω_{cur}Ωc u r =∅ \emptyset ∅，则当前聚类簇C k C_k C k 生成完毕，更新簇划分C={C 1 C_1 C 1 ,C 2 C_2 C 2 ,…,C k C_k C k },更新核心对象集合Ω \Omega Ω=Ω \Omega Ω-C k C_k C k ，转入步骤3，否则更新核心对象集合Ω \Omega Ω=Ω \Omega Ω-C k C_k C k
6.在当前簇核心对象队列Ω c u r Ω_{cur}Ωc u r 中取出一个核心对象 o’ 通过邻域距离阈值ϵ \epsilon ϵ找出所有的ϵ \epsilon ϵ邻域子样本集N ϵ N_ϵN ϵ(o’)，令Δ \Delta Δ=N ϵ N_ϵN ϵ(o’)⋂ \bigcap ⋂Ω \Omega Ω，更新当前簇样本集合C k C_k C k =C k C_k C k ⋃ \bigcup ⋃Δ \Delta Δ，更新未访问样本集合Ω \Omega Ω=Ω \Omega Ω-Δ \Delta Δ，更新Ω c u r Ω_{cur}Ωc u r =Ω c u r Ω_{cur}Ωc u r ⋂ \bigcap ⋂(Δ \Delta Δ⋃ \bigcup ⋃Ω \Omega Ω)- o’，转入步骤5
7.最后输出结果为：簇划分C={C 1 C_1 C 1 ,C 2 C_2 C 2 ,…,C k C_k C k }

5、总结

优点：
1.可以对任意形状的稠密数据进行聚类，而K-Means之类的聚类算法一般只适用于球形簇；
2.可以在聚类的同时发现噪声点，对数据集中的噪声点不敏感；
3.聚类结果没有偏倚，而K-Means之类的聚类算法初始值对聚类结果有很大影响。

缺点：
1.如果样本集的密度不均匀，聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不合适；
2.如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进；
3.调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵ \epsilon ϵ，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

参考来源
https://www.cnblogs.com/pinard/p/6208966.html

Original: https://blog.csdn.net/weixin_44428995/article/details/117398249
Author: 我确也不知道
Title: 密度聚类之DBSCAN聚类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561472/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

保姆级使用PyTorch训练与评估自己的VGG网络教程

文章目录前言 0. 环境搭建&快速开始 1. 数据集制作 * 1.1 标签文件制作 1.2 数据集划分 1.3 数据集信息文件制作 2. 修改参数文件 3. 训练 4. …

人工智能 2023年7月23日
0057
Opencv-图像操作与处理入门基本知识（一）

文章目录前言一、图像基础知识 * 像素坐标系图像坐标系二、opencv处理图像基本操作 * 2.1 基础知识与应用 – 2.1.1 读取图像 2.1.2 显示图…

人工智能 2023年6月22日
0075
ONNX的模型优化与量化细节

layout: posttitle: ONNX的模型优化与量化细节date: 2021-09-21 18:18:48.000000000 +09:00categories: [算法…

人工智能 2023年5月24日
0065
#手写代码# 用Bert+LSTM解决文本分类问题

首先定义一个配置文件类，类里边存放Bert和LSTM的一些超参数 class Config(object): ”’ 配置参数 ”’ def __init__(self,data…

人工智能 2023年5月31日
0084
从秦琼卖马说起

《隋唐演义》这本书，小时候没看过。之前从华为过来在燧原短暂逗留几个月走了的的某高层一直推崇唐史，虽然我不知道他说的唐史是《隋唐演义》这种野史，还是《二十四史》这种正史(从这位高层的…

人工智能 2023年6月4日
0098
hw-2 李宏毅2022年作业2 phoneme识别单strong-hmm详细解释。

目录系列文章前言：项目：一：数据：二：模型三：训练和评估四：main函数和训练过程五后处理。系列文章 2022李宏毅作业hw1—新冠阳性人员数量预…

人工智能 2023年5月27日
00104
垃圾分类数据集+垃圾分类识别训练代码(支持googlenet, resnet, inception_v3, mobilenet_v2)

垃圾分类数据集+垃圾分类识别训练代码(支持googlenet, resnet, inception_v3, mobilenet_v2) 目录垃圾分类数据集+垃圾分类识别训练代码(…

人工智能 2023年7月3日
0098
VS编译OpenCV和OpenCV-contrib

1、下载OpenCV源码官网：Releases – OpenCV ; 2、下载OpenCV-Contrib源码 GitHub地址：opencv_contrib 为什么…

人工智能 2023年7月18日
0064
sklearn中多标签分类场景下的常见的模型评估指标

在sklearn中，提供了多种在多标签分类场景下的模型评估方法，本文将讲述sklearn中常见的多标签分类模型评估指标。在多标签分类中我们可以将模型评估指标分为两大类，分别为不考虑…

人工智能 2023年7月2日
0099
史上最全！用Pandas读取CSV，看这篇就够了

导读：pandas.read_csv接口用于读取CSV格式的数据文件，由于CSV文件使用非常频繁，功能强大，参数众多，因此在这里专门做详细介绍。作者：李庆辉来源：大数据DT（I…

人工智能 2023年7月29日
0062
yolov5 训练结果解析

yolov5 训练结果解析本文仅用于记录之前在CSDN中所学有关YOLOv5结果解析所转载知识的记录和总结笔记用。在每次训练之后，都会在runs-train 文件夹下出现一下文…

人工智能 2023年6月13日
0072
AC自动机算法简述以及基于神经网络的知识推理总结

1、文本分词有中文分词和英文分词，对于后者，目前多采用 nltk进行分词处理；而在这篇文章中，将主要介绍中文分词，其主要有两种思路：查词典和字标注；查词典的方法有：机械的最大匹配法…

人工智能 2023年6月10日
0069
基于四层神经网络的MNIST手写数字识别（GUI-tkinter）

假期学习机器学习，动手实现了一个手写数字识别程序，将一段时间的学习成果实践了一下。程序效果演示在哔站暑假做的玩具级NN神经网络手写数字识别（源码附上）_哔哩哔哩_bilibili…

人工智能 2023年6月18日
0079
python dataframe index 两维_python – Pandas：使用MultiIndex将DataFrame转换为dict

另一个新手熊猫问题.我想将DataFrame转换为字典,但其方式与DataFrame.to_dict()函数提供的方式不同.按示例说明： df = pd.DataFrame({&#…

人工智能 2023年7月8日
0062
基于文化算法优化的神经网络预测研究（Matlab代码实现）

目录 1 文化优化算法 2 人工神经网络 3 基于文化算法优化的神经网络预测研究（Matlab代码实现）运行结果 4 参考文献 5 Matlab代码实现 1 文化优化算法大自然里…

人工智能 2023年7月30日
0054
什么是半监督学习算法

半监督学习算法半监督学习算法是一种利用有限标签数据和大量未标签数据进行学习的机器学习方法。在实际应用中，往往会遇到标注数据难以获取的情况，但是未标签数据却很容易获取。半监督学习算…

人工智能 2024年1月1日
0036

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31