K-Means聚类与DBSCAN的区别

2023年5月31日上午10:07 • 人工智能 • 阅读 119

一家之言，仅作分享，如有不合理或需要改进的地方，欢迎各位讨论。

聚类是无监督机器学习中的一种技术，它根据数据集中数据点可用信息的相似性将数据点分组到集群中。属于同一簇的数据点在某些方面彼此相似，而属于不同簇的数据项不同。

一、K-Means原理

K-Means 是一种 基于距离的聚类算法，将距离比较近的数据点看作相似的点，将它们归为一类。对于给定样本集，按照样本之间的距离大小，将样本集划分为K K K个簇。目标是让簇内的点尽量连接在一起，而让簇间的距离尽量大。

输入：D D D — 数据集{ x 1 ， x 2 ， ⋯ ， x m } {x_1，x_2，\cdots，x_m}{x 1 ，x 2 ，⋯，x m };
K K K — 聚类的簇数k k k ;
N N N — 最大迭代次数；
输出：C C C — 输出簇划分集{ C 1 ， C 2 ， ⋯ ， C k } {C_1，C_2，\cdots，C_k}{C 1 ，C 2 ，⋯，C k };

原理比较简单，实现也是很容易，收敛速度快。
聚类效果较优。
算法的可解释度比较强。
主要需要调参的参数仅仅是簇数k k k。
参数k k k值的选取不好把握。
对于不是凸的数据集比较难收敛。
如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。
采用迭代方法，得到的结果只是局部最优。
对噪音和异常点比较的敏感。

二、DBSCAN原理

DBSCAN是一种 基于密度的聚类算法，可以通过样本分布的紧密程度决定，同一类别的样本之间是紧密相连的，不同样本是是分离的。它将特征空间中足够密集的点划分为同一个簇， 簇的形状可以是任意的，而且数据点中有噪声点的话，不会将这些点划分给某个簇。

输入：D D D — 数据集{ x 1 ， x 2 ， ⋯ ， x m } {x_1，x_2，\cdots，x_m}{x 1 ，x 2 ，⋯，x m };
ϵ \epsilon ϵ — 邻域半径;
M i n P t s MinPts M i n P t s — 邻域最小数据量阈值；
输出：C C C — 输出簇划分集{ C 1 ， C 2 ， ⋯ ， C k } {C_1，C_2，\cdots，C_k}{C 1 ，C 2 ，⋯，C k };

可以对任意形状的稠密数据集进行聚类。
可以在聚类的同时发现异常点，对数据集中的异常点不敏感。
聚类结果没有偏倚，对初始值选取没有要求。
调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵ \epsilon ϵ，邻域样本数阈值M i n P t s MinPts M i n P t s联合调参，不同的参数组合对最后的聚类效果有较大影响。
样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用 DBSCAN 算法一般不适合。
如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。

三、K-Means与DBSCAN的区别

K-Means是基于划分的聚类，DBSCAN是基于密度的聚类。
K-Means需要指定聚类簇数k k k，并且且初始聚类中心对聚类影响很大。K-Means把任何点都归到了某一个类，对异常点比较敏感。DBSCAN能剔除噪声，需要指定邻域距离阈值ϵ \epsilon ϵ和样本个数阈值M i n P t s MinPts M i n P t s，可以自动确定簇个数。
K-Means可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。
K-Means很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。当簇具有很不相同的密度时，两种算法的性能都很差。
K-Means只能用于具有明确定义的质心（比如均值或中位数）的数据。DBSCAN要求密度定义（基于传统的欧几里得密度概念）对于数据是有意义的。
K-Means算法的时间复杂度是O ( n ) O(n)O (n )，而DBSCAN的时间复杂度是O ( n 2 ) O(n^2)O (n 2 )。

Original: https://blog.csdn.net/weixin_43891708/article/details/121923414
Author: NieBP
Title: K-Means聚类与DBSCAN的区别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550464/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

matlab 加权回归估计_matlab代码：地理加权回归（GWR）示例

【实例简介】地理加权回归(GWR)matlab代码，亲测可用，该代码利用matlab实现了地理加权回归的代码，内附实际算例。【实例截图】【核心代码】 function resu…

人工智能 2023年6月18日
0058
主成分分析（PCA）步骤及代码

主成分分析（Principal Component Analysis，PCA）, 简称PCA,是一种统计方法。过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后…

人工智能 2023年7月17日
0078
ICCV 2021 Oral | 姿态估计——零基础看懂RLE

最近ICCV 2021上有一项姿态识别领域非常厉害的工作，它就是今天要介绍的残差似然估计（Residual Log-likelihood Estimation）。其工作的核心在于，…

人工智能 2023年6月18日
0094
菜品分类与检索大作业踩坑

1.训练速度 keras坑很多训练网络时，以下会不同程度上影响速度： 1）imagedatagenerator，如果进行数据增强 2）图片尺寸 3）model.fit。虽然mod…

人工智能 2023年7月2日
0078
计算机视觉教程3-1：全面详解图像边缘检测算法(附Python实战)

目录 0 写在前面 1 一阶微分算子 * 1.1 Prewitt算子 1.2 Sobel算子 2 二阶微分算子 * 2.1 Laplace算子 2.2 LoG算子 3 Canny边…

人工智能 2023年6月18日
0056
DEseq2 差异分析基本原理

DEseq简介寻找组间显著表达变化的基因，以解释基因表达水平的变化对生物功能的变化最直接的办法就行进行转录组测序和定量。那如何从不同组定量的转录组寻找到那些显著差异的基因呢？DE…

人工智能 2023年6月15日
0094
关于YOLO2的学习

1.mAP比不上两阶段的目标检测算法 2.定位性能比较差。对于高IoU指标，其效果明显低于RCNN 3.recall比较低，即将全部目标全部检出的能力相对较弱 4.因为检测框数量上…

人工智能 2023年7月18日
0072
vue-admin-template 角色权限设置（1）

一、动态路由配置当我们需要根据用户登陆角色来控制路由权限的时候，可以通过动态路由来解决。 constantRoutes 在所有的角色页面上都会显示 asyncRoutes 路由会…

人工智能 2023年6月4日
0093
实践高斯模糊卷积核生成公式(二维正态分布)

公式在维基百科中有如下记载：高斯模糊是一种图像模糊滤波器，它用正态分布计算图像中每个像素的变换。N维空间正态分布方程为：G ( r ) = 1 2 π σ 2 N e − r…

人工智能 2023年6月22日
0090
python-岭回归模型

https://zhuanlan.zhihu.com/p/30535220 岭回归模型的应用 ①可视化方法确定值当回归系数随着值的增加而趋近于稳定的点时就是所要寻找的值 imp…

人工智能 2023年6月18日
0046
TensorFlow中的模型保存和加载是如何实现的

Tensorflow模型保存和加载的实现在TensorFlow中，模型保存和加载的实现涉及到两个关键步骤：模型的保存和模型的加载。在这里，我们将详细介绍每个步骤的实现过程、算法原…

人工智能 2023年12月30日
0051
P36霍夫直线检测

（一）知识点函数输入为一幅二值图像（有很多待检测点），其中一些点排列后形成直线，通常这是一幅边缘图像，比如来自Sobel算子或Canny算子。函数的输出是cv::Vec3f的向量…

人工智能 2023年6月22日
0074
OCR识别中级篇，halcon实战项目讲解二，OCR助手

OCR识别中级篇，Halcon实战项目讲解二，OCR助手。个人学习笔记第一：快速使用OCR助手进行识别：OCR助手打开位置进入halcon的OCR助手中，首页第一个设置是可以进行…

人工智能 2023年6月22日
00112
【Python数据分析与可视化】Matplotlib数据可视化（实训四）

全球星巴克门店数据分析 import pandas as pd import numpy as np from pandas import Series,DataFrame imp…

人工智能 2023年7月18日
0059
NLP-D6-李宏毅机器学习L3hw-L4self-attention-L5seq2seq(Transformer)

昨天的进度被一些意外的事情打乱了，而且搞得心烦意乱，但是没关系！！！留得青山在，不怕没柴烧，昨天第一次给同学讲解ML，发现了自己不牢固的知识，感觉很好！看了作业要求，感觉很干！！…

人工智能 2023年5月28日
0073
前车碰撞预警——FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码

前车碰撞预警——FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码。单目测距，多目标跟踪。车辆检测，智能adas，FCW,价格只包括源码及设计文档讲解。我使用的版本说明:gp…

人工智能 2023年5月24日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

K-Means聚类与DBSCAN的区别

一、K-Means原理

二、DBSCAN原理

三、K-Means与DBSCAN的区别

大家都在看