K-Means算法和DBSCAN算法

2023年5月31日下午12:23 • 人工智能 • 阅读 65

文章目录

一、聚类
二、K-Means算法
*
1、基本概念
2、工作流程
3、优缺点
三、DBSCAN算法
*
1、基本概念
2、工作流程
3、参数选择
4、优缺点
四、可视化展示
*
1、K-Means算法
2、DBSCAN算法
五、参考文献

一、聚类

聚类是根据在数据中发现的描述对象及其关系的信息，将数据对象分簇。其目的是使簇内的对象相互之间是相似的(相关的)，而不同簇中的对象是不同的(不相关的)。簇内相似性越大，簇间差距越大，说明聚类效果越好。
聚类是一种无监督学习的方法，是许多领域中常用的机器学习技术。其难点在于如何评估和调参。

二、K-Means算法

1、基本概念

要得到簇的个数，需要指定K K K值
质心：均值，即向量各维取平均即可
距离的度量：常用欧几里得距离和余弦相似度(先标准化)
优化目标：min ⁡ ∑ i = 1 K ∑ x ∈ C i d i s t ( c i , x ) 2 \min\displaystyle\sum_{i=1}^K\displaystyle\sum_{x\in C_i}dist(c_i,x)^2 min i =1 ∑K x ∈C i ∑d i s t (c i ,x )2

2、工作流程

（1）数据预处理：主要是标准化、异常点过滤。
（2）设置参数K K K，其含义是将数据集聚合成K K K类。
（3）随机选取K K K个质心，记为μ 1 ( 0 ) , μ 2 ( 0 ) , ⋯ , μ K ( 0 ) \mu_1^{(0)},\mu_2^{(0)},\cdots,\mu_K^{(0)}μ1 (0 ),μ2 (0 ),⋯,μK (0 )。
（4）定义损失函数：J ( c , μ ) = min ⁡ ∑ i = 1 M ∣ ∣ x i − μ c i ∣ ∣ 2 (1) J(c,\mu)=\min\sum_{i=1}^M||x_i-\mu_{c_i}||^2\tag{1}J (c ,μ)=min i =1 ∑M ∣∣x i −μc i ∣∣2 (1 )（5）重复下述过程，直到J J J收敛：
（5.1）对于每一个样本x i x_i x i ，将其分配到距离最近的质心，即：x i ∈ arg min ⁡ k ∣ ∣ x i − μ k ( t ) ∣ ∣ (2) x_i\in\argmin_k||x_i-\mu_k^{(t)}||\tag{2}x i ∈k a r g m i n ∣∣x i −μk (t )∣∣(2 )（5.2）对于每一个类质心μ k \mu_{k}μk ，重新计算该类的质心，即：μ k ( t + 1 ) = 1 ∣ C k ∣ ∑ x ∈ C k x (3) \mu_k^{(t+1)}=\frac{1}{|C_k|}\sum_{x\in C_k}x\tag{3}μk (t +1 )=∣C k ∣1 x ∈C k ∑x (3 )

3、优缺点

优点：简单快速，适合常规数据集
缺点：
① K K K值难确定；② 受初始值影响较大；③ 复杂度与样本规模呈线性关系；④ 很难发现任意形状的簇。

三、DBSCAN算法

1、基本概念

DBSCAN全名为Density-Based Spatial Clustering of Applications with Noise。

核心对象：若某个点的密度达到算法设定的阈值则其为核心点(即r r r邻域内点的数量不小于m i n P t s minPts m i n P t s)
ε \varepsilon ε-邻域的距离阈值：设定的半径r r r
直接密度可达：若某点p p p在点q q q的r r r邻域内，且q q q是核心点，则p − q p-q p −q直接密度可达
密度可达：若有一个点的序列q 0 q_0 q 0 、q 1 q_1 q 1 、⋯ \cdots ⋯、q k q_k q k ，对任意q i − q i − 1 q_i-q_{i-1}q i −q i −1 是直接密度可达的，则称从q 0 q_0 q 0 到q k q_k q k 密度可达，这实际上是直接密度可达的”传播”
密度相连：若从某核心点p p p出发，点q q q和点k k k都是密度可达的，则称点q q q和点k k k是密度相连的
边界点：属于某一个类的非核心点，不能往下发展了
噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的
如图1所示，点A为核心对象，B和C为边界点，N是离群点。

图1 DBSCAN算法划分点集示意图

; 2、工作流程

准备数据集(参数D)，输入指定半径(参数r r r)和密度阈值(M i n P t s MinPts M i n P t s)。其伪代码如下所示：

标记所有对象为unvisited;
Do
随机选择一个unvisited对象p;
标记p为visited;
If p的r-邻域至少有MinPts个对象
    创建一个新簇C，并把p添加到C;
    令N为p的r-邻域中的对象集合;
    For N中每一个点p'
        If p'是unvisited;
            标记p'为visited;
            If p'的r-邻域至少有MinPts个对象
                把这些对象添加到N中;
            If p'还不是任何簇的成员
                把p'添加到C;
    End for;
    输出C;
Else
    标记p为噪声点;
Until 没有标记为unvisited的对象;

3、参数选择

半径r r r，可以根据K K K距离来设定，找突变点。
K K K距离：给定数据集P = { p ( i ) ; i = 0 , 1 , ⋯ , n } P={p(i); i=0,1,\cdots,n}P ={p (i );i =0 ,1 ,⋯,n }，计算点p ( i ) p(i)p (i )到集合D D D的子集S S S中所有点之间的距离，距离按照从小到大的顺序排序，d ( k ) d(k)d (k )就被称为K K K距离。
M i n P t s MinPts M i n P t s：K K K距离中K K K的值，一般取的小一些，多次尝试。

4、优缺点

优点：
① 不需要指定簇个数；② 可以发现任意形状的簇；③ 擅长找到离群点(检测任务)；④ 只需要设置两个参数(半径r r r和距离阈值M i n P t s MinPts M i n P t s)。
缺点：
① 高维数据聚类有些困难(可以做降维)；② 参数难以选择(参数对结果的影响非常大)；③ Sklearn中效率很慢(数据削减策略)。

四、可视化展示

1、K-Means算法

; 2、DBSCAN算法

五、参考文献

[1] 唐宇迪. 跟着迪哥学Python数据分析与机器学习实战[M]. 北京: 人民邮电出版社, 2019: 346-363.

Original: https://blog.csdn.net/weixin_43821559/article/details/122845540
Author: 心️升明月
Title: K-Means算法和DBSCAN算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550938/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

去雾算法C++实现

去雾算法代码实现前言：暑假闲着没啥事儿就乘着这个机会好好学习学习算法原理吧。某虽不才，虽然实现效果没有大佬们的好，但是我的代码通俗易懂，并且完全开源（C++），欢迎大家前来相互学…

人工智能 2023年7月19日
0082
MINIST手写数字数据集–神经网络（mini-batch）

1.1 数据集介绍 MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共有10 类，分别对应从0～9 ，共10 个阿拉伯数字。 1.2 思路介绍导入数据集对导入…

人工智能 2023年7月26日
0049
【实用】3种调整matplotlib图片大小的方法

如何设定matplotlib输出的图片大小？ import matplotlib.pyplot as plt 比如想让输出的图片大小为 600×600像素： plt.figure(…

人工智能 2023年7月5日
0072
函数逼近和曲线拟合、插值

因为精力有限加上涉及的内容太多，无法一次性写完，后续会持续更新~ 文章目录前言一、函数逼近 * 1.背景 2.定义 2.相关知识 3.适用情况 4.函数逼近二、万能逼近定理 …

人工智能 2023年6月17日
00107
基于Pytorch实现的图像分割算法: DeepLabV3+

图1. 基于DeepLabV3+的图像分割结果示意图。目录一. 简介二. 实现细节三. 项目代码总结： Reference 图像分割属于图像处理领域最重要的几个问题之一。…

人工智能 2023年6月1日
0094
机器学习-笔记（四）- 原问题和对偶问题

从svm处理非线性数据集中知道了处理非线性数据集的方法是将低维映射到高维，并写出了优化问题，现在需要将这个优化问题写成对偶问题来求解预备知识原问题：又称原线性规划问题，是指每一…

人工智能 2023年6月16日
00129
李宏毅2021ML-hw1 新冠预测

系列文章目录李宏毅ML-2022hw2 文章目录系列文章目录简介实验部分 * Simple Baseline Medium Baseline Strong Baseline…

人工智能 2023年7月23日
0085
【EMNLP 2021】Learning from Noisy Labels for Entity-Centric Information Extraction

原文链接：https://arxiv.org/abs/2104.08656代码：https://github.com/wzhouad/NLL-IE Abstract & I…

人工智能 2023年5月28日
0075
一文搞懂如何在VS中使用OpenCV

下载OpenCV并在VS2019上进行配置 1.进入OpenCV官网选择想要的版本进行下载 https://opencv.org/releases/ 点击对应的应用场景即可…

人工智能 2023年6月25日
0094
3D视觉——2.人体姿态估计(Pose Estimation)入门——OpenPose含安装、编译、使用（单帧、实时视频）

上一话 3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)h…

人工智能 2023年5月26日
0073
7. 吴恩达机器学习课程-作业7-Kmeans and PCA

fork了别人的项目，自己重新填写，我的代码如下 https://gitee.com/fakerlove/machine-learning/tree/master/code 代码原…

人工智能 2023年5月31日
0073
基于点云目标识别的PointRCNN在华为云modelArts的实现记录

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 PointRCNN在华为云modelArts的实现记录前言一、获得数据 * 1.下载数据二、环境配置 * 1…

人工智能 2023年7月12日
0064
Could not load dynamic library ‘cudart64_110.dll‘； dlerror: cudart64_110.dll not found Ignore above

问题描述 2021-12-11 22:03:37.094666: W tensorflow/stream_executor/platform/default/dso_loader….

人工智能 2023年6月16日
0092
NLP 实战(10): CSDN 领域榜标签分组更新

更新2022 04/12 暂时保留PHP 云原生/软件工程/后端排序在前 CSDN 全站数据在2021年完成了标签体系的统一。在这个基础上：用户可以在UC中心选择感兴趣的标签 …

人工智能 2023年6月1日
0059
Seaborn的简述

Seaborn（seaborn是python中的一个可视化库，是对matplotlib进行二次封装而成，既然是基于matplotlib，所以seaborn的很多图表接口和参数设置与…

人工智能 2023年7月5日
0084
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛：房价预测案例【含数据集与源码】

基于之前学习的内容，让我们动手实战一个Kaggle比赛的：房价预测实战案例。Kaggle是一个著名的供机器学习爱好者交流的平台，该房价预测实战网址：https://www.kagg…

人工智能 2023年7月31日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

K-Means算法和DBSCAN算法

文章目录

1、基本概念

2、工作流程

3、优缺点

1、基本概念

; 2、工作流程

3、参数选择

4、优缺点

1、K-Means算法

; 2、DBSCAN算法

大家都在看