热门算法总结 —— DPCA

2023年6月2日上午10:11 • 人工智能 • 阅读 65

1、算法简介

（1）概述：密度峰值聚类算法（DPCA）是一种可以发现非凸簇类的新型聚类算法，该算法的核心思想建立在对簇类中心点或者密度峰值点的两个重要假设之上:

[1] 假设一：簇类中心点的局部密度大于其周围相邻点的局部密度；

[2] 假设二：簇类中心点与其他中心点间有着相对较大的距离。

上述两种假设在给出簇类中心点描述的同时，也给出了一种检测中心点的准则。

该算法的核心思想在于对聚类中心点的计算，聚类中心点具有本身密度大和与其他密度更大的数据点之间的距离相对更大的特点。算法首先通过使用一截断距离来计算每个点的局部密度，然后计算各数据点与局部密度高于它们的数据点之间的最小距离；然后根据计算出的每个点的局部密度和最小距离绘制决策图，接着在决策图中人工选取聚类的中心，之后将剩余的非聚类中心的数据点划分到与之距离最近的聚类中心所在的簇中；最后再将所得到的各个簇划分为簇核心和簇光晕，从而得到最终的聚类结果。使用DPCA算法进行聚类时只需要计算一次距离，并且不需要进行迭代，因此算法的计算速度很快。但是，该算法选择聚类中心的时候需要在决策图中人工选取，这增加了算法的冗余性，不利于算法的自动化，且在最后将簇划分为簇核心和簇光晕时会将簇边缘的本属于簇核心的一些点划分到簇光晕中，影响最终的聚类效果。

（2）主要用途：密度聚类，同DBSCAN算法，发现数据中的类别关系。

（3）优缺点

[1] 优点：该聚类算法可以得到非球形的聚类结果，可以很好地描述数据分布，同时在算法复杂度上也比一般的K-means算法的复杂度低。同时此算法的只考虑点与点之间的距离，因此不需要将点映射到一个向量空间中；

[2] 缺点：需要事先计算好所有点与点之间的距离。此外，对大数据集合高维度数据进行聚类时，需要过多的内存和计算开销，这势必会导致过大的时空复杂度并影响算法的速度和准确性。在实际应用中，因为时空复杂度过大的算法是无法直接运用于大数据的处理和计算的。因此，如果只需要得到最终聚类中心，则可以考虑牺牲速度的方式计算每一个样本点的和，避免直接加载距离矩阵。

2、算法流程

3、模拟例子

（1）说明

[1] 数据情况：小明班上30名同学的考试成绩（语文、数学、英语、物理、化学、生物）；

[2] 研究目的：将小明班上的同学进行聚类。

（2）分析步骤

[1] 第一步：输入小明班上30名同学的考试成绩数据X；

[2] 第二步：使用DPCA聚类算法进行聚类，并输出聚类的结果。

（3）结果模拟：小明班上30名同学中，20名同学被归为第1类，5名同学被归为第2类，最后5名同学（包括小明）被归为第3类。通过研究类发现，第1类的同学各科成绩比较均衡，可以判定为普通学生；第2类的同学各科成绩较好，可以认为是学霸组；第3类的同学各科成绩都比较烂，可以归为学渣小分队。

——————————————————★

互联网数据分析岗位求职备战手册

Original: https://blog.csdn.net/A_1245/article/details/123576723
Author: 稀饭居然不在家
Title: 热门算法总结 —— DPCA

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560526/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python的几种非线性回归

前一阵子有人和我吐槽过matlab内置的几个线性数据拟合工具满足不了需求，今天正好看到了一个关于使用scipy进行非线性回归的工具使用方法，写下来备忘。 Theory Given …

人工智能 2023年6月17日
0069
视觉SLAM总结——SuperPoint / SuperGlue

视觉SLAM总结——SuperPoint / SuperGlue 视觉SLAM总结——SuperPoint / SuperGlue * 1. SuperPoint – …

人工智能 2023年7月29日
0069
Pandas常见方法（2）-pandas对数据的预处理

说明：本blog基于python3， pandas 1.3.5版本本文主要介绍如何对数据做预处理，包括缺失值过滤、缺失值补全、数据转换（重复值删除，数据映射、数据替换）、简单运…

人工智能 2023年7月8日
0040
(二)使用Pandas进行数据分析 – 查询数据的几种方法

Pandas查询数据的几种方法 Pandas使用df.loc查询数据的方法 Attention！以上查询方法，既适用于行，也适用于列注意观察降维 DataFrame > …

人工智能 2023年7月7日
00102
机器学习模型4——聚类1（k-Means聚类）

1 前置知识各种距离公式 2 主要内容聚类是无监督学习，主要⽤于将相似的样本⾃动归到⼀个类别中。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计…

人工智能 2023年5月31日
0075
「Python数据分析系列」20. 聚类分析

来源 | Data Science from Scratch， Second Edition 作者 | Joel Grus 译者 | cloverErna 校对 | gongyou…

人工智能 2023年6月2日
0087
Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。 1.项目背景经济广告是指以营利为目的的广告，通常是商…

人工智能 2023年6月17日
0093
detr目标检测算法源码详解

1.图像数据加上mask 对于每一批次的图像，首先找出每一批次图片的H,W的最大值Hmax,Wmax,然后将原始图像填充为3HmaxWmax大小，并将图像部分置为False，填充部…

人工智能 2023年7月22日
0043
用 Vision Transformer 做物体探测任务 object detection

文章目录前言 1. Vision Transformer 架构 2. Multi-Head Attention * 2.1 self attention 2.2 Multi-He…

人工智能 2023年7月12日
0047
最大似然估计法解决线性回归问题

*问题引入线型回归方法是一个关于预测连续数值的问题。线性回归模型可以通过最小二乘法或者最大似然估计法来求解参数。其中，最大似然估计法是一个自动地寻找可以最好拟合观测值的概率…

人工智能 2023年6月18日
0083
面试官：如何进行 JVM 调优（附真实案例）

前言面试官：在工作中做过 JVM 调优吗？讲讲做过哪些 JVM 调优？我一个QPS不到10的项目，上次问我缓存穿透缓存雪崩，这次问我 JVM 调优，我是真滴难。不过大家别慌，…

人工智能 2023年7月31日
0071
数据预处理：缺失值处理

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python数据分析中的数据预处理：缺失值处理 …

人工智能 2023年7月17日
0045
基于Python实现的五子棋游戏设计

一、设计目的： 1.1 课程设计教学目的本课程设计是本专业的一门重要实践性教学环节。在学习了专业基础课和《Python程序设计》课程的基础上，本课程设计旨在加深对Python程序…

人工智能 2023年7月5日
0077
线性回归实现

深度学习第一章：最简单的线性回归实现 1. 引言 AI领域的线性回归和其他领域不太一样，包括了名词和实现方式，所以必须先认识重要名词，再把所有步骤熟悉一边，并建立在之前学习线性回归…

人工智能 2023年6月4日
0090
加载预训练模型遇到transformers的问题

问题1: urllib.error.URLError: urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] 这是由于ssl验证的问题，在….

人工智能 2023年7月23日
0055
[python]使用pyinstaller打包带界面的Pytorch程序的多个问题

1 opencv兼容性问题 1.1 现象打包为一个exe完成后，在执行exe时，报错：ImportError: ERROR: recursion is detected duri…

人工智能 2023年7月19日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

热门算法总结 —— DPCA

大家都在看