热门算法总结 —— DPCA

1、算法简介

(1)概述:密度峰值聚类算法(DPCA)是一种可以发现非凸簇类的新型聚类算法,该算法的核心思想建立在对簇类中心点或者密度峰值点的两个重要假设之上:

[1] 假设一:簇类中心点的局部密度大于其周围相邻点的局部密度;

[2] 假设二:簇类中心点与其他中心点间有着相对较大的距离。

上述两种假设在给出簇类中心点描述的同时,也给出了一种检测中心点的准则。

该算法的核心思想在于对聚类中心点的计算,聚类中心点具有本身密度大和与其他密度更大的数据点之间的距离相对更大的特点。 算法首先通过使用一截断距离来计算每个点的局部密度,然后计算各数据点与局部密度高于它们的数据点之间的最小距离;然后根据计算出的每个点的局部密度和最小距离绘制决策图,接着在决策图中人工选取聚类的中心,之后将剩余的非聚类中心的数据点划分到与之距离最近的聚类中心所在的簇中;最后再将所得到的各个簇划分为簇核心和簇光晕,从而得到最终的聚类结果。使用DPCA算法进行聚类时只需要计算一次距离,并且不需要进行迭代,因此算法的计算速度很快。但是,该算法选择聚类中心的时候需要在决策图中人工选取,这增加了算法的冗余性,不利于算法的自动化,且在最后将簇划分为簇核心和簇光晕时会将簇边缘的本属于簇核心的一些点划分到簇光晕中,影响最终的聚类效果。

(2)主要用途:密度聚类,同DBSCAN算法,发现数据中的类别关系。

(3)优缺点

[1] 优点:该聚类算法可以得到非球形的聚类结果,可以很好地描述数据分布,同时在算法复杂度上也比一般的K-means算法的复杂度低。同时此算法的只考虑点与点之间的距离,因此不需要将点映射到一个向量空间中;

[2] 缺点:需要事先计算好所有点与点之间的距离。此外,对大数据集合高维度数据进行聚类时,需要过多的内存和计算开销,这势必会导致过大的时空复杂度并影响算法的速度和准确性。在实际应用中,因为时空复杂度过大的算法是无法直接运用于大数据的处理和计算的。因此,如果只需要得到最终聚类中心,则可以考虑牺牲速度的方式计算每一个样本点的和,避免直接加载距离矩阵。

2、算法流程

热门算法总结 —— DPCA

3、模拟例子

(1)说明

[1] 数据情况:小明班上30名同学的考试成绩(语文、数学、英语、物理、化学、生物);

[2] 研究目的:将小明班上的同学进行聚类。

(2)分析步骤

[1] 第一步:输入小明班上30名同学的考试成绩数据X;

[2] 第二步:使用DPCA聚类算法进行聚类,并输出聚类的结果。

(3)结果模拟:小明班上30名同学中,20名同学被归为第1类,5名同学被归为第2类,最后5名同学(包括小明)被归为第3类。通过研究类发现,第1类的同学各科成绩比较均衡,可以判定为普通学生;第2类的同学各科成绩较好,可以认为是学霸组;第3类的同学各科成绩都比较烂,可以归为学渣小分队。

——————————————————★

互联网数据分析岗位求职备战手册

Original: https://blog.csdn.net/A_1245/article/details/123576723
Author: 稀饭居然不在家
Title: 热门算法总结 —— DPCA

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/560526/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球