热门算法总结 —— AP聚类

1、算法简介

(1)概述:AP聚类是在2007年的《Clustering by Passing Messages Between Data Points》一文中首次提出的一种新的聚类算法。该算法无需事先定义类数,而是在迭代过程中不断搜索合适的聚类中心,自动从数据点间识别类中心的位置及个数,使所有的数据点到最近的类代表点的相似度之和最大。算法开始时把所有的数据点均视作类中心,通过数据点间的”信息传递”来实现聚类过程。与传统的K-均值算法对初始类中心选择的敏感性相比,AP算法是一种确定性的聚类算法,多次独立运行的聚类结果一般都十分稳定。AP算法是在数据点的相似度矩阵上进行聚类的,聚类的目标是使数据点与其类代表点之间的距离达到最小化。

(2)主要用途:聚类分析。

(3)优缺点

[1] 优点:第一,与众多聚类算法不同,AP聚类不需要指定K(经典的K-Means)或者是其他描述聚类个数(SOM中的网络结构和规模)的参数;第二,一个聚类中最具代表性的点在AP算法中叫做E(Examplar),与其他算法中的聚类中心不同,E是原始数据中确切存在的一个数据点,而不是由多个数据点求平均而得到的聚类中心(K-Means);第三,多次执行AP聚类算法,得到的结果是完全一样的,即不需要进行随机选取初值步骤;第四,对距离矩阵的对称性没要求。AP通过输入相似度矩阵来启动算法,因此允许数据呈非对称,数据适用范围非常大,且误差平方和低。

[2] 缺点:第一,算法复杂度较高,比而K-Means的复杂度高很多。因此当n比较大时(n>3000),AP聚类算法往往需要算很久;第二,依赖参考度P的初值。

2、算法流程

热门算法总结 —— AP聚类

3、模拟例子

(1)说明

[1] 数据情况:小明班上30名同学的成绩数据。

[2] 研究目的:将小明班上的同学进行聚类。

(2)分析步骤

[1] 第一步:输入小明班上30名同学的成绩;

[2] 第二步:使用AP聚类对小明班上30名同学的成绩进行聚类分析;

[3] 第三步:输出聚类结果。

(3)结果模拟:模型自动将小明班上30名同学分为了3类,经过数据研究,将第1类命名为学霸组(共6名学生),第2类命名为普通学生组(共17名同学),第3类命名为学渣组(共7名同学)。

——————————————————★

互联网数据分析岗位求职备战手册

Original: https://blog.csdn.net/A_1245/article/details/123576959
Author: 稀饭居然不在家
Title: 热门算法总结 —— AP聚类

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/638853/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球