密度峰值聚类介绍与matlab实现

2023年6月2日下午4:10 • 人工智能 • 阅读 97

1、算法简介：

2014年6⽉，Alex Rodriguez和Alessandro Laio在Science上发表了⼀篇名《Clustering by fast search and find of density peaks》的文章，提供了⼀种简洁而优美的聚类算法，是⼀种基于密度的聚类方法，可以识别各种形状的类簇，并且参数很容易确定。它克服了DBSCAN中不同类的密度差别大、邻域范围难以设定的问题，鲁棒性强。

2、算法对于数据集的假设：

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:4d974b0e-9f12-4a5e-a9e4-b0e2b4de9768

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:f602da87-c920-4ba5-a537-5608c6e7d90d

1.数据集在空间分布并不均匀，数据中局部高密度点被一些局部低密度点包围

2.数据集中局部高密度点之间的相对距离较大

3、算法相关公式：

1）密度计算:

其中

，密度计算有两种计算方式：1.传统的欧式距离计算距离，将距离小于点的数量直接作为密度，2.计算欧式距离并计算高斯函数值，将所有点值的和作为密度。

2)局部高密度点距离计算：

，当dij是密度最高的点时：

。

4、算法过程

1)计算数据密度

根据设定的截断距离

，计算每个数据点的局部密度

2)局部高密度点距离

计算每个点到高于自身局部密度值点的最小距离。得到

3)根据密度与距离估计中心点

对每⼀个点，绘制出局部密度

与高局部密度点距离

的散点图

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:af071b16-0a4a-4ffc-b352-da3df64cbad0

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c2e36178-c99a-4df2-9f73-5a63fb450023

4)划分剩余数据点(聚类过程)

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:2a78f268-7806-4da8-b3c2-06edfceda1c7

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:d886695c-6ea2-452d-918e-45967137b462

代码实现：

1）密度计算

%% &#x5BC6;&#x5EA6;&#x8BA1;&#x7B97;&#x51FD;&#x6570;
function data_density=cal_density(data,cut_dist)
    data_len=size(data,1);
    data_density=zeros(1,data_len);
    for idata_len=1:data_len
        temp_dist=pdist2(data,data(idata_len,:));
        data_density(idata_len)=sum(exp(-(temp_dist./cut_dist).^2));
    end
end

2）距离计算

%% &#x8BA1;&#x7B97;delta
function data_delta=cal_delta(data,data_density)
    data_len=size(data,1);
    data_delta=zeros(1,data_len);
    for idata_len=1:data_len
        index=data_density>data_density(idata_len);
        if sum(index)~=0
            data_delta(idata_len)=min(pdist2(data(idata_len,:),data(index,:)));
        else
            data_delta(idata_len)=max(pdist2(data(idata_len,:),data));
        end
    end
end

3）聚类中心点寻找

%% &#x5BFB;&#x627E;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;&#x70B9;
function [center,center_index]=find_center(data,data_delta,data_density,cut_dist)
    R=data_density.*data_delta;
    [sort_R,R_index]=sort(R,"descend");
    gama=abs(sort_R(1:end-1)-sort_R(2:end));
    [sort_gama,gama_idnex]=sort(gama,"descend");
    gmeans=mean(sort_gama(2:end));
    %&#x5BFB;&#x627E;&#x7591;&#x4F3C;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;&#x70B9;
    temp_center=data(R_index(gama>gmeans),:);
    temp_center_index=R_index(gama>gmeans);
    %&#x8FDB;&#x4E00;&#x6B65;&#x7B5B;&#x9009;&#x4E2D;&#x5FC3;&#x70B9;
    temp_center_dist=pdist2(temp_center,temp_center);
    temp_center_len=size(temp_center,1);
    center=[];
    center_index=[];
    %&#x5224;&#x65AD;&#x4E2D;&#x5FC3;&#x70B9;&#x4E4B;&#x95F4;&#x8DDD;&#x79BB;&#x662F;&#x5426;&#x5C0F;&#x4E8E;2&#x500D;&#x622A;&#x65AD;&#x8DDD;&#x79BB;&#x5E76;&#x4E2D;&#x5FC3;&#x70B9;&#x53BB;&#x91CD;
    for icenter_len=1:temp_center_len
        temp_index=find(temp_center_dist(icenter_len,:)<2*cut_dist); [~,max_density_index]="max(data_density(temp_center_index(temp_index)));" if sum(center_index="=temp_center_index(temp_index(max_density_index)))==0" center="[center;temp_center(temp_index(max_density_index),:)];" center_index="[center_index,temp_center_index(temp_index(max_density_index))];" end % center(icenter_len,:)="temp_center(temp_index(max_density_index),:);" end< code></2*cut_dist);>

4）聚类过程

%% &#x805A;&#x7C7B;&#x7B97;&#x6CD5;
function cluster=Clustering(data,center,center_index,data_density)
    data_len=size(data,1);
    data_dist=pdist2(data,data);
    cluster=zeros(1,data_len);
    % &#x6807;&#x8BB0;&#x4E2D;&#x5FC3;&#x70B9;&#x5E8F;&#x53F7;
    for i=1:size(center_index,2)
        cluster(center_index(i))=i;
    end
    % &#x5BF9;&#x6570;&#x636E;&#x5BC6;&#x5EA6;&#x8FDB;&#x884C;&#x964D;&#x5E8F;&#x6392;&#x5E8F;
    [sort_density,sort_index]=sort(data_density,"descend");
    for idata_len=1:data_len
        %&#x5224;&#x65AD;&#x5F53;&#x524D;&#x6570;&#x636E;&#x70B9;&#x662F;&#x5426;&#x88AB;&#x5206;&#x7C7B;
        if cluster(sort_index(idata_len))==0
            near=sort_index(idata_len);
            while 1
                near_density=find(data_density>data_density(near));
                near_dist=data_dist(near,near_density);
                [~,min_index]=min(near_dist);
                if cluster(near_density(min_index))
                    cluster(sort_index(idata_len))=cluster(near_density(min_index));
                    break;
                else
                    near=near_density(min_index);
                end
            end
        end
    end
end

完整代码：峰值聚类算法(matlab)_matlab密度峰值聚类算法-机器学习文档类资源-CSDN下载

Original: https://blog.csdn.net/qq_30977037/article/details/112160360
Author: qq_30977037
Title: 密度峰值聚类介绍与matlab实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561366/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python深度学习12——Keras实现注意力机制(self-attention)中文的文本情感分类（详细注释）

Keras封装性比较高，现在的注意力机制都是用pytorch较为多。但是使用函数API也可以实现，Keras处理文本并且转化为词向量也很方便。本文使用了一个外卖评价的数据集，标签…

人工智能 2023年6月16日
0099
RISC-V MCU 基于嵌入式的歌曲识别

目录前言一、主要技术算法二、硬件部分1.ES83882.LCD3.FLASH4.按键三、软件部分四、实现过程训练模板识别歌曲全国嵌入式芯片与系统设计大赛 [En] Nationa…

人工智能 2023年5月27日
0062
作业-11.11

include int count = 0;int flag = 0;int fd = 0;int fd_w = 0; void call_back(void arg){ssize…

人工智能 2023年6月26日
0076
模型在推理阶段的计算效率是如何提升的

问题背景在机器学习领域，模型的推理阶段是指通过已经训练好的模型对新的输入数据进行预测或分类。在推理阶段，模型需要对输入数据进行一系列的计算操作，如矩阵乘法、激活函数等，以便生成最…

人工智能 2024年1月3日
0033
Prophet模型的简介以及案例分析

目录前言一、Prophet安装以及简介二、适用场景三、算法的输入输出四、算法原理五、使用时可以设置的参数六、学习资料参考七、模型应用 * 7-1、股票收盘价格预测 …

人工智能 2023年6月16日
0090
[opencv入门]1.1在anaconda中安装opencv-python，pycharm

首先看一下anaconda和pycharm的安装视频，这位up主录制的,安装教程还是很好的，关于anaconda和pycharm安装这里就不做太多的阐述：【python编程环境安…

人工智能 2023年7月20日
0048
九个前端神奇库，让你的前端项目瞬间美化，甲方看了都落泪

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
00127
手把手快速实现 Resnet 残差模型实战

人工智能 2023年5月26日
0061
Python学习笔记（8）Pandas统计分析1

1.1 文本文件读取与储存 pandas. read_csv (filepath_or_buffer, sep=’,’, header=’inf…

人工智能 2023年7月8日
0059
【Neo4j学习】Neo4j的安装

Neo4j的安装 Neo4j官网：https://neo4j.com/download-center. community Server社区版本中进行下载（免费）官网下载较慢，我…

人工智能 2023年6月5日
0081
YOLOv5报AttributeError:‘Upsample‘objecthasnoattribute‘recompute_scale_factor‘

Traceback (most recent call last):File “E:\yolo\yolov5-5.0\yolov5-5.0\detect.py&#822…

人工智能 2023年7月23日
0046
TransX 系列，知识图谱嵌入（KGE）论文阅读

TransX 系列（一）上篇文章重点介绍了 TansE 算法的实现原理，核心思想：使得找出 h + r ≈ t 的（置信度相对高的）三元组做预测文末也提到，这种方法也具有特定…

人工智能 2023年6月1日
00114
解决python操作中的一些乱码问题

在dataframe保存成为csv文件是编码方式为utf-8时通常会出现乱码的情况，但是如果将utf-8 改成utf_8_sig就不会出现乱码的情况啦 rank250.to_csv…

人工智能 2023年7月7日
0073
Mask R-CNN详解（图文并茂）

Mask R-CNN Mask R-CNN是一个实例分割（Instance segmentation）算法，主要是在目标检测的基础上再进行分割。Mask R-CNN算法主要是Fas…

人工智能 2023年5月28日
00157
基于opencv的人脸检测

这里写目录标题一.基本信息 * 1.导言 2.应用 3.环境搭建二.逻辑以及关键代码 1.逻辑分析关键代码 – 三.结果分析四.总结一.基本信息 1.导言输…

人工智能 2023年5月28日
0081
自动驾驶面试题汇总（2022秋招题库）——持续更新

这份面试题整理自12家大厂的2022年秋招面试题。题目基本涵盖了自动驾驶和机器人定位方向的主要知识点，包括惯性导航、点云、状态估计、CV/VIO、C++等部分。建议大家先自己答题…

人工智能 2023年6月10日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

密度峰值聚类介绍与matlab实现

大家都在看