聚类——基于距离阈值的聚类算法

2023年5月31日上午8:16 • 人工智能 • 阅读 96

基于距离阈值的聚类算法

1.最大最小距离算法

算法思想

对待分类模式样本集 以最大距离选取新的聚类中心，以最小距离原则进行模式归类。

算法步骤

从N个样本集中的任选取一个样本，作为第一个聚类中心 z 1 z_1 z 1 ；
选取距离第一个聚类中心 z 1 z_1 z 1 最远的样本作为第二个聚类中心 z 2 z_2 z 2 ；
计算剩余样本与 z 1 , z 2 z_1,z_2 z 1 ,z 2 之间的距离，并求出他们中的最小值，即： d i j = ∣ ∣ x i − z j ∣ ∣ , j = 1 , 2 ; d i = m i n [ d i 1 , d i 2 ] , i = 1 , 2 , ⋯ , N \displaystyle d_{ij}=||x_i-z_j||,\;j=1,2\;;\;\;\;d_i=min[d_{i1},d_{i2}],\;i=1,2,\cdots,N d i j =∣∣x i −z j ∣∣,j =1 ,2 ;d i =m i n [d i 1 ,d i 2 ],i =1 ,2 ,⋯,N
根据选定的比例系数 θ \theta θ，计算d l = m a x i { m i n [ d i 1 , d i 2 ] } \displaystyle d_l={max}i{min[d{i1},d_{i2}]}d l =m a x i {m i n [d i 1 ,d i 2 ]}；若 d l > θ ⋅ ∣ ∣ z 1 − z 2 ∣ ∣ \displaystyle d_l>\theta\cdot ||z_1-z_2||d l >θ⋅∣∣z 1 −z 2 ∣∣，则相应的样本 x l x_l x l 作为第三个聚类中心 z 3 z_3 z 3 ，并转至下一步继续判断是否存在新的聚类中心；否则，跳转至第 6 步;
假设存在 k 个聚类中心，计算个样本到各个聚类中心的距离 d i j d_{ij}d i j ,并算出：d l = m a x i { m i n [ d i 1 , d i 2 , ⋯ , d i k ] } \displaystyle d_l={max}i{min[d{i1},d_{i2},\cdots,d_{ik}]}d l =m a x i {m i n [d i 1 ,d i 2 ,⋯,d i k ]}；若 d l > θ ⋅ ∣ ∣ z 1 − z 2 ∣ ∣ \displaystyle d_l>\theta\cdot ||z_1-z_2||d l >θ⋅∣∣z 1 −z 2 ∣∣，则 z k + 1 = x l z_{k+1}=x_l z k +1 =x l ,并继续在第五步循环，判断是否有新的聚类中心存在；否则，转至第 6 步。
当判断不再有新的聚类中心存在时，计算：d i j = ∣ ∣ x i − z j ∣ ∣ , j = 1 , 2 , ⋯ , k ; i = 1 , 2 , ⋯ , N \displaystyle d_{ij}=||x_i-z_j||,\;j=1,2,\cdots,k\;;i=1,2,\cdots,N d i j =∣∣x i −z j ∣∣,j =1 ,2 ,⋯,k ;i =1 ,2 ,⋯,N，将样本集按最小距离原则分类到各个类中。

2.近邻聚类法

N个代分类样本{ x 1 , x 2 , ⋯ , x n } {x_1,x_2,\cdots,x_n}{x 1 ,x 2 ,⋯,x n }，将他们按照距离阈值 T T T 分类到以 z 1 , z 2 , ⋯ z_1,z_2,\cdots z 1 ,z 2 ,⋯ 为中心的类别中。

算法步骤

从N个样本中的任选取一个样本 x i x_i x i ，作为第一个聚类中心，如令 z 1 = x 1 z_1=x_1 z 1 =x 1 ；
计算样本 x 2 x_2 x 2 到 z 1 z_1 z 1 的欧式距离 d 21 = ∣ ∣ x 2 − x 1 ∣ ∣ d_{21}=||x_2-x_1||d 2 1 =∣∣x 2 −x 1 ∣∣：若d 21 > T d_{21}>T d 2 1 >T，则定义一新的聚类中心 z 2 = x 2 z_2=x_2 z 2 =x 2 ；否则，x 2 ∈ x_2\in x 2 ∈ 以 z 1 z_1 z 1 为中心的聚类；
假设已有聚类中心 z 1 , z 2 z_1, z_2 z 1 ,z 2 ，计算 d 31 = ∣ ∣ x 3 − z 1 ∣ ∣ ， d 32 = ∣ ∣ x 3 − z 2 ∣ ∣ d_{31}=||x_3-z_1||，d_{32}=||x_3-z_2||d 3 1 =∣∣x 3 −z 1 ∣∣，d 3 2 =∣∣x 3 −z 2 ∣∣：若 d 31 > T d_{31}>T d 3 1 >T，则建立第三个聚类中心 z 3 = x 3 z_3=x_3 z 3 =x 3 ; 否则，x 2 ∈ x_2\in x 2 ∈ 离 z 1 和 z 2 z_1和z_2 z 1 和z 2 中最近的类（最近邻的聚类中心）； ⋯ ⋯ \cdots\cdots ⋯⋯
以此类推，直到将所有的 N 个样本都进行分类。

算法分析

用先验知识指导阈值 T T T 和起始点 z 1 z_1 z 1 的选择，可获得合理的聚类结果。否则只能选择不同的初值重复试探，并对聚类结果进行验算，根据一定的评价标准，得出合理的聚类结果。

缺点：很大程度上依赖于第一个聚类中心的位置选择、待分类模式样本的排列次序、距离阈值T的大小以及样本分布的几何性质等。

优点：计算简单。

Original: https://blog.csdn.net/qq_41536160/article/details/122110719
Author: 有梦想的雨
Title: 聚类——基于距离阈值的聚类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549994/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow？PyTorch？Paddle？AI工具库生态之争：ONNX一统天下 ⛵

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 本文地址：https://www.showm…

人工智能 2023年7月14日
0050
【目标检测】yoloX算法详解

一、yoloX的改进由于yoloV4和yoloV5存在过度优化的问题，因此yoloX以yoloV3和Darknet 53为基线，采用了Darknet 53骨干网的结构架构和SPP…

人工智能 2023年5月26日
00106
【Python+OpenCV 人脸检测—CascadeClassifier 级联分类器实现】

Python+OpenCV 人脸检测—CascadeClassifier 级联分类器实现一、CascadeClassifier—级联分类器 * 1、导入分类器文件 2、读入图片 …

人工智能 2023年7月19日
0064
通过示例快速理解二次回归

当两个变量有线性关系时，通常使用简单线性回归测定它们的关系。但变量间有二次关系时，应该使用二次回归进行拟合。本文介绍R如何实现二次回归。示例假设我们希望理解工作时长与幸福感之间…

人工智能 2023年6月17日
0092
回归预测 | MATLAB实现PCA-LSTM(主成分长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现PCA-LSTM(主成分长短期记忆神经网络)多输入单输出目录 * – 回归预测 | MATLAB实现PCA-LSTM(主成分长短期记忆神…

人工智能 2023年6月17日
0082
基于质心的聚类(Centroid-based clustering)– k均值（k-means）

基于质心的聚类中，该聚类可以使用聚类的中心向量来表示，这个中心向量不一定是该聚类下数据集的成员。当聚类的数量固定为k时，k-means聚类给出了优化问题的正式定义：找到聚类中心并将…

人工智能 2023年6月2日
0064
卡尔曼滤波器之扩展卡尔曼滤波

参考文献：【１】https://zhuanlan.zhihu.com/p/63641680 目录１．非线性模型２．非线性模型到线性模型的近似１．非线性模型《卡尔曼滤波器之…

人工智能 2023年5月26日
0098
目标检测发展

目前目标检测算法发展成了两条技术路线： Anchor based方法和 Anchor free方法。 Anchor-based方法则包括一阶段和二阶段检测算法(二阶段目标检测算法一…

人工智能 2023年7月10日
0065
Pyotorch自定义损失函数

👨‍💻 作者简介：大数据专业硕士在读，CSDN人工智能领域博客专家，阿里云专家博主，专注大数据与人工智能知识分享，公众号：GoAI的学习小屋，免费分享书籍、简历、导图等资料，更有…

人工智能 2023年6月15日
0084
基于python的k_means算法实现

小菜鸡的博客前言一、K_means是什么？ * 1. 原理二、编程实现 * 1. 首先引入库 2.读入数据 3.算法实现 4.可视化实现三、完整代码及展示总结前言本篇…

人工智能 2023年5月31日
0081
Yolov5：强大到你难以想象──新冠疫情下的口罩检测

初识 Yolov5是看到一个视频可以检测街道上所有的行人，并实时框选出来。之后学习了CNN卷积神经网络，在完成一个项目需求时，发现卷积神经网络在切割图像方面仍然不太好用。于是我想到…

人工智能 2023年6月19日
0098
预测控制（一）：MPC轨迹跟踪

本文先讲解MPC如何应用于差速机器人，然后使用MATLAB进行仿真测试。 MPC原理 MPC轨迹跟踪的思路不难理解，在目前位姿，预测后面N个时刻机器人所处的位置，与目标轨迹进行比较…

人工智能 2023年7月26日
0057
ALCNet——红外小目标检测网络论文阅读

论文链接：Attentional Local Contrast Networks for Infrared Small Target Detection | IEEE Journa…

人工智能 2023年7月10日
0063
Android本地数据存储（SP、SQLite、Room）

Android本地数据存储常用的有三种方式 1、SP存储，key-value的方式存储在本地的xml文件中，/data/data/xxx.xx/shared_prefs/xxx.x…

人工智能 2023年6月28日
0063
机器学习之逻辑回归（Logistic Regression）

在公众号「 python风控模型」里回复关键字：学习资料大家好！大家好，今天我们将看到机器学习技术中一个有趣的算法，称为逻辑回归。因此，在进入主题之前，我们需要复习一些基本术语…

人工智能 2023年6月18日
0097
成功解决TypeError: only size-1 arrays can be converted to Python scalars

成功解决TypeError: only size-1 arrays can be converted to Python scalars 目录解决问题解决思路解决方法 1、分…

人工智能 2023年7月4日
0095

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

聚类——基于距离阈值的聚类算法

1.最大最小距离算法

算法思想

算法步骤

2.近邻聚类法

算法步骤

算法分析

大家都在看