机器学习（五）聚类算法（k-means，）

2023年5月31日上午6:24 • 人工智能 • 阅读 101

聚类就是按照某个特定标准把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

主要的聚类算法可以划分为如下几类：划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。下面主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。

1. 基本思想

通过迭代的方式寻找 k 个簇的划分方案，使得聚类结果对应的代价函数最小。代价函数可以定义为各个样本距离它所属的簇中心点的误差平方和：

J ( c , μ ) = ∑ i = 1 N ∣ ∣ x i − μ c i ∣ ∣ 2 J(c, \mu)=\sum_{i=1}^{N} || x_i-\mu_{c_i} ||^2 J (c ,μ)=∑i =1 N ∣∣x i −μc i ∣∣2
其中，x i x_{i}x i 代表第i个样本，c i c_{i}c i 是x i x_{i}x i 所属的簇，μ c i \mu_{c_{i}}μc i 代表簇对应的中心点（即均值），N是样本总数.

2. 算法流程

采用了贪心策略，通过多次迭代近似求解代价函数。

3. 优缺点

优点：

原理简单，满足常见需求
对于大数据集相对可伸缩且高效

缺点:

初值选取较难
k 均值只能做到局部最优
受初值和离群点影响大
样本只能被划分到单一类别中

4. k值如何选取

定义为：
G a p ( k ) = E ( l o g D k ) − l o g D k Gap(k)=E(logD_k)-logD_k G a p (k )=E (l o g D k )−l o g D k
其中，D k D_{k}D k 是第k簇聚类对应的损失值，E ( l o g D k ) E(logD_{k})E (l o g D k )是l o g D k logD_{k}l o g D k 的期望。

对于上式的 E ( l o g D k ) E(logD_{k})E (l o g D k )，一般通过蒙特卡洛模拟产生。具体操作是：在样本所在的区域内，按照均匀分布随机产生和原样本数目一样的随机样本，计算这些随机样本的均值，得到一个 D k D_{k}D k ，重复多次即可计算出 E ( l o g D k ) E(logD_{k})E (l o g D k ) 的近似值。

G a p ( k ) Gap(k)G a p (k ) 可以看做是随机样本的损失与实际样本的损失之差，假设实际样本最佳的簇类数目为 k，那么实际样本的损失应该相对较小，随机样本的损失与实际样本的损失的差值相应地达到最大，即 最大的G a p ( k ) Gap(k)G a p (k ) 值应该对应最佳的k值。

因此，我们只需要用不同的k值进行多次实验，找出使得G a p ( k ) Gap(k)G a p (k )最大的k即可。

到现在为止我们可以发现，上面的算法中，k值都是通过人为地凭借经验或者多次实验事先确定下来了的，但是当我们遇到高维度、海量的数据集时，可能就很难估计出准确的k值。那么，有没有办法可以帮助我们自动地确定k值呢？有的，下面来看看另一个算法。

ISODATA，全称是迭代自组织数据分析法，针对传统 k-means 算法需要人为地预先确定 k 值而改进的，主要思想是：

当某个类别样本数过多，分散程度较大时，将该类别分为两个子类（分裂操作，增加聚类中心数）
当属于某个类别的样本数目过少时，把该类别去掉（合并操作，减少聚类中心数）

优点：可以自动寻找合适的 k 值

缺点：除了要设置一个参考聚类数量 k 0 k_{0}k 0 外，还需要指定额外的3个阈值，来约束上述的分裂和合并操作。具体如下：

根据分解的顺序时自下而上还是自上而下，层次聚类算法分为凝聚的层次聚类和分裂的层次聚类
凝聚性层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类属于凝聚性层次聚类，只在簇间相似度的定义上有所不同。

流程：以采用最小距离的凝聚层次聚类为例：

假设在输入对象中存在一些拓扑结构或顺序，可以实现从输入空间到输出空间的降维映射，其映射具有拓扑性质，与实际的大脑处理很有理论联系

流程：

Original: https://blog.csdn.net/weixin_46180132/article/details/126901228
Author: 老衲要学习
Title: 机器学习（五）聚类算法（k-means，）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549380/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

地理加权回归_科研笔记 | 地理加权回归模型（GWR）软件实操 (3)：Gaussian GWR model…

引言在GWR4.0模型的MODEL选项卡，包括三种模型类型选项，分别是Gaussian GWR、Geographically WeightedPoisson regression…

人工智能 2023年6月18日
0091
IDEA配置Maven

文章目录一、Maven下载&环境配置 * 1.下载Maven 2.解压 3.配置环境变量 4.测试二、更改Maven中的设置 * 1.编辑settings.xml 2….

人工智能 2023年7月31日
0062
基于VS2017+OpenCV，C++搭建NanoDet-Plus轻量级目标检测模型并训练（一）

1.绪论官方GitHub地址：https://github.com/RangiLyu/nanodet中文知乎地址： https://zhuanlan.zhihu.com/p/44…

人工智能 2023年7月20日
00122
Faceswap文档之—使用手册

前言本篇博客，记录了使用github上的明星项目faceswap的过程，和一些踩坑记录。这个项目可以很好的实现视频换脸，感兴趣同学可以试一下。说明：本篇文章我将项目部署在linu…

人工智能 2023年5月23日
0089
yolo数据集标注软件安装+使用流程

目录一、数据集标注软件 1.LabelImg 2.Make-sense 二、软件使用流程一、数据集标注软件 1.LabelImg LabelImg这个标注软件算是比较主流的数据…

人工智能 2023年6月24日
001.1K
CodeGym一个学习平台

C odeGym 背后的小故事 Code Gym由充满激情的Java开发人员于2018年创立。2019年， Code Gym在全球拥有十万名用户。从那时起，我们的团队不断创新 C…

人工智能 2023年6月28日
0082
图像处理（九）-图片和数组的转换

✨✨✨感谢优秀的你打开了小白的文章“希望在看文章的你今天又进步了一点点，离美好生活更近一步！”🌈 🚀往期回顾图像的基本处理（一）(1条消息) 图像基本处理…

人工智能 2023年6月17日
0096
数据分析实战平台分享

本文对于评论区问的最多的数据来源问题，以及本人实战的资料来源做一个分享。一句话都是来源于网络。介绍几个数据分析学习平台，里面有许多免费的数据和代码平常写博文用的数据大部分都是从下面…

人工智能 2023年7月16日
0073
异常值检验的一些方法

异常值检验的一些方法 1.局部离群因子检测（LOF） 2.MADe法 3.修正的Z得分法 4.boxplot法 5.修正的boxplot法 6.异常检测之孤立森林算法详细解释且配上…

人工智能 2023年7月17日
0078
单人的姿态检测|tensorflow singlepose

单人姿态检测-图片特此声明，这张照片不是我自己的。如果有任何侵权行为，请联系我，我会删除它。 [En] It is hereby declared that the pictur…

人工智能 2023年5月23日
0082
7-2 自注意力机制原理

文章目录 7-2 自注意力机制原理 * 1. 简介 2. NLP中自注意力 3. 图像中的自注意力+代码 4. 问题 7-2 自注意力机制原理上一章已经讲过什么是注意力，注意…

人工智能 2023年5月30日
00112
OpenCv中计算图像像素最大值、最小值、均值和方差

1、寻找图像像素的最大值最小值寻找图像最大值最小值的函数 minMaxLoc()函数 minMaxLoc()函数原型 void cv::minMaxLoc(InputArray …

人工智能 2023年6月18日
00108
【推荐收藏】【机器学习实战】分类（以MNIST为例）（挑战全网最全，没有之一，另附完整代码与加速库的使用）

参照《机器学习实战》第二版 1、MNIST 本章使用 MNIST数据集，这是一组由70000张手写的数字图片，每张图片都用其代表的数字标记。因此也被成为机器学习领域的”…

人工智能 2023年7月1日
0063
Pandas获取SQL数据库read_sql()函数及参数一文详解+实例代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
0068
【在ROS下编译ORB_SLAM2遇到错误，】pangolin could not be found because dependency Eigen3 could not be found

【在ROS下编译ORB_SLAM2遇到错误】Pangolin could not be found because dependency Eigen3 could not be f…

人工智能 2023年6月10日
0092
# Python 数据分析三剑客 numpy / pandas / matplotlib （numpy篇②）

接着上一讲切片是引用切片在内存中使用的是引用机制。引用机制意味着，Python并没有为b分配新的空间来存储它的值，而是让b指向了a所分配的内存空间，因此，改变b会改变a的值：…

人工智能 2023年7月17日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习（五）聚类算法（k-means，）

1. 基本思想

2. 算法流程

3. 优缺点

4. k值如何选取

大家都在看