【机器学习】聚类算法——K-Means算法（理论+图解）

2023年6月19日下午6:30 • 人工智能 • 阅读 72

🌠 『精品学习专栏导航帖』

🐳最适合入门的100个深度学习实战项目 🐳
🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码 🐙
🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码 🐶
🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码 🦜
🐌Java经典编程100例 🐌
🦋Python经典编程100例 🦋
🦄蓝桥杯历届真题题目+解析+代码+答案 🦄
*🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全 🐯

简介：下面是我在学习时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得，如有错误，欢迎大家指正。

关键词：Python、机器学习、K-Means聚类

; 一、K-Means聚类

其实它是一种基于质心的聚类，为什么这么说呢？因为它的设计思想就是从总样本中找到几个标志性的数据，将其定为每个簇的数据中心，然后分别判断每个数据的距离状况，然后进行更新每个簇内的质心。

对于样本集 D = { x 1 , x 2 . . . x n } D={x_1,x_2…x_n}D ={x 1 ,x 2 …x n } 来说，我们要将其分成k个数据簇，也就是对应 C = { C 1 , C 2 , . . . C k } C={C_1,C_2,…C_k}C ={C 1 ,C 2 ,…C k } ，如果是这样，那么我们的目标优化函数就是：
E = ∑ i = 1 k ∑ x ∈ C i ∣ ∣ x − μ i ∣ ∣ 2 2 E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||_2^2 E =i =1 ∑k x ∈C i ∑∣∣x −μi ∣∣2 2

我们就是要优化该函数，也就是要E越小越好，但是该函数我们是很难进行优化的，因为如果我们要想计算出它的最优解，那么就要穷举出所有的簇分类可能，但是这在实际中是很难进行的，所以就要考虑局部最优采用贪心算法进行优化，我们每次只是进行更新该簇内的质心，然后不断迭代此过程。

二、算法详细流程

首先确定样本集和待划分的簇类数k
从样本集中随机初始k个数据中心点
迭代每一个样本，计算每一个样本对k个数据中心的距离
标记样本为距离该样本最近的类别簇中
第一轮遍历数据完成，所有的样本已经找到了自己所属的簇，但这还不是最终的类别，所以还要进行第二轮迭代
在第二轮迭代之前，需要更新每个簇内的质心
计算每个簇内的质心μ = 1 C ∑ x ∈ C x \mu=\frac{1}{C}\sum_{x\in C}x μ=C 1 ∑x ∈C x
然后重复3-7的步骤，知道达到预期迭代次数或者两次迭代结果，簇内数据不发生任何变化

算法实现需要注意的几个问题：

类中心向量的初值一般是采用随机初始化的，所以这可能导致每一次的模型聚类效果不同，因为算法内部使用了采用贪心，所以可能导致每次的效果分类不一样。
簇的个数的确定，因为簇的个数事先是无法确定的，我们也不清楚到底将数据分为几个类别，所以我们需要不断地调整k的个数，来判断聚类的效果
迭代终止原则，一般是会定义一个阈值，如果我们两次迭代后发现每个簇的类中心的变化距离小于我们设定的阈值，就说明本次迭代没有发生较大的数据变动，则迭代终止。

写在最后

大家好，我是阿光，觉得文章还不错的话，记得”一键三连”哦！！！

以上是我在读这本书的时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得，如有错误，欢迎大家指正。

Original: https://blog.csdn.net/m0_47256162/article/details/118831353
Author: 雷神
Title: 【机器学习】聚类算法——K-Means算法（理论+图解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639974/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多视角3D重建技术市场现状研究分析报告-

辰宇信息咨询市场调研公司最近发布-《2022-2028中国多视角3D重建技术市场现状研究分析与发展前景预测报告》内容摘要本文研究中国市场多视角3D重建技术现状及未来发展趋势，侧…

人工智能 2023年6月11日
00129
基于讯飞接口的语音识别（python）

1.下载内容 1.pyaudio安装简介： pyaudio库，使用这个可以进行录音，播放，生成wav文件等等。PyAudio 提供了 PortAudio 的 Python 语言版…

人工智能 2023年5月23日
0076
YOLOv6 | 模型结构与训练策略详细解析

如有错误，恳请指出。美团的yolov6发布已经2个多月，现在把他的改进和知识点稍微总结一下，用这篇博客记录。github地址：https://github.com/meituan…

人工智能 2023年6月24日
00104
计算机视觉实验一

文章目录 * – 一、python及opencv的配置 – 二、图像处理基础 – 1.图像的直方图表示 – 1.1概念 &#8211…

人工智能 2023年7月19日
0045
【云AI】利用百度智能云，实现人像动漫化

🍅0 写在前面 👨‍🎓 博主介绍：大家好，我是可可卷，很高兴又和大家见面了~⭐️情景引入：最近刚加入了百度松果人才培养菁英班，直接被安利了一波百度大脑，用起来真是吓了一跳，不用写模…

人工智能 2023年7月26日
0067
PyTorch：多分类问题实战

一、batch_size 在合理范围内，增大batch_size的好处 1）内存利用率提高了，大矩阵乘法的并行化效率提高。 2）跑完一次 epoch（全数据集）所需的迭代次数减少，…

人工智能 2023年7月3日
0073
【Spring学习笔记】

文章目录笔记简记 1 SPring框架概述 * 1) Spring5 框架概述 2）Spring5 入门案例 2 IOC * 1) IOC概念和原理 2）IOC（BeanFact…

人工智能 2023年6月27日
0064
吴恩达机器学习作业笔记（Logistic 回归）

数据一共有三列，前两列是学生成绩，最后一列用1.0代表学生是否被录取使用分类的方法进行学习，得到一个学生被录取的概率值。零基础知识 pandas读取文件 import pand…

人工智能 2023年6月18日
0092
多变量线性回归分析（含波士顿房价源数据及方法）

Boston房价的原始数据，参见第一个链接，永久1积分下载使用，当然也可以到官网下载基于 B(2条消息) boston_housing_data.csv-讲义文档类资源-CSDN文…

人工智能 2023年6月17日
0084
度量学习和pytorch-metric-learning的使用

度量学习是学习一种特征空间的映射，把特征映射到具有度量属性的空间中，所谓度量属性是指在某种度量距离（可以是欧氏距离、余弦相似性等）下类内距离更小，类间距离更大。有了这种属性之后，就…

人工智能 2023年5月28日
0095
菜鸟驿｜多分类的精准率和召回率

在二分类中，结果的评价指标有召回率、精准率和f1值，将结果分为四类TP(true positive)、TN(true negative)、FP(false positive)、FN…

人工智能 2023年7月2日
0087
深度学习优化器个人经验汇总

通用公式 g t = ▽ f ( w t ) 根据 l o s s 计算出的梯度值 m t = ϕ ( g 1 , g 2 , . . . , g t ) 根据过…

人工智能 2023年7月14日
0044
LSTM分类模型

LSTM文本分类模型本文主要固定一个文本分类的流程。分为三个部分：数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果，得到模型的输入样本。模型搭建和训…

人工智能 2023年6月23日
00116
how is it going是什么意思_“是我”别随口说成“It's me”，这些你都搞清楚了吗？…

1、I: The Subject “I” is a nominative pronoun, which means that it is used as t…

人工智能 2023年6月1日
0071
路径规划：RRT算法在ROS中的实现

RRT算法在ROS中的实现（记录自己学习的过程） 1.环境ubuntu18.04ROS版本：melodic小车：Turtlebot3 2.实现算法RRT 3.最终效果 4.代码链接…

人工智能 2023年6月2日
00105
Qt-OpenCV学习笔记–仿射变换–warpAffine()

概述将图像进行仿射变换，包括平移、缩放、翻转、旋转和错切。函数 void cv::warpAffine ( InputArray src, OutputArr…

人工智能 2023年6月28日
0093

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【机器学习】聚类算法——K-Means算法（理论+图解）

文章目录

大家都在看