图文并茂：什么是 K-means 聚类算法

2023年6月16日上午9:51 • 人工智能 • 阅读 86

概述

聚类属于机器学习的无监督学习，在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。

它跟分类的最主要区别就在于有没有”标签”。比如说我们有一组数据，数据对应着每个”标签”，我们通过这些数据与标签之间的相关性，预测出某些数据属于哪些”标签”，这属于分类；而聚类是没有”标签”的，因此说它属于无监督学习，分类则属于监督学习。

k-means(k-均值)属于聚类算法之一，笼统点说，它的过程是这样的：先设置参数k，通过欧式距离进行计算，从而将数据集分成k个簇。为了更好地理解这个算法，下面更加详细的介绍这个算法的思想。

算法思想

我们先过一下几个基本概念：

（1） K值：即要将数据分为几个簇；

（2）质心：可理解为均值，即向量各个维度取平均值，这个是我们聚类算法一个重要的指标；

（3）欧式距离：

上面的这3条基本概念你大可不必太纠结，因为这是为了让你看下面的内容时，能够更好理解。假如说，我们现在有一堆数据集，在图像上的分布是这样的：

从图像上看，貌似可以直接把他分为3个簇，因此，我们设置 k=3，然后我们随机生成3个点，再通过欧式距离公式，计算每个点到这三个点之间的距离，距离哪个点最近的，就归类，于是它就变成了这样：

当然，这样还不够，毕竟这三个点只是随机生成的，而且我们还需要不断调整以达到更好的聚类效果；因此我们计算初次分好的簇的均值，即上面提到的质心，让这三个质心替代掉随机点，然后迭代重复上面的过程，以达到最优。

……(重复迭代n次)……

最后，才生成最优解，如图：

上面的图是在这个网站通过演示得到的，可以上这个网址实际操作一波，加深理解。

缺点

几乎每个算法都有其缺点，这个算法也不例外，优点是原理简单，实现容易，缺点如下：

（1）不规则点的聚类结果会有所偏差，如下图，比如我们想分成4个簇，俩眼睛一嘴巴以及外轮廓，但效果总是难以达到。

（2）k值难以确定。比如下面这样的图，应该把它从中间分割得到两块呢还是分成左中右三块呢，难以确定。

如果觉得写的不错，麻烦点个小小的赞。

想要第一时间获取更多有意思的推文，可关注： 大数据的奇妙冒险，转载请注明出处

Original: https://blog.csdn.net/weixin_43596734/article/details/124776408
Author: 大数据的奇妙冒险
Title: 图文并茂：什么是 K-means 聚类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623123/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

易景智慧工厂可视化管理系统-数字孪生

物联网技术、5G技术的不断发展，数字孪生工厂,智能制造，工业4.0，智慧工厂，MES，信息化集成，智能工厂，也为工厂行业的精细化、智能化管理建设打下了基础，解决工厂管理粗放、人员效…

人工智能 2023年6月4日
00111
C++实现Kmeans聚类算法获取COCO目标检测数据集的anchor框

前文我们讲过使用Opencv现有的Kmeans聚类函数来获取COCO数据集anchor框尺寸：基于libtorch的yolov5目标检测网络实现(3)——Kmeans聚类获取an…

人工智能 2023年6月2日
00110
复旦提出ObjectFormer，收录CVPR 2022！图像篡改检测新工作！

点击下方卡片，关注” CVer“公众号 AI/CV重磅干货，第一时间送达 Part I. 文章简介本文中，复旦大学以人为本人工智能研究中心提出了 Obj…

人工智能 2023年5月26日
0094
R语言使用cor函数计算相关性矩阵进行相关性分析，使用corrgram包的corrgram函数可视化相关性矩阵、行和列使用主成分分析重新排序、以将具有相似相关模式的变量聚类在一起

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0069
清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结）

最近的一篇关于YOLOv5检测小目标博客的点击量很高，没想到YOLOv5还是很有影响力的。既然这样，今天本人就本着幽默、清晰、轻松的风格带大家深入了解一下YOLOv5那倾倒众生的网…

人工智能 2023年7月27日
0074
【一周聚焦】联邦学习 arxiv 3.11-3.18

O. Marfoq, G. Neglia, L. Kameni, and R. Vidal, “Personalized Federated Learning thro…

人工智能 2023年6月4日
0076
【头歌实验】一、Python初体验——Hello World

文章目录 >>> 第1关：Hello Python，我来了！ * 任务描述相关知识 – Python交互式编程模式 Python脚本式编程模式 Pr…

人工智能 2023年6月26日
0068
【机器学习算法】支持向量机（support Vector Machine，SVM）

目录支持向量机支持向量机概述线性可分及线性不可分的问题线性可分的支持向量机线性不可分的支持向量机支持向量机与神经网络之间的关系处理两类以上的分类问题。我的主页：晴天qt01的博客…

人工智能 2023年7月2日
0089
论文研读笔记（一）——多智能体强化学习的相对分布编队和避障

Relative Distributed Formation and Obstacle Avoidance with Multi-Agent Reinforcement Learn…

人工智能 2023年7月27日
0077
【CS224n】(lecture4)Dependency Parsing 依存句法分析

学习总结句法分析（Syntactic Parsing），两种典型的句法结构表示：（1）短语结构句法：依托上下文无关文法，S代表起始符号，如NP和VP分别表示名词短语和动词短语。…

人工智能 2023年5月30日
00129
PyTorch基础（六）–optim模块

PyTorch的 optim是用于参数优化的库（可以说是花式梯度下降）， optim文件夹主要包括1个核心的父类（ optimizer）、1个辅助类（ lr_scheduler）以…

人工智能 2023年7月24日
00116
Linux下使用Anaconda安装 Pytorch（GPU）各个版本（万无一失），不会出现问题，经历各种踩坑的总结

一、通过官网的命令安装会出现的问题（建议装pytorch的GPU版本千万别用官网的安装命令，各种报错）：（1）按照自己的环境选择，但是没有自己想要的版本。（2）修改安装命令里的版…

人工智能 2023年7月21日
0070
【理论篇】是时候彻底弄懂BERT模型了(收藏)

引言本文对BERT模型的理论进行了一个非常详尽的解释，相信看完本篇文章后，你对BERT模型的理解会上升🚀一个层次。本文是理论篇，下篇是实战篇。 BERT的基本思想 BERT如此…

人工智能 2023年5月31日
0077
python小工具-实现xls文件按列不同内容分割成多个csv文件

导入filedialog 文件对话框模块from tkinter import filedialog导入pandas库import pandas as pd导入excel处理模块x…

人工智能 2023年7月9日
00105
ROS无人机自主飞行（数传与串口）与PX4配置问题

ROS无人机自主飞行与PX4配置问题文中引用均为参考，部分内容转载！特感谢提供了参考！ PX4的配置首先需要对PX4烧写固件，版本问题上其实没有很多区别，目前我所用的最新版本—…

人工智能 2023年5月26日
00267
Pandas 学习笔记二

文章目录 * – + Pandas 学习笔记二 + * 数据的读取与存储 * – csv格式 – hdf5格式 – JSON格式 *…

人工智能 2023年7月17日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

图文并茂：什么是 K-means 聚类算法

概述

算法思想

缺点

大家都在看