K-means聚类及距离度量方法小结

2023年5月31日上午6:44 • 人工智能 • 阅读 90

基本概念不再介绍，直接进行关键点的总结叙述。

kmeans算法又名k均值算法,K-means算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。

其算法思想大致为：先从样本集中随机选取 k个样本作为簇中心，并计算所有样本与这 k个”簇中心”的距离，对于每一个样本，将其划分到与其距离最近的”簇中心”所在的簇中，对于新的簇计算各个簇的新的”簇中心”。

根据以上描述，我们大致可以猜测到实现kmeans算法的主要四点：

（1）簇个数 k 的选择

（2）各个样本点到”簇中心”的距离

（3）根据新划分的簇，更新”簇中心”

（4）重复上述2、3过程，直至”簇中心”没有移动

优缺点：

优点：容易实现

缺点：可能收敛到局部最小值，在大规模数据上收敛较慢

四大过程步骤：

Step1.K值的选择

k 的选择一般是按照实际需求进行决定，或在实现算法时直接给定 k 值。

说明：

A.质心数量由用户给出，记为k，k-means最终得到的簇数量也是k

B.后来每次更新的质心的个数都和初始k值相等

C.k-means最后聚类的簇个数和用户指定的质心个数相等，一个质心对应一个簇，每个样本只聚类到一个簇里面

D.初始簇为空

Step2.距离度量

将对象点分到距离聚类中心最近的那个簇中需要最近邻的度量策略，在欧式空间中采用的是欧式距离，在处理文档中采用的是余弦相似度函数，有时候也采用曼哈顿距离作为度量，不同的情况实用的度量公式是不同的。

2.1.欧式距离

像DBSCAN中就有metric 参数进行距离度量方式的设定。

k-means就没有

如果有兴趣自己优化，可以直接进入库底层代码进行修改。

按住 Ctrl+鼠标左键 点击对应方法即可进入底层代码

底层代码文件名称为 _kmeans.py

2.2.曼哈顿距离

2.3.余弦相似度

A与B表示向量(x1,y1)，(x2,y2)

分子为A与B的点乘，分母为二者各自的L2相乘，即将所有维度值的平方相加后开方

说明：

A.经过step2，得到k个新的簇，每个样本都被分到k个簇中的某一个簇

B.得到k个新的簇后，当前的质心就会失效，需要计算每个新簇的自己的新质心

Step3.新质心的计算

对于分类后的产生的k个簇，分别计算到簇内其他点距离均值最小的点作为质心（对于拥有坐标的簇可以计算每个簇坐标的均值作为质心）

说明：

A.比如一个新簇有3个样本：[[1,4], [2,5], [3,6]]，得到此簇的新质心=[(1+2+3)/3, (4+5+6)/3]

B.经过step3，会得到k个新的质心，作为step2中使用的质心

Step4.是否停止K-means

质心不再改变，或给定loop最大次数loopLimit

说明：

A当每个簇的质心，不再改变时就可以停止k-menas

B.当loop次数超过looLimit时，停止k-means

C.只需要满足两者的其中一个条件，就可以停止k-means

C.如果Step4没有结束k-means，就再执行step2-step3-step4

D.如果Step4结束了k-means，则就打印(或绘制)簇以及质心

Original: https://blog.csdn.net/qq_38563206/article/details/120940393
Author: ASS-ASH
Title: K-means聚类及距离度量方法小结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549502/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ROS中的时间

ros::Time t1 = ros::Time::now(); double t_cur = t1.toSec(); printf("The time is: %16f…

人工智能 2023年7月8日
0066
推荐五个单变量时间序列数据集

前言今天这篇文章推荐几个可以用来测试自己做的模型时间序列数据集。一般来说时间序列数值可以这么表达时间序列的数据 = 基准数值+趋势+季节性+噪声数据集主要分为两种单变量…

人工智能 2023年7月16日
0063
Convolutional神经网络是什么？它的原理是什么

Convolutional神经网络 Convolutional神经网络是一种广泛应用于图像处理和计算机视觉任务的深度学习算法。它通过在不同区域上进行卷积操作，将输入图像转换为更有意…

人工智能 2024年1月3日
0039
MySQL索引原理（标贝科技）

什么是索引？索引是帮助MySQL高效获取数据的数据结构。索引的本质就是数据结构。索引的目的在于提高查询效率，可以类比图书的目录，根据目录中的页码快速找到所需的内容。一般来说索引本…

人工智能 2023年6月6日
0051
中文命名实体识别—基于多特征融合嵌入

来源: AINLPer 微信公众号（每日更新…）编辑: ShuYini校稿: ShuYini时间: 2021-11-18 昨天给大家分享的是一篇EMNLP2021关于…

人工智能 2023年5月28日
0094
使用tensorflow出现的错误及其解决方法（numpy、opencv_contrib）

1 tensorflow调用numpy库提示错误ImportError: numpy.core.multiarray failed to import2 打开anaconda pr…

人工智能 2023年5月24日
00109
Spring原理学习（八）AOP底层实现

一、Advice、Advisor、Advised接口 Advice: org.aopalliance.aop.Advice“通知”，实际增强的逻辑部分。 P…

人工智能 2023年6月26日
00129
解决：error C1083: 无法打开包括文件: “opencv2/opencv.hpp”: No such file or directory

在VS平台下的C++项目，添加opencv的头文件失败问题的解决方法报错：错误 1 error C1083: 无法打开包括文件: “opencv2/core.hpp&#…

人工智能 2023年6月18日
00116
opencv学习(9):cv::Scalar、cv::Mat::zeros

1 cv::Scalar cv::Scalar是opencv的一个结构体，其定义如下：（c++中的结构体如下，可以存放1~4个数值。） //! various constructo…

人工智能 2023年6月18日
0064
python excel pandas openpyxl_Python错误集锦：在pandas中用to_excel()写xlsx文件提示：ModuleNotFoundError: No module …

错误提示：在pandas中用to_excel()写xlsx文件时提示：ModuleNotFoundError: No module named ‘openpyxl&#…

人工智能 2023年7月7日
0073
Jetson Xavier NX Yolov5的搭建及配合Intel Realsense D435i的使用

该实验需分为三步来完成1.在Jetson Xavier NX上搭建Yolov5。2.安装Intel Realsense D435i的SDK。3.配合YOLOV5实现实时目标检测。 …

人工智能 2023年7月18日
0062
intel realsense 深度相机深度图像处理API总结

文章目录 intel realsense 深度相机深度图像处理API总结 * – 一.导入库文件二.开启数据流传输三.获取图像帧数据四.使用OpenCV显示深度图…

人工智能 2023年6月18日
0069
把一个服务器上的环境迁移到另一个服务器上

将环境从一个服务器迁移到另一个服务器 [En] Migrate the environment from one server to another 用的远程连接服务器的软件是Mo…

人工智能 2023年5月23日
0083
R语言矩阵matrix数据类型、生成示例matrix数据、为矩阵添加行名称和列名称、使用中括号[]索引matrix数据、矩阵matrix实战

以下是一个用 C 语言编写的矩阵_运算 _示例_代码，可以处理三 _行_四 _列_的 double 类型 _数据： `c #include Original: https://b…

人工智能 2023年7月17日
0061
读论文之transformer系列-CvT：将卷积引入transformer

论文地址：https://arxiv.org/abs/2103.15808 代码地址：https://github.com/leoxiaobin/CvT https://githu…

人工智能 2023年5月26日
0075
【数据挖掘】PCA 主成分分析算法过程及原理讲解

PCA 主成分分析算法过程及原理讲解 1 概念主成分分析(Principal componet analysis,PCA) 是一种无监督学习方法，利用正交变换把线性相关变量表示的…

人工智能 2023年6月19日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

K-means聚类及距离度量方法小结

大家都在看