通俗易懂的 k-means 聚类算法原理及优化（附代码）

2023年5月31日上午8:40 • 人工智能 • 阅读 133

输入：聚类个数，以及包含个数据对象的数据集
输出：满足方差最小标准的个聚类
Step1 从个数据对象任意选择个对象作为初始聚类中心；
Step2 根据簇中对象的平均值，将每个对象重新赋给最类似的簇；
Step3 更新簇的平均值，即计算每个簇中对象的平均值；
Step4 循环Step2到Step3直到每个聚类不再发生变化为止。

2、详细过程

1) 给定大小为 n n n 的数据集，令 i t e r = 1 iter=1 i t e r =1，表示迭代次数，选择 k k k 个初始聚类中心 z j ( i t e r ) , j = 1 , 2 , … , k z_{j}(iter),j=1,2,\dots,k z j (i t e r ),j =1 ,2 ,…,k ；
2) 计算每个样本数据 x i , i = 1 , 2 , … , n x_{i},i=1,2,\dots,n x i ,i =1 ,2 ,…,n 与聚类中心的距离，将 x i x_{i}x i 分配给最近的聚类中心 z j ( i t e r ) z_{j}(iter)z j (i t e r ) 所属的聚类，即 ∣ x i − z j ( i t e r ) ∣ ≤ ∣ x i − z j ′ ( i t e r ) ∣ , j ′ ≠ j , j ′ , j ∈ ( 1 , 2 , … . k ) \vert x_{i}-z_{j}(iter)\vert \leq \vert x_{i}-z_{j^{‘}}(iter)\vert,j^{‘}\neq j,j^{‘},j \in(1,2,\dots.k)∣x i −z j (i t e r )∣≤∣x i −z j ′(i t e r )∣,j ′=j ,j ′,j ∈(1 ,2 ,….k )；
3) 令 i t e r = i t e r + 1 iter=iter+1 i t e r =i t e r +1，计算新的聚类中心（取已聚类的平均值）和误差平方和准则 F F F （目标函数）值
F ( i t e r ) = ∑ j = 1 k ∑ i = 1 n ∥ x i j − z j ( i t e r ) ∥ 2 F(iter)=\sum_{j=1}^{k}\sum_{i=1}^{n}\Vert x_{i}^{j}-z_{j}(iter)\Vert^{2}F (i t e r )=j =1 ∑k i =1 ∑n ∥x i j −z j (i t e r )∥2
4) 判断：若 ∣ F ( i t e r + 1 ) − F ( i t e r ) ∣ < θ \vert F(iter+1) – F(iter) \vert （F F F 收敛）或者对象无类别变化，则算法结束，否则，返回第 2）步。

3、流程图

; 4、聚类过程示意图

（和测试效果图无关，只是为了展示）

5、测试效果

; 6、算法优化

由于随机聚类中心的不同，在最小化代价函数时，有可能会停留在一个局部最小值处，导致最终的聚类效果不佳。需要对初始化质心点的选择进行优化。
优化：选择批次距离尽可能远的 k k k 个点（事先确定的类簇个数），首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出 k k k 个初始类簇中心点。
下面是优化后初始质心点选择的代码部分（所用语言C#）：

DataPoint firstCenterPoint = new DataPoint(dataSet[0].X, dataSet[0].Y, 1);
int n = 2;
centerPoints.Add(firstCenterPoint);
for (int i = 0; i < k - 1; ++i, ++n)
{
    List<double> tempList = new List<double>();
    for (int j = 0; j < len; ++j)
    {
        bool brFlag = false;
        for (int m = 0; m < centerPoints.Count(); ++m)
        {
            if (dataSet[j].X == centerPoints[m].X && dataSet[j].Y == centerPoints[m].Y)
            {
            brFlag = true;
            break;
            }
        }
        if (brFlag)
        {
            tempList.Add(0);
            continue;
        }

        List<double> ceterPointSd = new List<double>();
        for (int m = 0; m < centerPoints.Count(); ++m)
        {
            double tempSd = Math.Sqrt(SquareDistance(dataSet[j], centerPoints[m]));
            ceterPointSd.Add(tempSd);
        }
        double minSd = ceterPointSd.Min();
        tempList.Add(minSd);
    }

    int maxIndexValue = tempList.Select((m, index) => new { m, index }).Where(x => x.m == tempList.Max()).FirstOrDefault().index;
    DataPoint centerPoint = new DataPoint(dataSet[maxIndexValue].X, dataSet[maxIndexValue].Y, n);
    centerPoints.Add(centerPoint);
}

Original: https://blog.csdn.net/qq_43307389/article/details/118419826
Author: 小龙李
Title: 通俗易懂的 k-means 聚类算法原理及优化（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550102/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

总结的pandas数据结构和需要掌握的知识点

学习目标掌握Series的常用属性及方法掌握DataFrame的常用属性及方法掌握更改Series和DataFrame的方法掌握如何导入导出数据创建Series和Data…

人工智能 2023年7月7日
0044
预训练模型专题_Bart_论文学习笔记

Bart模型作为一种Seq2Seq结构的预训练模型，是由Facebook在ACL 2020上提出。Bart模型的论文为：《BART: Denoising Sequence-to-S…

人工智能 2023年5月31日
0094
python操作neo4j

Neo4j是图数据库，即数据不是保存在表或集合中，而是保存为节点以及节点之间的关系。Neo4j数据主要由节点、边、属性构成。在Neo4j中，节点以及边都能够包含保存值的属性1、安…

人工智能 2023年6月4日
0086
TensorFlow的自定义算子实现

在学习中涉及到了TensorFlow的自定义算子实现，现将整个工程中的一些思考写下来，有问题的部分也请大家指正！！！ OP和Kernel是TensorFlow框架最重要的两个概念，…

人工智能 2023年5月25日
0063
语音驱动表情技术

ASR：automatic speech recognize ,语音识别技术，语音转换为文本 TTS:text to speech ,文本转语音技术 audio2face:音频转表…

人工智能 2023年5月25日
0095
打通tensorflow版Unet_v1代码

目录知识积累：代码调试：构建Unet网络： 1.Conv2D ModelCheckpoint model.fit() 代码 data.py unet.py 运行…

人工智能 2023年5月23日
00128
回归预测 | MATLAB实现MLP多层感知机模型多输入多输出回归预测

回归预测 | MATLAB实现MLP多层感知机模型多输入多输出回归预测目录 * – 回归预测 | MATLAB实现MLP多层感知机模型多输入多输出回归预测 &#821…

人工智能 2023年6月15日
00123
可以用爱因斯坦求和替代的那些矩阵运算

技术背景在前面的几篇文章中我们分别介绍过numpy中的爱因斯坦求和函数Einsum和MindSpore框架中的爱因斯坦求和算子Einsum的基本用法。而我们需要知道，爱因斯坦求和…

人工智能 2023年6月4日
00102
04_02《利用python进行数据分析》第二版学习笔记

系列文章目录 提示：仅记录&#x4E2A…

人工智能 2023年7月8日
0099
工业产品表面缺陷检测方法——综述

原文链接： Applied Sciences | Free Full-Text | Surface Defect Detection Methods for Industrial …

人工智能 2023年6月16日
0076
OpenCv入门（二）——仿射变换和透视变换

为什么要图像重映射？我们可以把每个像素的位置重新映射到新的位置，这可用来创建图像特效，或者修正因镜片等原因导致的图像扭曲。如何实现？使用OpenCv的 remap函数，首先需要定…

人工智能 2023年7月20日
0076
第三节线性回归与逻辑回归/Softmax回归

写在前面：每节整理了思维导图，Click here ，提取码：2333 文章目录 * – + 一、线性回归 + * 1.技术点 * 2.线性回归与逻辑回归的区别 * …

人工智能 2023年6月18日
00120
常用的激活函数（Sigmoid、Tanh、ReLU等）

目录一、激活函数定义二、梯度消失与梯度爆炸 1.什么是梯度消失与梯度爆炸 2.梯度消失的根本原因 3.如何解决梯度消失与梯度爆炸问题三、常用激活函数 1.Sigmoid 2….

人工智能 2023年7月3日
0078
MD5密码实验——Python实现(完整解析版)

文章目录更新：前言实验环境实验内容 * 实验操作步骤 – 1.初始化四个缓冲区 2.设置常数表、位移位数等参数 3.增加填充 4.分组处理 5.输出处理实验结…

人工智能 2023年7月5日
0072
数据分析中判断数据类型常用方法汇总（pandas）

目录 * – + * 1、空值判断 * 2、其他数据类型判断 * – 2.1 判断Serise或DataFrame中某一列的数据类型 – 2….

人工智能 2023年7月6日
0079
深度学习——ResNet超详细讲解，详解层数计算、各层维度计算

残差神经网络(ResNet) 1 缘由在ResNet之前的网络层数都不是很高，14年的VGG网络才只有19层，但是ResNet的网络层数达到了惊人的152层。许多人会有一个直观的…

人工智能 2023年5月26日
00201

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

通俗易懂的 k-means 聚类算法原理及优化（附代码）

目录

大家都在看