k-means聚类算法

2023年6月2日下午3:02 • 人工智能 • 阅读 72

算法简介：

k-means聚类算法是一种无监督学习的算法。

无监督学习（unsupervised learning）：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。

监督学习（supervised learning）:从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

算法思想：

k-means算法的思想比较简单，假设我们要把数据分成K个类，大概可以分为以下几个步骤：

随机选取k个点，作为聚类中心；
计算每个点分别到k个聚类中心的聚类，然后将该点分到最近的聚类中心，这样就行成了k个簇；
再重新计算每个簇的质心（均值）；
重复以上2~4步，直到质心的位置不再发生变化或者达到设定的迭代次数。

算法流程图解

下面我们通过一个具体的例子来理解这个算法（我这里用到了Andrew Ng的机器学习教程中的图）：
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:63f41039-6a6e-4de6-a010-2771f096a77d

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:1be2ffa3-7a2b-42bf-8fbe-e173e5c76674

我们人眼当然可以很快的分辨出来，可以在两个聚类间找到一条合理的分界线，那么用k-means算法来解决这个问题会是怎样的呢？
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:96d407bf-db68-43ef-ae25-45e3f388250f

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:19f55d46-b78c-4d3a-bee2-e2d7ce93cb0d

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:5a23c0ee-d68a-40ab-948a-247e0a22a960

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:154d72a8-b4fd-4fa1-935d-23a3ea871ac1

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:3be8f98e-333d-4359-a53f-7a7acf9ca0ff

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c2221ad8-06ea-479f-b4c7-faa4ad716e95

红X和蓝X都向中间靠拢了一点。我们可以看到，聚类中心发生改变后，其他点离两个聚类中心的距离也跟随着发生了变化。然后我们重复第二步，根据每个点到两个聚类中心的距离远近来进行重新分类，离红X近的归为红类，离蓝X近的归为蓝类。
k-means聚类算法

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:ff3f9dd7-39af-4d84-a853-809085dc24e2

[En]

这样我们就利用k-means算法把这个数据很好的分为两类啦。
我们可以看到，在整个过程中，我们都没有去监督算法，告诉他具体是分错了还是对了，只是在开始的时候告诉他要把这个数据分成多少类，然后后面的操作都是由他自己完成，完全没有人为的让他进行分类的学习，也没有帮助他纠正错误，所以k-means算法也是一种无监督学习方法。
相信看到这里你对k-means算法的原理也有了一个大概的了解啦。下面我们再来看看这个算法的代码实现吧。

用python实现k-means算法：

import numpy as np
import matplotlib.pyplot as plt

&#x4E24;&#x70B9;&#x8DDD;&#x79BB;
def distance(e1, e2):
    return np.sqrt((e1[0]-e2[0])**2+(e1[1]-e2[1])**2)

&#x96C6;&#x5408;&#x4E2D;&#x5FC3;
def means(arr):
    return np.array([np.mean([e[0] for e in arr]), np.mean([e[1] for e in arr])])

arr&#x4E2D;&#x8DDD;&#x79BB;a&#x6700;&#x8FDC;&#x7684;&#x5143;&#x7D20;&#xFF0C;&#x7528;&#x4E8E;&#x521D;&#x59CB;&#x5316;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;
def farthest(k_arr, arr):
    f = [0, 0]
    max_d = 0
    for e in arr:
        d = 0
        for i in range(k_arr.__len__()):
            d = d + np.sqrt(distance(k_arr[i], e))
        if d > max_d:
            max_d = d
            f = e
    return f

arr&#x4E2D;&#x8DDD;&#x79BB;a&#x6700;&#x8FD1;&#x7684;&#x5143;&#x7D20;&#xFF0C;&#x7528;&#x4E8E;&#x805A;&#x7C7B;
def closest(a, arr):
    c = arr[1]
    min_d = distance(a, arr[1])
    arr = arr[1:]
    for e in arr:
        d = distance(a, e)
        if d < min_d:
            min_d = d
            c = e
    return c

if __name__=="__main__":
    ## &#x751F;&#x6210;&#x4E8C;&#x7EF4;&#x968F;&#x673A;&#x5750;&#x6807;&#xFF0C;&#x624B;&#x4E0A;&#x6709;&#x6570;&#x636E;&#x96C6;&#x7684;&#x670B;&#x53CB;&#x6CE8;&#x610F;&#xFF0C;&#x7406;&#x89E3;arr&#x6539;&#x8D77;&#x6765;&#x5C31;&#x5F88;&#x5BB9;&#x6613;&#x4E86;
    ## arr&#x662F;&#x4E00;&#x4E2A;&#x6570;&#x7EC4;&#xFF0C;&#x6BCF;&#x4E2A;&#x5143;&#x7D20;&#x90FD;&#x662F;&#x4E00;&#x4E2A;&#x4E8C;&#x5143;&#x7EC4;&#xFF0C;&#x4EE3;&#x8868;&#x7740;&#x4E00;&#x4E2A;&#x5750;&#x6807;
    ## arr&#x5F62;&#x5982;&#xFF1A;[ (x1, y1), (x2, y2), (x3, y3) ... ]
    arr = np.random.randint(100, size=(100, 1, 2))[:, 0, :]

    ## &#x521D;&#x59CB;&#x5316;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;&#x548C;&#x805A;&#x7C7B;&#x5BB9;&#x5668;
    m = 5
    r = np.random.randint(arr.__len__() - 1)
    k_arr = np.array([arr[r]])
    cla_arr = [[]]
    for i in range(m-1):
        k = farthest(k_arr, arr)
        k_arr = np.concatenate([k_arr, np.array([k])])
        cla_arr.append([])

    ## &#x8FED;&#x4EE3;&#x805A;&#x7C7B;
    n = 20
    cla_temp = cla_arr
    for i in range(n):    # &#x8FED;&#x4EE3;n&#x6B21;
        for e in arr:    # &#x628A;&#x96C6;&#x5408;&#x91CC;&#x6BCF;&#x4E00;&#x4E2A;&#x5143;&#x7D20;&#x805A;&#x5230;&#x6700;&#x8FD1;&#x7684;&#x7C7B;
            ki = 0        # &#x5047;&#x5B9A;&#x8DDD;&#x79BB;&#x7B2C;&#x4E00;&#x4E2A;&#x4E2D;&#x5FC3;&#x6700;&#x8FD1;
            min_d = distance(e, k_arr[ki])
            for j in range(1, k_arr.__len__()):
                if distance(e, k_arr[j]) < min_d:    # &#x627E;&#x5230;&#x66F4;&#x8FD1;&#x7684;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;
                    min_d = distance(e, k_arr[j])
                    ki = j
            cla_temp[ki].append(e)
        # &#x8FED;&#x4EE3;&#x66F4;&#x65B0;&#x805A;&#x7C7B;&#x4E2D;&#x5FC3;
        for k in range(k_arr.__len__()):
            if n - 1 == i:
                break
            k_arr[k] = means(cla_temp[k])
            cla_temp[k] = []

    ## &#x53EF;&#x89C6;&#x5316;&#x5C55;&#x793A;
    col = ['HotPink', 'Aqua', 'Chartreuse', 'yellow', 'LightSalmon']
    for i in range(m):
        plt.scatter(k_arr[i][0], k_arr[i][1], linewidth=10, color=col[i])
        plt.scatter([e[0] for e in cla_temp[i]], [e[1] for e in cla_temp[i]], color=col[i])
    plt.show()

算法结果：

Original: https://blog.csdn.net/weixin_40933858/article/details/113817500
Author: 好好学习知识就是力量
Title: k-means聚类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561270/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

redis（基础 && redis缓存）

一，redis基础目录数据类型 1.1 字符串 1.2 hash 1.3 List 1.4 Set 1.5 sorted set jedis操作redis 与spring集成 …

人工智能 2023年6月26日
0096
如何处理AI算法部署的可扩展性问题，以满足不同规模和需求的用户

问题背景 AI算法部署的可扩展性问题是指如何处理算法在不同规模和需求的用户中的部署问题。当用户数量和需求增加时，需要能够迅速扩展算法以满足性能和服务质量的要求。在本文中，我们将使用…

人工智能 2024年1月4日
0044
【多目标跟踪与计数】（三）DeepSORT实战车辆和行人跟踪计数

一、DeepSort介绍论文地址： https://arxiv.org/pdf/1703.07402.pdf 参考文章： DeepSort讲解代码地址： https://git…

人工智能 2023年6月23日
00118
使用opencv的dnn模块来进行yolov5的目标检测

环境 python 3.8 pytorch 1.7 + cu110 yolov5 6.1 opencv 4.5.5 前言在 yolov5 的 C++ 部署方案中， opencv …

人工智能 2023年6月17日
0070
利用jieba库进行词频统计

0 引言在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。 1 问题通过对一篇…

人工智能 2023年5月31日
00109
Opencv项目实战：05 物体检测

1，效果展示为此，我专门还去查了查，怎么将视频转化为gif图，不知不觉中，我又多学会了一项技能。 OK!cool，效果很不错，今天需要搭配一些文件，都是可以从官网里找到的，那么我…

人工智能 2023年7月18日
0047
【leetcode】加减的目标值

给定一个正整数数组 nums 和一个整数 target 。向数组中的每个整数前添加 ‘+’ 或 ‘-‘ ，然后串联起所有整数，可以…

人工智能 2023年6月28日
0088
[Python] 散点图（二维散点图、三维散点图、散点图矩阵）

目录 1 两主特征：二维散点图 1.1 二维散点图 1.2 二维分类散点图 1.3 气泡图 2 三主特征：三维散点图 2.1 三维散点图 2.2 三维分类散点图 3 多主特征：二维…

人工智能 2023年7月4日
00101
PWC-net模型

原文链接：2006.04902.pdf (arxiv.org) 本文仅为笔记。 1.PWC-net模型将图片1和图片2分别放入共享的cnn网络，通过金字塔结构生成特征图，这些特征…

人工智能 2023年7月13日
0079
【目标检测】AAAI20 – 提升边界框回归《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

文章目录 * – 初识 – 相知 – 回顾 – 参考初识目标检测框有分割和定位两个任务，其中对于定位任务采用的损失通常为l n …

人工智能 2023年6月17日
00148
【语音工程开发】

硕士毕业一年左&#…

人工智能 2023年5月25日
0092
R 聚类热图-数据的标准化

热图（heatmap）的典型应用是简单地聚合大量数据，并使用一种渐进的色带来优雅地表现，最终效果一般优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。但也由于很直…

人工智能 2023年6月2日
00128
BEVFusion: A Simple and Robust LiDAR-CameraFusion Framework 细读

BEVFusion这个名字是有撞车的两个自动驾驶相关的文章都是这个简称另一个有意思的是，这两个工作，从github粗看，应该都是用到了mmdet3d的框架在右侧的A Simp…

人工智能 2023年5月26日
0085
两万字摘录计算机博士生涯规划

摘要：如何规划博士生涯，怎么读博士，博士怎么找方向，如何规划计算机博士生涯，怎么读计算机博士，计算机博士怎么找方向，如何规划深度学习博士生涯，怎么读深度学习博士，深度学习博士怎么找…

人工智能 2023年7月13日
0096
Python情人节表白女神代码(修订版)

Python情人节表白女神代码(修订版) 引言：又是一年一度的情人节来临之际，最近后台私信不断，槽点：20年初写的表白女神代码无法调试出结果，临时加更本篇内容（对每一行进行了注释解…

人工智能 2023年7月19日
0060
YOLOv3详解

文章目录前言一、YOLOv3网络模型分析 * 1.Backbone： Darknet-53 2.FPN 3.Yolo Head 二、anchor网格偏移量预测三、正负样本匹配…

人工智能 2023年6月16日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

k-means聚类算法

大家都在看