K-Means(K均值聚类)原理及代码实现

2023年6月15日下午12:26 • 人工智能 • 阅读 174

机器学习

没有免费午餐定理和三大机器学习任务
 如何对模型进行评估
 K-Means(K均值聚类)原理及代码实现
 KNN(K最近邻算法)原理及代码实现
 KMeans和KNN的联合演习

文章目录

机器学习
前言
一、算法步骤
二、例子
*
1. K=2 选取P3和P4作物簇心
2.计算每个点到簇心的距离
3. 更新簇心。
3. 再次计算每个点到簇心的距离。
三、代码实现
*
1. 导入必要的库
2. K-Means实现
3. 绘制分类图（二维情况下）
4. 运行代码
四、测试结果

前言

K-Means算法是机器学习中一个非常简单且使用的聚类算法。其只具备一个超参数K，代表着样本的类别数。
假设k=2则表示我们希望将样本分为两类，另外k-means能够自主寻找样本数据的内部结构。
该算法是基于假设：特征空间中相近的两个样本很可能属于同一类别。

因为它所使用的数据不带有标签，所以毫无疑问是一种 无监督学习方法。

其具备一下优点

可解释性好。
实现简单。
分类效果不错。

但是也存在一些缺点：

准确度不如监督学习。
对K值的选择很敏感。

一、算法步骤

先定义有多少个簇/类别(cluster)，即确定K值。
将每个簇心（中心）随机定在样本点上。
每个样本关联到最近的簇心上。
重新计算每个簇的簇心位置（取每个点坐标的平均值）。
更改簇心。
不停重复，直到簇心不变。

二、例子

该例子来自于【10分钟算法系列】K均值聚类算法-带例子/K-Means Clustering Algorithm

1. K=2 选取P3和P4作物簇心

P3是第一类的中心(红色)。
P4是第一类的中心(绿色)。

; 2.计算每个点到簇心的距离

此处D ( C n ) 2 D(C_n)^2 D (C n )2表示样本点到第n个簇心的距离的平方（简化计算）。

其中点 P1, P3, P5是一类， P2, P4, P6是另一类。

3. 更新簇心。

; 3. 再次计算每个点到簇心的距离。

所有样本所属的簇没有改变，所有簇心不变，循环结束，分类完成。

三、代码实现

1. 导入必要的库

import random
import sys
import numpy as np
import matplotlib.pyplot as plt

2. K-Means实现

class KMeans(object):

   def __init__(self, input_data, k):
       # data是一个包含所有样本的numpy数组
       # data示例，每行是一个坐标
       # [[1 2],
       #  [2 3],
       #  [3 4]]
       self.data = input_data
       self.k = k
       # 保存聚类中心的索引和类样本的索引
       self.centers = []
       self.clusters = []
       self.capacity = len(input_data)
       self.__pick_start_point()

   def __pick_start_point(self):
       # 随机确定初始簇心
       self.centers = []
       if self.k < 1 or self.k > self.capacity:
           raise Exception("K值错误")
       indexes = random.sample(np.arange(0, self.capacity, step=1).tolist(), self.k)
       for index in indexes:
           self.centers.append(self.data[index])

   def __distance(self, i, center):
       diff = self.data[i] - center
       return np.sum(np.power(diff, 2))**0.5

   def __calCenter(self, cluster):
       # 计算该簇的中心
       cluster = np.array(cluster)
       if cluster.shape[0] == 0:
           return False
       return (cluster.T @ np.ones(cluster.shape[0])) / cluster.shape[0]

   def cluster(self):
       changed = True
       while changed:
           self.clusters = []
           for i in range(self.k):
               self.clusters.append([])
           for i in range(self.capacity):
               min_distance = sys.maxsize
               center = -1
               # 寻找簇
               for j in range(self.k):
                   distance = self.__distance(i, self.centers[j])
                   if min_distance > distance:
                       min_distance = distance
                       center = j
               # 加入簇
               self.clusters[center].append(self.data[i])
           newCenters = []
           for cluster in self.clusters:
               newCenters.append(self.__calCenter(cluster).tolist())
           if (np.array(newCenters) == self.centers).all():
               changed = False
           else:
               self.centers = np.array(newCenters)

3. 绘制分类图（二维情况下）

def plotKmeans(cluster):
   xdata = []
   ydata = []
   for Cluster in cluster.clusters:
       xsubdata = []
       ysubdata = []
       for point in Cluster:
           xsubdata.append(point[0])
           ysubdata.append(point[1])
       xdata.append(xsubdata)
       ydata.append(ysubdata)

   colors = ['r', 'g', 'b', 'c', 'm', 'y', 'k']
   for i in range(len(xdata)):
       for j in range(len(xdata[i])):
           x = np.array([xdata[i][j], cluster.centers[i][0]])
           y = np.array([ydata[i][j], cluster.centers[i][1]])
           plt.plot(x, y,
                    color=colors[i],  # 全部点设置为红色
                    marker='o',  # 点的形状为圆点
                    ms=7,
                    linestyle='-')
       plt.plot([cluster.centers[i][0]], [cluster.centers[i][1]],
                color=colors[i],  # 全部点设置为红色
                marker='*', ms=20,  # 点的形状为圆点
                linestyle='-')
       plt.scatter(cluster.centers[i][0], cluster.centers[i][1], s=350, c='none',
                   alpha=0.7, linewidth=1.5, edgecolor=colors[i])
   plt.grid(True)
   plt.title("K-means")
   plt.show()

4. 运行代码

from KMeans import KMeans, plotKmeans
import random
import numpy as np

if __name__ == '__main__':
   points = []
   data = []
   i = 0
   while i < 20:
       point = [random.randint(1, 10), random.randint(1, 10)]
       # 去掉重复点，否则会导致错误
       if point not in points:
           points.append(point)
           data.append(np.array(point, dtype='float64'))
           i += 1
   cluster = KMeans(data, 3)
   cluster.cluster()
   plotKmeans(cluster)

四、测试结果

Original: https://blog.csdn.net/weixin_45181983/article/details/125542145
Author: 月涂红叶
Title: K-Means(K均值聚类)原理及代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614677/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2）））

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2））） 13 人工神经网络（2） * 13.1 小批量梯度下降法 – 1…

人工智能 2023年5月26日
00102
连续多帧图像光流对齐和光流运动检测

光流运动检测 本方案适用于&#x624B…

人工智能 2023年7月19日
0057
显卡驱动，cuda, cudnn，tensorflow，pytorch以及python之间对应版本关系详细汇总

一、显卡驱动与cuda版本对应关系官网：Release Notes :: CUDA Toolkit Documentation (nvidia.com) 驱动下载地址：Offic…

人工智能 2023年5月23日
0072
Meetup回顾｜星策社区FeatureStore Meetup V2

继2021年12月11日举办第一次Feature Store Meetup之后，星策开源社区于2022年4月10日举办了第二期「FeatureStore Meetup V2 」，本…

人工智能 2023年5月28日
0085
pytorch环境配置

本文根据B站up–>我是土堆的pytorch安装视频编写，针对视频中的一些下载问题进行解决，若您是一位地地道道的小白，请严格按照本文的每一步进行。 1.Anaco…

人工智能 2023年7月24日
0061
目标检测学习笔记——mmdet的mmcv安装

目录一、windows下安装mmcv * 1、环境准备 – 安装git 安装visual studio community 2019 安装conda 安装对应版本的c…

人工智能 2023年7月26日
00179
PASCAL_VOC_2012介绍以及制作自己的数据集

文章目录 PASCAL_VOC_2012 * 简介文件结构 – Annotations train.txt和val.txt trainval.txt boat_tra…

人工智能 2023年5月28日
0053
985大学新增专业，考数据结构+自然语言处理！中央民族大学新增语言信息安全…

中央民族大学是一所985大学，位于北京市。虽然是一所985，但是计算机学科评估C-，软件工程学科评估没有，计算机实力在985中非常弱，即使放到211大学中也不强。前段时间，这样一…

人工智能 2023年5月27日
0081
【机器学习】谱聚类（Spectral Clustering）

疑问谱聚类的概念谱聚类是一种针对图结构的聚类方法，将每个点都看作是一个图结构上的点，所以，判断两个点是否属于同一类的依据就是，两个点在图结构上是否有边相连，可以是直接相连也可…

人工智能 2023年6月16日
0069
浅谈二分栈优化决策单调性 DP 的写法及细节

宏观使用双端队列维护三元组 ( l , r , x ) (l,r,x)(l ,r ,x )，表示 [ l , r ] [l,r][l ,r ] 的决策点为 x x x。中观当…

人工智能 2023年6月1日
0097
python+flask+gunicorn(gevent模式)+supervisor搭建图像识别服务

本篇文章是对之前一篇文章的续写，识别部分的代码python使用Flask框架搭建图像识别服务，这里就不重复CV了引入了gunicorn协程工作模式和supervisor来做并发和服…

人工智能 2023年6月22日
0061
（生物信息学）R语言与统计学入门（四）——Fisher检验

上次提到卡方检验：（生物信息学）R语言与统计学入门（三）——卡方检验_李京弦的博客-CSDN博客卡方检验是用途很广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或…

人工智能 2023年7月17日
0071
RuntimeError：CuDNN error：CUDNN_STATUS_EXECUTION_FAILED

问题：RuntimeError：CuDNN error：CUDNN_STATUS_EXECUTION_FAILED 解决：我的问题和下面的情况8类似（说是3090显卡仅支持cuda…

人工智能 2023年6月17日
0080
NanoDet代码逐行精读与修改（三）辅助训练模块AGM

Original: https://blog.csdn.net/NeoZng/article/details/123309013Author: HNU跃鹿战队Title: Nano…

人工智能 2023年7月12日
0082
FPGA学习–RGB-LCD屏彩条显示实验

FPGA学习–RGB-LCD屏彩条显示实验 * – + RGB-LCD屏原理 + 程序设计参考正点原子视频 RGB-LCD屏原理 LCD 是一种液晶显示屏…

人工智能 2023年6月20日
00111
【NLP】【报错】- Running setup.py install for gensim …error

文章目录 1.简述 2.错误信息 3.错误分析 4.解决方案 5.解决步骤 6.参考资料 1.简述 ⭐️ 今天重装了系统，需要重新安装一些依赖包，在装gensim的时候遇到了这个报…

人工智能 2023年5月31日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31