基于python的k_means算法实现

2023年5月31日上午7:19 • 人工智能 • 阅读 85

小菜鸡的博客

前言
一、K_means是什么？
*
1. 原理
二、编程实现
*
1. 首先引入库
2.读入数据
3.算法实现
4.可视化实现
三、完整代码及展示
总结

前言

本篇文章主要是基于python，编程实现K_means算法的可视化。
编码的数据来源是一些地理坐标，以 txt 格式存储。

一、K_means是什么？

K-Mean算法，即 K 均值算法，是一种常见的聚类算法。算法会将数据集分为 K 个簇，每个簇使用簇内所有样本均值来表示，将该均值称为”质心”。

1. 原理

容易受初始质心的影响；算法简单，容易实现；算法聚类时，容易产生空簇；算法可能收敛到局部最小值。

通过聚类可以实现：发现不同用户群体，从而可以实现精准营销；对文档进行划分；社交网络中，通过圈子，判断哪些人可能互相认识；处理异常数据。

距离计算方式是欧式距离。

1.从样本中选择 K 个点作为初始质心（完全随机）
2.计算每个样本到各个质心的距离，将样本划分到距离最近的质心所对应的簇中
3.计算每个簇内所有样本的均值，并使用该均值更新簇的质心
4.重复步骤 2 与 3 ，直到达到以下条件之一：
质心的位置变化小于指定的阈值
达到最大迭代次数

二、编程实现

通过原理我们可以发现，实现K_means算法的三个关键点在于：
（1）初始的K值选取；
（2）质心变化的限定阈值；
（3）最大迭代次数，确保算法最终能够停止。
当然越好的距离计算公示得到的聚类簇就越完美，一般是使用欧式距离公式
此外由于python提供了数据挖掘类的一些库，编程就很简单了

1. 首先引入库

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

2.读入数据

with open("testSet.txt") as file:
    data = np.loadtxt(file)

这里采用np库将文本类型的数据结构转换成元组

3.算法实现

其实将坐标直接可视化就已经可以确定K的值了，但是一些极端的数据聚类时可能我们人眼分的并不好这里可以采用SSE用于评估算法的聚类效果，同时通过SSE选取落差最大的K值作为聚类的质心。代码奉上：


k = 4
model = KMeans(n_clusters=k, init="random",
               max_iter=200, tol=1e-04)

model = model.fit(data)

是不是觉得很简单，分别设置质心，质心的选取方式（这个其他的选取方式大家可以看这里：python K_means库介绍
然后设置迭代次数以及阈值

4.可视化实现

就是简单的利用matplotlib库而已


plt.figure(2)
colors = ['b', 'g', 'y', 'c', 'pink']
markers = ['v', 's', 'o', '1', '2', '3']
plt.title("K_means")
plt.xlabel('East Longitude', fontsize=10)
plt.ylabel('North Latitude', fontsize=10)
for id, label in enumerate(model.labels_):
    plt.scatter(data[id][0], data[id][1],
                color=colors[label], marker=markers[label],
                s=20)

plt.scatter(
    model.cluster_centers_[:, 0], model.cluster_centers_[:, 1],
    color='red', label="centroids", s=50, marker='v'
)
plt.grid(True)

三、完整代码及展示

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

with open("数据文件名称.txt") as file:
    data = np.loadtxt(file)

plt.figure(1)
plt.title("First")
plt.xlabel('East Longitude', fontsize=10)
plt.ylabel('North Latitude', fontsize=10)

plt.scatter(data[:, 0], data[:, 1], color="red",
            marker='o', s=20)
plt.grid(True)

k = 4
model = KMeans(n_clusters=k, init="random",
               max_iter=200, tol=1e-04)

model = model.fit(data)

plt.figure(2)
colors = ['b', 'g', 'y', 'c', 'pink']
markers = ['v', 's', 'o', '1', '2', '3']
plt.title("K_means")
plt.xlabel('East Longitude', fontsize=10)
plt.ylabel('North Latitude', fontsize=10)
for id, label in enumerate(model.labels_):
    plt.scatter(data[id][0], data[id][1],
                color=colors[label], marker=markers[label],
                s=20)

plt.scatter(
    model.cluster_centers_[:, 0], model.cluster_centers_[:, 1],
    color='red', label="centroids", s=50, marker='v'
)
plt.grid(True)

SSE = []
for k in range(1, 7):
    cn = KMeans(n_clusters=k)
    cn.fit(data)
    SSE.append(cn.inertia_)
plt.figure(3)
X = range(1, 7)
plt.xlabel("K")
plt.ylabel("SSE")
plt.plot(X, SSE, 'o-')
plt.show()

然后展示我运行的一个结果
直接以坐标画点，这里我们就已经可以看出K应该取4.

套用K-means聚类：

SSE展示界面：

最后啰嗦一句，代码中的参数大家可以根据自己的实际情况进行修改，同时这个代码也不够精炼，供大家参考就好。

总结

以上就是今天要讲的内容，本文仅仅就是一个简单的基于python实现的

K-means算法的可视化，没有什么难的地方，就是简单的套用一些python的库。如果大家觉得对自己有一些帮助，还请点个赞哦，本人也是初学者，互帮互助。谢谢！！！！😊😊😊

Original: https://blog.csdn.net/xioacaiji/article/details/122811115
Author: 小菜鸡@
Title: 基于python的k_means算法实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549704/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas 多折线图_pandas 数据可视化之折线图

openpyxl+pandas coding=utf-8 import pandas as pd import time from openpyxl import Workbook…

人工智能 2023年7月8日
0073
FCN网络解析

1 FCN网络介绍 FCN（Fully Convolutional Networks，全卷积网络）用于图像语义分割，它是首个端对端的针对像素级预测的全卷积网络，自从该网络提出后，…

人工智能 2023年5月26日
0093
微信小程序云开发问题篇7_微信小程序调百度语音识别接口问题小记（报错1： invalid audio length 、报错2：json param error 、关于json和row两种方式的请求）

一、需求需求是需要将在微信小程序端点击录制按钮录制的音频文件转为文字，显示在搜索框，然后根据正则进行垃圾种类的查询将查询结果渲染在下面的列表 ; 二、问题描述具体的…

人工智能 2023年5月25日
00115
mysql分组查询

分组查询主要是用来统计的，一般都是按照某一个列进行统计分组统计类型：求平均，求最大，求最小，求和等等分组查询需要结合分组函数一起完成，常用的分组函数： COUNT(参数)：统计…

人工智能 2023年7月15日
0085
吴恩达的机器学习，属实牛逼

吴恩达属实牛逼大家好哇，新同学都叫我张北海，老同学都叫我老胡，其实是一个人，只是我特别喜欢章北海这个《三体》中的人物，张是错别字。最近在coursera上重温了吴恩达升级版的《…

人工智能 2023年6月4日
0077
32_OpenCV中的数据存储 cv::FileStorage

OpenCV提供一种序列话与反序列化的机制，用于将不同数据类型的数据以YAML和XML格式写入磁盘或者从磁盘读取。这种方法可以加载或保存任何OpenCV的数值变量（包括基本数据变量…

人工智能 2023年6月19日
0073
目标检测之DetectoRS

文章目录前言 DetectoRS主要创新部分 * detectors_resnet – detectors_resnet的前向传播 SAC RFP – R…

人工智能 2023年7月9日
0065
NeRF神经辐射场ECCV2020

目录 NeRF前置内容：渲染和观察方向摘要 1.Introduction 2.Related Work * 2.1.Neural 3D shape representations…

人工智能 2023年7月27日
0048
将中文开放知识图谱的owl文件导入到neo4j中，踩坑总结

neo4j安装下载neo4j，配置好环境变量。 https://neo4j.com/artifact.php?name=neo4j-community-3.5.25-window…

人工智能 2023年6月1日
0075
Mac M1 在PyCharm中安装（支持GPU）TensorFlow 方法

参考文章： Macbook M1安装tensorflow-gpu教程_Joemt的博客-CSDN博客_m1安装tensorflowMac M1 在PyCharm中安装（支持GPU）…

人工智能 2023年5月23日
0090
【5】目标检测之YOLO v2

这里写目录标题相较于YOLOv1的改进 * Batch Normalization 批标准化 High Resolution Classifier 高分辨率的分类器 Dimens…

人工智能 2023年7月10日
0051
R语言glm拟合logistic回归模型实战：基于glm构建逻辑回归模型及模型系数统计显著性分析、每个预测因子对响应变量的贡献

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0045
【知识图谱】Linux安装Neo4j图数据库

初探Neo4j 实验基础安装JDK * 上传并解压配置jdk环境变量部署 Neo4j * 下载安装包解压安装修改配置文件 Neo4j 文件目录启动/关闭/重启客户端访…

人工智能 2023年6月1日
0087
2023跨年代码（烟花+雪花）

一眨眼，马上就2023年了，祝大家在新的一年里：身体健康平安，生活充实饱满，事业步步高升，心情阳光灿烂，财运滚滚而来，家庭美满幸福，新年开心快乐! 本文将给大家分享一些跨年代码，基…

人工智能 2023年7月31日
00200
【tensorflow2.x】训练 muzero 玩五子棋 (Gomoku)

【深度强化学习】tensorflow2.x 训练 muzero 玩五子棋 (Gomoku) github代码地址：https://github.com/NickNameHaveBe…

人工智能 2023年5月25日
0074
使用opencv的透视变换裁剪倾斜人脸

需求人脸检测以后，有了检测框，需要将眼睛扶正，并裁剪，然后resize成需要的大小。人脸检测结果如下：其中蓝色是检测框，内部的红色框是我根据长宽扩展的正方形，绿色框是根据眼睛倾斜…

人工智能 2023年7月19日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31