K均值聚类

2023年5月31日上午6:34 • 人工智能 • 阅读 93

K-均值聚类算法

1. 什么是K均值聚类算法

K均值聚类（k-means）是基于样本集合划分的聚类算法。K均值聚类将样本集合划分为k个子集，构成k个类，将n个样本分到k个类中，每个样本到其所属类的中心距离最小，每个样本仅属于一个类，这就是k均值聚类，同时根据一个样本仅属于一个类，也表示了k均值聚类是一种硬聚类算法。

2：K均值聚类算法的过程

2.1 k均值聚类的算法过程

输入：n个样本的集合

输出：样本集合的聚类

过程：

（1）初始化。随机选择k的样本作为初始聚类的中心。

（2）对样本进行聚类。针对初始化时选择的聚类中心，计算所有样本到每个中心的距离，默认欧式距离，将每个样本聚集到与其最近的中心的类中，构成聚类结果。

（3）计算聚类后的类中心，计算每个类的质心，即每个类中样本的均值，作为新的类中心。

（4）然后重新执行步骤（2）（3），直到聚类结果不再发生改变。

K均值聚类算法的时间复杂度是O(nmk),n表示样本个数，m表示样本维数，k表示类别个数。

; 3：K均值聚类算法的习题

3.1 例题

五个样本的集合，使用K均值聚类算法，将五个样本聚于两类，五个样本分别是（0，2）（0，0）（1，0）（5，0）（5，2）。

; 3.2 初始化

初始化。随机选择2个样本作为初始聚类的中心。

3.3 聚类

对样本进行聚类。计算每个样本距离每个中心的距离，将每个样本聚集到与其最近的中心的类中，构成两类。

相同的方法对剩余两个点进行聚类，结果如下：

; 3.4 寻找新的类中心

计算新的类中心。对新的类计算样本的均值，作为新的类中心。

3.5 再次聚类

对样本进行聚类。计算每个样本距离每个中心的距离，将每个样本聚集到与其最近的中心的类中，构成新的类。

使用相同的方法对其余四个点进行聚类，结果如下：

; 3.6 结果

第二次聚类结果与第一次聚类结果相同，则聚类停止。得到最终的结果。

3.7 例题

选择不同的初始中心，会得到不同的聚类结果。

4：K均值聚类算法的实现

4.1 K均值聚类算法

导入聚类库：

from sklearn.cluster import KMeans

聚类语法：

class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='deprecated', verbose=0, random_state=None, copy_x=True, n_jobs='deprecated', algorithm='auto')

参数解释：

n_clusters:簇的个数，即你想聚成几类
init: 初始簇中心的获取方法
n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始10次质心，实现算法，然后返回最好的结果。
max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）
tol: 容忍度，即kmeans运行准则收敛的条件
precompute_distances：是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的
verbose: 冗长模式
random_state: 随机生成簇中心的状态条件。
copy_x: 对是否修改数据的一个标记，如果True，即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。
n_jobs: 并行设置
algorithm: kmeans的实现算法，有：’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式实现

属性：

cluster_centers_：聚类中心点
labels_：每个样本所属的聚类标签
inertia_：样本到其最近的聚类中心的平方距离的总和
n_iter_：运行的迭代次数

方法：

fit(X[,y])：训练样本
fit_predict(X[,y])：计算聚类中心并预测每个样本的聚类索引
fit_transform(X[,y])：计算聚类并将X转换为聚类距离空间
predict(X):预测X中每个样本所属的最近簇。

4.2 对鸢尾花数据进行聚类


import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

iris=load_iris()
X = iris.data[:, 2:4]
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

plt.scatter(X[:, 0], X[:, 1], c = "red", marker='o', label='iris')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()
estimator = KMeans(n_clusters=3)
estimator.fit(X_train)
label_pred = estimator.labels_
print(estimator.cluster_centers_)

x0 = X_train[label_pred == 0]
x1 = X_train[label_pred == 1]
x2 = X_train[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()
print(estimator.predict(X_test))

predict_0=X_test[estimator.predict(X_test) == 0]
predict_1=X_test[estimator.predict(X_test) == 1]
predict_2=X_test[estimator.predict(X_test) == 2]
plt.scatter(predict_0[:, 0], predict_0[:, 1], c = "tomato", marker='o', label='predict0')
plt.scatter(predict_1[:, 0], predict_1[:, 1], c = "skyblue", marker='*', label='predict1')
plt.scatter(predict_2[:, 0], predict_2[:, 1], c = "greenyellow", marker='+', label='predict2')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

Original: https://blog.csdn.net/weixin_41418263/article/details/113313507
Author: Chloe-Hao
Title: K均值聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549442/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

狗都能看懂的Pytorch MAML代码详解

目录 * – maml概念 – 数据读取 – + get_file_list + get_one_task_data – 模型训练 …

人工智能 2023年6月16日
00119
深度学习（五）-CNN

计算机视觉分类图像分类，用于识别图像中物体的类别(如: bottle、cup. cube) 。(b) object Localization:目标检测，用于检测图像中每个物体的类…

人工智能 2023年7月12日
0061
前端权限管理方案之精确到按钮级别

在过去的几年里， TypeScript 语言除了增长用户之外几乎什么都没做。它已被许多 Web 开发人员评为最喜欢的语言。使用纯 JavaScript 代码的前端工作变得越来越少。…

人工智能 2023年6月26日
0089
Opencv中的cv2.calcHist()函数的作用及返回值

在讨论其返回值前，我们先来介绍以下calcHist()函数的用法： cv2.calcHist()函数 cv2.calcHist()函数的作用：通过直方图可以很好的对整幅图像的灰度分…

人工智能 2023年6月18日
0062
深度学习系列资料总结

👨‍💻 作者简介： CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨ 公众号：GoAI的学习小屋，免费分享书籍、简历、…

人工智能 2023年6月24日
0077
SpringBoot使用配置中心Apollo启动很慢两分钟解决

背景 SpringBoot引用Apollo（阿波罗）分布式配置管理中心后，Docker中服务启动速度变慢，刚开始启动只需要20s，加入配置后启动需要两分钟。每次部署服务都需要多浪费…

人工智能 2023年6月26日
0075
GTX 3090安装python，torch环境的版本

人工智能 2023年5月26日
0088
pandas计算含缺失值中列平均值_详解Python数据分析–Pandas知识点

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘重复值的处理利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余…

人工智能 2023年7月6日
0049
cuda11.2安装pytorch——torch.cuda.is_available()=false

这两天正在用服务器跑程序，但是发现运行速度极慢，查看正在运行的进程，也没看到自己的进程，但是程序又确确实实在运行，这就奇了怪了，一通查找，发现程序竟然是在CPU上运行，也就是 to…

人工智能 2023年7月21日
0044
机器学习强基计划0-2：什么是机器学习？和AI有什么关系？

目录 0 写在前面 1 什么是机器学习？ * 1.1 定义 1.2 编程逻辑 2 机器学习与AI的关系 * 2.1 人工智能三大学派 2.2 机器学习在AI中 3 机器学习能干什么…

人工智能 2023年6月23日
0079
我玩了玩chatGPT，她确实NB！

大家好，我是北妈。 0. 如果这几天你不知道一个叫chatGPT的东西，那说明你网感真不太好了，或者说你过的很幸福，完全不需要关注网络世界的新动向。因为毫不夸张地说，北妈个人未来…

人工智能 2023年7月31日
0054
ML之FE：RFM指标(衡量客户价值和客户创利能力的指标)/RFM模型的简介、意义、应用之详细攻略

ML之FE：RFM指标(衡量客户价值和客户创利能力的指标，距离最近一次购买时间/购买次数/购买金额)/RFM模型的简介、使用方法、应用实现之详细攻略目录 RFM指标的简介 1、R…

人工智能 2023年7月16日
0099
springcloud3 EurekaClient集群的搭建2

一概述 1.1 概述本文主要是搭建集成eurekaserver的几个客户端，即服务提供者，消费者。架构图如下所示 1.2 使用eureka整合的优点使用Eureka管理注册的…

人工智能 2023年7月29日
0049
基于python的图像识别

基于python的图像识别图像识别364 图像识别391 这里图像识别，涉及到python3.9.1和python3.6.4。之所以着重提及python版本，是因为代码使用了te…

人工智能 2023年5月23日
0070
OpenCV图像处理入门

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年6月18日
0062
Python类中的继承——super（包含super(子类, self).__init__()以及其他父类的方法）

引言 Python中对象方法的定义很怪异，第一个参数一般都命名为 self（相当于其它语言的 this），用于传递对象本身，而在调用的时候则不必显式传递，系统会自动传递。今天我们…

人工智能 2023年7月3日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31