k-means聚类算法对矩阵元素进行分类

2023年7月3日上午4:21 • 人工智能 • 阅读 84

实验目的

使用k-means聚类算法对矩阵元素进行分类

实验内容

编写程序，使用k-means聚类方法对已知数据进行聚类，然后对未知样本进行分类。数据自己进行模拟生成，要求为整数，样本个数至少为 100个，类别作为输入参数。
k-means 算法的基本思想：以空间k个点为中心进行聚类，对靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。最终的k各聚类具有以下特点：各聚类本身尽可能紧凑，而各聚类之间尽可能分开。
假设把样本集分为k个类别，算法描述如下：

适当选择k个类的初始中心。
在k次迭代中，对任意一个样本，求其到k个中心的聚类，将该样本归到距离最近的中心所在的类。
利用均值或其他算法更新该类的中心值。
对于所有的k个聚类中心，如果利用步骤2，3迭代更新后，值保持不变，则迭代结束，否则继续迭代。
该算法的最大优势在于简洁和快速，算法的关键在于预期分类数量的确定以及初始中心和距离公式的选择。

实验源代码


from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans

import matplotlib.pyplot as plt
import numpy as np

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

X_train, X_test, Y_train, Y_test = train_test_split(iris_X, iris_y,
                                                    test_size=0.2)

num = int(input("请输入聚类的个数K:"))
kmeans = KMeans(n_clusters=num, random_state=None).fit(X_train)
print(kmeans.labels_)
print("样本的聚类中心")
print(kmeans.cluster_centers_)
print("测试集分类结果")
print(kmeans.predict(X_test))

reduced_data = PCA(n_components=2).fit_transform(iris_X)
kmeans = KMeans(init="k-means++", n_clusters=num)
kmeans.fit(reduced_data)

h = .02

x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)
plt.figure(1)
plt.clf()
plt.imshow(Z, interpolation="nearest",
           extent=(xx.min(), xx.max(), yy.min(), yy.max()),
           cmap=plt.cm.Paired, aspect="auto", origin="lower")

plt.plot(reduced_data[:, 0], reduced_data[:, 1], 'k.', markersize=2)

centroids = kmeans.cluster_centers_
plt.scatter(centroids[:, 0], centroids[:, 1], marker="x", s=169, linewidths=3,
            color="w", zorder=10)
plt.title("K-means clustering on the digits dataset (PCA-reduced data)\n"
          "Centroids are marked with white cross")
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

结果截图

; 小结

通过调用python的sklearn库中的K均值函数，通过查看其官方文档，了解一些常用的函数和参数设置，通过文档中的参考用例，编写了用sklearn库中自带的数据集Iris，来聚类。但是奇怪的是，并没有发现函数参数中有距离公式的选择，后面查资料，好像是， k-means默认使用欧氏距离,这是算法设计之初的度量基础。原因是算法涉及平均值的计算。其中的n_cluster维聚类的个数，默认为8，init参数为可调用初始化方法，当init=’k-means++’时，模型以智能的方式选择初始化聚类中心加速收敛。后面通过主成分分析方法对数据进行降维，也参考了文档中的例子，将聚类结果图形化展示在2维坐标中。

Original: https://blog.csdn.net/Think_0101/article/details/122633234
Author: Think_0101
Title: k-means聚类算法对矩阵元素进行分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666852/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Halcon教程第一讲读取多张图片

第一种方法ImagePath:=[]ImagePath[0]:=’E:/images1/a000.bmp’ImagePath[1]:=’E:/i…

人工智能 2023年6月22日
0052
【笔记】PyTorch快速入门：基础部分合集

Tensors Tensors贯穿PyTorch始终和多维数组很相似，一个特点是可以硬件加速有很多方式直接给值 data = [[1,2],[3,4]] x_data = t…

人工智能 2023年6月4日
0082
目标检测YOLO系列——YOLO简介

目标检测YOLO系列——YOLO简介 * – 1、为什么会出现YOLO算法 – 2、YOLO算法会逐渐成为目标检测的主流吗 YOLO…

人工智能 2023年7月10日
0040
爆肝5万字❤️Open3D 点云数据处理基础（Python版）

Open3D 点云数据处理基础（Python版）文章目录 * – 1 概述 – 2 安装 – + 2.1 PyCharm 与 Python 安…

人工智能 2023年7月30日
0077
14道Python基础练习题（附答案）

1. 输入一个百分制成绩，要求输出成绩等级A、B、C、D、E，其中 90~100分 为A， 80~89分 为B， 70~79&#…

人工智能 2023年7月4日
00104
使用realsense t265测试svo2.0视觉里程计

毕业三年了，现在是第二份工作，第一份工作已经结束一年半了，这意味着，我有一年半的时间没有搞视觉SLAM相关的东西了，虽然在第二份工作也是做视觉相关的，但是只是用到一些目标识别和跟踪…

人工智能 2023年5月28日
00152
机器学习——K近邻分类算法及python代码实现

《机器学习：公式推导与代码实践》鲁伟著读书笔记。K近邻（K-nearest neighbor，K-NN）算法是一种经典的监督学习的分类方法。K近邻算法是依据新样本与k个与其相邻最近…

人工智能 2023年7月2日
0075
目标检测算法——助力涨点 | YOLOv5改进结合Alpha-IoU

深度学习Tricks，第一时间送达论文题目：《Alpha-IoU: A Family of Power Intersection over Union Losses for Bo…

人工智能 2023年7月9日
0079
机器学习笔记十：基于神经网络算法的数据预测

目录 * – 1.数据导入及y样本集的处理 – 2. 前向传播算法实现（正则化） – 3.后向传播算法 – 4.最小化目标函数（co…

人工智能 2023年7月13日
0060
Linux基础 – 虚拟化介绍（KVM）

‍‍🏡博客主页： Passerby_Wang的博客_CSDN博客-系统运维,云计算,Linux基础领域博主🌐所属专栏：『Linux基础』🌌上期文章： Linux基础 –…

人工智能 2023年6月27日
0065
【数据分析】分类指标、用户价值与预测—抖音电商数据集

该数据集(douyin.csv)主要截取了200000条抖音电商平台上的商品销售情况。本文的分析将先根据数据集的结构选取分析目标，再通过可视化来展示各项分析目标的结果，从而挖掘出影…

人工智能 2023年7月15日
0060
Android自定义View之点赞撒花（三阶贝塞尔曲线应用）

前言本文参考辉哥的贝塞尔曲线 – 花束直播点赞效果，是对 三阶贝塞&#…

人工智能 2023年6月28日
0092
图像处理基础：特征金字塔

预备知识特征金字塔的概念首先，金字塔的模型我想大家都不陌生，如下图：我们不难看出的是他的结构呈现自上而下，横向面积越来越大的特点，若将它分为无限可细分的横向平面，便是特征金字…

人工智能 2023年6月20日
00122
GAN的训练技巧：炼丹师养成计划 ——生成式对抗网络训练、调参和改进

目录一、模式崩溃：生成器产生的结果模式较为单一 * 1.1、改进训练方法 1.2、改进目标函数 1.3、改进网络架构二、训练缓慢：发生了梯度消失三、不收敛：训练不稳定，收敛…

人工智能 2023年7月27日
00141
图像处理中常见的几种插值方法：最近邻插值、双线性插值、双三次插值（附Pytorch测试代码）

插值方法零、前言一、最近邻插值（Nearest Neighbor Interpolation） * 1.相关介绍 2.代码实现二、双线性插值（Bilinear Interpo…

人工智能 2023年7月20日
00106
数据分析Power BI案例：产品与客户销售数据分析

文章目录一、产品与客户销售数据分析 * 1. 新建项目及数据源准备二、数据预处理 * 1. 产品表预处理 2. 员工表预处理 3. 销售表预处理 4. 计算实际业绩 &#821…

人工智能 2023年7月15日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30