K-means聚类分析

2023年5月31日上午10:12 • 人工智能 • 阅读 74

1.K-means的原理

1.1聚类分析的基本思想

先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：

（1) 没有（或最小数目）对象被重新分配给不同的聚类。

（2)没有（或最小数目）聚类中心再发生变化。

（3)误差平方和局部最小。

1.2聚类分析的目的

聚类分析目的在于将相似的事物归类，同一类中的个体有较大的相似性，不同类的个体差异性很大。

2.聚类实现

2011年全国31省，直辖市，自治区等的衣食住行。进行聚类分析。

R语言代码：

#均值聚类
library("factoextra")
library("ggplot2")

data

运行结果：

从图中的第一列来看，每个省份都已经完成了分类，分别用1，2，3，4来表示类别。

我们用矩阵的形式来表示分类的情况

#查看分类概括
table(data$No, kc$cluster)

运行结果：

从图中来看，上面的行1，2，3，4表示分为四类，第一列是每个省份，矩阵中为1的情况就是表示聚类的分布，比如被分为

第1类：

甘肃，河南，黑龙江，贵州，河北，河南，吉林，江西，宁夏，青海，陕西，山西，云南，新疆，

第2类：

福建，江苏，天津

第3类：

北京，广东，上海，浙江

第4类：

安徽，广西，海南，湖北，海南，辽宁，内蒙古，山东，四川，重庆，

查看分类数据的大小

kc$size

运行结果：

从图中来看，第一类中有13个，第二类中有3个，第三类中有四个，第四类中有11个。

绘图

#绘图
fviz_cluster(object = kc,data=new_data)

运行结果：

从图中来看，一类跟四类有重叠部分数据，这可能是数据分布的原因。2，3类则没有这种情况。因此将数据提前处理会得到更好的效果。

Original: https://blog.csdn.net/m0_56444893/article/details/121021217
Author: 「已注销」
Title: K-means聚类分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550488/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

高校/中职大数据实验室建设方案

大数据是一个交叉性很强的学科，要求学生在掌握信息科学、数理统计及计算机科学基础之上，培养学生熟练掌握数据采集、数据存储、数据处理、数据分析、数据挖掘、数据可视化等相关理论知识及专业…

人工智能 2023年7月17日
0048
Transformer常见问题与回答总结

Q&A Transformer为何使用多头注意力机制？（为什么不使用一个头）多头保证了transformer可以注意到不同子空间的信息，捕捉到更加丰富的特征信息。可以类比…

人工智能 2023年5月27日
0098
【数字IC精品文章收录】近500篇文章|学习路线|基础知识|接口|总线|脚本语言|芯片求职|安全|EDA|工具|低功耗设计|Verilog|低功耗|STA|设计|验证|FPGA|架构|AMBA|书籍|

一、项目说明本篇索引旨在收藏CSDN全站中有关数字IC领域高价值文章，在数字芯片领域中，就算将架构，设计，验证，DFT，后端诸多岗位加在一起的数量，都不及软件类一个细分方向的岗…

人工智能 2023年7月31日
0074
ESMap 城市三维地图在车辆管控的应用-智慧城市数字孪生

智慧城市数字孪生简介上篇文章介绍了 ESMap 城市三维地图在气象数据监测中的应用，本文将介绍城市三维地图在城市车辆管控的应用。通过三维可视化的方式对城市进行管理，打造智慧城市…

人工智能 2023年6月4日
00114
踩了无数坑的ROS，Gazebo,px4以及yolo3和opencv环境搭建

硬件平台为戴尔G15，显卡为RTX3060，系统Ubuntu18.04，使用opencv版本为3.4.14并且安装opencv contrib。 1.安装nvidia显卡驱动首先…

人工智能 2023年7月20日
0080
pytorch神经网络训练及测试流程&代码

当你已经设计好了一个神经网络模型MyModel，它可以在 model_my.py中封装成MyNet： class MyModel(nn.Module): def __init__(…

人工智能 2023年6月16日
0078
AI遮天传 ML/DL-感知机

感知机的出现是人工智能发展史一大重要里程碑，其后才诞生了：多层感知机、卷积神经网络等一系列的经典网络模型。在我看来，它虽然是深度学习领域的一大开端，但本身解决的只是线性二分类问题…

人工智能 2023年7月28日
0069
全球名校AI课程库（44）| 慕尼黑工大 · 计算机视觉深度学习进阶课『Advanced Deep Learning for Computer Vision』

🏆 课程学习中心; | 🚧 CV课程合辑 | 🌍 课程主页 | 📺 中英字幕视频 | 🚀 项目代码解析课程介绍 ADL4CV，全称是 Advanced Deep Learning…

人工智能 2023年6月24日
0085
【MySQL进阶】表的增删改查操作(CRUD)+(SQL执行顺序)

1. 新增(复制数据) 2. 查询 – 进阶 * 2.1 聚合查询 2.2 group by 2.3 having 2.4 联合查询 – 2.4.1 内连接…

人工智能 2023年7月30日
0071
[ Spark mllib ] 聚类K-means案例——2021挖掘

文章目录目的与要求数据格式 * 数据读取与清洗聚合K-Means操作数据的再次清洗和拼接数据的输出打印完整代码最终结果目的与要求筛选北京地区（”城市&…

人工智能 2023年5月31日
0083
TextBrewer之文本情感分类代码

文章目录 * – + 题目 + 前言 + TextBrewer + * Main Features * Architecture And Design * FAQ * …

人工智能 2023年5月27日
0082
终于有人把数据挖掘讲明白了

0 1 什么是数据挖掘数据挖掘（Data Mining）应该是一门大家都听说过，但又不太容易说清楚的课程。在数据科学领域，乃至在更大的计算机科学领域，数据挖掘就好比山东蓝翔，大家…

人工智能 2023年6月19日
00104
岭回归模型|机器学习|回归算法

目录 * – 1.岭回归模型 – + 1.1背景 + 1.2损失函数 – 2.相关代码 – + 2.1RidgeRegression…

人工智能 2023年6月17日
00132
多目标柔性车间调度丨NSGA-II:以算例MK01为例

车间调度系列文章： 1、车间调度的编码、解码，调度方案可视化的探讨 2、多目标优化:浅谈pareto寻优和非支配排序遗传算法-NSGAII的非支配排序及拥挤度 3、柔性车间调度问题…

人工智能 2023年6月24日
0085
[Linux]——动静态库的模拟实现和简单使用

文章目录前言一、概念二、生成静态库 * 生成发布三、生成动态库 * 发布四、使用库 * 1. 使用静态库 – 系统头文件路径系统库文件路径使用库文件和头…

人工智能 2023年6月29日
0064
协同过滤算法是如何进行用户间的相似度计算的

问题：协同过滤算法如何进行用户间的相似度计算？详细介绍：协同过滤算法是一种常用的推荐系统算法，其基本思想是通过分析用户的历史行为进行推荐，该算法根据用户之间的相似度来计算推荐的…

人工智能 2024年1月4日
0035

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

K-means聚类分析

1.1聚类分析的基本思想

1.2聚类分析的目的

大家都在看