分类——K-Means聚类分析

2023年6月30日下午11:59 • 人工智能 • 阅读 77

1、作用

聚类分析是一种基于中心的聚类算法（K 均值聚类），通过迭代，将样本分到 K 个类中，使得每个样本与其所属类的中心或均值的距离之和最小。与分层聚类等按照字段进行聚类的算法不同的是，快速聚类分析是按照样本进行聚类。

2、输入输出描述

输入：1 个或一个以上的定类变量（独热编码非必选）或者定量变量，预先设定类别个数。
输出：根据预先设定的类别个数，划分为其设定的类别。

3、案例示例

根据调研用户的收入、年龄、学历等变量进行聚类，分为高质量人类，精英人士与普通人3个类别。

4、matlab

描述：

输入：X：原始数据矩阵；k：聚类数量

输出：idx：每个点的聚类标号；c：k个聚类质心位置；sumd：类间所有点与该类质心点距离之和；d：每个点与所有质心的距离

5、建模步骤

K-Means 算法是一种无监督学习，同时也是基于划分的聚类算法，一般用欧式距离作为衡量数据对象间相似度的指标，相似度与数据对象间的距离成反比，相似度越大，距离越小。算法需要预先指定初始聚类数目 k 以及 k 个初始聚类中心，根据数据对象与聚类中心之间的相似度，不断更新聚类中心的位置，不断降低类簇的误差平方和（Sum of Squared Error，SSE），当 SSE 不再变化或目标函数收敛时，聚类结束，得到最终结果。
其核心思想是：
首先从数据集中随机选取 k 个初始聚类中心 Ci(1 ≤ i ≤ k) ，计算其余数据对象与聚类中心 Ci 的欧氏距离，找出离目标数据对象最近的聚类中心 Ci ，并将数据对象分配到聚类中心 Ci 所对应的簇中。然后计算每个簇中数据对象的平均值作为新的聚类中心，进行下一次迭代，直到聚类中心不再变化或达到最大的迭代次数停止。
空间中数据对象与聚类中心间的欧式距离计算公式为：

其中，x 为数据对象，Ci 为第 i 个聚类中心，m 为数据对象的维度，xj，Cij 为 x 和 Ci 的第 j 个属性值。
整个数据集的误差平方和 SSE 计算公式为：

其中，SSE 的大小表示聚类结果的好坏，k 为簇的个数。

Original: https://blog.csdn.net/weixin_60466670/article/details/125765856
Author: 路Lu727
Title: 分类——K-Means聚类分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662321/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Openpilot EP1：Openpilot开源项目深度解析

目录 0.前言 1.整体介绍 2.系统架构与硬件配置 2.1 系统架构 2.2 硬件配置 3.量产安全规范体系 4.生态体系 5.软件算法分析 5.2 Supercombo模型 5…

人工智能 2023年6月20日
0082
C均值聚类算法 Excel数据分类处理(介绍+Python实现)

模式识别学习，课程实例分享。文章目录第一，实验步骤描述 [TencentCloudSDKException] code:FailedOperation.ServiceIsola…

人工智能 2023年6月2日
0086
Python – python如何连接sql server数据库

一、安装第三方模块首先要下载名为”pymssql”的模块，然后import该模块安装方法：1.第一种方法：按win+r—-> 输入cm…

人工智能 2023年7月5日
0091
基于pytorch-openpose框架的的人体姿态检测

1.在github上下载pytorch-openpose压缩包，网址为：https://github.com/Hzzone/pytorch-openpose 2.解压后所需要cud…

人工智能 2023年6月15日
0096
清除idea JetbrainsAgent插件

问题：用JetbrainsAgent配置助手V3.2.0后，每次启动pycharm都要出现弹窗，现在关掉这个插件。解决方法： 1.直接点击右上角关掉。 2.进入pycharm界面…

人工智能 2023年6月28日
0046
如何利用CloudCompare软件进行点云数据标注

目录一、CloudComparer软件介绍二、如何进行点云数据的人工”打标签” 一、CloudComparer软件介绍 CloudCompare是一个三…

人工智能 2023年6月23日
0088
tensorflow2.2_实现SENet

SENet介绍 SENet 是 ImageNet Challenge 图像识别比赛 2017 年的冠军，是来自 Momenta 公司的团队完成。他们提出了 Squeeze-and-…

人工智能 2023年5月26日
0067
10路智能电动自行车充电桩功能特点优势

1、输入/输出电压：AC220V； 2、最大承载电流：25A 3、单路最大电流：3A 4、待机功率：4W 5、箱体尺寸（mm）：270W450H120D 6、防护等级：IP21/I…

人工智能 2023年5月23日
0046
densenet的网络结构和实现代码总结(torch)

简介 densenet网络是CVPR 2017 (Best Paper Award)，这篇论文是在Stochastic Depth的启发下提出的。densenet和Stochast…

人工智能 2023年6月17日
00135
【语音识别】玩转语音识别 2 知识补充

【语音识别】⚠️玩转语音识别 2⚠️ 知识补充概述 RNN 计算 RNN 存在的问题 LSTM GRU Seq2seq Attention 模型 Teacher Forcing …

人工智能 2023年5月25日
0077
基于神经网络的实战演练（一）-启动，运行与解读TensorFlow

本期主题：启动并运行TensorFlow 参考书籍：【AO-AZ-90-蜥蜴书-中文版-Hands on Machine Learning with Scikit Learn a…

人工智能 2023年5月26日
0098
敏捷.敏捷项目管理第二版.Jim Highsmith

吉姆·海史密斯（Jim HighSmith）是ThoughtWorks的执行顾问。从事IT行业工作的30年间，他先后担任过IT经理人、产品经理、项目经理、咨询顾问和软件开发师。吉…

人工智能 2023年6月26日
0058
pytorch-实现运动鞋品牌识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍦 参考文章：【 365天深度学习训练营-第P5周：运动鞋识别 (yuque.com) 】 *🍖 原作者：K同学啊|接辅导、项…

人工智能 2023年6月27日
0065
机器学习（分类问题中的正确率/召回率/F1指标）

正确率与召回率(Precision & Recall)是广泛应用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。一般来说，正确率就是检索出来的条目有多少是正确…

人工智能 2023年7月2日
0084
【yolov5 web部署】部署过程报错解决记录！

一、pycharm导包的时候提示Unresolved reference问题描述：在导入模块部分的时候出现了错误，写一个外部模块导入的时候居然提示unresolved refere…

人工智能 2023年7月22日
0071
Python 毕设精品实战案例——快速索引目录

信贷业务又称为信贷资产或贷款业务，是商业银行最重要的资产业务，通过放款收回本金和利息，扣除成本后获得利润，所以信贷是商业银行的主要赢利手段。信用风险是金融监管机构重点关注的风险，关…

人工智能 2023年6月19日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31