【数学建模】-聚类模型学习笔记之Kmeans聚类

2023年6月2日上午8:51 • 人工智能 • 阅读 65

学习来源：清风老师

我们可以更加准确的在每个类中单独使用统计模型进行 估计、分析或预测；也可以探究不同类之间的相关性和主要差异。
分类是已知类别的，聚类未知。

K-means聚类算法

算法流程

指定需要划分的簇[cù]的个数K值（类的个数）
随机地选择K个数据对象作为初始的聚类中心（不一定要是我们的样本点）
计算其余的各个数据对象到这K个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所处在的簇类中
调整新类并且重新计算出新类的中心
循环步骤三和四，看中心是否收敛（不变），如果收敛或达到迭代次数则停止循环
结束

; K-means算法评价

优点：

算法简单、快速。
对处理大数据集，该算法是相对高效率的。

缺点：

要求用户必须事先给出要生成的簇的数目K。
对初值敏感。
对于孤立点数据敏感。

K-means++算法

k-means++算法选择初始聚类中心的基本原则是：初始的聚类中心之间的相互距离要尽可能的远。
只对K-means算法”初始化K个聚类中心” 这一步进行了优化

算法流程

随机选取一个样本作为第一个聚类中心;
计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离）， 这个值越大，表示被选取作为聚类中心的概率较大；最后，用轮盘法（依据概率大小来进行抽选）选出下一个聚类中心；
重复步骤二，直到选出K个聚类中心。选出初始点后，就继续使用标准的K-means算法了。

spss操作

默认K-means++算法

还有K=3,消费分类更明显

; K-means算法一些讨论

聚类的个数K值怎么定？
答：分几类主要取决于个人的经验与感觉，通常的做法是多尝试几个K值，
看分成几类的结果更好解释，更符合分析目的等。
数据的量纲不一致怎么办？
答：如果数据的量纲不一样，那么算距离时就没有意义。例如：如果X1
单位是米，X2单位是吨，用距离公式计算就会出现”米的平方”加上”吨的平方”
再开平方，最后算出的东西没有数学意义，这就有问题了。

Original: https://blog.csdn.net/SUOLONG1/article/details/124519457
Author: 勤奋努力的野指针
Title: 【数学建模】-聚类模型学习笔记之Kmeans聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560337/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

新手如何自学python？

对于初学者来说，视频教程相比于书籍更加直观有效，可以先看视频进行学习，然后再看书进行深刻学习~下面就给你分享下教程以及书籍~ 网站网易公开课 https://open.163.c…

人工智能 2023年7月4日
0088
CUDA11.3以及PyTorch-GPU版本安装

目录 1 前言 2 CUDA&cuDNN * 2.1 查看硬件 2.2 安装 2.3 验证 3 PyTorch * 3.1 安装 3.2 验证 4 总结 1 前言本笔记仅…

人工智能 2023年7月26日
00194
tf的API学习（01）——Keras

tf.keras命名空间的公共API。见一个用一个学一个总结一个 1Functions Input（…）：用于实例化Keras张量。 tf.keras.Input( s…

人工智能 2023年5月25日
0072
在Ubuntu服务器上搭建深度学习环境（Ubuntu 18.04+Anaconda3+pytorch+PyCharm）

基于Ubuntu 18.04的深度学习环境搭建（Ubuntu18.04+Anaconda3+pytorch+PyCharm）本地下载了mobaXterm作为终端连接工具，连接实验…

人工智能 2023年7月21日
0065
基因集富集分析(GSEA)

GSEA简介首先简单介绍一下GSEA，它是2005年在PNAS上发扬光大的方法，沿用至今，目的是看差异表达的基因在哪些基因集中富集。相比于Over-representation只…

人工智能 2023年6月15日
0077
以下是关于卷积神经网络在AI算法方面的常见细节问题

详细介绍卷积神经网络（Convolutional Neural Network，CNN）是一种在机器学习和人工智能领域中广泛应用的深度学习算法。它主要用于图像识别、目标检测、自然…

人工智能 2024年1月1日
0035
【实体识别】深入浅出讲解命名实体识别（介绍、常用算法）

命名实体识别的背景命名实体识别（Named Entity Recognition, 简称 NER）（也称为实体识别、实体分块和实体提取）是信息提取的一个子任务，旨在将文本中的命名…

人工智能 2023年7月26日
00146
北京交通大学-图像处理与机器学习

日期项目2022/03/04更新实验环境配置视频P6，第八章后所有内容已同步更新！名称项目课程主页 B站主页课程B站视频人工智能技术探讨群1 人工智能技术探讨群2 人工智能技…

人工智能 2023年5月26日
0071
机器学习KNN（K近邻）算法python代码实现

以下代码来自《机器学习实战》一书代码由多个函数构成，每个函数封装一种功能。classify0()：分类器函数，实现KNN分类功能creatDataSet()：创建数据，用来测试分类…

人工智能 2023年7月28日
0044
对比学习（二）-模型坍塌-infoNCE损失函数

接对比学习（一）对比学习（二） * – L2正则使用原因 – 模型坍塌 – infoNCE损失函数 – 负例难度 L2正则使用原因…

人工智能 2023年6月15日
0085
半监督学习与有监督学习和无监督学习有什么区别

问题概述本文将详细解决一个关于半监督学习、有监督学习和无监督学习的问题。我们将依次介绍半监督学习、有监督学习和无监督学习的定义、算法原理、公式推导、计算步骤和复杂Python代码…

人工智能 2023年12月31日
0053
Pytorch实战[使用VGG16实现图片分类]

实现Pytorch完成类别分类 Object 基本掌握使用pytorch框架进行神经网络训练任务使用Pycharm,Google Colab完成代码编写本次实验只是来熟悉一下训…

人工智能 2023年6月30日
0072
高频问题的PFNN求解，自适应采样初步探索

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0058
(三)Omniglot Dataset介绍

欢迎访问个人网络日志🌹🌹知行空间🌹🌹 Omniglot Dataset介绍 * – 0.用来做什么 – 1.什么时候从哪来 – 2.包含什么内容…

人工智能 2023年5月28日
0064
ORB_SLAM2 源码解析 ORB特征提取（二）

目录一、各成员函数变量 1、定义一个枚举类型用于表示使用HARRIS响应值还是使用FAST响应值 2、内联函数都是用来直接获取类的成员变量的 3、保护成员二、计算特征点的方向 …

人工智能 2023年6月24日
0078
学爬虫的第一天

今天正式开始学爬虫，我看了你们的投票结果，为什么只有一位兄弟进行了投票，但选了个法语！！我只写了几个明显的坑，你可是故意的？我要是写一个火星文，你是不是要选火星文！我虽然可怜，但…

人工智能 2023年7月18日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【数学建模】-聚类模型学习笔记之Kmeans聚类

K-means聚类算法

算法流程

; K-means算法评价

K-means++算法

算法流程

spss操作

; K-means算法一些讨论

大家都在看