数据挖掘实验（七）Matlab实现聚类算法【clusterdata / kmeans】

2023年6月2日下午12:37 • 人工智能 • 阅读 117

本文代码均已在 MATLAB R2019b 测试通过，如有错误，欢迎指正。

另外，这次实验都是调用Matlab现成的函数，没什么技术含量。

（一）聚类分析的原理

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:1cda832b-6439-49b0-9039-e0f04835995c

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:873d0a11-04fd-47ae-a637-bcb8afa118f9

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:ccdb3da4-bf99-47a0-820e-ac2359cbcc00

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:49b508d4-cbbc-459c-8423-840b81221a08

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:207df8d7-abbe-4de1-ba68-7be27b6ad819

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:456605a9-4482-4643-b3d2-953d4483417a

（二）matlab中聚类的实现算法

方法一：直接聚类，利用clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法，该方法的使用者无需了解聚类的原理和过程，但是聚类效果受限制。

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:46dda106-05f7-4fa1-8690-31d99090ccdc

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:250ad7a6-39d1-460f-9b14-aad3c4ef6cb8

（1）计算数据集合中样本两两之间的相似性，用pdist函数计算样本之间的距离；
（2）用linkage函数定义类间距离；
（3）用cluster函数创建聚类。

方法三：划分聚类，包括K均值聚类和K中心聚类，同样需要系列步骤完成该过程，要求使用者对聚类原理和过程有较清晰的认识。
K-means聚类算法采用的是将N*P的矩阵X划分为K个类，使得所有类内对象与该类中心点之间的距离和最小。
Matlab自带函数：Y=kmeans(X, K)。

（三）利用matlab实现聚类算法

问题描述：
参考表中16*13列的矩阵，利用matlab中提供的几种方法实现聚类的过程。

代码：

clear; clc;

data=[
26  27  25061   23416   2241    1915    50.25   31.15   14.96   4.63    12.43   6.39    8.86
20  22  20473   19887   1918    1765    80.47   23.34   13.24   6.26    11.89   6.66    7.06
28  42  27264   29153   2378    1914    99.69   42.14   19.94   8.36    15.46   6.84    6.96
26  37  25436   26064   2703    2110    112.76  45.37   24.13   7.55    17.84   9.26    7.38
27  26  22083   19968   1881    1589    85.83   32.21   13.21   5.68    14.58   6.62    6.87
22  28  14091   12885   1365    1676    56.17   19.85   12.2    3.98    14.09   9.46    7.48
20  40  15167   23245   1313    1901    142.15  36.43   16.72   4.65    24.02   7.19    5.3
13  32  13099   24426   1269    1837    110.61  17.86   18.49   4.31    13.64   7.57    4.51
16  39  18774   26091   1253    1642    131.8   23.7    19.04   7.5     12.62   7.3     5.39
21  39  14955   27698   1223    1581    145.98  28.1    20.26   8.72    18.79   7.32    5.7
48  121 45156   58538   3917    3666    381.97  48.79   37.78   9.37    10.8    6.45    3.65
48  126 44532   29648   4103    2606    300.64  38.44   21.95   3.96    8.63    7.4     3.24
83  89  60484   69479   5585    5309    475.66  90.58   50.65   17.37   14.97   7.29    7.69
30  59  20921   22865   2269    1757    146.52  20.16   16.02   2.15    9.64    7.01    2.98
51  98  36912   50143   2691    2775    322.98  36.85   30.49   8.44    9.98    6.08    3.12
65  128 52563   40990   4454    3099    353.36  59.7    33.39   1.92    11.36   8.15    0.77
];

X=mapminmax(data',0,1)'; % 按列最小最大规范化到[0,1]

%% (1)直接聚类
T1=clusterdata(X,0.2); % 如果0<cutoff<2，则当不一致系数大于cutoff时，分到不同类(簇)中
T2=clusterdata(X,3); % 如果cutoff是一个≥2的整数，则形成的不同类别数为cutoff

%% (2)逐步聚类
Y=pdist(X); % 计算矩阵X中样本两两之间的距离，但得到的Y是个行向量
D=squareform(Y); % 将行向量的Y转换成方阵，方便观察两点距离(方阵的对角线元素都是0)
Z=linkage(Y); % 产生层次聚类树，默认采用最近距离作为类间距离的计算公式
dendrogram(Z); % 图示层次聚类树
T3=cluster(Z,4); % 在层次聚类树的基础上生成指定数目的类，cluster(Z,4)表示生成4类

%% (3)用k均值方法聚类
T4=kmeans(X,5); % 直接调用kmeans函数，kmeans(X,5)表示生成5类

最小最大规范化结果：

数据挖掘实验（七）Matlab实现聚类算法【clusterdata / kmeans】

T1、T2、T3、T4变量的取值：

T3的层次聚类树：

Original: https://blog.csdn.net/ljw_study_in_CSDN/article/details/109998077
Author: nefu-ljw
Title: 数据挖掘实验（七）Matlab实现聚类算法【clusterdata / kmeans】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560934/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【沐神课程 – 动手学深度学习】实战二详解之 Kaggle比赛：分类树叶

本部分主要用于记录自己做第二次作业的一些感受，主要是也第一次Dataloader 也算是一次学习了首先遇到的问题： Resnet18 其实看kaggle讨论和代码区挺多人上了r…

人工智能 2023年7月1日
00135
异常检测数据集收集与介绍分析

在计算机视觉的大研究领域内，有一个小方向叫做异常检测（Anomaly Detection），也叫做新颖性检测。在该方向下有以下的数据集作为大家所提出的新的研究方法的检测精度的测试。…

人工智能 2023年6月16日
00208
pandas基础

目录文件读取：数据结构： seriers： dataframe: 常用基本函数：汇总函数：唯一值函数：排序函数: 文件读取： pandas可以简单的读取csv，excel…

人工智能 2023年7月8日
0055
python机器人编程——差速机器人小车的控制，控制模型、轨迹跟踪，轨迹规划、自动泊车（上）

目录一、前言二、差速小车机器人的运动分析三、正向运动控制模型推导 * 3.1问题描述 3.2符号定义 3.3算式推导 – Step1 寻找数量关系，求出圆周半径，…

人工智能 2023年6月26日
00104
MMAction2-视频理解、行为识别（学习笔记-附代码实操）

一、MMAction2——视频理解与行为识别 * 视频理解的重点 – 重点2：如何高效的处理视频数据？视频的数据量远大于图像，一秒钟的视频就包含20~30张图像，对计…

人工智能 2023年7月21日
00110
【干货】认知智能时代：知识图谱实践案例集.pdf（附下载链接）

大家好，我是文文（微信号：sscbg2020），今天给大家分享中国电子技术标准化研究院于2021年1月份发布的干货报告《认知智能时代：知识图谱实践案例集.pdf》，关注知识图谱及人…

人工智能 2023年6月1日
0098
训练集、验证集以及测试集的区别

1、数据集的划分：训练集：含有参考答案的数据，用来训练模型的已标注数据，用来建立模型，发现规律验证集：模型训练过程中单独留出的样本集，用于调整模型的超参数和用于对模型的能力进行初…

人工智能 2023年6月16日
00132
AlphaFold2算法详解

正文：https://www.nature.com/articles/s41586-021-03819-2 【公开课】基于AI预测蛋白质折叠的三维空间结构——AlphaFold2原…

人工智能 2023年7月12日
0090
java线程基础

最近，想弄一个雪花飘落，结果，搞了两三个小时没弄出来。主要是雪花飘落可能需要用到线程。有人是通过一个雪花去实现，然后通过集合去实现漫天雪花。不管怎么说，做开发，可能线程学习也是一块…

人工智能 2023年6月30日
0078
YOLOv5Face YOLO5Face人脸检测论文及代码简析

YOLO5face人脸检测模型论文和代码简析 YOLO5Face模型分析 * 论文及源码下载论文创新点实验结果下载代码跑起来调整数据集训练完成之后检验结果一点点代码简析…

人工智能 2023年7月21日
00106
windows10+anaconda 搭建bert环境

准备条件：1、默认安装了anaconda3（建议） 2、python3.7 一、安装tensorflow-gpu conda search tensorflow-gpu #查看可以…

人工智能 2023年5月26日
0074
多智能体强化学习之MAPPO理论解读

本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent …

人工智能 2023年7月4日
0064
ei eo eq什么意思_科普贴：SCI、EI、CPCI到底是个啥？

导语虽然我们平时都会提到论文，但部分小伙伴对论文的基础知识还不是很了解，所以今天小编就给大家科普一下。 EI、CPCI、SCI这些字母组合到底是个啥？这些可以说是学术圈最著名的…

人工智能 2023年6月10日
00103
pytorch-TensorFlow-tensorboard工具如何启动？相对路径和绝对路径的命令行启动；如何改变启动端口？

一、背景数据记录在以下路径中。 [En] The data is recorded in the following path. pytorchlearning是项目当前路径，也…

人工智能 2023年5月24日
0074
知识图谱概念与知识图谱构建流程(KGC)总览

文章目录 * – 关于知识图谱 – + 知识图谱的概念 + 知识图谱与异质网络 + 知识图谱与知识库 + 知识图谱构建研究背景 – 知识图谱构建…

人工智能 2023年6月10日
0093
python数据分析-concat合并表，报错InvalidIndexError: Reindexing only valid with uniquely valued Index objects

问题：在用concat函数给DataFrame做合并的时候抛出错误：InvalidIndexError: Reindexing only valid with uniquely v…

人工智能 2023年7月7日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据挖掘实验（七）Matlab实现聚类算法【clusterdata / kmeans】

（一）聚类分析的原理

（二）matlab中聚类的实现算法

（三）利用matlab实现聚类算法

大家都在看