聚类的方法、原理以及一般过程

2023年6月15日下午2:13 • 人工智能 • 阅读 88

1.聚类的定义

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得 同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

聚类和分类的区别

聚类(Clustering)：是指把相似的数据划分到一起，具体划分的时候并不关心这一类的标签，目标就是把相似的数据聚合到一起，聚类是一种 无监督学习(Unsupervised Learning)方法。
分类(Classification)：是把不同的数据划分开，其过程是通过训练数据集获得一个分类器，再通过分类器去预测未知数据，分类是一种 监督学习(Supervised Learning)方法。

2.聚类的方法以及原理

数据聚类方法

数据聚类方法主要可以分为 划分式聚类方法(Partition-based Methods)、 基于密度的聚类方法(Density-based methods)、 层次化聚类方法(Hierarchical Methods)等

划分式聚类方法

划分式聚类方法需要事先指定簇类的数目或者聚类中心，通过反复迭代，直至最后达到”簇内的点足够近，簇间的点足够远”的目标。经典的划分式聚类方法有 k-means及其变体 k-means++、 bi-kmeans、 kernel k-means等。

经典 k-means 源代码，下左图是原始数据集，通过观察发现大致可以分为4类，所以取k=4，测试数据效果如下右图所示。

基于密度的方法

k-means算法对于凸性数据具有良好的效果，能够根据距离来讲数据分为球状类的簇，但对于非凸形状的数据点，就无能为力了，当 k-means算法在环形数据的聚类时，我们看看会发生什么情况。

层次化聚类方法

前面介绍的几种算法确实可以在较小的复杂度内获取较好的结果，但是这几种算法却存在一个 链式效应的现象，比如：A与B相似，B与C相似，那么在聚类的时候便会将A、B、C聚合到一起，但是如果A与C不相似，就会造成聚类误差，严重的时候这个误差可以一直传递下去。为了降低 链式效应，这时候层次聚类就该发挥作用了。

层次聚类算法 (hierarchical clustering) 将数据集划分为一层一层的 clusters，后面一层生成的 clusters 基于前面一层的结果。层次聚类算法一般分为两类：

Agglomerative 层次聚类：又称自底向上（bottom-up）的层次聚类，每一个对象最开始都是一个 cluster，每次按一定的准则将最相近的两个 cluster 合并生成一个新的 cluster，如此往复，直至最终所有的对象都属于一个 cluster。这里主要关注此类算法。
Divisive 层次聚类：又称自顶向下（top-down）的层次聚类，最开始所有的对象均属于一个 cluster，每次按一定的准则将某个 cluster 划分为多个 cluster，如此往复，直至每个对象均是一个 cluster。

3.聚类的一般过程

数据准备：特征标准化和降维
特征选择：从最初的特征中选择最有效的特征，并将其存储在向量中
特征提取：通过对选择的特征进行转换形成新的突出特征
聚类：基于某种距离函数进行相似度度量，获取簇
聚类结果评估：分析聚类结果，如 距离误差和(SSE)等

聚类方法比较：

参考文档：

Original: https://blog.csdn.net/pearl8899/article/details/126457302
Author: 凝眸伏笔
Title: 聚类的方法、原理以及一般过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614931/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大疆M2006电机测试文档

一、项目 MilkTeaBrother是使用麦克纳姆移动方式的室内服务小车，动力系统为RoboMaster M2006，文中提到的相关文件可以在下方获取。点击此处了解MilkTea…

人工智能 2023年6月10日
00102
Spring Boot+Vue3前后端分离实战wiki知识库系统之电子书管理功能开发

; 增加电子书管理界面增加电子书界面在views下新建一个admin包，表示只有管理员才能访问，创建admin-ebook.vue: 在index.ts中增加路由，先导入vue…

人工智能 2023年6月26日
0082
推荐五个单变量时间序列数据集

前言今天这篇文章推荐几个可以用来测试自己做的模型时间序列数据集。一般来说时间序列数值可以这么表达时间序列的数据 = 基准数值+趋势+季节性+噪声数据集主要分为两种单变量…

人工智能 2023年7月16日
0095
模拟量分布式IO模块BL200Pro逻辑运算

模拟量分布式IO模块BL200Pro组合逻辑说明传送带没有运行，电机的温度超过 50 度，风扇开启，触发报警器 DO4 寄存器REG1003。步骤说明：（ 1 ）在组合逻辑项，…

人工智能 2023年6月27日
0080
win10/11下wsl2安装gpu版的pytorch（避坑指南）

不想折腾的不要弄了，老老实实用windows，现在WSL坑还很多。想安装的一定要看官方文档！！在文末本教程只说明在安装了 WSL2 后，并且默认系统是 win11 下安装中的一…

人工智能 2023年7月22日
00114
QCC304x系列开发教程（实战篇) 之 9.13-QCC3040之语音助手调用

查看全部教程开发请点击：高通蓝牙耳机QCC304x开发详解汇总（持续更新中） 1、什么是语音助手？这里的语音助手主要指的是手机自带的语音助手功能（例如hi siri,或者小爱同学…

人工智能 2023年5月25日
0083
YOLOv5基础知识点——目标检测基本思想

You Only Look Once YOLO 将特征图划分为S×S的格子（grid cells），每个格子负责对落入其中的目标进行检测，一次性预测所有各自所含目标的边界框、定位置…

人工智能 2023年7月11日
0045
图像处理—-形态学滤波

消除噪声分割出独立的图像元素，在图像中连接相邻的元素寻找图像中明显的极大值或极小值区域求出图像的梯度 dilate(输入图像，目标图像，膨胀的核，锚的位置，迭代使用的次数，边…

人工智能 2023年6月20日
0065
【pandas】将Pandas DataFrame转换为字典常用的几个方法

1. df.to_dict(‘dict’) dict – 默认值：列名是键，值是索引的字典：数据对 2. df.to_dict(‘l…

人工智能 2023年7月6日
0051
长短句语义相似问题探索【转载以学习、回忆】

最近看句向量的东西比较多，很自然的就想到了句子相似度的问题，总觉得自己以前看过句子相似度匹配的问题，但是记不太清了，找来找去原来是叉烧大佬的这篇。来源公众号：CS的陋室链接：…

人工智能 2023年6月4日
00100
机器学习——K-means（聚类）与人脸识别

忆如完整项目/代码详见github： https://github.com/yiru1225（转载标明出处勿白嫖 star for projects thanks）目录系列文…

人工智能 2023年5月31日
0085
ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:Anacondaenvstensorflowlibtyping.py)

报错背景：因为安装tensorflow-gpu版本需要，我把原来的新建的anaconda环境（我的名为tensorflow）中的python3.8降为了3.7。在导入seabo…

人工智能 2023年5月23日
0083
[附源码]java毕业设计创意众筹网站

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月27日
0084
【Pytorch】torch.nn.init.xavier_uniform_()

目录简介 torch.nn.init.xavier_uniform_() * 语法作用举例参考结语 ; 简介 Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，…

人工智能 2023年7月21日
0049
python 日历热力图_Python如何绘制日历图和热力图

本文以2019年全国各城市的空气质量观测数据为例，利用matplotlib、calmap、pyecharts绘制日历图和热力图。在绘图之前先利用pandas对空气质量数据进行处理。…

人工智能 2023年7月9日
0056
多视图子空间聚类（完备感知相似性）2019

paper:Multi-view subspace clustering with intactness-aware similarity(Xiaobo Wang a , Zhen…

人工智能 2023年6月2日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31