聚类方法汇总

2023年6月13日上午12:16 • 人工智能 • 阅读 72

聚类(Clustering)：按照某个特定标准(如：距离)把一个数据集分割成不同的类或簇，使得 同一个簇内的数据对象的相似性尽可能大，不在同一个簇中的数据对象的差异性也尽可能地大；聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

聚类一般过程：

数据准备：特征标准化、降维
特征选择：从最初的特征中选择最有效的特征，并将其存储在向量中
特征提取：通过对选择的特征进行转换形成新的突出特征
聚类：基于某种距离函数进行相似度度量，获取簇
聚类结果评估：分析聚类结果，如 距离误差和(SSE)等

数值型数据相似度度量：

Minkowski 就是LP范数(P >= 1)，而 Manhattan 、 Euclidean、 Chebyshev对应 P = 1、2、无穷

簇间距离度量：Ci 和 Cj 为两个簇

Single-link：两个簇间的距离为两个簇间距离最近的两个点之间的距离，会在聚类过程中产生 链式效应，可能会出现非常大的 cluster
Complete-link：两个簇间的距离为两个簇 间距离最远的两个点之间的距离，可以避免链式效应`，对异常样本点非常敏感，容易产生不合理的聚类。
UPGMA：Single-link和 Complete-link的折中，两个簇间的距离为两个簇间所有点距离均值
WPGMA：两个簇间的距离的加权平均值，加权是为了使两个簇对距离的计算的影响在同一层次上，而不受簇大小的影响，具体公式和采用的权重方案有关。

聚类方法

划分式聚类：需要事先指定簇类的数目或者聚类中心，反复迭代达到簇内的点足够近，簇间的点足够远的目标；如： k-means、 k-means++、 bi-kmeans、 kernel k-means等；对于 凸性数据具有良好的效果。

k-means 特定：需要提前确定 k 值、对初始质心点敏感、对异常数据敏感。

k-mean++:

bi-kmeans:针对 kmeans算法会陷入局部最优的缺陷进行的改进算法。基于SSE最小化的原理，首先将所有的数据点视为一个簇，然后将该簇一分为二，之后选择其中一个簇继续进行划分，选择哪一个簇进行划分取决于对其划分是否能最大程度的降低 SSE的值。 SSE(Sum of Squared Error)，一种度量聚类效果的指标，表示聚类后离该簇的聚类中心距离的平方和， SSE越小，聚类效果越好。

bi-kmeans 是全局最优的方法，所以每次计算出来的 SSE值基本是一样的。

密度聚类方法：需要定义两个参数，邻域半径和邻域密度阈值。

构建邻域半径可使用 kd-tree 优化；

DBSACN 密度聚类特点：

需要提前确定邻域半径和邻域密度阈值
不需要提前设置聚类的个数
对初值选取敏感，对噪声不敏感
对密度不均的数据聚合效果不好

OPTICS 聚类： DBSCAN算法使用了统一的邻域半径，当数据密度不均匀的时候，如果设置了较小的值，则较稀疏的 簇中的节点密度会小于邻域密度阈值，会被认为是边界点而不被用于进一步的扩展；如果设置了较大的值，则密度较大且离的比较近的簇易被划为同一个簇。

核心距离：给定邻域半径和邻域密度，在邻域半径内能达到邻域密度的最小半径值。

可达距离：给定的领域半径和密度内，在核心距离外同时在领域半径内的点的距离。

insert_list() 算法过程：

层次聚类方法： 将数据集分为一层一层的簇，后一层簇是基于前面一层的结果。

前面的算法可以在较小复杂度内获取较好的结果，但却存在 链式效应，如：A与B相似，B与C相似，聚类时会将A、B、C聚合到一起，但如果A与C不相似，就会造成聚类误差，误差可能一直传下去。层次聚类可解决链式效应问题。

Agglomerative 层次聚类：自底向上（bottom-up）的层次聚类，每一个对象开始都是一个簇，每次按一定的准则将最相近的两个簇合并生成新簇，直至最终所有的对象都属于一个簇。
Divisive 层次聚类：自顶向下（top-down）的层次聚类，开始所有对象均属于一个簇，每次按一定的准则将某个簇划分为多个簇，直至每个对象均是一个簇。

层次聚类是贪心算法（greedy algorithm），其每一次合并或划分都是基于某种局部最优的选择。

聚类方法比较

参考：

常用聚类算法 – 知乎

Original: https://blog.csdn.net/MarkAustralia/article/details/125188139
Author: Mark_Aussie
Title: 聚类方法汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605814/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【TensorFlow2.0】高级API中关于tf.keras.layers.Conv2D()函数的参数详细说明(建议保存）

关于函数的官方文档，然后逐一对每个参数的含义和用法进行解释： tf.keras.layers.Conv2D(filters, kernel_size, strides=(1, 1…

人工智能 2023年5月26日
00129
【pytorch】pytorch模型保存技巧

Pytorch会把模型相关信息保存为一个字典结构的数据，以用于继续训练或者推理。这是最常见的模型保存与加载方式，保存方式如下： state = model.state_dict(…

人工智能 2023年7月13日
0049
【Python·OpenCV】如何实现 HSV 与灰度图的相互转换？

文章目录 * – 一、引言 – 二、为什么需要 HSV ？ – 三、HSV 三个分量表示什么？ – 四、绘图误区 – 五…

人工智能 2023年7月20日
0038
微信推出自研NLP大规模语言模型WeLM，现已开放API推动应用落地

大规模语言模型领域迎来新”选手”。近日，微信AI推出自研NLP大规模语言模型WeLM ，该模型是一个尺寸合理的中文模型，能够在零样本以及少样本的情境下完成包…

人工智能 2023年6月23日
0088
Set A Light 3D Studio for Mac(3D摄影棚布光软件)中文

Original: https://www.cnblogs.com/aurora-123/p/16699678.htmlAuthor: 佛系女孩Title: Set A Light…

人工智能 2023年6月3日
0073
【JavaSE】Java中的异常那些事儿

#1024程序员节｜用代码，改变世界# ✨ 个人主页：bit me✨ 当前专栏：JavaSE🌟每日一语：每当天空黑暗到一定程度星辰就会熠熠生辉希望你我都是这颗耀眼的星辰⭐️ …

人工智能 2023年6月21日
0068
Pytorch加载数据集的几种方法

Pytorch 加载数据集的几种方法总结坑方案1：方案2： train_dataset = torchvision.datasets.MNIST(root=’./data’…

人工智能 2023年7月24日
0054
torch.Tensor.index_add_函数，pytorch中的tf.unsorted_segment_sum

ref: https://pytorch.org/docs/1.4.0/tensors.html?highlight=index_add_#torch.Tensor.index_a…

人工智能 2023年5月26日
0098
pytorch对网络层的增，删，改, 修改预训练模型结构

#下载模型参数 model.load_state…

人工智能 2023年6月23日
0055
【神经网络】Pytorch构建自己的训练数据集

最近参加了一个比赛，需要对给定的图像数据进行分类，之前使用Pytorch进行神经网络模型的构建与训练过程中，都是使用的Pytorch内置的数据集，直接下载使用就好，而且下载下来…

人工智能 2023年7月12日
0050
Python Pandas库简要学习

一、Pandas 简述 Pandas 是 Python 语言的一个扩展程序库，用于数据分析。它并不是熊猫胖达的复数，它的名字衍生自术语 “panel data&#822…

人工智能 2023年7月7日
0074
【论文笔记】CycleGAN（基于PyTorch框架）

CycleGAN（基于PyTorch框架） 0.论文简介 * 0.1本文主要的工作 0.2引言 0.3方法 1.代码结构 * 1.1根目录中的文件 – 1.1.1 tr…

人工智能 2023年6月26日
0072
机器学习（三）：基于LightGBM的分类预测

LightGBM介绍 LightGBM是2017年由微软推出的可扩展机器学习系统，是微软旗下DMKT的一个开源项目，由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。…

人工智能 2023年6月30日
0070
利用武汉市遥感影像进行土地利用分类分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0096
推荐系统笔记（十）：InfoNCE Loss 损失函数

背景对比学习损失函数有多种，其中比较常用的一种是InfoNCE loss。最近学习实现了SGL推荐系统算法，对InfoNCE Loss做一个总结。 InfoNCE Loss损失函…

人工智能 2023年6月12日
0074
【Python 实战基础】Pandas中Series与数据list如何互相转换

一、实战场景二、主要知识点文件读写基础语法 Pandas Pandas的Series对象互相转换三、菜鸟实战 1、创建 python 文件，数据list，变成Pandas…

人工智能 2023年7月14日
0085

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

聚类方法汇总

大家都在看