部分聚类算法简介及优缺点分析

2023年10月28日下午5:53 • Python • 阅读 55

之前项目有聚类的一些需求，现大致对一些聚类算法总结下：

聚类是对一系列事物根据其潜在特征按照某种度量函数归纳成一个个簇的动作，使得簇内数据间的相似度尽可能大，不同簇的数据相似度尽可能小。

通常聚类流程如下：数据获取-数据预处理-模型选型-模型聚类调参-输出结果。其中数据预处理、模型选型是流程中较为重要部分。数据预处理将杂乱无章的数据处理为具备某些共同点的特征，从而模型能更好地拟合数据，很经典的一句话：特征处理决定模型的上限。模型选型需要根据业务的具体需求及数据特性结合各聚类模型的特点进行选择。由于数据预处理需要根据具体数据及具体业务进行处理，本文仅介绍下各类聚类算法：

一、基于划分的聚类算法

K-means

经典K-means 算法流程：
1.随机地选择k 个对象，每个对象初始地代表了一个簇的中心；
2.对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；
3.重新计算每个簇的平均值，更新为新的簇中心；
4.不断重复2 、3 ，直到准则函数收敛

优点：

K-means 算法简单快速；

当簇较为密集，呈现球状或团状时能有比较好的效果

缺点：

对K 值敏感，聚类结果会受到K 值很大的影响

对噪声点敏感，如当数据中只有2 个簇，此时添加一个噪声点，则极大可能会导致噪声点分为一个簇，数据中的2 个簇分为一个簇

只能聚凸的数据集

二、基于层次的聚类算法

该类主要有自下而上和自上而下两种思想。

以自下而上流程为例：

将每个对象看作一类，计算两两之间的最小距离；
将距离最小的两个类合并成一个新类；
重新计算新类与所有类之间的距离；
重复2 、3 ，直到所有类最后合并成一类

优点：

不需提前设置K 值

可以发现层次关系

缺点：

计算复杂度高

奇异值有较大影响

三、基于密度的聚类算法

例如DBSCAN

DBSCAN 算法是一种基于密度的聚类算法：

1.聚类的时候不需要预先指定簇的个数

2.最终的簇的个数不确定

DBSCAN 算法将数据点分为三类：

1.核心点：在半径Eps 内含有超过MinPts 数目的点。

2.边界点：在半径Eps 内点的数量小于MinPts,但是落在核心点的邻域内的点。

3.噪音点：既不是核心点也不是边界点的点。

DBSCAN 流程：

1.将所有点标记为核心点、边界点或噪声点；

2.删除噪声点；

3.为距离在Eps 之内的所有核心点之间赋予一条边；

4.每组连通的核心点形成一个簇；

5.将每个边界点指派到一个与之关联的核心点的簇中（哪一个核心点的半径范围之内）。

优点：

自适应的聚类，不需提前设置K 值

对噪声不敏感

能发现任意形状的簇

缺点：

对两个参数圈的半径、阈值敏感

数据集越大，花费时间越长

四、基于滑动窗口的聚类算法

例如均值聚类漂移

均值聚类漂移算法流程：

1.我们从一个以C 点（随机选择）为中心，以半径r 为核心的圆形滑动窗口开始。均值漂移是一种爬山算法，它包括在每一步中迭代地向更高密度区域移动，直到收敛。

2.在每次迭代中，滑动窗口通过将中心点移向窗口内点的均值来移向更高密度区域。滑动窗口内的密度与其内部点的数量成正比。自然地，通过向窗口内点的均值移动，它会逐渐移向点密度更高的区域。

3.我们继续按照均值移动滑动窗口直到没有方向在核内可以容纳更多的点。

4.步骤1 到3 的过程是通过许多滑动窗口完成的，直到所有的点位于一个窗口内。当多个滑动窗口重叠时，保留包含最多点的窗口。然后根据数据点所在的滑动窗口进行聚类

优点：

不需提前设置K 值

可以处理任意形状的簇类

缺点：

窗口半径有可能是不重要的

对于较大的特征空间，计算量较大

Original: https://www.cnblogs.com/wangzhilun/p/17040446.html
Author: sunshine丶23
Title: 部分聚类算法简介及优缺点分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/807047/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python继承中super().__init__() 与 xxxClass.__init__(self)的区别

class BaseClass(object): def __init__(self): print("构造 BaseClass") class MyClass…

Python 2023年9月20日
0031
【终极UI/UX工具包】上海道宁与Infragistics助力您简化程序开发，创建精美应用程序

Infragistics Ultimate是开发者的UI/UX工具包可以简化程序开发加速从设计到代码的应用程序创建为Web、移动和桌面创建精美应用程序所需的一切帮助 In…

Python 2023年11月6日
0038
python绘制爱心

今天用python绘制一个爱心，代码如下 –– coding: utf-8 ––from turtle import *def cu…

Python 2023年9月22日
0041
Mip-NeRF：抗混叠的多尺度神经辐射场ICCV2021

目录混叠现象 Mip-NeRF概述 * 位置编码IPE Mip-NeRF Introduction Method 讨论 ; 混叠现象数据采集时，如果采样频率不满足奈奎斯特采样定…

Python 2023年10月10日
0034
接收机伪距和相位偏差时变性对PPP的影响分析

【目的】接收机端偏差包括接收机码偏差和接收机相位偏差,是卫星导航定位的一类显著误差源。传统的定位算法将其视作常量,但事实上该偏差是随时间变化的,如不加以处理,可能会对精密单点定位参…

Python 2023年9月30日
0060
Python基于WordCloud词云图的数据可视化分析词云图的基本使用政府工作报告分析

Python基于WordCloud词云图的数据可视化分析词云图的基本使用政府工作报告分析文章目录 1、词云图简介 2、wordcloud库的安装 3、WordCloud的主要…

Python 2023年8月23日
00138
scrapy爬取唯品会运动鞋信息并进行简单的数据处理和分析

唯品会爬虫 * – + 一、环境准备 + 二、问题分析 + 三、spider + 三、item + 四、setting + 五、pipelines + 六、使用jupy…

Python 2023年10月3日
0046
python pandas 分类汇总用法_Python pandas用法最全整理

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用： import numpy as npimport pandas as pd 2、导入CSV或者xlsx文…

Python 2023年8月16日
0044
01.【入门必备】认识python–＞Linux中python环境搭建–＞Linux交互模式ipython

📋 个人简介💖 作者简介：大家好，我是小鹏linux，运维领域新星创作者。😜📝 个人主页：小鹏linux🔥🎉 支持我：点赞👍+收藏⭐️+留言📝💬格言：你未必出类拔萃，但一定与众不同…

Python 2023年8月2日
0041
sklearn库安装方法

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具，是机器学习中的常用第三方模块。它建立在 NumPy, SciPy和 Matplotli…

Python 2023年8月2日
0099
【二】conda环境下的pip

文章目录前言 Anaconda prompt PS 前言 Anaconda可以作为多个Python解释环境的管理系统，能够很方便地为不同的解释器安装需要的模块和库。除了Anaco…

Python 2023年9月7日
0055
一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】

bar=( Bar(init_opts=opts.InitOpts(height=’500px’,width=’1000px’,theme=’dark’)) .add_xaxis(…

Python 2023年10月31日
0071
python/numpy基础知识，order=C F A K，各个数据索引顺序的区别？

numpy.copy numpy.reshape numpy.ravel numpy.flatten C是最后一个索引变化最快。 F是第一个索引变化最快。 A是C或F中的一种，也就…

Python 2023年8月28日
0037
Netty 学习（八）：新连接接入源码说明

原文地址：新连接的接入分为3个过程检测新连接的代码在 NioEventLoop中的 processSelectedKey()方法中 private void processSe…

Python 2023年10月20日
0034
python与环境统计学之f检验例题解答

目录 F检验： 1.f检验是什么？ 2.F检验可以用来干什么 3.f检验的计算公式 4.相关例题 5.对应表格数据 1.f检验是什么： ‘F检验（F-test），最常用…

Python 2023年8月25日
0038
pycharm下载安装与基本配置

pycharm下载安装与基本配置 1.简介 PyCharm是一种Python IDE（Integrated Development Environment，集成开发环境），带有一整…

Python 2023年10月29日
0040

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

部分聚类算法简介及优缺点分析

大家都在看