CV学习笔记-聚类

2023年6月2日上午7:51 • 人工智能 • 阅读 85

图像聚类

1. 概述

1. 分类与聚类

分类： 分类解决的问题是从特定的数据集中挖掘模式，并作出判断的过程。

分类学习的主要过程：
(1) 给定训练数据集，数据集中存在一个类似标记作用的标记号，依据标记号来判断这个数据集是对于需要起积极作用的数据集（正向数据集）还是对需要起抑制作用的数据集（负向数据集），例如需要是分类水果是否是葡萄，那么都是葡萄的数据集就是正向数据集，非葡萄的数据集就是负向数据集。
(2)构建训练的模型，并使用数据集进行学习训练。
(3)通过训练的模型对预测数据集进行预测，并计算其结果的性能。

聚类： 一个聚类就是一些数据实例的集合，其中处于相同聚类中的数据元素彼此相似，但是处于不同聚类中的元素彼此不同，顾名思义，聚类就是将数据集中在某些方面相似的数据成员放在一起。聚类样本间的属性分为有序属性（例如浓度0.45、0.89）和无序属性（好瓜、坏瓜）两种。

由于在聚类中那些表示数据类别的分类或分组信息是没有的， 即这些数据是没有标签的，所以聚类通常被归为 无监督学习(Unsupervised Learning)。

分类与聚类任务的不同：

聚类的结果是根据数据的相似性将相似的数据聚集在一个区域，而具体这一类有什么相似点，需要人为的去判断。
分类学习是根据已有类别的数据集进行学习构建模型，再用模型去预测新数据集的过程。
分类所用的数据集是有标签的，而聚类所用的数据集是无标签的，聚类只是将数据分开，具体相似点是什么需要认为判定。

常见聚类算法：

原型聚类（典型： K均值聚类算法）
层次聚类
密度聚类

; 2. 原型聚类算法

1. 概述

原型聚类算法即一类假设聚类结构可以通过一组原型（样本空间中具有代表性的点）刻画的算法。是一类在现实任务中极为常见的算法。

2.K-Means聚类

简介： K-Means聚类是最常用的聚类算法，最初起源于信号处理，其目标是将数据点划分为K个类簇。该算法的最大优点是简单、便于理解，运算速度较快， 缺点是要在聚类前指定聚集的类簇数。*
k-means算法是一种原型聚类算法。

K-Means聚类算法流程

确定K（也即类簇的数量）值
从数据集中随机选择K个数据点作为质心（Centroid）或数据中心。
分别计算每个点到每个质心的距离，并将每个点划分到离最近质心的小组。
当每个质心都聚集了一些点后，重新定义算法选出新的质心。（对于每个簇，计算其均值，即得到新的K个质心点）
迭代执行第三步到第四步，直到迭代终止条件满足为止（聚类结果不再变化，结果收敛）

算法举例：

数据集：

第一轮： 设定K为2，即我们要将数据集分为两类，随机选择两个点作为质心，这里选择P1 P2，那么计算每个点到质心的距离，例如P3到P1的距离为10 = 3.16 \sqrt{10} = 3.16 1 0 =3 .1 6，计算P3到P2的距离为( 3 − 1 ) 2 + ( 1 − 2 ) 2 = 2.24 \sqrt{(3-1)^2+(1-2)^2}=2.24 (3 −1 )2 +(1 −2 )2 =2 .2 4，P3离P2更近，故而P3加入P2的簇，其他点的计算同理。

一轮计算后的结果为

组1：P1 组2：P2、P3、P4、P5、P6

第二轮：由于组1只有一个点，无需处理，直接选择P1为质心，组2中将所有组2中的点的x、y坐标求均值后构造一个新的不存在的点作为新质心（本身不划分到某分组，只用作质心作用），构造Q（1 + 3 + 8 + 9 + 10 5 \frac{1+3+8+9+10}{5}5 1 +3 +8 +9 +1 0 ,2 + 1 + 8 + 10 + 7 5 \frac{2+1+8+10+7}{5}5 2 +1 +8 +1 0 +7 ）也即Q(6.2,5.6)和P1(0,0)作为新质心，重新计算每个点到质心的距离进行划分。

一轮计算后的结果为

组1：P1、P2、P3 组2：P4、P5、P6

第三轮：仍然按照上面的方法计算，略过过程，新质心R(1.33,1)、T(9,8.33)。

三轮计算后的结果为

组1：P1、P2、P3 组2：P4、P5、P6

对比发现与上一轮的结果相同，说明结果收敛，结束聚类算法。

K-Means聚类算法的优点：

是解决聚类问题的一种经典算法，简单、快速
对处理大数据集，该算法保持高效率
当结果簇是密集的，它的效果较好

K-Means聚类算法的缺点：

必须事先给出k（要生成的簇的数目）
对躁声和孤立点数据敏感

K-Means算法的应用举例：

图像分割
图像聚类
图像识别

我们通过K-Means可以将这些像素点聚类成K个簇，然后使用每个簇内的质心点来替换簇内所有
的像素点，这样就能实现在 不改变分辨率的情况下量化压缩图像颜色，实现图像颜色层级分割。

; 3. 层次聚类

1. 方法&类别

方法： 首先对所有的样本进行样本间的距离计算，每次将距离最近的点合并到同一个类。优点类似哈夫曼树的构造，分类结束后，计算类与类之间的距离，将距离最近的类再合并成为一个大类。循环往复直到合并成为一个大类。

类与类之间的距离计算方法：最短距离法、最长距离法、中间距离法、类平均法等。

种类： 层次聚类算法根据层次分解的顺序分为：自下而上（bottom-up）和自上而下（top-down），也分别称为凝聚的（agglomerative）层次聚类算法>和分裂的（divisive）层次聚类算法。>

2.凝聚层次聚类算法的流程

凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对
象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类，它们只是在簇间
相似度的定义上有所不同。

将每个对象看作一个类，计算对象之间的最小距离；
将距离最小的两个类合并一个新类；
重新计算新类与所有类之间的距离；
重复第二步到第三步，直到所有类都合并成为一个大类。

上图中的计算过程矩阵为：
[ 选中合并类别 A 选中合并类别 B 类间最小距离新类中元素个数 0 3 0 2 4 5 1.15470054 3 1 2 2.23606798 2 6 7 4.00832467 5 ] \left[ \begin{matrix} 选中合并类别A&选中合并类别B&类间最小距离&新类中元素个数\ 0&3&0&2\ 4&5&1.15470054&3\ 1&2&2.23606798&2\ 6&7&4.00832467&5 \end{matrix} \right]⎣⎢⎢⎢⎢⎡选中合并类别A 0 4 1 6 选中合并类别B 3 5 2 7 类间最小距离0 1 .1 5 4 7 0 0 5 4 2 .2 3 6 0 6 7 9 8 4 .0 0 8 3 2 4 6 7 新类中元素个数2 3 2 5 ⎦⎥⎥⎥⎥⎤
注意：0和3合并后的新类用5编号，原类中号为0~4，其他遵循此规律。

树状图分类判断： 上面的聚类过程，所聚集的类别按不同的阶段有不同的组合，所以如何进行类别判断，现实任务中往往要给定将数据集分为几类。

想分为两类时，就从上往下数有两根竖线时进行切割，那么所对应的竖线下面所连接的为一类

想分三类时，就从上往下数有三根竖线时进行切割，那么所对应的竖线下面所连接的为一类

; 3. 凝聚层次聚类的特点

不像K-Means那样需要考虑选取初始点，也没有局部极小的问题（K-Means有可能收敛于局部极小），凝聚的层次聚类并没有类似K均值的全局目标函数。
合并操作不可撤销，从一而终
计算存储成本很高 （*）

4. 层次聚类的优缺点

优点：

距离和规则的相似度容易定义，限制少；
不需要预先制定聚类数；
可以发现类的层次关系；
可以聚类成其它形状

缺点：

计算复杂度太高；
奇异值也能产生很大影响；
算法很可能聚类成链状

4. 密度聚类

1. 算法描述

密度聚类（DBSCAN）

需要两个参数：ε (eps) 和形成高密度区域所需要的最少点数 (minPts)

它由一个任意未被访问的点开始，然后探索这个点的 ε-邻域，如果 ε-邻域里有足够的点，则建立一个新的聚类，否则这个点被标签为杂音。
注意，这个杂音点之后可能被发现在其它点的 ε-邻域里，而该 ε-邻域可能有足够的点，届时这个点会被加入该聚类中。

2. 密度聚类的优缺点

优点：

对噪声不敏感；
能发现任意形状的聚类

缺点：

但是聚类的结果与参数有很大的关系；
用固定参数识别聚类，但当聚类的稀疏程度不同时，相同的判定标准可能会破坏聚类的自然结构，即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类。

5. 谱聚类

1. 算法流程描述

根据数据构造一个图结构（Graph），Graph 的每一个节点对应一个数据点，将相
似的点连接起来，并且边的权重用于表示数据之间的相似度。把这个 Graph 用邻接矩
阵的形式表示出来，记为 W 。
把 W 的每一列元素加起来得到 N 个数，把它们放在对角线上（其他地方都是零），
组成一个 N * N的矩阵，记为 D 。并令 L = D-W 。
求出 L 的前 k 个特征值，以及对应的特征向量。
把这 k 个特征（列）向量排列在一起组成一个 N * k 的矩阵，将其中每一行看作 k
维空间中的一个向量，并使用 K-means 算法进行聚类。聚类的结果中每一行所属的类
别就是原来 Graph 中的节点亦即最初的N 个数据点分别所属的类别。

简单抽象谱聚类过程，主要有两步：

构图，将采样点数据构造成一张网图。
切图，即将第一步构造出来的按照一定的切边准则，切分成不同的图，而不同的子图，即我们对
应的聚类结果。

个人学习笔记，仅交流学习，转载请注明出处！

Original: https://blog.csdn.net/qq_38853759/article/details/121512812
Author: Moresweet猫甜
Title: CV学习笔记-聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560268/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【OLS回归_结果解读】

这么可爱的你，就关注我一下吧~ 我们先根据以下代码简单的做一个OLS回归： import numpy as np from pandas import DataFrame as d…

人工智能 2023年6月17日
00110
[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

1. 基本信息题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong，Xin Xin，Ping Guo …

人工智能 2023年5月28日
0062
AI数字绘画 stable-diffusion 保姆级教程

简介近段时间来，你可能在不少地方都看到了非常多这样的好看的画。比如这样的赛博朋克风 prompt: Cyberpunk, 8k resolution, castle, the …

人工智能 2023年6月22日
0085
清览云题库–数据可视化

第一章 Jupyter notebook不具备的功能是（D） A.Jupyter notebook可以直接生成一份交互式文档 B.Jupyter notebook可以安装Pytho…

人工智能 2023年7月3日
00115
how to disable accidental deletion for some directories怎么避免意外误删除目录？

社区有个safe-rm，可以解决绝大多数误删除目录的问题，安装命令： apt install safe-rm 默认safe-rm会禁止删除一些已知的系统目录，用户可以通过配置/et…

人工智能 2023年6月4日
0074
[debug]PyTorch报错：ConnectionResetError:[Errno104]Connectionresetbypeer

问题描述：使用PyTorch 1.10.0，训练报错： ConnectionResetError: [Errno 104] Connection reset by peer 问题…

人工智能 2023年7月24日
0047
利用波士顿房价数据集实现房价预测

文章目录 * – 一、观察波士顿房价数据并加载数据集 – + 1、加载数据集 – 二、特征选择 – 三、模型选择 &#8211…

人工智能 2023年6月16日
0075
图像滤波简介

文章目录 1. 图像滤波 2. 图像滤波的常用方法 * 2.1 均值滤波 2.2 方框滤波 2.3 高斯滤波 2.4 中值滤波 2.5 双边滤波 2.6 低通滤波 2.7 高通滤波…

人工智能 2023年7月26日
00101
《自然语言处理入门》笔记

目录第一章新手上路 1.1自然语言与编程语言 1.1.1词汇量 1.1.2结构化 1.1.3歧义性 1.1.4容错性 1.1.5易变性 1.1.6简略性 1.2自然语言处理的层…

• 2023年5月30日
00129
数字图像处理第7章——小波和多分辨率处理

目录引言：一、背景 1.1 图像金字塔 1.2 子带编码 1.3 哈尔变换二、多分辨率展开 2.1 级数展开 2.2 尺度函数 2.3 小波函数三、一维小波变换 3.1 小…

人工智能 2023年6月20日
00126
【游戏开发教程】BehaviorDesigner插件制作AI行为树（Unity | 保姆级教程 | 动态图演示 | Unity2021最新版）

文章目录 * – + 一、前言 + 二、插件下载 + * 1、AssetStore下载 * 2、GitCode下载 + 三、官方教程 + * 1、在线文档 * 2、离线…

人工智能 2023年7月25日
00165
python提取wind数据_用Python从wind获取数据，转换成dataframe格式，并保存为Excel文件,excel…

import openpyxl from openpyxl.workbook import Workbook from WindPy import * from pandas im…

人工智能 2023年7月8日
0062
这4款数据自动化探索 Python 神器，解决绝大多数的数据分析问题

探索性数据分析是一种非常重要的数据探索技术，用于了解数据的各个方面，这是执行任何机器学习或深度学习任务之前最重要的步骤之一。背景在任何机器学习项目的生命周期中，我们在数据分析、…

人工智能 2023年7月17日
0052
python 解析json数据

遇到了个json数据需要解析，利用Python脚本尝试如下 import os import pandas as pd import numpy as np path=r&#821…

人工智能 2023年7月7日
0094
大数据毕业设计选题推荐（二）

文章目录 0 前言 1 大数据相关题目 2 开题指导 * 2.1 起因 2.2 如何避坑(重中之重) 2.3 为什么这么说呢？ 2.4 难度把控 2.5 题目名称 3 最后 0 前…

人工智能 2023年6月19日
0082
从卷积神经网络（CNN）到图卷积神经网络（GCN）详解

目录一、CNN和GCN的关系二、”图”的预备知识三、图卷积网络（GCN）四、针对于高光谱图像分类的网络优化五、频域的图卷积神经网络最近看到一篇引…

人工智能 2023年6月13日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

CV学习笔记-聚类

1. 概述

1. 分类与聚类

; 2. 原型聚类算法

1. 概述

2.K-Means聚类

; 3. 层次聚类

1. 方法&类别

2.凝聚层次聚类算法的流程

; 3. 凝聚层次聚类的特点

4. 层次聚类的优缺点

4. 密度聚类

1. 算法描述

2. 密度聚类的优缺点

5. 谱聚类

1. 算法流程描述

大家都在看