无监督算法

2023年5月31日上午11:12 • 人工智能 • 阅读 72

无监督算法简介

就是依靠数据之间的相似度，形成数据的类别。（下图有些是网上扒的，如有侵权望告知，立删）

层次聚类

比如有7个数据点，A，B，C，D，E，F，G。我们采用数据的欧式距离作为相似度（距离越小越相似）：

将数据分别两两计算相似度：

得到BC的距离最小，这样我们就得到一个新的集合或者说是类：（B,C)。这样我们下一次计算相似度时，只有6个元素了：A，（B,C），D，E，F，G。然后两两计算相似度，得到：

当然，要提到的一点是，对于任意元素（如A）和集合（B，C）之间的距离度量，则取A分别和B，C的距离的均值（下面是几何均值）：

当然若是两个类(A,F)和(B,C)的距离，则取两两间距离的均值：
无监督算法

当然集合之间的距离有很多种取法，不局限于上述，如：
1、取两个类中距离最小的两个样本的距离作为两个集合的距离
2、取两个类中距离最大的两个样本的距离作为两个集合的距离
3、计算两个集合中每两两点的距离并取平均值

最后便可以形成如下聚类图（我随便画的）：

如果你的目标是分成3类，只需要拿一条横线截一下上面的图，让横线只穿过3条竖线即可。

; K-Means

将数据分为k个簇{ C 1 , C 2 , ⋯ , C k } {C_1,C_2,⋯,C_k}{C 1 ,C 2 ,⋯,C k }，每个簇有一个中心μ i \mu_i μi 。

常用的相似度度量有欧几里得距离和余弦相似度。以下以距离为例：

首先随便取k个中心，然后分别计算每个点到各个中心的距离，离哪个中心近，就把它归到哪个中心

然后根据各中心包含的点，重新计算中心位置，然后重新对各点进行中心归类。一直迭代，直到中心不再变化为止。

均值漂移（Mean Shift）

漂移向量是给定中心点X c X_c X c 距离小于h h h的数据点集均值：
M h = E x i ∈ ( D < h ) [ x i − x c ] M_h =E_{x_i∈ (D
该向量表明了该范围内的数据实际中心与给定中心的偏差。然后进行中心位置更新（即漂移操作）
x c ← x c + M h x_c ← x_c + M_h x c ←x c +M h 。
重复进行迭代，直到收敛。

当然，是每次从未被标记（未分类）的数据中随意选一个点作为中心点，然后进行上述迭代，直到收敛。最后得到n个中心。

n个中心中，若两个中心距离小于h则进行合并，其数据归为一大类。若中心距离大于h且小于2h，即范围发生了重叠，则重叠部分可按照最近的中心进行分类，或者采用核函数看贡献值。

更多可参考：机器学习聚类算法之Mean Shift

DBSCAN密度聚类

基本概念

假定同一类别的样本，他们之间的紧密相连的。
使用参数( ϵ , M i n P t s ) (ϵ, MinPts)(ϵ,M i n P t s )用来描述邻域的样本分布紧密程度。其中，ϵ描述了某一样本的邻域 距离阈值，MinPts描述了邻域中样本 个数的阈值。

假设样本集是D = ( x 1 , x 2 , . . . , x m ) D=(x_1,x_2,…,x_m)D =(x 1 ,x 2 ,…,x m )，则对于x j ∈ D x_j∈D x j ∈D有：

ϵ-邻域：其ϵ-邻域包含样本集N ϵ ( x j ) = x i ∈ D ∣ d i s t a n c e ( x i , x j ) ≤ ϵ Nϵ(x_j)={xi∈D|distance(x_i,x_j)≤ϵ}N ϵ(x j )=x i ∈D ∣d i s t a n c e (x i ,x j )≤ϵ，且个数记为∣ N ϵ ( x j ) ∣ |Nϵ(x_j)|∣N ϵ(x j )∣

核心对象：如果其ϵ-邻域对应的∣ N ϵ ( x j ) ∣ ≥ M i n P t s |Nϵ(x_j)|≥MinPts ∣N ϵ(x j )∣≥M i n P t s，则其为核心对象。

密度直达：如果x j x_j x j 是核心对象，且x i x_i x i 位于x j x_j x j 的ϵ-邻域中，则称x i x_i x i 由x j x_j x j 密度直达。

密度可达：如果存在样本序列p 1 , p 2 , . . . , p t p_1,p_2,…,p_t p 1 ,p 2 ,…,p t ，且p t + 1 p_{t+1}p t +1 由p t p_t p t 密度直达。若满足p 1 p_1 p 1 =x i x_i x i ,p t p_t p t =x j x_j x j , 则称x j x_j x j 由x i x_i x i 密度可达。也就是说，密度可达满足传递性。

（此时序列中的传递样本p 1 , p 2 , . . . , p t − 1 p_1,p_2,…,p_{t-1}p 1 ,p 2 ,…,p t −1 均为核心对象，因为只有核心对象才能使其他样本密度直达。）

密度相连：对于x i x_i x i 和x j x_j x j ，如果存在核心对象样本x k x_k x k ，使x i x_i x i 和x j x_j x j 均由x k x_k x k 密度可达，则称x i x_i x i 和x j x_j x j 密度相连。

下图中MinPts=5，则红色的点都是 核心对象，黑色的样本是非核心对象。所有核心对象 密度直达的样本在以红色核心对象为中心的超球体内，不在超球体内则不能密度直达。图中用绿色箭头连起来的核心对象组成了 密度可达的样本序列。在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是 密度相连的。

; 算法思想

1、任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。

2、继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止，剩下的非核心对象则为噪声点。

某些样本可能到两个核心对象的距离都小于ϵ，但是这两个核心对象由于不是密度直达，又不属于同一个聚类簇，那么如何界定这个样本的类别呢？一般来说，此时DBSCAN采用先来后到，先进行聚类的类别簇会标记这个样本为它的类别。也就是说DBSCAN的算法不是完全稳定的算法。

些异常样本点或者说少量游离于簇外的样本点，这些点不在任何一个核心对象在周围，在DBSCAN中，我们一般将这些样本点标记为噪音点。

Original: https://blog.csdn.net/qq_43133135/article/details/123196505
Author: qq_43133135
Title: 无监督算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550712/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python-opencv-cv2.resize()函数详解

1.cv2.resize()参数说明？ cv2.resize(src, dsize, dst=None, fx=None, fy=None, interpolation=None)…

人工智能 2023年5月26日
00100
爬虫——scrapy框架

目录流程： 1）打开一个终端输入(比如我的d盘下的文件 cd+地址) 1.初始化项目 2.cd到项目路径 3.生成一个py文件 2.修改setting 3）确认要提取的数据，it…

人工智能 2023年7月18日
0074
玩转GDAL一文带你深入Windows下FileGDB驱动支持

前言了解GDAL的朋友一定知道，GDAL3.5以下（含）默认配置下是只支持gdb文件的读的，是不支持写的。更要命的是，默认的OpenFileGDB在读取时，如果我们在矢量文件中设…

人工智能 2023年7月30日
0085
【数字IC精品文章收录】近500篇文章|学习路线|基础知识|接口|总线|脚本语言|芯片求职|安全|EDA|工具|低功耗设计|Verilog|低功耗|STA|设计|验证|FPGA|架构|AMBA|书籍|

一、项目说明本篇索引旨在收藏CSDN全站中有关数字IC领域高价值文章，在数字芯片领域中，就算将架构，设计，验证，DFT，后端诸多岗位加在一起的数量，都不及软件类一个细分方向的岗…

人工智能 2023年7月29日
0079
拯救pandas计划（8）——当列聚合数与自身进行再次计算

最近发现周围的很多小伙伴们都不太乐意使用pandas，转而投向其他的数据操作库，身为一个数据工作者，基本上是张口pandas，闭口pandas了，故而写下此系列以让更多的小伙伴们爱…

人工智能 2023年7月8日
00100
ITK-Snap 处理医疗影像

文章目录 0 引言 1. ITK-Snap基本功能 * 1.1 ITK-Snap视图介绍 1.2 File菜单 1.3 Edit编辑菜单 – 1.3.1 个性化标注 1…

人工智能 2023年5月26日
00106
pytorchyolo复现

pytorch yolo复现想着入门pytorch，用pytorch复现一下yolo算法，其实yolo的原理一天左右就完全搞懂了，但是真正写起代码来，就是会有各种细节不太清除，我…

人工智能 2023年7月24日
0091
yolov5模型压缩之模型剪枝

目前看来，yolo系列是工程上使用最为广泛的检测模型之一。yolov5检测性能优秀，部署便捷，备受广大开发者好评。但是，当模型在前端运行时，对模型尺寸与推理时间要求苛刻，轻量型模型…

人工智能 2023年6月16日
00122
生信初学者必知的镜像设置

文章目录 * – Ubuntu镜像 – conda镜像 – R语言镜像 – Python镜像 – Julia镜像国内网…

人工智能 2023年6月27日
00105
Python数据分析与挖掘——回归模型的诊断

当回归模型构建好之后，并不意味着建模过程的结束，还需要进一步对模型进行诊断，目的就是使诊断后的模型更加健壮。统计学家在发明线性回归模型的时候就提出了一些假设前提，只有在满足这些假…

人工智能 2023年6月17日
00101
说说Spring事件发布机制

文章目录前言一、使用到事件发布机制的源码二、Springboot启动过程中用到的部分事件三、Springboot中的监听器四、自定义事件源，事件监听器和事件发布器 * …

人工智能 2023年7月29日
0098
数据分析面试都会问到哪些问题

听说有小伙伴最近在找工作？数据分析面试都会问到哪些问题呢？一起来看看吧~ 1.第一个问题来了哈~如果某一次分析的结果数据特别大，有些结果数据扛不住了，请问该怎么办？其实一般的结果…

人工智能 2023年6月19日
0093
Yolov5 模型的原理及环境配置

本文首先介绍了yolov5 是什么，有什么用，以及yolo 模型的原理。再讲解了yolov5 模型的下载，及环境配置的一些问题。目录一、Yolov5 是什么？二、Yolov …

人工智能 2023年7月26日
00130
（八）学习笔记：动手深度学习（Softmax 回归 + 损失函数 + 图片分类数据集）

目录 1.softmax回归的理论部分 * 1.1 分类问题 1.2 网络架构 1.3 全连接层的参数开销 1.4 softmax运算 1.5 小批量样本的矢量化 1.6 损失函数…

人工智能 2023年7月1日
00126
数据湖是什么？有什么优势？与数仓区别？未来的发展？

数据湖是什么？有什么优势？与数仓区别？未来的发展？一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖…

人工智能 2023年7月15日
0071
2.1.Pytorch目标检测–Yolo V3

这几天在p站上找了几个UP主学习了一下yolo v3，我会继续完善 1.Yolo V3的网络结构 1.主干网络：（DarkNet-53)左边用虚线框起来的部分。主干特征提取网络主…

人工智能 2023年7月10日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31