半监督学习中的聚类方法有哪些

2024年1月1日上午2:01 • 人工智能 • 阅读 39

问题：关于半监督学习中的聚类方法有哪些？

在半监督学习中，聚类是一种常用的无标签数据利用方式。通过将相似的数据点分组成簇，聚类方法可以帮助我们发现数据中的潜在模式和结构。在这篇解决方案中，我们将介绍两种常用的半监督聚类算法：谱聚类（Spectral Clustering）和DBSCAN聚类（Density-Based Spatial Clustering of Applications with Noise）。我们将详细介绍每种算法的原理、公式推导、计算步骤，并给出复杂的Python代码示例，帮助你更好地理解和使用这些算法。

1. 谱聚类

谱聚类是一种基于图论的聚类方法。它通过构建数据点的相似度矩阵和拉普拉斯矩阵，将问题转化为求解特定的特征值问题，最终将数据点划分为不同的簇。下面我们将详细介绍谱聚类的算法原理、公式推导、计算步骤和代码示例。

算法原理

构建相似度矩阵：计算样本之间的相似度，并构建相似度矩阵。常用的相似度计算方法有高斯核函数和K近邻方法。
构建拉普拉斯矩阵：计算拉普拉斯矩阵，有三种常用的构建方法：标准拉普拉斯矩阵、对称归一化拉普拉斯矩阵和随机游走拉普拉斯矩阵。
求解特征值问题：对拉普拉斯矩阵进行特征值分解，得到特征向量和特征值。
聚类：将特征向量按照特征值进行排序，选择前k个特征向量，然后将它们作为新的样本表示，使用其他聚类算法（如K-means）对这些新样本进行聚类。

公式推导

1）计算相似度矩阵

假设我们有n个样本，数据集表示为X=[x_1, x_2, …, x_n]，其中x_i表示第i个样本。

对于高斯核函数，相似度矩阵的计算公式如下：

$$S_{ij} = \exp\left(-\frac{||x_i – x_j||^2}{2\sigma^2}\right)$$

其中，$S_{ij}$表示样本$x_i$和$x_j$之间的相似度，$\sigma$是高斯核函数的带宽参数。

对于K近邻方法，相似度矩阵的计算公式如下：

$$S_{ij} =
\begin{cases}
1, & \text{if } x_i \text{ is one of the k nearest neighbors of } x_j \text{ or vice versa}\
0, & \text{otherwise}
\end{cases}$$

2）构建拉普拉斯矩阵

拉普拉斯矩阵的计算公式如下：

标准拉普拉斯矩阵：
$$L = D – S$$

对称归一化拉普拉斯矩阵：
$$L_{sym} = D^{-1/2}LD^{-1/2}$$

随机游走拉普拉斯矩阵：
$$L_{rw} = D^{-1}L$$

其中，D是度矩阵，定义为对角线元素为每个样本的度。

3）求解特征值问题

求解特征值问题可以通过矩阵特征值分解来实现。对于标准拉普拉斯矩阵，我们可以得到特征值和特征向量。

4）聚类

将特征向量按照特征值进行排序，选择前k个特征向量，然后将它们作为新的样本表示，使用其他聚类算法（如K-means）对这些新样本进行聚类。

计算步骤

谱聚类的计算步骤如下：

计算相似度矩阵（高斯核函数或K近邻方法）。
根据相似度矩阵构建拉普拉斯矩阵（标准拉普拉斯矩阵、对称归一化拉普拉斯矩阵或随机游走拉普拉斯矩阵）。
解特征值问题，得到特征向量和特征值。
将特征向量按照特征值排序，选择前k个特征向量，然后将它们作为新的样本表示。
使用其他聚类算法对新样本进行聚类，如K-means。

Python代码示例

下面是一个使用谱聚类算法实现聚类的Python代码示例。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import SpectralClustering

# 创建一个虚拟数据集（月亮形状）
X, labels_true = make_moons(n_samples=200, noise=0.05, random_state=0)

# 构建相似度矩阵
n_neighbors = 10
affinity_matrix = SpectralClustering(affinity='nearest_neighbors', n_neighbors=n_neighbors).fit(X).affinity_matrix_

# 谱聚类
n_clusters = 2
sc = SpectralClustering(n_clusters=n_clusters, affinity='precomputed')
sc.fit_predict(affinity_matrix)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=sc.labels_, cmap='viridis')
plt.title('Spectral Clustering')
plt.show()

代码细节解释

首先，我们使用make_moons函数创建了一个月亮形状的虚拟数据集，并保存了对应的真实类标签。
然后，我们通过SpectralClustering类的fit方法计算了相似度矩阵。在这个例子中，我们使用了最近邻方法来计算相似度矩阵，并选择了10个最近邻居。
接下来，我们创建了一个SpectralClustering对象，并使用fit_predict方法进行谱聚类，同时传入相似度矩阵作为参数。
最后，我们使用matplotlib库绘制了原始数据点，并按照聚类结果给它们着色。

2. DBSCAN聚类

DBSCAN聚类是一种基于密度的聚类方法，能够有效地发现具有变化密度的数据集中的簇。下面我们将详细介绍DBSCAN聚类的算法原理、公式推导、计算步骤和代码示例。

算法原理

DBSCAN聚类的核心思想是通过定义半径和密度阈值来确定核心点、边界点和噪声点，并根据核心点之间的密度可达关系将数据点划分为不同的簇。

密度可达：对于两个样本点$x$和$y$，如果存在一个$x$到$y$的样本点序列$p_1, p_2, …, p_n$，满足$p_1 = x, p_n = y$，且$p_{i+1}$是$p_i$的直接密度可达邻居（即$p_i$和$p_{i+1}$之间的距离小于半径$\varepsilon$，且$p_{i+1}$是$p_i$的核心点），则称$y$是$x$的密度可达点。
密度可达领域：对于样本点$x$，其密度可达领域包含所有与$x$密度可达的样本点。
核心点：如果样本点$x$的密度可达领域中包含至少$MinPts$个样本点，即密度可达领域中样本点个数大于$MinPts$，则称$x$为核心点。
边界点：如果样本点$x$不是核心点，但是$x$的密度可达领域中包含一个核心点，则称$x$为边界点。
噪声点：既不是核心点也不是边界点的样本点称为噪声点。

DBSCAN聚类的过程如下：

对于每个样本点$x$，计算其密度可达领域。
根据核心点之间的密度可达关系将样本点划分为不同的簇。
其他未被分配到任何簇的样本点被标记为噪声点。

计算步骤

DBSCAN聚类的计算步骤如下：

计算每个样本点的密度可达领域，找出核心点。
根据核心点之间的密度可达关系将样本点划分为不同的簇。
将未被分配到任何簇的样本点标记为噪声点。

Python代码示例

下面是一个使用DBSCAN聚类算法实现聚类的Python代码示例。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN

# 创建一个虚拟数据集（月亮形状）
X, labels_true = make_moons(n_samples=200, noise=0.05, random_state=0)

# DBSCAN聚类
eps = 0.3 # 半径
min_samples = 5 # 密度阈值
db = DBSCAN(eps=eps, min_samples=min_samples)
db.fit(X)

# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=db.labels_, cmap='viridis')
plt.title('DBSCAN Clustering')
plt.show()

代码细节解释

首先，我们使用make_moons函数创建了一个月亮形状的虚拟数据集，并保存了对应的真实类标签。
然后，我们创建了一个DBSCAN对象，并使用fit方法进行DBSCAN聚类。
最后，我们使用matplotlib库绘制了原始数据点，并按照聚类结果给它们着色。

通过上述例子，你可以更好地理解和使用半监督学习中的谱聚类和DBSCAN聚类方法。同时，你也应该根据实际问题的需求选择适合的聚类算法和参数，以获得更好的聚类效果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822260/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

十五、非监督学习

\qquad监督学习和非监督学习的本质区别在于，数据集是否是带有”标签”的，当数据集是有标签的，则属于监督学习的范畴；当数据集没有标签，则属于非监督学习的范…

人工智能 2023年5月31日
0091
[巩固培元]Python文件操作案例——用户登录

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！🏆📃个人主页：Philosophy7的csdn博客🔥系列专栏：Python💖如果觉得博主的文章还不错的话，请点…

人工智能 2023年7月5日
00113
SpringBoot+Mybaits搭建通用管理系统实例六：登录健权框架实现下

; 一、本章内容接上一章实现系统登录功能，本章实现短信验证码登录、二维码扫码登录、图片验证码生成等。完整课程地址源码下载地址 ; 二、开发视频 SpringBoot+Myba…

人工智能 2023年6月29日
00132
第十一课：树莓派语音控制空调

目录一、硬件平台准备二、软件平台准备三、空调解码 (1) 第一步：编解码模块与TTL串口连接 (2)获取空调解码值（遥控器对着编解码模块按下）四、语音模块(采用云平台设置语…

人工智能 2023年5月25日
00109
软件测试基本概念

目录本章要点什么是软件测试? 软件测试的特定? 软件测试和开发的区别? 软件测试和软件开发中的调试有什么区别? 软件测试在不同公司的定位? 一个优秀的测试人员应该具备的素质(你…

人工智能 2023年6月29日
0065
K均值聚类算法

K均值聚类 K均值聚类的概念 1.1 什么是聚类 1.2 K-means的原理 1.3 K-means的步骤 1.4 K-means的数学描述 K值选择问题 2.1 拍脑袋法 2….

人工智能 2023年5月31日
0069
LIO-SAM从0到1运行自己的数据集

LIO-SAM从0到1运行自己的数据集前言笔者在学习LIO_SAM时踩了不少坑，在此记录从开始到最后整个踩坑过程。文中参考了很多大佬的文章，我只是个搬运工。可以直接跳到第二…

人工智能 2023年6月23日
0094
Opencv学习笔记使用opencv读取mp4并生成Gif动图

一、概述和简单示例这里，我们讲述使用opencv和imageio两个库，读取mp4视频文件，并生成gif图片进行保存。这里需要安装这两个库，请自行安装。基本流程如下： 1、使用…

人工智能 2023年7月18日
0074
docker日常使用命令大全

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月27日
0082
Dijkstra算法详解附完整python代码

1.定义是从一个顶点到其余各顶点的最短路径算法，解决的是有权图中最短路径问题。迪杰斯特拉算法主要特点是：从起始点开始，采用贪心算法的策略，每次遍历到始点距离最近且未访问过的顶点…

人工智能 2023年7月6日
00125
Apollo规划决策算法仿真调试(5):动态障碍物绕行

Apollo (阿波罗)是一个开放的、完整的、安全的平台，将帮助汽车行业及自动驾驶领域的合作伙伴结合车辆和硬件系统，快速搭建一套属于自己的自动驾驶系统。Apollo 自动驾驶开放平…

人工智能 2023年6月16日
0084
tensorflow2.3实现PPLCNet——一个速度更快、准确率更高的轻量级骨干网络

前言 PPLCNet是百度团队结合Intel-CPU端侧推理特性而设计的轻量高性能网络PP-LCNet，所提方案在图像分类任务上取得了比ShuffleNetV2、MobileNet…

人工智能 2023年5月23日
0074
【阅读笔记】Towards Personalized Federated Learning个性化联邦综述

文章目录前言 1 背景 * 1.1 机器学习、联邦学习 1.2 促进个性化联邦学习的动机 2 个性化联邦学习的策略 * 2.1 全局模型个性化 – 2.1.1 基于数…

人工智能 2023年6月24日
0084
卷积神经网络（convolutional neural network, CNN）

基本定义卷积神经网络(convolutional neural network, CNN)，是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络是受生物学上感受野（Re…

人工智能 2023年7月27日
0052
李宏毅自然语言处理——GPT3简介

引言今天来介绍下牛逼的GPT-3 1，它是一个拥有1750亿参数的巨大的自回归(autoregressive)语言模型。 GPT-3简介之前最大的语言模型是Turing NLG…

人工智能 2023年5月27日
0053
【机器视觉案例】(14) 手部识别，手势演示PPT，附python完整代码

各位同学好，今天和大家分享一下如何使用 opencv+Mediapipe通过手势识别来演示PPT，先放张图看效果。当只有大拇指翘起时，向左翻页；当只有小拇指翘起时，向右翻页；当食…

人工智能 2023年6月19日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

半监督学习中的聚类方法有哪些

问题：关于半监督学习中的聚类方法有哪些？

1. 谱聚类

算法原理

公式推导

1）计算相似度矩阵

2）构建拉普拉斯矩阵

3）求解特征值问题

4）聚类

计算步骤

Python代码示例

代码细节解释

2. DBSCAN聚类

算法原理

计算步骤

Python代码示例

代码细节解释

大家都在看