半监督学习的局限性是什么

2024年1月1日上午2:13 • 人工智能 • 阅读 37

问题：半监督学习的局限性是什么？

在机器学习任务中，标记数据往往是非常昂贵和耗时的。然而，对于许多任务来说，从未标记的数据中获取额外信息可能是可行的。这就是半监督学习出现的背景。半监督学习是一种机器学习方法，其中算法利用有标记数据和未标记数据来进行训练和预测。尽管半监督学习在某些场景下表现出色，但它也存在一些局限性。

算法原理

半监督学习的核心思想是利用未标记数据中的信息来提高训练模型的性能。常见的半监督学习算法包括自学习（Self-Training）、标签传播（Label Propagation）和生成式模型（Generative Model）等。

以自学习为例，该算法基于以下两个假设：
1. 决策边界附近的未标记样本更有可能属于与其最近的已标记样本所属的类别；
2. 预测模型的置信度高的样本预测结果更可信。

算法原理如下：
1. 使用标记数据训练初始模型；
2. 使用初始模型对未标记数据进行预测，并选择置信度高的样本加入训练集；
3. 将新的训练集（包含旧的标记数据和新加入的未标记数据）用于重新训练模型；
4. 重复步骤2和3，直到收敛或达到预定迭代次数。

公式推导

假设分类任务存在多个已标记样本$(X_l, Y_l)$和未标记样本$X_u$，其中$X_l \in \mathbb{R}^{n_l \times m}$表示已标记样本的特征矩阵，$Y_l \in \mathbb{R}^{n_l \times k}$表示已标记样本的标签矩阵（每个样本是一个长度为k的one-hot向量），$X_u \in \mathbb{R}^{n_u \times m}$表示未标记样本的特征矩阵。

自学习算法的损失函数为：
$$L(X_l, Y_l, X_u) = L_s(X_l, Y_l) + \lambda \cdot L_u(X_u)$$
其中，$L_s$表示使用已标记数据的损失函数，$L_u$表示使用未标记数据的损失函数，$\lambda$是平衡两个损失的超参数。

计算步骤

自学习算法的计算步骤如下：
1. 使用已标记数据$(X_l, Y_l)$训练初始模型；
2. 使用初始模型对未标记数据$X_u$进行预测，选择置信度高的样本加入已标记数据$X_l$中；
3. 使用扩充后的已标记数据$X_l$重新训练模型；
4. 重复步骤2和3，直到模型性能不再提升或达到预定迭代次数。

代码示例

下面以半监督学习中的自学习算法为例，展示一个完整的Python代码示例。假设我们使用sklearn库中的LogisticRegression算法。

import numpy as np
from sklearn.linear_model import LogisticRegression

def self_training(X_l, Y_l, X_u, max_iterations=10):
 model = LogisticRegression() # 使用Logistic回归模型
 for _ in range(max_iterations):
 model.fit(X_l, Y_l) # 使用已标记数据训练模型
 Y_u_pred = model.predict(X_u) # 对未标记数据进行预测

 # 根据预测结果选择置信度高的样本加入已标记数据
 confident_samples = (model.predict_proba(X_u).max(axis=1) > 0.8)
 X_l = np.vstack([X_l, X_u[confident_samples]])
 Y_l = np.vstack([Y_l, Y_u_pred[confident_samples]])

 return model

# 使用示例数据进行半监督学习
X_l = np.array([[1, 2], [3, 4], [5, 6]]) # 已标记数据特征
Y_l = np.array([[0, 1], [1, 0], [0, 1]]) # 已标记数据标签（one-hot编码）
X_u = np.array([[7, 8], [9, 10]]) # 未标记数据特征

model = self_training(X_l, Y_l, X_u) # 自学习算法

在代码示例中，我们首先定义了一个self_training函数，该函数接受已标记数据X_l和对应的标签Y_l，以及未标记数据X_u作为输入。函数中使用Logistic回归模型进行训练，并在每次迭代中根据预测结果选择置信度高的样本加入已标记数据。最终，函数返回训练好的模型。

在示例中，已标记数据X_l为3个样本，2个特征，标签Y_l为每个样本的one-hot编码。未标记数据X_u为2个样本，2个特征。通过调用self_training函数，我们可以得到一个经过半监督学习训练得到的模型model。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822268/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

重新定义车载语音交互：服务“全家人”的“自由对话”

车载智能语音已经成为日常车辆非常重要的高频功能之一，但目前绝大多数语音交互系统的体验并不尽如人意。 [En] In-vehicle intelligent voice has be…

人工智能 2023年5月27日
0051
遥感影像数据集-DOTA

遥感影像的数据集大多数都包含了角度信息，并且目标相对较小，传统的目标检测在遥感影像的处理上效果不佳，比较常用的数据集有nwpu数据集和dota数据集，dota数据集来源谷歌地图，分…

人工智能 2023年6月10日
00110
MQ 概念介绍 / 配置以及原理简书

文章目录 1、什么是MQ 2、MQ的多种产品 3、MQ的工作原理 4、ActiveMQ 的配置 5、ActiveMQ 的数据存储方式 6、ActiveMQ的主从服务 7、Activ…

人工智能 2023年7月30日
0053
java计算机毕业设计的健身房管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0079
【老生谈算法】matlab实现图像压缩算法源码——图像压缩

; matlab图像压缩算法详解 1、文档下载：本算法已经整理成文档如下，有需要的朋友可以点击进行下载序号文档（点击下载）本项目文档【老生谈算法】图像压缩试验matlab….

人工智能 2023年6月20日
0077
逻辑斯蒂回归

对数回归就是逻辑斯蒂回归,log 逻辑斯蒂回归使用sigmod 函数：逻辑斯蒂回归的损失函数为什么选择使用最大似然函数的方式？这就和最大似然估计的定义有关了，用参数估计的方式来使…

人工智能 2023年7月17日
0075
AttributeError: cannot assign module before Module.__init__() call

诸神缄默不语-个人CSDN博文目录运行环境，报错信息和查找到的错误内容：Linux系统Python 3.8（使用anaconda管理的虚拟环境）PyTorch 1.11+cuda…

人工智能 2023年7月6日
0047
用pointnet++分类自己的点云数据

目录一、简单介绍pointnet++ 1.1 三维数据的表示方法 1.2 pointnet算法 1.3 pointnet++算法的提出二、pointnet++如何运行自己的数据…

人工智能 2023年6月22日
0089
Canny边缘检测学习笔记

Canny检测步骤： 1.平滑：可以采用诸如高斯滤波等来对图像进行滤波。 2.对图像进行梯度的幅值计算和梯度的角度计算。 3.对上一步计算出来的梯度幅值进行非极大值抑制。 4.对非…

人工智能 2023年7月12日
0067
Python数据分析之道(Pandas)

一、概述 1、pandas是Python张处理大数据集的首选如啊年包，通常处理1GB左右的数据集，大于1GB通常建议使用其他软件库(如Vaex) 2、pandas == panel…

人工智能 2023年7月16日
0072
龙格-库塔(Runge-Kutta)方法C++实现

龙格-库塔(Runge-Kutta)方法是一种在工程上应用广泛的高精度单步算法。由于此算法精度高，采取措施对误差进行抑制，所以其实现原理也较复杂。该算法是构建在数学支持的基础之上的…

人工智能 2023年6月30日
00100
cuda安装失败原因汇总

目录一，cuda版本与显卡驱动的对应问题？二，cudnn与cuda的关系？三，cuda和cudnn如何使用？四，如何安装cv2？五，升级pip命令六，在cmd中提示缺少…

人工智能 2023年7月26日
00348
Pytorch自动混合精度(AMP)训练

相关问题：解决pytorch半精度amp训练nan问题 – 知乎 pytorch模型训练之fp16、apm、多GPU模型、梯度检查点（gradient checkpoi…

人工智能 2023年6月15日
00103
Canny边缘检测算法(python 实现）

文章目录最优边缘准则算法实现步骤 * 1. 应用高斯滤波来平滑(模糊)图像，目的是去除噪声 2. 计算梯度强度和方向 3. 应用非最大抑制技术NMS来消除边误检 4. 应用双阈…

人工智能 2023年5月26日
0088
毕设题目：Matlab疾病识别与分类

1 案例背景植物病虫害的识别是对植物保护和利用的基础,随着计算机图像识别技术的发展,利用计算机图像处理技术获取植物病虫害信息可以大大提高植物病虫害的识别效率。选择SVM工具箱和Ma…

人工智能 2023年7月3日
0063
Python 实现深度学习

写在最前, 我把代码和整理的文档放在github上了最近由于疫情被困在家，于是准备每天看点专业知识，准备写成博客，不定期发布。博客大概会写5~7篇，主要是”解剖&…

人工智能 2023年6月4日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30