半监督学习如何解决标签噪声问题

2024年1月1日上午1:54 • 人工智能 • 阅读 28

问题描述

半监督学习是一种在标注数据较少或有噪声的情况下进行模型训练的方法。标签噪声指的是数据集中存在错误的标签，这可能是由于人工标注错误或数据收集过程中的问题导致的。本文将介绍如何使用半监督学习方法来解决标签噪声问题。

算法原理

半监督学习方法利用未标注数据的信息，通过在标注数据上建立模型，并使用未标注数据进行模型训练来提高模型的性能。其核心思想是认为未标注数据和标注数据具有相同的分布，因此可以利用未标注数据的信息来帮助模型学习。

传统的半监督学习方法主要有两类：基于生成模型和基于判别模型。基于生成模型的方法假设数据是由隐变量生成的，通过建模隐变量和观测变量的联合概率分布来进行学习。基于判别模型的方法则直接对条件概率分布进行建模。在标签噪声问题中，我们通常使用基于判别模型的方法。

一个常用的半监督学习方法是自训练(Self-training)。自训练将训练数据分为标签数据和未标签数据，首先使用标签数据训练一个模型，然后利用该模型对未标签数据进行标签预测，并将预测结果中的高置信度样本加入标签数据中继续训练，迭代此过程直到达到停止条件。

公式推导

自训练算法

假设训练数据由标签数据集$L$和未标签数据集$U$组成，其中$L={(x_i,y_i)}{i=1}^m$，$U={x_i}{i=1}^n$。$x_i$是输入特征，$y_i$是标签。

自训练算法的目标是最小化损失函数$Loss(\theta)$，其中$\theta$是模型参数。损失函数可以是任意合适的形式，如交叉熵损失或均方误差损失。

算法的步骤如下：
1. 利用标签数据$L$训练初始模型：
$$\theta = \arg\min_\theta \sum_{(x_i, y_i)\in L} Loss(x_i, y_i,\theta)$$
2. 对未标签数据$U$进行预测：
$$y’i = \text{predict}(x_i, \theta)$$
3. 选择高置信度预测结果加入标签数据，得到新的标签数据集$L’$：
$$L’ = L \cup {(x_i, y’_i)|x_i\in U, y’_i \text{ has high confidence}}$$
4. 使用$L’$更新模型：
$$\theta = \arg\min\theta \sum_{(x_i, y_i)\in L’} Loss(x_i, y_i,\theta)$$
5. 重复步骤2至4，直到满足停止条件。

计算步骤

准备标签数据集$L$和未标签数据集$U$。
随机初始化模型参数$\theta$。
使用$L$训练初始模型，得到初始模型$\theta$。
对$U$进行预测，得到预测结果$y’$。
选择高置信度预测结果加入$L$，得到新的标签数据集$L’$。
使用$L’$更新模型，得到新的模型$\theta$。
判断是否满足停止条件，如果满足则停止迭代，否则返回步骤4继续迭代。

代码示例

下面是一个使用半监督学习方法解决标签噪声问题的示例代码：

import numpy as np

# 生成虚拟数据集
def generate_data(n_samples, noise_rate):
 X = np.random.randn(2 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls n_samples, 2)
 y = np.concatenate((np.ones(n_samples), -np.ones(n_samples)))
 y[:int(noise_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls n_samples)] = -y[:int(noise_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls n_samples)]
 np.random.shuffle(y)
 return X, y

# 自训练算法
def self_training(X, y, max_iter, threshold):
 # 初始化模型参数
 weights = np.random.randn(X.shape[1] + 1)

 for _ in range(max_iter):
 # 训练模型
 for i in range(X.shape[0]):
 prediction = np.sign(np.dot(weights[:-1], X[i]) + weights[-1])
 if prediction != y[i]:
 weights[:-1] += y[i] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls X[i]
 weights[-1] += y[i]

 # 对未标签数据进行预测
 unlabeled_data = X[np.where(y == 0)]
 unlabeled_predictions = np.sign(np.dot(unlabeled_data, weights[:-1]) + weights[-1])

 # 筛选高置信度预测结果
 confident_samples = unlabeled_data[np.where(np.abs(unlabeled_predictions) > threshold)]
 confident_predictions = unlabeled_predictions[np.where(np.abs(unlabeled_predictions) > threshold)]

 if len(confident_samples) == 0:
 break

 # 加入标签数据
 X = np.concatenate((X, confident_samples))
 y = np.concatenate((y, confident_predictions))

 return weights

# 生成数据集
X, y = generate_data(100, 0.1)

# 使用自训练算法解决标签噪声问题
weights = self_training(X, y, max_iter=10, threshold=0.9)

# 绘制决策边界
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))
Z = np.sign(np.dot(np.c_[xx.ravel(), yy.ravel()], weights[:-1]) + weights[-1])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.8)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Decision Boundary')
plt.show()

代码细节解释

generate_data函数用于生成虚拟数据集。参数n_samples指定样本数量，noise_rate指定标签噪声比例。函数返回生成的数据集。
self_training函数实现自训练算法。参数X是输入特征，y是标签数据，max_iter指定最大迭代次数，threshold指定置信度阈值。函数返回训练得到的模型参数。
自训练算法中使用感知机作为模型。具体实现中，使用随机梯度下降的方法进行模型参数的更新。
绘制决策边界时，使用等高线图显示模型的预测结果。

以上是使用半监督学习方法解决标签噪声问题的一个示例。通过迭代自训练过程，不断利用未标签数据的信息来提高模型的性能，从而解决标签噪声问题。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822256/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CVPR 2022 57 篇论文分方向整理 + 打包下载｜涵盖目标检测、语义分割、人群计数、异常检测等方向

2D 目标检测(2D Object Detection) 【1】Unknown-Aware Object Detection: Learning What You Don&#821…

人工智能 2023年7月10日
0066
2020李宏毅机器学习笔记——4.classification(分类）

一、classification分类 1.介绍分类分类（classification），即找一个函数判断输入数据所属的类别，可以是二类别问题（是/不是），也可以是多类别问题（在多…

人工智能 2023年7月3日
0077
〖Python 数据库开发实战 – MongoDB篇②〗- Mac环境下的MongoDB数据库安装

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0063
Pandas中五个常见操作小结

引言 Pandas是专门为 csv、excel等表格数据创建的数据分析、可视化和操作的第三方库。其中 DataFrame是一种二维数据结构，它一般是由行和列组…

人工智能 2023年7月6日
0073
使用mmsegmentation训练自己的模型

1. 学习前言 mmsegmentation是一个基于ptorch的语义分割代码库，其中复现了众多先进的分割模型。由于代码风格统一，功能齐全，我打算用mmseg来跑对比实验。本文…

人工智能 2023年5月28日
00124
seaborn小提琴图

小提琴图 (Violin Plot)将核密度图和箱线图融合在一起，显示多组数据的分布状态以及概率密度。因图形酷似小提琴而得名。小提琴图不常用，但在一些高分文章中常出现她优雅的身影。…

人工智能 2023年7月8日
0051
pytorch技巧五：自定义数据集 torch.utils.data.DataLoader 及Dataset的使用

pytorch技巧五：自定义数据集 torch.utils.data.DataLoader 及Dataset的使用本博客中有可直接运行的例子，便于直观的理解，在torch环境…

人工智能 2023年7月23日
0071
用例设计（记录东西，写给自己看的）

微信发送语音的测试用例设计: 功能测试1、不说话的时候发送语音, 是否会有相关的信息提示。2、说话分贝很轻很轻, 是否可以录入语言。3、普通的语音信息是否可以正常发送。4、语音录制…

人工智能 2023年5月23日
0077
机器学习python下数据分类方法

数据集分为训练集合测试集，分类方法包括留出法： Python环境下第三方软件库，Scikit-Learn中的函数 X_train, X_test, y_train, y_test…

人工智能 2023年7月3日
0076
java17+javaFX17+openCV4.5.5 实现远程桌面功能最全完整版

初学JAVA时做过一个远程桌面的功能，但是性能比较差，经过多年摸鱼，经验慢慢丰富，但也懒得改动之前学习用的代码了。碰巧前阵有个同学做毕业论文时问起我有没有这个程序，但我当初的代码…

人工智能 2023年7月19日
0059
全球及中国气体压缩机润滑油行业市场需求预测及投资前景分析分析报告2022-2028年

全球及中国气体压缩机润滑油行业市场需求预测及投资前景分析分析报告2022-2028年详情内容请咨询鸿晟信合研究院！【全新修订】：2022年2月【撰写单位】：鸿晟信合研究研究 20…

人工智能 2023年6月11日
0079
异常点检测算法工具库（pyod）介绍+代码

异常点检测算法工具库（pyod） * – 一、PyOD介绍 – 二、PyOD主要亮点 – 三、工具库相关重要信息汇总： – 四、作者…

人工智能 2023年7月28日
0072
编程资源分享2022

文章目录 1.热键脚本语言 2.Python学习网 3.学霸资源网 4.前端面试题宝典 5.vsCode代码补全工具 6.前端css工具 * 按钮样式边框圆角阴影格式化代码 …

人工智能 2023年6月27日
0073
Pandas 索引对齐、缺失值

开篇当在进行Series、DataFrame这两个对象的二元运算时，有稍不同于Numpy的处理方式。本篇将以组合不同来源的数据为起点，探究其中发生的索引对齐，过程中产生的缺失值…

人工智能 2023年7月16日
0069
深度学习入门——神经网络的学习（1）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、从数据中学习 * 1.数据驱动 2、训练数据和测试数据前言本章的主题是神经网络的学习。这里…

人工智能 2023年7月14日
0049
YOLO V6系列(二) — 网络结构解析

YOLO V6系列(二) – 网络结构解析在YOLO V6系列(一) – 跑通YOLO V6算法这篇blog中简单的介绍了YOLO V6算法的训练及测试过程。那么后面，尽可能地对…

人工智能 2023年5月26日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31