半监督学习如何处理存在标注错误的数据

2023年12月31日下午11:47 • 人工智能 • 阅读 53

问题背景和介绍

半监督学习（Semi-Supervised Learning）是一种机器学习任务，其中训练数据集中只有一小部分实例被标注，而大部分实例没有标注。在实际情况中，由于人工标注数据的成本较高，很多时候我们只能获得有限的标注数据，而半监督学习提供了一种有效的利用未标注数据来提升学习性能的方法。

在半监督学习中，处理存在标注错误的数据是一个常见的问题。标注错误可能是由于人为失误或者噪声引起的，而这些错误标签会影响半监督学习算法的性能。因此，我们需要找到一种方法来从错误标记数据中准确地学习出模型。

本文将详细介绍一个基于半监督学习的方法来处理存在标注错误的数据，并提供算法原理、公式推导、计算步骤和一个复杂的Python代码示例。

算法原理

基于图的半监督学习

基于图的半监督学习中，我们将未标注的数据点和其相邻的已标注数据点连接起来形成一个图结构。然后，我们根据图结构中的连接关系来推断未标注数据点的标签。

标签传播算法

标签传播算法是一种常见的基于图的半监督学习方法。它基于以下假设：相似的数据点在特征空间中应该具有相似的标签。

标签传播算法的基本思想是通过已标注数据点的标签信息来推导未标注数据点的标签。算法的主要步骤如下：
1. 构建一个图结构，其中数据点表示图的节点，连接关系表示图的边。
2. 初始化已标注数据点的标签。
3. 根据已标注数据点的标签信息，通过图的边逐步传播标签。
4. 当算法收敛或达到最大迭代次数时，停止传播。
5. 输出未标注数据点的标签作为最终结果。

公式推导

算法符号说明

$X$：输入的特征矩阵，包括已标注和未标注数据点的特征。
$Y_L$：已标注数据点的标签矩阵，其中的元素$y_i^l$表示数据点$i$的第$l$个标签。
$Y_U$：未标注数据点的标签矩阵，其中的元素$y_i^u$表示数据点$i$的第$l$个标签。
$W$：权重矩阵，表示数据点之间的相似性。
$D$：度矩阵，表示数据点的度。
$\alpha$：平滑参数，用于调节已标注和未标注数据点标签的平滑程度。
$\epsilon$：收敛阈值。
$T$：最大迭代次数。

Label Propagation算法

初始化已标注数据点的标签矩阵：$$Y_L^{(0)} = Y_L$$
初始化未标注数据点的标签矩阵：$$Y_U^{(0)} = 0$$
进行迭代直到收敛或达到最大迭代次数：
更新未标注数据点的标签矩阵：$$Y_U^{(t)} = \alpha WY_U^{(t-1)} + (1-\alpha)Y_L^{(t-1)}$$
如果 $||Y_U^{(t)} – Y_U^{(t-1)}|| < \epsilon$，则退出迭代
输出未标注数据点的标签矩阵作为最终结果。

计算步骤

构建图结构：
根据已标注数据点和未标注数据点的特征计算相似度矩阵。
根据相似度矩阵构建权重矩阵。
初始化已标注数据点的标签矩阵和未标注数据点的标签矩阵。
迭代更新未标注数据点的标签矩阵：
根据当前的未标注数据点的标签矩阵计算新的未标注数据点的标签矩阵。
如果迭代次数达到最大迭代次数或者达到收敛阈值，则停止迭代。
输出未标注数据点的标签矩阵作为最终结果。

代码示例

下面是一个使用Python实现的标签传播算法示例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics.pairwise import euclidean_distances

def label_propagation(X, Y_L, alpha, max_iter, epsilon):
 n = X.shape[0]
 W = np.exp(-euclidean_distances(X)**2) # 使用欧氏距离构建相似度矩阵
 D = np.diag(np.sum(W, axis=1)) # 构建度矩阵
 Y_U = np.zeros_like(Y_L) # 初始化未标注数据点的标签矩阵

 for t in range(max_iter):
 Y_U_new = alpha artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.dot(W, Y_U) + (1 - alpha) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls Y_L # 更新未标注数据点的标签矩阵
 if np.linalg.norm(Y_U_new - Y_U) < epsilon: # 判断是否达到收敛
 break
 Y_U = Y_U_new

 return Y_U

# 测试数据
X = np.array([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5]])
Y_L = np.array([[1, 0], [0, 1]]) # 已标注数据点的标签矩阵

# 参数设置
alpha = 0.8
max_iter = 100
epsilon = 1e-4

# 标签传播算法
Y_U = label_propagation(X, Y_L, alpha, max_iter, epsilon)
print("未标注数据点的标签矩阵：\n", Y_U)

在这个代码示例中，我们使用了label_propagation函数来实现标签传播算法。输入参数包括特征矩阵X和已标注数据点的标签矩阵Y_L，以及算法的相关参数。函数的返回值为未标注数据点的标签矩阵Y_U。

代码细节解释

首先，我们导入必要的库，包括NumPy、Matplotlib和euclidean_distances函数来计算欧几里得距离。
label_propagation函数定义了标签传播算法的实现。在函数内部，我们首先获得特征矩阵X的行数$n$。然后，我们使用特征矩阵X计算相似度矩阵W，并根据相似度矩阵构建度矩阵D。
我们使用numpy库来初始化未标注数据点的标签矩阵Y_U，大小与已标注数据点的标签矩阵Y_L相同。
在标签传播的迭代过程中，我们使用循环来更新未标注数据点的标签矩阵Y_U。在每次迭代中，我们首先计算新的未标注数据点的标签矩阵Y_U_new，然后检查是否满足收敛条件。
如果未标注数据点的标签矩阵没有达到收敛条件，则继续迭代。
最后，函数返回未标注数据点的标签矩阵Y_U作为最终结果。
在代码示例的后续部分，我们定义了测试数据和算法的参数。然后，我们调用label_propagation函数来执行标签传播算法，并打印未标注数据点的标签矩阵Y_U。

这就是一个处理存在标注错误的数据的半监督学习方法的完整示例。使用标签传播算法，我们可以通过图结构来推断存在标注错误的数据的正确标签，并提高半监督学习算法的性能。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822200/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

吴恩达机器学习课后习题（K-Means算法）

一、K-Means算法无监督学习区别于监督学习算法，无监督学习中没有标签y，算法需要根据输入的数据集直接将其进行区分为各簇，每簇数据有其聚类中心。K-Means算法为一种无监督学…

人工智能 2023年6月2日
0081
【论文笔记】A Survey of Visual Transformers（完结）

声明：本人是来自 γ 星球的外星人为了学习地球的深度学习知识的，好回去建设自己的家乡每周不定期更新自己的论文精读笔记，中心思想是两个字 — 易懂没啥事的兄弟姐妹们，…

人工智能 2023年7月13日
0072
Python问题：Original error was: No module named ‘numpy.core._multiarray_umath‘ 且多次出现cannot import name

此前系统背景： win10 python从3.6.8卸载重装为python3.7 import matplotlib.pyplot as plt import seaborn as…

人工智能 2023年6月15日
0064
Transformer 详解(上) — 编码器【附pytorch代码实现】

Transformer 详解（上）编码器 Transformer结构文本嵌入层位置编码注意力机制编码器之多头注意力机制层编码器之前馈全连接层规范化层和残差连接代码实现…

人工智能 2023年5月30日
0095
机器学习分类与回归问题与深度学习各类超参数介绍及网络搭建介绍

目录机器学习分类与回归问题与深度学习各类超参数介绍机器学习的分类与回归问题深度学习各类超参数介绍网络搭建介绍全连接层卷积层池化层激活函数 BN操作机器学习分类与回…

人工智能 2023年6月17日
0088
python –opencv图像处理Canny算子边缘检测(Roberts算子、Prewitt算子、Sobel算子、Laplacian算子、Scharr 算子、 LOG 算子)

边缘检测边缘检测是基于灰度突变来分割图像的常用方法，其实质是提取图像中不连续部分的特征。目前常见边缘检测算子有差分算子、 Roberts 算子、 Sobel 算子、 Prewit…

人工智能 2023年6月19日
0085
【笔记】机器视觉——工业相机

引言笔者整理了机器视觉中与工业相机相关的知识点，主要是参考一个B站UP主的视频内容，个人觉得UP主概括的很好，大家可以回访支持一下！链接：机器视觉 1 机器视觉产业链（1）材料…

人工智能 2023年6月19日
0074
Pytorch中的广播机制（Broadcast）

1. Pytorch中的广播机制如果一个Pytorch运算支持广播的话，那么就意味着传给这个运算的参数会被自动扩张成相同的size，在不复制数据的情况下就能进行运算，整个过程可以…

人工智能 2023年7月21日
0062
避免繁琐步骤，在Ubuntu22.04安装cuda、cudnn及pytorch

1. 换源国内用户建议改为国内源，比如为清华源、阿里源等。更改后在终端运行： $: sudo apt update 2. 终端运行命令直接安装显卡驱动运行： $: ubuntu-d…

人工智能 2023年6月16日
0071
python数据分析案例，心脏病预测

心脏病是一类比较常见的循环系统疾病。它作为全球第一大杀手，是我们不得不提前防御的疾病。我从kaggle上下载了一份心脏病数据集，利用python找出一些规律，看下哪些特征对于确诊心…

人工智能 2023年7月16日
0054
PyTorch搭建循环神经网络(RNN)实现字符串转换

RNN介绍循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所…

人工智能 2023年7月14日
0053
Skimage.measure 的compare_psnr和compare_ssim的改动

最近看一个代码里面计算psnr和ssim使用的是老版本的用法，代码跑不起来。 from skimage.measure import compare_psnr,compare_ss…

人工智能 2023年7月5日
0067
实现影像组学全流程

对一篇影像组学的的论文（《Development and validation of an MRI-based radiomics nomogram for distinguish…

人工智能 2023年6月15日
0093
黑马程序员—三天快速入门Python机器学习（第一天）

机器学习入门一、机器学习概述 * 1.1 人工智能概述 – 1.1.1 机器学习与人工智能、深度学习 1.1.2 机器学习、深度学习能做什么 1.1.3 人工智能阶段…

人工智能 2023年6月12日
0073
关系数据库

关系模型由关系数据结构、关系操作和关系完整性三部分组成。以关系数据模型为基础的数据库系统，称为关系数据库系统。关系的定义和性质在关系模型中，只包含单一的数据结构——关系，即现实…

人工智能 2023年6月10日
0058
Anacoda + pytorch 环境下安装 DGL_GPU

首先假设您已安装了 pytorch 虚拟环境在 cmd 中输入命令查看 cuda 版本 nvcc –version 打开 https://www.dgl.ai/pages/st…

人工智能 2023年7月22日
00389

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31