深度学习：标签平滑（Label Smoothing Regularization）

2023年6月17日上午4:16 • 人工智能 • 阅读 78

1.标签平滑的作用—防止过拟合

在进行多分类时，很多时候采用one-hot标签进行计算交叉熵损失，而单纯的交叉熵损失时，只考虑到了正确标签的位置的损失，而忽略了错误标签位置的损失。这样导致模型可能会在训练集上拟合的非常好，但由于其错误标签位置的损失没有计算，导致预测的时候，预测错误的概率比较大，也就是常说的过拟合。
标签平滑可以在一定程度上防止过拟合。

2. 传统的交叉熵损失计算

Step1: softmax多分类
P i = e z i ∑ i = 1 n e z i P_i = { e^{z_i} \over {\sum_{i=1}^{n} e^{z_i}} }P i =∑i =1 n e z i e z i
其中，p i p_i p i 为当前样本属于类别i i i的概率，z i z_i z i 指当前样本的对应类别i i i的l o g i t logit l o g i t, n表示样本的总列别数。
Step2: 交叉熵损失计算公式：
c r o s s L o s s = − 1 M ∑ m = 1 M ∑ i = 1 n y i l o g p i crossLoss = – {1 \over M} {\sum_{m=1}^M {\sum_{i=1}^n}} y_ilog{p_i}cross L oss =−M 1 m =1 ∑M i =1 ∑n y i l o g p i
其中，M M M表示样本综述。
实例：
假设一批样本，样本类别的总数n=5, 其中一个样本的one-hot标签为[ 0 , 0 , 0 , 1 , 0 ] [0,0,0,1,0][0 ,0 ,0 ,1 ,0 ],假设通过模型（如全连接等）的l o g i t logit l o g i t进行softmax后的概率矩阵p p p为：
p = [ 0.1 , 0.1 , 0.1 , 0.36 , 0.34 ] p = [0.1,0.1,0.1, 0.36, 0.34]p =[0.1 ,0.1 ,0.1 ,0.36 ,0.34 ]
将其带入到上面的公式，即可计算出单个样本的loss为：
l o s s = − ( 0 ∗ l o g 0.1 + 0 ∗ l o g 0.1 + 0 ∗ l o g 0.1 + 1 ∗ l o g 0.36 + 0 ∗ l o g 0.34 ) = − l o g 0.36 = 1.47 loss = -(0log0.1+0log0.1+0log0.1+1log0.36+0*log0.34) = -log0.36=1.47 l oss =−(0 ∗l o g 0.1 +0 ∗l o g 0.1 +0 ∗l o g 0.1 +1 ∗l o g 0.36 +0 ∗l o g 0.34 )=−l o g 0.36 =1.47
这种传统计算交叉熵损失只考虑了正确标签位置的损失，而没有考虑错误标签的损失。下面让我们看看带有标签平滑的交叉熵损失是怎样计算的吧。

3.带有标签平滑的交叉熵损失的计算

同样是上面的例子：一批样本，样本类别的总数n=5, 其中一个样本的one-hot标签为[ 0 , 0 , 0 , 1 , 0 ] [0,0,0,1,0][0 ,0 ,0 ,1 ,0 ],假设通过模型（如全连接等）的l o g i t logit l o g i t进行softmax后的概率矩阵p p p为：
p = [ 0.1 , 0.1 , 0.1 , 0.36 , 0.34 ] p = [0.1,0.1,0.1, 0.36, 0.34]p =[0.1 ,0.1 ,0.1 ,0.36 ,0.34 ]
设：标签的平滑因子ϵ = 0.1 \epsilon=0.1 ϵ=0.1,平滑的计算步骤如下：
y 1 = ( 1 − ϵ ) ∗ [ 0 , 0 , 0 , 1 , 0 ] = [ 0 , 0 , 0 , 0.9 , 0 ] y1 = (1-\epsilon)[0,0,0,1,0] = [0,0,0,0.9,0]y 1 =(1 −ϵ)∗[0 ,0 ,0 ,1 ,0 ]=[0 ,0 ,0 ,0.9 ,0 ]
y 2 = ϵ ∗ [ 1 , 1 , 1 , 1 , 1 ] / 5 = [ 0.1 , 0.1 , 0.1 , 0.1 , 0.1 ] / 5 = [ 0.02 , 0.02 , 0.02 , 0.02 , 0.02 ] y2 = \epsilon[1,1,1,1,1] / 5= [0.1,0.1,0.1,0.1,0.1]/5 = [0.02, 0.02, 0.02, 0.02, 0.02]y 2 =ϵ∗[1 ,1 ,1 ,1 ,1 ]/5 =[0.1 ,0.1 ,0.1 ,0.1 ,0.1 ]/5 =[0.02 ,0.02 ,0.02 ,0.02 ,0.02 ]
y = y 1 + y 2 = [ 0.02 , 0.02 , 0.02 , 0.92 , 0.02 ] y = y1+y2 = [0.02,0.02,0.02,0.92, 0.02]y =y 1 +y 2 =[0.02 ,0.02 ,0.02 ,0.92 ,0.02 ]
y y y即是平滑后的新标签，然后按照传统的交叉熵损失计算步骤即可,如：
l o s s = − y ∗ l o g p = − [ 0.02 , 0.02 , 0.02 , 0.92 , 0.02 ] ∗ l o g ( [ 0.1 , 0.1 , 0.1 , 0.36 , 0.34 ] ) = 2.63 loss=-ylogp = -[0.02,0.02,0.02,0.92, 0.02] log([0.1,0.1,0.1,0.36,0.34])=2.63 l oss =−y ∗l o g p =−[0.02 ,0.02 ,0.02 ,0.92 ,0.02 ]∗l o g ([0.1 ,0.1 ,0.1 ,0.36 ,0.34 ])=2.63

4.标签平滑与传统的交叉熵损失的比较与分析

有上面实例可以看出，带有标签平滑的损失要比传统交叉熵损失要更大。换言之，带有标签平滑的损失要想下降到传统交叉熵损失的程度，就要学习的更好，迫使模型往正确分类的方向走。

5. 标签平滑的应用场景

只要用到的是交叉熵损失（cross loss）,都可以采取标签平滑处理。

6.pytorch的实现与使用

import torch
import torch.nn as nn
import torch.nn.functional as F

class CELossWithLabelSmoothing(nn.Module):
    ''' Cross Entropy Loss with label smoothing '''
    def __init__(self, label_smooth=0.1, class_num=3755):
        super().__init__()
        self.label_smooth = label_smooth
        self.class_num = class_num

    def forward(self, pred, target):
        '''
        Args:
            pred: prediction of model output    [N, M]
            target: ground truth of sampler [N]
        '''
        eps = 1e-12

        if self.label_smooth is not None:

            logprobs = F.log_softmax(pred, dim=1)
            target = F.one_hot(target, self.class_num)

            target = torch.clamp(target.float(), min=self.label_smooth / (self.class_num - 1),
                                 max=1.0 - self.label_smooth)
            loss = -1 * torch.sum(target * logprobs, 1)

        else:

            loss = -1. * pred.gather(1, target.unsqueeze(-1)) + torch.log(torch.exp(pred + eps).sum(dim=1))

        return loss.mean()

if __name__ == '__main__':
    loss2 = CELossWithLabelSmoothing(label_smooth=0.2, class_num=3)
    x = torch.tensor([[0.1, 8, 0.1], [0.1, 0.1, 8]], dtype=torch.float)
    y = torch.tensor([1, 2])
    print(loss2(x, y))

Original: https://blog.csdn.net/qq_41915623/article/details/124852409
Author: 陈壮实的搬砖生活
Title: 深度学习：标签平滑（Label Smoothing Regularization）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628450/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022最新：TensorFlow各个GPU版本CUDA和cuDNN对应版本整理(最简洁)

CUDA与显卡驱动：https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html TensorFlow-GP…

人工智能 2023年7月27日
00134
【综述】一文读懂卷积神经网络(CNN)

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Netwo…

人工智能 2023年6月25日
0052
web网页设计期末课程大作业：美食餐饮文化主题网站设计——中华美德6页面HTML+CSS+JavaScript

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月26日
00112
R语言使用car包的durbinWatsonTest函数检验回归模型的响应变量（或者残差）是否具有独立性（Independence、是否具有自相关关javascript系autocorrelated）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0070
人脸关键点检测原理及实战

人脸关键点概述：人脸关键点检测是人脸识别和分析领域中的关键任务，是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其他人脸相关问题的基础任务。人脸关键点和我们传统说的HOG以…

人工智能 2023年5月23日
0073
Apollo Planning决策规划算法代码详解 (22):决策规划算法最完整介绍

前言：后台已经完成Apollo Planning决策规划算法的完整解析，从规划模块的入口OnLanePlanning开始，介绍到常见的规划器PublicRoadPlanner；接…

人工智能 2023年6月23日
0070
Ubuntu安装OpenCV3.4.5（两种方法&&图文详解）

博主在ubuntu20.04系统上又需要安装opencv，此前在18.04上安装过多次opencv，对计算机视觉开源库还是比较熟悉，本次安装记录下详细过程，方便后来同学少走弯路。 …

人工智能 2023年7月27日
0078
[ 常用工具篇 ] 解决 kali 下载速度软件慢的问题 — kali换源

🍬 博主介绍 👨‍🎓 博主介绍：大家好，我是 _PowerShell ，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】🎉点赞➕评论➕…

人工智能 2023年6月30日
00117
图像处理之理想带阻滤波器、巴特沃斯带阻滤波器和高斯带阻滤波器的matlab实现去噪

一、前言带阻滤波器是用来抑制距离频域中心一定距离的一个圆环区域的频率，可以用来消除一定频率范围的周期噪声。带阻滤波器包括理想带阻滤波器、巴特沃斯带阻滤波器和高斯带阻滤波器。对于…

人工智能 2023年6月17日
0083
【保姆级攻略】Tensorflow，Pytorch虚拟环境安装

在研究生院第一学期开始的时候，我的导师告诉我要寄一份论文给我练习。我受不了这样的打击。 [En] At the beginning of the first semester of…

人工智能 2023年5月24日
0062
Mask R-CNN讲解

文章目录一：Mask R-CNN的横空出世二：网络架构 * 【Backbone】【RPN】【ProposalLayer】【DetectionTargetLayer】【R…

人工智能 2023年6月17日
00149
计算机组成原理中的诸如4k*8位，8K*8位之类的是什么意思

1.这个一般是用来描述存储体的首先我们先搞懂单位的转换： 1024b（位）=1k，那4k就是1024k*4=4096位，我们再来看4k*8位中的4k是什么意思：计算机组成原…

人工智能 2023年6月29日
0060
关于图像的傅里叶变换的理解

最近再学opencv关于图像的傅里叶变换的知识，自己感觉很难理解，查阅相关书籍和博客发现很多写的都比较含糊。下面是转载自知乎一个博主关于图像的傅里叶变换的通俗解释：通俗讲解：图像傅…

人工智能 2023年6月18日
0078
Golang学习之路5-结构体/类封装等使用

文章目录前言一、结构体 * 1.声明结构体 2.匿名结构体二、类 * 1.封装及绑定 2.继承 3.多态及接口 4.类访问权限总结前言 go语言支持类的操作，但是没有cl…

人工智能 2023年6月27日
0067
#Paper Reading#Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda

论文题目：Contrastive Learning for Representation Degeneration Problem in Sequential Recommenda…

人工智能 2023年7月17日
0047
基于Paddle2.0的新冠X-射线图像分类

目录前言一、数据准备 * 1. 调库 2. 数据划分 3. 初始化数据集二、搭建模型 * 1.ResNet 2. DenseNet 3.MLP-mixer 三、模型训练四、…

人工智能 2023年7月1日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30