损失函数解读之 Focal Loss

2023年6月23日下午9:46 • 人工智能 • 阅读 92

前言

Focal loss 是一个在目标检测领域常用的损失函数，它是何凯明大佬在RetinaNet网络中提出的，解决了目标检测中 正负样本极不平衡和 难分类样本学习的问题。

论文名称：Focal Loss for Dense Object Detection

什么是正负样本极不平衡？

目标检测算法为了定位目标会生成大量的anchor box（锚框），而一幅图中真实的目标(正样本)个数很少，大量的anchor box处于背景区域(负样本)，这就导致了正负样本极不平衡。

简单来说，正样本是预测的anchor box 框住了真实的目标；负样本是预测的anchor box 没有框住真实的目标，框了背景。由于正样本的数量太少、负样本的数据量太多，导致正负样本极不平衡。

two-stage 样本不平衡问题

先看看RPN中的 anchor box ，feature maps 的每一个点都配9个锚框，作为初始的检测框。虽然这样得到的检测框很不准确，但后面可通过 bounding box regression 来修正检测框的位置。

下面介绍那9个anchor boxes 锚框，先看看它的形状：

设 feature maps 的尺寸为 WH，那么总共有 WH*9个锚框。（W：feature maps的宽；H：feature maps 的高。）

two-stage方法在第一阶段生成候选框，RPN只是对anchor box进行简单背景和前景的区分，并不对类别进行区分，经过这一轮处理，过滤掉了大部分属于背景的anchor box，较大程度降低了anchor box正负样本的不平衡性。

注意：只是减轻了样本不平衡并没有解决样本不平衡。同时在第二阶段采用启发式采样(如：正负样本比1：3)或者OHEM进一步减轻正负样本不平衡的问题。

使用了anchor box机制的网络，通常就会出现样本不平衡问题。

one-stage 样本不平衡问题

one-stage方法为了提高检测速度，舍弃了生成候选框这一阶段，直接对anchor box进行难度更大的细分类，缺少了对anchor box的筛选过程。

看一下例子，预测了很多的框框，但正确包含物体的框框却很少。

交叉熵损失函数

为什么要介绍交叉熵损失函数呢？分类通常用到交叉熵的，而且Focal Loss 也是基于交叉熵进行改进的，先介绍一下交叉熵的原理，会更易于理解Focal Loss。

二分类交叉熵损失函数，公式定义如下：

现定义如下的

得到变形后的损失函数如下：

Focal Loss

由于存在正负样本极不平衡的问题，直接使用交叉熵损失函数，得到的效果不好。于是，首先平衡交叉熵。

一般为了解决类别不平衡的问题，会在损失函数中每个类别前增加一个权重因子

∈ [0, 1]来协调类别不平衡。使用

类似的方式定义

，得到二 分类平衡交叉熵损失函数：

平衡交叉熵采用

平衡 正负样本的重要性，但是没有区分 难易样本。

然后，类间不均衡较大会导致，交叉熵损失在训练的时候收到影响。易分类的样本的分类错误的损失占了整体损失的绝大部分，并主导梯度。Focal Loss在平衡交叉熵损失函数的基础上，增加一个调节因子降低易分类样本权重，聚焦于 困难样本的训练，其定义如下：

权重帮助处理了类别的不均衡。

其中，

是 调节因子，

≥ 0是可调节的 聚焦参数，下图展示了损失函数解读之 Focal Loss

∈ [0, 5]不同值时focal loss曲线

γ 控制曲线的形状. γ的值越大, 好分类样本的loss就越小, 我们就可以把模型的注意力投向那些难分类的样本. 一个大的 γ 让获得小loss的样本范围扩大了。同时，当 γ=0时，这个表达式就退化成了Cross Entropy Loss （交叉熵损失函数）。

在上图中，”蓝”线代表交叉熵损失。X轴即”预测为真实标签的概率”（为简单起见，将其称为pt）。Y轴是给定pt后Focal loss和CE的loss的值。

从图像中可以看出，当模型预测为真实标签的概率为0.6左右时，交叉熵损失仍在0.5左右。因此，为了在训练过程中减少损失，我们的模型将必须以更高的概率来预测到真实标签。换句话说， 交叉熵损失要求模型对自己的预测非常有信心。但这也同样会给模型表现带来负面影响。

深度学习模型会变得过度自信, 因此模型的泛化能力会下降.

当使用γ> 1的 Focal Loss可以减少”分类得好的样本”或者说”模型预测正确概率大”的样本的训练损失，而对于”难以分类的示例”，比如预测概率小于0.5的，则不会减小太多损失。

Focal Loss特点：

当很小时(样本难分，不管分的是否正确)，调节因子趋近1，损失函数中样本的权重不受影响；当很大时(样本易分，不管分的是否正确)，调节因子趋近0，损失函数中样本的权重下降很多
聚焦参数可以调节易分类样本权重的降低程度，越大权重降低程度越大

通过分析Focal Loss函数的特点可知，该损失函数降低了易分类样本的权重，聚焦在难分类样本上。

代码实现 Pytorch

class WeightedFocalLoss(nn.Module):
    "Non weighted version of Focal Loss"
    def __init__(self, alpha=.25, gamma=2):
            super(WeightedFocalLoss, self).__init__()
            self.alpha = torch.tensor([alpha, 1-alpha]).cuda()
            self.gamma = gamma

    def forward(self, inputs, targets):
            BCE_loss = F.binary_cross_entropy_with_logits(inputs, targets, reduction='none')
            targets = targets.type(torch.long)
            at = self.alpha.gather(0, targets.data.view(-1))
            pt = torch.exp(-BCE_loss)
            F_loss = at*(1-pt)**self.gamma * BCE_loss
            return F_loss.mean()

参考文章1：https://blog.csdn.net/qq_38675397/article/details/106496333

参考文章2：https://amaarora.github.io/2020/06/29/FocalLoss.html

Original: https://blog.csdn.net/qq_41204464/article/details/122671175
Author: 一颗小树x
Title: 损失函数解读之 Focal Loss

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/647957/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于知识图谱的医药领域问答项目实践中所遇到的问题

一、代码来源：中科院软件所刘焕勇老师在github上的开源项目原项目地址：https://github.com/liuhuanyong/QASystemOnMedicalKG修…

人工智能 2023年6月1日
0055
Python聊天框知识图谱(Neo4j图形数据库)课程实战：AIML语料库(中文)+Python后台+python前端交互聊天框+Neo4j图形数据库实现一个基本的智能回复聊天机械人。

Python聊天框：AIML语料库(中文)+Python后台+Python前端交互聊天框+Neo4j图形数据库实现一个智能回复聊天机械人（实现自学习功能）。我的AIML机械人…

人工智能 2023年6月1日
0071
目标检测学习笔记——mmdet的mmcv安装

目录一、windows下安装mmcv * 1、环境准备 – 安装git 安装visual studio community 2019 安装conda 安装对应版本的c…

人工智能 2023年6月24日
0076
EMNLP2020 | 近期必读Multilingual精选论文

**AMiner平台**由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图…

人工智能 2023年6月1日
0063
使用Iterm2终端连接腾讯云服务器并安装JDK8环境

本文主要是在mac系统下面，使用iterm2终端工具操作云服务器，并安装JDK8环境的记录。下载JDK 打开Oracle JDK8官网下载地址下载地址：https://www….

人工智能 2023年6月4日
0069
用YOLOv5ds训练自己的数据集，注意点！

这两天打算使用YOLOv5做一下实例分割，找到用YOLOv5ds训练自己的数据集——同时检测和分割_2021黑白灰的博客-CSDN博客_yolov5图像分割 Yolov5同时进行…

人工智能 2023年7月21日
0062
Node.js | Express+MongoDB 实现简易用户管理系统（一）（项目搭建 | RESTful API架构 | 前后端交互）

首先，需要安装 MongoDB 数据库和 Node.js 运行环境。然后，创建一个新的文件夹，命名为 myapp，进入该文件夹，打开终端窗口，输入以下命令，初始化项目： npm …

人工智能 2023年7月31日
0065
关于知识图谱标准化构建平台的思考：知识图谱只能做项目，不能做平台？

从知识图谱被大家所熟知之后，知识图谱自身已经成为”知识图谱+”的一个潮流，许多领域、许多行业在各个层级，都在大规模地进行知识图谱方面的结合尝试。而这种尝试，…

人工智能 2023年6月1日
00136
对数几率回归-逻辑回归

算法原理上一节内容讨论了如何使用线性模型进行回归模型，但要做回归任务要如何呢？只要找一个单调可微的函数将分类任务的真实标记y与线性回归模型的预测值联系起来在线性模型的基础上套一个…

人工智能 2023年6月18日
0066
pytorch之warm-up预热学习策略

文章目录一、warm-up * 1、什么是Warmup 2、为什么使用Warmup 3、Warmup的实现方法 – 3.1 constant warmup 3.1 g…

人工智能 2023年7月21日
0049
算法面试之RNN激活函数、权重共享

概述模拟人的阅读顺序N-Gram模型：认为一个词只和前面N-1个词有关循环神经网络RNN理论上可以往前(后)看任意多个词梯度消失或者梯度爆炸会导致梯度为0或NaN，进而无法继续训…

人工智能 2023年5月30日
0079
更简单的掩码图像建模框架SimMIM介绍和PyTorch代码实现

MAE发布以来，各种使用掩码技术的自监督掩码模型在其基础之上有了更进一步的研究。在本文中我们将探索一篇和MAE同期的工作：SimMIM: A Simple Framework fo…

人工智能 2023年7月13日
0060
OpenCV每日函数几何图像变换模块 (11) warpPerspective透视变换函数

一、概述对图像应用透视变换。函数 warpPerspective 使用指定的矩阵变换源图像：当设置了 WARP_INVERSE_MAP 标志时。否则，先用 invert 反转…

人工智能 2023年6月21日
0076
改进YOLOv5系列：15.添加SimAM注意力机制

最新创新点改进推荐 -💡统一使用 YOLO 代码框架，结合不同模块来构建不同的YOLO目标检测模型。 🔥 《芒果书》系列改进专栏内的改进文章，均包含多种模型改进方式，均适用于 Y…

人工智能 2023年6月15日
00128
Unity AVPro Video 加载视频第一秒图片与例子

使用AVPro Video 加载视频第一秒的图片原理：使用AVPro Video插件的MediaPlayermediaPlayer.OpenMedia(new MediaPath(…

人工智能 2023年6月26日
00158
解决方案：Error:module ‘cv2’ has no attribute ‘xfeatures2d’(anaconda无法安装opencv-python==3.4.2.16版本时)

1.问题描述：本人在anaconda+python3.9+opencv4.4.X的环境下，使用surf和sift函数时，会报出包括如下的错误： AttributeError: m…

人工智能 2023年7月20日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

损失函数解读 之 Focal Loss

前言

什么是正负样本极不平衡？

two-stage 样本不平衡问题

one-stage 样本不平衡问题

交叉熵 损失函数

Focal Loss

代码实现 Pytorch

大家都在看

损失函数解读之 Focal Loss

交叉熵损失函数