深度学习之目标检测（五）– RetinaNet网络结构详解

2023年5月26日上午4:31 • 人工智能 • 阅读 135

深度学习之目标检测（五）– RetinaNet网络结构详解

*
– 深度学习之目标检测（五）RetinaNet网络结构详解
–
+ 1. RetinaNet
+
* 1.1 backbone 部分
* 1.2 预测器部分
* 1.3 正负样本匹配
* 1.4 损失计算
+ 2. Focal Loss
+
* 2.1 Cross Entropy Loss
* 2.2 Balanced Cross Entropy
* 2.3 Focal Loss

深度学习之目标检测（五）RetinaNet网络结构详解

本章学习 RetinaNet 相关知识，学习视频源于 Bilibili，部分参考叙述源自知乎，感谢霹雳吧啦Wz，建议大家去看视频学习哦。

; 1. RetinaNet

RetinaNet 原始论文为发表于 2017 ICCV 的 Focal Loss for Dense Object Detection。one-stage 网络首次超越 two-stage 网络，拿下了 best student paper，仅管其在网络结构部分并没有颠覆性贡献。

; 1.1 backbone 部分

RetinaNet 网络详细结构如下所示，与 FPN 不同，FPN 会使用 C2，而 RetinaNet 则没有，因为 C2 生成的 P2 会占用更多的计算资源，所以作者直接从 C3 开始生产 P3。关于 backbone 部分和 FPN 部分基本类似，所以具体细节部分就不细讲了。第二个不同点在于 P6 这个地方，原论文是在 C5 的基础上生成的（最大池化下采样得到的），这里是根据 pytorch 官方的实现绘制的，是通过 3 × 3 3 \times 3 3 ×3 的卷积层来实现下采样的。第三个不同是 FPN 是从 P2 到 P6，而 RetinaNet 是从 P3 到 P7。

上图也给出了 P3 到 P7 上使用的 scale 和 ratios。在 FPN 中每个特征层上使用了一个 scale 和三个 ratios。在 RetinaNet 中是三个 scale 和三个 ratios 共计 9 个 anchor。注意，这里 scale 等于 32 对应的 anchor 的面积是 32 的平方的。所以在 RetinaNet 中最小的 scale 是 32，最大的则是接近 813。

; 1.2 预测器部分

由于 RetinaNet 是一个 one-stage 的网络，所以不用 ROI pooling，直接使用如下图所示的权重共享的基于卷积操作的预测器。预测器分为两个分支，分别预测每个 anchor 所属的类别，以及目标边界框回归参数。最后的 kA 中 k 是检测目标的类别个数，注意这里的 k 不包含背景类别，对于 PASCAL VOC 数据集的话就是 20。这里的 A 是预测特征层在每一个位置生成的 anchor 的个数，在这里就是 9。（现在基本都是这样的 类别不可知 anchor 回归参数预测，也可以理解为每一类共享了同一个 anchor 回归参数预测器）

1.3 正负样本匹配

针对每一个 anchor 与事先标注好的 GT box 进行比对，如果 iou 大于 0.5 则是正样本，如果某个 anchor 与所有的 GT box 的 iou 值都小于 0.4，则是负样本。其余的进行舍弃。

; 1.4 损失计算

本文一个核心的贡献点就是 focal loss。总损失依然分为两部分，一部分是分类损失，一部分是回归损失。Focal loss 比较独特的一个点就是正负样本都会来计算分类损失，然后仅对正样本进行回归损失的计算。回归损失在 SSD 以及 Faster R-CNN 中都有讲解，这里就不细说了。

2. Focal Loss

为了实现正负样本的比例均衡，不至于整个训练过程被负样本”淹没”，一般采取抽样的方法，将正负样本比例控制在1:3，从而在正负样本间保持合理的比例。因为 one-stage 只有一个阶段，产生的候选框相比 two-stage 要多太多。通常需要大约100K个位置（例如 SSD 的 8700+ 个位置），且这里面正样本几个十几个，少之又少。即使你抽样了，最后在训练过程中，还是会惊奇的发现，整个过程还是被大量容易区分的负样本，也就是背景所主导。Focal loss 则是一个动态缩放的交叉熵损失，一言以蔽之，通过一个动态缩放因子，可以动态降低训练过程中易区分样本的权重，从而将 loss 的重心快速聚焦在 那些难区分的样本上 (注意：难以区分的样本不一定是正样本)。

; 2.1 Cross Entropy Loss

Focal loss的起源是二分类交叉熵 CE，它的形式是这样的：

在上式中，y y y 的取值有 1 和 -1 两种，代表前景和背景。p p p 的取值范围是 [0,1]，是模型预测的属于前景的概率，为了表示方便，定义一个 P t P_t P t ，如下所示：

综合(1)(2)两个式子就可以得到：
C E ( p , y ) = C E ( p t ) = − log ⁡ ( p t ) . CE(p,y) = CE(p_t) = −\log(p_t).C E (p ,y )=C E (p t )=−lo g (p t ).

CE 曲线就是下图中的蓝色曲线，可以看到，相比较其他曲线，蓝色线条是变化最平缓的，即使在 p > 0.5 p>0.5 p >0 .5 (已经属于很好区分的样本)的情况下，它的损失相对于其他曲线仍然是高的，尽管它相对于自己前面的已经下降很多了，但是当数量巨大的易区分样本损失相加，就会主导我们的训练过程，所以要进一步增加前后损失的大小比。

2.2 Balanced Cross Entropy

Balanced Cross Entropy 是常见的解决类不平衡的方法，其思想是引入一个权重因子 α ∈ [ 0 , 1 ] \alpha \in [0,1]α∈[0 ,1 ]，当类标签是 1 时，权重因子是 α \alpha α ，当类标签是 -1 时，权重因子是 1 − α 1-\alpha 1 −α 。同样为了表示方便，用 α t \alpha_t αt 表示权重因子，那么此时的损失函数被改写为：
C E ( p , y ) = − α t log ⁡ ( p t ) . CE(p,y) = −\alpha_t\log(p_t).C E (p ,y )=−αt lo g (p t ).

2.3 Focal Loss

Balanced Cross Entropy 解决了正负样本的比例失衡问题（positive/negative examples），但是这种方法仅仅解决了正负样本之间的平衡问题，并没有区分简单还是难分样本（easy/hard examples）。当容易区分的负样本的泛滥时，整个训练过程都是围绕容易区分的样本进行（小损失积少成多超过大损失），而被忽略的难区分的样本才是训练的重点。作者新引入了一个调制因子，公式如下：
F L ( p t ) = − ( 1 − p t ) γ log ⁡ ( p t ) . FL(p_t) = −(1-p_t)^{\gamma}\log(p_t).F L (p t )=−(1 −p t )γlo g (p t ).

其中 γ \gamma γ 也是一个参数，范围在 [0,5]。观察上式可以发现，当 P t P_t P t 趋向于 1 时，说明该样本比较容易区分，整个调制因子 ( 1 − p t ) γ (1-p_t)^{\gamma}(1 −p t )γ 是趋向于 0 的，也就是 loss 的贡献值会很小；如果某样本被错分，p t p_t p t 很小，那么此时调制因子 ( 1 − p t ) γ (1-p_t)^{\gamma}(1 −p t )γ 是趋向 1 的，对 loss 没有大的影响（相对于基础的交叉熵），参数 γ \gamma γ 能够调整权重衰减的速率。从下面这张图可以看出，当 γ = 0 \gamma = 0 γ=0 的时候，FL 就是原来的交叉熵损失 CE，随着 γ \gamma γ 的增大，调整速率也在变化，实验表明，在 γ = 2 \gamma =2 γ=2 时，效果最佳。

结合正负样本平衡以及难易样本平衡，最终的 Focal loss 形式如下：
F L ( p t ) = − α t ( 1 − p t ) γ log ⁡ ( p t ) . FL(p_t) = −\alpha_t(1-p_t)^{\gamma}\log(p_t).F L (p t )=−αt (1 −p t )γlo g (p t ).

它的功能可以解释为：通过 α t α_t αt 可以抑制正负样本的数量失衡，通过 γ \gamma γ 可以控制简单/难区分样本数量失衡。

对于 Focal loss，总结如下：

无论是前景类还是背景类，p t p_t p t 越大，权重( 1 − p t ) γ (1-p_t)^{\gamma}(1 −p t )γ 就越小，即简单样本的损失可以通过权重进行抑制；
α t \alpha_t αt 用于调节正负样本损失之间的比例，前景类别使用α t \alpha_t αt 时，对应的背景类别使用1 − α t 1-\alpha_t 1 −αt ;
γ \gamma γ 和α t \alpha_t αt 的最优值是相互影响的，所以在评估准确度时需要把两者组合起来调节。作者在论文中给出γ = 2 , α t = 0.25 \gamma = 2, \alpha_t = 0.25 γ=2 ,αt =0 .2 5 时，ResNet-101+FPN 作为 backbone 的 RetinaNet 有最优的性能。这里α t = 0.25 \alpha_t = 0.25 αt =0 .2 5 正样本的权重小，负样本的权重大有利于压低负样本的分类损失，尽可能将负样本的损失压低。

Original: https://blog.csdn.net/baidu_36913330/article/details/119762293
Author: 木卯_THU
Title: 深度学习之目标检测（五）– RetinaNet网络结构详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518139/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[毕业设计] 基于大数据B站数据分析项目 – 情感分析

文章目录 0 数据分析目标 1 B站整体视频数据分析 * 1.1 数据预处理 1.2 数据可视化 1.3 分析结果 2 单一视频分析 * 2.1 数据预处理 2.2 数据清洗 2….

人工智能 2023年7月15日
0061
机器学习算法系列（十三）-朴素贝叶斯分类算法（Naive Bayes Classifier Algorithm）

阅读本文需要的背景知识点：一丢丢编程知识一、引言前面几节介绍了一类分类算法——线性判别分析、二次判别分析，接下来介绍另一类分类算法——朴素贝叶斯分类算法1 （Naive Bay…

人工智能 2023年7月3日
0079
一次域环境下的渗透

一次域环境下的渗透在拿到shell后查看ip信息发现在域环境内（该系统位winserver 2003） Ipconfig /all 查看当前用户发现为system用户，该用户在域环…

人工智能 2023年6月27日
0056
如何在Framework中进行模型的验证和性能测试

详细解决问题：如何在Framework中进行模型的验证和性能测试介绍在机器学习领域，模型的验证和性能测试是非常重要的步骤。通过验证和测试，我们可以评估模型在新数据上的表现，判断…

人工智能 2024年1月1日
0038
路径规划学习笔记

第一章环境配置 1 Ubuntu16.04安装ROS Kinetic（20220315亲测可行） 1.1 配置Ubuntu软件仓库打开Ubuntu Software 选择Sof…

人工智能 2023年6月11日
0059
TensorFlow和keras安装教程

准备工作 1.安装anaconda安装教程参考此博客：点这儿2.安装成功记住自己anaconda的路径，以后pycharm配置会用3.查看并记住自己conda版本号以及python…

人工智能 2023年7月5日
00126
毕业设计大数据房价数据分析及可视化 – python 房价分析

文章目录 1 课题背景 2 数据爬取 * 2.1 爬虫简介 2.2 房价爬取 3 数据可视化分析 * 3.1 ECharts 3.2 相关可视化图表 4 最后 🧿 选题指导, 项目…

人工智能 2023年7月15日
0071
cv2安装与基本函数

简介 cv2是一个python的图像处理库，依赖c++的opencv库处理图像。安装使用 pip install numpy pip install opencv-python…

人工智能 2023年7月19日
0082
面经｜缺失值填补的7种方法（使用场景+Python代码）

新专栏《数据挖掘（分析）面经》第一篇：缺失值处理方法对于从事数据相关工作的小伙伴，面试的时候经常会被问到如何进行缺失值/异常值的处理，本文来梳理一下填补缺失值的7种方法。示例…

人工智能 2023年6月19日
0073
【虚拟主播】刚刚，我用三行代码创建了一个虚拟主播

刚刚，我花了10分钟，写了三行代码创建一个具有明星脸的虚拟主播先看看效果：一个简单的虚拟数字人的实现非常简单，需要调用三个模型： [En] The implementation…

人工智能 2023年5月27日
0072
python数据分析基础知识—shape()函数的使用

目录 python中shape()函数 * 1、shape()输入参数 2、判断数组的维度 3、shape（）中”？”的含义 python中shape()函…

人工智能 2023年7月14日
0068
使用ResNet-50实现图像分类任务

摘要：承接上一篇LeNet网络模型的图像分类实践，本次我们再来认识一个新的网络模型：ResNet-50。不同网络模型之间的主要区别是神经网络层的深度和层与层之间的连接方式，正文内…

人工智能 2023年6月30日
0093
无法安装python库以及pip升级失败的问题解决

刚学习python没几天，然后需要安装一个库（opencv-pyth）时出现错误，一直显示目标计算机积极拒绝，然后老师说出现这种问题可能是pip版本太低导致的所以我去升级pip但…

人工智能 2023年7月20日
0057
知识图谱介绍

1. 知识图谱的定义及相关概念知识图谱的本质是一个语义网络，它旨在描述客观世界的概念、实体事件及其之间的关系，并且对它们进行语义建模；知识图谱是一种基于图的数据结构，由节点和边构…

人工智能 2023年6月1日
0085
关于numpy,torch中seed()方法的一些理解

首先举几个使用seed()函数的例子: 生成随机数&#xFF0…

人工智能 2023年6月15日
0078
librosa音频处理教程

Librosa简介 Librosa是一个 Python 模块，用于分析一般的音频信号，是一个非常强大的python语音信号处理的第三方库，根据网络资料以及官方教程，本文主要总结了一…

人工智能 2023年5月23日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习之目标检测（五）– RetinaNet网络结构详解

深度学习之目标检测（五）– RetinaNet网络结构详解

深度学习之目标检测（五）RetinaNet网络结构详解

; 1. RetinaNet

; 1.1 backbone 部分

; 1.2 预测器部分

1.3 正负样本匹配

; 1.4 损失计算

2. Focal Loss

; 2.1 Cross Entropy Loss

2.2 Balanced Cross Entropy

2.3 Focal Loss

大家都在看