SSD(Single Shot MultiBox Detector)笔记

2023年7月11日上午9:39 • 技术杂谈 • 阅读 66

前言

本文用于记录学习SSD目标检测的过程，并且总结一些精华知识点。

为什么要学习SSD，是因为SSD和YOLO一样，都是 one-stage的经典构架，我们必须对其理解非常深刻才能举一反三设计出更加优秀的框架。SSD这个目标检测网络全称为 Single Shot MultiBox Detector，重点在 MultBox上，这个思想很好地利用了多尺度的优势，全面提升了检测精度，之后的YOLOv2就借鉴了SSD这方面的思路才慢慢发展起来。

强烈建议阅读官方的论文去好好理解一下SSD的原理以及设计思路。这里也提供了相关的pdf：http://www.cs.unc.edu/~wliu/papers/ssd_eccv2016_slide.pdf

当然也有很多好的博客对其进行了介绍，在本文的最下方会有相关链接。本篇文章主要为自己的笔记，其中加了一些自己的思考。

网络构架

SSD的原始网络构架建议还是以论文为准，毕竟平时我们接触到的都是各种 魔改版(也就是所谓的换了backbone，例如最常见的SSD-mobilenetv2)，虽然与原版大同小异，不过对于理解来说，会增大我们理解的难度，因此，完全有必要看一遍原始的论文描述。

SSD在论文中是采取的VGG网络作为主干结构，但是去除了VGG中的最后几层(也就是我们经常说的分类层)，随后添加了一些新的内容(在原文中叫做auxiliary structure)，这些层分别是：

额外的特征提取层(Extra Feature Layers)，作用就是和原本 backbone的层相结合共同提取出不同尺寸的特征信息，相当于加强了之前的backbone，使其网络更深，提取能力更加强大。
分类层(classification headers)，对之前网络中的不同位置网络层输出的特征层(不同尺度)，进行卷积得出每个特征图中每个坐标对应的分类信息(每个坐标对应着许多default boxes)。
坐标位置回归层(regression hearders)，结构与分类层相仿，只是输出的通道略有不同，通过对不同尺度的特征图进行卷积，输出的是每个特征图中每个坐标对应的 default boxes的偏移坐标(文章中称为shape offset)。

总体来说，SSD网络结构其实有四部分组成，backbone部分、额外添加的特征提取层、分类层以及坐标位置回归层。注意当初这篇SSD是出于Yolo一代之后二代之前，Yolo二代三代中不同尺度的特征图思想是有借鉴于SSD的。

用于检测的多尺度特征图

多尺度特征图具体表示就是SSD在整个网络的不同位置，取出相应的特征层进行预测，每个特征层因为尺度不一样可以检测的视野以及目标物体的大小也不同。每个特征图可以预测出分类信息和位置信息，如下图中可以看到整个网络使用从前到后使用了6个不同的特征图，从 38x38x512到 1x1x256一共六个不同尺度的特征图。

也就是 使用低层feature map检测小目标，使用高层feature map检测大目标，是SSD的突出贡献。

那么 default box是如何产生？

default box

论文中的原话是这样的：

We associate a set of default bounding boxes with each feature map cell, for multiple feature maps at the top of the network. The default boxes tile the feature map in a convolutional manner, so that the position of each box relative to its corresponding cell is fixed. At each feature map cell, we predict the offsets relative to the default box shapes in the cell, as well as the per-class scores that indicate the presence of a class instance in each of those boxes.

就是对于上述每一个不同尺度的特征图(38×38、19×19、10×10、5×5、3×3、1×1)，每一个特征图中的坐标中(cell)产生多个default box。对于每个 default box，SSD预测出与真实标定框的偏移(offsets，一共是4个数值，代表位置信息)以及对应于每个类的概率confidence($c_1 ,c_2, …, c_p$)。如果一共有c类，每一个坐标产生k个box，那么我们在进行训练的时候，每个cell就会产生(c+4)k个数据，如果特征图大小为mxn，那么总共就是(c+4)kmn，例如3×3的特征图，mxn就是3×3。

注意下，上述的那个offset不仅是相对于 default box，换个角度来说，也是相对于真实标定框的偏移，通俗了说就是 default box加上offsets就是真实标定框的位置。这个offsets是我们在训练学习过程中可以计算出来用于损失函数来进行优化的。

在实际预测中，我们要预测出每个default box的category以及对应的offset。

这部分我看到更好的介绍，所以这里不进行赘述，可以直接看这里：解读SSD中的Default box（Prior Box）。

训练过程

不光要从论文中理解一个网络的细节部分，还需要详细了解一下训练的具体过程：

因为我们要在特征图上生成 default box，那么在训练阶段我们就需要将GT(Ground Truth)与default box相对应才能进行训练，怎么个对应法，SSD中使用了一个IOU阈值来控制实际参与计算的default box的数量， 这一步骤发生在数据准备中：

首先要保证每个GT与和它度量距离最近的(就是iou最大)default box对应，这个很重要，可以保证我们训练的正确性。另外，因为我们有很多狠多的default box，所以不只是iou最大的default box要保留，iou满足一定阈值大小的也要保留下来。

也就是说，训练的过程中就是要判断哪个 default boxes和具体每一张图中的真实标定框对应，但实际中我们在每个特征图的每个cell中已经产生了很多 default boxes，SSD是将所有和真实标定框的IOU(也就是jaccard overlap)大于一定阈值(论文中设定为0.5)的default boxes都保留下来，而不是只保留那个最大IOU值的 default box(为什么要这么做，原论文中说这样有利于神经网络的学习，也就是学习难度会降低一些)。

这样我们就在之前生成的default boxes中，精挑细选出用于训练的 default boxes(为了方便，实际训练中default boxes的数量是不变的，只不过我们直接将那些iou低于一定阈值的 default boxes的label直接置为0也就是背景)。

损失函数

损失函数也是很简单，一共有俩，分别是位置损失以及分类损失：

$$
L(x, c, l, g)=\frac{1}{N}\left(L_{c o n f}(x, c)+\alpha L_{l o c}(x, l, g)\right)
$$

其中$N$为 matched default boxes的数量，这个$N$就是训练过程一开始中精挑细选出来的 default boxes。当$N$为0的时候，此时总体的损失值也为0。而$\alpha$是通过交叉验证最终得到的权重系数，论文中的值为1。

位置损失

其中$x_{i j}^{p}={1,0}$表示当前 defalut box是否与真实的标定框匹配(第$i$个 defalut box与第$j$个真实的标定框，其中类别是$p$)，经过前面的match步骤后，有$\sum_{i}x^{p}_{ij}$大于等于1。

$$
L_{l o c}(x, l, g)=\sum_{i \in P \text { os } m \in{c x, c y, w, h}}^{N} \sum_{(c x, c y, w, h}} x_{i j}^{k} \operatorname{smooth} {\mathrm{L1}}\left(l{m}-\hat{g}_{j}\right)
$$

注意，上式中的$\hat{g} {j}^{m}$是进行变化后的 GroundTruth ，变化过程与 default box 有关，也就是我们训练过程中使用的 GroundTruth 值是首先通过 default box 做转换，转化后的值，分别为$\hat{g}^{c x},\hat{g} {j}^{c y},\hat{g}^{w}, \hat{g}_{j}^{h}$，这四个值，分别是真实的标定框对应 default box的中心坐标$x,y$以及宽度$w$和高度$h$的偏移量。

也就是下面四个转换关系，稍微花一点心思就可以看明白，在训练的时候实际带入损失函数的就是下面这四个转化后的值：

$$
\hat{g} {j}^{c x}=\left(g^{c x}-d_{i}^{c x}\right) / d_{i}^{w} \quad \hat{g} {j}^{c y}=\left(g^{c y}-d_{i}^{c y}\right) / d_{i}^{h}
$$

$$
\hat{g} {j}^{w}=\log \left(\frac{g{w}}{d_{i}{w}}\right) \quad \hat{g} {j}^{h}=\log \left(\frac{g{h}}{d_{i}{h}}\right)
$$

同理，既然我们在训练过程中学习到的是 default box -> GroundTruth Box的偏移量，那么我们在推测的时候自然也要有一个相反的公式给计算回来，将上面的四个公式反转一下即可。

分类损失

分类损失使用交叉熵损失，

$$
L_{c o n f}(x, c)=-\sum_{i \in P o s}^{N} x_{i j}^{p} \log \left(\hat{c} {i}^{p}\right)-\sum \log \left(\hat{c} {i}^{0}\right) \quad \text { where } \quad \hat{c}^{p}=\frac{\exp \left(c_{i}^{p}\right)}{\sum_{p} \exp \left(c_{i}^{p}\right)}
$$

需要注意一点就是$x_{i j}^{p}$代表此时的预测box是否与真实标定框匹配，匹配则为1，也就是说分类损失前半部分只考虑与label匹配的，也就是positive boxes。而后半部分$\hat{c} {i}^{0}$则表示背景分类的损失，即negative boxes的损失，想要让$\hat{c}^{0}$越大(背景正确被分为背景)，就必须让后半部分的损失越小。

Hard negative mining

这个过程发生在实际训练过程中，因为图像中预测出来的box有很多，而且大部分时negative boxes，所以这里将消除大部分的negative boxes从而使positive与negative的比例达到1:3。首先对之前经过match步骤，精挑细选之后的default boxes计数。这些 default boxes算是positive default boxes，算出此时positive的数量，然后乘以3则是negative boxes的数量。

那么如何去挑选合适数量的negative boxes？SSD中的挑选规则是： 挑选loss最大的boxes，也就是最难学的boxes，根据预测出来的confidence来判断(这段部分的实现可能与论文中会有所不同)，那么什么算最难学的，因为我们首先已经根据label(这个label是之前matching过程后的label，label得数量与整张特征图中的boxes数量相同，只不过其中的label已经根据matching步骤进行了调整)得到了positive boxes，这些positive boxes与实际目标都满足一定的条件，而且其中很大概率都有物体。那么最难学的boxes该如何挑选呢？

我们在其余的boxes中，因为其余的这些boxes已经不可能包含目标(因为有目标的在matching中都已经被挑选了，这些是剩下的)，所以这些boxes的label理应被预测为 background也就是背景，所以这些boxes关于背景的损失值应该是比较小的，也就是模型较为正确预测了背景。那么我们要选最难识别的boxes，也就是最难识别为背景的boxes，这些叫做negative boxes，首先我们将其余的这些boxes关于背景的loss排序，然后选取前面一定数量(与positive boxes的比值是3:1)的boxes作为negative boxes即可。

这段描述可能有些抽象，配上代码可能更好看一些：

def hard_negative_mining(loss, labels, neg_pos_ratio):
"""
    It used to suppress the presence of a large number of negative prediction.

    It works on image level not batch level.

    For any example/image, it keeps all the positive predictions and
     cut the number of negative predictions to make sure the ratio
     between the negative examples and positive examples is no more
     the given ratio for an image.

    Args:
        loss (N, num_priors): the loss for each example.

        labels (N, num_priors): the labels.

        neg_pos_ratio:  the ratio between the negative examples and positive examples.

"""
    pos_mask = labels > 0
    num_pos = pos_mask.long().sum(dim=1, keepdim=True)
    num_neg = num_pos * neg_pos_ratio

    loss[pos_mask] = -math.inf                               # put all positive loss to -max
    _, indexes = loss.sort(dim=1, descending=True)           # sort loss in reverse order (bigger loss ahead)
    _, orders = indexes.sort(dim=1)
    neg_mask = orders < num_neg
    return pos_mask | neg_mask

图像增强

SSD中已经采取了一些比较好的图像增强方法来提升SSD检测 不同大小不同形状的物体，那就是randomly sample，也就是随机在图像片进行crop，提前设定一些比例，然后根据这个比例来对图像进行crop,但是有一点需要注意那就是这个randomly sample中需要考虑到IOU，也就是我们crop出来的图像必须和原始图像中的GT box满足一定的IOU关系，另外crop出来的图像也必须满足一定的比例。

通过randomly sample后的图像其中必定包含原始的GT boxes(不一定全包含)，而且crop后的boxes也是正确的。

这部分说起来比较抽象，可以看看这篇文章，我自己懒得进行演示了：

目标检测:SSD的数据增强算法

学习率设置

官方：优化器使用SGD，初始的学习率为 0.001， momentum为 0.9， weight-decay为 0.0005， batch-size为 32。
我个人和官方使用的优化器相同，只不过在学习率上通过 multi-step的方式(具体可以看Pytorch相关实现部分)，在80和150个epoch阶段将学习率衰减至之前的 1/10。一共训练300个epoch。

训练部分的系数设置仅供参考，不同数据的训练系数略有不同。

预训练权重

个人使用 mobilenetv2-SSD的构架对自己的数据进行了训练，在所有超参数和训练系数不变的情况下，如果采用预训练好的mobilenetv2的权重(在ImageNet上)，那么训练速度和最终的训练精度都会高出一截(相同epoch下)，所以采用预训练好的权重信息很重要。

总结

SSD是一个优雅的目标检测结构，到现在依然为比较流行的目标检测框架之一，值得我们学习，但是SSD对小目标的检测效果有点差，召回率不是很高，这与SSD的特征图以及semantic语义信息有关，另外SSD中也提到了一些对于提升mAP的原因，其中很大部分是因为图像增强部分，之前提到的random patch可以变相地理解为对图像进行”zoom in”或者”zoom out”，也就是方法或者缩小，这样增强了网络监测大目标和小目标的能力(但监测小目标的能力还是稍微差一点)。

对于SSD的更多讨论，我这里也收集了一些其他优秀的文章，这里就不赘述了：

参考链接

https://arleyzhang.github.io/articles/786f1ca3/
https://www.cnblogs.com/sddai/p/10206929.html

撩我吧

如果你与我志同道合于此，老潘很愿意与你交流；
如果你喜欢老潘的内容，欢迎关注和支持。
如果你喜欢我的文章，希望点赞👍 收藏 📁 评论 💬 三连一下~

想知道老潘是如何学习踩坑的，想与我交流问题~请关注公众号「oldpan博客」。
老潘也会整理一些自己的私藏，希望能帮助到大家，点击神秘传送门获取。

Original: https://www.cnblogs.com/bigoldpan/p/14514633.html
Author: 老潘的博客
Title: SSD(Single Shot MultiBox Detector)笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/685012/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

arm的汇编语言中b.ne 1b是什么意义？

答: 表示不相等时直接向后跳转到局部标签1处(b: backward, f: forward)一. 扩展1.1. 为什么会有前向跳转和后向跳转呢？拿Linux内核中的汇编代码为例(…

技术杂谈 2023年5月31日
0077
CityEngine中动态水的实现

地址：http://pan.baidu.com/share/link?shareid=3871210059&uk=3492170216密码：am5b 在今年Esri全球用户…

技术杂谈 2023年5月31日
0079
Uncaught TypeError: document.getElementsById is not a function

今天博主终于开始攻关javascript（俗称js）了，不过要注意了，它和java可是一丁点关系都没有，就像老婆饼和老婆一样。下面就让我们来讨论一下博主这次犯下的低级错误吧一、…

技术杂谈 2023年7月11日
0053
hdu 4324 Triangle LOVE 拓扑排序

#include #include #include #include using namespace std; int mp[2000 + 5][2000 + 5], in[20…

技术杂谈 2023年6月1日
0085
vnpy源码阅读学习(7)：串在一起

串在一起我们已经分析了UI、MainEngine、EventEngine。然后他们几个是如何发挥作用的呢？我总结了一张图：我们来具体的看看UI部分是如何跟EventEngine…

技术杂谈 2023年7月11日
0083
dns ping

:: :: Posted on2022-05-22 19:00 季枫阅读(12 ) 评论() 编辑 https://tool.chinaz.com/dns/?type=1&amp…

技术杂谈 2023年5月30日
0087
010 Linux 文本统计与去重 (wc 和 uniq)

wc 命令一般是作为组合命令的一员与其他命令一同起到统计的作用。而一般情况下使用wc -l 命令较多。uniq 可检查文本文件中重复出现的行，一般与 sort 命令结合使用。一起组…

技术杂谈 2023年7月10日
0089
安装VMware Tools选项显示灰色的正确解决办法

1.关闭虚拟机； 2.在虚拟机设置分别设置CD/DVD、CD/DVD2和软盘为自动检测三个步骤； 3.再重启虚拟机，灰色字即点亮。 Original: https://www.cn…

技术杂谈 2023年5月31日
0083
危险的赌注

低代码应用平台（LCAP – Low Code Application Platforms）在多样、复杂的现代软件开发情势下应运而生。根据 Gartner 的数据，Me…

技术杂谈 2023年6月21日
00163
定时任务日志traceid

在使用xxl-job框架作为项目中的定时任务管理时，JobHandler线程记录日志时没有traceId，导致查询日志时不方便。其他框架如SpringMVC、Dubbo等都提供了拦…

技术杂谈 2023年6月1日
0071
架构设计之数据分片

数据分片技术作为目前架构设计中处理大数据的一种常规手段，当前被广泛用于缓存、数据库、消息队列等中间件的开发与使用当中，例如在数据量较大的项目当中，系统的性能瓶颈主要来自于与数据库的…

技术杂谈 2023年7月25日
0068
编程技巧│超实用 nginx 中常见的配置合集

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

技术杂谈 2023年7月11日
0080
tolua杂记

1 字符串调用luaFunc :DoString public class CallLuaFunction : MonoBehaviour { private string scr…

技术杂谈 2023年5月31日
0064
beego 的打包问题

使用BeeGo2.0 编译后打包上传到服务器出现运行时问题。在app.conf配置文件开发环境改为生产环境就行了 runmode = prod Original: https:/…

技术杂谈 2023年7月10日
0063
域名ICP备案<阿里云>

阅读指引适用人：想要通过国内域名访问页面或者接口，需要进行ICP备案解决问题：备案过程中发生的问题阅读耗时：3分钟参考链接：阿里云ICP流程-视频、备案相关问题、注销备案相关问题…

技术杂谈 2023年6月21日
0090
python3GUI–200行代码写一个上课点名程序（附源码）

@ 一．准备工作 1.Tkinter 2.PIL 二．预览 1.启动 2.开始点名-顺序点名 3.开始点名-随机点名 4.手动加载人名单 5.开始点名-顺序点名-Pyqt5版本 6…

技术杂谈 2023年6月21日
00120

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31