SSD论文解读

2023年7月9日下午4:41 • 人工智能 • 阅读 117

Abstract：

SSD在许多特定位置生成具有不同的高宽比和size的锚框，通过预测锚框的类别和与与之对应真实边缘框的偏差来训练网络。SSD可以实现多尺度目标检测。SSD比two-stage的目标检测算法更简单。SSD在许多数据集上超越了Faster R-CNN，并且与其他one-stage方法相比，SSD在输入图像尺寸较小的情况下，具有更高的精度。

1.Introduction（研究现状）

Faster R-CNN虽然准确，但对于嵌入式系统来说计算量太大，即使是在高端硬件上，对于实时应用程序来说也太慢。有人想要优化，但到目前为止，显著提高速度只是以显著降低检测精度为代价的。

本文提出了第一个基于深度网络的目标检测器，检测速度显著提升。检测速度的提升来源于取消bounding box proposals（候选框）。我们的改进包括使用一个小型卷积滤波器来预测物体类别和边界框位置的偏移量，使用独立的预测器(过滤器)用于不同的宽高比检测，并将这些过滤器应用于网络的后期阶段的多个特征图，以便在多个尺度上执行检测。通过这些修改——特别是在不同尺度下使用多层预测——我们可以在相对低分辨率的输入下实现高精度，进一步提高检测速度。

We summarize our contributions as follows:

SSD比其他one-stage检测器（例如YOLO）更快，和two-stage相比一样准确。

SSD的核心是将卷积过滤器应用于特征图去预测（锚框的）类别得分和与真实边缘框的偏差。

为了达到较高的检测精度，我们从不同尺度的特征图中生成不同尺度的预测，即多尺度检测。

这些设计特性带来了简单的端到端训练和高精度，甚至在低分辨率输入图像，进一步提高速度和精度的折衷。

实验包括在PASCAL VOC、COCO和ILSVRC上不同输入尺寸下评估模型的时间和精度，并与一系列最新的最先进的方法进行比较。

2.The Single Shot Detector (SSD)（这一段主要讲了模型和训练时的技巧）

SSD在训练时只需要一个输入图像和每个对象的ground truth boxes（真实边缘框）。以一种卷积的方式，我们评估在几个不同尺度的特征图的每个位置上的一组不同长宽比的锚框。对于每个锚框，我们预测所有对象类别的置信度和偏移量。在训练时，我们首先将这些锚框与真实边缘框进行匹配。模型损失是定位损失和置信度损失(如Softmax)之间的加权和。

2.1Model

SSD方法基于前馈卷积网络，生成一些固定大小的锚框集合，并为这些锚框中存在的对象分类评分，然后进行非极大值抑制步骤，以生成最终检测。最前面的网络层基于用于高质量图像分类的标准体系结构(用于提取特征得到第一个特征图，因为后面的所有特征图都是在第一个特征图基础上得到的，所以第一个特征图比较重要，需要使用比较好的网络提取特征)，我们将其称为base network。然后我们在网络中添加辅助结构，以产生具有以下关键特征的检测:

Multi-scale feature maps for detection：在截断的基础网络的末端添加了卷积特征层，这些层的大小逐渐减少，并允许在多个尺度上预测探测。对于每个特征层，用于分类和回归的卷积模型是不同的。

Convolutional predictors for detection（用于检测的卷积预测器）：每一个添加的特征层都可以使用一组卷积过滤器产生一组分类和回归。用于预测的内核可以生成类别的分数和相对于默认框的偏移量。在每个像素上，它生成一组输出值。（YOLO采用了全连接层而不是卷积实现这一功能）

Default boxes and aspect ratios（锚框和宽高比）：对于每个特征图可以产生不同宽高比（这里应该是size）的锚框。

2.2 Training

训练SSD和训练使用特征提取的典型检测器(two-stage)之间的关键区别是，真值信息需要分配到锚框。一旦确定了这个分配，损失函数和反向传播就端到端应用。训练还包括选择用于检测的锚框和尺度集，以及hard negative mining和数据增强策略。（hard negative mining就是多找一些hard negative加入负样本集）

Matching strategy：我们首先将每个真实边缘框匹配到与之具有最佳jaccard重叠的锚框。与MultiBox不同的是，我们将锚框匹配到任何具有大于阈值(0.5)的jaccard重叠的真实边缘框。这简化了学习问题，允许网络预测多个重叠默认框的高分，而不是只选择最大重叠的那个。

Training objective：总体损失函数为定位损失(loc)和置信度损失(conf)的加权和。

其中N是匹配的锚框数。如果N=0，设损失为0。使用平滑L1损失函数计算位置损失。

类别损失采用softmax函数计算。

通过交叉验证，权重项α设为1。

Choosing scales and aspect ratios for default boxes(为锚框选择尺寸和比例)：

每个特征图的锚框的size计算为:

最小值是0.2，最大值是0.9。

比例为：

每个特征图的每个位置都会产生不同尺寸和比例的组合的锚框。

Hard negative mining（hard negative mining就是多找一些hard negative加入负样本集）：

在匹配步骤之后，大多数锚框都是负样本，这会导致正样本和负样本数量不平衡。我们不使用所有的负样本，而是使用每个锚框的最高置信度损失进行排序，并选择最上面的，这样负数和正数的比例最多为3:1。

Data augmentation：

为了使模型对不同的输入对象大小和形状具有更强的鲁棒性，每个训练图像通过以下选项之一随机采样:

1.使用整个原始输入图像。

2.对图像进行采样，使其与物体的重叠最小为0.1、0.3、0.5、0.7或0.9。

3.随机采样。

3.Experimental Results（这一段主要讲了在多种数据集上的实验结果）

Base network

VGG16并做了修改。SGD。动量0.9。初始学习率0.001。weight decay是0.0005。batch size 32。

3.1 PASCAL VOC2007

我们很好。对于小目标的检测不好。

这并不奇怪，因为这些小对象在最顶层甚至可能没有任何信息。增加输入大小(例如300×300to512×512)可以帮助改进对小对象的检测，但仍有很大的改进空间。从积极的方面来看，我们可以清楚地看到SSD在大型对象上的性能非常好。它对于不同的物体长宽比非常健壮，因为我们在每个特征地图位置使用不同长宽比的默认框。

3.2 Model analysis（分析对模型影响大的因素）

为了更好地理解SSD，我们进行了控制实验，以检查每个组件如何影响性能。对于所有的实验，我们使用相同的设置和输入大小(300×300)，除了对设置或组件的指定更改。

Data augmentation is crucial：展示了锚框大小和宽高比对于模型检测不同类别目标的灵敏度的影响。

更多的锚框形状会更好。

Atrous（空洞卷积）更快：

带洞卷积的有效性基于一个假设：紧密相邻的像素几乎相同，全部纳入属于冗余，不如跳H(hole size)个取一个。感受野更大。

不同分辨率的多个输出层更好（多尺度更好）：SSD的主要贡献是在不同的输出层上使用不同size的锚框。

3.3 PASCAL VOC2012

我们很好。

3.4 COCO

我们很好，对于小目标的检测没有Faster RCNN效果好。

3.5 Preliminary ILSVRC results

再次验证了SSD是高质量实时检测的通用框架。

3.6 Data Augmentation for Small Object Accuracy

Without a follow-up feature resampling step as in Faster R-CNN, the classification task for small objects is relatively hard for SSD。

数据增强：随机放大。在放大之前需要得到许多小目标。即缩小—–>随机裁剪——->放大。

新的增强技巧显著提高了对小对象的性能。这一结果强调了数据增强策略对最终模型精度的重要性。

改进SSD的一种方法：设计更好的锚框，使其位置和尺寸可以更好地拟合特征图上每个位置的接受域。

3.7 Inference time（做出推断）

考虑到SSD会产生大量的框，在预测过程中有效地执行非最大值抑制(nms)是非常必要的。

比较了速度和精度，我们综合是最好的，SSD300 is the only real-time detection method that can achieve above 70% mAP 。

我们的80%的时间是花在了Base Network（VGG16）上，Therefore, using a faster base network could even further improve the speed, which can possibly make the SSD512 model real-time as well.

4.Related Work

There are two methods for object detection in images,基于滑动窗口的目标检测方法和基于候选区域的目标检测方法。在卷积神经网络出现之前，这两种方法的性能差不多。随着RCNN将候选区域与卷积网络相结合，带来了巨大的改进之后，基于候选区域的目标检测方法开始流行起来。

讲了一下目标检测各算法的发展（改进）。

SSD主要是去掉了候选区域步骤，并且支持多尺度。

5 Conclusions

本文介绍了SSD，一种快速的 single-shot 多类别目标检测器。我们模型的一个关键特征是使用了多尺度目标检测。我们通过实验验证了给定适当的训练策略，大量精心选择的锚框会提高性能。我们建立的SSD模型至少比现有方法多一个数量级的锚框采样位置、尺度和宽高比。我们证明，在相同的VGG-16基础架构下，SSD在精度和速度方面优于目前最先进的目标探测器。我们的SSD512模型在PASCAL VOC和COCO数据集上的准确性显著优于最新的Faster R-CNN3倍。我们的实时SSD300模型运行在59fps，这比当前的实时YOLO更快，同时精度更高。

除了它的独立应用，我们相信我们的相对简单的SSD模型为使用目标检测组件的大型系统提供了有用的构建块。一个很有前途的未来方向是探索其作为系统的一部分使用循环神经网络检测和跟踪视频中的目标。我们太强啦！

6 Acknowledgment

致谢……

References

……………………….

SSD真的强，可惜作者放弃了………

Original: https://blog.csdn.net/qq_41825891/article/details/121363891
Author: 我还是你多年
Title: SSD论文解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681051/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch快速上手（9）—–多GPU数据并行训练方法

pytorch提供了两种方式实现并行训练：单机多GPU可以使用 torch.nn.DataParallel接口(DP,旧的) 或者 torch.nn.parallel.Distr…

人工智能 2023年6月25日
00124
MATLAB中图像的点运算——调整亮度和对比度

通过对图像中的每个像素点的灰度值进行计算，从而改善图像显示效果。其作为预处理，主要克服图像数字化设备的局限性。输入图像表示为A(x,y),输出图像表示为B(x,y),则点运算可表…

人工智能 2023年6月20日
00120
【论文翻译】残差网络（二）

实验 4.1 ImageNet分类数据集我们使用含有1000个类别的ImageNet 2012分类数据集[35]验证了我们的方法。各模型利用128万张图像训练集进行训练，再利用5…

人工智能 2023年7月14日
0097
Pycharm加载conda创建pytorch虚拟环境&importtorch报错问题解决

### 回答1：我可以给您一些建议，您可以使用 PyCharm_的工具来添加 _PyTorch_环境，它可以帮助您快速管理安装和配置 _Python_解释器和第三方库。答案： …

人工智能 2023年7月24日
0086
numpy.empty用法详解

numpy.empty(shape, dtype=float, order=’C’, *, like=None)，用来输出一个空数组 like：默认为num…

人工智能 2023年6月16日
00119
[人工智能-深度学习-77]：目标检测 – 常见项目、应用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0093
1-基于ArUco码的标记与检测

1-简介姿态估计（Pose estimation）在计算机视觉领域扮演着十分重要的角色：机器人导航、增强现实以及其它。这一过程的基础是找到现实世界和图像投影之间的对应点。…

人工智能 2023年5月28日
00158
某集团大数据平台整体架构及实施方案

1—项目概述 14 1.1.1 集团已有基础 14 1.1.2 痛点及需提升的能力 14 1.1.3 大数据趋势 15 1.2.1 总体目标 15 1.2.2 分阶段建…

人工智能 2023年6月11日
00162
解决Pthon中无法安装旧版本TensorFlow问题

解决Python中无法安装旧版本TensorFlow问题前言一、报错信息二、报错原因三、解决方案 * conda命令学习最终解决如何使用新创建的环境 – p…

人工智能 2023年5月26日
00149
TensorFlow2-基础（五）：Tensor的维度变换【改变：reshape（view级别）、transpose（content级别）】【增加（expand_dims）、删除（squeeze）】

tensorFlow维度变换可分为两个级别，一个是view级，一个是content级。 view级维度变换：不改变数据的存储关系，比如[3,28,28,3]变换维度为[3,784,…

人工智能 2023年5月23日
00139
机器学习之回归(Regression)再理解

文章目录 * – 一前言引入 – + 1. 回归定义及应用场景 + 2. 解决步骤 + 3. 过拟合和解决方法 – 二回归问题再理解 &#8…

人工智能 2023年6月18日
00118
聚类——密度聚类（DBSCAN、OPTICS、DENCLUE）

文章目录 * – 一、基于高密度连通区域聚类算法DBSCAN – + 基本术语 + DBSCAN算法描述： + DBSCAN算法步骤 + DBSCAN算法举…

人工智能 2023年5月31日
00136
用python制作几款简单又好玩的小游戏，找回童年的记忆

今天给大家带来几个Python小游戏，找回童年的同时学习编程！一、接金币普通难度：❤ 玩法介绍：吃金币，控制左右键，有手就行。源码分享 import os import cf…

人工智能 2023年7月4日
0099
回归的认识以及OLS回归

回归分析是统计学的核心，其实是一个广义的概念，通常指那些用一个或多个预测变量（自变量或解释变量）来预测响应变量（因变量、校标变量或结果变量）的方法。回归分析可以用来挑选与响应变量…

人工智能 2023年6月17日
0093
基于MobileNet-Yolov4搭建轻量化目标检测

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月9日
00108
在R中进行偏相关分析

### 回答1：偏相关分析_是用于评估两个变量之间的关系，排除了其他与它们同时变化的第三个变量的干扰。在Python _中，可以使用scipy库来进行偏相关分析。首先，…

人工智能 2023年7月15日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SSD论文解读

大家都在看