【目标检测论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

2023年7月9日下午9:41 • 人工智能 • 阅读 78

文章目录

R-CNN模型回顾
*
为什么R-CNN要求固定输入？
SSPnet模型提出背景
作者改进的思路和方法
SPP为什么能输出固定的长度？
SPP模型训练过程
小总结

R-CNN系列推演：

每一篇都是前一篇或者前几篇的改造版，所以按顺序看会比较好。

今天看一下SPPnet。

论文题目: Spatial Pyramid Pooling in Deep Convolutional
Networks for Visual Recognition

下载连接:https://arxiv.org/pdf/1406.4729.pdf

SSPnet这篇论文是针对R-CNN的缺点进行改造，文章内容不是特别多，所以泛读一下。

可以看一下我前两天整理的R-CNN精读

R-CNN模型回顾

R-CNN是首次提出两阶段目标检测的模型。

具体操作先从图片中提取2000个候选框，然后每个候选框放到CNN里抽特征，然后再给SVM分类。

R-CNN模型要求输入尺寸必须固定为227 * 227。

为什么R-CNN要求固定输入？

卷积层对于输入没有要求，因为就是滑动嘛。但是全连接层就不一样了，全连接层的参数和输入图片大小有关，因为他要连接所有的像素点，所以要指定输入输出的神经元个数，规定输入的feature map大小。

SSPnet模型提出背景

因为R-CNN要求输入尺寸必须固定成227 * 227，但对于图片的无论是剪裁(crop)还是变形(warp)，都会对识别精度产生影响，所以作者想提出一种方法解决从全连接层这个问题，让模型不再固定输入。

R-CNN模型的速度也很慢，主要是每一张提取了2000个候选框，每个候选框进行变形然后送给CNN。

作者改进的思路和方法

改进思路一

改进图片输入固定尺寸导致图片变形的问题。

作者提出了一种名为空间金字塔池化（SSP）的模型，该模型应用于最后一个卷积层之后，全连接层之前，SSP将接受不同输入尺寸的feature map，转化成固定输出的尺寸。

两种模型的对比：

【目标检测论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

这就根本解决了R-CNN固定输出尺寸的问题，这里其实也是固定了输出尺寸，但与R-CNN根本区别是，R-CNN先将图片进行了扭曲或者裁剪，然后再给CNN，此时CNN的特征提取就是基于已经变形过的图片了，必然有失精度，而在SPP模型中，图片是原图输入给CNN进行特征提取，提取完特征之后再变形，这样在CNN这块就没有损失了。

改进思路二

改进R-CNN训练慢的问题。

因为需要提取2000个候选框放到CNN里所以导致R-CNN训练大幅减慢。
作者提出了一种思路方法，就是对每一个图片不进行候选框提取，而是将整个图片都放到CNN中去提取整个图片的feature map，然后通过选择性搜索（SS）得到候选区域，让候选区域和feature map直接映射，得到候选区域的映射特征向量。

; SPP为什么能输出固定的长度？

论文中给出了下面这张图：

最下面的黑色方框就是卷积层的最后一层输出的feature map。空间金字塔池化包含了很多金字塔层（上图中包含3层）只不过拆开放了，他们应该是叠在一起的，最左边是第一层。

实际上SSP结构就是多层最大池化层。设定的金字塔尺度为n×n bins（对于不同大小图片是固定的），上图三层左起分别是4 * 4，2 * 2，1 * 1，将这三张网格放到下面这张特征图上，就可以得到16+4+1=21种不同的块(Spatial bins)，我们从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量，最终一共可以输出固定的（16+4+1）*256特征。

SPP模型训练过程

论文中说了两种训练方式，一种是single-size,一种是Multi-size。

single-size

单尺寸训练。

上面也说了SPP最大的优点就是不拘泥于输入的尺寸，但是由于硬件和框架方面的问题，这里使用了固定尺寸的输入进行了训练(输入为224 * 224)。

Multi-size

多尺寸训练。

实际上就是在当前固定输入尺寸的情况下模拟SPP的理论上不要求输入尺寸的情况。

使用两个尺度进行训练：224×224、180×180。训练时，224×224通过crop得到，180×180的通过缩放224×224得到。之后迭代训练，即用224的图片训练一个epoch，再用180的图片训练一个epoch，交替进行。

两种尺度下，在SPP后，输出特征维度都为 (9+4+1)x256，参数共享，后面跟全连接层，收敛速度和单尺度训练的相近。

小总结

这篇论文主要是对R-CNN的改进，所以用一张两模型的对比表格在好不过了。

R-CNNSPP一张图片提取2000个候选框，并强制缩放到固定尺寸后送给CNN整张图片直接送给CNNCNN提取每个候选框的feature mapCNN得到整张图的feature map，通过SS得到候选区域与feature map直接映射得到特征向量将CNN提取的feature map 送给SVM分类，送给BB回归进行定位修复映射的特征向量给SSP，SSP输出固定大小的特征向量，再给 FC,再SVM+回归

SPP相较于R-CNN，精度UP！速度UP！

Original: https://blog.csdn.net/qq_38737428/article/details/124611934
Author: 深度不学习！！
Title: 【目标检测论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681504/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

联邦学习激励机制

联邦学习激励机制每日一诗：《杂兴其二》清 · 张廷玉我闻昔人言，苛政猛如虎。又诵《魏风》篇，硕鼠况贪取。嗟哉牧民人，煌煌绾圭组。乃以父母称，而为众所苦。驺虞有仁心，麟趾中规矩。…

人工智能 2023年6月25日
0082
猿创征文 | 盘点10个冷门Python库，原来Python还能实现这些功能？

目录 👉 1 PrettyErrors 👉 2 Rich 👉 3 Dear PyGui 👉 4 HummingBird 👉 5 HiPlot 👉 6 Norfair 👉 7 Geo…

人工智能 2023年5月30日
00105
pytorch中遇到的常见的错误处理

1、RutimeError: Expected object of scalar type Float but got scalar type Double for argumen…

人工智能 2023年7月24日
0081
pandas.DataFrame.plot( )参数详解

使用DataFrame的plot方法绘制图像会按照数据的每一列绘制一条曲线，默认按照列columns的名称在适当的位置展示图例，比matplotlib绘制节省时间，且DataFra…

人工智能 2023年6月2日
0073
机器学习中的七种分类算法

目录 1 分类任务的类型 1.1 二元分类 1.2 多元分类 1.3 多标签分类 1.4 不平衡分类 2 分类算法如何工作 3 数据预处理 4 创建测试集和训练集 5 选择模型 6…

人工智能 2023年6月12日
0056
大数据技术基础实验十三：Kafka实验——订阅推送示例

大数据技术基础实验十三：Kafka实验——订阅推送示例文章目录大数据技术基础实验十三：Kafka实验——订阅推送示例 * 一、前言二、实验目的三、实验要求四、实验原理 &…

人工智能 2023年6月27日
0086
ROS下实现darknet_ros目标检测

一. 代码下载代码Github主页：https://github.com/leggedrobotics/darknet_ros打开命令行终端，键入以下命令下载 mkdir -p …

人工智能 2023年7月10日
00110
调试代码错误1:legacy-install-failure、subprocess-exited-with-error

问题：要克隆GitHub上的torchsparse包。 python3.9安装matplotlib3.2.2版本失败解决_信安科研人的博客-CSDN博客错误一安装过程中遇到：ERR…

人工智能 2023年7月5日
0079
机器学习05|一万五字：SVM支持向量机02 【jupyter代码详解篇】

文章目录 Jupyter实现 * 任务一从DataSet.txt中导入数据，获得训练集以及标签。任务二调整alpha的值任务三上述原理过程中，需要计算真实值与预测值之间的…

人工智能 2023年6月29日
00111
MATLAB图像处理

本次内容基于MATLAB的图像处理进行基本介绍，内容包含图像数据的读取、图像展示、裁剪、调整等变换。 1、imread()函数 ①若为灰色图像，则A为 M*N 数组，灰色图像的每个…

人工智能 2023年6月18日
0095
【深度学习】(1)CNN中的注意力机制（SE、ECA、CBAM），附Pytorch完整代码

大家好，今天和各位分享一下如何使用 Pytorch构建卷积神经网络中的各种注意力机制，如： SENet，ECANet，CBAM。注意力机制的原理和 TensorFlow2的实现方…

人工智能 2023年7月24日
0078
2020CCFBDCI通用音频分类CNN方案（0.90+方案）

赛题名：通用音频分类赛道：训练赛道背景：随着移动终端的广泛应用以及数据量的不断积累，海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体，音频信息处理应用广泛且多样，如自…

人工智能 2023年5月27日
0074
基于ROS的SLAM建图、自动导航、避障（冰达机器人）

SLAM是Simultaneous localization and mapping缩写，意为”同步定位与建图”，主要用于解决机器人在未知环境运动时的定位与…

人工智能 2023年7月27日
0059
目标检测 labelimg进行标注文档

系列文章目录第二章 labellimg 标注素材文章目录系列文章目录前言一、labellimg 是什么？二、labellimg 安装步骤三、使用labellimg *…

人工智能 2023年7月10日
0071
C语言数字图像处理进阶—12光照特效滤镜

光照特效滤镜光照特效滤镜是一种模拟光源照射物体表面的特效滤镜，如下图所示：原图光照滤镜 [算法] 图像光照滤镜效果就是在图像中添加上一个太阳光源，以此模仿光照条件。这个效果…

人工智能 2023年6月21日
0068
Qt中QThread安全退出方式总结

QThread的使用方式在Qt中，使用QThread实现子线程的方式有两种：继承QThread，重写run函数继承QObject，使用moveToThread方式移动进QThre…

人工智能 2023年6月27日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【目标检测 论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）

文章目录

为什么R-CNN要求固定输入？

大家都在看

【目标检测论文泛读】SSPnet (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）