【深度学习】Two-Stage目标检测算法

2023年7月12日上午6:35 • 人工智能 • 阅读 85

本文参考自第八章_目标检测.md

Two stage目标检测算法：
先进行区域生成（region proposal，RP）（一个有可能包含待检物体的预选框），再通过卷积神经网络进行样本分类。
任务：特征提取—>生成RP—>分类/定位回归。
常见的two stage目标检测算法有：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。

一、目标追踪

分类
分类+位置
多目标检测
图像分割

; 二、R-CNN

R-CNN简要步骤：

输入测试图像
利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域(Region Proposal)
因为取出的区域大小各自不同，所以需要将每个 Region Proposal 缩放 (warp) 成统一的227×227的大小并输入到CNN，将CNN的fc7层的输出作为特征
将每个Region Proposal提取到的CNN特征输入到SVM进行分类

三、SPP-Net

参考文章：【目标检测】SPPnet论文详解

; 1.SPP-Net特点

网络的输入图片可以是任意尺寸
深度卷积神经网络的基础结构分为：卷积层（conv layers）→池化层（pooling layers）→全连接层（fc layers）
我们在设计网络的时候，全连接层的输入维数必须提前固定。从全连接层往前推的话，就必须保持第一层卷积的输入尺寸是固定的，例如224×224（ImageNet）、32×32（LenNet）等。这也就要求我们在检测图片时，需要将图片经过crop（裁剪）、warp（拉伸）等操作把图片变换成固定尺寸，才能输入神经网络。这些操作在一定程度上会导致图片信息的丢失或者变形。对此SPPnet提出的解决方案是在最后一层卷积层后用空间金字塔池化层（Spatial Pyramid Pooling）代替普通池化层。

2.空间金字塔池化(SPP)

论文中举例：把卷积操作之后的特征图（feature maps），以不同大小的块（池化框）来提取特征，分别是4×4，2×2，1×1，将这三张网格放到下面这张特征图上，就可以得到16+4+1=21种不同的块(Spatial Bins)，我们从这21个块中，每个块提取出一个特征（提取方式有平均池化、最大池化等），这样就得到了固定的21维特征向量。
以不同的大小格子的组合方式来池化的过程就是空间金字塔池化。
这么一来，我们只要设计m个n×n大小的网格就可以生成任意维数的特征向量，而不需要在意经过多层卷积操作后的特征图的大小是多少，这也意味着我们不需要在意网络输入的图片尺寸。
*使用金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的意义（多尺度特征提取出固定大小的特征向量）

3.SPP-Net过程

首先通过选择性搜索，对待检测的图片进行搜索出2000个候选窗口。这一步和R-CNN一样。
特征提取阶段：这一步就是和R-CNN最大的区别了，这一步骤的具体操作如下：
把整张待检测的图片，输入CNN中，进行一次性特征提取，得到feature maps
然后在feature maps中找到各个候选框的区域
再对各个候选框采用金字塔空间池化，提取出固定长度的特征向量。
而R-CNN输入的是每个候选框，然后在进入CNN，因为SPP-Net只需要一次对整张图片进行特征提取，速度会大大提升。
最后一步也是和R-CNN一样，采用SVM算法进行特征向量分类识别

四、Fast R-CNN

参考文章：【目标检测】Fast R-CNN论文详解

相比R-CNN最大的区别，在于RoI池化层和全连接层中目标分类与检测框回归微调的统一。

; 1.Fast R-CNN解决R-CNN的三个问题

测试速度慢 R-CNN中用CNN对每一个候选区域反复提取特征，而一张图片的2000个候选区域之间有大量重叠部分，这一设定造成特征提取操作浪费大量计算。 Fast R-CNN将整个图像归一化后直接送入CNN网络，卷积层不进行候选区的特征提取，而是在最后一个池化层加入候选区域坐标信息，进行特征提取的计算。
训练速度慢 同测试速度慢理由
训练所需空间大 R-CNN中目标分类与候选框的回归是独立的两个操作，并且需要大量特征作为训练样本。 Fast R-CNN将目标分类与候选框回归统一到CNN网络中来，不需要额外存储特征。

2.Fast R-CNN的网络结构

RoI池化层
RoI池化层去掉了SPP的多尺度池化，直接用M×N的网格，将每个候选区域均匀分成M×N块，对每个块进行max pooling。从而将特征图上大小不一的候选区域转变为大小统一的特征向量，送入下一层。 什么是RoI呢？ RoI是Region of Interest的简写，一般是指图像上的区域框，但这里指的是由Selective Search提取的候选框。
特征提取方式
Fast R-CNN在特征提取上可以说很大程度借鉴了SPPnet，首先将图片用选择搜索算法（selective search）得到2000个候选区域（region proposals）的坐标信息。

另一方面，直接将图片归一化到CNN需要的格式，整张图片送入CNN，将第五层的普通池化层替换为RoI池化层，图片然后经过5层卷积操作后，得到一张特征图（feature maps），开始得到的坐标信息通过一定的映射关系转换为对应特征图的坐标，截取对应的候选区域，经过RoI层后提取到固定长度的特征向量，送入全连接层。

; 五、Faster R-CNN

参考文章：一文读懂Faster RCNN

; 1.Faster R-CNN基本结构

Faster RCNN其实可以分为4个主要内容：

Conv layers：作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层 Conv layers包含了conv，pooling，relu三种层

Faster RCNN Conv layers中对所有的卷积都做了扩边处理（ pad=1，即填充一圈0），导致原图变为 (M+2)×(N+2)大小，再做3×3卷积后输出M×N 。正是这种设置，导致Conv layers中的conv层不改变输入和输出矩阵大小，如上图
Region Proposal Networks：RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals

根据上图可以看出RPN网络实际分为2条线，上面一条通过softmax分类anchors获得positive和negative分类，下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。其实RPN最终就是在原图尺度上，设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的positive anchor，哪些是没目标的negative anchor。所以，仅仅是个二分类而已！ RPN网络结构总结起来就是：
生成anchors → softmax分类器提取positvie anchors→ bbox reg回归positive anchors → Proposal Layer生成proposals
Roi Pooling：该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别从图络结构图中可以看到Rol pooling层有2个输入：
原始的feature maps
RPN输出的proposal boxes（大小各不相同）
Classification：利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置

六、R-FCN

参考文章：R-FCN论文详解

; 1.创新点

采用全卷积(Fully Convolutional)，主干网络为Res-Net101
采用位置敏感得分图(position-sentive score maps)

2.R-FCN整体流程

R-FCN主要包括4个部分：Conv layers(ResNet)、Region Proposal Network(RPN)、Classification、Regression。而整个R-FCN的流程如下：

首先输入一张图片，图片要经过resize使得图片的短边的长度为600。
然后图片先经过ResNet-101来提取特征，ResNet-101主要包括5个卷积网络块。
其中conv4的输出作为RPN的输入，和Faster R-CNN相同，这个RPN是用来提取proposal的，即提取出RoIs。
同时，ResNet-101的conv5输出因为是2048-d的，所以又加了一个新的new conv来降低channel的维度，输出的维度为1024-d。
然后这个1024-d的feature map再输入两个平行的conv layer中，一个用来classification，另一个用来regression。
对于classification的conv layer会产生一个k 2 ( c + 1 ) k^2(c+1)k 2 (c +1 )维的position-sensitive score map，然后再结合RPN提取的RoIs进行pooling，之后再为每个RoI得到分类结果。
而对于regression的conv layer则会产生一个4 k 2 4k^2 4 k 2维的position sensitive score map，然后也同样结合RPN提取的RoIs进行pooling，之后再为每个RoI得到回归结果。

3.selective pooling

将ROI应用到特征图上，输出一个3×3数组。将得分图和ROI映射到vote数组的过程叫做位置敏感ROI池化（position-sensitive ROI-pool）。该过程与前面讨论过的ROI池化非常接近。

将ROI的一部分叠加到对应的得分图上，计算V[i][j]。在计算出位置敏感ROI池化的所有值后，类别得分是其所有元素得分的平均值。
【深度学习】Two-Stage目标检测算法

假如我们有C个类别要检测。我们将其扩展为C+1个类别，这样就为背景（非目标）增加了一个新的类别。每个类别有3×3个得分图，因此一共有(C+1)×3×3个得分图。使用每个类别的得分图可以预测出该类别的类别得分。然后我们对这些得分应用 softmax 函数，计算出每个类别的概率。以下是数据流图，在本案例中，k=3。【深度学习】Two-Stage目标检测算法

; 七、FPN(特征金字塔网络)

1.创新点

多层特征
特征融合
解决了目标检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升小物体（small object）检测的性能

2.网络结构图

这种网络结构，能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。

; 3.组成模块

(1)Bottom-up pathway（自底向上线路）
(2)Lareral connections（横向链接）
(3)Top-down path（自顶向下线路）

Bottom-up pathway
Top-down pathway and lateral connections Top-town pathway是上采样（upsampling）过程。而later connection（横向连接）是将上采样的结果和bottom-up pathway生成的相同大小的feature map进行融合（merge）。注：上采样尺度因子为2，因为为了和之前下采样卷积的尺度因子等于2一样。上采样是放大，下采样是缩小。

八、Mask R-CNN

Mask R-CNN是一个实例分割（Instance segmentation）算法，主要是在目标检测的基础上再进行分割。Mask R-CNN算法主要是Faster R-CNN+FCN，更具体一点就是ResNeXt+RPN+RoI Align+Fast R-CNN+FCN。

即在Faster R-CNN的基础上添加了一个预测分割mask的分支，如上图所示。其中黑色部分为原来的Faster-RCNN，红色部分为在Faster-RCNN网络上的修改。将RoI Pooling 层替换成了RoIAlign层；添加了并列的FCN层（mask层）。

; 1.创新点

Backbone：ResNeXt-101+FPN
RoI Align替换RoI Pooling

2.Mask R-CNN算法步骤

输入一幅你想处理的图片，然后进行对应的预处理操作，或者预处理后的图片；
将其输入到一个预训练好的神经网络中（ResNeXt等）获得对应的feature map；
对这个feature map中的每一点设定预定个的RoI，从而获得多个候选RoI；
将这些候选的RoI送入RPN网络进行二值分类（前景或背景）和BB回归，过滤掉一部分候选的RoI；
对这些剩下的RoI进行RoI Align操作（即先将原图和feature map的pixel对应起来，然后将feature map和固定的feature对应起来）；
对这些RoI进行分类（N类别分类）、BB回归和MASK生成（在每一个RoI里面进行FCN操作）。

3.RoI Pooling和RoI Align的不同

ROI Align 是在Mask-RCNN中提出的一种区域特征聚集方式，很好地解决了RoI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示，在检测测任务中将 RoI Pooling 替换为 RoI Align 可以提升检测模型的准确性。

在常见的两级检测框架（比如Fast-RCNN，Faster-RCNN，RFCN）中，RoI Pooling 的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图，以便进行后续的分类和包围框回归操作。由于预选框的位置通常是由模型回归得到的，一般来讲是浮点数，而池化后的特征图要求尺寸固定。故RoI Pooling这一操作存在两次量化的过程。

将候选框边界量化为整数点坐标值。
将量化后的边界区域平均分割成k × k k\times k k ×k 个单元(bin),对每一个单元的边界进行量化。

事实上，经过上述两次量化，此时的候选框已经和最开始回归出来的位置有一定的偏差，这个偏差会影响检测或者分割的准确度。在论文里，作者把它总结为”不匹配问题（misalignment）”。

为了解决RoI Pooling的上述缺点，作者提出了RoI Align这一改进的方法(如图2)。
【深度学习】Two-Stage目标检测算法

RoI Align的思路很简单：取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。值得注意的是，在具体的算法操作上，RoI Align并不是简单地补充出候选区域边界上的坐标点，然后将这些坐标点进行池化，而是重新设计了一套比较优雅的流程，如下图所示：

遍历每一个候选区域，保持浮点数边界不做量化。
将候选区域分割成k × k k\times k k ×k个单元，每个单元的边界也不做量化。
在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

Original: https://blog.csdn.net/weixin_42166222/article/details/115578470
Author: MangoloD
Title: 【深度学习】Two-Stage目标检测算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687126/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【建议背诵】软考高项考试案例简答题汇总~

为大家在考前整理了软考高项案例分析题答案汇总！考前可以速记一下。有电子版本的，可以打印下载来看看！ 1. 管理者的权力来源种类及其特点？ (1)职位权力,来源于管理者在组织中的职…

人工智能 2023年6月28日
0072
pytorch模型转tflite【以EfficientNet-BTS为例】

步骤使用pytorch转tflite需要经过：pytorch -> onnx -> tensorflow -> tflite 配置环境 ONNX-TensorF…

人工智能 2023年5月24日
0075
SSD系列、Retinanet、Efficientdet、RCNN系列知识点整理

接着前面的YOLO系列继续做一些简单的关键点整理,便于博主快速回忆起来。 1.SSD（2016） https://arxiv.org/pdf/1512.02325.pdf 类似前面…

人工智能 2023年5月28日
0048
1分钟掌握DataFrame的行标签索引（loc与iloc）

针对DataFrame标签索引的loc和iloc方法： lociloc行名称标签整数（位置）标签代码示例： 1、首先建立一个示例数据 –“data&#82…

人工智能 2023年7月7日
0071
YOLOv5Face YOLO5Face人脸检测论文及代码简析

YOLO5face人脸检测模型论文和代码简析 YOLO5Face模型分析 * 论文及源码下载论文创新点实验结果下载代码跑起来调整数据集训练完成之后检验结果一点点代码简析…

人工智能 2023年6月24日
0095
特征提取网络之Resnet

文章目录前言 1、网络结构 2、代码解读 * resnet50 总结前言整理下特征提取网络resnet的网络结构论文地址：https://arxiv.org/abs/1512…

人工智能 2023年7月13日
0077
YOLOv5的Tricks | 【Trick14】YOLOv5的val.py脚本的解析

如有问题，恳请指出。这篇可能是这个系列最后的一篇了，最后把yolov5的验证过程大致的再介绍介绍，基本上把yolov5的全部内容就稍微过了一遍了，也是我自己对这个项目学习的结束。…

人工智能 2023年7月26日
0036
【python】我用python抓取了19个一线城市三年的房价数据，并做了走势分析

这里写目录标题 * – 引子 – 分析网页 – 分析数据 – 编写程序 – 运行结果： – 可视化分析 &#…

人工智能 2023年7月15日
0054
深度可分离卷积

深度可分离卷积导读提出背景研究进展深度可分离卷积详细介绍空间可分离参数分析深度可分离卷积以及MobileNet的网络结构导读最近在学习模型量化相关的技术，过程中了…

人工智能 2023年7月14日
0046
目标检测中的回归损失函数总结

目标检测中的回归损失函数总结目前总结内容（Content） Smooth L1 Loss * 动机分析不足 IoU Loss（2016） * 动机分析不足 GIoU Lo…

人工智能 2023年6月17日
0068
论文阅读“Augmentation-Free Self-Supervised Learning on Graphs”(AAAI 2022)

论文标题 Augmentation-Free Self-Supervised Learning on Graphs 论文作者、链接作者：Lee, Namkyeong and Le…

人工智能 2023年5月31日
0083
树莓派视觉跟踪小车_树莓派智能小车结合摄像头opencv进行物体追踪

在开发树莓派智能小车的路上已经走了一年多时间了，起初做了以下简单的远程控制和避障功能，后来慢慢加入黑线循迹以及语音识别，物体识别的功能。前段时间在刷新闻头条的时候，偶然看到一外国大…

人工智能 2023年5月27日
0055
【机器学习】K-Means算法优化

K-Means算法优化学习目标 1. Canopy算法配合初始聚类 * 1.1 Canopy算法配合初始聚类实现流程 1.2 Canopy算法的优缺点 2. K-means++ …

人工智能 2023年6月2日
0077
鸢尾花分类——后续（读取csv文件，并对数据进行处理数据）

这篇文章是在前篇文章的基础上进行的更改的，补充了简单的数据处理部分完成缺失值处理完成数据编码与标准化完成数据集的划分（可尝试多种划分方法）完成建立鸢尾花分类模型（可尝试使用…

人工智能 2023年7月1日
0089
logistic回归模型—基于R

logistic回归模型—基于R 数据理解和准备 * 一. 对缺失值的处理二.虚拟变量的赋值三.箱线图四.相关性分析训练集与测试集的划分模型构建与评价 * 一.logis…

人工智能 2023年6月16日
0097
【机器学习】求矩阵的-1/2次方的方法

目录一、背景描述二、D^(-1/2)的理论基础三、代码实现四、总结一、背景描述今天在看如下论文的时候：态势感知+图卷积网络在电力系统连锁故障中的应用-机器学习文档类资…

人工智能 2023年7月28日
00182

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【深度学习】Two-Stage目标检测算法

; 1.SPP-Net特点

2.空间金字塔池化(SPP)

3.SPP-Net过程

; 1.Fast R-CNN解决R-CNN的三个问题

2.Fast R-CNN的网络结构

; 1.Faster R-CNN基本结构

; 1.创新点

2.R-FCN整体流程

3.selective pooling

1.创新点

2.网络结构图

; 3.组成模块

; 1.创新点

2.Mask R-CNN算法步骤

3.RoI Pooling和RoI Align的不同

大家都在看