【目标检测基础】R-CNN、Fast R-CNN、Faster R-CNN快速了解

2023年7月9日下午9:23 • 人工智能 • 阅读 80

R-CNN、Fast R-CNN、Faster R-CNN快速了解

近日读视频目标检测的论文时，发现自己对图片目标检测的经典模型和算法的理解还不够深入。于是找出目标检测的经典论文来巩固自己对目标检测模型和算法的理解，以及梳理整个目标检测的发展历程。

一、论文1：R-CNN

1.1 论文信息

标题
Rich feature hierarchies for accurate object detection and semantic segmentation 会议

CVPR
2014 原文链接 Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation (thecvf.com) 领域

图片目标检测

此论文可以算是目标检测领域起到奠基性工作的论文，是目标检测领域最早的模型。

1.2 主要思想

本篇论文的基本思路是：

【目标检测基础】R-CNN、Fast R-CNN、Faster R-CNN快速了解

使用启发式搜索算法来选择锚框；
使用预训练模型来对 每个锚框抽取特征；
训练一个支持向量机(SVM)来对类别分类；
训练一个线性回归模型来预测边缘框偏移(offset)。

; 1.3 实现算法步骤

R-CNN包括以下四个步骤：

对输入图像使用选择性搜索来选取多个高质量的提议区域。这些提议区域通常是在多个尺度下选取的，并具有不同的形状和大小。每个提议区域都将被标注类别和真实边界框。
选择一个预训练的卷积神经网络，并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸，并通过前向传播输出抽取的提议区域特征。
将每个提议区域的特征连同其标注的类别作为一个样本。训练多个支持向量机对目标分类，其中每个支持向量机用来判断样本是否属于某一个类别。
将每个提议区域的特征连同其标注的边界框作为一个样本，训练线性回归模型来预测真实边界框。

1.4 总结与思考

尽管R-CNN模型通过预训练的卷积神经网络有效地抽取了图像特征，但它的速度很慢。想象一下，我们可能从一张图像中选出上千个提议区域，这需要上千次的卷积神经网络的前向传播来执行目标检测。这种庞大的计算量使得R-CNN在现实世界中难以被广泛应用。

R-CNN提出的时代，基于神经网络的深度学习还没兴起。虽然采用SVM进行分类在现今听起来多少有点过时，但其所提的目标检测算法步骤和思想却一直贯穿到现在。

二、论文2：Fast R-CNN

2.1 论文信息

标题
Fast R-CNN 会议

ICCV
2015 原文链接 Fast R-CNN (cv-foundation.org) 领域

图片目标检测

此论文是对 R-CNN 模型进一步改进，为了解决R-CNN速度慢的问题。

2.2 主要思想

本篇论文的基本思路是：

使用CNN对整张图片抽取特征，而不是每个锚框抽取特征；
使用启发式搜索算法，在原始图片上来选择锚框；
搜到锚框之后，把原始图片上的锚框映射到CNN的输出特征图上；
在CNN输出的特征图上，使用RoI (Region of Interest) 池化层对每个锚框生成固定长度的特征。
把这些特征输入到全连接层，进行分类和预测边界框。

; 2.3 实现算法步骤

Fast R-CNN 的主要算法步骤如下：

与R-CNN相比，Fast R-CNN用来提取特征的卷积神经网络的输入是 整个图像，而不是各个锚框。此外，这个网络通常会参与训练。设输入为一张图像，将卷积神经网络的输出的形状记为1 × c × h 1 × w 1 1×c×h_1×w_1 1 ×c ×h 1 ×w 1 。
假设选择性搜索生成了n n n个提议区域。这些形状各异的提议区域在卷积神经网络的输出上分别标出了形状各异的兴趣区域 (RoI)。然后，这些感兴趣的区域需要进一步抽取出形状相同的特征（比如指定高度h 2 h_2 h 2 和宽度w 2 w_2 w 2 ），以便于连结后输出。为了实现这一目标，Fast R-CNN引入了兴趣区域汇聚层（RoI pooling）：将卷积神经网络的输出和提议区域作为输入，输出连结后的各个提议区域抽取的特征，形状为n × c × h 2 × w 2 n×c×h_2×w_2 n ×c ×h 2 ×w 2 。
通过全连接层将输出形状变换为n × d n×d n ×d，其中超参数d d d 取决于模型设计。
预测n n n 个提议区域中每个区域的类别和边界框。更具体地说，在预测类别和边界框时，将全连接层的输出分别转换为形状为n × q n×q n ×q（q q q是类别的数量）的输出和形状为n × 4 n×4 n ×4 的输出。其中预测类别时使用 softmax 回归。

2.4 总结与思考

Fast R-CNN 相比 RNN 提升的主要是不再对原始图片中的每个锚框都进行CNN抽取特征，而是对整幅图片进行一次CNN特征抽取。这样做的好处是，大量生成的锚框之间会有大量重叠区域，能够避免重复计算这些重叠区域，从而使计算变得更高效。

三、论文3：Faster R-CNN

3.1 论文信息

标题
Faster R-CNN: towards real-time object detection with region proposal networks 期刊 Neural Information Processing Systems 2015 原文链接 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (neurips.cc) 领域

图片目标检测

此论文是对 Fast R-CNN 模型进一步改进，再一次提升 Fast R-CNN 的速度。

3.2 主要思想

本篇论文相比 Fast R-CNN的改进之处是：使用一个区域提议网络 (Region Proposal Network, RPN) 来替代启发式搜索来获得更好的锚框。其他部分与 Fast R-CNN 模型一致。如下图所示：

使用CNN对整张图片抽取特征；
把CNN输出的特征图输入到 RPN 中， RPN 输出一堆比较高质量的锚框。 RPN 本质上其实是 粗糙的目标检测。而不再用 Fast R-CNN 中的启发式搜索来获得锚框；
搜到锚框之后，把原始图片上的锚框映射到CNN的输出特征图上；
在CNN输出的特征图上，使用RoI (Region of Interest) 池化层对每个锚框生成固定长度的特征。
把这些特征输入到全连接层，进行分类和预测边界框。

; 3.3 RPN实现算法步骤

区域提议网络 (RPN) 的计算步骤如下：

使用填充为1 1 1 的3 × 3 3×3 3 ×3 的卷积层变换卷积神经网络的输出，并将输出通道数记为c c c。这样，卷积神经网络为图像抽取的特征图中的每个单元均得到一个长度为c c c 的新特征。
以特征图的每个像素为中心，生成多个不同大小和宽高比的锚框并标注它们。
使用锚框中心单元长度为c c c 的特征，分别预测该锚框的 二元类别（含目标还是背景）和边界框的偏移。
使用非极大值抑制 (NMS)，从预测类别为目标的预测边界框中移除相似的结果。最终输出的预测边界框即是兴趣区域汇聚层所需的提议区域。

3.4 总结与思考

Faster R-CNN 把原 Fast R-CNN 网络中的启发式搜索替换成 RPN 。在 RPN 中训练一个二分类问题：预测这个锚框是否框中了真实的目标物体，或者说还是框住了背景，并预测该锚框到边界框的偏移。

我个人理解， RPN 网络的作用就是粗糙的目标检测：给一堆质量很差的锚框，去输出质量好的锚框给后面的大网络用。

从此以后，诞生了目标检测里著名的一种流派—— two-stage检测。一块就是 RPN 小网络，另一块就是后面的主网络，先粗糙预测再精细预测，共做两次预测。

虽然叫 Faster R-CNN，但按今天目标检测领域的发展来看，其速度已经远远称不上快速。如下图所示：YOLO系列、CenterNet模型等算法的在精度还不错的情况下，其速度远远比 Faster R-CNN 快。

Original: https://blog.csdn.net/Sihang_Xie/article/details/123786384
Author: 自牧君
Title: 【目标检测基础】R-CNN、Fast R-CNN、Faster R-CNN快速了解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681480/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python数据分析】数据的分组，遍历，统计

数据的分组，遍历，统计俗话说：”人与类聚，物以群分”，到这里我们将学习数据的分组以及分组后统计。Pandas的分组相对于Excel会更加简单和灵活。 1️…

人工智能 2023年6月19日
0088
利用matlab展示多种分类器的分类边界

目录 0. 源代码 1. ELM（线性判别分析） * 1.1 隐层结点设置为5 1.2 隐层结点设置为50 1.3 隐层结点设置为500 2. SVM（支持向量机） * 2.1 线…

人工智能 2023年7月2日
0085
基于隐马科夫模型，HMM用于中文分词

HMM用于中文分词一、在分词、分句前用规则处理句子 # 在分词前用规则处理句子def preprocess (oriSentence):# 删除后缀_oriSentence = …

人工智能 2023年7月17日
0042
基于Windows平台在C++中调用Pytorch模型

本教程将完整的记录使用pytorch从模型训练到模型调用（基于Python），再通过libtorch转成C++调用（基于win32 C++控制台程序）。Python版本：Pytho…

人工智能 2023年7月14日
00101
(T2I) VILT

因为不同模态的输入都可以转化为一维序列，那么不同模态可以同时作为Transformer的输入来处理，这样子就能够解决多模态输入不统一的核心痛点。该文章将text和image两…

人工智能 2023年5月28日
00112
常见的几种池化操作：MaxPool2d/AdaptiveMaxPool2d/AvgPool2d/AdaptiveAvgPool2d…（Pytorch）

池化操作零、池化操作一、MaxPool：最大池化 * 1）MaxPool1d – （1）调用方式（2）参数解析：一般我们只需要设置kernel_size和stri…

人工智能 2023年6月23日
0079
逻辑回归模型详解(Logistic Regression)

目录广义线性模型极大似然法逻辑回归的假设函数逻辑回归的损失函数交叉熵损失函数为什么LR模型损失函数使用交叉熵不用均方差交叉熵损失函数的数学原理交叉熵损失函数的直观理…

人工智能 2023年6月18日
00129
重要的 NLP 任务总结与20本最佳深度学习书籍[附带源码]

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0088
ROS kinetic自定义路径规划算法

文章目录前言一、Navigation源码的编译 * 1.Navigation二进制版的卸载 2.Navigation源码的安装步骤二、RRT*路径规划算法的移植 * 1.RR…

人工智能 2023年6月1日
00101
Ubuntu18.04、20.04 循环登陆无法进入界面，直至花屏，解决办法（实测有效）

前言、一开始想安装日语输入法，于是找到mozc这款，仅仅输入一条安装命令（sudo apt install mozc-server mozc-data fcitx-mozc moz…

人工智能 2023年6月4日
0093
CoCo数据集下载

文章目录 1.介绍 2.下载 * 2.1 官网 2.2 百度网盘 2.3 下载到linux服务器 1.介绍 MS COCO的全称是Microsoft Common Objects …

人工智能 2023年6月16日
00131
ubuntu20.10报错问题

ubuntu20.10报错问题container error: cgroup subsystem devices not found https://blog.csdn.net/R…

人工智能 2023年5月25日
0052
Pytorch学习笔记(五):nn.AdaptiveAvgPool2d()函数详解

相关文章 Pytorch学习笔记(一):torch.cat()模块的详解Pytorch学习笔记(二):nn.Conv2d()函数详解Pytorch学习笔记(三):nn.BatchN…

人工智能 2023年6月15日
0075
Python 中的文本分类

介绍在上一章中，我们已经推导出了计算文档d属于类别c的概率的公式，记为P(c|d)。我们已将 P(c|d) 的标准公式（如许多论文1 中使用的那样）转换为数值稳定的形式。我们…

人工智能 2023年7月3日
00105
混合IP-SDN环境的仿真实验

混合IP-SDN环境的仿真实验混合IP-SDN环境的仿真实验 * 实验室名称实验名称实验原理实验目的实验设备实验步骤 – 1.在mininet中搭建如下拓扑…

人工智能 2023年6月26日
0074
spss假设检验_SPSS有序Logistic回归的具体操作——「杏花开生物医药统计」

在前几期文章中，我们讲到了因变量为连续线性型的回归分析，用线性回归；因变量为对立二分类变量，用二元Logistic回归。但当我们遇到因变量为等级变量时候，比如某种疾病的严重程度，…

人工智能 2023年6月18日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【目标检测基础】R-CNN、Fast R-CNN、Faster R-CNN快速了解

1.1 论文信息

1.2 主要思想

; 1.3 实现算法步骤

1.4 总结与思考

2.1 论文信息

2.2 主要思想

; 2.3 实现算法步骤

2.4 总结与思考

3.1 论文信息

3.2 主要思想

; 3.3 RPN实现算法步骤

3.4 总结与思考

大家都在看