目标检测系列——开山之作RCNN原理详解

2023年7月9日下午2:16 • 人工智能 • 阅读 72

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题
🍊往期回顾：ubuntu使用指南阿里云对象存储oss+picgo+typora实现步骤及无法上传图片解决方案
🍊近期目标：拥有10000粉丝
🍊支持小苏：点赞👍🏼、收藏⭐、留言📩

文章目录

RCNN原理
*
写在前面
候选区域生成
神经网络提取特征
SVM分类器分类
回归器修正候选框位置
小结
参考链接

RCNN原理

写在前面

RCNN是目标检测领域的开山之作，作者是Ross Girshick ，我们称之为RGB大神🥗🥗🥗 可以在google学术中看看这位大牛都写了哪些文章，看看这引用次数，只能惊呼🐂🍺！！！

接下来将详细介绍介绍RCNN的原理，先来看看论文中这张经典的图片。这张图片展示了RCNN的实现过程，其主要有四步，下面分别对每步进行讲解。

; 候选区域生成

候选区域生成在RCNN中采用的是selective search 【简称SS算法】，这个算法的原理大致是通过颜色、大小、形状等一些特征对图像进行聚类，算法的结果是在一张图片中生成一系列的候选框，RCNN中让每张图像都生成2000个候选框。这些候选框有着大量的重叠部分，因此我们后面需要将这些重叠的候选框去除，得到相对准确的候选框。【注：这里不对SS算法做详细的讲解，感兴趣的可以自己查阅了解🍍🍍🍍】下图展示了SS算法得到的大致结果，可见一个目标会有多个候选框生成。 【注：RCNN中SS算法每幅图像生成的候选框个数为2000🥝🥝🥝】

神经网络提取特征

上一步我们由SS算法从一张图片中得到了2000个候选框，接下来需要对这些候选框进行特征提取，即分别将2000个候选框区域喂入ALexNet网络进行训练，提取特征。【注：有关ALexNet的网络结构我前文有介绍，不清楚的点击☞了解详情🌱🌱🌱】为方便大家阅读，我把ALexNet的网络结构也贴出供大家参考，如下图所示：

需要注意的是，在RCNN中，我们不需要最后的softmax层，只需要经过最后两次全连接层，利用其提取到的特征即可。此外由于全连接层的存在，需要对输出图片的尺寸进行限制，即需要图片分辨率为227227。论文中所采用的方法为无论候选区域的大小或纵横比如何，先将其周围扩展16个邻近像素，然后将所有像素强制缩放至227227尺寸。 【注：可见此方案会使原图像发生畸变，如人物变矮变胖等】相关缩放方案如下图所示：

图片来源B站同济子豪兄

; SVM分类器分类

上一步我们已经通过ALexNet网络提取到特征，每一个候选框区域都会生成4096维的特征向量，如下图所示：

图片来源B站霹雳吧啦Wz

上图展示的是一个候选框提取到的特征，我们采用SS算法会从一幅图片中生成2000个候选框，将所有候选框输入网络，就会得到20004096维的特征矩阵。将20004096维的特征矩阵与20个SVM组成的权值矩阵409620相乘，会得到200020维的概率矩阵，其中每一行代表一个候选框属于各个目标类别的概率。 【注意：若采用的是VOC数据集，那么类别是应该有21类，包括一个背景类】

图片来源B站霹雳吧啦Wz

为让大家更容易理解，对于上图的结构①做更详细的解释，如下图所示：

从上图可以看出，200020维矩阵的每一列表示2000个候选框分别对某一类的预测概率，如第一列则表示2000个候选框分别对狗的预测概率。 我们对每一列即每一类进行非极大值抑制（NMS）用于剔除重叠候选框，得到该列中得分最高的的建议框。*具体NMS过程如下：

图片来源B站霹雳吧啦Wz

关于这一部分开始可能会有点迷惑，为什么要删除IOU大的目标呢？我之前也产生过这个疑问，其实这还是我们对这个流程不是很清楚。首先我们会在某一列中找出得分最高的目标，然后会计算其它目标和这个得分最高目标的IOU【注意不是计算与Ground Truth的IOU】，这个IOU大表示什么含义呢？ 这个值越大表示这两个候选框重叠的部分越多，则表示这两个候选框很可能表示的是同一个物体，那么删除得分低的候选框就很容易理解了。下图展示了相关过程：

图片来源B站霹雳吧啦Wz

回归器修正候选框位置

上一步骤中我们剔除了许多候选框，接下来我们需要对剩余的候选框进一步筛选，即分别用20个回归器对上述20个类别中剩余的候选框进行回归操作，最终得到每个类别修正后的得分最高的bounding box。

那么我们怎么由候选框得到最后的预测框呢？我们依旧会由ALexNet输出的特征向量来得到回归器的预测结果，其结果为( d x ( P ) , d y ( P ) , d w ( P ) , d h ( P ) ) (d_x(P),d_y(P),d_w(P),d_h(P))(d x (P ),d y (P ),d w (P ),d h (P )) ，其表示中心点坐标偏移及宽度和高度候选框偏移的缩放因子。其预测的结果G i ∧ {\mathop {\rm{G_i}}\limits^ \wedge}G i ∧的表达式如下所示：

图片来源B站同济子豪兄

我们由上式反解出( d x ( P ) , d y ( P ) , d w ( P ) , d h ( P ) ) (d_x(P),d_y(P),d_w(P),d_h(P))(d x (P ),d y (P ),d w (P ),d h (P )) 的表达式，现用( t x , t y , t w , t h ) (t_x,t_y,t_w,t_h)(t x ,t y ,t w ,t h ) 表示，因为标注框参数和候选框参数都是给定的，因此( t x , t y , t w , t h ) (t_x,t_y,t_w,t_h)(t x ,t y ,t w ,t h ) 也是可直接计算得到的，为真实值。

图片来源B站同济子豪兄

接下来就用( d x ( P ) , d y ( P ) , d w ( P ) , d h ( P ) ) (d_x(P),d_y(P),d_w(P),d_h(P))(d x (P ),d y (P ),d w (P ),d h (P ))值去拟合( t x , t y , t w , t h ) (t_x,t_y,t_w,t_h)(t x ,t y ,t w ,t h )值，使损失函数最小，损失函数如下：

; 小结

RCNN的原理部分就介绍到这里了，希望可以对大家有所帮助。🍀🍀🍀后续会持续更新fast_RCNN和Faster_RCNN的内容以及相关代码讲解，一起加油吧！！！

参考链接

RCNN理论合集🍁🍁🍁
RCNN论文精读🍁🍁🍁

如若文章对你有所帮助，那就🛴🛴🛴

咻咻咻咻~~duang~~点个赞呗

对人工智能感兴趣的可以扫码加入C站人工智能官方社群，欢迎各位小伙伴加入交流学习，一起进步！！

Original: https://blog.csdn.net/qq_47233366/article/details/125367120
Author: 秃头小苏
Title: 目标检测系列——开山之作RCNN原理详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/680831/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[ASTGCN之1个特征]解读(torch)之参数读取和数据读入(一)

相关资料：原文原文解析：混合注意力时空图卷积-ASTGCN mxnet版本的数据分析 mxnet版本的代码解读文章目录 – 一、目录二、configparser…

人工智能 2023年7月23日
0077
Kubernetes add cluster.

1.create serviceaccount 2.get token and sa from secret 3.add cluster 4.check configuration…

人工智能 2023年7月30日
0064
Python之pandas：数据类型变换之object、category、bool、int32、int64、float64以及数据类型标准化之详细攻略

Python之pandas：特征工程中数据类型(object/category/bool/int32/int64/float64)的简介、数据类型转换四大方法、案例应用之详细攻略 …

人工智能 2023年7月8日
0090
机器学习笔记 – 矩阵乘法(点积)

一、矩阵相乘 1、概述矩阵相乘的标准方法不是将一个矩阵的每个元素与另一个矩阵的每个元素相乘（称为元素乘积），而是计算行和列之间的乘积之和，也叫矩阵乘积，计算如下：矩阵和向量的乘…

人工智能 2023年6月13日
00119
Scikit-learn库中，回归性能评估所用的score函数含义详解

一.LinearRegression().score方法关于LinearRegression().score(self, X, y, sample_weight=None)方法，…

人工智能 2023年7月28日
0057
深度学习100例 | 第41天：语音识别 – PyTorch实现

9.25 _实现_下列函数： int Search(SSTable s, KeyType k); / Index the element which key is k / / in…

人工智能 2023年7月21日
0082
网络安全观察报告

攻击类型分析 2018 年，主要的攻击类型 1 为 SYN Flood，UDP Flood，ACK Flood，HTTP Flood，HTTPS Flood，这五大类攻击占了总攻…

人工智能 2023年7月29日
0060
python实现KNN模型分类预测并验证评估（附代码）

实现功能： python实现KNN建模，选择最佳K值，对数据样本进行分类预测，并验证评估。实现代码： # 导入需要&#x7…

人工智能 2023年6月30日
0074
Machine Learning with Matminer(附代码)

Machine Learning with Matminer 1. Matminer 介绍 2. Matminer安装 3. ML with Matminer * 3.1 获取Ma…

人工智能 2023年7月16日
0062
python依据相同字段实现两个excel文件（dataframe）合并

实现功能：将两个excel文件依据某一个相同字段进行拼接合并（并集）输入：两个excel文件（至少含有一个相同的字段）输出：按照相同字段列进行拼接后的excel文件实现代码…

人工智能 2023年7月8日
0072
向量交叉相乘和为零_ICLR 2020|知识图谱推理框架：基于向量空间的推理和数值逻辑推理…

2篇ICLR 2020 推理主题论文解读 ICLR专题知识图谱作为人类知识的载体，蕴含着丰富的语义知识，因此支撑着许多上游的应用，例如问答，推荐等。基于知识图谱的推理作为知识图谱…

人工智能 2023年6月10日
0058
数字图像处理——实验二数字图像增强实验

数字图像处理——实验二数字图像增强实验一、实验目的二、实验主要仪器设备三、实验原理四、实验内容及代码 * 4.1 实验内容 4.2 实验数据 4.3 实验代码 &#821…

人工智能 2023年6月19日
0096
第4章 docker仓库管理

1.公共仓库地址 2.登录docker hub docker login https://hub.docker.com 3.搜索镜像 docker search centos 4….

人工智能 2023年6月28日
0097
论文笔记：Dual Contrastive Loss and Attention for GANs

目录一.Dual Contrastive Loss and Attention for GANs 是什么？ 1.损失函数 2.网络结构 3.总结二.这项工作主要做了什么？ 1….

人工智能 2023年5月28日
0073
Keras深度学习实战（1）——神经网络基础与模型训练过程详解

Keras深度学习实战（1）——神经网络基础与模型训练过程详解 * – 0. 前言 – 1. 神经网络基础 – + 1.1 简单神经网络的架构 …

人工智能 2023年6月16日
0053
维特比算法和隐马尔可夫模型的解码

一、概述维特比算法是安德鲁.维特比(Andrew Viterbi)于1967年为解决通信领域中的解码问题而提出的，它同样广泛用于解决自然语言处理中的解码问题，隐马尔可夫模型的解码…

人工智能 2023年6月6日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

目标检测系列——开山之作RCNN原理详解

文章目录

写在前面

; 候选区域生成

神经网络提取特征

; SVM分类器分类

回归器修正候选框位置

; 小结

参考链接

大家都在看