fast-rcnn详解

2023年5月23日下午3:56 • 人工智能 • 阅读 72

Fast R-CNN 算法及训练过程

R-CNN显著提升了目标检测算法的性能，但因为计算过于复杂，耗时很长，所以在实际的应用系统中，大都无法使用。经过分析可知，R-CNN的复杂性主要来自两个方面：一是需要针对大量的候选框分别进行计算；二是特征提取之后的分类器训练和位置回归，是几个独立步骤分别进行的。在训练过程中，提取的特征要先存储在硬盘上，然后训练SVM分类模型，最后训练位置回归模型，而测试过程也是类似的，特征提取之后，需要先进行SVM分类，再回归目标的准确位置，整个过程在计算时间和存储空间上，都需要很大的开销。8.2节介绍的SPP-Net算法解决了前一个问题，通过共享特征图，整幅图像仅须进行一次卷积计算，但特征提取之后的处理仍然是分步骤独立进行的。本节介绍的FastR-CNN算法，针对上述两个问题进行了改进，使得算法速度有了非常显著的提升。以一个较深的网络VGG16为例，FastR-CNN的训练速度是R-CNN的9倍，测试速度是R-CNN的213倍；即使和SPP-Net相比，Fast R-CNN的训练速度和测试速度，也分别有了3倍和10倍的提升。
如图，在测试阶段， Fast R-CNN将整幅图像和图像上生成的一系列候选框作为输入，通过卷积层和池化层计算得到特征图。对于每个候选框，使用下文将要介绍的ROI池化层，从每个候选框对应的特征图区域提取固定长度的特征向量。固定长度的特征向量经过若干全连接层的计算后，分成两个分支，一个分支通过softmax方法对候选框中的图像进行分类，另一个分支通过回归目标框相对于候选框的偏移量和缩放尺度来预测目标的准确位置。

ROI池化层

要使得网络能够适应各种尺寸图像的输入，和SPP-Net类似，在最后一个卷积层之后，也需要加入一步操作，以保证输出的特征图具有固定的尺寸。为了提高算法效率， Fast R:CNN对整幅图像也只做一次卷积运算，所有的候选框共享各个卷积层输出的特征图。对于每个候选框，都可以通过映射关系在最后一个卷积层输出的特征图上找到其对应的感兴趣区域(Region Of Interest,即ROI)。我们在每个ROT区城上划分固定尺寸的均匀网格(比如，划分成7×7的网格)，因为网格中每个单元格的宽高和特征图的宽高成正比，所以经过ROL池化层之后输出的特征图就具有了相同的尺寸。在每个单元格内使用最大值池化之后，原来的特征图就被映射成一个较小的固定尺寸的新特征图。
很容易看出，这里介绍的RO1池化层，本质上就是SPP层的一个特例。

模型训练

和R-CNN的训练过程类似，Fast R-CNN的网络模型也使用ImageNet分类数据集进行预训练。除此之外，为了能够实现检测任务，Fast R-CNN需要对原始的分类网络进行结构调整。
第一步，把最后一个池化层替换成上文所述的ROI池化层，网格的行数H和列数W需要与其后第一个全连接层的输入尺度相匹配(例如，对于VGG16，W=H=7)。
第二步，将最后一个全连接层(用于ImageNet的1000个分类)，替换成2个并行的全连接层，其中一个全连接层用于分类(k+1个类别，k表示目标类别数，1表示背景)，另一个全连接层用于回归目标框的位置。第三步，网络的输入变更为两部分，一部分是图像列表，另一部分是这些图像上的感兴趣区域，即ROI。
SPP-Net算法，在训练调优阶段，SPP层之前的网络参数在实际训练的过程中是不进行更新的。其中一个根本原因就是，如果更新全部参数，计算的代价会非常高。根据SPP-Net算法，一个批次的ROI图像可能来自不同的原始图像，这些图像卷积计算的特征图是无法共享的(但同一张图像卷积计算的特征图是可以共享的)。另外，在SPP层的特征图上，每个点对应原图的感受野都非常大，对于比较深的卷积结构，几乎覆盖了整个原图，使得每次迭代进行前向推理时，都需要分别在多个图像上进行卷积计算，效率十分低。那么，是否有一种方法，既能在训练调优的过程中更新所有的卷积层，又能保证比较高的计算效率呢？正是基于这样的考虑，Fast R-CNN的作者设计了一套独特的训练方法。
Fast R-CNN在训练过程中，假设每次迭代输入ROI图像的个数是R(batch size=R)， 这R个ROI来自固定数量的N张图像，每张图像包含R/N个ROI，因为同一张图像的各个ROI能共享卷积计算结果，所以可以通过减少N的数量来提升计算效率。不过，如果所有ROI都来自同一个原始图像，各个ROI的相关度会过高，不利于模型收敛，在计算效率和模型收敛效率之间，需要找到一个平衡点。在实际训练的过程中，通常选取N=2，R=128。在训练时，每个批次选取2张图像，每张图像上再分别选取64个ROI作为输入进行计算。通过这样的方式，每次迭代的计算速度大致是分别从128张不同图像上选取ROI计算速度的64倍。

其中

分类损失。
其中u表示真实的类别；位置损失

表示对于类别u，真实的归一化偏移量及缩放尺度元组

与实际预测的归一化偏移量及缩放尺度元组

之间的差异，通常可以用两个元组之间的L距离或L，距离来度量。Fast R-CNN的作者使用了一种介于L1距离和L2距离之间的度量方法，具体如下所示：

其中：

测试过程

在基于Fast R-CNN进行测试的时候，首先通过Selective Search等方法，在原始图像上生成2000个左右的候选框，对于每个候选框，使用训练好的模型进行预测，预测结果为各个类别的分类概率，以及每个分类所对应的包围盒相对于原始候选框位置的偏移量和缩放尺度。待所有的候选框都预测完毕，会得到大量的包围盒，使用前面介绍的非极大值抑制方法对包围盒进行合并，就得到了最终的预测结果。为了使预测更具有尺度鲁棒性，可以基于原始图像构造不同尺度的图像金字塔，把金字塔的每一层图像分别送入Fast R-CNN进行检测，从而得到对尺度变化更加鲁棒的结果。

Original: https://blog.csdn.net/qq_52053775/article/details/125023397
Author: 樱花的浪漫
Title: fast-rcnn详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496222/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【OpenCV（C++）快速入门】–上篇–计算机图像颜色基础理论

【专栏介绍】因为专业需要用到OpenCV来处理图像数据，所以需要学习，搜索了网上的相关资料，整体知识比较零散，花费了较多时间，所以才萌生了将学习过程整理成专栏的形式，希望能帮到后…

人工智能 2023年6月20日
0088
模型如何处理不确定性或噪声

模型处理不确定性或噪声的问题在机器学习和数据建模中，不确定性和噪声是非常常见的问题。不确定性指的是模型对于输入数据的预测结果的良好度量，而噪声则是指输入数据中的随机误差。处理这些…

人工智能 2024年1月4日
0037
[总结] 半监督学习方法: 一致性正则化(Consistency Regularization)

许多机器学习方法中, 尤其是深度学习中的神经网络, 都存在几个问题: 模型容易过拟合. 模型在受到微小扰动(噪声)后, 预测结果会受相当程度的影响. 为了减少过拟合现象, 典型的监…

人工智能 2023年6月23日
0082
Seven—pytorch学习—维度变换

pytorch学习(4) 维度变换 view & reshape squeeze & unsqueeze transpose & permute expan…

人工智能 2023年6月4日
0065
机器学习—聚类算法总览

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0056
Python 利用飞桨OCR、layoutparser、TensorFlow对票据进行表格检测和识别

draft-detect 运行环境： Windows10 系统 6核6线程 16G内存基于 Python3.8 版本 vitualenv 虚拟环境 1、安装依赖先创建虚拟环境，…

人工智能 2023年5月23日
00133
安装Pytorch后torch.cuda.is_available()返回False问题解决

首先说几点安装Pytorch时需要注意的点： 1.如果有能力，最好在科学上网后，利用类似如下命令直接安装： conda install pytorch torchvision t…

人工智能 2023年7月21日
0043
记录Tensorflow-Gpu配置Mask_RCNN

1.下载安装anaconda 2.修改conda的下载源 conda config –add channels https://mirrors.tuna.tsinghua.edu…

人工智能 2023年5月24日
0060
FairMOT配置（VS2019+Win10+CUDA11.0）

配置环境： Win10 VS2019 CUDA11.0 Pytorch1.7 配置步骤： 1、下载FairMOT： git clone –recursive https://gi…

人工智能 2023年7月22日
0065
python数据清洗入门教程（完整版）

数据清洗是整个数据分析过程的第一步，也是整个数据分析项目中最耗费时间的一步。数据清洗的过程决定了数据分析的准确性。随着大数据的越来越普及，数据清洗是必备的技能之一，本教程将较为完整…

人工智能 2023年7月16日
00109
Java中将jsonArray导出为Excel

java中使用jxl导出excel时，需指定WritableSheet对象中对应于每个单元格的数据。List类型是一种常用的数据类型，它里面的元素是实体对象，当将它创建为Writa…

人工智能 2023年6月6日
0092
数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（6）

文章目录 * – 前期准备 – 1. 使用绝对路径读取本地Excel数据 – 2. 查看数据前三行 – 3. 查看每一列数据缺失值情…

人工智能 2023年7月6日
0082
机器学习强基计划4-2：通俗理解极大似然估计和极大后验估计+实例分析

目录 0 写在前面 1 从一个例子出发 2 极大似然估计 3 极大后验估计 4 Python实现 ; 0 写在前面机器学习强基计划聚焦深度和广度，加深对机器学习模型的理解与应用。…

人工智能 2023年7月25日
0059
自动驾驶研究生就业如何,自动驾驶的研究方向

本科自动化考研选什么方向以后可以做自动驾驶武汉理工大学车辆工程研究生有自动驾驶方向吗 10 。武汉理工汽车学院2012复试线080204车辆工程367080221★汽车运用工程…

人工智能 2023年6月2日
00174
收藏 | C语言最常用的贪心算法

01 基本概念贪心算法是指在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，只做出在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优…

人工智能 2023年6月26日
0093
Filterin

人工智能 2024年1月2日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

fast-rcnn详解

大家都在看