【目标检测】Faster R-CNN

2023年7月10日上午7:23 • 人工智能 • 阅读 83

; RPN(Region Proposal Network)

RPN 网络结构：

在特征图feature map上有一个滑动窗口（红色框），每滑动到一个位置上就生成一个行向量，是256维的（使用ZF网络生成的Backbone的深度channel是256，如果使用VGG16，那这里就是512），在这个向量的基础上通过两个连接层分别获得该区域的目标概率以及边界框回归参数。上图中表示了会有 2k 个目标概率，这个 k 都是针对有 k 个 anchor boxes的（anchor box下面会讲）。为什么是 2k 呢？因为这是对每个anchor box生成两个概率，分别是前景（框内包含检测目标）的概率和背景的概率；同样针对有 k 个 anchor box会生成 4k 个回归参数，即Fast R-CNN中提到的d x , d y , d w , d h d_x,d_y,d_w,d_h d x ,d y ,d w ,d h (边界框中心的x,y坐标及边界框的宽高参数)。

anchor

如上图，左图为原图，右图为特征图，每一个方格就是一个像素pixel。首先在原图上找到特征图中3×3窗口中心对应的点：设横向为x轴，纵向y轴，用原图的宽度除以特征图的宽度并取整，就得到了步长stride，如图窗口中心的x坐标为3，那么原图中对应的x坐标就为 stride×3，y坐标同理。以得到的原图中的xy坐标点作为中心，来计算出 k 个anchor boxes(每个anchor box都有固定的大小及长宽比例)，如图 k 为3时，对应的就是红、蓝、黄个框。

如上图，根据特征图对应原图得到了这几个黄色框，这就可能包括我们想要检测的目标。

cls即为得到的目标概率分数（每2个为一组，对应同一个anchor，分别是是背景的概率和是前景的概率），k 个 anchor 就共有 2k 个 score。

假设cls中第一块对应的是上图黄色框，那么这个框是背景的概率为0.1，是前景的概率为0.9（这里并没有分类，只要是我们需要检测的目标就是前景）
reg即为边界框回归参数，每4个一组，d x , d y , d w , d h d_x,d_y,d_w,d_h d x ,d y ,d w ,d h 分别是预测目标的中心坐标及宽高的偏移量

论文中对于anchor共给出了三种尺度（12 8 2 , 25 6 2 , 51 2 2 128^2,256^2,512^2 12 8 2 ,25 6 2 ,51 2 2）和三种比例（1:1，1:2，2:1），因此每个位置（每个滑动窗口）在原图上都对应有 3×3 = 9 个anchor（见下图）。

对于一张1000×600×3的图像，大约有60×40×9(20k)个anchor，忽略跨越便捷的anchor以后，剩下约6k个×。对于RPN生成的候选框之间存在大量重叠，基于候选框的 cls 得分，采用非极大值抑制，IoU设为0.7，这样每张图片只剩 2k 个候选框。

扩展——CNN感受野

ZF感受野：171
VGG感受野：228

感受野即是 3×3 滑动窗口还原到原图的大小，但原图是256的，为什么感受野比256小却又能识别出来呢？作者认为通过小的感受野去识别比他大的边界框是有可能的，类似见微知著的效果，看到了一部分就能猜出目标完整的一个区域。实际上，这种方法也确实是有效的。

下面给出计算ZF网络feature map中3×3滑动窗口在原图中感受野的大小：

VGG相对比较复杂。

; 训练数据采样

上文说到对于一张图像会生成上万个anchor，但并不都作为训练样本，只采样256个anchor并分为正样本和负样本，比例大概为1:1，若正样本数不足128个，则使用负样本补充。

正样本：anchor与真实框(ground-truth box)的 IoU 大于0.7 / anchor与某个真实框(ground-truth box)的IoU是最大的（这句话的意思就是假如有某个ground-truth与所有anchor的IoU为0.1,0.5,0.3，即都小于0.7，那么这个0.5分数的anchor也会成为正样本），这两种条件都被判别成正样本。

负样本：与所有ground-truth的IoU都小于0.3的anchor即为负样本。

正负样本以外的样本全部丢弃。

RPN Multi-task loss

p i p_i p i 表示第i个anchor预测为目标的概率
p i ∗ : p_i^:p i ∗:当anchor是正样本时为1，当anchor是负样本时为0
t i t_i t i 表示预测第i个anchor的边界框回归参数
t i ∗ t_i^t i ∗表示第i个anchor对应的GT Box的回归参数
N c l s N_{cls}N c l s 表示一个 mini-batch 中的所有样本数量256
N r e g N_{reg}N re g 表示 anchor位置的个数（是特征图上的那个3×3窗口，不是anchor的个数）约2400

; 分类损失

虽然这里分类是分两类（区别前景与背景）的，但是损失实际上用的是 多分类损失，因为cls生成的是 2k 个分数，如果用的是二分类，那么 k 个分数就可以了（趋于0是背景，趋于1是前景）。

边界框回归损失

与Fast R-CNN基本相同

t i t_i t i 即第i i i个anchor的回归参数，其又包括四部分，分别是边界框中心点xy坐标及边界框宽高

; Fast R-CNN Multi-task loss

和上一篇文章中的内容一致，去看Fast R-CNN的内容即可。

Faster R-CNN训练

直接采用RPN Loss + Faster R-CNN Loss的联合训练方法（两个Loss直接相加）

原论文中采用分别训练RPN以及Fast R-CNN的方法

利用ImageNet预训练分类模型初始化前置卷积网络层参数，并开始单独训练RPN网络参数；
固定RPN网络独有的卷积层以及全连接层参数，再利用ImageNet预训练分类模型初始化前置卷积网络参数，并利用RPN网络生成的目标建议框去训练Fast RCNN网络参数。
固定利用Fast RCNN训练好的前置卷积网络层参数，去微调RPN网络独有的卷积层以及全连接层参数
同祥保持固定前置卷积网络层参数，去微调Fast RCNN网络的全连接层参数。最后RPN网络与Fast RCNN网络共享前置卷积网络层参数,构成一个统一网络。

Faster R-CNN框架

将四部分融合到一个网络中训练，实现端对端的训练过程。

参考来源：1.1Faster RCNN理论合集

Original: https://blog.csdn.net/Friedrichor/article/details/123943381
Author: friedrichor
Title: 【目标检测】Faster R-CNN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682338/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Complex-YOLO: 点云实时目标检测】

Complex-YOLO: 点云实时目标检测前言要点分析具体算法分析 * 点云转化鸟瞰图提取特征 B- Box损失回归前言 Complex-YOLO，论文中介绍是一种仅在…

人工智能 2023年7月9日
00119
浅谈LSB隐写解题与出题

点击”蓝字”关注，获取更多技术内容！前言：LSB隐写在CTF中属于出现得比较多的类型。这篇文章对LSB隐写的原理，解题方法，出题脚本，以及LSB隐写特性进…

人工智能 2023年7月19日
0067
python数据分析高阶应用技巧-pandas库聚合案例【 groupby().apply()写法强化】

python数据分析高阶应用技巧-pandas库聚合案例【 groupby().apply()写法强化】文章目录 1. 准备数据 2. 对DataFrame对象使用apply()…

人工智能 2023年7月8日
0074
数据可视化与matplotlib

数据可视化概述：什么是数据可视化：数据可视化是借助图形化的手段将一组数据以图形的形式表示，并利用数据分析和开发工具发现其中未知信息的数据处理过程。常见的数据可视化方式：1.折线图…

人工智能 2023年7月17日
0045
【数据库】数据库绪论，你都会了吗

1.数据库系统概述 Q：什么是数据A：数据（Data）是数据库中存储的基本对象。数据包括数字、文字、图形、图像、音频、视频、学生的档案记录等 Q：什么是数据库A：数据库（D…

人工智能 2023年7月30日
0061
目标检测: 一文读懂 YOLOX

论文：YOLOX: Exceeding YOLO Series in 2021 论文链接：https://arxiv.org/pdf/2107.08430.pdf 代码链接：htt…

人工智能 2023年6月16日
0053
图像加噪与滤波处理(python+opencv)

效果如下：代码链接：图像加噪与滤波处理（opencv+python）主要要求：编写Python程序实现以下功能：1、读入一幅图像。2、使用两种不同的方法分别向图像中添加噪声…

人工智能 2023年6月19日
0087
ModuleNotFoundError: No module named ‘d2l’

解决方案问题描述：原因分析：解决方案： * 1.下载 2.寻找conda外部软件包的安装位置 – 2.1打开命令行 2.2查看已安装包的路径 3.将d2l库移动到…

人工智能 2023年7月21日
00131
win10中安装cuda和TensorFlow-gpu的坑

1.首先查看电脑GPU上cuda的版本 nvcc-V 如果此处提示 :nvcc 不是内部或外部命令，也不是可运行的程序或批处理文件。说明电脑没有装cuda，需要到nvidia官网…

人工智能 2023年6月15日
00137
【2DWT：2维离散小波变换（附Pytorch代码）】

二维离散小波变换一、相关基础 * 1.小波变换基础函数 2.小波变换二、原理三、基本小波基：哈尔小波四、代码实现参考：图像信号具有非平稳特性，无法使用一种确定的数学模型…

人工智能 2023年7月21日
0060
Python操作MySQL数据库—pymysql库（可直接使用的模板通用操作）

Python与MySQL数据库交互 1.DB-API：(DB是data；API是方法，接口) Python与数据库的交互：在没有DB-API之前，各数据库之间的应用接口非常混乱，…

人工智能 2023年7月4日
0079
3-10 Pandas的数据规整

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了，它是使Python成为强大而高效的数据分析环境的重要因素之一（1）一个强大的分析和操作大型结构化数…

人工智能 2023年7月9日
0080
【国科大数据科学导论】作业1：Linear regression with Yelp votes

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0070
【深度学习实验】第四次：Python波士顿房价之构建回归预测模型

; 一、实验介绍 1.1 实验内容本实验中，我们将学习回归分析算法 Lasso 算法。使用 Python scikit-learn 机器学习工具。 1.2 实验知识点回归嵌入…

人工智能 2023年6月17日
0072
机器学习基础

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月2日
0074
归一化层（Normalization）在CNN中的作用是什么

问题概述归一化层（Normalization）在卷积神经网络（Convolutional Neural Networks, CNN）中的作用是什么？详细介绍归一化层是CNN中…

人工智能 2024年1月1日
0019

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31