目标检测—RCNN系列

2023年7月9日下午7:57 • 人工智能 • 阅读 113

工程应用中，检测算法以one-stage算法yolo系列等为主，因为one-stage通常来说速度快，可以完成良好的实时检测。

本文回顾的是two-stage算法:RCNN系列

One-stage and two-stage:

one-stage: 直接回归物体的类别概率和位置坐标值（无region proposal），但准确度低，速度相比two-stage快。

two-stage:先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类。

一.RCNN

算法流程概述：

（1）search selective生成候选框

（2）对候选框用深度网络提取特征(候选框resize成224*224）

（3）特征送入每一类的SVM分类器进行分类

（4）用回归器对候选框进行位置修正

这里的深度网络用的是Alexnet CNN，不同的是将最后的一层的11000全连接层（原先全连接是用来分类）去掉了，这样就得到了一个4096维的特征向量，若有K个候选框则得到K个4096维的特征向量。再经过特征提取后将K4096维的特征向量输入到20个SVM分类器中（权值矩阵409620），从而得到K20维的矩阵，表示K个候选框对应20个类别的得分。对K*20维矩阵在每一列（每一类）进行NMS得到该类中得分最高的框。

NMS非极大值抑制算法：
寻找每个类别中得分最大的目标，因为对于一类，score越高越能说明物体在里面。取score最高的一个框，计算其与其他框的iou,iou越大越可能是同一个物体，去掉iou大于给定阈值的目标框。

在经过NMS处理后，对剩余的高质量建议框进行回归操作，其主要回归有四个参数，中心点距离实际位置的偏移量x和y，以及建议框宽高的缩放因子hw

二.Fast-RCNN

RCNN存在的问题：用Selective search算法提取候选框费时，并且对于每个proposalregion都要经过深度网络进行计算，并且计算前要经过resize。

算法流程概述：

（1）一张图生成K个候选框

（2）将图像输入CNN得到feature map,将SS算法生成的候选框投影到特征图上获得相应的特征矩阵（RCNN并未将整张图片输入进网络，而是将生成的每个候选框输入进网络，得到其特征向量）

（3）将每个特征矩阵经过ROI Pooling层缩放得到7*7大小的特征图，接着将特征图展平通过一系列全连接得到预测结果（RCNN训练了SVM和回归器进行分类和回归，Faster-RCNN直接将分类和回归融合进一个网络中）

Fast-RCNN一次性计算整张图的特征，与RCNN相比，避免了K个候选框计算特征时的K次前向传播，提高了计算速度，使候选框的特征不需要重复计算

Mini-batch sampling：
在训练过程中，我们并不是将SS算法提供的所有候选框，而是通过采样解决正负样本可能带来的数据不平衡问题（假如我们要识别正样本猫，但SS得到候选框大多数都是负样本狗，这对网络预测会更偏向于狗），Fast-RCNN在所有ROI中采样64个ROI，根据其与真实值的IOU划分他们的正负。

在得到训练样本之后，我们将候选框通过ROI Pooling（不限制图像输入尺寸）缩放到同一尺寸

ROI Pooling:
下图是8*8feature map 上的一个proposal region:

假设我们想得到一个22的输出，对proposal region进行22划分：

再对每个划分区域进行MAX Pooling:
目标检测—RCNN系列

在经过这一步后，经过两个全连接层进行展平得到ROI feature vector,再通过两个并联的结构，一个进行概率预测，一个进行回归修正。

softmax分类器输出的是N+1个类别的概率，N为检测目标种类，1为背景。bbox regressor输出的是N+1类别的4个候选框回归参数，共（N+1）*4个节点。

在计算损失时，SoftmaxLoss 代替了SVM，证明了softmax比SVM更好的效果；SmoothL1Loss 取代Bouding box 回归。将分类和边框回归进行合并（又一个开创性的思路），通过多任务Loss层进一步整合深度网络，统一了训练过程，从而 提高了算法准确度。网络代价函数具体如下图所示：

三.Faster-RCNN

Fast-RCNN中用的候选框生成算法SS仍然很费时，Faster-RCNN对此提出了一个Region Proposals Network,Faster-RCNN可以看作是RPN+Fast-RCNN.

算法流程概述：将图像输入网络得到特征图，使用RPN生成候选框，将生成的候选框投影到特征图上获得相应的特征矩阵，将每个特征矩阵通过ROI Pooling缩放到7*7,接着将特征图经过展平通过一系列全连接得到预测结构。

RPN: 总体来说，RPN就是在feature map上，对每个对应原图区域的点，设计不同的固定尺度窗口（bbox），根据该窗口与ground truth的IOU给它正负标签，让它学习里面是否有object。

Anchor:对于特征图上的每个3*3的滑动窗口，计算出滑动窗口中心点，在原图位置上的中心点，并计算出k个anchor box

Faster-RCNN中的anchor具有三种尺度，三种比例，所以每个滑动窗口在原图上都对应有9个anchor ,下图为RPN网络。256对应的是特征提取网络得到的feature map的通道数。

RPN的具体实现：滑动窗口采用的是33的卷积，padding为1，步长为1，这样滑动窗口便可以遍历特征图上所有的点，经过卷积之后生成宽度高度深度与feature map一样的特征矩阵，在特征矩阵上并列两个卷积层，分别进行分类和回归的预测，cls layer分支用的是11的卷积核，个数为2k的卷积层来处理，reg layer分支用的是1*1的卷积核，个数为4k的卷积层来处理。对于原图上一个点处产生的K个anchor，其最后输出的向量（分类信息和回归信息）为：

RPN网络的结果就是每个点都有关于K个anchor box的输出，包括是不是物体，物体的位置调整

RPN损失计算：

与Fast-Rcnn类似，在计算损失前我们对正负样本进行了采样

对于每个anchor，首先在后面接上一个二分类softmax，有2个score 输出用以表示其是一个物体的概率与不是一个物体的概率

，然后再接上一个bounding box的regressor 输出代表这个anchor的4个坐标位置，因此RPN的总体Loss函数可以定义为

表示一个mini-batch的所有样本个数，

表示anchor位置的个数（N*M），真实边界框和预测边界框的转化关系如下：

Faster-RCNN的损失则与Fast-RCNN类似。

训练过程：

原论文采用分别训练的方法：

第一步：用ImageNet模型初始化，独立训练一个RPN网络；

第二步：仍然用ImageNet模型初始化前置网络参数，但是使用上一步RPN网络产生的proposal作为输入，训练一个Fast-RCNN网络

第三步：使用第二步的Fast-RCNN网络参数初始化一个新的RPN网络，但是把RPN、Fast-RCNN共享的那些卷积层的learning rate设置为0，也就是不更新，仅仅更新RPN特有的那些网络层，重新训练，此时，两个网络已经共享了前置的公共卷积层；

第四步：仍然固定共享的那些网络层，去微调Fast-RCNN网络的全连接参数。最后RPN和Fast-RCNN网络共享前置卷积网络层，形成一个同一网络。

在Faster-RCNN之后，Mask-RCNN被推出，其在Faster-RCNN的基础上加了一个预测物体Mask的分支，用来解决实例分割问题，将在之后的文章中阐述。

参考资料：https://www.bilibili.com/video/BV1ha411r7cK?spm_id_from=333.337.search-card.all.click https://zhuanlan.zhihu.com/p/24916624
https://search.bilibili.com/all?from_source=webtop_search&spm_id_from=333.788.b_696e7465726e6174696f6e616c486561646572.9&keyword=yolo

Original: https://blog.csdn.net/weixin_44768052/article/details/124056260
Author: Rainlin.Zhang
Title: 目标检测—RCNN系列

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681344/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习100例-卷积神经网络（VGG-16）猫狗识别 | 第21天

最近更新有点慢，后台收到不少小伙伴的催更，先说声抱歉哈。最近在参加一个目标检测的比赛，时间比较紧张。这段时间我也打算调整一下思路，试着将目标检测中涉及的内容拆开来，将这些拆分的内容…

人工智能 2023年5月26日
00120
spss分析方法-方差分析

方差分析(Analysis of Variance，简称ANOVA)，又称”变异数分析”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著…

人工智能 2023年7月27日
00113
7套干货，Python常用技术学习知识图谱！！（史上最全，建议收藏）

大家好，我是明月十四桥！你要偷偷努力，然后惊艳所有人~ 给大家推荐 7 个宝藏级教程，视频课是永久有效的，可以随时学习，有几门课程还有 CSDN官方学习答疑群，课程右边扫码入群，讲…

人工智能 2023年6月10日
00157
Orbslam2 稠密点云 +D435i实现（Ubuntu18.04）

系统：Ubuntu18.04设备：Realsense D435i 一、安装相关依赖库毕设后写的一篇通俗一些的，适合没接触过或不太会ubuntu的同学，前半部分都是一样的，tips…

人工智能 2023年5月26日
00144
花了6个月时间完成本科优秀毕业设计，我做了什么？

目录 1 前言 2 选题 3 技术选型 4 研究过程 5 毕业答辩 6 效果展示 ; 1 前言从去年12月开题到今年6月结束，整整半年时间都在处理毕业设计的项目。好在取得了一个比…

人工智能 2023年6月23日
00139
刚来的00后真的卷，听说工作还没两年，跳到我们公司直接起薪20k…

前段时间我们公司来了个00后，工作都没两年，跳槽到我们公司起薪18K，都快接近我了。后来才知道人家是个卷王，从早干到晚就差搬张床到工位睡觉了。最近和他聊了一次天，原来这位小老弟家…

人工智能 2023年7月6日
0094
基于链家沈阳两区随机抓取房源数据的比较分析及相关结论

文章行文脉络一.数据分析简介二.数据收集三.数据处理四.数据分析模型五.数据可视化六.简单数据结论及预测一.数据分析简介数据分析是指用适当的统计分析方法对收集来的大…

人工智能 2023年6月11日
00102
uniapp语音识别_语音识别 (含上传)

录入语音后识别成文字，比如搜索页里进行语音搜索或者聊天窗口里对好友发过来的语音进行识别 [TOC] 申请百度合成接口地址：https://ai.baidu.com/tech/sp…

人工智能 2023年5月27日
00180
人脸识别opencv

opencv与dlib介绍 1.1 opencv介绍 opencv是一个基于bsd许可（开源）发行的跨平台计算机视觉库，可以运行在liunx，windows,android和mac…

人工智能 2023年6月20日
00122
【Python】9*9乘法口诀表（while、for两种循环）

14天阅读挑战赛目录 1.第一个是while循环。 2.代码不会局限于一种思路，第二种方法用到了用for循环。很高兴参加这个算法活动，算法是什么呢？算法，从字面意义上解释，就…

人工智能 2023年7月4日
00105
无人驾驶感知篇之融合（十四）

之前说过根据融合算法，可以概括为随机类方法和人工智能两大类。随机类方法目前常见的有加权平均法、多贝叶斯估计法、卡尔曼滤波法、Dempster-Shafer（D-S）证据推理、产生式…

人工智能 2023年7月14日
0099
无人驾驶信号灯

人工智能 2023年5月26日
00131
Ubuntu系统下Opencv的基本使用

目录 1、什么是Opencv * ① 简单介绍 ② 下载 2、简单使用 * ① 代码 ② 运行 ③ 结果 ④ 指令解析 3、打开摄像头显示处理视频 * ① 代码 ② 改进 ③ 结果…

人工智能 2023年7月19日
00104
时域特征提取_音频特征提取方法和工具汇总

大多数音频特征源于语音识别任务，可以简化原始波形采样信号，从而加快机器对音频语义的理解。自20世纪90年代末以来，这些音频特征也被应用于乐器识别等音乐信息检索任务，并出现了更多的音…

人工智能 2023年5月27日
00169
【python】python multiprocessing多进程处理dataframe，快得飞起~

【python】python multiprocessing多进程处理dataframe，快得飞起~ 首先读入数据，指定变量。 import pandas as pd import…

人工智能 2023年7月6日
00213
BERT如何进化-预训练语言模型研究进展【1】

模型结构演进本文以演进方向和目的为线索梳理了一些我常见到但不是很熟悉的预训练语言模型，首先来看看”完全版的BERT”： RoBERTa: A Robust…

人工智能 2023年6月4日
00117

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

目标检测—RCNN系列

大家都在看