【计算机视觉】计算机视觉与深度学习-07-目标检测-北邮鲁鹏老师课程笔记

2023年7月12日下午1:00 • 人工智能 • 阅读 130

计算机视觉与深度学习-07-目标检测-北邮鲁鹏老师课程笔记

目标检测定义
深度学习对目标检测的作用
单目标检测
*
多任务框架
多任务损失
预训练模型
姿态估计
多目标检测
*
问题
滑动窗口
–
- 滑动窗口缺点
- adaboost
区域建议 selective search 思想
慢速R-CNN
–
Fast R-CNN
–
Faster R-CNN
–
目标检测：影响进度的因素

目标检测定义

单目标检测：分类+定位

深度学习对目标检测的作用

; 单目标检测

多任务框架

一个任务是：分类。
另一个任务是：定位。

; 多任务损失

网络训练的目标是降低总损失，所以 softmax loss 和 L2 loss 将同时减小，也可以为 softmax loss 和 L2 loss 分别设置一个权重，通过改变权重，调整 softmax loss 和 L2 loss 在总损失中所占的比重。

预训练模型

目标检测中，一般不从头开始训练网络，而是使用ImageNet上预训练的模型。

一般分三个阶段，先训练分类（一般是拿现成已经训练好的模型），再训练定位，再一起训练分类+定位。

; 姿态估计

单目标检测的思路，还应用于单人体姿态估计，与box coordinates不同的是，在人体上标注关键点，然后通过训练，与标答进行对比。

多目标检测

问题

神经网络的标答是预先建立好的，因为多目标检测中目标数量并不确定，输出的维度不确定，就无法建立Correct box标答，如果使用单目标检测的训练方法，无法建立多目标检测的表达，训练将不能进行。

; 滑动窗口

将图像中所有可能的区域都给到分类器进行分类，只留下能正确分类的窗口。

滑动窗口缺点

穷举图像中成千上万的区域进行分类，对于神经网络，计算量很大。

针对这个问题，提出了一种新的思想，先从图像中产生一些候选区域再进行分类，而不是穷举图像中所有区域。例如：selective search

adaboost

区域建议 selective search 思想

针对穷举图像所有区域神经网络分类计算量大这个问题，提出了一种新的思想，先从图像中产生一些候选区域再进行分类，而不是穷举图像中所有区域。例如：selective search。

selective search思想是在R-CNN的论文中提出的。

; 慢速R-CNN

基于区域的目标检测算法。

慢速R-CNN思路

1 利用区域建议产生感兴趣的区域。（存入硬盘）
2 对区域进行缩放。
3 将图像区域送入卷积网络进行特征提取。（存入硬盘）
4 使用支持向量机对区域进行分类，同时进行边界框回归（修正学习）。

边界框回归

区域建议生成的区域，可能有损失，效果不好，进行边界框回归，就是为了修正区域建议生成的区域与真实区域的偏差。

参考：Bounding Box Regression超详解 – 迪菲赫尔曼
 参考：边界框回归（Bounding-Box Regression）– 沁心风雨

; 慢速R-CNN缺点

问题：计算效率低下，每张图像大约有2k个区域需要卷积网络进行特征提取，重叠区域反复计算。

Fast R-CNN

; 改进一：先提取特征后区域建议

如果先进行区域建议后进行特征提取，计算量比较大。

改进二：全连接神经网络

改进三：裁剪+缩放特征（RoI Pool）

为什么需要RoI Pool？

先来看一个问题： 对于传统的CNN（如AlexNet和VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定，这个问题就变得比较麻烦。有2种解决办法：

从图像中crop一部分传入网络。
将图像warp成需要的大小后传入网络。

两种办法的示意图如图，可以看到无论采取那种办法都不好，要么crop后破坏了图像的完整结构，要么warp破坏了图像原始形状信息。

回忆RPN网络生成的proposals的方法：对positive anchors进行bounding box regression，那么这样获得的proposals也是大小形状各不相同，即也存在上述问题。所以Faster R-CNN中提出了RoI Pooling解决这个问题。不过RoI Pooling确实是从Spatial Pyramid Pooling发展而来。

通过RoI Pooling，即使大小不同的proposal输出结果都是固定大小，实现了固定长度输出。

参考：一文读懂Faster RCNN – 白裳

; 区域裁剪 Rol Pool

区域顶点规整到网格交点上（有偏移）

; 区域裁剪 Rol Align

区域顶点不规整到网格交点上（无偏移）

在每个区域中选择几个关键点，关键点个数是可自定义的，是超参数。

; R-CNN vs Fast R-CNN

Faster R-CNN

Fast R-CNN的问题

selective search 区域建议耗时过高，几乎等于单张图片的检测时间。

; Faster R-CNN改进

区域建议 Region Proposal Network

不在原图，而在特征图上，使用卷积神经网络进行区域建议。

经典的检测方法生成检测框都非常耗时，如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框；或如R-CNN使用SS(Selective Search)方法生成检测框。而Faster RCNN则抛弃了传统的滑动窗口和SS方法，直接使用RPN生成检测框，这也是Faster R-CNN的巨大优势，能极大提升检测框的生成速度。

上图4展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线，上面一条通过softmax分类anchors获得positive和negative分类，下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。

; anchor

提到RPN网络，就不能不说anchors。所谓anchors，实际上就是一组由rpn/generate_anchors.py生成的矩形。直接运行作者demo中的generate_anchors.py可以得到以下输出：

[[ -84.  -40.   99.   55.]
 [-176.  -88.  191.  103.]
 [-360. -184.  375.  199.]
 [ -56.  -56.   71.   71.]
 [-120. -120.  135.  135.]
 [-248. -248.  263.  263.]
 [ -36.  -80.   51.   95.]
 [ -80. -168.   95.  183.]
 [-168. -344.  183.  359.]]

注：关于上面的anchors size，其实是根据检测图像设置的。在python demo中，会把任意大小的输入图像reshape成800×600（即图2中的M=800，N=600）。再回头来看anchors的大小，anchors中长宽1:2中最大为352×704，长宽2:1中最大736×384，基本是cover了800×600的各个尺度和形状。

那么这9个anchors是做什么的呢？借用Faster RCNN论文中的原图，如图7，遍历Conv layers计算获得的feature maps，为每一个点都配备这9种anchors作为初始的检测框。这样做获得检测框很不准确，不用担心，后面还有2次bounding box regression可以修正检测框位置。

解释一下上面这张图的数字。

在原文中使用的是ZF model中，其Conv Layers中最后的conv5层num_output=256，对应生成256张特征图，所以相当于feature map每个点都是256-dimensions

在conv5之后，做了rpn_conv/3×3卷积且num_output=256，相当于每个点又融合了周围3×3的空间信息，同时256-d不变。

假设在conv5 feature map中每个点上有k个anchor（默认k=9），而每个anhcor要分positive和negative，所以每个点由256d feature转化为cls=2•k scores；而每个anchor都有(x, y, w, h)对应4个偏移量，所以reg=4•k coordinates

补充一点，全部anchors拿去训练太多了，训练程序会在合适的anchors中随机选取128个postive anchors+128个negative anchors进行训练。

其实RPN最终就是在原图尺度上，设置了密密麻麻的候选Anchor。然后用cnn去判断哪些Anchor是里面有目标的positive anchor，哪些是没目标的negative anchor。所以，仅仅是个二分类而已！

那么Anchor一共有多少个？原图800×600，VGG下采样16倍，feature map每个点设置9个Anchor，所以：

c e i l ( 800 / 16 ) × c e i l ( 600 / 16 ) × 9 = 50 × 38 × 9 = 17100 ceil(800/16) \times ceil(600/16) \times 9=50 \times 38 \times 9 = 17100 c e i l (8 0 0 /1 6 )×c e i l (6 0 0 /1 6 )×9 =5 0 ×3 8 ×9 =1 7 1 0 0

其中ceil()表示向上取整，是因为VGG输出的feature map size= 50*38。

softmax判定positive与negative

对proposals进行bounding box regression

Proposal Layer生成proposals

一阶段目标检测：YOLO/SSD/RetinaNet

; 目标检测：影响进度的因素

Original: https://blog.csdn.net/guai7guai11/article/details/124548148
Author: 暖焱
Title: 【计算机视觉】计算机视觉与深度学习-07-目标检测-北邮鲁鹏老师课程笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687700/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习生成对抗网络（GAN）

一、概述生成对抗网络(Generative Adversarial Networks)是一种无监督深度学习模型，用来通过计算机生成数据，由Ian J. Goodfellow等人于…

人工智能 2023年6月16日
0087
Matlab：程序设计

Matlab 脚本 * 脚本的编辑程序控制结构 * 顺序结构选择结构循环结构函数 * 函数文件匿名函数经典案例——猴子吃桃子脚本 Matlab命令执行方式有交互式的命…

人工智能 2023年6月30日
00116
Pandas数据分析100例

Pandas数据分析100例 1.列表转Series import pandas as pd if __name__ == ‘__main__’: courses = [‘语文’,…

人工智能 2023年6月11日
00151
可变形卷积（DCN）

可变形卷积即DCN（全称为Deformable Conv）提出于ICCV 2017的一篇文章: Deformable Convolutional Networks 论文paper地…

人工智能 2023年6月23日
00196
山东大学类脑实验五 HMAX 模型实现

山东大学类脑实验五 HMAX 模型实现实验目的：加深对 HMAX 模型的理解，能够使用 HMAX 模型解决简单问题实验内容：根据 HMAX 模型的相关知识，使用 Pyth…

人工智能 2023年6月25日
0095
【目标检测】(9) 改进PANet特征提取金字塔，附Tensorflow完整代码

各位同学好，今天和大家分享一下如何使用注意力机制和深度可分离卷积优化 YOLOV4 的 PANet 特征金字塔。看本篇博客之前，建议大家先看以下几篇： YOLOV4主干网络：h…

人工智能 2023年7月10日
0076
识别硬币和细胞数量+条形码检测(python+opencv)

如愿一、准备工作二、硬币和细胞数量识别三、条形码定位和识别四、总结五、参考资料一、准备工作所用图片 python版本以及opencv版本 python 3.8.12 …

人工智能 2023年7月19日
0080
【二 HLS】HLS接口的简单介绍

一、HLS简单介绍 vivado HLS是xilinx推行的高级综合工具，可以使用C/C++以及system C来实现xilinx的可编程器件的编程，不用手写verilog语言，官…

人工智能 2023年7月19日
0080
numpy.empty用法详解

numpy.empty(shape, dtype=float, order=’C’, *, like=None)，用来输出一个空数组 like：默认为num…

人工智能 2023年7月21日
0088
线性回归模型

线性（linear），量与量之间按比例成直线关系，数学中线性函数可以理解为一阶导数为常数的函数。回归（regression），有”衰退”、”回到…

人工智能 2023年6月17日
00128
DolphinScheduler 集群部署

上传相关组件apache-dolphinscheduler-2.0.5-bin.tar.gzmysql-connector-java-8.0.16.jar tar -zxvf ap…

人工智能 2023年6月28日
00131
（2022.4）Win10最新Anaconda安装PytorchGPU环境(CUDA)教程（极其适合初学者）

目录前言一、CUDA的安装 1.确认自己的电脑是否可以使用CUDA 2.下载CUDA 二、cuDNN的安装 1.下载cuDNN 2.安装cuDNN 三、Anaconda环境的配…

人工智能 2023年7月24日
0087
西储大学(CWRU)轴承数据集故障诊断(一)：数据读取，数据集划分

CWRU轴承数据集故障诊断博客编写背景 * 数据集读取训练与测试完整数据读取代码博客编写背景本次博客是对深度学在机械设备的故障诊断(模式识别)领域的入门级的基础教程，主要…

人工智能 2023年6月16日
0088
城市系统应用其一-表征城市交通模式

墨西哥城的案例研究摘要：无缝访问有价值的目的地，如工作场所、学校、公园或医院，影响着全世界人民的生活质量。第一个规划和改善服务邻近度的步骤是估计出行次数由城市的不同部分组成。具有…

人工智能 2023年5月31日
0074
半监督学习算法中是否有适用于深度学习的方法

问题背景半监督学习是一种机器学习方法，其中使用有标签和无标签的数据来进行训练。在传统机器学习中，有很多半监督学习算法可以使用。然而，在深度学习中，由于高度非线性的特征表示和复杂的…

人工智能 2024年1月1日
0035
【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN：基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月22日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31