目标检测综述

2023年7月10日上午3:36 • 人工智能 • 阅读 112

原创：悬鱼铭

目标检测(Object Detection)任务是计算机视觉中非常重要的基础问题，也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定类别的物体，如果存在，输出物体在图像中的位置信息（矩形框的坐标值表示，Xmin、Ymin、Xmax、Ymax）。

早期，传统目标检测算法还没有使用深度学习，一般分为三个阶段：区域选取、特征提取、特征分类。

区域选取：采用滑动窗口(Sliding Windows)算法，选取图像中可能出现物体的位置，这种算法会存在大量冗余框，并且计算复杂度高。
特征提取：通过手工设计的特征提取器（如SIFT和HOG等）进行特征提取。
特征分类：使用分类器(如SVM)对上一步提取的特征进行分类。

传统算法HOG+SVM的作用如下：

2014年的R-CNN（Regions with CNN features）使用深度学习实现目标检测，从此拉开了深度学习做目标检测的序幕。目标检测大致可以分为一阶段(One Stage)模型和二阶段(Two Stage)模型。目标检测的一阶段模型是指没有独立地提取候选区域(Region Proposal)，直接输入图像得到图中存在的物体类别和相应的位置信息。典型的一阶段模型有SSD(Single Shot multibox-Detector)、YOLO(You Only Look Once)系列模型等。二阶段模型是有独立地候选区域选取，要先对输入图像筛选出可能存在物体的候选区域，然后判断候选区域中是否存在目标，如果存在输出目标类别和位置信息。经典的二阶段模型有R-CNN、SPPNet、Fast R-CNN、Faster R-CNN

下图总结了目标检测中一些经典模型的发展历程：

一般来说，一阶段模型在计算效率上有优势，两阶段在检测精度上有优势。对于一阶段和二阶段模型在速度上和精度上的差异，一般有以下原因：

多数一阶段模型是利用预设的锚框（Anchor Box）来捕捉图像可能存在物体的区域，图像中包含物体的框远少于总共的锚框，因而在训练分类器时正负样本数目极不平衡，这会导致分类器训练的效果不好。
二阶段模型在会修正候选框的位置，带来更高的定位精度，同时也增加了模型复杂度。

接下来，简单介绍二阶段模型的发展过程。

R-CNN

首先使用无监督的选择性搜索(Selective Search, SS)方法将输入图像中颜色、纹理相近的区域合并，产生2000个候选区域；

然后截取这些候选区域相应的图像，裁剪缩放至固定的尺寸，依次送入CNN特征提取网络提取特征；

特征送入每一类的SVM分类器，判断是否属于此类；

使用线性分类器修正框位置和大小，最后对检测结果进行非极大值抑制（Non-Maximum Suppression,NMS）。

SPPNet

在RCNN中，要对候选区域裁剪缩放至固定的尺寸，会破坏截取图像的长宽比，损失一些信息。针对以上问题，SPPNet 提出了空间金字塔池化(Spatial Pyramid Pooling)层，该层置于 CNN的末端，输入不需要缩放至指定的大小。下图第一行是 R-CNN，第二行是 SPPNet，对比可以发现它们的区别。

SPPNet 的思路是对于任意大小的 feature map 首先分成 16、4、1 个块，然后在每个块上最大池化，池化后的特征拼接得到一个固定维度的输出。

Fast R-CNN

Fast R-CNN 的思路与 SPPNet 一致，区别在于 Fast R-CNN 使用感兴趣区域池化( Region-of-Interest Pooling )而非空间金字塔池化。Fast R-CNN 相比 R-CNN 使用全连接网络代替之前的 SVM 分类器和线性回归器进行物体分类和检测框的修正。Fast R-CNN 有两个输出，一个是通过 softmax 层进行类别预测，另一个输出物体的检测框。

Faster R-CNN

Faster R-CNN 在 Fast R-CNN 的基础上，将其最耗时的候选区域提取用一个区域候选网络（Region Proposal Network，RPN）进行替代。在 faster R-CNN 中，一幅输入图像先由 RPN 提取候选区域，再取出各个候选区域对应的特征图，送入 Fast R-CNN (独立于 RPN 的后半部分)进行物体分类和位置回归。

接下来，简单介绍一阶段模型的发展过程。

R-CNN 系列将目标检测问题归结为分类问题，即先寻找目标可能存在的区域（Bounding box），然后对这些Box分类，从而确定目标。YoLo 则将目标检测问题转换为一个回归问题（Regreesion problem），直接预测出 boudning box 和相关的类别信息。YoLo 是一个可以端到端训练的单个网络（single network），它不需要单独的搜索 Region Proposals，也不需要单独的 Classifier，因此其检测速度特别快，YoLo 可以达到 45 FPS，而 Fast YoLo 可以达到 155FPS。YoLo 对背景的识别效果较好，且有一定的迁移性，但是 YoLo 最大的问题是对小目标的检测不准确。

YOLO v1

将输入图像()划分为个
网格，如果一个物体的中心落在某个网格，则这个网格负责这个物体的检测。
每个网格预测 B 个 Bounding Box 的位置，这个 Box 的置信度得分，以及 Box 中是否存物体的概率。
Bounding Box 包含五个参数（中心 x 坐标，中心 y 坐标，宽度，高度，置信度）
置信度得分表示该网格包含一个对象的可能性：Pr(containing an object) x IoU(pred, truth); 其中Pr =概率。
如果网格包含一个对象，则它将预测该对象属于每个类别的 *概率
将输入图像划分为
个网格，每个网格预测B 个Bounding Box以及置信度，则最终的预测编码为。

YOLO v2

YOLO v2 在 YOLO v1 的基础上做出了改进，大体可以分为网络结构的改善、先验框的设计及训练技巧。

网络结构的改善，提出了一个全新的网络结构，称之为 DarkNet。

BN层：在卷积层后面添加了批归一化(BN)层。
用连续 3×3 卷积替代了 v1 版本中的 7×7 卷积，这样既减少了计算量，又增加了网络深度。此外，DarkNet 去掉了全连接层与 Dropout 层。
Passthrough 层：DarkNet 还进行了深浅层特征的融合。
先验框的设计，YOLO v2 首先使用了聚类的算法来确定先验框的尺度。
训练技巧，YOLO v2 采取了多种尺度的图片作为训练的输入。模型在训练过程中，每隔 10 个批次就改变输入图片的大小。

YOLO v3

YOLO v3 在 YOLO v2 的基础上做出了一些改动。

YOLO v3是使用了 Logistic 函数代 Softmax函数。原因在于，Softmax函数输出的多个类别预测之间会相互抑制，只能预测出一个类别，而Logistic分类器相互独立，可以实现多类别的预测。
YOLO v3 采用了更深的网络作为特征提取器（DarkNet-53），包含53个卷积层。为了避免深层网络带来的梯度消失问题，DarkNet-53借鉴了ResNet的残差思想，在基础网络中大量使用了残差连接。

最后，简单总结目标检测的论文下载链接。

目标检测英文综述

目标检测论文

参考文献：

深度学习之PyTorch物体检测实战，董洪义
百面深度学习，葫芦娃
目标检测（3）-SPPNet
YOLO系列模型总结
Object Detection Part 4: Fast Detection Models
RCNN、Fast RCNN、Faster RCNN对比

Original: https://blog.csdn.net/kaikeba0826/article/details/124589367
Author: CV算法恩仇录
Title: 目标检测综述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682011/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据专家最常使用的 10 大类 Pandas 函数 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：http://www.showmeai.tech/tutorials/40📘 本文地址：http://www.showmea…

人工智能 2023年6月4日
00101
pandas转置处理表格内容（分组转置）

需求如下，需要将下列数据进行分组，且每组需要包含所有的值：转变的结果如下：实现代码如下： import pandas as pd df = pd.read_excel(r&quot…

人工智能 2023年7月7日
0081
[Python私活案例]24行代码，轻松赚取400元，运用Selenium爬取39万条数据

今天分享一单来自金主爸爸的私单，运用简单的爬虫技巧，可以有效的规避反爬机制，正所谓”你有张良计，我有过云梯”。这个案例也很好的体现了python语音的优势，…

人工智能 2023年7月30日
0050
宽带语谱图(wideband spectrogram)和窄带语谱图(narrowband spectrogram)的区别

1.概念区分宽带spectrogram:以3ms(或300Hz左右的带宽)左右进行分帧之后制成的spectrogram 窄带spectrogram:以20ms(或45Hz左右的带…

人工智能 2023年5月25日
0079
Android 关于IC卡的读写和加密

先对相关的基础知识进行一下讲解。 RFID：叫射频识别技术，分为接触式（需要插卡）与非接触式（只需刷卡），NFC就是从这个技术发展而来的，包含多个频段，915MHz，125KHz…

人工智能 2023年6月29日
00136
灵魂三问：因果推断

■ 数万年前，人类意识到某些事情的变化，会导致另外一些事情的发生，这开启了人们对因果的直觉性思考，使人类创造出了有组织的社会，直至我们今天的科技文明。■ 2000多年前，哲学家亚里…

人工智能 2023年7月16日
00104
初探三维计算机视觉（三维重建） —— 相机模型 + 双目系统 + 点云模型

初探三维计算机视觉（三维重建）—— 相机模型 + 双目系统 + 点云模型目录 * – 初探三维计算机视觉（三维重建）—— 相机模型 + 双目系统 + 点云模型 &#8…

人工智能 2023年6月18日
0083
Pandas中常见的数学计算 | 图解Pandas-图文第6篇

01写在前面大家好，我是阳哥，欢迎来到「Python数据之道」。本次是《图解Pandas》系列图文内容的第 06 篇，主要介绍 Pandas 中&amp…

人工智能 2023年7月16日
0078
Deep3DFaceReconstruction踩坑实录

在跑3d人脸ｄｅｍｏ Deep3DFaceReconstruction时遇到一些问题，拿个小本本记录下来．项目介绍这个项目实现了通过单张图片推理3d人脸参数的功能，对应的论文为…

人工智能 2023年5月26日
0080
医学图像彩色化相关–20201208论文笔记Colorization of CT images to improve tissue contrast for tumor segmentation

1.Colorization of CT images to improve tissue contrast for tumor segmentation 彩色CT图像以提高肿瘤分…

人工智能 2023年6月10日
0092
零基础步入数据分析岗，应该怎么开始？

最近裸辞面了10来家数据分析职位，已成功斩获4个offer，薪资在12K—18K不等，在这里先分享一下我在面试中遇到得，帮大家排雷避坑。 1.自我介绍 2.简历环节 3.面试官提问…

人工智能 2023年7月15日
0067
基于ssm的学生成绩分析系统maven idea

目录1 绪论 51.1课题背景 51.2 课题研究的意义 51.3 系统实现的功能 51.4 课题研究现状 52系统相关技术 72.1 Java技术 72.2 B/S架构 72…

人工智能 2023年6月26日
0081
AI 音辨世界：艺术小白的我，靠这个AI模型，速识音乐流派选择音乐 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

人工智能 2023年6月4日
0097
【《2021机器学习-李宏毅》学习笔记】

文章目录 * – 简介 – 内容示意* 个人学习笔记* – 01-Regression – 02.1-deeplearning-ge…

人工智能 2023年6月12日
0088
Python数据可视化第三节

第三章；图表辅助元素的定制 3.1 认识图表常用的辅助元素图表的辅助元素是指除根据数据绘制的图形之外的元素，常用的辅助元素包括坐标轴、标题、图例、网格、参考线、注释文本和表格，他…

人工智能 2023年7月16日
0062
python pandas.merge_ordered 用法及代码示例

pandas.merge_ordered(left, right, on=None, left_on=None, right_on=None, left_by=None, righ…

人工智能 2023年7月7日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

目标检测综述

大家都在看