【CV第三篇】目标检测风云二十年

2023年7月12日上午7:23 • 人工智能 • 阅读 78

Anchor-free目标检测算法

One-Stage目标检测算法

Two-Stage目标检测算法

开篇寄语

气如云气，自我纵横。

天地洞明，万物可兵。

魔方导读

目标检测 （Object Detection）是计算机视觉四大基本任务之一，目的是解决” 是什么，在哪里”的问题。作为图像理解和计算机视觉的基石，目标检测是解决图像分割、目标追踪、视频内容理解、图像描述和行为识别等更复杂更高阶的视觉任务的基础。因此，本文整理了目标检测发展二十多年来的优秀算法，包括基于深度学习的Anchor-free、One-stage和Two-stage等目标检测方法。通过本文可快速了解目标检测的发展脉络及相关领域算法！！！

由魔方智能CV空间调研、整理、创作或转载，如有侵权，请联系后台作相应处理！！

往期回顾：

以2012年作为分水岭，目标检测在过去二十多年的发展过程中可大致分为两个时期： 传统目标检测方法与基于 深度学习的目标检测方法。传统的目标检测方法的代表作主要有三个：Viola Jones Detectors、HOG Detector、Deformable Part-based Model(DPM)，在这里不进行过多介绍，接下来重点汇总基于深度学习的目标检测方法。

Anchor-free目标检测算法

1.1 YOLOv1

论文：《You Only Look Once: Unified, Real-Time Object Detection》

论文链接：https://arxiv.org/pdf/1506.02640.pdf

代码链接：https://github.com/AlexeyAB/darknet

参考：https://zhuanlan.zhihu.com/p/364367221

【简介】

（1）以当前视角看，YOLOv1是 One-stage开山之作，同时也是最早的Anchor-free通用检测器；

（2）因其简洁的网络结构和GPU实时检测速度而 一鸣惊人；

（3）最大特点： 仅使用一个卷积神经网络端到端地实现物体检测，打破了R-CNN的”垄断”地位，为目标检测领域带来了巨大的变革！

（4）核心思想：就是在每个网格上做预测，如果某物体的Ground Truth中心点坐标落入到某个格子，那么这个格子就负责检测出这个物体。

1.2 CornerNet

论文：《CornerNet: Detecting Objects as Paired Keypoints》

论文链接：https://arxiv.org/abs/1808.01244

代码链接：https://github.com/princeton-vl/CornerNet

【简介】

（1）将目标检测问题当作 关键点检测问题来解决；

（2）通过检测bounding box的左上角和右下角两个关键点得到预测框；

（3）CornerNet算法中 没有Anchor的概念；

（4）整个检测网络的训练是从头开始的，不受预训练模型的限制.

1.3 CenterNet

论文：《Objects as Points》

论文链接：https://arxiv.org/pdf/1904.07850.pdf

代码链接：https://github.com/xingyizhou/CenterNet

【简介】

传统目标检测将物体定义为沿着坐标轴的边界框，对所有可能的物体进行穷举搜索，再进行分类。这种方法 耗时耗力，且需要额外的后处理过程。本文将物体建模为 单个点—— BBox的中心点，用关键点估计找到中心点，并且回归输出物体其他属性，如：尺寸，3D位置，旋向，甚至位姿。本文方法称为CenterNet，一种端到端具有多种优点的目标检测方法，达到了 速度与准确率的平衡.

1.4 FSAF

论文：《Feature Selective Anchor-Free Module for Single-Shot Object Detection》

论文链接：https://arxiv.org/pdf/1903.00621v1.pdf

代码链接：https://github.com/xuannianz/FSAF

【简介】

我们激励并提出 功能选择性Anchor-free（FSAF）模块，这是一种简单有效的单点目标检测器构建块。可以将其插入具有特征金字塔结构的单发检测器。FSAF模块解决了传统基于锚的检测带来的两个限制： 1）启发式引导特征选择； 2）基于重叠的锚点采样。FSAF模块的一般概念是在线特征选择，用于选择多级Anchor-free分支。具体地，Anchor-free分支附接到特征金字塔的每个级别，从而允许以任意锚的Anchor-free方式进行盒编码和解码。在训练过程中，我们会为每个实例动态分配最合适的功能级别。在推理时，FSAF模块可以通过并行输出预测与基于Anchor的分支共同工作。我们通过Anchor-free分支的简单实现和在线特征选择策略来实例化此概念。在COCO检测的实验结果表明，我们的 FSAF模块比Anchor-based的模块性能更好，同时速度更快。当与Anchor-based的分支联合使用时，FSAF模块在各种设置下都大幅提高了基线RetinaNet，同时引入了几乎免费的推理开销。最终得到的最佳模型可以达到44.6％的最新mAP，优于COCO上所有现有的单激发检测器。

1.5 FCOS

论文： 《FCOS: Fully Convolutional One-Stage Object Detection》

论文链接：https://arxiv.org/pdf/1904.01355v5.pdf

代码链接：https://github.com/tianzhi0549/FCOS/

【简介】

（1）最大优势 不需要先验框，大大降低了样本量和参数量，计算量也大大降低；

（2）对于 小目标检测的效果也不错，通过多尺度检测，增加可以预测的框的数；

（3）最大创新在于 center-ness模块，这是其区别于YOLOv1的主要部分。

1.6 SAPD

论文：《Soft Anchor-Point Object Detection》

论文链接：https://arxiv.org/pdf/1911.12448v2.pdf

代码链接：https://github.com/xuannianz/SAPD

【简介】

（1）针对anchor-point检测算法的优化问题，论文提出了SAPD方法；

（2）对不同位置的anchor point使用不同损失权重，并且对不同特征金字塔层进行加权共同训练，去除大部分人为制定的规则，更加遵循网络本身的权值进行训练。

One-Stage目标检测算法

1.1 YOLOv1

论文：《You Only Look Once: Unified, Real-Time Object Detection》

论文链接：https://arxiv.org/pdf/1506.02640.pdf

代码链接：https://github.com/AlexeyAB/darknet

【YOLOv1的缺点】

（1） 每个cell只预测两个bbox和一个类别，这限制了能预测重叠或邻近物体的数量，比如当两个物体的中心点都落在这个cell中，但这个cell只能预测一个类别；

（2）不像Faster R-CNN一样预测offset，YOLOv1是 直接预测bbox的位置，这就增加了训练的难度；

（3）YOLOv1是根据 训练数据来预测bbox的，当测试数据中的物体出现了训练数据中物体没有的长宽比时，YOLOv1的泛化能力低；

（4）经过 多次下采样，最终得到的feature的分辨率比较低，可能会影响到物体的定位；

（5）损失函数的设计存在缺陷，使得物体的定位误差有点大，尤其在不同尺寸大小的物体处理上还有待加强。

1.2 SSD

论文：《SSD: Single Shot MultiBox Detector》

论文链接：https://arxiv.org/pdf/1512.02325v5.pdf

代码链接：https://github.com/weiliu89/caffe/tree/ssd

【简介】

（1）SSD是一个One-stage的统一目标检测框架；

（2）SSD 网络模型的特征提取网络是改进 VGG16 网络而来的，通过在 VGG16 网络后面增加几组卷积层增大小特征的特征图；

（3）利用 不同尺度的特征图进行目标的检测，经过 SSD 网络特征提取后，会得到两个尺度的特征图，用两个尺度中较大的识别小目标，而较小的识别大目标，提高小目标的识别准确率。

1.3 YOLOv2

论文：《YOLO9000:Better, Faster, Stronger》

论文链接：https://arxiv.org/pdf/1612.08242v1.pdf

代码地址：https://github.com/AlexeyAB/darknet

参考：https://zhuanlan.zhihu.com/p/124269512

【简介】

（1）在YOLOv1基础上，进行了大量改进，提出了YOLOv2和YOLO9000，重点解决YOLOv1召回率和定位精度方面的不足；

（2）是一个先进的目标检测算法，比它之前的算法检测速度更快。同时可以适应多种尺寸的图片输入，并且能在精度和速度之间进行很好的权衡；

（3）借鉴了Faster R-CNN的思想， 引入Anchor机制，利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板，大大提高了算法的召回率；

（4）结合图像细粒度特征， 将浅层和深层特征相连，有助于对小目标的检测；

（5）YOLO9000 使用 WorldTree 来混合不同资源的训练数据，并使用 联合优化技术在ImageNet和COCO数据集上进行训练，能够实时地检测超9000种物体。

1.4 RetinaNet

论文：《Focal Loss for Dense Object Detection》

论文链接：https://arxiv.org/pdf/1708.02002v2.pdf

代码链接：

https://github.com/facebookresearch/detectron

【简介】

（1）该论文最大贡献在于提出了 Focal Loss用于解决类别不均衡的问题，从而创造了RetinaNet；

（2）精度上超越Two-stage网络，在速度上超越one-stage网络的速度，首次实现一阶段网络对二阶段网络的全面超越；

（3）产生精度差异的主要原因： 类别失衡（Class Imbalance）；

（4）Focal loss的目的： 消除类别不均衡+挖掘难例样本。

1.5 YOLOv3

论文：《YOLOv3: An Incremental Improvement》

论文链接：https://arxiv.org/pdf/1804.02767v1.pdf

代码链接：https://pjreddie.com/darknet

【简介】

（1）创新点：a.新的网络结构Darknet-53；b.融合FPN；c.用逻辑回归替代softmax作为分类器；

（2） “分而治之”，从YOLOv1开始，yolo算法就是通过划分单元格来做检测，只是划分的数量不一样；

（3）采用“leaky ReLU”作为激活函数；

（4）从yolo_v2开始，yolo就用batch normalization作为正则化、加速收敛和避免过拟合的方法， 把BN层和leaky relu层接到每一层卷积层之后；

（5）多尺度训练，在速度和准确率之间tradeoff。想速度快点，可以牺牲准确率；想准确率高点儿，可以牺牲一点速度。

1.6 YOLOv4

论文：《YOLOv4: Optimal Speed and Accuracy of Object Detection》

论文链接：https://arxiv.org/pdf/2004.10934v1.pdf

代码链接：https://github.com/AlexeyAB/darknet

【简介】

（1）构建了一个简单且高效的目标检测模型， 降低了训练门槛；

（2）验证了先进的 Bag-of-Freebies和Bag-of-Specials方法在训练期间的影响；

（3）修改了最先进的方法，并且使其更为有效， 适合单GPU训练，包括CBN、PAN、SAM等，从而使得YOLOv4能够在一块GPU上就可以训练起来。

1.7 YOLOv5

代码链接：https://github.com/ultralytics/yolov5

【特点】

（1）考虑了邻域的 正样本Anchor匹配策略，增加了正样本；

（2）通过 灵活的配置参数，可以得到不同复杂度的模型；

（3）通过一些内置的 超参数优化策略，提升整体性能；

（4）和yolov4一样，都用了 Mosaic增强，提升小物体的检测性能。

1.8 YOLOX

论文：《YOLOX: Exceeding YOLO Series in 2021》

论文链接：https://arxiv.org/pdf/2107.08430v2.pdf

代码链接：

https://github.com/Megvii-BaseDetection/YOLOX

【简介】

（1）本论文中介绍了YOLO系列的一些经验改进，形成了一个新的高性能检测器——YOLOX；

（2）将YOLO检测器切换为Anchor-free并进行其他先进的检测技术，即decoupled head 和领先的标签分配策略 SimOTA，以在大量模型中实现最先进的结果。

（3）支持ONNX、TensorRT、NCNN和OpenVINO**的部署版本。

1.9 PP-YOLOE

论文：《PP-YOLOE: An evolved version of YOLO》

论文链接：https://arxiv.org/pdf/2203.16250v2.pdf

代码链接：

https://github.com/PaddlePaddle/PaddleDetection

【简介】

（1）首先PP-YOLOE-l 在COCO数据集上达到了51.4mAP。相比较PP-YOLOv2提升1.9AP和13.35%的速度，相比较YOLOX提升1.3AP和24.96%的速度；

（2）主要的改进点是：anchor-free，powerful backbone and neck，TAL动态label assign，ET-head。

1.10 YOLOv6

技术文章【官方】：

https://mp.weixin.qq.com/s/RrQCP4pTSwpTmSgvly9evg

代码链接：https://github.com/meituan/YOLOv6

【简介】

美团视觉智能部在目标检测框架方面的优化及实践经验，针对 YOLO 系列框架，在训练策略、主干网络、多尺度特征融合、检测头等方面进行了思考和优化，设计了新的检测框架YOLOv6，初衷来自于解决工业应用落地时所遇到的实际问题。

1.11 YOLOv7

论文：《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors》

论文链接：https://arxiv.org/pdf/2207.02696v1.pdf

代码链接：https://github.com/wongkinyiu/yolov7

Two-Stage目标检测算法

1.1 R-CNN

论文：《Rich feature hierarchies for accurate object detection and semantic segmentation》

论文链接：https://arxiv.org/pdf/1311.2524v5.pdf

代码链接：https://github.com/rbgirshick/rcnn

【简介】

（1）RCNN是Two-stage算法的开山之作**，奠定了一个基础，大大提高了目标检测的效果；

（2）RCNN包含了三个主要的模块：

a. 生成类别独立的regoin proposal（区域建议），为感知器定义候选区域；

b. CNN提取固定长度的特征；

c. 线性SVM分类器进行类别的分类

1.2 Fast R-CNN

论文：《Fast R-CNN》

论文链接：https://arxiv.org/pdf/1504.08083v2.pdf

代码链接：https://github.com/rbgirshick/fast-rcnn

1.3 Faster R-CNN

论文：《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

论文链接：https://arxiv.org/pdf/1506.01497v3.pdf

代码链接：https://github.com/rbgirshick/py-faster-rcnn

原文链接：【CV第三篇】目标检测风云二十年开篇寄语\x0d\x0a气如云气，自我纵横。天地洞明，万物可兵。‍http://mp.weixin.qq.com/s?__biz=MzI1MzUyMTMwOA==&mid=2247484778&idx=1&sn=e53b6bc2461490a73223d57da62f581a&chksm=e9d27999dea5f08fd29129e41130602375c587f3ba4ca1e7a43317b3d3eec36dd86e44eb80e0&token=349007583&lang=zh_CN#rd ;

Original: https://blog.csdn.net/qq_37902216/article/details/125890527
Author: 强少~、
Title: 【CV第三篇】目标检测风云二十年

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687194/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Neo4j入门实战，以三国英雄关系为例入门Neo4j知识图谱

Neo4j入门实战，以三国英雄关系为例入门Neo4j知识图谱前言一、Neo4J简介 * 对比关系型数据库：对比其他NoSQL数据库二、Neo4J下载安装 * 方法1：安装N…

人工智能 2023年6月1日
0085
YOLOv7论文解读

论文链接：https://arxiv.org/abs/2207.02696代码链接：https://github.com/WongKinYiu/yolov7 摘要在5 FPS 到…

人工智能 2023年7月10日
0047
Python中的字典

字典概念 Python内置的数据结构之一，与列表一样是一个可变序列。以键值对的方式存储数据，字典是一个无序的序列。（列表是有序的）字典通过计算key的hash值确定存储位置，所…

人工智能 2023年7月4日
0074
梯度下降算法(Gradient descent)

首先，我们需要明确梯度下降就是求一个函数的最小值，对应的梯度上升就是求函数最大值。简而言之：梯度下降的目的就是求函数的极小值点，例如在最小化损失函数或是线性回归学习中都要用到梯度…

人工智能 2023年7月4日
0083
Ubuntu18下xsens IMU的驱动安装及使用imu_utils标定

最近在做xsens IMU的标定工作，网上资源很多很杂，打算按自己的操作过程、细节及遇到的问题记录一下，里面有参考的博文都附了链接。主体可参考此博文：VIO 中 IMU 的标定流程…

人工智能 2023年6月2日
0092
OpenCv-Python图像特征识别

1.概要本练习学习了OpenCv-Python关于图像特征识别的一些算法，算法理解起来较为困难，但函数用起来上手比较快，主要要明白函数的输入输出的含义。 2.主要内容：虽然算法…

人工智能 2023年6月19日
0071
KNN缺失值的插补原理介绍（你肯定需要）

缺失值是数据处理过程中不可跳过的一个步骤！当然，如果你的数据不存在缺失值，那就不需要这个文档了！你可能需要查看一下异常值了！！！现在我们来理解一下缺失值（类型）： &#x5…

人工智能 2023年6月15日
0076
手眼标定（传统、SVD、九点）原理及代码总结

目录传统手眼标定感性认识：传统手眼标定原理图： Eye in hand Eye to hand 传统手眼标定教学视频：传统手眼标定代码： SVD手眼标定法原理： SVD求解数…

人工智能 2023年5月26日
00104
python装饰器详解

python中的装饰器(decorator)一般采用语法糖的形式，是一种语法格式。比如：@classmethod，@staticmethod，@property，@xxx.sett…

人工智能 2023年7月30日
0066
pytorchDataLoader中调整数据长度不一致问题（lstm等）

数据长度不一致用pytorch做rnn的时候，如果输入数据不一样长，可以用两种方式解决。一种是自定义collate方法， dataloader.DataLoader(datase…

人工智能 2023年7月24日
0044
国产RK3588+DSP+FPGA+AI工业视觉主板解决方案

工业4.0驱动新一轮工业革命，核心特征是互联，进一步信息化、智能化是典型的特点。顺应工业4.0的需求，瑞芯微针对性地提供了HMI人机交互、信息采集及控制、以及AI视觉等解决方案，并…

人工智能 2023年6月25日
00110
加载预训练模型遇到transformers的问题

问题1: urllib.error.URLError: urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] 这是由于ssl验证的问题，在….

人工智能 2023年7月23日
0066
pandas—删除某行或某列数据

首先，创建一个DataFrame格式数据作为举例数据。 data = {‘a’: [‘a0’, ‘a1’, ‘a2’], ‘b’: [‘b0’, ‘b1’, ‘b2’], ‘c’:…

人工智能 2023年7月9日
00136
pandas读取与写入一个 workbook 的多个 sheet

背景: win8.1, anaconda 4.12, pandas 1.3.4 目的: 一次读取一个workbook中的多个sheet 一次写入一个workbook中的多个shee…

人工智能 2023年7月7日
0074
Python3.8安装cartopy报错ImportError: DLL load failed while importing trace: 找不到指定的模块。

最近安装cartopy走了很多弯路，记录一下 win7,64位，Python版本3.8.7 1.报错主要还是因为cartopy和依赖包的问题，于是卸载了cartopy以及依赖包 p…

人工智能 2023年7月5日
0066
TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captu

### 回答1： tph– yolov5_是一种基于 _Transform er_预测头的改进版 _yolov5，用于在无人机捕捉场景中进行目标检测。它采用了 Tran…

人工智能 2023年7月10日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【CV第三篇】目标检测风云二十年

Anchor-free目标检测算法

One-Stage目标检测算法

Two-Stage目标检测算法

大家都在看