YOLO系列详解目标检测

2023年7月10日下午12:06 • 人工智能 • 阅读 88

yolo v1

前言

相比同年的fast-rcnn和ssd都没有优势

; 详解

B=2，Pr（Object）为0或者1
在v1中没有anchor的概念，预测的xywh是直接预测的box的位置，不像fast-rcnn和ssd中预测的这四个值都是相对我们anchor的回归参数。
在预测时，输出的结果既包含了该box为某一个目标的概率，又包含了重合程度，与fast-rcnn和ssd直接预测的目标概率不一样。

Backbone: GoogLeNet with no inception modules

Neck: None

Head: YOLO [fc(1570)->7 _7(5_2+20)]

存在的问题：

对群体小目标效果很差，比如一群鸟。因为对每个cell只预测2个bounding-box，而且属于同一个类别，意味着一次只能预测一个物体,所以导致网络的召回率极低。
目标出现新的尺寸的时候，效果差。
主要错误的原因就是定位不准确的问题，因为它是采用直接预测box位置，而不是fast-rcnn和ssd预测先对anchor的回归参数。
由于输出层为全连接层，因此在检测时，YOLO训练模型只支持与训练图像相同的输入分辨率。

yolo v2

前言

通过使用voc，imagenet数据集联合训练，能够识别的类别超过9000.

; 详解

效果：

对训练收敛有很大帮助
减少所需使用的正则化处理
能够提升2个百分点map，帮助正则化模型

采用基于anchor 偏移的预测可以简化目标边界框预测，使网络更加容易收敛和学习。
使用anchor会使得map小幅度降低，但是召回率会有很大提升，从而意味着模型有更大的提升空间。
在fast-rcnn和ssd的时候，作者并没有明确给出为什么要采用预测的anchor或者default-box，而是根据工程经验得出的。
anchor的聚类，采用k-means获取anchor

在直接使用基于anchor的方式去训练，在训练前期会特别不稳定，不稳定的主要因素就来自预测x，y导致的。因为xy没有被限制，所以在加上偏移量tx和ty后，中心点可能出现在图像的任意一个地方。
解决办法就是对tx和ty进行一个函数限制（sigmoid）。使得xy最终肯定在自己的grid-cell内。
使用box聚类和限制txty，带来了5个点的提升。

Backbone: darknet19
Neck: None
Head: passthrough [conv->13 _13_anchor*(5+20)]
7 _7卷机使用3_3加1 * 1卷机替代。减少计算量小，防止过拟合;网络可以做的更深，更好的提取特征。
使用全局平均池化代替fc，适应图像多尺度的输入。
信息融合：结合更多底层的信息。最后的13×13，去融合26×26的特征图。即passlayer。
效果提升1个百分点。

多尺度训练
每迭代十个batch，就把网络的输入尺寸进行随机的选择，由于v2的缩放因子是32，所以网络的输入尺寸都是32的整数{320，352,…,608},

yolo v3

前言

基本上只是整合了当时比较主流的网络的优点，比如FPN，基本没有太多的创新点。

; 详解

表面darknet与resnet很像，但是仔细看会发现darknet是没有最大池化下采样层的。即用卷积代替池化。
卷积核的个数更少，使得参数量和计算量变少。

Backbone: darknet53
Neck: None
Head: [conv->13 _13_anchor/3(5+classes)]
[conv->26 _26_anchor/3(5+classes)]
[conv->52 _52_anchor/3*(5+classes)]
使用resnet的残差结构，提高特征提取能力。
因为提高了提取特征的能力，所以检测头也从1个提高到3个。
和v2一样

正样本：针对每一个gt都会分配一个与之iou最大的bbox。
如果预测结果与gt有重合且超过阈值，但iou不是最大，则直接丢弃这个预测结果。
剩下的样本为负样本

yolo v3 spp

; 损失

yolo v3中使用的定位损失，差值平方的计算方法，即L2损失（MSE）。

考虑到了重叠面积
考虑到了两个中心的距离
在diou的基础上，还考虑到了两个box的长宽比；
iou这部分可参考：https://blog.csdn.net/leonardohaig/article/details/103394369

focal loss可参考：https://www.cnblogs.com/king-lps/p/9497836.html
对于两阶段的faster-rcnn的正负样本不平衡问题不显著的原因是因为第二阶段使用的achor是第一阶段筛选后的，只有两千个左右，而一阶段的yolo有上万个。
降低简单负样本的权重（损失贡献），增加难的负样本的权重。
gamma=0时退化为CE loss，一般取值2

; yolo v4

前言

Yolo 系列的原作者在推出了 YoloV3 后宣布退出 CV 界。俄罗斯的程序员 Alexey Bochkovskiy 凭借自己的摸索复现了 Yolo 系列全部模型，并总结了最接近几年目标检测的各种套路。就在前几个推出了 YoloV4.

YoloV4 将最近几年 CV 界大量的trick 集中在一套模型中。这篇论文不仅仅可以看作是一个模型的学习，更能看成是一个不错的文献总署。更有意思的是作者提出了 backbone,neck,head 的目标检测通用框架套路。

backbone, neck, head 其实非常的形象。它表示组成一个”人”的三个部分。从下到上就是 backbone, neck, head 。

backbone：各类卷积网络，目的是对原始图像做初步的特征提取。
neck：各类结构，目的是从结构上做”特征的融合”。主要为解决小目标检测，重叠目标检测等问题。
head：gd 编码，回归和解析。
YoloV3 就是一个典型的 backbone, neck, head 结构。

详解

Backbone: CSPDarknet53
Neck: FPN,SPP,PAN
Head: [conv->13 _13_anchor/3(5+classes)]
[conv->26 _26_anchor/3(5+classes)]
[conv->52 _52_anchor/3*(5+classes)]

; yolo v5

Backbone: Focus + CSPDarknet53
Neck: FPN,SPP,PAN,CSP结构
Head: [conv->13 _13_anchor/3(5+classes)]
[conv->26 _26_anchor/3(5+classes)]
[conv->52 _52_anchor/3*(5+classes)]

【参考】
b站：霹雳吧啦Wz
csdn：https://blog.csdn.net/lemonbit/article/details/109281590

Original: https://blog.csdn.net/EMIvv/article/details/122392921
Author: Shashank497
Title: YOLO系列详解目标检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682753/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【NLP Tool — NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

NLP Tool 系列文章 NLP–Jieba中文文本–关键词提取、自定义词典、分词、词性标注 NLP–NLTK英文文本–情感分析、…

人工智能 2023年6月24日
0077
基于SPSS的聚类分析原理概述

文章目录 1. 聚类分析的基本概念 * 1.1 方法概述 1.2 聚类方法 2. 系统聚类 * 2.1系统聚类的类型 2.2 两个距离概念 2.3亲疏程度的度量 – 2…

人工智能 2023年6月19日
0083
RASA2.0 搭建中文聊天机器人（附gitee源码）

RASA2.0搭建中文聊天机器人环境搭建 rasa==2.0.0 rasa-sdk==2.4.1 tensorflow==2.3.2 Flask==1.1.2 开始搭建初始化项…

人工智能 2023年5月25日
0069
传统的时间序列预测模型ARMA、ARIMA（包括实战！！！）

部分图片、数据、代码来源：https://book.tipdm.org/jc/220，侵权必删！！！一、本篇主要介绍四种经典的时间序列模型移动平均模型（MA）、自回归模型（AR…

人工智能 2023年7月25日
0043
2022最新python入门级数据分析指南，轻松月入过万

前言大数据时代，谁掌握了数据，谁就掌握了优先权。数据分析成为各个行业都必须有基础。学会数据分析这项技能，在哪里都能吃香。如何根据数据分析出未来的趋势，成为了每一名数据分析师必…

人工智能 2023年6月11日
0070
STM32F103在CubeIDE运行FreeRTOS

STM32F103在CubeIDE运行FreeRTOS 硬件平台：STM32F103CT6软件平台：CubeIDE 1.8.0实现效果：创建两个TASK，TASK1中实现500ms…

人工智能 2023年6月29日
0073
HALCON 21.11：深度学习笔记—分类(10)

HALCON 21.11：深度学习笔记—分类(10) HALCON 21.11.0.0 中，实现了深度学习方法。本章介绍了如何在训练和推理阶段使用基于深度学习的分类。…

人工智能 2023年7月2日
0095
【Apollo 6.0项目实战】LGSVL 与 Apollo 6.0联合仿真教程

### 回答1：如果你想在 Ubuntu 18.04 上安装 Apollo 6.0，你可以按照以下步骤进行操作: 1. 下载 Apollo 6.0 安装包：https:// ap…

人工智能 2023年6月2日
0058
计算机视觉之目标检测库安装记录

detectron2开源项目位置： detectron2安装文档：测试demo python demo.py –config-file ../configs/COCO-Inst…

人工智能 2023年7月12日
0061
数据挖掘实战—航空公司客户价值分析

文章目录 * – 引言 – 一、数据探索分析(EDA) – + 1.数据质量分析 + * 1.1 缺失值分析 * 1.2 异常值分析 * 1.3…

人工智能 2023年6月2日
0072
《数字信号处理教程》利用matlab实现常用序列

五、实验内容及结果编制程序产生单位冲激序列、单位阶跃序列、矩形序列、实指数序列和复指数序列，并利用matlab中的基本图形函数绘制出其图形。（一）实验一：单位抽样序列。在mat…

人工智能 2023年6月18日
0057
actor-critic代码逐行解析（tensorflow版）

深度强化学习算法actor-critic代码逐行解析（tensorflow版） Actor是基于Policy-Gradients。可以选择连续动作，但是必须循环一个回合才可以更新策…

人工智能 2023年5月23日
0069
CUDA-Z工具分析Nvidia显卡算力信息

类似于Windows下使用CPU-Z工具查看CPU信息，Linux下也可以使用CUDA-Z工具来查看显卡资源/支持信息。 CUDA-Z运行需要主机首先已经安装CUDA和N卡驱动为前…

人工智能 2023年5月24日
0093
文本多标签分类模型开发记录

文本分类是NLP应用领域中最常见也最重要的任务类型，也是机器学习领域的经典应用场景之一。本文通过笔者工作中的一个真实案例，讨论通过机器学习实现文本多标签分类的过程以及一些优化经验…

人工智能 2023年7月1日
0095
pandas算加权平均值_使用Pandas数据框计算加权平均值

I have te following pandas dataframe: data_df = pd.DataFrame({‘ind’:[‘la…

人工智能 2023年7月8日
0067
RepVGG论文详解以及使用Pytorch进行模型复现

RepVGG: Making VGG-style ConvNets Great Again 是 2021 CVPR的一篇论文，正如他的名字一样，使用 structural re-p…

人工智能 2023年7月13日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

YOLO系列详解 目标检测

前言

; 详解

前言

; 详解

前言

; 详解

; 损失

前言

详解

大家都在看

YOLO系列详解目标检测