【YOLO系列】YOLO.v4 & YOLO.v5算法原理详解

2023年6月25日下午12:49 • 人工智能 • 阅读 90

YOLO(You Only Look Once)算法原理

前言：详细介绍了yolo系列目标检测算法的原理和发展过程。
系列：
【YOLO系列】YOLO.v1算法原理详解
 【YOLO系列】YOLO.v2算法原理详解
 【YOLO系列】YOLO.v3算法原理详解
 【YOLO系列】YOLO.v4 & YOLO.v5算法原理详解

4. YOLO.v4 & YOLO.v5

4.1 基本概述

论文参考：YOLOv4: Optimal Speed and Accuracy of Object Detection

回顾 yolo 发展过程：

yolo v1 创新性提出了目标检测新框架，即 yolo 横空出世，那时候性能还很薄弱；
yolo v2 通过加入各种技巧，使得 yolo 性能有了跟其它主流目标检测网络较劲的底气；
yolo v3 基础网络的改变，大大提高了其性能，同时构建出了 yolo 的经典框架；至此，大厦已立。

从性能数据上看，yolo v3 已经是个很成熟很好用的网络了，具有较快检测速度和较高准确率；

事实上，也确会如此，现在 yolo v3 仍旧被诸多目标检测者广泛使用在诸多检测任务中。

AI 发展如此迅速，以至于各种网络训练、建构等小技巧层出不穷，研究者们一直在向着更快、更准的方向前进。

基于这样的背景，yolo v4 就是集技巧之大成者，调参之经典例。换句话说，就是将期间发展的各种深度学习 trick 加入到已立的大厦中。

yolo v5 似乎也有做了类似的事情。

如果简单概括地话，可以认为 yolo v4 是理论的集大成者， yolo v5 则是算法落地实现的实施者。

这也是为什么把两者放到了一个博客中。

4.2 从 YOLO v4

4.2.0 整体网络

整体网络如下所示：

; 4.2.1 框架建构

backbone:

CSPResNeXt50
CSPDarknet53(√)
EfficientNet-B3

感受野大小影响：

达到目标大小：模型可以感受到整个目标对象
达到网络大小：模型可以考虑到目标对象的临近对象
超过网络大小：增加图像点之间联系和增加了最后的激活作用

neck:

SPP
PANet

head:

yolov3 head

4.2.2 技巧集成 (BoF, BoS)

本部分就是向框架里堆积各种先进技巧，这些技巧可以分为两类：

bag of freebies：不增加模型复杂度，不增加推理计算量的训练方法技巧，提升模型准确度
bag of specials：增加少许模型复杂度或计算量，显著增加模型准确度

以下 (√) 表示 yolo v4 采纳的技巧

data augmentation

photometric distortions: Brightness, Contrast, Hue, Saturation, Noise
geometric distortion: Scale, Crop, Flip, Rotate
random erase, CutOut
Blur
Hide-and-seek, grid mask
MixUp
CutMix(√)
Mosaic(√)
style transfer GAN
Class label smoothing 类标签平滑(√)
Self-Adversarial Training(SAT)自对抗训练(√)

activation function

ReLU (×)
LReLU (×)
PReLU (×)
ReLU6 (×)
SELU (×)
hard-Swish (×)
Leaky-ReLU (by default)
Swish
Mish(√)

bbox regression loss

MSE
IoU
GIoU
CIoU (√)
DIoU

enhance receptive field

SPP (√)
ASPP
RFB
BiFPN

regularization method

DropOut
DropPath
Spatial DropOut
DropBlock(√)

normalization

Batch Normalization(BN)
Cross-GPU Batch Normalization(CGBN or SyncBN) ×
Filter Response Normalization(FRN)
Cross-Iteration Batch Normalization(CBN)
Cross mini-Batch Noramlization(CmBN)(√)

Skip-connections

Residual connections
Weighted Residual connections
Multi-input Weighted Residual connections(MiWRC)(√)
Cross-Stage Partial connections(CSP)(√)

attention module

channel-wise: Squeeze-and-Excitation (SE)
point-wise: Spatial Attention Module (SAM) (√)

other methods

Eliminate grid sensitivity(√)
Cosine annealing scheduler(√)
optimal hyper-parameters by genetic algorithms(√)
modified PAN(√)
DIoU-NMS(√)
Dynamic mini-batch size(√)

4.3 到 YOLO v5

4.3.0 整体网络

整体网络如下所示(以yolov5n为例)：

; 4.3.1 框架建构

Backbone

v4 & v5
CSPDarknet

Neck

v4 & v5
SPP/SPPF
PANET

Head

v3 & v4 & v5
(80个类别 + 置信度 + 4个坐标) * 3

4.3.2 技巧集成

注意：yolo v5 现在也在持续更新中，且更新频率很快，下面一些技巧可能是暂时的

Data Augmentation

v5
Scale
Hue
CutMix
Mosaic

Auto Learning BBox Anchors

v3
通过k-means 和遗传算法获得

v4
无自适应锚定框

v5
基于训练数据自动学习

Activation Function

v4
Mish

v5
中间层：Leaky ReLU
检测层：Sigmoid

Optimization Function

v4
SGD

v5
较小数据集：Adam
较大数据集：SGD

Cost Function

v4
bbox regression: CIoU loss

v5
class probability score: 二进制交叉熵
objectness score: Logits
bbox regression: GIoU loss

4.4 总结

理论上来说，yolo v4 和 yolo v5 本质上只是在yolo v3 框架基础上”调参”的改进。事实上，确实会有很多人这么认为。

但无论如何，yolo v4 也好，yolo v5也罢，相较于其前的网络都有非常明显的进步。

Original: https://blog.csdn.net/deepsprings/article/details/126347319
Author: 天真的和感伤的想象家
Title: 【YOLO系列】YOLO.v4 & YOLO.v5算法原理详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650941/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

主成分分析（PCA）详解

主成分分析（PCA)是一种比较基础的数据降维方法，也是多元统计中的重要部分，在数据分析、机器学习等方面具有广泛应用。主成分分析目的是用较少的变量来代替原来较多的变量，并可以反映原来…

人工智能 2023年7月14日
0075
解决报错RuntimeError: CUDA out of memory

文章目录一、问题描述二、解决方法 Reference 一、问题描述 (work2) andy@gpu-machine:~/deepFM_CTR_beat/model_train…

人工智能 2023年7月22日
0053
CUDA入门技术路线及基础知识

最近工作主要集中在目标检测算法部署方面，在树莓派4B和NVIDIA GPU平台上做了一些内容，个人觉得GPU多核计算对于深度学习的加持作用意义重大，而NVIDIA出品的软硬件是GP…

人工智能 2023年7月14日
0067
5个例子学会Pandas中的字符串过滤

要处理文本数据，需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息，通常需要执行几个预处理和过滤步骤。 Pandas 库有许多可以轻松简单地处理文本数据函数和方法。…

人工智能 2023年7月6日
0068
windows离线安装python、pycharm、opencv

下载离线python包https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/opencv-python/我下载的是opencv_…

人工智能 2023年7月19日
0058
从零开始学习图神经网络 – Data类和Datasets的基本使用

Data类——PyG中图的表示及其使用 class Data(object): def __init__(self, x=None, edge_index=None, edge_a…

人工智能 2023年7月14日
0063
YOLOX改进之损失函数修改（上）

文章内容：如何在YOLOX官网代码中修改– 置信度预测损失环境：pytorch1.8 损失函数修改内容：（1）置信度预测损失更换：二元交叉熵损失替换为 FocalLoss或者 …

人工智能 2023年6月26日
0065
R语言逻辑回归logistic regression

文章目录 * – + * 普通OLS回归 * logistic回归模型 * – 拟合优度 * 示例代码 * – 逐步回归 – 正确率…

人工智能 2023年6月17日
0071
【情报工具】P图P到真假难辨，推荐8种图像情报分析工具教你一眼识别

在这个万物皆可 PS 的时代，一张图片的真假似乎越来越难判定。例如网上突然传出来一张截图，你要怎么才知道这是真的证据，还是 PS 出来的谣言？如何快速鉴定一张图片有没有被更改过，福…

人工智能 2023年6月22日
00287
python 多项式回归以及可视化

python 多项式回归以及可视化简介一、一元N次多项式回归 * 1.1 可视化 1.2 代码二、二元二次多项式回归 * 2.1 可视化 2.2 代码简介多项式回归:回归…

人工智能 2023年6月15日
0083
基于Matlab的GUI界面设计简易钢琴及时频分析

基于Matlab的GUI界面设计简易钢琴及时频分析设计目标及要求设计概要 * 钢琴发声原理频谱分析语音信号的处理详细设计 * 1. 简易钢琴设计 2. 读取声音文件进行时…

人工智能 2023年5月27日
0087
OpenCV-Python实战（14）——人脸检测详解（仅需6行代码学会4种人脸检测方法）

OpenCV-Python实战（14）——人脸检测详解（仅需6行代码学会4种人脸检测方法） * – 0. 前言 – 1. 人脸处理简介 – 2….

人工智能 2023年6月18日
0086
opencv面试知识点

文章目录一、opencv基础 * 1、OpenCV中cv::Mat的深拷贝和浅拷贝问题 2、opencv常用数据结构和函数 – 2.1、QImage和Mat之间的转换…

人工智能 2023年7月19日
0084
【OpenCV 例程200篇】44. 图像的灰度变换（伽马变换）

『youcans 的 OpenCV 例程200篇 – 总目录』【OpenCV 例程200篇】44. 图像的灰度变换（伽马变换）线性灰度变换将原始图像灰度值的动态范围…

人工智能 2023年7月20日
0079
【上】CS229 吴恩达机器学习习题作业答案 problem sets 03 PS03（全部问题解答，欢迎各位前辈指教）

(a) 首先写出forward过程：z [ 1 ] = W [ 1 ] x + W 0 [ 1 ] h = σ ( z [ 1 ] ) z [ 2 ] = W [ 2 ] h + …

人工智能 2023年5月28日
00109
Loss损失函数

本博客记录一下遇到的各种损失，如想了解各种损失及其代码，也可查看mmdet项目的loss部分交叉熵适用于多分类任务，交叉熵属于分类损失中常见的一种损失，-ylogP取平均，概率…

人工智能 2023年7月2日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31