YOLO系列目标检测算法-YOLOv5

2023年7月10日下午3:15 • 人工智能 • 阅读 55

本文总结：
YOLOv5相比YOLOv4做的改进：

激活函数修改为SiLU
新增缩放系数，模型深度系数(model depth multiple)和宽度缩放系数(layer channel multiple)，用于方便扩展或缩放模型
修改第一层卷积为Conv2d(3, 64, kernel_size=(6, 6), stride=(2, 2), padding=(2, 2), bias=False)，YOLOv4中最大卷积核为3，前两层用了两次3×3卷积
输入图片从608变成640
BottleneckCSP[1,3,15,15,7,7,7]修改成C3[3,6,9,3]
CSPSPP修改成SPPF
BottleneckCSP2修改使用C3
测试时数据增强TTA
修改框回归公式，能匹配到更多的anchor

专栏链接:
https://blog.csdn.net/qq_39707285/article/details/124005405
此专栏主要总结深度学习中的知识点，从各大数据集比赛开始，介绍历年冠军算法；同时总结深度学习中重要的知识点，包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。

7.1 模型结构

YOLOv5(v6.0/6.1)由以下各部分构成：Backbone、Neck、Head。

7.1.1 Backbone

整体结构

backbone:

  [[-1, 1, Conv, [64, 6, 2, 2]],
   [-1, 1, Conv, [128, 3, 2]],
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],
  ]

Conv结构

class Conv(nn.Module):

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

C3结构
C3中的Bottleneck结构
SPPF结构

7.1.2 Neck

SPPF
NEW CSP-PAN

7.1.3 Head

Head采用YOLOv3 Head。

7.1.4 整体结构

; 7.2 数据增强

Mosaic
Copy-Paste
Random affine(Rotation, Scale, Translation and Shear)
MixUp
Albumentations
Augment HSV(Hue, Saturation, Value)
Random horizontal flip
TTA(Test Time Augmentation)

TTA，就是在图片预测时，将一张图片通过翻转、缩放为多张图片，然后对多张图片的检测结果进行合并，这样能够提高目标检测性能，但会增加时间效果。实现代码如下：

def _forward_augment(self, x):
        img_size = x.shape[-2:]
        s = [1, 0.83, 0.67]
        f = [None, 3, None]
        y = []
        for si, fi in zip(s, f):
            xi = scale_img(x.flip(fi) if fi else x, si, gs=int(self.stride.max()))
            yi = self._forward_once(xi)[0]

            yi = self._descale_pred(yi, fi, si, img_size)
            y.append(yi)
        y = self._clip_augmented(y)
        return torch.cat(y, 1), None

def scale_img(img, ratio=1.0, same_shape=False, gs=32):

    if ratio == 1.0:
        return img
    h, w = img.shape[2:]
    s = (int(h * ratio), int(w * ratio))
    img = F.interpolate(img, size=s, mode='bilinear', align_corners=False)
    if not same_shape:
        h, w = (math.ceil(x * ratio / gs) * gs for x in (h, w))
    return F.pad(img, [0, w - s[1], 0, h - s[0]], value=0.447)

如下图所示，每次推理时会增强成三张图片：

7.3 训练策略

Multi-scale training(0.5~1.5x)
AutoAnchor(For training custom data)
Warmup and Cosine LR scheduler
EMA(Exponential Moving Average)
Mixed precision
Evolve hyper-parameters

7.4 损失函数

YOLOv5的损失计算由以下三部分组成：

Classes loss(BCE loss)
Objectness loss(BCE loss)
Location loss(CIoU loss)
L o s s = λ 1 L c l s + λ 2 L o b j + λ 3 L l o c Loss=\lambda_1 L_{cls}+\lambda_2 L_{obj}+\lambda_3 L_{loc}L oss =λ1 L c l s +λ2 L o bj +λ3 L l oc

不同预测层（P3、P4、P5）的目标损失使用不同地平衡加权系数，分别为4.0、1.0和0.4。
L o b j = 4.0 ⋅ L o b j s m a l l + 1.0 ⋅ L o b j m e d i u m + 0.4 ⋅ L o b j l a r g e L_{obj}=4.0·L_{obj}^{small}+1.0· L_{obj}^{medium}+0.4·L_{obj}^{large}L o bj =4.0 ⋅L o bj s ma ll +1.0 ⋅L o bj m e d i u m +0.4 ⋅L o bj l a r g e

7.5 Eliminate Grid Sensitivity

在YOLOv2和YOLOv3中，用于计算预测目标信息的公式为：
b x = σ ( t x ) + c x b y = σ ( t y ) + c y b w = p w ⋅ e t w b h = p h ⋅ e t h \begin{aligned} &b_x=\sigma(t_x)+c_x \ &b_y=\sigma(t_y)+c_y \ &b_w=p_w·e^{t_w} \ &b_h=p_h·e^{t_h} \ \end{aligned}b x =σ(t x )+c x b y =σ(t y )+c y b w =p w ⋅e t w b h =p h ⋅e t h

在YOLOv5中公式修改为：
b x = ( 2 ⋅ σ ( t x ) − 0.5 ) + c x b y = ( 2 ⋅ σ ( t y ) − 0.5 ) + c y b w = p w ⋅ ( 2 ⋅ σ ( t w ) ) 2 b h = p w ⋅ ( 2 ⋅ σ ( t h ) ) 2 \begin{aligned} &b_x=(2·\sigma(t_x)-0.5)+c_x \ &b_y=(2·\sigma(t_y)-0.5)+c_y \ &b_w=p_w·(2·\sigma(t_w))^2 \ &b_h=p_w·(2·\sigma(t_h))^2 \end{aligned}b x =(2 ⋅σ(t x )−0.5 )+c x b y =(2 ⋅σ(t y )−0.5 )+c y b w =p w ⋅(2 ⋅σ(t w ))2 b h =p w ⋅(2 ⋅σ(t h ))2

修改前后中心点偏移对比如图所示：

从图中可以看出，中心点偏移值范围从（0,1）调整到（-0.5,1.5）。因此，偏移值可以很容易地得到0或1。

比较调整前后的高度和宽度比例（相对于anchor）。原始的yolo/darknet box方程有一个严重的缺陷。宽度和高度完全是无界的，因为它们只是o u t = e x p ( i n ) out=exp(in)o u t =e x p (in )，这是危险的，因为它可能导致梯度失控、不稳定性、loss为NaN等，最终完全失去训练效果。而YOLOv5中新设计的公式就不会出现这种问题，如下图所示。

; 7.6 Build Targets

YOLOv5中正样本匹配过程如下：

计算GT和anchor的纵横比
r w = w g t / w a t r h = w g t / h a t r w m a x = m a x ( r w , 1 / r w ) r h m a x = m a x ( r h , 1 / r h ) r m a x = m a x ( r w m a x , r h m a x ) r m a x < a n c h o r t \begin{aligned} &r_w=w_{gt}/w_{at} \ &r_h=w_{gt}/h_{at} \ &r_w^{max}=max(r_w,1/r_w) \ &r_h^{max}=max(r_h,1/r_h) \ &r^{max}=max(r_w^{max},r_h^{max}) \ &r^{max}

具体匹配过程如下图所示：

将成功匹配的anchor分配给相应的单元格

因为中心点偏移范围从(0,1)调整到(-0.5,1.5)。GT框可以分配给更多的anchor

Original: https://blog.csdn.net/qq_39707285/article/details/126889653
Author: Mr.小梅
Title: YOLO系列目标检测算法-YOLOv5

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683047/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python神经网络识别手写数字-MNIST数据集

Python神经网络识别手写数字-MNIST数据集一、手写数字集-MNIST 二、数据预处理 * 输入数据处理输出数据处理三、神经网络的结构选择四、训练网络 * 测试网络 …

人工智能 2023年7月23日
0075
小波图像处理

数字图像处理实验–小波图像处理前置知识：（1）wavedec2函数: 格式:[C,S]=wavedec2(X,N,’wname’)对图像X用wname小波…

人工智能 2023年6月18日
0070
绘制cox生存分析结果的森林图

欢迎关注”生信修炼手册”! 在之前meta分析的文章中我们介绍了森林图的画法，典型的森林图如下所示每一行表示一个study，用errorbar展示log …

人工智能 2023年7月15日
0081
Carla+SUMO联合仿真多交叉路口信号灯配时协同优化策略

Carla+SUMO联合仿真多交叉路口信号灯配时协同优化策略一.背景博主近期基于研发项目驱动，项目第一阶段需求为基于仿真环境，探索多交叉路口信号灯配时协同优化策略。由于研发内容…

人工智能 2023年6月1日
0078
pycharm 安装nltk库，报错Resource punkt not found.

在pycharm中安装nltk库，在使用pip install nltk后，import nltk使用发生报错，错误内容是Resource punkt not found.即pun…

人工智能 2023年5月28日
0062
c++ opencv 图像处理：灰度变换（灰度反转，对数变换，冥律（伽马）变换）

文章目录前言一、灰度变换 * 1.灰度反转 2.对数变换 3.冥律（伽马）变换二、opencv函数笔记 * 1.cvtColor函数 2.normalize函数 3.conv…

人工智能 2023年6月20日
0085
TensorFlow2安装教程

1.安装Anaconda3 清华镜像源： Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirr…

人工智能 2023年7月27日
0086
Python中的groupby分组

Python中的groupby分组一、groupby函数 groupby函数功能：对DataFrame进行分组（可单类分组，可多类分组）需求：按”字段”列…

人工智能 2023年7月4日
0090
深度学习基础22（数值稳定性）

数值稳定性和模型初始化初始化方案的选择在神经网络学习中起着举足轻重的作用，它对保持数值稳定性至关重要。此外，这些初始化方案的选择可以与非线性激活函数的选择有趣的结合在一起…

人工智能 2023年7月14日
0079
Python计算机视觉——图像内容分类

文章目录第八章图像内容分类 * （一）K邻近分类法（KNN）（二）贝叶斯分类器（三）支持向量机（四）光学字符识别第八章图像内容分类本章介绍图像分类和图像内容分类算法…

人工智能 2023年7月2日
0085
Low Resource ASR: The surprising effectiveness of High Resource Transliteration–低资源ASR：高资源音译的惊人效果

摘要：从高资源语言到低资源语言的跨语言知识转移是自动语音识别（ASR）的一个重要研究问题。我们提出了一种新的转移学习策略，即利用大量高资源语言的语音进行预训练，但其文本被翻译成目…

人工智能 2023年5月25日
0077
我用深度学习做个视觉AI微型处理器！

Datawhale干货作者：张强，Datawhale成员讲多了算法，如何真正将算法应用到产品领域？本文将带你从0用深度学习打造一个视觉AI的微型处理器。文章含完整代码，知识点…

人工智能 2023年5月25日
00109
在torch里面，view函数

在torch里面，view函数相当于numpy的reshape，来看几个例子： a = torch.arange(1, 17) # a’s shape is (16,)…

人工智能 2023年6月24日
0088
推荐几个检索论文及代码的网站

很多时候我们想要复现别人的研究成果，编程实现或者改进一个算法，我们都会涌现出一个强烈的愿望：啊我想要直接看作者的程序！哪怕自己掌握了算法梗概，也希望自己能够对一下答案~ 于是，慢…

人工智能 2023年6月24日
00207
git添加被.gitignore忽略的文件

在git操作中，有时候为了保障线上分支的简洁性，会在.gitignore文件中屏蔽一些关键词，比如可以加一个.txt来屏蔽掉项目中所有带txt后缀的文件，还可以加上test*来屏蔽…

人工智能 2023年6月4日
0082
使用YOLOV5训练自己的数据集（以王者荣耀为例）

注：本文只是记录笔者使用yolov5训练自己的数据集的实现过程，不讲原理，如果想学原理请移步点击量比较高的大佬博客，笔者只是大二本科生，如有问题还请多多指教! 一，什么是yolov…

人工智能 2023年7月27日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31