【YOLOv5-6.x】网络模型&源码解析

2023年6月16日下午10:24 • 人工智能 • 阅读 70

文章目录

*
– 前言
– 整体网络结构
–
+ v5.x网络结构
+ v6.x网络结构
– 各部分源码解析
–
+ Conv
+ Focus
+ Bottleneck
+ C3
+ SPP
+ SPPF
– Reference

前言

YOLOv5是Ultralytics公司的开源项目，GitHub地址：https://github.com/ultralytics/yolov5，更新速度非常快，最新版的v6.1于2022年2月22日发布，目前star数22.7k。

YOLOv5更新日志：

2020年6月26日发布v1.0
… … …
2021年4月12日发布v5.0
2021年10月12日发布v6.0
2022年2月22日发布v6.1

下面对v6.x版本的网络模型及各个组件，结合源码和网络框图进行解析。

整体网络结构

v5.x网络结构

; v6.x网络结构

可以看出，相比于之前v5.x，最新版的v6.x网络结构更加精简（以提高速度和推理性能），主要有以下更新：

Conv(k=6, s=2, p=2) 替换Focus，便于导出其他框架（for improved exportability）
SPPF代替SPP，并且将SPPF放在主干最后一层（for reduced ops）
主干中的C3层重复次数从9次减小到6次（for reduced ops）
主干中最后一个C3层引入shortcut

各部分源码解析

YOLOv5网络搭建的各个组件主要在model/common.py文件中

Conv

网络中的标准卷积层，有2D卷积+BN层+激活函数（SiLU）组成，在之后的Bottleneck、C3、SPPF等结构中都会被调用。

源码：


class Conv(nn.Module):

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)

        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        return self.act(self.conv(x))

Focus

Focus模块是作者自己设计出来，为了减少浮点数和提高速度，而不是增加featuremap的，本质就是将图像进行切片，类似于下采样取值，将原图像的宽高信息切分，聚合到channel通道中。

源码：

class Focus(nn.Module):

    """理论：从高分辨率图像中，周期性的抽出像素点重构到低分辨率图像中，即将图像相邻的四个位置进行堆叠，
    聚焦wh维度信息到c通道中，增大每个点的感受野，减少原始信息的丢失，该模块的设计主要是减少计算量加快速度
    Focus wh information into c-space 把宽度w和高度h的信息整合到c空间中
    1. 先做4个slice 再concat 最后再做Conv
    2. slice后 (b,c1,w,h) -> 分成4个slice 每个slice(b,c1,w/2,h/2)
    3. concat(dim=1)后 4个slice(b,c1,w/2,h/2)) -> (b,4c1,w/2,h/2)
    4. conv后 (b,4c1,w/2,h/2) -> (b,c2,w/2,h/2)
"""
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        super().__init__()
        self.conv = Conv(c1 * 4, c2, k, s, p, g, act)

    def forward(self, x):

        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

Bottleneck

标准的bottleneck模块，用在构建BottleneckCSP和C3等模块中，包含shortcut，起到加深网络的作用。

源码：

class Bottleneck(nn.Module):

    def __init__(self, c1, c2, shortcut=True, g=1, e=0.5):
        super().__init__()
        c_ = int(c2 * e)
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_, c2, 3, 1, g=g)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))

C3

C3模块其实是简化版的BottleneckCSP，该部分除了Bottleneck之外，只有3个卷积模块，可以减少参数，所以取名C3，作者用意为： C3() is an improved version of CSPBottleneck(). It is simpler, faster and and lighter with similar performance and better fuse characteristics.

源码：

class C3(nn.Module):

    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
        super().__init__()
        c_ = int(c2 * e)
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.cv3 = Conv(2 * c_, c2, 1)
        self.m = nn.Sequential(*(Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)))

    def forward(self, x):
        return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), dim=1))

SPP

Spatial Pyramid Pooling (SPP) layer https://arxiv.org/abs/1406.4729
SPP层将更多不同分辨率的特征进行融合，在送入网络neck之前能够得到更多的信息。

源码：

class SPP(nn.Module):

    def __init__(self, c1, c2, k=(5, 9, 13)):
        super().__init__()
        c_ = c1 // 2
        self.cv1 = Conv(c1, c_, 1, 1)

        self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)
        self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])

    def forward(self, x):
        x = self.cv1(x)
        with warnings.catch_warnings():
            warnings.simplefilter('ignore')
            return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))

SPPF

Spatial Pyramid Pooling – Fast (SPPF) layer for YOLOv5 by Glenn Jocher
SPP-Fast顾名思义就是为了保证准确率相似的条件下爱，减少计算量，以提高速度，使用3个5×5的最大池化，代替原来的5×5、9×9、13×13最大池化。

源码：

class SPPF(nn.Module):

    def __init__(self, c1, c2, k=5):
        super().__init__()
        c_ = c1 // 2
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * 4, c2, 1, 1)
        self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)

    def forward(self, x):
        x = self.cv1(x)
        with warnings.catch_warnings():
            warnings.simplefilter('ignore')
            y1 = self.m(x)
            y2 = self.m(y1)
            return self.cv2(torch.cat([x, y1, y2, self.m(y2)], 1))

Reference

Original: https://blog.csdn.net/weixin_43799388/article/details/123271962
Author: 嗜睡的篠龙
Title: 【YOLOv5-6.x】网络模型&源码解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626965/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于机器视觉的图像处理缺陷检测方法论文学习

基于机器视觉的图像处理缺陷检测方法论文学习 Machine Vision based Defect Detection Approach using Image Processin…

人工智能 2023年6月18日
0072
有监督学习（supervised learning)）与无监督学习（unsupervised learning）之间有何区别?

机器学习中存在着三类模型，有监督学习、无监督学习和半监督学习，他们有何区别呢？其实有无标签是区分监督学习与无监督学习的关键，这里的有无标签，指的是有没有事前确定标签。有监督机器…

人工智能 2023年5月31日
0076
机器学习训练营——基于逻辑回归的鸢花数据（iris）分类预测

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月2日
0061
opencv第十章机器学习和深度学习

机器学习和深度学习机器学习是人工智能的核心，专门研究如何让计算机模拟和学习人类的行为。深度学习是机器学习中的一个热门研究方向，它主要研究样本数据的内在规律和表示层次，让计算机能够…

人工智能 2023年7月19日
0071
语义分割系列3-SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络，SegNet论文中做出了许多与FCN网络的对比论…

人工智能 2023年7月13日
0059
搞了四天的REID环境配置

我先跟大家说一下我存在的哪几类报错吧 1.c++的依赖环境没安装 (安装c++的依赖环境链接：https://pan.baidu.com/s/1FzIyQ1OpxI7DxNCUwy…

人工智能 2023年7月10日
0060
高端头戴式耳机也有良心产品？开箱Sanag B6S Pro，我直接慕了

耳机玩过的多了，尤其是头戴式耳机更是先锋的最爱，那种全包裹又不需入耳的配戴方式，可以享受到更加澎湃的音质效果，不过稍微好一点的头戴式耳机，价格往往都是物美价高，很少见到有亲民物美价…

人工智能 2023年5月25日
0069
OpenCV中的图像处理——离散傅里叶变换实例(11)

我们通过这个示例来学习一个以dft()为核心，对图像求傅里叶变换的过程。程序示例如何计算和显示傅里叶变换后的幅度图像。由于数字图像的离散性，我门也仅仅实现的是离散傅里叶变换，…

人工智能 2023年6月21日
0072
残差网络(ResNets)的残差块（Residual block）

来源：Coursera吴恩达深度学习课程五一假期结束了，听着梁博的《日落大道》，码字中。非常非常深的神经网络是很难训练的，因为存在梯度消失和梯度爆炸问题。跳跃连接（Skip co…

人工智能 2023年6月17日
00101
【纯音听力测试】基于MATLAB的纯音听力测试系统

1.软件版本 matlab2017b 2.系统原理语音是人类进行交流沟通的最基本方式，而人类的耳朵则是接收语音信号的唯一器官，但是对于听力障碍患者来讲，由于无法正常接收来自他人的…

人工智能 2023年5月25日
0064
win10 使用TensorRT部署 yolov5-v4.0（C++）

### 回答1： Tensor RT_是一个高性能的深度学习推理库，可以帮助您在 NVIDIA GPU 上加速深度学习推理。要在 _C++_中 _部署 YOLOv5，您需要进行以下…

人工智能 2023年7月19日
0042
丢弃Excel，Pandas一行搞定

之前介绍了 pandas的多条件筛选，这些都是一些数据处理的必要技能，也不贪多，咱们每次学习一点。这次咱们说说 pandas的两个表的连接技能 merge，也就是根据一个表的条件…

人工智能 2023年7月8日
0049
torch.matmul() 张量相乘

如果是二维的矩阵相乘，那就跟平时咱们做的矩阵乘法一样： a = torch.tensor([[1,2], [3,4]]) a Out[31]: tensor([[1, 2], [3…

人工智能 2023年5月30日
0071
7. 吴恩达机器学习课程-作业7-Kmeans and PCA

fork了别人的项目，自己重新填写，我的代码如下 https://gitee.com/fakerlove/machine-learning/tree/master/code 代码原…

人工智能 2023年5月31日
0069
机器学习分类问题（信用卡案例）

目录一、数据描述性展示与数据预处理数据归一化（标准化）处理数据不均衡问题处理二、数据特征提取三、数据分类数据来源于kaggle 分析中使用的相关算法：逻辑回归分析算法…

人工智能 2023年7月2日
00121
人家网站都免费了，你还用Python去爬？

文章目录 * – ⛳️ 实战场景 – ⛳️ 实战编码 ⛳️ 实战场景这次实战的目标是一个叫做猫肯的字体站点，该站点所有的字体都是免费可商用的，所以为什么还…

人工智能 2023年7月3日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31