YOLOv5学习笔记

2023年7月14日下午4:38 • 人工智能 • 阅读 88

转载于：深入浅出Yolo系列之Yolov5核心基础知识完整讲解_江南研习社-CSDN博客_yolov5

1 网络结构

Yolov5官方代码中，给出的目标检测网络中一共有4个版本，分别是 Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。

（1）Yolov5s.yaml

（2）Yolov5m.yaml

（3）Yolov5l.yaml

（4）Yolov5x.yaml

四种结构就是通过上面的两个参数，来进行控制网络的深度和宽度。其中 depth_multiple控制网络的深度， width_multiple控制网络的宽度。

（1）输入端：Mosaic数据增强、自适应锚框计算、自适应图片缩放
（2）Backbone：Focus结构，CSP结构
（3）Neck：FPN+PAN结构
（4）Prediction：CIOU_Loss

2 Yolov5核心基础内容

2.1输入端

（1）Mosaic数据增强

（2）自适应锚框计算

在Yolo算法中，针对不同的数据集，都会有 初始设定长宽的锚框。

在网络训练中，网络在初始锚框的基础上输出预测框，进而和 真实框groundtruth进行比对，计算两者差距，再反向更新， 迭代网络参数。

因此初始锚框也是比较重要的一部分，比如Yolov5在Coco数据集上初始设定的锚框：

在Yolov3、Yolov4中，训练不同的数据集时，计算初始锚框的值是通过单独的程序运行的。

但Yolov5中将此功能嵌入到代码中，每次训练时，自适应的计算不同训练集中的最佳锚框值。

当然，如果觉得计算的锚框效果不是很好，也可以在代码中将自动计算锚框功能关闭。

控制的代码即 train.py中上面一行代码，设置成 False，每次训练时，不会自动计算。

（3）自适应图片缩放

在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。

比如Yolo算法中常用 416416，608608等尺寸，比如对下面 800*600的图像进行缩放。

但 Yolov5代码中对此进行了改进，也是 Yolov5推理速度能够很快的一个不错的trick。

作者认为，在项目实际使用时，很多图片的长宽比不同，因此缩放填充后，两端的黑边大小都不同，而如果填充的比较多，则存在信息冗余，影响推理速度。

因此在Yolov5的代码中datasets.py的letterbox函数中进行了修改，对原始图像 自适应的添加最少的黑边。

图像高度上两端的黑边变少了，在推理时，计算量也会减少，即目标检测速度会得到提升。

这种方式在之前github上Yolov3中也进行了讨论：https://github.com/ultralytics/yolov3/issues/232

在讨论中，通过这种简单的改进，推理速度得到了37%的提升，可以说效果很明显。

但是有的同学可能会有 大大的问号？？如何进行计算的呢？大白按照Yolov5中的思路详细的讲解一下，在 datasets.py的letterbox函数中也有详细的代码。

第一步：计算缩放比例

原始缩放尺寸是416*416，都除以原始图像的尺寸后，可以得到0.52，和0.69两个缩放系数，选择小的缩放系数。

第二步：计算缩放后的尺寸

原始图片的长宽都乘以最小的缩放系数0.52，宽变成了416，而高变成了312。

第三步：计算黑边填充数值

将416-312=104，得到原本需要填充的高度。再采用numpy中np.mod取余数的方式，得到8个像素，再除以2，即得到图片高度两端需要填充的数值。

此外，需要注意的是：

a.这里大白填充的是黑色，即 （0，0，0），而Yolov5中填充的是灰色，即 （114,114,114），都是一样的效果。

b.训练时没有采用缩减黑边的方式，还是采用传统填充的方式，即缩放到416*416大小。只是在测试，使用模型推理时，才采用缩减黑边的方式，提高目标检测，推理的速度。

c.为什么np.mod函数的后面用 32？因为Yolov5的网络经过5次下采样，而2的5次方，等于 32。所以至少要去掉32的倍数，再进行取余。

2.2 Backbone

1）Focus结构

Focus结构，在Yolov3&Yolov4中并没有这个结构，其中比较关键是切片操作。

比如右图的切片示意图，443的图像切片后变成2212的特征图。

以Yolov5s的结构为例，原始6086083的图像输入Focus结构，采用切片操作，先变成30430412的特征图，再经过一次32个卷积核的卷积操作，最终变成30430432的特征图。

需要注意的是：Yolov5s的Focus结构最后使用了32个卷积核，而其他三种结构，使用的数量有所增加，先注意下，后面会讲解到四种结构的不同点。

（2）CSP结构

Yolov4网络结构中，借鉴了CSPNet的设计思路，在主干网络中设计了CSP结构。

Yolov5与Yolov4不同点在于，Yolov4中只有主干网络使用了CSP结构。

而Yolov5中设计了两种CSP结构，以 Yolov5s网络为例， CSP1_X结构应用于 Backbone主干网络，另一种 CSP2_X结构则应用于 Neck中。

2.3 Neck

Yolov5现在的Neck和Yolov4中一样，都采用FPN+PAN的结构。

Yolov4的Neck结构中，采用的都是普通的卷积操作。而Yolov5的Neck结构中，采用借鉴CSPnet设计的CSP2结构，加强网络特征融合的能力。

Original: https://blog.csdn.net/weixin_44570701/article/details/122135224
Author: 「已注销」
Title: YOLOv5学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692441/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Dropout层是如何用于防止神经网络的过拟合现象的

介绍在深度学习中，过拟合是一个常见的问题，它发生在模型在训练数据上表现良好，但在测试数据上表现不佳的情况下。为了解决过拟合问题，一种常用的方法是在神经网络中添加Dropout层。…

人工智能 2024年1月3日
0034
Abstractive Dialog Summarization with Semantic Scaffolds

中文标题：基于语义框架的生成式对话摘要论文链接：https://arxiv.org/pdf/1910.00825.pdf发表：ICLR 2020组织：浙大 Abstract 作者指…

人工智能 2023年5月28日
00104
SAP HANA，S/4HANA 和 SAP BTP 的辨析

这是知乎上一个朋友向我咨询的问题。 SAP HANA，SAP S/4HANA，和 SAP BTP，这几个名词，对于刚接触 SAP 的朋友来说确实容易混淆。光是 SAP HANA，…

人工智能 2023年7月17日
00106
Anaconda虚拟环境安装PyTorch并使用Spyder

笔者之前一直使用Spyder基于后端tensorflow的Keras框架运行一些深度学习实验，近来想在笔记本上安装Pytorch，也遇到一些问题，在这里总结一下，更多想用这种方式来…

人工智能 2023年6月17日
00140
Ubuntu18.04下Opencv的安装以及使用

文章目录前言一、Opencv的安装二、Ubuntu18.04下opencv的应用实例 * 1、图片的显示 2、摄像头的的使用 – （1）获取摄像头的权限（2）摄…

人工智能 2023年7月18日
0098
看懂机器视觉（CV）听懂语音识别（ASR）理解自然语言处理（NLP）

机器视觉（CV） Computer vision 语音识别（ASR） Automatic Speech Recognition 自然语言处理（NLP） Natural langua…

人工智能 2023年5月25日
00100
机器视觉——单目相机模型（坐标标定以及去畸变）

单目相机模型：针孔相机模型的映射关系：化为矩阵形式：其中，中间的矩阵被称为相机的内参矩阵K。通常认为，相机的内参在出厂之后是固定的，不会在使用过程中发生变化。有点相机生产厂商…

人工智能 2023年6月21日
0068
高管访谈：大陆集团选择亚马逊云科技作为软件定义汽车开发的首选云提供商

整个行业正在经历数字化变革, 驾驶人也希望车辆能带给他们更多体验。大陆集团拥有240,000多名员工,遍及59个国家和地区,致力于打造智能、互联的驾乘世界。如今,自动驾驶赛道竞…

人工智能 2023年6月11日
0063
YOLO-V5-超参数介绍及优化策略

这里写自定义目录标题 * – yaml文件 – 超参数 – 优化策略 yaml文件模型深度&宽度 nc: 3 # &#x7C7…

人工智能 2023年5月26日
0069
【深度学习】（ICCV-2021）PVT-金字塔 Vision Transformer及PVT_V2

目录 0. 详情 1. 简述 2.主要工作 * 2.1 ViT遗留的问题 2.2 引入金字塔结构 3.PVT的设计方案 * 3.1 Patch embedding – …

人工智能 2023年7月28日
0061
机器学习基础学习-多项式回归

前言之前的线性回归法有一个很大的局限性，要求假设数据背后是存在线性关系的，但是对于实际应用场景当中，具有线性关系比较强的数据集太少了，更多的是具有非线性关系的数据集。这里引入使用…

人工智能 2023年6月17日
0081
智能语音爬天井

配图来自Canva可画随着技术的升级、消费需求的爆发和环境的改善，智能语音产业的发展越来越如火如荼，智能语音正在悄然渗透到人们的日常生活中。以输入模式为例，语音输入已超过拼音输入…

人工智能 2023年5月23日
0064
安装python3.9 + numpy + Matplotlib + opencv-python

这次安装程序我从来没有那么痛苦过；本机环境：centos6.6 原来默认python2.7 版本需要安装：python3.9 + numpy + Matplotlib + op…

人工智能 2023年7月18日
0031
Python图像处理一：图像的读取、显示与存储

skimage提供了io模块，用来对图像进行输入输出操作。为了方便练习，也提供了一个data模块，里面有一些示例图像，我们可以直接使用。导入skimage模块可用： from s…

人工智能 2023年6月20日
0090
自动化测试——selenium（环境部署和元素定位篇）

自动化测试——selenium（环境部署和元素定位篇）文章目录自动化测试——selenium（环境部署和元素定位篇） * 一、web自动化环境部署 – 1.1 se…

人工智能 2023年6月23日
0086
逐句解析点积注意力pytorch源码（配图解）

前言结合pytorch源码和原始论文学习Scaled Dot-Product Attention的原理。原论文链接：Attention Is All You Need原论文中的…

人工智能 2023年7月23日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

YOLOv5学习笔记

2.1输入端

2.2 Backbone

2.3 Neck

大家都在看