目标检测学习–yolo v5

2023年7月12日上午5:52 • 人工智能 • 阅读 72

yolo v5论文：没有

官方源码GitHub：GitHub – ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite

yolo v5算法在yolo v4的基础上添加了一些新的改进思路，使得其在精度变化不大的情况下，模型大小减少了很多，速度得到了极大的性能提升，具体改进如下包括：

input端的Mosaic数据增强、自适应锚框计算、自适应图片缩放操作；
Backbone端的Focus结构与CSP结构；
Neck端的SPP与FPN+PAN结构；
head(prediction)端的损失函数GIOU_Loss以及预测框筛选的DIOU_nms。

下表是官网贴出的关于不同大小模型以及输入尺度对应的 mAP、推理速度、参数数量以及理论计算量 FLOPs,可以看到模型大小很小、速度较快:

下图为yolov5s的网络结构，它是yolov5系列中深度最小、特征图宽度最小的网络：

CBL模块：由Conv+BN+Leaky_relu激活函数组成；Leaky_relu与relu很相似，仅在输入小于0的部分有差别，relu输入小于0的部分值都为0，而Leaky_relu输入小于0的部分，值为负，且有微小的梯度，在反向传播过程中，对于Leaky_relu激活函数输入小于0的部分，也可以计算得到梯度，从而解决神经元”死亡”问题；

Res unit模块：借鉴ResNet网络中的残差结构，用来构建深层网络，CBL是残差模块中的子模块；

CSP1_X模块：借鉴CSPNet网络结构，将原输入分成两个分支，分别进行卷积操作使得通道数减半，然后一个分支进行Bottleneck * N操作，然后concate两个分支，使得BottlenneckCSP的输入与输出是一样的大小，这样是为了让模型学习到更多的特征；CSP1_X模块由CBL模块、x个Res unint模块以及Conv、Concate、BN、Leaky_relu、CBL组成而成；CSP2_X模块：借鉴CSPNet网络结构，该模块由2 * x个CBL模块和Conv、Concate、BN、Leaky_relu、CBL组成而成；

Focus模块：首先将多个slice结果Concat起来，然后将其送入CBL模块中；

Focus模块在v5中是在图片进入backbone前对图片进行切片操作：具体操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，这样就拿到了四张图片，四张图片互补，将W、H信息就集中到了通道空间，输入通道扩充了4倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道，最后将得到的新图片再经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图：

如上图所示，将每个 2x2的相邻像素划分为一个 patch，然后将每个 patch中相同位置（同一颜色）像素给拼在一起就得到了4个 feature map，然后在接上一个 3x3大小的卷积层。这和直接使用一个 6x6大小的卷积层等效。后来YOLOv5在 v6.0版本后把网络的第一层（ Focus模块）换成了一个 6x6大小的卷积层，因为某些设备不支持focus操作，且不友好，开销很大，另外切片对不齐模型就崩了；

SPP模块：采用1×1、5×5、9×9和13×13的最大池化方式，进行多尺度特征融合；作者做了一些改动，SPP模块将输入并行通过多个不同大小的 MaxPool，然后做进一步融合，能在一定程度上解决目标多尺度问题，SPP模块如下所示：

作者自行设计的SPPF结构是将输入串行通过多个 5x5大小的 MaxPool层，这里需要注意的是串行两个 5x5大小的 MaxPool层是和一个 9x9大小的 MaxPool层计算结果是一样的，串行三个 5x5大小的 MaxPool层是和一个 13x13大小的 MaxPool层计算结果是一样的：

两者的计算结果一模一样，但 SPPF比 SPP计算速度快了不止两倍；

input端

Mosaic数据增强：参考yolo v4

自适应锚框计算： 在YOLO系列算法中，针对不同的数据集，都需要设定特定长宽的锚框。在网络训练阶段，模型在初始锚点框的基础上输出对应的预测框，计算其与GT框之间的差距，并执行反向更新操作，从而更新整个网络的参数，因此设定初始锚点框也是比较关键的步骤；

自适应图片缩放：

针对不同的目标检测算法而言，我们通常需要执行图片缩放操作，即将原始的输入图片缩放到一个固定的尺寸，再将其送入检测网络中；常用的尺寸包括416416，608 608等尺寸；由于在实际的使用中的很多图片的长宽比不同，因此原始的缩放填充方法之后，两端的黑边大小都不相同，然而如果填充的过多，则会存在大量的信息冗余，从而影响整个算法的推理速度；为了进一步提升YOLOv5算法的推理速度，该算法提出一种方法能够自适应的添加最少的黑边到缩放之后的图片中；
根据原始图片大小与输入到网络图片大小计算缩放比例：

根据原始图片大小与缩放比例计算缩放后的图片大小：

计算黑边填充数值：

Neck端

FPN+PAN结构：和yolo v4一样，YOLOv4的Neck结构中，采用的都是普通的卷积操作，而YOLOv5的Neck网络中，采用借鉴CSPnet设计的CSP2结构，从而加强网络特征融合能力；

prediction端

Ciou_loss

YOLOv5的损失主要由三个部分组成：

Classes loss，分类损失，采用的是BCE loss，注意只计算正样本的分类损失；
Objectness loss，obj损失，采用的依然是BCE loss，注意这里的obj指的是网络预测的目标边界框与GT Box的CIoU，这里计算的是所有样本的obj损失；
Location loss，定位损失，采用的是CIoU loss，注意只计算正样本的定位损失；

Diou_NMS

参考文献

YOLOv5网络详解

yolov5网络结构

深入浅出Yolo系列之Yolov5核心基础知识完整讲解

如何评价YOLOv5？

目标检测loss总结

仅为学习记录，侵删！

Original: https://blog.csdn.net/panghuzhenbang/article/details/126585215
Author: 胖虎记录学习
Title: 目标检测学习–yolo v5

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687058/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow1（一）全连接神经网络识别mnist数据集

首先我们来介绍一下mnist数据集 MNIST数据集由Yann LeCun搜集，是一个大型的手写体数字数据库，通常用于训练各种图像处理系统，也被广泛用于机器学习领域的训练和测试。M…

人工智能 2023年7月14日
0079
不同的核函数对支持向量机分类性能的影响

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言支持向量机的核函数 * 1、不同核函数在非线性数据集的表现 2、探索核函数在不同数据集上的表现前言…

人工智能 2023年7月1日
0092
filterin

filterin问题在数据处理和分析过程中，我们常常会遇到需要对数据进行筛选或过滤的情况。Filterin问题就是要解决如何根据一定的条件来筛选出符合条件的数据，以便进一步分析或…

人工智能 2024年1月5日
0032
Python-Opencv 图像操作大合集

空域图像操作在空间域对图像可以进行加噪声（椒盐噪声，高斯噪声），对比度增强（直方图均衡化），平滑滤波，锐化 1.1. 加噪声首先是椒盐噪声，究其原理，其实就是随机在图像上将一些…

人工智能 2023年6月20日
00102
OR-Tools求解仓库选址和钢材取料问题

📢作者：小小明-代码实体📢博客主页：https://blog.csdn.net/as604049322📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论！本文链接：https://blo…

人工智能 2023年7月15日
0085
Kaggle Ubiquant Market Prediction 公榜前4（私榜目前1000+）方案 (慢更)

前言 UPDATE：近期股指行情有点变化，变得容易预测了，这些模型反而预测表现差了（不排除代码bug的锅）。距离上次拿到kaggle比赛冠军也有一段时间了，这次集中精力在最后几周…

人工智能 2023年6月19日
0070
池化层通常使用的池化尺寸是多少

池化层通常使用的池化尺寸是多少？在卷积神经网络（Convolutional Neural Network, CNN）中，池化层（Pooling Layer）是一种常见的层级架构。…

人工智能 2024年1月4日
0031
Densely Connected Pyramid Dehazing Network（DCPDN）

简介：本文提出了一种新的端到端单幅图像去雾方法——密连金字塔去雾网络(dcpdn) ，它可以将透射图、大气光和去雾三者结合起来共同学习。通过将大气散射模型直接嵌入到网络中，实现端…

人工智能 2023年7月14日
0058
数学建模学习（79）：Matlab神经网络工具箱使用，实现多输入多输出预测

最近遇到一个比赛题，要做一个预测，而且还是多输出多输出。开始我选择了一个多输入多输出预测算法进行实现。为了拓展，这里再使用神经网络来实现一下。文章目录 * – 一、问…

人工智能 2023年7月12日
0051
我复现的第一个神经网络: LeNet

目录1. LeNet简介2. LeNet实现3. 实验结果Reference 学习深度学习已经有小一年的时间，看了很多视频和书本内容，学习了很多代码，可始终感觉认知不够扎实。结合李…

人工智能 2023年7月13日
0066
Bert相关常见面试题

本文梳理了Bert模型相关的常见面试题 1.self-attention中 Q K T QK^{T}Q K T 相乘代表着的是什么？ 2. self-attention中 Q K …

人工智能 2023年5月31日
0062
《软件测试》实验三：Web应用测试（WEB 功能测试——安居客）

文章目录题目环境配置 * ChromeDriver – 1. 查看自己Chrome浏览器的版本 2. 下载对应版本的ChromeDriver 3. 添加环境变量安…

人工智能 2023年6月30日
00119
【毕业设计】深度学习YOLOv5车辆颜色识别检测 – python opencv

文章目录 1 前言 2 实现效果 3 CNN卷积神经网络 4 Yolov5 6 数据集处理及模型训练 5 最后 1 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统…

人工智能 2023年6月19日
00102
[论文阅读笔记13]Observation-Centric SORT(OCSORT)论文中的公式推导

这篇文章来自CVPR2022, 是我很喜欢的一篇文章, 尝试用更本质的方法优化Kalman滤波. 论文地址: 论文概述这篇文章解决的主要问题是，现有的方法对运动预测都是基于线性…

人工智能 2023年5月26日
0071
spss分析方法-聚类分析

聚类分析是根据研究对象的特征，按照一定标准对研究对象进行分类的一种分析方法。下面我们主要从下面四个方面来解说：实际应用理论思想建立模型 *分析结果一、实际应用聚类分析的目…

人工智能 2023年7月28日
0057
Pandas经典用法：数据筛选之iloc和loc

Pandas 是一套用于 Python 的快速、高效的数据分析工具。它可以用于数据挖掘和数据分析，同时也提供数据清洗功能。本篇目录如下： ; 一、iloc 1.定义 iloc索引器…

人工智能 2023年7月7日
00174

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

目标检测学习–yolo v5

input端

Neck端

prediction端

Diou_NMS

大家都在看