目标检测算法 YOLOv7 学习笔记

2023年6月17日上午9:39 • 人工智能 • 阅读 96

论文题目：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

论文链接：https://arxiv.org/pdf/2207.02696.pdf

代码链接：GitHub – WongKinYiu/yolov7: Implementation of paper – YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

YOLOv7

近年来，实时目标检测器仍在针对不同的设备进行开发。例如，YOLOX 和 YOLOR 等方法专注于提高各种 GPU 的推理速度。最近，实时目标检测器的发展集中在高效架构的设计上。另一个主流的实时目标检测器是针对 GPU 开发的，它们大多使用 ResNet、DarkNet 或 DLA 作为主干网络，然后使用 CSPNet 策略来优化架构。YOLOv7 方法的发展方向与当前主流的实时目标检测器不同。除了架构优化之外，YOLOv7 还专注于优化训练过程，重点放在一些优化模块和优化方法上，它们可能会增加训练成本以提高目标检测的准确性，但不会增加推理时间。具体来说，YOLOv7 介绍了一些新发现的问题，并针对这些问题设计了有效的解决方法。对于模型重参数化，首先用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略，并提出了重参数化模型。此外，使用动态标签分配策略时，具有多个输出层的模型的训练会产生新的问题，即如何为不同分支的输出分配动态目标，针对这个问题，提出了一种新的标签分配方法，称为从粗到细的引导式标签分配。

网络结构

扩展的聚合网络

在大多数设计高效架构的文献中，考虑因素主要为参数的数量、计算量和计算密度。作者提出的E-ELAN 使用扩张、打乱等操作来实现在不破坏原有梯度路径的情况下不断增强网络的学习能力。在架构方面，E-ELAN 只改变了计算块的架构，策略是使用组卷积来扩展卷积的通道数。首先对计算层的所有卷积应用相同的组参数和通道乘数。然后，每个卷积计算出的特征图会根据设置的组参数g 被打乱成 g 个组，再将它们连接在一起。因此，每组特征图的通道数将与原始架构中的通道数相同。

基于拼接模型的模型缩放策略

模型缩放的主要目的是调整模型的一些属性，生成不同大小的模型，以满足不同推理速度的需求。作者发现，对基于拼接 (concat) 模型的深度放大或缩小时，模型的宽度会随之增大或减小，如图 1 中的 (a) 和 (b) 所示。

图 1 基于拼接的模型缩放

因此，必须为基于拼接的模型提出相应的复合模型缩放方法。当缩放一个计算块的深度因子时，还必须计算该块的输出通道的变化。然后对过渡层进行等量变化的宽度因子缩放，结果如图 1 (c) 所示。

计划重参数化卷积

在提出的计划重参数化模型中，作者发现一个带有残差或拼接连接的层，该层中的 RepConv 不应该有恒等连接。在这些情况下，它可以被不包含恒等连接的 RepConvN 替换。

图 2 计划重参数化模型

由粗到细的监督信息

深度监督是一种常用于训练深度网络的技术。它的主要概念是在网络的中间层添加额外的辅助头。即使对于像 ResNet 和 DenseNet 这样通常收敛良好的网络，深度监督仍然可以显着提高模型在许多任务上的性能。图 3 (a) 和 (b) 分别显示了没有和有深度监督的目标检测器结构。在此，将负责最终输出的 head 称为 lead head，用于辅助训练的 head 称为 auxiliary head。

图 3 辅助头和主导头的标签分配

在以前的深度网络训练中，标签分配通常根据给定的规则直接将 GT 生成标签。然而，近年来，以目标检测为例，研究人员往往会利用网络预测输出的质量以及 GT 并使用一些计算和优化方法来生成可靠的标签。目前最流行的方法如图 3 (c) 所示，就是将辅助头和主导头分离开来，然后利用各自的预测结果和 GT 进行标签分配。YOLOv7 提出了一种新的标签分配方法，该方法使用主导头预测的结果作为指导来生成由粗到细的分层标签，这些标签分别用于辅助头和主导头地学习。YOLOv7 提出的两种深度监督标签分配策略分别如图 3 (d) 和 (e) 所示。

图 3 (d) 主要根据主导头的预测结果和 GT 计算并生成标签。这样做的原因是因为主导头具有较强的学习能力，所以由它生成的标签应该更能代表源数据和目标之间的分布和相关性。此外，还可以将这种学习视为一种广义残差学习。通过这种方式进行学习，主导头能更关注残差信息。

图 3 (e) 也使用了主导头的预测结果以及 GT 来生成标签。然而，这个过程生成了粗标签和细标签，其中细标签用于监督主导头，而粗标签则监督辅助头。在辅助头的训练中，通过放宽正样本分配过程的约束 (比如，假设主导头为每个 GT 分配 5 个正样本，而辅助头则分配 10 个正样本；主导头中对前 10 个最大 IOU 值求和取整，而辅助头则求前 20 个)，将更多的点视为正样本。这样做的原因是辅助头的学习能力不如主导头强，为了避免丢失需要学习的信息，作者重点优化辅助头的召回率。

正负样本分配策略

YOLOv7 的正负样本分配策略为 YOLOv5 与 YOLOX 样本分配策略的结合体，步骤如下：

（1）将 GT 与 anchors 进行比较，如果它们的宽高比在一定范围内，则将 GT 与该层特征图中的anchors 匹配。随后将像素点均分为四小块，计算 GT 中心点处于哪个小块，将最接近该小块的两个像素点上的 anchors 也视为候选正样本；

（2）计算候选正样本与 GT 之间的 IOU，取前 K 个最大 IOU 的值并求和取整，这个整数 N 表示与该 GT 匹配的正样本个数；

（3）计算每个候选正样本的损失 (包括回归损失和分类损失，类似于 YOLOX 的 SimOTA) ，从候选正样本中选取前 N 个损失最小的样本为最终的正样本。

训练中用到的 tricks

（1）直接将 batch normalization layer 连接到 convolutional layer，这样做的目的是在推理阶段将批归一化的均值和方差整合到卷积层的偏置和权重中。

（2）YOLOR 中的隐式知识可以在推理阶段通过预计算简化为向量，该向量可以与前一个或后一个卷积层的偏置和权重相结合。

（3）指数移动平均 (EMA) 模型：EMA 是一种在 mean teacher 中使用的技术。

这些 tricks 会在附录中详细介绍 (目前还没有附录)。

实验

与 SOTA 目标检测方法的性能对比如图 4 所示

图 4 性能对比

模型缩放策略和重参数化的消融实验结果分别如图 5 和 6 所示

图 5 模型缩放消融实验

图 6 模型重参数化消融实验

图 6 中的 a、b、c、d、e 代表不同的重参数化位置，位置如图 7 所示。

图 7 模型重参数化的位置

补充

FCOS采样策略

（1）首先把GT 内的像素点设为正样本点，并求出正样本点 (x,y) 到GT 四条边的距离，如图 8 所示；

图 8

（2）进一步筛选正样本点，

则把这些点视为负样本点。

FoveaBox 采样策略

（1）由于目标边界框附近的点远离目标的中心，且与背景像素更为接近，如果将其设为正样本点，会对模型的训练造成困难。因此作者使用了一个简单的变换，通过GT 得到目标中心在特征图中对应的位置，然后通过参数来调节目标所在边界框的宽和高，将其缩小一点，把收缩后的边界框内部的点作为正样本点，如图 9 所示；

图 9

（2）给每层特征设置一个相应的目标尺度范围，若某个 GT 不在该尺度范围内，则把在该 GT 以及相应的正样本点删除。

ATSS 采样策略

（1）对于FPN 输出的每层特征图，计算每个anchor 的中心点和GT 中心点的L2 距离，选取前K 个距离最小的anchor 为候选正样本；

（2）计算每个候选正样本和GT 之间的IoU ，并求这组IoU 的均值和方差；

（3）根据均值和方差，设置选取正样本的阈值：

；

（4）从候选正样本中选择 IOU 大于阈值且中心点在GT 内的anchor 作为最终用于训练的正样本。

伪代码如图 10 所示。

图 10

参考

yolov7正负样本分配详解 – 知乎

Original: https://blog.csdn.net/qq_38964360/article/details/125962359
Author: Cassiel_cx
Title: 目标检测算法 YOLOv7 学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/629566/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基本的图像操作和处理（计算机视觉）

文章目录一、图像的灰度变换 * 原理介绍：代码示例：结果展示：二、图像轮廓和直方图 * 1.图像轮廓 2.直方图处理 – 原理介绍直方图的性质 3.代码示例 …

人工智能 2023年6月22日
0073
音频文件格式转换python实现——flac转wav

在做语音相关工作时，经常会遇到要转换音频文件格式。读取音频格式有很多python库，比如librosa、scipy.io.wavfile、soundfile、pydub等等，但是笔…

人工智能 2023年5月27日
0068
加载pytorch已有模型，修改最后分类头

在加载pytorch已有模型的时候，我们必须要明确的事情: 1 如何获取到pytorch所提供的模型，通过什么方式。2 模型的结构，也就是模型的每个层的名字（key）。3 我们要把…

人工智能 2023年7月1日
0071
基于医疗知识图谱的问答系统运行步骤-注意事项

本项目下载的是中科院刘焕勇的源码 https://github.com/liuhuanyong/QASystemOnMedicalKG 下载后如何运行的步骤方法：（1）安装neo…

人工智能 2023年6月1日
0067
Pytorch CIFAR10图像分类 MobileNet v1篇

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月13日
0035
SPSS软件的数据分析与GDP和人口老龄化的预测

目录前言问题二模型的建立与求解1.2.1 ARIMA时间序列模型的建立与求解平稳性检验的时间序列预测模型的建立与求解模型的检验对于的时间序列预测模型的建…

人工智能 2023年6月19日
0063
【PyTorch_VGG16】Pytorch实现VGG16，在Cifar10上做分类，91%精度

实验目的是为后续的转换SNN网络，写一个基础的ANN，所以ANN的结构存在一些限制 1.均没有使用偏置Bias（在Conv2d和Linear） 2.没有使用Batch Norma…

人工智能 2023年6月30日
0098
雷达图-高效数据解读

雷达图又被叫做蜘蛛网图，适用于显示三个或更多的维度的变量。大家最熟悉的莫过于游戏中的数据分析（如下图）。雷达图是以在同一点开始的轴上显示三个或更多个变量的二维图表形式来显示多元…

人工智能 2023年7月16日
0066
预后建模绕不开的lasso cox回归

欢迎关注”生信修炼手册”! 回归我们并不陌生，线性回归和最小二乘法，逻辑回归和最大似然法，这些都是我们耳熟能详的事物，在生物信息学中的应用也比较广泛, 回归…

人工智能 2023年7月5日
0084
GPS轨迹聚类算法TRACLUS介绍（一）

在自研众包地图方案过程中，作为主机厂，会获得大量的车辆GPS轨迹，这些轨迹信息可是众包地图的重要数据来源之一，整体策略是在图商的底图基础上再结合车辆GPS轨迹进行引导线更新。实际…

人工智能 2023年6月10日
0065
R语言矩阵运算：矩阵转置、计算逆矩阵、两个矩阵的相乘、构建nxn对角（单位）矩阵

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0084
初入神经网络剪枝量化5（大白话）

最近看了很多篇关于剪枝的文章，今天在这里简单介绍一下每一篇的思想。 ①PRUNING FILTERS FOR EFFICIENT CONVNETS : https://…

人工智能 2023年7月13日
0092
【STM32学习】 – JR6001语音播放

目录一：介绍二：模块特征三：应用领域四：硬件参数五：引脚说明六：模块电路接口图七：模块电路实物图一：介绍 JR6001语音播放模块，自带USB接口，能够灵活的更换S…

人工智能 2023年5月27日
0070
ZYNQ图像处理项目——模板匹配数字识别(1)

一、数字识别基础 FPGA全并行运行的特点，特别适合用于图像的处理。数字识别是一项关键技术，是图像识别等的基础，数字识别主要由以下这几种方法。基于模板分类匹配的数字识别算法模版匹配…

人工智能 2023年6月22日
0063
自动驾驶算法详解(3): LQR算法进行轨迹跟踪，lqr_speed_steering_control( )的python实现

前言： LQR算法在自动驾驶应用中，一般用在NOP、TJA、LCC这些算法的横向控制中，一般与曲率的前馈控制一起使用，来实现轨迹跟踪的目标，通过控制方向盘转角来实现横向控制。本文…

人工智能 2023年6月15日
0066
基于CooVally的PCB板缺陷检测

PCB（printed circuit board）是电子元器件的支撑体，也是电子元器件电气相互连接的载体，其技术水平的高低决定了一个国家电子信息产业的配套水平。自半导体晶体管于…

人工智能 2023年7月12日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

目标检测算法 YOLOv7 学习笔记

相关工作

实时目标检测

模型重参数化

模型缩放