论文开始指出yolov7已经超过了我们所熟知的目标检测网络，比如像YOLOV7-E6，在V100的GPU上速度达到56FPS，AP为55.9%，超越了基于transformer的目标检测网络SWINL Cascade-Mask RCNN,还有ConvNeXt-XL网络。YOLOV7还超过了YOLOR、YOLOX、YOLO5等等，反正就是超越了一切，就是牛。

论文也附上了源码：https:// github.com/WongKinYiu/yolov7

接下来论文又继续说目标检测的一些应用方面的问题还有在边缘嵌入式上的算法开发，比如MCUNet、NanoDet都是在低功耗下在CPU上提升speed，还有YOLOX、YOLOR。如今大多数实时检测网络主要聚焦在高效的网络结构上(其实就是类似轻量化网络呗)，像MobileNet、ShuffleNet、GhostNet网络等，这些主要是在CPU上，在GPU上有ResNet，DarkNet,DLA，CSPNet等去优化结构。而YOLOv7说是提出的方法与这些主流的网络是不同的。除了网络结构的优化以外，论文提到还将侧重于训练过程，这可能会 增加训练期间的负担，但不会增加推理的负担，论文中将以上所述的提出的modules和一些优化方法称为 可训练的bag-of-freebies.这个词其实在yolov4论文中也出现过。

自 模型重参数(model re-parameterization)和 动态标签匹配(dynamic label assignment)提出，目标检测训练在中也遇到了新的问题。在yolov7这篇论文中会针对遇到的问题也给出解决方案。论文中说到，可利用 梯度传播路径(gradient propagation path )的概念分析了适用于 不同网络层的模型重参数化策略，并提出了 计划的重参数化模型。针对动态标签匹配(dynamic label assignment)，当网络具有多个输出层的训练中会有新的问题，这个问题是如果针对不同分支的输出分配动态目标？针对这个问题，作者提出了一个新的标签匹配策略，该方法被称之为由 粗到细的引导标签分配策略(coarse-to-fine lead guided label assignment)【不知道翻译的对不对】。

文章的贡献可以总结为以下几点：

(1)提出了几种可用于训练的方法，这些方法仅仅会增加训练上的负担用于提升model性能，而不会增加推理负担；

(2)针对目标检测的发展，作者发现了两个问题(不过好在作者也提出了解决办法)：①模型重参数如何高效替待原始模型；②针对不同的输出层，标签动态分配应该怎样分配；

(3)作者针对目标检测可以更有效的利用参数和计算问题，提出了”扩展”(extend)和”复合缩放”(compound scaling)；

(4)提出的方法可以有效的减少40%参数量和50%的计算量，高精度高速度。

2.相关工作方面：

目前比较先进的目标检测网络是yolo系列还有FCOS网络，通常来讲，先进的网络应该具有以下特性：(该论文主要从4，5，6入手)

1.更快更有效的网络；

2.更有效的特征集成方法；

3.更准确的检测方法；

4.更有鲁棒性的 损失函数；

5.更有效的 标签匹配方法;

6.更有效的 训练方法；

模型重参数

模型重参数化技术在推理阶段将多个计算模块合并为一个。可以将模型重参数技术视为一种 集成技术(can be regarded as an ensemble technique )。主要分为两类，模块集成和模型集成。为了获得最终的推理模型，模型级重参数有两种常见的做法，一种是 用不同的训练数据训练 多个相同的模型，然后平均多个训练模型的权重。另一种是 对不同迭代次数下(就是不同epoch下)的模型权重进行加权平均。模块集成在整个训练期间 将一个模块拆分为多个相同的或者不同的模块分支，并 在推理期间将多个分支模块集成为完全等效的模块。然而，并不是所有提出的 重参数化模块都可以完美地应用于不同的结构。鉴于此，作者开发了 新的重参数化模块，并为各种架构设计了相关的应用策略。

模型缩放

模型缩放是一种放大或 缩小已设计模型并使其适合不同计算设备的方法【就是yolov5和yolox可以设置网络的宽度和深度】。比如在输入图像的分辨率、网络深度、网络宽度等，从而在网络参数量、计算、推理速度和准确性方面实现良好的权衡。网络结构搜索 （NAS）是常用的模型扩展方法之一，NAS可以从搜索空间自动搜索合适的缩放因子(scaling factors)，但是这也有缺点，就是需要花费”昂贵”的计算量去完成模型缩放因子的搜索。有些研究人员分析了 缩放因子与参数和操作数量之间的关系，试图直接估计一些规则，从而获得模型缩放所需的缩放因子。如DenseNet或VoVNet，在缩放此类模型的深度时，会改变某些层的输入宽度。

3.网络结构

3.1扩展高效层聚合网络(Extended efficient layer aggregation networks)

一般针对高效网络结构，主要考虑 参数量和 计算量以及 计算密度。从内存访问成本角度来看，网络的输入输出，通道，网络的分支结构等都会影响神经网络的推理速度。同时也有人考虑了卷积层输出张量的数量。图2中的(b)CSPVoVNet是VoVNet的变体，CSPVoVNet除了考虑前面所说的基本设计问题，同时为了使不同层的权重 能够学习更多不同的特征，也考虑了梯度路径。(c)图是ELAN网络，该网络得出了一个结论：通过控制 最短最长梯度路径，深层网络可以有效地学习和收敛。而本文则是在ELAN的基础上提出了E-ELAN，主要的结构如图(d)。

图2

除了保持原来ELAN的设计架构外，E-ELAN还可以引导不同的计算块组来学习更多样化的特性。作者提出采用分组卷积(group convolution)去对 通道和基数(cardinality)进行扩展。将对计算层的所有 计算块(computational blocks)应用相同的组参数和 通道乘法器(channel multiplier)。然后，每个计算块计算出的特征映射将根据设置的分组参数g被shuffled为g组，然后将它们连接在一起。此时，每组特征图中的通道数将为与原始架构中的通道数相同【这里说的此时，指的是经过分组卷积后再拼接后的总通道数】。除了保持原始ELAN设计架构外，E-ELAN还可以引导不同的计算块组学习更多不同的特征。

3.2 针对串联模型的模型缩放

模型 缩放的主要目的是调整模型的某些属性，并 生成不同比例的模型，以满足不同推理速度的需要【像V5和YOLOX】。上述方法主要用于PlainNet或ResNet等体系结构。当这些架构执行放大或缩小时，每层的入度和出度【in-degree and out-degree】都不会改变【这里的入度和出度没懂什么意思，指网络的输入和输出？】，因此可以独立分析每个比例因子对参数和计算。然而，如果将这些方法应用于基于串联的架构，我们会发现当 对深度进行放大或缩小时，紧接在基于连接的计算块之后的平移层(translation layer)的入度将减小或增加，如图3（a）和（b）所示。

从图中可以看出，当对模型深度加深的时候，网络的宽度也改变了。这种现象将导致 后续传输层的输入宽度增加。所以作者提出了(c)中的网络。在执行模型缩放时， 只需要缩放计算块中的深度，传输层的其余部分则使用相应的宽度缩放。

其实这里的缩放是和yolov5、yolox一样的，直接用这个去理解这部分内容即可。就是可以针对不同的应用场景，选择不同深度和宽度的模型来使模型表现尽可能的好。

4.可训练的赠品礼包(bag-of-freebies)【这种freebies就是指训练与预测的解耦】

这里需要插入一下RepConv结构图，方便进一步了解YOLOv7网络结构。该结构是采用了VGG风格进行搭建的，采用了重参数化技术，因此叫RepVGG。(A)是ResNet结构，最上面的部分的identity采用了1 * 1卷积，而RepVGG大体结构与ResNet相似，(b)图中只是展示了5个stages中的一个，网络在每个stage开始的时候，与ResNet一样，均会有一个3 * 3步长为2的下采样，同时也有一个1 * 1 的identity，在后三层卷积中不仅有11的identity，还有一个无卷积的直接进行特征融合的identity。但是！在测试阶段，会把这些连接全部去掉，就变成了一个单一的VGG结构，这种操作也被称为训练与预测的 解耦合*。

4.1卷积重参化

RepConv在VGG上的表现非常不错，但当把该卷积应用于ResNet、DenseNet和其他网络结构时，准确率会有所下降。作者利用梯度传播路径去进行分析，如何将卷积重参应用到不同的网络中。RepConv实际上 将3×3卷积、 1×1卷积与本身连接组合在一个卷积层中。但是作者发现，RepConv中的identity connection会破坏ResNet和DenseNet结构。因此，作者在卷积重参化的结构设计中，剔除了RepConv中的identity connection。

4.2 Coarse for auxiliary and fine for lead loss

（这个标题就是在说辅助head用粗soft label，lead head用细soft label，下面会解释什么是粗和细label【只是个人理解】）

深度监督技术常常用来做深层网络的训练，它主要是在网络中间部分添加了 额外辅助头(extra auxiliary head)，并用辅助损失指导的浅层训练。深度监督技术可以很明显的提升诸如ResNet、DenseNet网络性能。

上面的(a)图中正常的网络，【大概看看这个网络结构，像不像之前的yolo系列，8x、16x、32x分别是从backbone出来的，最后有三个head进行检测】。(b)中的结构是有辅助头的【auxiliary head】，即在FPN三个特征层 上采样中用添加的这个辅助头。(c)为通常的独立标签匹配结构【这个结构就是每个 head输出与ground truth匹配后的结果(后面说的soft label过程)，再 与head的输出之间建立损失函数，同时也能看出辅助head和正常的head之间没有联系，是独立的】，(d)是作者提出的一个lead head指导匹配结构，与(c)不同的是，将head与辅助head之间产生了联系，在保留原有head匹配结构下， 将head与GT label匹配后的输出直接与辅助头直接建立了损失函数。(e)图是一个由粗到细的lead head指导标签匹配(coarse-to-fine lead head guided label assigner)。在本文中，将负责最终 输出的head称为lead head，用于 辅助训练的head称为辅助head。

在过去的时候神经网络训练中，标签匹配通常采用直接 与ground truth进行匹配然后产生hard label【有hard label就会有soft label，有些论文中也称为hard target，其实这也是借鉴了知识蒸馏的思想，hard指代 是就是，不是就是不是，标签形式：(1,2,3…)或(0,1,0,0…)[意思就是要么是猫要么是狗]，而soft是以概率的形式来表示。可理解为 对标签的平滑也即软化，比如像[0.6,0.4]，意思就是有60%的概率是猫，40%的概率是狗，就好像 不会给你非常明确的回答】。现今的研究者中，经常会将网络输出的数据分布【数据分布就是数据概率】通过一定的优化方法等与ground truth进行匹配生成soft label【经过softmax的或者sigmod输出其实就是一种soft label】。作者也举出了例子，比如YOLO中是将预测的bbox与ground truth间的IOU作为soft labl(因为得出来的这个值就是两个box的重叠程度)。”label assigner”指的是将所有预测结果与ground truth生成的iou后的soft label。

在soft label的研究当中，作者也发现了新的问题，”如何给辅助head和lead head分配soft label？”作者也给出了方法，这个就是上面提到的图(d)、(e)，通过lead head预测去指导辅助head和lead head间的标签匹配问题。

lead head指导标签匹配(这一部分也即是细soft label)利用lead head的输出结果与ground truth匹配的结果(IOU得到的soft label)，会通过生成的soft label进行训练过程的优化。这些得到的soft label会被会被用作辅助head与lead head的训练，这是因为 lead head具有很牛的学习能力，所以从它当中得到的soft label 在数据集的数据分布中更具有代表性。此外，可以将上述方法视为一种残差学习【应该是说(d)与(e)的结果有些像残差块的结结构一样】【Furthermore, we can view such learning as a kind of generalized residual learning.】。让浅层的辅助head去学习lead head中的东西【好了，这里我知道他在说啥了，这个作者就是将知识蒸馏中的思想搬到这了，然后给这个过程起名叫lead head指导学习】

由粗到细的lead head指导标签匹配(Coarse-to-fine lead head guided label assigner)同样使用了lead head的预测结果与ground truth生成soft label。只不过这里用到了两种soft label。一种是粗soft label，一种是细soft label【什么叫粗label，什么叫细label，我在这里给大家解释一下看看能不能理解， 首先是细label，网络最终输出的三个head是lead head，会将这部分的预测结果与ground truth生成soft label，网络会觉得这个soft label得到是数据分布更接近真实的数据分布，训练得到的内容更加 “细致”， 再来说说粗label，辅助lead由于是从中间网络部分得到的，他的预测效果肯定是 没有深层网络lead head提取到的数据或者特征更细致，所以辅助lead部分的内容是比较 “粗糙”的，在训练过程中，会将lead head与ground truth的soft label当成一个全新的ground truth,然后与辅助head之间建立损失函数，说白了，就是让辅助head的预测结果也”近似”为lead head】。作者将会在目标检测任务中去优化辅助head的找回率(recall)，这样可以避免训练中一些信息的丢失。对于lead head的输出，作者提到将会从高召回率的结果中去过滤高精度(precision)结果并作为最终的输出【这个操作感觉应该就是去除一些易分类样本，关注困难样本一些，提升性能】。不过也需要注意的是，如果粗label非常接近与细label，可能会产生不好的结果【这里我猜测有两个方面，一是过拟合，二是可能会印象到深层网络效果】，为此作者在解决这个问题的时候，会在解码部分加以限制，对于一些多余的粗正样本(也是正样本，就是涵盖信息没lead head多而已)则不会让其产生soft label。

4.3其他的可训练”工具”

(1)用到了BN层，其目的是在推理阶段将BN层的均值和方差集成到卷积层的偏差和权重中【这里应该就是说的在推理阶段将BN层和卷积层融合，YOLOX也有用到】。(2)YOLOR中的隐式知识(Implicit knowledge)与卷积特征映射相结合的加法和乘法方式【YOLOR论文我没细看，这里我就硬翻译了】：通过在推理阶段进行预计算，可以将YOLOR中的隐式知识简化为向量。该向量可以与之前或后续卷积层的偏差和权重相结合。（3）EMA模型(这个YOLOX也有用到)

5.实验部分

5.1实验步骤

yolov7是在COCO数据集上训练并测试的，没有用预训练模型，完全从头开始，并且也和其他流行网络对比，训练过程中的详细参数在原论文的附录中有。

作者针对边缘GPU、普通GPU和云端GPU分别设计了三种网络，yolov7-tiny、yolov7、yolov7-W6。同时也针对这些basic model可以在不同需求上进行缩放【和yolov5一样】。对于YOLOv7在neck部分进行了缩放，可以对完整的模型在深度和宽度上进行缩放，比如放大后的叫YOLOv7-X。对于YOLOv7-W6的缩放，将会得到YOLOv7-E6与YOLOV7-D6。采用了E-ELAN的YOLOv7-E6将会得到YOLOv7-E6E网络。YOLOV7-tiny是在边缘GPU使用，采用了Leaky ReLU激活函数，其他模型是采用的SiLU激活函数。

5.2基线网络

选择了以前YOLO系列和YOLOR与YOLOV7做对比，训练中的设置是一样的。【这里详细数值我就不说了，反正就知道牛就行了】

5.3与其他流行网络的对比

【具体数值也不说了，就是厉害就行】不过要提一句的是，这里用的分辨率是640或者1280，使用letterbox对图像进行resize的。

后面一些实验上面的东西这里就不再叙述了，都是一些消融实验的对比，有兴趣的可以去看看，或者哪天我可能也会把这部分在详细说说。

论文中有些地方肯定会有翻译不周全的地方，同时也有一些地方也还没思考清楚，后面我在详细看代码的时候会再进行解析，不定时更新，也欢迎大家讨论。

Original: https://blog.csdn.net/z240626191s/article/details/125871263
Author: 爱吃肉的鹏
Title: YOLOv7论文部分解读【含自己的理解】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/649761/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

解放双手！实用高效的语音转文字&文字转语音神器，快来试试~

哈喽大家好，我是菌菌~ 撰写采访稿件，制作会议记录，并在课堂上画出重点。在工作和学习中，我们经常有记笔记、记笔记的需要，但由于演讲者说得太快，无法正确记录，我们经常很匆忙。在这个时…

人工智能 2023年5月27日
0083
一文掌握Pytorch-onnx-tensorrt模型转换

一文掌握Pytorch-onnx-tensorrt模型转换 pytorch转onnx * – 2022.4 2021.6.24———…

人工智能 2023年7月22日
0091
【数据挖掘】时序模式-白噪音-时序图-ADF检验-一阶差分-acf && pacf（2021-11-11

时序模式 2、根据课堂上所讲的概念，编写程序产生以下时间序列数据（时间可以简化用1,2,3. . . . .表示），每种类型数据至少20条数据。并根据自己想法，使用程序画出相应的…

人工智能 2023年7月17日
0053
[目标检测]CenterNet

文章目录 * – + 背景 + 性能 + 模型结构与输出 + 解析目标框（后处理） + 损失函数 + * heatmap * reg * wh * loss 模型四元素…

人工智能 2023年7月22日
0047
【统计学笔记】第十一章一元线性回归

方差分析表和回归分析表的解读各种统计量检验的决策准则各种假设检验的假设的建立第十一章一元线性回归 11.1 变量间的关系的度量 11.1.1 变量间的关系函数关系：设有两个x…

人工智能 2023年6月18日
0069
R语言-假设检验

目录假设检验 * – 假设检验的原理 1. 提出假设 2. 做出决策 3. 表述结果 4. 效应量 1.总体均值的检验 * 1.1 一个总体均值的检验 –…

人工智能 2023年7月15日
0068
机器学习集成模型学习——Stacking集成学习（五）

stacking集成模型示例如下： stacking一般由2层堆叠构成 ; Stacking集成算法思路上图为整体流程，思路如下：把原始数据切分成两部分：训练集 D-train…

人工智能 2023年6月15日
0063
百度API—语音识别及语音合成

一.百度API–语音识别然后，只需单击即可创建应用程序。 [En] Then just click to create the application. 进入此页面后，只需根据自…

人工智能 2023年5月27日
00119
时域卷积网络与蒙特卡洛树搜索相结合的知识图补全模型研究

这个适合第三个方向。。。摘要在知识图谱补全 (KGC)和其他应用程序中，学习如何使用给定查询从源节点移动到目标节点是一个重要问题。它可以表述为给定状态下的强化学习 (RL) 问…

人工智能 2023年6月10日
0072
Linux系统下使用VScode进行编译的相关配置（包括opencv库，eigen库，glog库，boost库）

Linux系统下使用VScode进行编译的相关配置首先进行VMware Ubuntu的安装，详细过程可见如下链接：VMware Ubuntu安装详细过程(新)创建好虚拟机之后进行v…

人工智能 2023年7月19日
0086
论文阅读：VectorNet: Encoding HD Maps and Agent Dynamics fromVectorized Representation

摘要：本文介绍了VectorNet，这是一个层次化的图神经网络，它首先利用了由向量表示的单个道路组件的空间位置，然后对所有组件之间的高阶相互作用进行建模。最近的方法是将运动物体的…

人工智能 2023年6月24日
00116
ThunderNet: Towards Real-time Generic Object Detection on Mobile Devices

文章地址：https://arxiv.org/pdf/1903.11752.pdf本文提出了一种轻量级的两级检测器ThunderNet。在主干部分，提出了一种用于目标检测的轻量级主…

人工智能 2023年7月12日
0060
变形金刚——Transformer入门刨析详解

Transformer是什么呢？ \qquadTransformer最早起源于论文Attention is all your need，是谷歌云TPU推荐的参考模型。\qquad目…

人工智能 2023年7月30日
0069
稀疏矩阵的概念介绍

在机器学习中，如果我们的样本数量很大，在大多数情况下，首选解决方案是减少样本量、更改算法，或者通过添加更多内存来升级机器。这些方案不仅粗暴，而且可能并不总是可行的。由于大多数机器学…

人工智能 2023年6月16日
0060
dataframe小技巧

一.基本操作篇 1.新建自己定义column_name: import pandas as pd df = pd.DataFrame(columns=[‘col1′,’col2’,…

人工智能 2023年7月6日
0067
NOAA气象日监测数据均值计算python代码整理

气象监测数据下载（可下载最新及每日气象数据） NOAA气象日监测数据均值计算python代码整理 PostgreSQL数据库导入EXCEL数据表之前已经介绍了如何下载气象的每日监…

人工智能 2023年7月7日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

YOLOv7论文部分解读【含自己的理解】