目标检测是计算机视觉任务中的核心问题之一，其有效性在很大程度上取决于损失函数的定义——衡量您的ML模型预测预期结果的准确程度。传统的目标检测损失函数依赖于边界框回归指标的聚合，例如预测框和真实框（即GIoU、CIoU、ICIoU等）的距离、重叠区域和纵横比。然而，迄今为止提出和使用的方法都没有考虑期望的地面盒和预测的”实验”盒之间不匹配的方向。这种不足导致收敛速度较慢且效率较低，因为预测框可能在训练过程中”四处游荡”并最终产生更差的模型。在本文中，提出了一种新的损失函数SIoU，其中考虑到所需回归之间的向量角度，重新定义了惩罚指标。应用于传统的神经网络和数据集，表明 SIoU 提高了训练的速度和推理的准确性。在许多模拟和测试中揭示了所提出的损失函数的有效性。特别是，将SIoU应用于COCO-train/COCO-val与其他损失函数相比，提高了+2.4% (mAP@0.5:0.95) 和+3.6%(mAP@0.5)。

Introduction

目标检测是计算机视觉任务中的关键问题之一，因此几十年来它受到了相当多的研究关注。很明显，要解决这个问题，需要在神经网络方法可接受的概念中定义问题。在这些概念中，所谓的损失函数（LF）的定义起着重要作用。后者作为一种惩罚措施，需要在训练期间最小化，并且理想情况下可以将勾勒出对象的预测框与相应的真实框匹配。为对象检测问题定义LF有不同的方法，这些方法考虑到框的以下”不匹配”度量的某种组合：框中心之间的距离、重叠区域和纵横比。最近 Rezatofighi 等人。声称广义 IoU (GIoU) LF 优于其他标准LF的最先进的对象检测方法。虽然这些方法对训练过程和最终结果都产生了积极影响，但我们认为仍有很大改进的空间。因此，与用于计算地面实况和模型预测图像中对象的边界框不匹配的惩罚的传统指标并行——即距离、形状和 IoU，我们建议还要考虑不匹配的方向。这种添加极大地帮助了训练过程，因为它导致预测框相当快地漂移到最近的轴，并且随后的方法只需要一个坐标X或Y的回归。简而言之，添加角惩罚成本有效地减少了总度数自由。

Methods

让我们定义应该有助于 SCYLLA-IoU (SIoU) 损失函数估计的指标。 SIoU 损失函数由 4 个代价函数组成：

Angle cost
Distance cost
Shape cost
IoU cost

Angle cost

图 1. 计算角度成本对损失函数的贡献的方案。

添加此角度感知LF组件背后的想法是最大限度地减少与距离相关的”奇妙”中的变量数量。基本上，模型将尝试首先将预测带到X或Y轴（以最接近者为准），然后沿着相关轴继续接近。为了实现这一点，收敛过程将首先尝试最小化

如果

否则最小化

为了首先实现这一点，我们引入并定义了LF组件，方法如下：

Angle cost的曲线如图2所示。

Distance cost

考虑到上面定义的Angle cost，重新定义了Distance cost：

可以看出，当 𝛼 → 0 时，Distance cost的贡献大大降低。相反 𝛼 与Π/4越接近，𝛥贡献越大。随着角度的增加，问题变得更加困难。因此，随着角度的增加，γ被赋予时间优先的距离值。请注意，当 𝛼 → 0 时，距离成本将变得常规。

Shape cost

图3. 计算地面实况边界框与其预测之间的距离的方案。

Shape cost被定义为：

𝜃的值定义了每个数据集的Shape cost及其值是唯一的。𝜃的值是这个等式中非常重要的一项，它控制着对Shape cost的关注程度。如果𝜃的值设置为1，它将立即优化形状，从而损害形状的自由移动。为了计算𝜃的值，对每个数据集使用遗传算法，实验上𝜃的值接近4，作者为此参数定义的范围是2到6。在地面实况边界框及其预测之间。

图4. IoU 组件贡献关系示意图。

最后让我们定义损失函数

Training

为了评估所提出的损失函数的有效性，该模型在COCO数据集上进行了训练，该数据集包含200+K图像，标记有150万个对象实例。为了比较训练效果，我们使用提出的SIoU和最先进的 CIoU损失函数对300个epoch的COCO-train进行了训练，并在COCO-val上进行了测试。

Simulation Experiment

正如[CIoU论文]提出的，使用模拟实验来进一步评估回归过程。在模拟实验中，边界框之间的大部分关系都涵盖了距离、比例和纵横比。特别是，选择了7个单元框（即每个框的面积为 1），具有不同的纵横比（即 1:4、1:3、1:2、1:1、2:1、3:1 和4:1) 作为目标框。不失一般性，7个目标框的中心点固定在(10, 10)。锚框均匀分布在5000个点上（见图 5）。(i)距离：在以 (10, 10)为中心、半径为3的圆形区域内均匀选择5000个点来放置具有7个比例和7个纵横比的锚框。在这些情况下，包括重叠和非重叠框。 (ii)比例：对于每个点，锚框的面积分别设置为 0.5、0.67、0.75、1、1.33、1.5 和 2。 (iii) 纵横比：对于给定的点和比例，采用7个纵横比，即遵循与目标框相同的设置。所有5000 ×7 ×7的锚框都应该适合每个目标框。综上所述，总共有1715000 =7 ×7 ×7 ×5000个回归案例。

图 5. 以 (10,10) 为中心的模拟 5000 个锚框的摘要图像。

总最终误差按以下方式定义：

具有步进学习率调度器的Adam优化器用于训练。步进学习的初始学习率和步长分别设置为0.1和80。训练持续了100个epoch。

Implementation test

最终的损失函数由两项组成：分类损失和框损失。

其中

是焦点损失,

和

分别是框和分类损失权重。为了计算

、

、𝜃，使用了遗传算法。为了训练遗传算法，从训练集中提取一个小子集并计算值，直到发现适应值小于阈值或过程超过最大允许迭代次数。

Results and Discussion

图6. 模拟示例显示放置在轴上的框与远离轴的框的收敛。显然是 SIoU 方法。

一个简单的测试我们比较了两种收敛情况——当初始框放置在其中一个轴上时（参见图 6，右窗格）和当框远离轴时（参见图 6，左窗格）。显然，当初始预测框远离地面实况框的X/Y轴时，SIoU 控制训练的优势变得更加明显：SIoU训练在495个epoch内收敛到地面实况，而传统的CIoU没有找到它，即使在1000个epoch中。

图7. CIoU 和 SIoU 的 1715000 个模拟案例的总误差曲面图。

图7包含CIoU和SIoU的仿真实验图。所有1715000个回归案例都汇总在3D图中，其中X和Y轴是框中心点的坐标，Z是误差。如您所见，建议的SIoU损失的最大误差几乎比CIoU小两个数量级。另请注意，在SIoU的情况下，误差表面要平滑得多，这表明SIoU的总误差对于所有模拟情况都是最小的。

图 8. 通过训练迭代绘制来自 CIoU 和 SIoU 损失的误差。

图8展示了CIoU和SIoU驱动训练的另一个比较结果。对于SIoU，总误差对迭代的依赖性要大得多，最终值也较低。

为了评估SIoU的效率，我们还比较了它对我们专有的Scylla-Net神经网络的影响。 Scylla-Net 是一种基于卷积的神经网络，它使用遗传算法为给定预定义层类型的特定数据集定义其架构。在模拟不同尺寸的暗网模型时，我们使用了两种尺寸的小模型：Scylla-Net-S和大模型：Scylla-Net-L。

图9. 使用建议的SIoU和广泛使用的CIoU损失函数在COCO-train数据集上训练期间监控的参数。

对于全功能测试，我们训练了模型并监控了300轮训练的所有参数。相应的图如图9所示。显然，所有监控的指标不仅在训练期间显着提高，而且达到更好的最终值。

即COCO-val上损失函数的mAP为52.7% mAP@0.5:0.95（包括预处理、推理和后处理为 7.6ms）和70% mAP@0.5，而CIoU损失分别仅为50.3%和66.4%。更大的模型可以达到57.1% mAP@0.5:0.95（12ms 包括预处理、推理和后处理）和74.3% mAP@0.5，而其他架构如Efficient-Det-d7x、YOLO-V4和YOLO-V5可以达到最大mAP@0.5 ：分别为 54.4% (153ms)、47.1% (26.3ms) 和 50.4%（使用 fp16进行6.1ms 测试）的0.95。请注意，YOLO-V5x6-TTA在COCO-val上可以达到约55%，但推理时间非常慢（浮点精度为16时约为72ms）。图10总结了不同模型与mAP@0.5:0.95的推理时间。显然，Scylla-Net的mAP值较高，而模型推理时间远低于比较模型的推理时间。

图10.不同模型相对于mAP@0.5:0.95 的每张图像推理时间。

表1. 使用CIoU损失、SIoU和SIoU训练的Scylla-Net的mAP指标比较应用于更大的Scylla模型

最后，为了评估模型性能的改进，我们通过使用SIoU训练的Scylla-Net运行不同模型/方法呈现的样本图像。图11给出了一些示例。注意比较模型的假阴性和报告概率的差异。

Conclusion

在本文中，提出了一种新的边界框回归损失函数，可以极大地改善目标检测算法的训练和推理。通过在损失函数成本中引入方向性，与现有方法（例如CIoU损失）相比，在训练阶段实现了更快的收敛，并且在推理方面具有更好的性能。所提出的改进有效地降低了自由度（一个坐标对两个），并且收敛更快、更准确。与广泛使用的最先进的方法和报告的测量改进相比，这些声明得到了验证。所提出的损失函数可以很容易地包含在任何对象检测管道中，并将有助于实现卓越的结果。

Original: https://blog.csdn.net/m0_53232749/article/details/125018886
Author: 刘可乐呀
Title: 【最新损失函数SIOU全文翻译】超越YOLO-V5等先进模型提高了+3.6%

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617537/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow2的GPU版本安装

一、安装Anaconda与Python 详情直接参考我的这篇文章Anaconda安装与配置二、安装CUDA 1.首先查看本机GPU对应的cuda版本，如下图所示，本机cuda版本…

人工智能 2023年5月26日
0078
ImportError: cannot import name ‘container_abcs‘ from ‘torch._six‘

我的报错如下：下面两个错误也可以参考这个解决办法 ImportError: cannot import name ‘container_abcs’ fro…

人工智能 2023年7月20日
0094
预训练模型–GPT

why预训练+finetune 目前在nlp领域，比较流行的一种方式就是”pretrain+finetune”为什么是这种模式呢？在nlp领域大量数据是无…

人工智能 2023年5月28日
00113
基于pytorch实现Resnet对本地数据集的训练

本文需要具备python编辑器和pytorch深度学习框架的语句基础知识目录文章目录前言一、dataset.py文件二、network.py文件三、train.py 结…

人工智能 2023年6月25日
0092
4、nerf（pytorch）

简介 2020年ECCV最佳论文Neural Radiance Field (NeRF) 将三维场景的隐表示方法推向了新的高度，其本质在于利用神经网络通过多视角2D图像进行3D场景…

人工智能 2023年7月20日
0044
对plot_surface()以及meshgrid()的详细理解

如果你想用python绘制一个3D图，你肯定会见过下面这部分代码： fig = plt.figure(figsize=(12, 8)) ax = Axes3D(fig) 指定间隔 …

人工智能 2023年7月5日
00117
机器学习实战（一）——员工离职预测

文章目录员工离职预测——逻辑回归的应用 * 1 读取文件 2 独热编码 3 划分数据集 4 归一化 5 逻辑回归预测 6 模型预测及评估员工离职预测——逻辑回归的应用开始这个…

人工智能 2023年7月28日
0092
偏最小二乘法（PLS）Python代码

说明：本文不讲解PLS算法，需要对该算法有一定基础，只提供python代码，包含计算过程、可视化画图、多元高次优化、评价函数。调用方法和参数请见代码最后注释。PLS 网上并没有找到…

人工智能 2023年6月15日
0083
原创：Tensorflow1.0GPU版本最全最详细的安装(转载请标明出处)

全网Tensorflow1.0GPU版本最全最详细的安装关于Tensorflow 电脑配置具体安装 * 所有安装包对应版本所需要的安装包 – 详细安装步骤 1、安…

人工智能 2023年5月26日
0068
2020 智能零售领域最具商业合作价值企业盘点

” 点赞+在看+分享本篇文章到朋友圈，截图发送给数据猿小编（ID：datayuanfw1）即可进入数据猿核心读者群，并获现金红包1份。提示：添加小编微信，需注明公司、…

人工智能 2023年6月4日
0080
Python 深拷贝和浅拷贝详解

浅拷贝，指的是重新分配一块内存，创建一个新的对象，但里面的元素是原对象中各个子对象的引用。深拷贝，是指重新分配一块内存，创建一个新的对象，并且将原对象中的元素，以递归的方…

人工智能 2023年7月5日
0067
2022年ccpc威海站

这一套题将会是我本学期刷的最后一套题，明天就要打icpc西安站了，打完就滚去准备六级和期末考试了，希望自己明天的比赛能够顺利！ A. Dunai 题目链接：Problem &#82…

人工智能 2023年6月30日
0059
基于批量OCR分析中传研究生录取名单

中国传媒大学一直是我向往的高校，但是众所周知中国传媒大学研究生录取是十分不透明的，复试参考资料、往年真题、报录比等等都不公开，官网的研究生录取名单是图片形式的，无法直接用网页搜索工…

人工智能 2023年6月11日
0063
基于 Python 的全国空气质量监测与可视化分析平台

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 项目背景空气质量优劣程度与一个城市的综合竞争力密切相关,它直接影响到投资环境和居民健康,因此越…

人工智能 2023年6月16日
0088
Pytorch中更改预训练权重文件的下载位置

目录 1. 参考链接 2. 更改方法 3. 一个小技巧参考链接 Pytorch更改预训练权重下载位置 pytorch———修改预训练模型下载路径更改方法在线加载的预训练权重 …

人工智能 2023年7月23日
00206
kaldi nnet模型的decode流程解析

文章目录前言 1、特征提取 * 1-1 filter bank特征计算 1-2 cmvn处理 1-3 拼帧 2、nnet-forward 3、解码生成词图(lattice) 前言…

人工智能 2023年5月25日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【最新损失函数SIOU全文翻译】超越YOLO-V5等先进模型提高了+3.6%

Angle cost

Distance cost

Shape cost

大家都在看