目标检测中的预测框回归优化之IOU、GIOU、DIOU、CIOU和EIOU

2023年6月15日下午9:54 • 人工智能 • 阅读 69

点击上方” 码农的后花园“，选择” 星标” 公众号

精选文章，第一时间送达

目标检测分为：目标分类+目标定位两个任务。目标分类就是要对该目标进行分类以确定该目标属于什么类别以及其属于该类别的置信度。目标定位是要在图像中确定目标的位置，输出其在图像中的坐标信息。目标定位依赖一个 边界框回归模块去定位目标。边界框回归是指使用矩形边界框去预测目标对象在图像中的位置，然后不断细化 预测边界框的位置。

不断细化预测的边界框的位置是通过定义边界框回归损失函数、计算回归损失值Loss然后进行反向梯度下降实现的。一开始定义计算边界框回归的损失函数使用的还是基于L1、L2距离范数。基于L1范数定义的边界框损失函数是指预测边界框的四个点P(,)坐标和真实边界框对应的四个点G(,横坐标和纵坐标分别计算绝对值之差然后相加。基于L2范数定义的边界框损失函数是指预测边界框的四个点P(,)坐标和真实边界框对应的四个点G(,)横坐标和纵坐标分别计算平方和之差然后相加。

L1范数和L2范数定义的边界框回归的损失函数Loss都是将 预测的bbox和 真实框bbox的四个点分别求loss值然后相加，并没有考虑靠坐标之间的相关性。

开始之前

注意本文中的用词： 完全重合（预测框和真实框大小一模一样）、部分重合（相交）、水平和垂直方向上的重合（闭包，预测框包含在真实框内部）、不相交（完全不重合）。

1 IOU计算和损失函数

边界框回归损失函数(IoU Loss)，它是将边界框的4个点构成的box看成一个整体进行回归,考虑到了坐标之间的相关性。IoU 的全称为交并比（Intersection over Union），其计算是 “预测的边框” 和 “真实的边框” 的交集和并集的比值,IOU计算公式如下所示：

Iou-loss本身是是从人脸检测的paper引入进来的(https://arxiv.org/pdf/1608.01471.pdf),如下图所示：

在实际使用中，实际很多IoU的损失Loss常常被定义为Loss(IoU) = 1-IoU。它们完全重合时，IoU就是1，那么对于Loss来说，Loss是越小越好，说明他们重合度高，所以IoU Loss就可以简单表示为 1- IoU。

边界框box位置的修正是通过对IOU的损失函数的损失值loss进行反向传播迭代计算的。

IOU回归的优缺点

1.当预测框和真实框完全不相交时，IOU=0，此时损失函数-lnIOU不可导，因此IoU Loss 无法优化两个框不相交的情况。这时的IOU不能反映真实框和预测的边界框距离的远近。也因为不可导，所以没有梯度回传，无法进行下一步训练。
3.IOU Loss解决了L1和L2范数定义的边界框回归损失函数的系列变量(边界框的四个点)相互独立和不具有尺度不变性的两大问题。 相互独立是指L1范数和L2范数定义的损失函数：先独立地求出4个点的损失Loss，然后进行相加，这种做法假设了边界框的4个点是相互独立的，但实际上应该是有一定相关性的，因为边界框的4个点都依赖于同一个目标。 尺度不变性则指基于L1范数和L2范数的大边界框的L2损失通常会大于小边界框的损失，这使得在网络训练过程中，网络会更加注重大边界框的定位，忽视小边界框的定位，最终导致模型对小目标的检测性能比较差。

2 GIOU计算和损失函数

GIOU的诞生就是为了解决IOU定义的损失函数无法优化预测框和真实框不相交的情况、和不知道预测框和真实框如何相交的两个问题。斯坦福学者在2019年的文章《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》中提出了GIOU Loss，在IOU的基础上引入了预测框和真实框的最小外接矩形。

GIOU定义：

如下图，假设紫色A为真实框，B为预测的边界框，则GIOU计算公式如下：

其中蓝色闭包框C为能包含预测框和真实框最小的外接矩形框。这里C \ (A ∪ B)的意思是闭包框C的面积-A∪B的面积所剩余的面积。从计算公式可以看出GIOU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映预测框和真实框的重合度。

GIOU边界框回归损失函数：

GIoU和IoU一样，可以作为损失函数，Loss(GIoU) = 1 – GIoU。我们知道IOU的值域为[0,1],而GIoU有对称区间，取值范围[-1,1]。

GIOU边界框回归的优缺点

1.GIoU能够更好地反映预测框和真实框相交的情况，如下图所示，虽然两种情况下计算得到的IOU一致，但是(a)中两个框相交的更为整齐，因此(a)GIOU要比(b)中大。 GIoU考虑到了 IoU 没有考虑到的预测框和真实框的非重叠区域，能够反映出真实框A,预测框B重叠的方式。

3 DIOU计算和损失函数

基于GIoU的缺点(当预测框和真实框完全重合时，GIOU=IOU，导致此时的边界框回归收敛很慢)，因此DIoU被提出。其论文为：Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression。

DIOU计算公式

d=
DIOU =

其中d表示预测框与真实框中心点的欧式距离，c表示覆盖预测框与真实框的最小闭合框的对角线长度。

DIOU回归损失函数

与IOU、GIoU 定义损失函数loss类似，Loss(DIOU)= 1-DIOU，计算公式如下所示：

DIOU边界框回归的优缺点

1.当预测框和真实框不重叠时，也就是不相交时，DIOU=,可以通过最小化预测框和真实框的两个中心点的距离为预测框提供移动方向。
2.DIoU loss通过最小化预测框和真实框中心点的距离来进行收敛，而GIOU loss优化的是预测框和真实框之间的面积(减少外界包围框的面积)来进行收敛，因此DIOU loss 比GIoU loss回归收敛要快得多。即使预测框和真实框在水平和垂直两个方向上同时重合时(即预测框在真实框内部的时候)，也可以通过最小化中心点的距离，来继续进行水平方向和垂直方向的预测框回归。而此时这种情况下的GIOU=IOU，GIOU损失退化为了IOU损失，基本上很难收敛。
3.DIoU还可以替换普通的IoU评价策略，应用于NMS中，使得NMS得到的结果更加合理和有效。

4 CIOU计算和损失函数

虽然DIOU解决了当预测框和真实框相交(部分重叠)、预测框包含在真实框内部两种情况下的预测框回归收敛问题，但是这都是通过最小化预测框和真实框两个中心点的距离实现的，因此为了加快这两种情况下的预测框回归收敛更快、更准确，因此提出了CIOU。

CIOU计算公式

一个好的目标框回归损失应该考虑三个重要的几何因素：重叠面积、中心点距离、长宽比。预测框和目标框之间的长宽比的一致性也是极其重要的，因此CIOU在DIOU的基础上添加了一个边界框box长宽比的惩罚项,CIOU的损失函数计算公式如下：

CIOU边界框损失函数

CIOU和IOU、GIOU、CIOU损失函数设置一样，因此CIOU的损失函数为Loss(CIOU)=1-CIOU

其中 α是用于平衡比例的参数， v用来衡量预测框和真实框的宽和高之间的比例一致性。b代表预测框，代表真实框，、代表真实框的宽和高，w和h代表预测框的宽和高。

CIOU边界框回归的优点

从CIOU边界框损失函数可以看出，它包含了预测框和真实框重叠区域面积的IOU损失、预测框和真实框中心点之间归一化后的距离损失、预测框和真实框的宽和高的纵横比损失三个部分。CIOU边界框损失函数通过迭代可以将预测框不断向真实框移动，还尽可能的保证了预测框和真实框的宽和高的纵横比更为接近，加快了预测框的回归收敛速度。

CIOU边界框回归的问题(缺点)

CIOU总结：CIOU将边界框的纵横比作为惩罚项加入到边界框损失函数中，一定程度上可以加快预测框的回归收敛过程，但是一旦收敛到预测框和真实框的宽和高呈现线行比例时，就会导致预测框回归时的宽和高不能同时增大或者减少。

5 IOU、GIOU、DIOU、CIOU损失函数对比

由于IoU损失只有在预测框与真实框有重叠的情况下才有效，因此收敛得很慢，得到的预测框与真实框之间的误差也很大；
GIoU损失通过增加预测框的大小慢慢移动到与真实框重叠的区域来帮助处理非重叠的情况，其迭代过程收敛得比较缓慢，尤其是预测框与真实框的纵横比相差很大的时候，这种情况下GIoU回归得到的预测框与真实框之间的误差也比较大。
DIoU 和 CIoU损失可以收敛得比IoU和GIoU更快，特别是CIoU收敛速度和回归的精度都比使用它之前几种损失函数得到的结果更好。

总结

IOU解决了L1、L2初步预测框和真实框三种不同位置和不同区域的相交时的判断，但是没有解决预测框和真实框无法反映相交程度的大小和好坏。当预测框在真实框内部时的不同位置时，IOU是一样的，无法继续优化。预测框和真实框不相交时，IOU=0,也没有办法继续进行优化。
GIOU通过预测框和真实框的最小外接闭包矩形解决了IOU，当预测框和真实框不相交时无法继续优化问题，但是没有解决当预测框在真实框内部不同位置时的优化问题。
DIOU通过直接优化预测框和真实框两个中心点的距离和两个框的最小外接矩形对角线的距离解决了GIOU,当预测框在真实框内部不同位置时的回归收敛问题。
CIOU通过在DIOU的基础上添加了预测框和真实框的宽高纵横比的惩罚项，加快了预测框和真实框回归收敛的速度。

6 EIOU计算和损失函数

CIOU损失，在DIOU损失的基础上添加了衡量预测框和真实框纵横比 v，在一定程度上可以加快预测框的回归速度，但是存在的问题是预测框回归过程中，一旦预测框和真实框的宽高纵横比呈现线性比例时，预测框w和h就不能同时增加或者减少，就不能继续进行回归优化了。

2021年中科院提出了EIOU，论文：《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》， EIOU是在CIOU的惩罚项基础上将预测框和真实框的纵横比的影响因子拆开，分别计算预测框和真实框的长和宽，来解决CIOU存在的问题。

EIOU回归损失函数

CIOU回归损失Loss(CIOU):

EIOU回归损失Loss(EIOU): 目标检测中的预测框回归优化之IOU、GIOU、DIOU、CIOU和EIOU

其中和是覆盖预测框真实框的最小外接框的宽度和高度。

EIOU损失函数公式我们可以看出，EIOU损失函数包含三个部分：预测框和真实框的重叠损失，预测框和真实框的中心距离损失，预测框和真实框的宽和高损失。EIOU损失的前两部分延续CIOU中的方法，但是宽高损失直接使预测框与真实框的宽度和高度之差最小，使得收敛速度更快。

EIOU回归损失的优点

1.将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值，加速了预测框的收敛、提高了预测框的回归精度。

此外在这篇论文《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》中引入的 Focal-EIoU Loss，是指对EIOU损失(Loss(EIOU)中进行加权处理。

Focal-EIoU Loss与 传统的Focal Loss有一定的区别，传统的Focal Loss针对越困难的样本损失越大，起到的是困难样本挖掘的作用；而Focal-EIoU Loss：和真实框IOU越高的，预测框的损失越大。这就相当于加权作用，给越好的回归目标一个越大的损失，有助于提高预测框的回归精度。

因为在目标检测中，大部分最开始根据 预先设定的锚框得到的 预测框都和 ground truth（真实框）的IoU不大，这一部分叫做低质量样本，而在低质量样本上的训练容易造成损失值的剧烈波动。而Focal-EIoU Loss的提出目标便是解决高低质量样本类别不平衡的问题，也就是说减少与真实框重叠较少的大量预先设定的锚框而得到的预测框的损失值，减少其对预测框回归优化过程中的贡献，使预测框回归过程专注于高质量锚框->（也就是和真实框IOU比较大的预先设定的锚框得到的预测框）。

终极总结

预测框回归的三大几何因素：预测框和真实框的重叠面积、预测框和真实框的中心点距离、预测框和真实框的宽和高的纵横比（宽和高的比例、还要考虑宽和高的差异）。

IOU Loss：考虑了重叠面积，归一化坐标尺度；
GIOU Loss：考虑了重叠面积，基于IOU解决边界框不相交时loss等于0的问题；
DIOU Loss：考虑了重叠面积和中心点距离，基于IOU解决GIOU收敛慢的问题；
CIOU Loss：考虑了重叠面积、中心点距离、纵横比，基于DIOU提升回归精确度；
EIOU Loss：考虑了重叠面积，中心点距离、长宽边长真实差，基于CIOU解决了纵横比的模糊定义，并添加Focal Loss解决预测框回归中的样本不平衡问题。

参考资料：

https://blog.csdn.net/c2250645962/article/details/106053242 https://blog.csdn.net/weixin_41560402/article/details/106007224 https://blog.csdn.net/m0_53114462/article/details/117398110 https://blog.csdn.net/qiu931110/article/details/103330107 https://blog.csdn.net/lovep1/article/details/114449861 https://zhuanlan.zhihu.com/p/270663039 https://zhuanlan.zhihu.com/p/416550548 https://zhuanlan.zhihu.com/p/94799295 https://blog.csdn.net/neil3611244/article/details/113794197 https://www.it610.com/article/1453500272809689088.htm https://zhuanlan.zhihu.com/p/375745293 https://mp.weixin.qq.com/s/jMWTFeDh6_0rhCzcYjw7sg https://zhuanlan.zhihu.com/p/266023273 https://zhuanlan.zhihu.com/p/394892530

——The End——

如果觉得有用，就请分享到朋友圈吧！

觉得有用麻烦给个在看啦~

Original: https://blog.csdn.net/weixin_45192980/article/details/123540586
Author: 码农的后花园
Title: 目标检测中的预测框回归优化之IOU、GIOU、DIOU、CIOU和EIOU

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617769/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Tensorflow Lite Model Maker实现图像分类和目标检测迁移学习

博主的此时的环境配置见此前博客 Tensorflow Lite使用介绍_竹叶青lvye的博客-CSDN博客接着前面的博客系列讲，这里来介绍下Tensorflow LIte。Tens…

人工智能 2023年7月10日
00200
R3Live系列学习（二）FAST-LIO源码阅读

在上一篇我们提到，livox雷达给业界内的3D激光领域提供了一大补充，而loam-livox在温柔的使用下表现也还不错，但在比较颠簸激烈的环境下也难以维持高精度，因此lidar与i…

人工智能 2023年6月1日
0084
几种主要的分类预测模型的python代码实现-感知机，支持向量机，决策树和随机森林，人工神经网络

机器学习定义：假设用 P 来评估计算机程序在某任务类 T 上的性能，若一个程序利用经验 E 在任务 T 上获得了性能改善，则我们就说关于 T 和 P, 该程序对 E 进行了学习。经…

人工智能 2023年6月15日
0090
Pytorch机器学习（六）——YOLOV5中的自适应图片缩放letterbox

YOLOV5中的自适应图片缩放letterbox 前言一、letterbox自适应图片缩放技术一，计算收缩比二，计算收缩后图片的长宽三，计算需要填充的像素四，最后resi…

人工智能 2023年6月24日
0076
深度学习之目标检测（十一）–DETR详解

深度学习之目标检测（十一）– DETR详解目录 * – 深度学习之目标检测（十一）– DETR详解 – + 1. 前言 + 2. …

人工智能 2023年6月16日
0066
数据分析pandas

（一）Series （1）结构主要由一组数据与之相关的索引两部分构成。（索引在左，数据在右）（2）多种构造代码方法： 1 . class pandas.Series( data…

人工智能 2023年7月17日
0053
【数据挖掘】贝叶斯网络理论及Python实现

1.理论知识 1.1贝叶斯网络概述贝叶斯网络（Bayesian Network，BN）作为一种概率图模型（Probabilistic Graphical Model，PGD）…

人工智能 2023年7月18日
0055
jena4.1.0安装及使用

jena4.1.0安装及使用 * – 1 jena4.1.0下载安装 – 2 java11下载安装 – 3 jena4测试使用 – …

人工智能 2023年6月1日
0094
【Linux】自动化构建工具-make/Makefile&&第一个小程序

大家好我是沐曦希💕 文章目录一.项目自动化构建工具-make/Makefile * 1.背景 2. 举例 3. 原理 4. 总结 5. 项目清理 6. 习题 – 习题…

人工智能 2023年7月30日
0056
基于ESP32的智能台灯-PWM网页调光-实时时间-OLED显示-语音闹钟-WEB远程操控

具体的项目，我免费分享在我的项目里，供大家参考学习： (1条消息) 基于ESP32的语音智能台灯-智能家居文档类资源-CSDN文库具体的效果图如下，大家可以看一看，我找了些3D打…

人工智能 2023年5月25日
00119
win10+cuda11.4+cudnn8.4+TensorRT-8.4.1.5环境配置

一、安装cuda、cudnn和tensorRT需要下载的文件： cuda11.4下载地址： CUDA版本列表 cudnn下载地址： CUDNN版本列表 tensorRT下载地址： …

人工智能 2023年6月26日
0071
YOLOv7全文翻译

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors…

人工智能 2023年7月27日
0072
【目标检测-YOLO】YOLOv5-v5.0-yolov5s网络架构详解（第一篇）

1. 前言源码：GitHub – ultralytics/yolov5 at v5.0 由于YOLO v5 代码库在持续更新，如上图，有多个版本，每个版本的网络结构不…

人工智能 2023年6月23日
0079
使用python操作HDF5文件

HDF Hierarchical Data Format，又称HDF5 安装： pip install h5py 对于数据集需要:先创建h5文件,再去读h5文件将dataset放在…

人工智能 2023年6月4日
0071
Pandas中map、apply、applymap使用详解

在日常使用Pandas进行数据处理中，我们经常会对DataFrame对象进行逐行、逐列或逐个元素的操作。下面为大家介绍三个方法，基本可以解决绝大部分的数据处理需求，我们称之为数据…

人工智能 2023年7月7日
0056
自动驾驶感知新范式——BEV感知经典论文总结和对比（下）

本文承接上篇：自动驾驶感知新范式——BEV感知经典论文总结和对比（上）_苹果姐的博客-CSDN博客bev感知经典论文总结和对比https://blog.csdn.net/weix…

人工智能 2023年6月17日
00140

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

目标检测中的预测框回归优化之IOU、GIOU、DIOU、CIOU和EIOU

大家都在看