目标检测: 一文读懂 OTA 标签分配

2023年7月9日下午2:43 • 人工智能 • 阅读 70

论文：OTA: Optimal Transport Assignment for Object Detection

论文链接：https://arxiv.org/abs/2103.14259

代码链接：https://github.com/Megvii-BaseDetection/OTA

文章目录

*
– 1 什么是标签分配？
– 2 为什么提出OTA？
– 3 OTA方法
–
+ 3.1 OTA 思路
+ 3.2 Optimal Transport
+ 3.3 OT for Label Assignment
– 4 OTA实施细节
– 5 OTA效果性能
– 6 总结
– 7 参考

目标检测的一个底层问题是标签分配问题，比如网络预测10000个检测框，为了训练网络，首先需要知道这10000个检测框的标签是什么？这个问题看似简单，然而实做起来并不容易，比如如何处理模糊标签？正样本数多少为合适？不同的标签分配策略会对模型性能带来很大影响，本文介绍的这个OTA标签分配方法提供了一个很好的解决思路。

1 什么是标签分配？

目标 CNN-based的目标检测器是预测 pre-defined anchors 的类别 (cls) 以及偏移量 (reg) 。
为了训练目标检测器，需要为每个 anchor 分配 cls 和 reg 目标，这个过程称为标签分配或者正采样。
一些经典的标签分配方法：

RetinaNet、 Faster-RCNN：使用 pre-defined anchors 与 groudtruth 的 IoU 阈值来区分正负样本；
YOLOV5：为了增加正样本数量，使用 pre-defined anchors 与 groudtruth 的宽高比进行正采样；
FCOS：处于 groundtruth的中心区域的 anchors作为正样本。

2 为什么提出OTA？

使用人工规则的分配方法，无法考虑尺寸、形状或边界遮挡的差异性。

虽然有一些改进工作，如 ATSS动态分配方法，可以为每个目标动态的选择正样本。

但是上述方法都一个缺陷：没有全局性的考虑，比如当处理模糊标签时 (一个 anchor可能对应多个目标)，对其分配任何一个标签都可能对网络学习产生负面影响。

OTA就是解决上述问题，以获得全局最优的分配策略。

3 OTA方法

3.1 OTA 思路

为了得到全局最优的分配策略， OTA方法提出将标签分配问题当作 Optimal Transport (OT) 问题。

具体来讲：

将每个gt当作可以提供一定数量 labels的 supplier，而每个 anchor可以看作是需要唯一 label的 demander，如果某个 anchor从 gt 那儿获得足够的 label，那么这个 anchor就是此 gt 的一个正样本。

因为有很多 anchor是负样本，所以还需引入另一个 background供应商，专门为 anchor提供 negative 标签，

问题目标是 supplier如何分配 label 给 demander，可以让 cost 最低。其中 cost的定义为：

对于每个 anchor-gt pair， cost 为 pair-wise cls loss 和 pair-wise reg loss的加权和。
对于每个 anchor-background pair， cost 为 pair-wise cls loss这一项。

; 3.2 Optimal Transport

假设第 i i i 个 supplier 拥有 s i s_i s i 个货物，第 j j j 个 demander 需要 d j d_j d j 个货物。

货物从 supplier i i i运到demander j j j 的成本为 c i j c_{ij}c i j 。

目标是找到最佳运输方案π ∗ = π i , j ∣ i = 1 , 2 , . . . , m , j = 1 , 2 , . . . n \pi^*={\pi_{i,j}|i=1,2,…,m,j=1,2,…n}π∗=πi ,j ∣i =1 ,2 ,…,m ,j =1 ,2 ,…n ，可以让总的运输 cost 最低：

min ⁡ π ∑ i = 1 m ∑ j = 1 n c i j π i j s . t . ∑ i = 1 m π i j = d j , ∑ j = 1 n π i j = s i , ∑ i = 1 m s i = ∑ j = 1 n d j π i j ≥ 0 , i = 1 , 2 , . . . , m , j = 1 , 2 , . . . , n {\underset {\pi}{\operatorname {min} }}\sum {i=1}^m\sum {j=1}^n c_{ij}\pi_{ij}\ s.t. \sum_{i=1}^m\pi_{ij}=d_j, \sum_{j=1}^n\pi_{ij}=s_i, \sum_{i=1}^ms_{i}=\sum_{j=1}^nd_{j}\ \pi_{ij} \geq 0, i=1,2,…,m,j=1,2,…,n πm i n i =1 ∑m j =1 ∑n c i j πi j s .t .i =1 ∑m πi j =d j ,j =1 ∑n πi j =s i ,i =1 ∑m s i =j =1 ∑n d j πi j ≥0 ,i =1 ,2 ,…,m ,j =1 ,2 ,…,n

上述问题可以使用 Sinkhorn-Knopp算法来求解。

3.3 OT for Label Assignment

回到标签分配问题，对于一张图片，假设有 m m m 个 gt 目标和 n n n个 anchors：

每个gt 拥有 k k k 个positive labels，即s i = k ; i = 1 , 2 , . . , m s_i=k; i=1,2,..,m s i =k ;i =1 ,2 ,..,m；
每个anchor 需要一个 label，即d j = 1 ; j = 1 , 2 , . . . , n d_j=1; j=1,2,…,n d j =1 ;j =1 ,2 ,…,n

将一个 positive label 从 g t i gt_i g t i 运到 anchor a i a_i a i 的成本为 c i j f g c^{fg}{ij}c i j f g , 其可以表示为：
c i j f g = L c l s ( P j c l s ( θ ) , G i c l s ) + α L r e g ( P j b o x ( θ ) , G i b o x ) c{ij}^{fg}=L_{cls}(P^{cls}j(\theta),G^{cls}_i)+\alpha L{reg}(P^{box}_j(\theta),G^{box}_i)c i j f g =L c l s (P j c l s (θ),G i c l s )+αL r e g (P j b o x (θ),G i b o x )
式中：

P j c l s P^{cls}_j P j c l s 和P j b o x P^{box}_j P j b o x 分别表示对 anchor a j a_j a j 预测的 cls score 和 bbox；

G i c l s G^{cls}_i G i c l s 和G i b o x G^{box}_i G i b o x 分别表示对 gt j j j 的 cls 和 bbox;

L c l s L_{cls}L c l s 和L b o x L_{box}L b o x 分别表示 cross entorpy loss 和 IoU Loss ;

α \alpha α 是 2 个loss的平衡系数

此外很多anchor是负样本，所以还有一个background supplier，将一个negative label 从background supplier 运到 anchor a j a_j a j 的成本为 c j b g c^{bg}j c j b g , 其可以表示为：
c j b g = L c l s ( P j c l s ( θ ) , ϕ ) c{j}^{bg}=L_{cls}(P^{cls}_j(\theta),\phi)c j b g =L c l s (P j c l s (θ),ϕ)
可以计算出negative lables的总数为：n − m × k n-m\times k n −m ×k ，所以 s i s_i s i 更新为：
s i = { k i ≤ m n − m × k o t h e r w i s e s_i=\begin{cases} k & i\leq m \ n-m\times k & otherwise\end{cases}s i ={k n −m ×k i ≤m o t h e r w i s e

4 OTA实施细节

为了便于理解，我们假定图片上有3个目标框，即 3个groundtruth，再假定项目有 2个检测类别，网络输出 1000个预测框，其中只有 少部分是正样本，绝大多数是负样本。

bboxes_preds_per_image 是候选检测框的信息，维度是 [1000，4]。

obj_preds 是目标分数，维度是 [1000，1]。

cls_preds 是类别分数，维度是 [1000，2]。

训练网络需要知道这1000个预测框的标签，而如何分配标签呢？使用OTA方法，分为4步，具体做法如下：

step1：生成cost矩阵

OTA方法分配标签是基于cost的，因为有 3个目标框和 1000个预测框，所以需要生成 3 × 1000 3\times 1000 3 ×1 0 0 0 的 cost matrix，对于目标检测任务，cost 组成为 位置损失和 类别损失，计算方法如下：

(1) 位置损失

计算 3个目标框，和 1000个候选框，得到每个框相互之间的 iou pair_wise_ious。

再通过 -torch.log计算得到 位置损失，即 pair_wise_iou_loss，向量维度为 [3,1000]。

pair_wise_ious=bboxes_iou(gt_bboxes_per_image,bboxes_perds_per_image,False)
pair_wise_ious_loss=-torch.log(pair_wise_ious+1e-8)

(2) 类别损失

通过第一行代码，将类别的条件概率和目标的先验概率做乘积，得到目标的类别分数。

再通过第二行代码， F.binary_cross_entroy 的处理，得到3个目标框和1000个候选框的综合loss值，得到 类别损失，即 pair_wise_cls_loss，向量维度为 [3，1000]。

cls_preds=(cls_preds_.float().unsqueeze(0).repeat(num_gt,1,1).sigmoid_()
*obj_preds_.unsqueeze(0).repeat(num_gt,1,1).sigmoid_())

pair_wise_cls_losss=F.binary_cross_entropy(cls_pres_.sqrt_(),gt_cls_per_image,reduction='none').sum(-1)

有了reg_loss和 cls_loss，将两个损失函数加权相加，就可以得到 cost成本函数了。

cost 计算公式如下：
c i j = L i j c l s + λ L i j r e g c_{ij}=L^{cls}{ij}+\lambda L^{reg}{ij}c i j =L i j c l s +λL i j r e g
加权系数λ = 3 \lambda=3 λ=3，计算代码如下：

cost=pair_wise_cls_loss
      +3.0*pair_wise_ious_loss
      +100000.0*(~is_in_boxes_and_center)

step2：dynamic_k_estimation

每个 gt 提供多少正样本，可以理解为” 这个 gt 需要多少个正样本才能让网络更好的训练收敛“。

直觉上，每个gt 的大小、尺度和遮挡条件不同，所以其提供的positive albel数量也应该是不同的，如何确定每个gt的正样本数 k k k 值呢，论文提供了一个简单的方案，该方法称之为： Dynamic k Estimation，具体做法如下：

从前面的pair_wise_ious中，给每个目标框，挑选 10个iou最大的候选框。因为前面假定有3个目标，因此这里topk_ious的维度为[3，10]。

topk_ious 计算代码如下：

ious_in_boxes_matrix = pair_wise_ious
n_candidate_k = min(10, ious_in_boxes_matrix.size(1))
topk_ious, _ = torch.topk(ious_in_boxes_matrix, n_candidate_k, dim=1)

下面通过topk_ious的信息，动态选择候选框。**dynamic_k_matching 代码如下:

dynamic_ks = torch.clamp(topk_ious.sum(1).int(), min=1)

针对每个目标框，计算所有anchor的 iou 值之和，再经过torch.clamp函数，得到最终右面的dynamic_ks值，给目标框1和3各分配3个候选框，给目标框2分配4个候选框。

step3：得到matching_matrix

for gt_idx in range(num_gt):
    _, pos_idx = torch.topk(cost[gt_idx], k=dynamic_ks[gt_idx], largest=False)
    matching_matrix[gt_idx][pos_idx] = 1

针对每个目标框挑选相应的 cost值最低的一些候选框。比如右面的 matching_matrix中， cost值最低的一些位置，数值为1，其余位置都为0。

因为目标框1和3， dynamic_ks值都为3，因此 matching_matrix的第一行和第三行，有3个1。而目标框2， dynamic_ks值为4，因此 matching_matrix的第二行，有4个1。

step4：过滤共用的候选框

anchor_matching_gt = matching_matrix.sum(0)
if (anchor_matching_gt > 1).sum() > 0:
    _, cost_argmin = torch.min(cost[:, anchor_matching_gt > 1], dim=0)
    matching_matrix[:, anchor_matching_gt > 1] *= 0
    matching_matrix[cost_argmin, anchor_matching_gt > 1] = 1

matching_matrix种第5列有两个1，这说明第5列所对应的候选框，被目标检测框1和2都进行关联。

因此对这两个位置，还要使用 cost值进行对比， 选择较小的值，再进一步筛选。假设第5列两个位置的值分别为0.4和0.3。

经过第三行代码，可以找到最小的值是0.3，即 cost_min为0.3，所对应的行数， cost_argmin为2。

经过第四行代码，将 matching_matrix第5列都置0。

再利用第五行代码，将 matching_matrix第2行，第5列的位置变为1。

最终我们可以得到3个目标框，最合适的一些候选框，即 matching_matrix中， 所有1所对应的位置。

5 OTA效果性能

（1）整体性能

OTA方法可以使用于 anchor-based和 anchor-free 检测器中，其中 anchor-based的模型使用 RetinaNet， anchor-free模型使用 FCOS，当没有额外分支时， FCOS的 AP值为38.3，使用了 OTA之后 FCOS的 AP值达到39.2，提升了0.9个百分点，如果加上 IoU分支以及 dynamic k 策略， FCOS的 AP值最终达到 40.7。

（2）r 的影响

OTA方法通常用于精筛选正样本，在精筛选正样本前，可以增加一步粗筛选，有2种方式：

筛选中心点落在 groundtruth bbox范围内的 anchor作为正样本；
筛选中心点落在以 groundtruth bbox中心点为中心， r为半径的区域内的 anchor作为正样本；

在粗筛选的结果基础上，再使用 OTA方法，可以减少运算量和提高精度。

将 r 设置成3, 5, 7后，得到粗筛选候选框数量分别为45，125 和 245。将 OTA和 ATSS、 PAA方法作比较，得到2个结论：

模糊样本 ambiguous anchors（一个anchor可能对应多个gt）数量N a m b N_{amb}N a m b 越多，相应的AP会下降，说明模糊样本会对网络训练产生负面影响；
分配到模糊样本的数量： ATSS > PAA > OTA；
对 r 的敏感性： ATSS > PAA > OTA

（3）k 的影响

在使用 Sinkhorn-Knopp 算法前，需要知道每个gt需要提供多少 positive label， posivtive label的数量就是k，如下比较了将 k 设置成固定值和动态值的情形，论文提出的 dynamic k 方法可有效提高 AP值。

; 6 总结

OTA 论文的主要贡献包括以下几点：

提出解决目标检测中的标签分配问题的新思路：当作 OT (Optimal Transport problem) 问题来处理；
提出计算每个 gt需要提供多少 positive label的方法，该方法简单有效；
分析了模糊样本的影响， ambiguous anchors 会对网络训练产生负面影响， OTA方法可以有效的减少模糊样本的数量。

7 参考

深入浅出Yolo系列之Yolox核心基础完整讲解: https://zhuanlan.zhihu.com/p/397993315

Original: https://blog.csdn.net/weixin_46142822/article/details/124074168
Author: 大林兄
Title: 目标检测: 一文读懂 OTA 标签分配

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/680873/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习之图像分类（十八）– Vision Transformer(ViT)网络详解

深度学习之图像分类（十八）Vision Transformer(ViT)网络详解目录 * – 深度学习之图像分类（十八）Vision Transformer(ViT)…

人工智能 2023年6月16日
00144
图像分割汇总

Image Segmentation（图像分割）：所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或…

人工智能 2023年6月18日
0058
Arcgis Pro v2.8.3 CUDA（RTX3080、RTX3090训练）

1：关于Arcgis Pro v2.8.3 Arcgis Pro 新一代桌面 GIS，支持 2D、3D 和 4D 模式下的数据可视化、高级分析和权威数据维护。支持通过 Web G…

人工智能 2023年6月1日
0093
全网最详细SIFT算法原理实现

文章目录一、SIFT算法 * 1.1什么是SIFT算法？ 1.2SIFT算法特点二、SIFT算法实质 * 2.1SIFT算法实现特征匹配主要有以下三个流程：三、SIFT算法原…

人工智能 2023年7月29日
0060
mmdetection、yolo系列等目标检测任务的学习率调度器

学习率(Learning rate，简称lr)作为目标检测这类监督学习中最重要的超参，其决定着分类函数或边界框回归函数能否收敛到局部最小值以及何时收敛到最小值。正确的学习率可使…

人工智能 2023年7月12日
0060
DeepLearning:CNN网络学习之LetNet-5解读（论文＋分析+代码）

LetNet-5 【写在前面】 * 权值共享卷积原理池化原理【LetNet介绍】 * 论文原文实现过程参数变化概览详细过程【代码实现】【参考链接】【写在前面】 Le…

人工智能 2023年7月14日
0090
机器学习-卷积神经网络之深度残差网络CIFAR10实战（四）

背景介绍：MNIST数据集识别黑白的手写数字图片，不适合彩色模型的RGB三通道图片。本次实战对CIFAR10数据集进行分析与学习。如果你不理解，你可以在下面的代码中看到解释和解释…

人工智能 2023年5月25日
00141
2022语言与智能技术竞赛启动全球热门的中文NLP赛事它来了

近年来，产学研各界在自然语言处理（NLP）领域持续深耕，促进着人工智能技术不断向前发展。技术的应用不仅改变着人类的生活方式，也为产业升级提供了更多可能。 3月30日，聚焦NLP领域…

人工智能 2023年7月14日
0082
python颜色识别，46行代码实现865种颜色识别，看过的都说顶呱呱！

1.先介绍我做的颜色识别的功能，简单的说，就是该脚本可以打开图片，在图片上点击某个区域，可以识别某个区域的颜色，颜色识别准确度很高，很多时候颜色识别是辅助物体的颜色识别，但这个代码…

人工智能 2023年6月19日
00126
01. TensorFlow 2.0初学者入门教程 MNIST数据集中的手写数字识别

初学者的 TensorFlow 2.0 教程代码详解，链接地址如下：初学者的 TensorFlow 2.0 教程 | TensorFlow Core 一、搭建python环境 …

人工智能 2023年5月25日
00109
[机器学习、Spark]Spark MLlib分类

👨‍🎓👨‍🎓博主：发量不足 📑📑本期更新内容：Spark MLlib分类 🔥🔥 📑📑下篇文章预告：Hadoop全分布部署🔥🔥🔥 简介：耐心，自信来源于你强大的思想和知识基础！！目…

人工智能 2023年7月3日
00121
1. 学习单步的RNN：RNNCell

提示：写完文章后，目录可以自动生成，如何生成右侧的帮助文档。 [En] Tip: after the article is written, the directory can b…

人工智能 2023年5月25日
0089
17.200种鸟类图片分类

这个是一个多分类问题，我们先看一下这个数据集首先我们有一个文件夹叫birds_train 这个文件夹中有200个子文件夹，每一个文件夹中都是一种鸟类的照片我们打开一个文件夹其…

人工智能 2023年7月1日
0072
Mask Rcnn代码与原理相结合解析

1：前言文章目录 * – 1：前言 – 2：图片的预处理 – 3：整体流程概述 – 4：搭建特征提取网络 – 4：an…

人工智能 2023年5月23日
0089
YOLOv7全文翻译

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors…

人工智能 2023年7月27日
0072
深度学习——CNN实现MNIST手写数字的识别

活动地址：CSDN21天学习挑战赛目录知识点介绍 MNIST 介绍下载数据的简单处理 CNN神经网络 CNN的作用 CNN的主要特征 CNN的神经网络结构 CNN的相关参…

人工智能 2023年7月3日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31