[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

Active Learning for Deep Object Detection via Probabilistic Modeling

文章目录

简介

论文标题

  • Active Learning for Deep Object Detection via Probabilistic Modeling
  • 基于概率建模的主动学习在深度目标检测中的应用
  • 2021 arXiv

贡献

  • 提出了一种新的深度主动学习目标检测方法,该方法综合考虑了定位信息和分类信息,充分利用了任意不确定性和认知不确定性。我们的方法是高效的,并且在单个模型中使用单次前向传递。
  • 我们提出了一种新的Lost算法来训练基于GMM的目标检测网络,从而提高了网络的整体性能
  • 我们在两个不同的数据集上使用不同的模型证明了我们方法的有效性。

代码可在https://github.com/NVlabs/AL-MDN.上找到

公式挺长的,因为不是最终版,所以阅读起来比较费劲

摘要

主动学习的目的是通过只选择数据集上信息最丰富的样本来降低标记成本。已有的研究成果很少涉及主动学习的目标检测问题。这些方法大多是基于多模型的,或者是分类方法的直接扩展,因此只使用分类头来估计图像的信息量。本文提出了一种新的深度主动学习目标检测方法。我们的方法依赖于混合密度网络,该网络估计每个定位和分类头localization and classification head’s的输出的概率分布。我们显式地估计了在单一模型的单次前向传递中的任意性和认知性不确定性。我们的方法使用一个评分函数,将两个头部的这两种不确定性聚合在一起,以获得每幅图像的信息量分数。我们在Pascal VOC和MSCOCO数据集上展示了我们的方法的有效性。我们的方法比基于单模型的方法性能更好,并且在计算成本上与基于多模型的方法相当。

初步

机翻译 任意不确定性 aleatoric uncertainty (偶然性)

深度检测网络的性能取决于标记数据的大小[31,32]。受此启发,研究人员探索了聪明的策略,在数据集中选择信息最丰富的样本进行标记,这被称为主动学习[35]。通常,这是通过设计一个得分函数来实现的,该函数计算网络的不确定性,选择标记网络对其预测最不可信的样本[2,4,40]。

一般来说,预测不确定性被分解为偶然性aleatoric和认识性的不确定性epistemic uncertainty [15,20]。前者是指数据中的固有噪声,如传感器噪声,可以归因于遮挡或缺乏视觉特征[10,24]。后者指的是由于缺乏对模型的了解而引起的不确定性,并且与训练数据的密度成反比[38]。建模和区分这两种类型的不确定性在主动学习中非常重要,因为它允许深度学习模型了解它们的局限性[21,38] ,即,识别样本中的可疑预测(任意性不确定性) ,并识别与训练集不相似的样本(认知性不确定性)。为了计算这些类型的不确定性,研究人员使用基于多模型的方法,如集成[2]或蒙特卡罗(mc)辍学[13]。这些方法虽然取得了良好的效果,但也有一些局限性[11,16]。特别是,由于是多模型,它们需要更高的计算成本,在集成的情况下,它们还增加了网络参数的数量[2]。此外,它们仅仅依赖于分类的不确定性,完全忽略了本地(定位 localization )化的不确定性。

15 A bayesian approach for uncertainty estimation
in deep object detectors
20 Aleatory and epistemic uncertainty in probability elicitation with an example from hazardous waste management
10 Towards safe autonomous driving: Capture uncertainty in the deep neural network for lidar 3d vehicle detection.

24 What uncertainties do we need in bayesian deep learning for computer vision?

本文提出了一种新的用于深层目标检测的主动学习方法。我们的方法使用单一模型和单次前向传递,与基于多个模型的方法相比,显著降低了计算成本。尽管如此,我们的方法仍然达到了很高的精度。为了管理这一点,我们的方法利用了定位和基于分类的任意和认知不确定性。如图1所示,我们的方法基于混合密度网络 mixture density networks[3],该网络为网络的每个输出(即定位和分类)学习高斯混合模型(GMM),以部化和分类,以计算任意不确定性和认知不确定性.为了有效地训练网络,我们提出了一个损失函数,作为不一致数据的正则化,从而产生更健壮的模型。我们的方法通过聚合包含在图像中的每个对象的所有基于定位和分类的不确定性来估计每个图像的信息量分数。

[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

我们的经验表明,利用分类和本地化头部的这两种不确定性是提高准确率的关键因素。我们在PASCAL VOC[9]和MS-COCO[30]上演示了我们的方法在单级体系结构(如SSD[31])中的优势,并展示了我们的方法在两级体系结构(如FASH-RCNN[32])中的一般性能。我们的方法始终优于基于单模型的方法,并且与使用多模型的方法相比,我们的方法在显著降低计算成本的同时产生了类似的精度。

; 相关工作

深度主动学习在目标检测中的应用

深度主动学习在目标检测中的应用最近引起了人们的兴趣。[16]的工作训练神经网络的集合[2],然后选择具有由某个采集函数定义的最高分数的样本,即熵[36]或互信息[5]。同时工作[11]探索了类似的方向,但通过MC-Dropout近似不确定性[12,26]。文献[1]提出了一种计算像素分值并将其用于选择信息样本的方法。另一种方法[33]提出通过提交范例的查询来选择要查询的图像集。[34]的工作使用特征空间在数据集中选择具有代表性的样本,在目标检测方面达到了良好的性能[40]。文献[23]给出了一个不同的解决方案,其中作者定义了两个不同的分数:定位紧密度(区域建议和最终预测之间的重叠率)和定位稳定性(基于输入图像受到噪声干扰时预测目标位置的变化)。在所有情况下,都会选择得分最高的图像进行标记。[40]的最先进的(SOTA)方法提供了一个启发式但优雅的解决方案,同时优于其他单一的基于模型的方法。在训练过程中,该方法学习预测每个样本的目标损失。在主动学习阶段,它选择对预测损失最大的样本进行标记。

16 Scalable active learning for object detection
1 Active learning for deep detection neural networks
34 Active learning for convolutional neural networks: A core-set approach
40 Learning loss for active learning
23 Localization-aware active learning for object detection

上述方法[11,16,23]大多需要多个模型或多次前向传递来计算图像的信息度分数,导致计算成本较高。此外,尽管所有这些研究都集中在主动学习的目标检测上,但它们要么依赖启发式方法来估计定位不确定性[23,40],要么根本无法估计定位不确定性[1,11,16,33,34]。因此,虽然它们给出了有希望的方向,但在精度和计算成本方面并不令人满意。与这些方法相比,我们的方法估计和利用了定位和分类的不确定性以达到高精度,同时使用单个模型的单一正向传递,显著降低了计算成本。

一次传递就是预测一次,多次传递就是预测多次

混合密度网络

混合密度网络最近已被用于几个深度学习任务。文献[8]的方法侧重于转向角的回归任务。文献[18,39]的工作试图解决一个多峰回归问题。[41]的工作集中在密度估计上,而[7]的工作则试图探索带有损坏数据的监督学习问题。然而,以前的研究没有考虑分类任务,分类任务是目标检测的重要部分[8,18,39]。此外,所有这些研究都没有考虑到包围盒回归和分类任务带来的不确定性[7,8,18,39,41]。此外,这些研究中没有一项涉及主动学习用于目标检测的问题。相反,我们的方法在主动学习对象检测的背景下估计并利用了这两个任务的任意性和认知性不确定性。

主动学习在目标检测中的应用

我们方法的主要创新之处在于设计 神经网络的输出层来预测概率分布,而不是为网络的每个输出预测单个值(参见图2A)。为此,我们建议使用混合密度网络,其中网络的输出由广义混合模型的参数组成:对于GMM的第k个成分,广义混合模型的均值µk、方差Σk和混合权重πk。 给定这些参数,我们可以估计认识的和任意的不确定性[8]:
u a l = ∑ k = 1 K π k Σ k , u e p = ∑ k = 1 K π k ∥ μ k − ∑ i = 1 K π i μ i ∥ 2 u_{a l}=\sum_{k=1}^{K} \pi^{k} \Sigma^{k}, u_{e p}=\sum_{k=1}^{K} \pi^{k}\left\|\mu^{k}-\sum_{i=1}^{K} \pi^{i} \mu^{i}\right\|^{2}u a l ​=k =1 ∑K ​πk Σk ,u e p ​=k =1 ∑K ​πk ∥∥∥∥∥​μk −i =1 ∑K ​πi μi ∥∥∥∥∥​2

8 Uncertainty-aware learning from demonstration using mixture density networks with sampling-free variance modeling

其中K是GMM中的组件数量。 组件(机翻) component就是每个高斯分布

有点像VAE ,输出的是一个分布,那就要关注损失函数怎么构建的

[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

图2:建议的目标检测网络概述。与传统对象检测器[31、32]的主要区别在于定位和分类头(分支)。A)我们的方法不是具有确定性的输出,而是为每个输出学习K分量GMM的参数:定位头中的边界框的坐标和分类(置信度)头中的类密度分布(见3.1节)。B)通过消除GMM分类头中的方差参数来提高效率的分类头(见第3.2节)。

; 基于概率建模的目标检测

为了介绍我们的方法,我们首先关注定位任务,然后将其扩展到分类任务。正如我们将在稍后的实验中展示的那样,我们的方法 既适用于单级目标探测器,也适用于两级目标探测器

定位:在目标检测中,由中心坐标(X y)、宽度(W)和高度(H)定义的边界框。在我们的工作中,我们的混合模型没有预测确定性的值,而是为每个边界框预测了3组参数:均值(ˆµx、ˆµy、ˆµw和ˆµh)、方差(ˆΣx、ˆΣy、ˆΣw和ˆΣh)和混合的权重(ˆπx、ˆπy、ˆπw和ˆπh)。

设{ π ^ b k , μ ^ b k , Σ ^ b k } k = 1 K , b ∈ { x , y , w , h } \left{\hat{\pi}{b}^{k}, \hat{\mu}{b}^{k}, \hat{\Sigma}{b}^{k}\right}{k=1}^{K}, b \in{x, y, w, h}{π^b k ​,μ^​b k ​,Σ^b k ​}k =1 K ​,b ∈{x ,y ,w ,h }是使用我们的网络获得的边界框输出。对于包围盒的每个坐标,具有K model的GMM的参数如下:
π b k = e π ^ b k ∑ j = 1 K e π ^ b j , μ b k = μ ^ b k , Σ b k = σ ( Σ ^ b k ) \pi_{b}^{k}=\frac{e^{\hat{\pi}{b}^{k}}}{\sum{j=1}^{K} e^{\hat{\pi}{b}^{j}}}, \mu{b}^{k}=\hat{\mu}{b}^{k}, \Sigma{b}^{k}=\sigma\left(\hat{\Sigma}_{b}^{k}\right)πb k ​=∑j =1 K ​e π^b j ​e π^b k ​​,μb k ​=μ^​b k ​,Σb k ​=σ(Σ^b k ​)
其中,π是每个组分的混合物权重,µ是每个边界框坐标的预测值,Σ是每个坐标的方差,表示其任意不确定性。如文献[8]所述,我们使用软最大值函数来保持π在概率空间中,并使用Sigmoid函数来满足方差的正性约束Σkb>=0。

定位损失:传统的边界框回归损失,平滑L1损失[14],只考虑预测边界框和地面真实(GT)框的坐标。因此,它不能考虑边界框的模糊性(任意不确定性)。为了训练混合密度网络进行定位,我们提出了一种基于负对数似然损失的定位损失。对于正匹配 positive matches,我们的损失将GMM的参数回归到锚点(默认)框(D)的中心(x,y)、宽度(W)和高度(H)的偏移量:
L l o c ( λ , l , g ) = − ∑ i ∈ P o s N ∑ b λ G i j log ⁡ ( ∑ k = 1 K π b i k N ( g ^ b j ∣ μ b i k , Σ b i k ) + ε ) , λ G i j = { 1 , if I o U > 0.5. 0 , otherwise. , g ^ x j = ( g x j − d x i ) d w i , g ^ y j = ( g y j − d y i ) d h i , g ^ w j = log ⁡ ( g w j d w i ) , g ^ h j = log ⁡ ( g h j d h i ) , \begin{array}{c} L_{l o c}(\lambda, l, g)=-\sum_{i \in P o s}^{N} \sum_{b} \lambda_{G}^{i j} \log \left(\sum_{k=1}^{K} \pi_{b}^{i k} \mathcal{N}\left(\hat{g}{b}^{j} \mid \mu{b}^{i k}, \Sigma_{b}^{i k}\right)+\varepsilon\right), \ \lambda_{G}^{i j}=\left{\begin{array}{l} 1, & \text { if } I o U>0.5 . \ 0, & \text { otherwise. } \end{array}, \hat{g}{x}^{j}=\frac{\left(g{x}^{j}-d_{x}^{i}\right)}{d_{w}^{i}}, \hat{g}{y}^{j}=\frac{\left(g{y}^{j}-d_{y}^{i}\right)}{d_{h}^{i}},\right. \ \hat{g}{w}^{j}=\log \left(\frac{g{w}^{j}}{d_{w}^{i}}\right), \hat{g}{h}^{j}=\log \left(\frac{g{h}^{j}}{d_{h}^{i}}\right), \end{array}L l o c ​(λ,l ,g )=−∑i ∈P o s N ​∑b ​λG i j ​lo g (∑k =1 K ​πb i k ​N (g ^​b j ​∣μb i k ​,Σb i k ​)+ε),λG i j ​={1 ,0 ,​if I o U >0 .5 .otherwise.​,g ^​x j ​=d w i ​(g x j ​−d x i ​)​,g ^​y j ​=d h i ​(g y j ​−d y i ​)​,g ^​w j ​=lo g (d w i ​g w j ​​),g ^​h j ​=lo g (d h i ​g h j ​​),​
其中l是包围盒的GMM参数(πIKB、µIKB和ΣIKB),N是匹配锚盒(称为正匹配) matched anchor boxes (called positive matches)的数量,K是混合的数量,λijG 是将第i个锚盒dib与类别G的第j个GT盒匹配的指示符,ˆgjb是第j个GT盒。在实验中,为了保证对数函数的数值稳定性,我们设置了ε=10−9。

公式看着挺长,就是将正匹配的anchor boxes和ground truth 挨个Iou匹配,如果大于0.5了,就算值.这个值是将各个高斯分布的输出求和再求Log,高斯分布的参数来源与之前模型输出的结果

分类:现在我们将重点放在物体探测器的分类头上。我们将每个类的输出建模为GMM(参见图2A)。我们的方法估计了每一类的平均ˆµkp和方差ˆΣkp,以及混合ˆπkp对于高斯混合模型的每个分量的权重。我们按照公式2处理广义混合模型的参数,并通过应用高斯噪声和方差Σkp 到µkp[24]的重新参数化技巧[25]来获得第k个混合的类别概率分布:
c ^ p k = μ p k + Σ p k γ , γ ∼ N ( 0 , 1 ) \hat{c}{p}^{k}=\mu{p}^{k}+\sqrt{\Sigma_{p}^{k}} \gamma, \quad \gamma \sim \mathcal{N}(0,1)c ^p k ​=μp k ​+Σp k ​​γ,γ∼N (0 ,1 )
其中γ是辅助噪声变量,其size与µkp和ΣKp相同

分类损失:为了训练混合密度网络进行分类,我们提出了一种损失函数,该函数考虑了锚箱相对于GT箱的IOU,并考虑了硬性负值hard negative mining。更准确地说,我们将分类损失表示为两个术语L_Pos_cl和L_Neg_cl的组合,表示正匹配和负匹配的贡献:
L c l P o s ( λ , c ) = − ∑ i ∈ P o s N λ G i j ∑ k = 1 K π i k ( c ^ G j − log ⁡ ∑ p = 0 C e c ^ p i k ) L c l N e g ( c ) = − ∑ i ∈ N e g M × N ∑ k = 1 K π i k ( c ^ 0 i − log ⁡ ∑ p = 0 C e c ^ p i k ) \begin{aligned} L_{c l}^{P o s}(\lambda, c) &=-\sum_{i \in P o s}^{N} \lambda_{G}^{i j} \sum_{k=1}^{K} \pi^{i k}\left(\hat{c}{G}^{j}-\log \sum{p=0}^{C} e^{\hat{c}{p}^{i k}}\right) \ L{c l}^{N e g}(c) &=-\sum_{i \in N e g}^{M \times N} \sum_{k=1}^{K} \pi^{i k}\left(\hat{c}{0}^{i}-\log \sum{p=0}^{C} e^{\hat{c}_{p}^{i k}}\right) \end{aligned}L c l P o s ​(λ,c )L c l N e g ​(c )​=−i ∈P o s ∑N ​λG i j ​k =1 ∑K ​πi k (c ^G j ​−lo g p =0 ∑C ​e c ^p i k ​)=−i ∈N e g ∑M ×N ​k =1 ∑K ​πi k (c ^0 i ​−lo g p =0 ∑C ​e c ^p i k ​)​
其中N是正匹配的数量,K是混合物的数量,CI是类别的数量,其中0表示背景类别ˆCi0,ˆCj G是第j个GT箱的GT类别,ˆCkpi是由公式4计算的结果,λij G与公式3中使用的相同,并且M是硬负采矿率hard negative
mining ratio。我们没有使用所有的负匹配,而是使用提出的混合分类损失对它们进行排序,并选择topM×N 作为最终的负匹配进行训练。在实验中,我们按照[31]中的建议设置了M为3。

有点像SSD损失函数构造的方法,但不知道括号里的减号是怎么意思

哦,最好的情况就是类别相同,就是0,其他就是接近这个类别,然后e是自然底数,总之括号里的就是求预测的和已知的类别差异

在线难例挖掘策略(hard negative mining) 即依据confidience loss对属于负样本的prior bbox进行排序,只挑选其中confidience loss高的bbox进行训练,

最终损失:我们将使用混合密度网络训练目标检测器的总损失定义为:
L = { 1 N ( L l o c ( λ , l , g ) / η + L c l P o s ( λ , c ) + L c l N e g ( c ) ) , if N > 0 0 , otherwise L=\left{\begin{array}{ll} \frac{1}{N}\left(L_{l o c}(\lambda, l, g) / \eta+L_{c l}^{P o s}(\lambda, c)+L_{c l}^{N e g}(c)\right), & \text { if } N>0 \ 0, & \text { otherwise } \end{array}\right.L ={N 1 ​(L l o c ​(λ,l ,g )/η+L c l P o s ​(λ,c )+L c l N e g ​(c )),0 ,​if N >0 otherwise ​
其中N是肯定匹配的数量。在实验中,我们按照[6]中的建议将η设置为2。

6 Gaussian yolov3: An accurate and fast object detector using localization uncertainty for autonomous driving

在推断时,我们可以通过将混合模型的组件相加如下来计算包围盒的坐标Rb和每个类别Pi的置信度得分:
L o c a l i z a t i o n : R b = ∑ k = 1 K π b k μ b k Localization: R_{b}=\sum_{k=1}^{K} \pi_{b}^{k} \mu_{b}^{k}L o c a l i z a t i o n :R b ​=k =1 ∑K ​πb k ​μb k ​

C l a s s i f i c a t i o n : P i = ∑ k = 1 K π k e μ i k ∑ j = 0 C e μ j k . Classification: P_{i}=\sum_{k=1}^{K} \pi^{k} \frac{e^{\mu_{i}^{k}}}{\sum_{j=0}^{C} e^{\mu_{j}^{k}}} .C l a s s i f i c a t i o n :P i ​=k =1 ∑K ​πk ∑j =0 C ​e μj k ​e μi k ​​.

分类的应该就是加权的多分类的函数

提高参数效率

为了预测输出值的概率分布,我们的方法涉及修改网络的最后一层,因此导致参数的数量增加,特别是在分类头中。更准确地说,对于大小为F×F的输出特征图,其中C类、D anchor盒和每个包围盒使用4个坐标定义,则用于估计具有3个参数的K分量GMM的新层中的参数个数用于定位是 F×F×D×(4×3×K),用于分类的是f×F×D×(C×2×K+K)。我们看到分类头中的参数数量与类的数量成正比。

F×F×D×(4×3×K) 3个π u Σ 4个x,y,w,h

f×F×D×(C×2×K+K) 一个u一个Σ

在这一部分中,我们将重点放在通过减少分类头中的参数数量来提高算法的效率。为此,如图2b所示,我们放宽了方差Σp的估计问题,以减少F×F×D×(C×K+K)的参数个数。取而代之的是,我们获得类别概率ˆCKp=SOF
Tmax(µKp),并使用它们来估计任意不确定度,如下所示:
u a l = ∑ k = 1 K π k ( diag ⁡ ( c ^ p k ) − ( c ^ p k ) ⊗ 2 ) u_{a l}=\sum_{k=1}^{K} \pi^{k}\left(\operatorname{diag}\left(\hat{c}{p}^{k}\right)-\left(\hat{c}{p}^{k}\right)^{\otimes 2}\right)u a l ​=k =1 ∑K ​πk (d i a g (c ^p k ​)−(c ^p k ​)⊗2 )
其中diag(Q)是具有向量q和q⊗2=qqT的元素的对角矩阵。在这种情况下,ual是C×C矩阵,其中每个对角线元素的值可以解释为特定于类的任意不确定性[27]。

27 Uncertainty quantification using bayesian neural networks in classification: Application to biomedical image segmentation.

最后,我们用改进的参数效率对训练模型的分类损失进行了修正,如下所示:

其中,除类别概率ˆµIKP外,所有参数均与公式5相同。
L c l P o s ( λ , c ) = − ∑ i ∈ P o s N λ G i j ∑ k = 1 K π i k ( c ^ G j − log ⁡ ∑ p = 0 C e A ^ p i k ) L c l N e g ( c ) = − ∑ i ∈ N e g M × N ∑ k = 1 K π i k ( c ^ 0 i − log ⁡ ∑ p = 0 C e μ ^ p i k ) \begin{aligned} L_{c l}^{P o s}(\lambda, c) &=-\sum_{i \in P o s}^{N} \lambda_{G}^{i j} \sum_{k=1}^{K} \pi^{i k}\left(\hat{c}{G}^{j}-\log \sum{p=0}^{C} e^{\hat{A}{p}^{i k}}\right) \ L{c l}^{N e g}(c) &=-\sum_{i \in N e g}^{M \times N} \sum_{k=1}^{K} \pi^{i k}\left(\hat{c}{0}^{i}-\log \sum{p=0}^{C} e^{\hat{\mu}_{p}^{i k}}\right) \end{aligned}L c l P o s ​(λ,c )L c l N e g ​(c )​=−i ∈P o s ∑N ​λG i j ​k =1 ∑K ​πi k (c ^G j ​−lo g p =0 ∑C ​e A ^p i k ​)=−i ∈N e g ∑M ×N ​k =1 ∑K ​πi k (c ^0 i ​−lo g p =0 ∑C ​e μ^​p i k ​)​

计分函数

主动学习中的评分功能为每个图像提供单一的值,表明其信息性。我们的评分函数通过聚合图像中每个检测到的对象的所有任意性和认知性不确定性值来评估图像的信息量。

具体地说,设U={uij}是一组图像的不确定性值的集合(任意性或认知性),其中uij是第j个图像中对象的不确定性。对于本地化,uij是4个边界框输出上的最大值。我们首先使用z-Score归一化(˜uij=(uij−µU)/σU)对这些值进行归一化,因为边界框坐标的值是无界的,并且图像的每个不确定性可能具有不同的值范围。然后,我们将检测到的对象的最大不确定性ui=maxj˜uij分配给每个图像。我们从经验上发现,在坐标和物体上取最大值比取平均值效果更好。

定位有4个不确定性然后变成了一个不确定性,然后分类有一个不确定性,然后每个不确定性有两种,所以是4种

按照最开始那个公式算的,正好有两种GMM模型,每种得到2个,所以是4个

使用上述算法,我们得到了每幅图像的四个不同的归一化不确定性值:用于分类和定位的认知性和任意性epis-temic and aleatoric ,u = { u e p c i , u a l c i , u e p b i , u a l b i } u=\left{u_{e p_{c}}^{i}, u_{a l_{c}}^{i}, u_{e p_{b}}^{i}, u_{a l_{b}}^{i}\right}u ={u e p c ​i ​,u a l c ​i ​,u e p b ​i ​,u a l b ​i ​}。剩下的部分是将这些分数聚合到一个单独的分数中。我们探索聚合这些不确定性的评分函数的不同组合,包括求和或取最大值,像其他主动学习研究一样[16,33]。正如我们将在实验中展示的那样,取最大值可获得最高结果。

4个值的计算在开始的公式那

实验

在本节中,我们将展示我们的方法的好处。我们首先研究了使用概率建模对目标检测器的影响,然后在主动学习的背景下分析了所提出的评分函数和相关的SOTA方法。

数据集:我们使用Pascal VOC[9]和MS-COCO[30]数据集。对于包含20个对象类别的Pascal VOC,我们使用VOC07(VOC2007)travalal和VOC07+12 trainval(VOC2007和VOC2012的联合)对VOC07测试结果进行训练和评估。对于包含80个对象类别的MS-COCO,我们使用MS-COCO Training 2014进行训练,并对2017年的结果进行评估。

实验设置:我们使用了在主动学习研究中广泛使用的单发多盒探测器(SSD)[31],具有VGG-16主干[37]。我们使用SGD训练我们的模型12万次迭代,批大小为32,最大学习率为0.001。我们对前1000次迭代使用学习率预热策略,并在80,000和100,000次迭代后将学习率除以10。我们将高斯混合数设为4,在辅助材料中,我们对混合数进行了烧蚀研究。除非另有说明,否则我们使用MAP的平均值和标准差来报告三个独立试验的性能。

基于概率建模的目标检测

我们首先分析了我们提出的用于目标检测的概率模型对Pascal
VOC和MS-COCO的影响。对于MS-COCO,我们使用来自2014年列车的5000个训练图像的随机子集。我们将GMM和改进的参数效率模型seff与SSD[31]以及使用单个或多个高斯进行分类或定位头部的几种网络配置的精确度进行了比较。

在表1a和表1b中,我们分别总结了在VOC07和MS-COCO上进行的实验结果。如图所示,在两个数据集上,包含概率建模的所有网络都优于SSD。这是因为所提出的损失函数的正则化效应,该损失函数由于任意的不确定性而具有损失衰减[6]。因此,我们得到了对噪声数据具有鲁棒性的模型。考虑到正常(IOU>0.5)和严格度量(IOU>0.75),gmm和 sef的性能优于VOC07上的所有其他变体。在MS-COCO上,gmm优于所有其他实例和基线,而sef则达到有竞争力的结果。我们预计MS-COCO中的噪声数据量要大于Pascal VOC中的噪声数据量,因为MS-COCO中的数据更加多样化。如公式9所示,在sef的分类损失中不存在任意不确定性,因此,我们认为任意不确定性的正则化在MS-CoCO中有更大的影响。

[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

图3:任意性和认知性不确定度示例对于不准确的检测,请参见补充材料中的更多示例。从左上角开始,顺时针方向排列:人是假阳性;人的边界框不正确;羊被错归类为鸟;羊被错归类为牛。

在图3中,我们给出了探测器未能检测到目标的几幅图像的不确定度分数的代表性示例。如图所示,每个不确定性值(图3中的粗体数字)提供了对某些特定故障的不同见解。 定位不确定性与包围盒预测的准确性有关,而分类不确定性与类别预测的准确性有关。有趣的是,在这些例子中,即使预测是错误的,不确定性值似乎是不相关的,这表明每个不确定性都可以独立预测不准确的结果。根据这些结果,结果表明,该方法不仅计算了单个模型单次前向传递的不确定性,而且提高了检测网络的性能。如下一个实验所示,组合这些值将改善主动学习过程中的数据选择过程。

; 主动学习评价

我们现在重点评估我们在Pascal VOC和MS-Coco数据集上的主动学习的性能。我们按照[40]的建议,对VOC07+12使用初始的2000个样本,对VOC07+12使用1000个样本,按照[23]的建议,在MS-COCO中使用5000个样本。然后,在主动学习阶段,对于每个未标记的图像,我们应用非最大值抑制,并计算每个恢复对象的不确定性。评分功能使用最大值或总和聚合这些不确定性,以提供图像的最终信息性分数。我们对这组未标记的图像进行评分,并选择得分最高的1,000个图像[40]。然后,我们将它们添加到标记的训练集中,并在几个活动学习周期中重复此过程。对于每个主动学习迭代,我们使用ImageNet预先训练的权重从头开始训练模型。

评分聚合函数:我们比较了使用不同函数聚合分类和本地化头部的任意性和认知性不确定性所获得的主动学习性能。特别地,我们用随机抽样比较了我们方法的七个不同实例:1)每个任务上的任意或认知不确定性;2)本地化或分类头上任意或认知不确定性之和;3)本地化和分类上任意或认知不确定性之和;4)本地化和分类上任意不确定性和认知不确定性之和;5)本地化或分类头上任意和认知不确定性的最大值;6)定位和分类上任意或认知不确定性的最大值;7)这四个不确定性的最大值。此比较的结果如表2所示。我们的方法使用了定位和分类任务的任意性和认知性不确定性的最大值,在每次主动学习迭代中始终优于所有其他聚集函数。更具体地说,这两个任务的所有不确定性的最大值显示了在主动学习中比其他任务更好的数据选择性能。基于这些结果,我们使用所有不确定性的最大值作为主动学习过程中的评分函数,并与其他主动学习研究进行了比较。

在表3中,我们总结了作为不确定性度量函数的选择中的重叠。使用这两个不确定性的重叠率对于定位是48%,对于分类是33%。更重要的是,当我们同时考虑本地化和分类的不确定性时,重叠率下降到仅有14%。这表明用于定位和分类的不确定性度量是多样化的,它们的组合改善了图像选择过程。

与SOTA在VOC07上的比较:在表4中,我们总结了我们的方法与文献中相关的主动学习方法相比的主动学习结果和计算代价。为了比较每种方法的计算成本,我们给出了每种方法的参数个数和转发时间。通常,快进(后退)步骤和较小的模型大小导致在主动学习期间的训练成本和数据采样时间较低[19,22]。

为了集中于主动学习,我们将每种抽样方法应用到所提出的GMM结构中来再现所有数字,其中输出是混合分布(即,与Oursgmm相同的模型)。对于合奏,我们遵循[2],建立一个由三个独立模型组成的合奏。对于MC-Dropout,我们将p=0.1的丢弃层添加到构成SSD中额外特征层的六个卷积层中。我们使用25次向前传球计算图像得分[2]。对于这两种方法和基于熵的方法,我们遵循文献中最常用的方法,将最终的图像得分估计为分类头上的平均熵[16]。对于核心集[34],我们遵循[40],使用VGG-16中完全连接的第7层的功能。对于LLAL[40],我们在提出的GMM结构上实现了学习损失预测模块。作为基准,我们在GMM架构上使用随机抽样。注意,我们使用与实验设置中提到的完全相同的超级参数训练所有方法。如表4所示,在每一次主动学习迭代中,我们方法的两个实例都一致地优于所有其他基于单一模型的方法[31,33,34,40]。与基于多模型的方法[11,16]相比,我们提出的方法具有更高的精度,同时所需的计算量要低得多。这些结果表明,尽管我们提出的方法具有较低的计算量,但是与以前的工作相比,我们提出的方法提高了主动学习采样的性能。

[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

好像也没高多少

与SOTA在VOC07+12上的比较:我们现在将我们的方法与VOC07+12上现有的基于单一模型的方法进行比较。这里,我们考虑[40]中报告的SOTA结果,除了熵[33]和随机抽样之外,还包括LLAL[40]和CORE-SET[34]。我们使用与[40]相同的开源和设置来进行公平的比较。为了只关注主动学习,我们基于相同的基线与40进行了性能比较。为了做到这一点,我们使用我们提出的计分函数采样的数据集来训练SSD,在所提出的GMM体系结构中,该体系结构具有更高的参数效率。为了验证初始训练集对比较的影响,我们用不同的种子进行了5个独立的实验,对标签集的初始选择进行了实验。然后,我们得到了0.5246的平均地图,标准差为0.003,这表明当实验使用不同的图像初始子集时,变化很小。如图4a所示,我们的方法优于所有其他基于单一模型的方法。在最后一次主动学习迭代中,我们的方法达到了0.7598mAP,比LLAL[40]的得分(0.7338mAP)高出2.6%,从而显示出基于单一模型的主动学习的高性能改进

最后,我们将我们的方法与使用多个模型的方法进行了比较,即集成[16]和MC-Dropout[11]。对于合奏和MC-Dropout,我们沿用表4中提到的相同设计,并将其应用于SSD。在图4b和图5中,我们给出了这些方法的精度和计算成本的比较。如图4b所示,就精确度而言,我们的方法与MC辍学和集成的性能相当。然而,我们的方法使用单个模型的单次前向传递来估计不确定性,这比基于集成和MC-丢弃的方法更有效。就参数数量而言,MC-Dropout具有与SSD相同的参数数量,因为丢弃层不添加任何新参数,但它需要多个前向传递。我们的方法增加了额外的参数用于估计两种类型的不确定度到每个头部的最后一层,因此,参数的数量比SSD中的多。在基于集合的方法中,参数的数量与集合中的SSD模型的数量成正比[28]。如图5所示,与MC-Dropout和基于集成的方法相比,我们的方法所需的计算开销要小得多。总之,我们的方法为主动学习提供了精确度和计算成本之间的最佳折衷。

[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

VOC07+12:a)与使用单一模型评分的已发表作品进行比较。数字取自[40];b)与多种基于模型的方法、集成方法和MC-Dropout方法进行比较。重现剧情的具体数字在补充材料中有详细说明。

这个好的多一点

与SOTA在MS-COCO上的比较:在表5中,我们总结了我们的方法与文献中的主动学习方法相比的主动学习性能和计算代价。为了只关注主动学习,我们通过将每种采样方法应用于所提出的GMM体系结构(即,与Oursgmm相同的模型)来再现所有数字。对于所有方法,我们都遵循与表4相同的设置。如图所示,在每个主动学习周期中,我们方法的两个实例始终优于所有其他基于单一模型的方法[31,33,34,40]。特别是,LLAL[40]在MS-COCO上表现出与随机抽样类似的准确性,因为它没有考虑数据的巨大多样性和数据集中存在的大量类别。然而,我们的方法在MS-COCO上也显示出很高的准确率。与多个基于模型的方法[11,16]相比,我们方法的两个实例所需的计算量都要小得多,而Oursgmm的性能要优于那些方法,而且我们的方法以更低的计算量显示了具有竞争力的结果。这些结果表明,我们的方法适用于具有更多类的较大数据集。

[论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

; 可扩展性和数据集可传输性

我们的方法并不局限于单级探测器。
这里,在第一个实验中,我们展示了我们的方法如何应用于两级探测器,如FAST-RCNN[32]和FPN[29]。对于本实验,我们使用与表1a中相同的Pascal
VOC数据集。在表6中,我们给出了基于FAST-RCNN的混合模型的精度和计算成本的总结,并以FAST-RCNN为基准。如图所示,我们方法的两个版本都比原始模型有高达1.13的地图改进。重要的是,在这种情况下,我们的方法被应用于FAST-RCNN中区域提议之后的检测网络的输出层,因此计算代价和时延的增加可以忽略不计,因为计算不包括锚盒的数量。

最后,我们研究了主动获取的数据集的可转移性。我们使用不同的主干(例如RESNET-34和RESNET-50[17])以及使用我们的主动采样数据集训练的FASTER-RCNN[32]检测器来比较SSD的性能。我们在表4中的上一个活动学习周期的活动采样数据集中进行了实验。为了完整性,我们还报告了使用随机抽样获得的准确性。我们在表7中总结了本实验的结果。如图所示,使用主动采样数据集训练的网络性能优于使用随机采样训练的网络,最高可提高2.52mAP。总之,我们的方法不仅可以扩展到其他目标检测网络,而且使用我们的方法主动获取的数据集也可以用于训练其他体系结构。

结论

干(例如RESNET-34和RESNET-50[17])以及使用我们的主动采样数据集训练的FASTER-RCNN[32]检测器来比较SSD的性能。我们在表4中的上一个活动学习周期的活动采样数据集中进行了实验。为了完整性,我们还报告了使用随机抽样获得的准确性。我们在表7中总结了本实验的结果。如图所示,使用主动采样数据集训练的网络性能优于使用随机采样训练的网络,最高可提高2.52mAP。总之,我们的方法不仅可以扩展到其他目标检测网络,而且使用我们的方法主动获取的数据集也可以用于训练其他体系结构。

结论

提出了一种新的深度主动学习目标检测方法。我们的方法依赖于混合密度网络,在单个模型的单次正向传递中估计定位和分类任务的两种类型的不确定性,并在评分函数中利用它们。我们提出的概率建模和评分函数在准确率和计算成本方面都取得了显著的性能提升。我们在两个公开可用的数据集Pascal VOC和MS-Coco上进行了广泛的实验。此外,我们的结果表明,我们的方法适用于具有不同体系结构的新模型。

Original: https://blog.csdn.net/qq_33935895/article/details/120454908
Author: 年糕糕糕
Title: [论文解读]Active Learning for Deep Object Detection via Probabilistic Modeling

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/687480/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球