论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

GiraffeDet: A Heavy-Neck Paradigm for Object Detection
一般我们遇见的检测器都是更偏重于骨干网络的设计,采用重骨干轻neck的设计理念,本文是采用了轻backbone,重neck的方式。 该结构可进行不同空间尺度以及不同级别潜在语义的密集信息交换,。这种设计范式帮助检测器在网络的早期阶段以相同的优先级处理高级语义信息和低级空间信息,使其在检测任务中更有效,同时,该论文提出以S2D Chain为组合模块,构建light backbone,再以Queen Fuse和Skip Connect构建GFPN作为颈部模块,与以往检测器的backbone>neck(FLOPS)的构建方式不同,GiraffeDet的neck在参数量和计算量上远超backbone。
论文地址
参考

GiraffeDet: A Heavy-Neck Paradigm for Object Detection

摘要

在传统的目标检测框架中,模型从骨干提取深层潜在特征,然后由颈部模块融合这些潜在特征,捕获不同尺度的信息。由于目标检测的对分辨率的要求比图像识别的要大得多,因此骨干网的计算成本往往占据了大部分推理成本。这种重骨干的设计范式在传统图像识别往目标检测发展时遗留了下来,但这种范式并不是针对目标检测的端到端优化设计。在这项工作中,我们证明了这种范式确实只能产生次优的目标检测模型。为此,我们提出了一种新的重颈设计范式,GiraffeDet,一种类似长颈鹿的有效物体检测网络。 GiraffeDet 使用了一个非常轻的主干和一个非常深和大的颈部模块,这种结构可进行不同空间尺度以及不同级别潜在语义的密集信息交换。这种设计范式帮助检测器在网络的早期阶段以相同的优先级处理高级语义信息和低级空间信息,使其在检测任务中更有效。 多个流行的检测基准测试评估表明,它始终优于以前的 SOTA 模型

1.introduction

在过去的几年中,基于深度学习的目标检测方法取得了显著的进展。尽管目标检测网络在架构设计、训练策略等方面变得越加强大, 但检测对于large-scale变化的目标并没有改变例如,COCO数据集中最小的10%和最大的10%对象实例的缩放分别是0.024和0.472 (Singh & Davis, 2018),缩放几乎是20倍。这给使用最近的方法来处理如此大规模的变化带来了极大的挑战。为此,我们通过设计一个有效稳健的方法来解决这个问题。 为了缓解由large-scale变化引起的问题,一种直观的方法是使用多尺度金字塔策略来进行训练和测试工作在图像金字塔的相同尺度上训练和测试探测器,并选择性地反向传播不同大小的物体实例的梯度,作为图像尺度的函数。虽然这种方法提高了大多数现有cnn检测器的检测性能,但它并不实用, 因为图像金字塔方法需要处理每个不同比例的图像,计算比较昂贵此外,在使用预先训练的分类骨干时,分类和检测数据集之间的对象规模仍然是领域转移的另一个挑战
后来,提出了特征金字塔网络,近似图像金字塔的方式但成本更低。近期的研究仍然依赖于优越的主干设计,但这会使得高级特征与低级特征之间的信息交换不足。
提出特征金字塔网络以较低的计算代价来近似图像金字塔。目前的方法仍然依赖于较好的骨干设计,但缺乏高层次特征与低层特征之间的信息交流。例如,一些工作通过自底向上的路径扩展来增强整个特征层次,在底层精确定位信号,但 这种自底向上的路径设计可能缺乏高层语义信息和低层空间信息的交换
根据以上挑战,本次任务提出以下两个问题:

1•在一个检测模型中,图像分类任务的主干是必不可少的吗?
2•哪些类型的多尺度表达对检测任务有效?

小结一下:
目前目标检测在large-scale变化的目标表现不佳,为此常规方法是采用金字塔结构,如图像金字塔或者特征金字塔的方式。图像金字塔在处理不同比例的图像时计算比较高昂,为此并不实用;特征金字塔虽然成本比图像金字塔低,但是存在高级特征与低级特征信息交换不足的问题。
抛出问题:1.backbone是否必不可少?哪些类型的多尺度表达对检测任务有效?

继续往下看:(重点在这:)

这两个问题促使我们设计一个包含两个子任务的新框架, 即高效的特征降采样和充分的多尺度融合。首先, 用于提取特征的传统骨干计算成本昂贵且存在领域偏移(domain-shift)问题一个可替代的轻量级骨干可以解决这些问题。其次, 检测器学习足够的高层次语义特征和低层空间特征融合信息是至关重要的。基于以上动机,我们设计了一个类似长颈鹿的网络,命名为GiraffeDet,其见解如下:(1) 一种可替代的轻量级骨干可以在不增加任何计算成本的情况下提取多尺度特征变换。(2) 足够的跨尺度连接,即Queen- fusion,就像国际象棋中的Queen Piece路径,能够处理不同层次的特征融合。(3) 根据设计的轻量级骨干网和灵活的FPN,我们为每个FLOPs级别提出了一个GiraffeDet家族。值得注意的是,实验结果表明我们的GiraffeDet家族在每个FLOPs级别上都达到了更高的准确率和更高的效率。

综上所述, 我们的工作主要贡献如下:
•据我们所知,我们提出了第一个轻量级替代骨干网和灵活的FPN结合作为检测器。GiraffeDet系列由S2D-chain和Generalized-FPN组成,展示了最先进的性能。
•我们设计了轻量级的空间到深度链(S2D-chain),而不是传统的基于cnn的骨干,控制实验表明,在目标检测模式中,FPN比传统骨干更关键。
•在我们提出的Generalized-FPN(GFPN)中,提出了一种新的皇后融合作为我们的跨尺度连接方式,融合了以前和当前层的级别特征,log2n跳过层链路提供了更有效的信息传输,可以扩展到更深的网络。基于轻骨干和重Neck的模式,GiraffeDet家族在各种各样的FLOPs性能权衡中表现良好。特别是,使用多尺度测试技术,GiraffeDet-D29在COCO数据集上实现了54.1%的mAP,优于其他SOTA方法。

2.related work

通过学习尺度特征来识别目标是定位目标的关键。large-scale问题的传统解决方案主要还是基于改进的CNN网络。基于CNN的目标探测器主要分为两级探测器和一级探测器。近年来,主要的研究路线是利用金字塔策略,包括图像金字塔和特征金字塔。 图像金字塔策略通过缩放图像来检测实例。例如,Singhetal在2018年提出了一种快速的多尺度训练方法,该方法对真实物体周围的前景区域和背景区域进行采样,进行不同尺度的训练。与图像金字塔方法不同, 特征金字塔方法融合了不同尺度和不同语义信息层的金字塔表达。例如,PANet通过额外的自下而上的路径来增强特征金字塔网络顶部的特征层次结构。此外,NAS-FPN利用神经结构自动搜索来探索特征金字塔网络拓扑。 我们的工作重点是特征金字塔策略,并提出了一种高级语义和低层次空间信息融合方法。一些研究人员开始设计新的CNN架构来解决large-scale的问题,FishNet通过设计跳跃连接的编码器-解码器架构来融合多尺度特征。SpineNet被设计为一个主干+具有尺度排列的中间特征+跨尺度连接的方式,通过神经结构搜索进行学习。我们的工作受到了这些方法的启发,因此提出了一个轻量级的空间深度骨干,我们的网络设计轻骨干重颈头的体系结构,在检测任务中被证明是有效的。

3.THE GIRAFFEDET

虽然已经开展了大量的研究来研究有效的目标检测,但large-scale仍然是一个挑战。为了实现有效的多尺度信息交换,我们提出了用于高效目标检测的GiraffeDet,”giraffe”由轻量级的空间到深度链(S2D-chain)、Generalized-FPNfpn和预测网络组成。整个框架如图1所示,它主要遵循一级检测器范式。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

; 3.1 LIGHTWEIGHT SPACE-TO-DEPTH CHAIN

大多数特征金字塔网络都采用传统的基于cnn的网络作为骨干,提取多尺度特征图,甚至进行信息交换学习。然而,随着CNN的发展,最近的骨干变得更加沉重,利用它们的计算成本很高。此外, 最近应用的主干主要是在分类数据集上进行预训练,如ResNet50在ImageNet上进行预训练, 我们认为这些预训练的主干不适合用于检测任务,仍然是domain-shift(领域偏移)问题。相反, FPN更强调高级语义和低级空间信息交换。因此,我们认为在目标检测模型中,FPN比传统主干更加关键

灵感来自(Shi等人,2016;Sajjadi等人,2018), 我们提出空间到深度链(S2D-chain)作为我们的轻量级骨干,其中包括两个3×3卷积网络和堆叠的S2D块。具体来说,3×3卷积用于初始下采样,并引入更多的非线性变换。 每个S2D块由一个S2D层和一个1×1卷积组成。S2D层通过固定间隔对特征进行均匀采样和重组,将空间维度信息移动到深度维度,在没有额外参数的情况下对特征进行下采样。然后使用1×1卷积提供一个通道级池以生成固定维度的特征图。更多细节见附录A.1。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
上面这两张图结构也是比较简单的,同时还可以看出每一层的FLOPs。
为了验证我们的假设,我们在第4节中对相同FLOPs的多个目标检测进行了不同骨干和颈部计算率的对照实验。结果表明,在目标检测任务中,颈部比传统的骨干更重要。(实验在后面,等会看)

3.2 GENERALIZED-FPN

在特征金字塔网络中,多尺度特征融合的目的是聚合从骨干网络中提取的不同feature map。图3显示了特征金字塔网络设计的演化过程。传统的FPN (Lin et al., 2017a)引入了自顶向下的路径来融合从3级到7级的多尺度特征。考虑到单向信息流的局限性,PANet(Liu et al., 2018)增加了额外的自底向上路径聚合网络,但计算成本更高。此外,BiFPN (Tan et al., 2020)删除了只有一个输入边的节点,并在同一层上从原始输入添加额外的边。然而,我们观察到, 以往的方法只关注特征融合,而缺乏内部块连接。因此, 我们设计了一种新的路径融合,包括跳跃层和跨尺度连接(skip-layer and cross-scale connections),如图3(d)所示。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
图三中的abc我们应该都很熟悉了,不熟悉的可以看特征金字塔讲解等的相关讲解。
在这篇文章重点是提出了d(GFPN)。GFPN包含(skip-layer and cross-scale connections)
1.Skip-layer连接。与其他连接方法相比,在反向传播过程中跳跃式连接的特征层之间的距离较短。为了减少”减少heavy-neck”的梯度消失,我们提出了两种特征链接方法:在我们提出的GFPN中,dense-link and log2n-link ,如图4所示。
论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
由图可以看到第一个(a)是所有的连接都连上了,(b)是最多连接log2n+1个连接。(下面的公式也是讲解这个意思,可以不看)

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
看完Skip-layer连接,接下来看一下跨尺度连接:

2.跨尺度连接(cross-scale connections): 基于我们的假设,我们设计的信息交换模块不仅应该包含跳跃层连接,还应该包含跨尺度连接,以克服多尺度的变化。因此, 我们提出了一种新的跨尺度融合,称为皇后融合,即考虑如图 3(d)所示的同层和邻层的特征。如图 5(b)所示的一个例子,皇后融合的连接包括前一层的下采样, 本研究中,我们分别采用双线性插值和最大池化作为上采样和下采样函数。因此, 在极端尺度变化的情况下,该模型需要具有足够的高、低层次的信息交换。基于我们的跳跃层和跨尺度连接的机制,我们提出的Generalized-FPN可以尽可能地扩展,就像”长颈鹿颈部”一样。有了这样”沉重的脖子和轻质的脊梁,我们的GiraffeDet可以取得更高的精度和更好的效率。”

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
刚刚的Skip-layer连接可以说是全局的结构图,而跨尺度连接则展示的是更加细节的内容,包括连接处的结构。图5是展示了PANet以及本文所提出的Queen-fusion。
下面是panet的细节图:
论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

; 3.3 GIRAFFEDET FAMILY

ps:这里其实是讲了giraffedet的系列,根据系数缩放GFPN的深度和宽度得到。
根据我们提出的s2d-chain和Generalized-FPN,我们可以开发一系列不同的GiraffeDet缩放模型,可以克服广泛的资源约束。以前的工作以低效的方式扩大其检测器,如改变较大的骨干网,如ResNeXt (Xie等人,2017),或堆叠FPN块,如NAS-FPN (Ghiasi等人,2019)。特别是effentdet (Tan et al., 2020)开始使用复合系数φ来联合放大骨干的各个维度。与effentdet不同的是,我们只关注GFPN层的扩展,而不是包括轻量级骨干网在内的整个框架。具体地,我们采用φd和φw两个系数来灵活地缩放GFPN的深度和宽度。

基于我们的GFPN和eS2D链,我们开发了一个GiraffeDet家族。大多数以前的工作通过改变更大的骨干网络来扩展基线检测器,因为他们的模型主要关注单一或有限的缩放维度。由于我们假设主干对目标检测任务不是至关重要的,因此GiffeDet家族只关注广义fpn的扩展。提出了两个乘数来控制GFPN的深度(#的层)和宽度(#的通道):

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

4 EXPERIMENTS

到了实验部分了。
在本节中,我们首先介绍实现细节,并展示我们在COCO数据集上的实验结果(Lin et al., 2014)。然后将我们提出的GiraffeDet家族与其他最先进的方法进行比较,并提供深入的分析,以更好地理解我们的框架。

4.1 DATASET AND IMPLEMENTATION DETAILS

COCO数据集。我们在含有80个对象类别的COCO 2017检测数据集上对GiraffeDet进行了评估。它包括115k图像用于训练(train), 5k图像用于验证(val), 20k图像用于测试(test – dev),没有public ground-truth 。所有方法的训练都是在115k训练图像上进行的。我们报告消融研究的验证数据集的结果,以及来自评估服务器的testdev数据集的结果,用于最先进的比较和DCN相关的比较。

为了进行公平的比较,所有的结果都是在mmdetection框架和标准的 coco 式评估方案下进行。 所有模型都从头开始进行训练,以减少骨干对ImageNet 的影响。输入图像的短边被调整到 800,最大尺寸被限制在 1333 范围内。为了提高训练的稳定性,我们对所有模型采用多尺度训练,包括:在 R2-101-DCN 主干实验中使用 2x imagenet-pretrained (p-2x) 训练方案(24 epoch,在 16 和 22 epoch 衰减),3x scratch(s-3x)训练方案(36 epoch,在 28 和 33衰减)和目前SOTA网络比较中的 6x Scratch (s-6x) 的训练方案(72 epochs,在 65 和 71 epochs 衰减)。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

; 4.2 COCO 数据集的评价

为了公平的比较,我们还使用了RetinaNet、FCOS、HRNet、GFLV2等模型,进行了 6 次训练,记为七大方差。根据图 6 的性能,我们可以观察到我们提出的 GiraffeDet 在每个像素尺度范围内都取得了最好的性能,这表明轻主干和重颈部的设计范式以及我们提出的GFPN可以有效地解决大尺度方差问题。此外,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换。许多实例小于图像面积的1%,这使得很难被检出,但我们的方法在像素 0-32 范围内仍然比RetinaNet高5.7个map,在中间像素80-144范围内具有相同的 map。值得注意的是,在像素为 192-256 的 范 围 内 , 所提出的GiraffeDet性能优于其他方法,这证明了我们的设计可以有效地学习对不同尺度的特征。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
从表 2 可以看出,我们的 GiraffeDet 对比每个相同级别的探测器具有更好的性能,这表明我们的方法可以有效地检测目标。

1)与基于 resnet 的低水平 FLOPs 尺度上的方法相比,我们发现,即使总体性能没有明显提高太多, 但我们的方法在检测小对象情况和大对象情况方面都有显著的性能。这表 明我们的方法在大尺度变化的数据集上表现更好

2)与基于 ResNexts 的方法相比,我们发现 GiraffeDet 比低水平 FLOPs 具有更高的性能, 这表明良好的 FPN 设计比主干更重要

3)与其他方法相比,所提出的GiraffeDet也具有SOTA性能,证明了我们的设计在每个FLOPs 水平上都获得了更高的精度和更高的效率。此外, 基于NAS的方法在训练过程中消耗了大量的计算资源,因此我们不考虑与我们的方法进行比较。最后,通过多尺度测试方案,我们的 GiraffeDet 达到了 54.1%的 mAP,特别是APs增加了2.8%, APl增长 2.3%,远远超过APm增加了1.9%。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

4.3 ABLATION STUDY

GiraffeDet的成功可以归因于框架设计和每个组件的技术改进。为了分析GiraffeDet中各成分的作用,我们构建了消融研究,包括:1)在广义fpn中的连接分析;2) GFPN的深度和宽度;3)骨干讨论;4)带DCN的GirrafeDet。更多消融研究见附录C. 7

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
Skip-layer连接。根据GiraffeDet的gfpn – density和GFPN-log2n颈部的结果,我们 观察到log2n连接的性能最好,而密集连接的性能只比没有任何跨层连接的性能稍好。这说明log2n连接提供了从早期节点到后期更有效的信息传输,而密集连接可能提供了冗余信息传输。同时,log2n连接可以在同一级别的FLOPs上提供更深层次的广义fpn。值得注意的是,这两种广义fpn连接都获得了比堆叠式BiFPN更高的性能,这可以证明我们提出的GiraffeDet可以更高效。
Cross-scale连接。从表3可以看出, 通过双向信息流,堆叠的PANet和堆叠的BiFPN可以达到比其基本结构更高的精度,这说明了信息交换在FPN结构中的重要性。总的来说,我们的GiraffeDet模型可以取得更好的性能, 这证明了我们的Queen-fusion可以从之前的节点获得足够的高层和低层信息交换。特别是,即使没有跨层连接,我们的广义fpn仍然可以优于其他方法

深度和宽度的效果。为了进一步与不同的”颈部”进行公平比较,我们 在相同的FLOPs级别上与堆叠的基本FPN、PANet和BiFPN进行了两组实验比较,以分析我们提出的广义FPN的深度和宽度(信道数)的有效性。请注意,如图3所示,我们的GFPN和FPN的每一层都包含一个深度,而PANet和BiFPN层包含两个深度。如表4所示,我们发现我们提出的GFPN在各种FPN中深度和宽度都优于其他FPN,这也说明log2n连接和Queen-fusion能够有效地提供信息传输和交换。此外, 我们提出的GFPN可以在更小的设计中获得更高的性能

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
backbone影响。图7显示了不同颈部深度和不同骨干在相同FLOPs级别中的性能。结果表明, S2D-chain与GFPN的结合性能优于其他骨干模型,验证了我们的假设,即FPN更关键, 传统骨干不会随着深度的增加而提高性能。特别地, 我们可以观察到性能甚至随着骨干模型的增长而下降我们认为这可能是因为在一个较大的主干中,领域偏移问题仍然较高,这也证明了我们的假设。
论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection
在表7中我们可以看到在GFLOPs大小相同级别的情况下,

a:骨干:S2D-chain 特征金字塔:GFPN-D11—–>精度:41.8%
b:骨干:resnet18 特征金字塔:GFPN-D10—–>精度:41.6%
分析:a的骨干占比很低,但是颈部略高的情况下却可以达到骨干占比高颈部占比略低情况下的精度。

b:骨干:resnet18 特征金字塔:GFPN-D10—–>精度:41.6%
c:骨干:resnet34 特征金字塔:GFPN-D8—–>精度:41.1%
分析:b、c比较时,c的骨干更深,颈部占比比b低,同时精度比b低。说明颈部确实更重要。

b:骨干:resnet18 特征金字塔:GFPN-D10—–>精度:41.6%
d:骨干:resnet18 特征金字塔:BiFPN—–>精度:40.9%
分析:b和d比较,骨干是一样的,d用的特征金字塔为BiFPN,b用的GFPN-D10,而b的精度更高,说明GFPN的效果比BiFPN更佳。

b:骨干:resnet18 特征金字塔:GFPN-D10—–>精度:41.6%
c:骨干:resnet34 特征金字塔:GFPN-D8—–>精度:41.1%
e:骨干:resnet50 特征金字塔:GFPN-D7—–>精度:40.8%
g:骨干:resnet101 特征金字塔:GFPN-D2—–>精度:38.7%
分析:在骨干都是resnet的情况下(仅层数不同),当骨干占比越高,颈部占比越低,最后的精度越低,说明,颈部更重要。

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

; Results with DCN.。

然后,我们进行实验,分析我们的GiraffeDet中的变形卷积网络(DCN)(Dai et al., 2017),该网络最近被广泛用于提高检测性能。如 表5所示,我们观察到DCN可以显著提高我们的GiraffeDet的性能。特别是从表2可以看出, 使用DCN的giraffe – d11比giraffe – d16具有更好的性能。同样 在可接受的推断时间下,我们观察到这样一个带有强DCN骨干的浅层GFPN(微小)可以提高性能,并且性能随着GFPN深度的增加而大幅度提高,如表6所示。需要注意的是,作为GFPN的设计,我们的GiraffeDet更适合于scratch训练,有明显的改善。

conclusion

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

读后感:
这篇文章也是提供了一种新思路,常规改进网络中我们都更加关注于骨干网络的设计,而这篇文章却说明了,颈部的设计更加重要,但是我认为缺少一些实验验证,如对比验证在GFLOPs在同一级别时,其他的特征金字塔如BiFPN在不同深度宽度占比的情况下,骨干都是resnet时精度的影响。但是该文作者提出的特征金字塔GFPN在应对尺度变化大的目标上效果很好,确实是一个很好的借鉴。

Original: https://blog.csdn.net/dear_queen/article/details/124289353
Author: dear_queen
Title: 论文阅读-GiraffeDet: A Heavy-Neck Paradigm for Object Detection

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/681843/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球