Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)

Abstract

基于深度学习的显著性目标检测方法取得了很大的进步,然而, 物体的尺度变化和类别的未知一直是显著性目标检测任务的 挑战,这些与 多层次和多尺度特征的利用紧密相关。在本文中,提出了 聚合交互模块(tip:本文创新点)聚合相邻层的特征,由于整个工程中仅使用 较小的上/下采样率即可因此引入的噪声较少。为了 从聚合特征中获得更有效的多尺度特征,本文将自交互模块(self-interaction modules )嵌入每个解码器单元中。此外,由 尺度变化引起的类不平衡问题削弱了二元交叉熵损失的影响,并导致预测的空间不一致。因此,本文 利用一致性增强的损失来突出显示前后差异,并保留类内一致性。最后,在五个基准数据集上的实验结果表明,与23种最新方法相比,本文方法 无需进行任何后处理过程,就具有良好的性能。源代码地址: https://github.com/lartpang/MINet.

1、简介

显著性物体检测(Salient object detection ,SOD)旨在 区分视觉上最明显的区域。在数据驱动的深度学习方法的帮助下,它正在快速发展,并已应用于许多计算机视觉领域,例如 视觉跟踪,图像检索,非照片级渲染,4D显著性检测,无参考的合成图像质量评估等。虽然目前已经取得了很大的进展,但仍有两个问题需要注意, 一是如何从尺度变化的数据中提取更多的有效信息 ,二是如何提高这种情况下预测的空间一致性 。由于显 著区域的尺度不同,基于CNN的方法由于 重复的子采样缺乏必要的细节信息,难以持续准确地分割不同尺度的突出物体(图1)。另外, 考虑到卷积运算固有的本地局部性和交叉熵函数的像素级特征,很难实现物体的均匀显著性提取。

Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)

图1:几个具有 大小变化对象的可视化示例及其由提出的MINet、AFNet、 CPD和PAGR方法生成的预测

对于第一个问题( 如何从尺度变化的数据中提取更多的有效信息),现有方法的主要解决方法是 逐层整合较浅的特征。有些方法通过将编码器中 相应层次的特征连接到解码器中(图2(a,c,e))。

Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)

图2, 不同架构的图示。绿色块、橙色块和灰色块分别表示 编码器、传输层和解码器中的不同卷积块。左栏:编码器和传输层之间的连接模式;右栏:传输层和解码器之间的连接模式。 (a, e) FCN [22]; (b)Amulet [51]; (c) BMPM [48]; (d) AIMs (Sec. 3.2); (f) DSS [13];(g) DGRL [34]; (h)SIMs (Sec. 3.3).

单层特征只能表征 特定尺度的信息, 在自上而下的路径中,由于 深层特征的不断积累,浅层特征的细节表示能力被削弱。为了利用多层次特征,一些方法 将多层次的特征以全连接的方式或 启发式/试探 的方式进行整合(图2(b,f,g))。然而, 过多的特征整合不同分辨率之间缺乏平衡, 容易导致计算成本高、噪声多、融合困难, 从而 扰乱了后续自上而下路径的信息恢复。此外, 空间金字塔池化模块(ASPP)和金字塔池化模块(PPM)被用于提取多尺度的上下文感知特征并对单层特征表示进行了改进。然而,现有的方法通常是 在编码器后面配备这些模块,这就导致它们的 网络由于顶层特征的低分辨率的限制而错过了许多必要的细节。

对于第二个问题(如何提高尺度变化这种情况下预测的空间一致性 ),现有的一些模型[ 41,27 ]主要使用一个特定的分支或者一个额外的网络来细化结果。然而,这些方法都面临计算冗馀和训练困难的问题,不利于进一步的应用。

受Zhang等提出的相互学习思想(《 Deep mutual learning》)的启发,本文提出了一种 聚合交互策略(aggregated interaction strategy,AIM),以 更好地利用多层次特征,避免大分辨率差异造成的特征融合干扰(图2(d)),并且通过 协同学习知识引导,有效整合相邻分辨率的上下文信息。为了进一步从提取的特征中获得丰富的尺度特异性信息,本文还设计了一个自 交互模块(SIM)(图2(h))。两个 不同分辨率的交互分支被训练成从单个卷积块中学习多尺度特征, AIM和SIM有效地提高了SOD任务中处理尺度变化的能力。

与《 Deep mutual learning》中的设定不同,在这两个模块中, 相互学习机制被纳入到特征学习中。每一个分支都可以通过 交互学习更灵活地整合来自其他分辨率的信息。在AIM和SIM中, 主分支(图4中的B1和图5中的B0)由辅助分支补充,其分辨能力得到了进一步的增强。此外,多尺度的问题也会导致数据集中前景和背景区域之间的严重失衡,因此 在训练阶段引入了一个一致性增强损失(CEL),它 对物体的尺度不敏感。同时,CEL可以更好地处理空间一致性问题,在不需要额外参数的情况下 均匀地突出显著区域,因为其梯度具有 保持类内一致性和扩大类间差异的特点

Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)

本文的贡献可概括为三个方面:

1、所提出的 MINet能够有效地应对SOD任务中的挑战。聚合交互模块(AIM)可以通 过相互学习的方式有效地利用相邻层的特征,自我交互(SIM) 模块则使网络可以自适应地从数据中提取多尺度信息,并更好地应对尺度变化

2、提出 增强损失函数,以协助模型统一突出显示整个显著区域,并更好地处理由 各种比例的物体引起的前、后区域之间的像素不平衡问题,而无需任何后处理或额外处理。

3、本文的方法与五个数据集上的23种最先进的SOD方法进行了比较。在不同的评估指标下,它都能实现最佳性能。此外,该模型在GPU上具有35 FPS的正向推理速度。

2、最近工作

2.1、显著性目标检测

早期的方法主要是基于手工制作的先验指标 [5, 39, 49, 47]。它们的通用性和有效性是有限的。早期的深度显著性目标检测方法 [57, 16]使用多层感知来预测 图像中每个处理单元的显著性性分数。这些方法的计算效率很低,而且 破坏了 潜在的特征结构。参见[2, 35],了解更多关于传统和早期深度学习方法的细节。

最近,一些方法[20, 53]引入了全卷积网络(FCN)[22],并取得了可喜的重新发展。并取得了很好的效果。此外,Liu等人[20]将 全局和局部上下文模块 分层嵌入到自上而下的路径中,为每个像素构建了信息语境特征。陈等人。 [4] 在自上而下的路径中提出反向注意来指导残差显着性学习,从而驱动网络发现补充对象区域和细节。尽管如此,上述方法仅在每个解码器单元中 使用单独的分辨率特征,这对于应对复杂和各种尺度问题来说并不是一种足够有效的策略。

2.2、尺度变化

尺度变化是 SOD 任务的主要挑战之一。受限于局部卷积操作和子采样操作,CNN很难处理这个问题。一方面,嵌入在不同分辨率特征中的关于物体的信息量随着物体的尺度而变化。一个直截了当的策略是粗略地整合所有的特征。另一方面,每个卷积层只具有处理特定尺度的能力。 因此,我们需要通过 构建多路径特征提取结构来表征单层的多尺度信息。

多层次信息。张等人。 [51] 简单地将所有层次的特征组合到传输层中。 这种粗略的融合容易产生信息冗余和噪声干扰。在[48]中,利用门函数来控制消息传递率,以优化层间信息交换的质量。然而,多重门控处理会导致来自其他层的信息严重衰减,从而限制了网络的学习能力。 与这些方法不同的是,我们只融合相邻层的特征,因为它们的抽象程度更接近,同时获得了丰富的尺度信息。

多尺度信息。空间金字塔池化模块(ASPP)和金字塔池化模块(PPM) [55] 是多尺度信息提取的两种常见选择,并且通常固定在网络中的最深层 [ 6, 32]。由于较深的特征包含的小尺度对象信息较少,尤其是顶层特征,这些方法无法有效处理大尺度变化。此外,在[37]中,金字塔注意力模块可以通过对所有位置进行多次下采样和softmax操作来获得多尺度注意力图来增强特征。 但是这样的softmax严重抑制了非最大值,对噪声更敏感。 它不能很好地改善尺度问题。为了避免误判小物体,我们提出了一个 多尺度处理模块,其中 两个分支交互学习特征。 通过数据驱动的训练, 双路径结构可以学习到丰富的多尺度表示。 此外,过大和过小的物体会造成前景和背景样本的不平衡,削弱了像素级监督的效果。 我们引 入了一致性增强损失(CEL)作为交叉熵损失的辅助。 CEL对物体的大小不敏感,可以克服监督的困难,在面对大尺度变化时表现非常好。

2.3、空间相干性

为了提高显着性图的空间连贯性和质量,一些非深度学习方法方法通常整合生成区域 [44]、超像素 [45] 或目标建议 [11] 的超分割方法。 对于基于深度学习的方法,Wuetal[41] 提出了一个具有两个分支的级联部分解码器框架,并直接利用注意力分支生成的注意力图来细化显着性检测分支的特征。 秦等人。 [27]采用残差细化模块结合超损失来进一步细化预测,这显着降低了推理速度。 在本文中,CEL 更加关注预测的整体效果。 它有助于获得更均匀的显着性结果,是效果和速度之间更好的权衡。

3、提出的方法

在本文中,我们提出了一种交互式集成网络,它融合了多层次和多尺度的特征信息,以处理显著性目标检测(SOD)任务中普遍存在的尺度变化问题。

Original: https://blog.csdn.net/qq_39172845/article/details/124598146
Author: 心之所向便是光v
Title: Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/681125/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球