结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

2023年5月30日下午8:25 • 人工智能 • 阅读 67

结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

一、Abstract
二、引言
三、相关工作
*
3.1 参考图像分割
3.2 Transformer
四、方法
*
4.1 语言感知视觉编码
4.2 像素-词注意力模块 (PWAM)
4.3 语言路径
4.4 分割
4.5 实施细节
五、实验
*
5.1 数据集与评估指标
5.2 与其他方法的比较
5.3 消融实验
–
- 5.3.1 语言路径 LP
- 5.3.2 像素-单词注意力模块 PWAM
- 5.3.3 语言门中的激活函数
- 5.3.4 PWAM 中的归一化层
- 5.3.5 用于预测的特征
- 5.3.6 多模态注意力模块
5.4 预测可视化
5.5 同相关方法的公平比较
六、结论
七、附录
*
A 语言模型中潜在的偏见
B 语言路径
C 准确率-召回率分析
D MIoU
E 可视化

写在前面

这篇文章同样是参考图像分割，区别于上一篇：
无卷积结构(那就纯ransformer)的参考图像分割：ReSTR: Convolution-free Referring Image Segmentation Using Transformers

，这篇结合了当下最主流的 Swim-Transformer 网络，性能着实强悍，且新颖度很高，是篇好论文。

论文地址：LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
代码地址：GitHub
收录于：CVPR 2022

一、Abstract

摘要不同寻常，上来夸下同行们用 “cross-modal” 解码器 / Transformer 架构做的好，吹了一半的摘要都是这个。接下来一半提出自己的方法，在视觉编码器中间层进行”提前融合”效果会好很多，RefCOCO、RefCOCO+、G-Ref 数据集上超越了目前的主流方法一大截。

二、引言

照例，第一段给出参考图像分割的定义、应用以及挑战。
第二段对目前已有方法的介绍：采用不同的编码器提取视觉和语言特征，送入跨模态解码器。
第三段强调之前的方法未能在编码器中利用多模态上下文特征，因此一个可能的解决办法是在视觉编码阶段同时进行视觉和语言 embedding。
第四段描述本文提出的方法，语言感知的视觉 Transformer 网络 (LAVT)：

结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

通过逐词注意力机制将语言特征整合到视觉特征中，去掉了跨模态解码器，取而代之的是一个轻量化的 mask 预测器。
第四段讲本文的实验在 RefCOCO、RefCOCO+、G-Ref、G-Ref 数据集上性能很强。
最后本文贡献：提出 LAVT，去掉了跨模态融合；在三个数据集上性能很牛皮。

; 三、相关工作

3.1 参考图像分割

一般的做法：从文本和图像上分别提取特征，融合多模态特征来预测分割的 mask。接下来对之前的多模态融合方法进行介绍。
与本文最相关的方法是 VLT 和 EFN：

【VLT】Henghui Ding, Chang Liu, SuchenWang, and Xudong Jiang. Vision-language transformer and query generation for referring segmentation. In ICCV, 2021. 1, 2, 6, 8

【EFN】 Guang Feng, Zhiwei Hu, Lihe Zhang, and Huchuan Lu. Encoder fusion network with co-attention embedding for referring image segmentation. In CVPR, 2021. 2, 4, 6, 8

其中 VLT 采用 Transformer decoder 融合视觉-语言特征，EFN 采用卷积网络编码语言信息。本文提出的方法不同于这两者，在 Transformer encoder 中对特征进行提前融合。

3.2 Transformer

老生常谈的，略过。最后补刀：很少有尝试设计统一的 Transformer 模型建模推理图像分割。

四、方法

; 4.1 语言感知视觉编码

采用视觉表示模型 (BERT) 从表达式中提取 embedding 向量 L ∈ R C t × T L\in\mathbb {R}^{{C}{t}\times T}L ∈R C t ×T，C t {C}{t}C t 和 T T T 分别是通道数和最大词数。
另外一边，根据 Swin Transformer 的四个阶段，本文也设计了这样四个阶段，不同的是采用 pixel-word attention module (PWAM) 模块进行多模态融合，其中主要部分：语言门 Language gate (LG)，用于管理语言在语言路径 Language pathway (LP) 上的信息流动。

4.2 像素-词注意力模块 (PWAM)

重点来了：给定视觉特征 V i ∈ R C i × H i × W i V_{i}\in{\mathbb{R}^{C_{i}\times{H}{i}\times{W}{i}}}V i ∈R C i ×H i ×W i 和语言特征 L ∈ R C t × T L\in\mathbb {R}^{{C}{t}\times T}L ∈R C t ×T，根据上图有：
V i q = flatten ( ω i q ( V i ) ) , L i k = ω i k ( L ) , L i v = ω i v ( L ) , G i ′ = softmax ⁡ ( V i q T L i k C i ) L i v T , G i = ω i w ( unflatten ⁡ ( G i ′ T ) ) , \begin{aligned} V{i q} &=\text { flatten }\left(\omega_{i q}\left(V_{i}\right)\right), \ L_{i k} &=\omega_{i k}(L), \ L_{i v} &=\omega_{i v}(L), \ G_{i}^{\prime} &=\operatorname{softmax}\left(\frac{V_{i q}^{T} L_{i k}}{\sqrt{C_{i}}}\right) L_{i v}^{T}, \ G_{i} &=\omega_{i w}\left(\operatorname{unflatten}\left(G_{i}^{\prime T}\right)\right), \end{aligned}V i q L i k L i v G i ′G i =flatten (ωi q (V i )),=ωi k (L ),=ωi v (L ),=s o f t m a x (C i V i q T L i k )L i v T ,=ωi w (u n f l a t t e n (G i ′T )),其中 ω i q \omega_{i q}ωi q 、ω i k \omega_{i k}ωi k 、ω i v \omega_{i v}ωi v 、ω i w \omega_{i w}ωi w 都是可学习的 1 × 1 1\times 1 1 ×1 卷积权重。之后联合语言特征 G i G_{i}G i 和视觉特征 V i V_{i}V i ，通过逐元素乘积得到多模态特征图：
V i m = ω i m ( V i ) F i = ω i o ( V i m ⊙ G i ) \begin{aligned} V_{i m} &=\omega_{i m}\left(V_{i}\right) \ F_{i} &=\omega_{i o}\left(V_{i m} \odot G_{i}\right) \end{aligned}V i m F i =ωi m (V i )=ωi o (V i m ⊙G i )注意每次的 1 × 1 1\times 1 1 ×1 卷积后面都会跟着 R e L U ReLU R e L U 激活函数。

; 4.3 语言路径

为防止 F i F_i F i 占据太大比重，淹没视觉信息 V i V_i V i ，设计语言门 LG 来学习逐元素权重图，从而对 F i F_i F i 放缩。

用公式表示为：
S i = γ i ( F i ) E i = S i ⊙ F i + V i \begin{array}{l} S_{i}=\gamma_{i}\left(F_{i}\right) \ E_{i}=S_{i} \odot F_{i}+V_{i} \end{array}S i =γi (F i )E i =S i ⊙F i +V i 其中 ⊙ \odot ⊙ 表示逐元素乘积，γ i \gamma_{i}γi 为双层感知机：1 × 1 1\times 1 1 ×1 卷积 + R e L U ReLU R e L U + 1 × 1 1\times 1 1 ×1 卷积 + T a n h Tanh T a n h。

4.4 分割

联合多尺度特征图 F i , i ∈ { 1 , 2 , 3 , 4 } F_i,i\in \left{1,2,3,4\right}F i ,i ∈{1 ,2 ,3 ,4 }，以自上而下的方式进行解码：
{ Y 4 = F 4 Y i = ρ i ( [ v ( Y i + 1 ) ; F i ] ) , i = 3 , 2 , 1. \left{\begin{aligned} Y_{4} &=F_{4} \ Y_{i} &=\rho_{i}\left(\left[v\left(Y_{i+1}\right) ; F_{i}\right]\right), \quad i=3,2,1 . \end{aligned}\right.{Y 4 Y i =F 4 =ρi ([v (Y i +1 );F i ]),i =3 ,2 ,1 .其中 [ ; ] \left [ ; \right][;] 表示特征通道上的拼接操作，v v v 表示双线性上采样插值，ρ \rho ρ 表示两层的 3 × 3 3\times 3 3 ×3 卷积 + Batch Norm + R e L U ReLU R e L U，最终的 Y 1 Y_1 Y 1 通过 1 个 1 × 1 1\times 1 1 ×1 卷积投影到两个分类得分图中。

4.5 实施细节

Transformer 层初始化权重来自于 Swin Transformer，预训练在 ImageNet-22K 上，维度 512，语言编码器为 BERT，12层，维度 768, Cross-entropy 损失，AdamW 优化器，权重衰减 0.01，初始学习率 0.0000 5，40 个 epoch，batch 32，图像尺寸 480 × 480 480\times 480 4 8 0 ×4 8 0，无图像增强策略。

五、实验

5.1 数据集与评估指标

数据集：RefCOCO、RefCOCO+、G-Ref。
评估指标：整体 IoU：oIoU；平均 IoU：0.5，0.7，0.9

5.2 与其他方法的比较

; 5.3 消融实验

5.3.1 语言路径 LP

; 5.3.2 像素-单词注意力模块 PWAM

同上图。

5.3.3 语言门中的激活函数

; 5.3.4 PWAM 中的归一化层

上图 3(b)。

5.3.5 用于预测的特征

上图 3(c)。

5.3.6 多模态注意力模块

上图 3(d)。

5.4 预测可视化

; 5.5 同相关方法的公平比较

六、结论

提出了 LAVT，实验效果牛批。

七、附录

A 语言模型中潜在的偏见

源于 BERT。

B 语言路径

作者也尝试了其他方法：

; C 准确率-召回率分析

D MIoU

; E 可视化

写在后面

这几篇论文都是快速的过了~~
随着大量论文的阅读，咱们浏览/精读论文的速度应该只会越来越快，好好加油🍻

Original: https://blog.csdn.net/qq_38929105/article/details/125565862
Author: 乄洛尘
Title: 结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544918/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Qt&OpenCV QGraphicsView显示OpenCV读入的图片】

文章目录前言一、新建Qt项目[ProjCV] * 1. Qt–如下7图所示建立新项目，命名：ProjCV，Detials页面内容采用默认，可以自己规划命名。 2. …

人工智能 2023年6月20日
0089
Redis安装教程（超详细）

Redis 一、Redis安装 1、windows下安装默认端口：6379 下载连接 https://github.com/tporadowski/redis/releases …

人工智能 2023年7月29日
0066
LeetCode221112_124、844.比较含退格的字符串

给定 s 和 t 两个字符串，当它们分别被输入到空白的文本编辑器后，如果两者相等，返回 true 。# 代表退格字符。注意：如果对空文本输入退格字符，文本继续为空。示例 1： …

人工智能 2023年6月26日
0087
Python使用websocket调用实时语音识别，语音转文字

Python使用websocket调用实时语音识别，语音转文字 0. 太长不看系列，直接使用 1. Python调用标贝科技语音识别websocket接口，实现语音转文字 * 1….

人工智能 2023年5月27日
00120
[奶奶看了都会]ChatGPT保姆级注册教程

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0056
树莓派OLED模块的使用教程大量例程详解

简介 Python有两个可以用的OLED库 [Adafruit_Python_SSD1306库]—>只支持SSD1306 [Luma.oled库]—>支持 SSD130…

人工智能 2023年6月12日
00132
论文笔记：TABERT: Pretraining for Joint Understanding of Textual and Tabular Data

论文笔记：TABERT: Pretraining for Joint Understanding of Textual and Tabular Data 目录论文笔记：TABER…

人工智能 2023年5月28日
0074
数据分析—开发环境

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0074
MindSpore:【语音识别】DFCNN网络训练loss不收敛

问题描述：我参考了Model Arts的例子想要用MindSpore也实现语音识别，根据脚本迁移了网络。网络最后是调通了，但是Loss不收敛，训练得到的模型推理结果比预期长了一段…

人工智能 2023年5月27日
0070
Collaborativ

问题描述 Collaborative Filtering (协同过滤)是一种常用的推荐系统算法，它基于用户之间的相似性或物品之间的相似性来预测用户的兴趣。在这个问题中，我们要解决一…

人工智能 2024年1月2日
0032
【自动驾驶轨迹规划之dubins曲线与reeds-shepp曲线】

目录 1 dubins曲线的简介 2 dubins 曲线的实现与计算 2.1 找到圆心 2.2 找到切点 2.3 画出dubins曲线并计算路径长度 2.4 车辆外形建模 2.5 …

人工智能 2023年6月2日
0071
卷积神经网络——猫狗分类

目录一、搭建环境，完成猫狗分类 * 一）安装TensorFlow和Keras – 1.Anaconda中安装 2.cmd中安装二）猫狗分类实验 – 1….

人工智能 2023年7月2日
0090
COCO数据集人体姿态估计关键点检测评估

本页介绍了COCO使用的关键点评估指标。此处提供的评估代码可用于在公开可用的COCO验证集上获得结果。它计算下面描述的多个指标。为了在COCO测试集上获得结果，其中隐藏了实际真值注…

人工智能 2023年6月15日
0071
拿到这份Java面试文档“狂刷”2周，成功拿到阿里P7+的offer

以下为面试题与解析部分，相信你领取之后，一定也能拿到满意的offer，这一份文档共计1000多道面试题 Linux面试题绝对路径用什么符号表示?当前目录、上层目录用什么表示?主…

人工智能 2023年6月28日
0074
如何将 Matplotlib 可视化插入到 Excel 表格中？

大家好，我是小五🧐 在生活中工作中，我们经常使用Excel用于储存数据，Tableau等BI程序处理数据并进行可视化。我们也经常使用R、Python编程进行高质量的数据可视化，生成…

人工智能 2023年7月15日
0083
基于实例的学习方法

一、基于实例的学习方法： a.已知一系列的训练样例，许多学习方法为目标函数建立起明确的一般化描述； b.基于实例的学习方法只是简单地把训练样本存储起来，从这些实例中泛化的工作被推迟…

人工智能 2023年6月18日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

3.1 参考图像分割

3.2 Transformer

; 4.1 语言感知视觉编码

4.2 像素-词注意力模块 (PWAM)

; 4.3 语言路径

4.4 分割

4.5 实施细节

5.1 数据集与评估指标

5.2 与其他方法的比较

; 5.3 消融实验

5.3.1 语言路径 LP

; 5.3.2 像素-单词注意力模块 PWAM

5.3.3 语言门中的激活函数

; 5.3.4 PWAM 中的归一化层

5.3.5 用于预测的特征

5.3.6 多模态注意力模块

5.4 预测可视化

; 5.5 同相关方法的公平比较

A 语言模型中潜在的偏见

B 语言路径

; C 准确率-召回率分析

D MIoU

; E 可视化

大家都在看