ELAN | 比SwinIR快4倍，图像超分中更高效Transformer应用探索

2023年7月28日上午4:29 • 人工智能 • 阅读 58

ELAN | 比SwinIR快4倍，图像超分中更高效Transformer应用探索

paper https://arxiv.org/pdf/2203.06697.pdf
code https://github.com/xindongzhang/ELAN

尽管Transformer已经”主宰”了各大CV领域，包含图像超分领域(如SwinIR)。但是Transformer中的自注意力计算量代价过于昂贵，同时某些操作对于超分而言可能是冗余的，这就限制了自注意力的计算范围，进而限制了超分性能。

本文提出了一种用于图像超分的高效长程距离网络ELAN(Efficient Long-range Attention Network)。具体来说，我们首先 采用移位卷积(shift convolution)提取图像的局部结构信息同时保持与卷积相当的复杂度；然后 提出了一种GMSA(Group-wise Multi-scale Self-Attention)模块，它在不同窗口尺寸特征上计算自注意力以探索长程依赖关系。我们通过级联两个shift-conv与GMSA(它可以通过共享注意力机制进一步加速)构建一个高效ELAB模块。实验结果表明： 相比其他Transformer方案，所提ELAN可以取得更佳结果，同时具有更低的复杂度。

; 1 Method

上图为ELAN整体架构示意图，一种类似EDSR的超分架构，核心模块即为ELAB。所以我们只需要对ELAB进行详细介绍即可，见下图。

上图为ELAB的架构示意图，它包含一个局部特征提取模块与一个分组多尺度注意力GMSA模块，同时两个模块均搭载了残差学习策略。

Local Feature Extraction 在局部特征提取方面(见上图c)，它采用两个shift-conv+ReLU组合进行处理。具体来说， shift-conv由四个shift操作与卷积组成，shift操作则旨在对输入特征进行上下左右移位，然后将所得五组特征送入后接卷积进行降维与信息聚合。无需引入额外可学习参数与计算量，shift-conv可以取得更大感受野()同时保持与卷积相当的计算量。
GMSA(Group-wise Multi-scale Self-Attention) 不同于常规自注意力，为更有效计算长程自注意力，我们提出了GMSA(见上图d)。 它首先将输入特征分成K组，然后对不同组在不同窗口尺寸上执行自注意力，最后采用卷积对不同组所得特征进行信息聚合。
ASA(Accelerated Self-Attention) 相比常规自注意力，我们对其进行了一下几个改进：(1) 将LN替换为BN，这是因为LN对于推理并不友好，相反BN不仅可以稳定训练同时在推理阶段可以合并进卷积产生加速效果；(2)SwinIR中的自注意力是在嵌入高斯空间中进行计算，它包含三个独立卷积，即。而 我们令，即自注意力在对称嵌入高斯空间中计算，这种处理可以节省一个卷积，进一步缓解的自注意力的计算量与内存负载且不会牺牲超分性(见上图e)。
Shared Attention 为进一步加速自注意力计算，我们提出 相邻自注意力模块共享注意力得分图，见下图。也就是说，第i个自注意力模块的注意力图直接被同尺度后接n个自注意力模块复用。通过这种方式，我们可以避免2n个reshape与n个卷积。我们发现： 所提共享注意力机制仅导致轻微性能下降，但它可以在推理阶段节省大量的计算资源。

Shifted Window 上述自注意力的计算机制缺乏窗口间的信息通讯，我们对SwinIR中的移位窗口机制进行了改进以达成适用于超分的简单且有效移位机制，见上图c。我们首先对特征进行对角线循环移位，然后在移位特征上计算GMSA，最后对GMSA的结果进行逆循环移位。受益于循环移位机制，我们移除了SwinIR中的掩码策略与相对位置编码，使得该网络更简洁高效。

2 Experiments

上表与图对比了不同轻量型超分方案的性能对比，从中可以看到：

在相似参数量与FLOPs下，Transformer方案具有比CNN方案更佳的指标，然而SwinIR-light的推理速度要比CNN方案慢10倍以上，这是因为SwinIR中的自注意力带来了严重的推理负载。
受益于所提高效长程注意力设计， ELAN-light不仅取得了最/次佳性能，同时具有比SwinIR-light快4.5倍的推理速度，同时参数量与FLOPs均少于SwinIR-light。
在重建视觉效果方面，CNN方案重建结果更为模块且存在边缘扭曲，而Transformer方案在结构重建效果更佳，ELAN是仅有可以重建主体结构的方案，证实了长程自注意力的有效性。

上图与表在更多超分方案进行了对比，从中可以看到：

在所有尺度与基准数据集上，ELAN均取得了最佳性能。
相比SwinIR，ELAN取得了最佳PSNR与SSIM，同时具有更少参数量与计算量、更快推理速度；
相比CNN方案，ELAN在重建性能方面局具有显著优势，这得益于大感受野与长程特征相关性建模。
尽管HAN与NLSA通过探索注意力机制与更深网络课要取得相当性能，但其计算量与内存负载非常昂贵。比如NLSA甚至无法在NVIDIA 2080Ti GPU上执行x2超分任务，而ELAN则可以凭借更少计算量取得比这些复杂方案更高的性能。

; 3 后记

看完ELAN后，关于GMSA的attention共享机制与shift-window深感疑惑： ELAB相邻模块之间可以公用attention map，但是相邻ELAB还要进行shift-windows操作，这个时候的attention还能直接用吗？直观上来看不能直接用了。 百思不得其解之后，在技术交流群得到了如下方案：

ELAB这里有一个不同于SwinIR的实现小细节: shared的blocks是不做shift的,到下一个blocks进行shift。即，如果有8个block的话，我们的实现是12（non-shift），34（shift），56（non-shift），78（shift）。

Original: https://blog.csdn.net/m0_59596990/article/details/124004568
Author: 机器学习社区
Title: ELAN | 比SwinIR快4倍，图像超分中更高效Transformer应用探索

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/719781/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SOX的一些命令和kaldi使用sox音频数据增强

SOX的一些命令和kaldi使用sox音频数据增强 * – 1 SOX win10和linux安装 – 2 sox命令 – + 2.1 音频基本…

人工智能 2023年5月27日
00115
【路径规划】基于遗传算法求解固定的开放式多旅行推销员问题(M-TSP)附matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。🍎个人主页：Matlab科研工作室🍊个人信条：格物致知。更多Matlab仿真内容点击👇…

人工智能 2023年6月30日
0067
halcon 代码注释 print_check.hdev

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月21日
0069
vue3 新特性

重点：组合式API what——组合式 API ▣组合式 API 是一系列 API 的集合，使我们可以使用函数而不是声明选项的方式书写 Vue 组件。它是一个概括性的术语，涵盖了以…

人工智能 2023年6月26日
0084
三维重建之条纹投影结构光（一）

该系列为条纹投影结构光学习笔记，一共分为四篇。第一篇记录文献阅读的笔记，对重要知识点进行摘录介绍；第二篇为相位求解和相位展开；第三篇为相高模型的标定；第四篇为重构篇。本篇以理论知…

人工智能 2023年6月18日
0068
C++函数知识点（增强版）

目录一、函数的默认参数 1.函数无默认参数情况 2.函数有默认参数的情况 2.1函数参数全是默认参数的情况 2.2函数部分有默认参数的情况 3.注意事项 3.1从左至右，起始位置…

人工智能 2023年6月28日
0068
分类——ID3算法

2、锻炼分析问题、解决问题并动手实践的能力。实验环境: Anaconda 1、数据集准备代码实现如下：年龄：0代表青年，1代表中年，2代表老年；收入：0代表低，1代表…

人工智能 2023年7月3日
0096
TF-GNN踩坑记录(一)

引言 Batch size作为一个在训练中经常被使用的参数，在图神经网络的训练中也是必不可少，但是在TF-GNN中要求使用 merge_batch_to_components() …

人工智能 2023年6月4日
00113
Pandas基本使用1

本文主要参考Pandas中文文档进行学习讲解：1.pandas可以直接使用列表和numpy数组： pd.Series() import pandas as pd import nu…

人工智能 2023年7月8日
0092
yolov5-realsense深度信息目标检测（构建自己的数据集模型）

yolov5-realsense深度信息目标检测（构建自己的数据集模型）训练准备： 1.安装运行yolov5代码略 2.制作训练数据集目标训练数据集，应大于50张图片以上（…

人工智能 2023年7月9日
0058
人工智能之机器学习-逻辑回归、回归（Regression）-Pytorch快速实现

文章目录概述直接上pytorch * 网络搭建设置优化器选择损失函数开始训练（炼丹）测试模式（nograd）进阶指南听说点进蝈仔帖子的都喜欢点赞加关注~~ 老规矩，…

人工智能 2023年6月17日
0071
百度语音识别异常_英文语音、方言语音识别样样精通，百度输入法实现“语音自由说”…

说起语音输入法，大家都不陌生。近几年，在手机上使用语音识别输入文字的朋友已不占少数，语音识别的精准程度更是今非昔比。据iimedia Research(艾媒咨询)发布的《2019…

人工智能 2023年5月25日
0060
循环神经网络详解(RNN原理和实现代码)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月13日
0060
Python美化桌面—自制桌面宠物

前言嗨嗨，最近就喜欢搞一些花里胡哨的东西这不就开始折腾我的电脑了吗浅浅搞个桌面小挂件（桌面宠物）前期准备开发工具 Python版本：3.6.4 相关模块： PyQt5模块…

人工智能 2023年7月4日
0060
机器学习（一）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月31日
0087
什么是半监督学习算法

半监督学习算法半监督学习算法是一种利用有限标签数据和大量未标签数据进行学习的机器学习方法。在实际应用中，往往会遇到标注数据难以获取的情况，但是未标签数据却很容易获取。半监督学习算…

人工智能 2024年1月1日
0038

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ELAN | 比SwinIR快4倍，图像超分中更高效Transformer应用探索

; 1 Method

2 Experiments

; 3 后记

大家都在看