论文阅读：（ECCV 2022）Simple Baseline for Image Restoration

2023年6月25日上午2:04 • 人工智能 • 阅读 97

Simple Baseline for Image Restoration (ECCV 2022)

2022/08/26: 两个月的时间终于把那个材料完成了，今天一看虽然审核完了还有些小问题，老板没有怪我还说他会去搞定这个事，TAT 我要做老板的忠犬。这四个月赶紧整篇论文把，要不然在课题组活不下去了。

PDF：https://arxiv.org/abs/2204.04676
Code：https://github.com/megvii-research/NAFNet

Abstract

虽然近年来图像恢复领域取得了重大进展，但SOTA方法的系统复杂性也在增加，这可能会阻碍方法的方便分析和比较。在本文中，我们提出了一个简单的Baseline方法，性能超过了SOTA方法并且是计算高效的。为了进一步简化基线，我们揭示了非线性激活函数是不必要的，如Sigmoid, ReLU, GELU, Softmax等。它们可以用乘法来替代或者移除。因此，我们从Baseline推导出一个无非线性激活网络，即NAFNet。SOTA结果在各种具有挑战性的基准上实现，例如GoPro上33.69 dB PSNR(用于图像去模糊)，仅以8.4%的计算成本超过了之前的SOTA 0.38 dB。40.30 dB的SIDD PSNR(用于图像去噪)，超过了之前的SOTA0.28 dB，计算成本不到它的一半。

1. Introduction

深度学习方法虽然带来了很大的性能提升，但是这些方法也有很高的系统复杂度度。方便讨论，作者将系统复杂度分为两个部分：块间复杂度和块内复杂度。并且提出是否能使用一个低块间复杂度和低块内复杂度的网络实现SOTA。作者将重点放在了块内复杂度中，对网络的整体框架直接选择了较为简单的单阶段U-Net。

作者从一个包含最常见组件的普通块开始，即卷积、激活函数和跳跃链接。从普通块中，作者添加/替换SOTA方法的组件，并验证这些组件能带来多少性能提升。通过广泛的实验，作者加入了其他SOTA方法内的各种组件 （Layer Norm + GELU激活+通道注意力CA） 提出了一个图像复原的基线模型 （将GELU改成GLU，CA也改为了类似GLU的形式），性能超过了SOTA方法并且计算高效，可以方便后续研究人员验证自己的idea，简称为NAFNet (经过上诉修改网络中不包含非线性激活函数，全称Nonlinear Activation Free Network)。图1 展示了本文所提出Baseline和NAFNet的性能；图2 是比较各种不同的架构并且体现块间复杂度的不同，采用右下方的U-Net结构；图 3 最右图中展示了Baseline和NAFNet Block。

论文阅读：（ECCV 2022）Simple Baseline for Image Restoration

作者总结的贡献：

通过分解SOTA方法并提取它们的基本组件，我们形成了一个系统复杂度较低的基线(如图3c)，它可以超过以前的SOTA方法，并具有较低的计算成本，如图1所示。这有助于研究者激发新的思路，并方便地对其进行评价。
通过揭示GELU、通道注意和门控线性单元之间的联系，我们通过去除或替换非线性激活函数(如Sigmoid, ReLU和GELU)，进一步简化基线，并提出了一个非线性激活自由网络，即NAFNet。它可以达到匹配或超过Baseline的性能，尽管被简化了。据我们所知，这是第一个工作证明再SOTA的CV方法中，非线性激活函数可能不是必需的。这项工作有可能拓展SOTA计算机视觉方法的设计空间。

; 2. Build A Simple Baseline

在本节，作者期望从头构造一个基本块。为了保持结构的简单，原则是不添加不必要的实体。上文已经确定了采用单阶段U-Net，后续则是考虑块内的设计。首先从基本的 卷积层、激活函数和跳跃链接开始。作者在此注明为何不使用Transformer，原因为： 1.尽管Transformer在计算机视觉中表现出良好的性能，但一些工作声明Transformer对于实现SOTA结果可能不是必要的；2.深度卷积比自注意机制简单。3. 本文不打算讨论Transformer和卷积神经网络的优缺点，而只是提供一个简单的基线。

归一化方面，使用了Transformer里面通常采用的LayerNormce，Batch Norm由于训练集与测试集的分布不同问题效果不佳，InstanceNorm较多的使用在风格迁移中，且只关注同一图片同一通道信息，在一定程度上避免平滑。
激活函数方面，使用了GELU替换了ReLU，这是一些SOTA方法中的趋势，无他，唯提点尔。在保持了图像去噪性能的同时带来了去模糊方面的提升。
注意力方面，不采用基于窗口的注意力机制，因为深度卷积能够有效的提取局部信息。采用了通道注意力CA，既能高效计算也能将全局信息引入特征图。
总结一下就是Layer Nome+GELU+CA,表示为图 3（c）。

3. Nonlinear Activation Free Network

上述的基线模型已经足够简单和完整，是否可能更进一步提升性能并保持简洁呢？或者说可以更简洁但不损失性能么？作者从现有的一些SOTA方法中寻找答案。认为门控线性单元GLU大有可为！门控线性单元可以表示为:
G a t e ( X , f , g , σ ) = f ( X ) ⨀ σ ( g ( X ) ) Gate(\textbf{X},f,g,\sigma)=f(\textbf{X}) \bigodot \sigma(g(\bf{X}))G a t e (X ,f ,g ,σ)=f (X )⨀σ(g (X ))

如上所述，将GLU添加到基线可能会提高性能，但块内复杂度也在增加。为了解决这个问题将GELU改写为以下形式：
G E L U ( x ) = x Φ ( x ) GELU(x)=x \Phi(x)GE LU (x )=x Φ(x )

其中Φ \Phi Φ表示标准正态分布的累积分布函数，根据其他工作，GELU可以近似为：

根据上式，其实可以看出GELU是GLU的一个特例。通过相似性，作者从另一个角度推测，GLU可以看作是激活函数的一种推广，它可以代替非线性激活函数。并且，作者注意到GLU本身包含非线性且不依赖于σ \sigma σ:即使去掉σ \sigma σ， G a t e ( X ) = f ( X ) ⊙ g ( X ) Gate(X) = f(X)⊙g(X)G a t e (X )=f (X )⊙g (X )包含非线性。在此基础上，作者提出了一种简单的GLU变体:在通道维度上直接将特征图分成两部分并相乘，如图4c所示，称为SimpleGate。
S i m p l e G a t e ( X , Y ) = X ⨀ Y SimpleGate(\textbf{X},\textbf{Y})=\textbf{X} \bigodot \textbf{Y}S im pl e G a t e (X ,Y )=X ⨀Y

此时，网络中只剩下少数几种非线性激活:通道注意模块中的Sigmoid和ReLU，我们将在接下来讨论它的简化。通道注意力机制表示为：

C A ( X ) = X ∗ Ψ ( X ) CA(\textbf{X})= \textbf{X} \ast \Psi(\textbf{X})C A (X )=X ∗Ψ(X )

注意该式与GLU表达形式也是类似的，因此可以类似于GELU的方式将CA看作式GLU的一个特例进行化简。通过保留通道注意力最重要的两个作用，即聚合全局信息和通道信息交互，我们提出简化通道注意力:
S C A ( X ) = X ∗ W P o o l ( X ) SCA(\textbf{X})= \textbf{X} \ast W Pool(\textbf{X})SC A (X )=X ∗W P oo l (X )

根据上述改进，作者将Baseline中的GELU+CA替换为了SimpleGate和SCA，得到图3d部分。

; 4. Experiments

实验部分没什么好说的，就是各种消融实验和在图像复原任务上的客观指标对比，从作者的结果上来看计算量的降低是非常明显的。整个实验设计还是比较好的，一步一步的验证了所构造方法的有效性，每一个部分都是必要且简洁的。

5. Conclusions

通过对SOTA方法的分解，提取出SOTA的基本组成部分，并在朴素的明文网络上采用。得到的基线在图像去噪和图像去模糊任务中达到SOTA性能。通过分析基线，我们揭示了它可以进一步简化:它中的非线性激活函数可以完全替代或删除。在此基础上，我们提出了一个无非线性激活网络NAFNet。虽然简化了，但它的性能等于或优于基线。我们提出的基线可能有助于研究人员评估他们的想法。此外，这项工作有可能影响未来的计算机视觉模型设计，因为作者证明了非线性激活函数不是实现SOTA性能所必需的。

Summary

本文的motivation其实没有那么明显或者说感觉并不那么有力，但是实验设计和实验结果表现都是非常好的，一步一步证实每个部分的有效性。实验结果表明块间复杂度的影响是低于块内复杂度（但其实缺少将所提出的block运用到其他architecture的实验），这个结论是否能推广到其他的low-level任务中呢？这是值得尝试的。
Transformer并没有想象中的那么有效，把各种SOTA方法的内部trick拿过来结合也取得非常好的效果。看了一眼本文的GitHub，作者已经将其运用到SR任务当中并且取得了CVPR2022的挑战赛冠军，这种化繁为简的思路值得每个研究人员思考，做出efficiency的工作。
这里再贴一个在上文第三个链接中作者的思考，以后想到了其他的再说吧

Original: https://blog.csdn.net/mqy19960330/article/details/126539985
Author: 倘若我问心无愧呢丶
Title: 论文阅读：（ECCV 2022）Simple Baseline for Image Restoration

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650115/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ORB_SLAM3 算法框架解析

论文地址：https://arxiv.org/abs/2007.11898v1代码地址：https://github.com/UZ-SLAMLab/ORB_SLAM3ORB_SLA…

人工智能 2023年6月16日
0083
深度学习中的GPU与CUDA

对应视频教程：https://www.bilibili.com/video/BV1S5411X7FY/ 文章目录 * – 1. 显卡（GPU）与驱动 – 2…

人工智能 2023年7月21日
0096
数学建模 — 聚类模型

来自清风的数学建模课程，主要是用于自己复习看，所以截图较多聚类和分类的区别：分类已知类别聚类未知 ; K-means算法评价该算法优点算法简单、快速对处理大数据集，该算…

人工智能 2023年5月31日
0087
2023中国（江西）国际预制菜产业展览会/南昌预制食品展会

JXCYE江西预制菜展：2023年首展，打造我国唯具参展价值的行业发展盛会；展会介绍：2023中国（江西）国际预制菜产业展览会The 2023 China (Jiangxi) I…

人工智能 2023年6月27日
0092
用FLIR热数据集跑yolov5 个人踩坑大全

版本：yolov5-v5.0环境：python3.8+anaconda3_2020.7+cuda10.1.105数据集：FLIR_ADAS_1_3.tar 1、问题：ImportE…

人工智能 2023年7月9日
00115
ROS入门之使用命令行工具控制小海龟移动

前面的文章主要是说明一下ROS入门需要了解的基本概念，这篇文章则是要说明一下如何使用命令行工具。 2.1 命令行工具的使用 ROS有很多常用命令：rostopic、rosservi…

人工智能 2023年6月10日
00125
【层级多标签文本分类】Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approa

Hierarchical Multi-label Text Classification: An Attention-based Recurrent Network Approac…

人工智能 2023年7月3日
0080
cyberRT源码浅层解析（二） mainboard

mainboard模块是cyber的程序入口，启动模块，我们可以使用类似roslaunch的方式启动，cyberRT的launch也是封装了mainboard模块，也可以直接使用m…

人工智能 2023年6月11日
0082
人工智能基础 | Python实现洗衣机模糊推理系统

运行环境 Pycharm + Anaconda3 已知一组污泥和油脂两个参数的 模糊集合，以…

人工智能 2023年6月24日
0097
ChatGPT写Flask-Demo——有体验地址

ChatGPT中API的试用最近ChatGPT智能AI很火，可以写代码，DEBUG，写简历等等上去查看了一下，是可以调用API的，本着学习的态度就是用这个款AI辅助我写了一个de…

人工智能 2023年7月31日
0071
R 实现分层抽样教程

我们经常需要从总体中抽取样本，并利用样本数据推断有关总体的结论。本文介绍分层抽样的概念以及R的实现过程。分层抽样分层抽样是一种常用的抽样方法。它把总体分为多个组，然后从每个组中…

人工智能 2023年6月24日
0097
python 读取pdf表格多页读取

[ Python_可以使用Py _PDF_2或 _pdf_miner.six库来 _读取 PDF_文件。 1.使用Py _PDF_2： Py _PDF_2是一个功能强大的 _Pyt…

人工智能 2023年7月8日
0076
浅入决策树的分类和回归

系列文章目录浅入决策树的分类和回归深入决策树的分类和回归sklearn中的决策树前言在学习重要的基础算法的时候，我往往会偷懒忽视掉很多问题，就会陷入到，我觉得我会了，我知道是…

人工智能 2023年6月18日
0076
文心大模型：知识增强的NLP模型详解

文心大模型首场技术开放日已经圆满结束。在本次活动中，文心大模型背后的”技术天团”首次集中亮相，分享大模型技术发展趋势洞察、文心大模型最新技术突破及产业应用实…

人工智能 2023年6月19日
0099
【OpenCV】Qt + OpenCV 开发配置 + 入门知识（代码示例）

目录前言一、OpenCV简介二、OpenCV + QT 开发环境搭建 🚀资源下载三、OpenCV图像原理 🌭位图模式 🌭灰度模式 🌭RGB模式四、OpenCV基础图像操作…

人工智能 2023年7月27日
00104
OpenCV（十一）图像滤波(平滑处理)（平均、中值、高斯、双边滤波）

目录一、基础理论 1、图像噪声 1-1、椒盐噪声 1-2、高斯噪声 2、滤波 3、线性滤波 1、概述 2、线性滤波原理：二、均值滤波（cv::blur()）（简单滤波） 1、原…

人工智能 2023年7月19日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31