综述：计算机视觉中的通道注意力机制

2023年7月29日上午8:44 • 人工智能 • 阅读 122

综述：计算机视觉中的通道注意力机制

*
– 1. INTRODUCTION:
– 2. 计算机视觉中的注意力机制
–
+ 2.1. 通用形式
+ 2.2 通道注意力 | channel attention | what to pay attention to
+
* 2.2.1 SENet
* 2.2.2 GSoP-Net
* 2.2.3 SRM
* 2.2.4 GCT
* 2.2.5 ECANet
* 2.2.6 FcaNet
* 2.2.7 EncNet
* 2.2.8 通道注意力机制模型总结
– 3. 论文链接

这是一篇从数据域的角度，给注意力机制分为六类的综述，涵盖论文数量多。

论文题目：Attention Mechanisms in Computer Vision: A Survey

论文链接：https://arxiv.org/pdf/2111.07624.pdf

论文代码： https://github.com/MenghaoGuo/Awesome-Vision-Attentions

ABSTRACT: 人类可以自然有效地在复杂场景中发现显著区域。在这种观察的激励下，注意力机制被引入计算机视觉，目的是模仿人类视觉系统的这一方面。 这种注意力机制可以看作是一个基于输入图像特征的动态权重调整过程。注意力机制在许多视觉任务中取得了巨大的成功，包括图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习。在这项调查中，我们对计算机视觉中的各种注意力机制进行了全面的回顾，并根据方法对它们进行了分类，如 通道注意、空间注意、时间注意和分支注意；相关代码在https://github.com/MenghaoGuo/Awesome-Vision-Attentions。我们还提出了注意力机制研究的未来方向。

图1 注意力机制根据数据域分类。其中包含了四种分类：通道注意力、空间注意力、时间注意力、分支注意力，其中有两个重叠类，即通道-空间注意力、空间、时间注意力。空集表示这种组合还不存在。

图2 通道、空间和时间注意力能够被看作是在不同的域(维度)上操作。C表示通道域，H和W表示空间域，T表示时间域。分支注意力是对这些的补充。

; 1. INTRODUCTION:

将注意力转移到最重要的部分被称为注意力机制；人类使用视觉系统来帮助高效地分析和理解复杂场景。这反过来又促使研究人员将注意力机制引入计算机视觉系统，以提高其性能。在视觉系统中，注意力机制可以被视为一个动态选择过程，通过根据输入的重要性自适应地加权特征来实现。注意力机制在很多视觉任务中都有好处，例如：图像分类、目标检测、语义分割、人脸识别、人物再识别、动作识别、少量显示学习、医学图像处理，图像生成、姿势估计、超分辨率、三维视觉和多模式任务。

图3 CV中的attention发展史

过去十年，注意力机制在计算机视觉中逐渐起重要作用。图3简要地总结了基于deep learning 的CV领域中attention-based模型的发展历史。成果大致可以分为四个阶段。

第一阶段：从RAM开始的开创性工作，将深度神经网络与注意力机制相结合。它反复预测重要区域。并以端到端的方式更新整个网络。之后，许多工作采用了相似的注意力策略。在这个阶段，RNN在注意力机制中是非常重要的工具。
第二阶段：从STN中，引入了一个子网络来预测放射变换用于选择输入中的重要区域。明确预测待判别的输入特征是第二阶段的主要特征。DCN是这个阶段的代表性工作。
第三阶段：从 SENet开始，提出了通道注意力网络(channel-attention network)能自适应地预测潜在的关键特征。CBAM和ECANet是这个阶段具有代表性的工作。
第四阶段：self-attention自注意力机制。自注意力机制最早是在NLP中提出并广泛使用。 Non-local网络是最早在CV中使用自注意力机制，并在视频理解和目标检测中取得成功。像EMANet，CCNet，HamNet和the Stand-Alone Network遵循此范式并提高了速度，质量和泛化能力。最近， 深度自注意力网络(visual transformers)出现，展现了基于attention-based模型的巨大潜力。

表1 简要总结注意力机制分类 Attention cateoryDescriptionTranslationChannel attention(what to pay attention to)Generate attention mask across the channel domain and use it to select important channels在通道域中生成注意力掩码，并使用它选择重要通道Spatial attention(where to pay attention to)Generate attention mask across spatial domains and use it to select important spatial regions or predict the most relevant spatial position directly生成跨空间域的注意力掩码，并使用它来选择重要的空间区域或直接预测最相关的空间位置Temporal attention(when to pay attention to)Generate attention mask in time and use it to select key frames及时生成注意力掩码，并使用它选择关键帧Branch attention(which to pay attention to)Generate attention mask across the different branches and use it to select important branches在不同的分支上生成注意力掩码，并使用它来选择重要的分支Channel & spatial attentionPredict channel and spatial attention masks separately or generate a joint 3-D channel, height, width attention mask directly and use it to select important features分别预测通道和空间注意力掩码，或直接生成一个联合的三维通道、高度、宽度注意力掩码，并使用它选择重要特征Spatial & temporal attentionCompute temporal and spatial attention masks separately, or produce a joint spatiotemporal attention mask, to focus on informative regions分别计算时间和空间注意力掩码，或生成联合时空注意力掩码，以关注信息区域

图4 视觉注意力的发展

2. 计算机视觉中的注意力机制

表2 本文中的符号含义。在使用的地方解释了其他次要符号 SymbolDescriptionTranslationXinput feature map,
X ∈ R C × H × W {X\in{R^{C\times{H}\times{W}}}}X ∈R C ×H ×W

输入特征图，维度Youtput feature map输出特征图Wlearnable kernel weight待学习权重FCfully-connected layer全连接层Convconvolution卷积层GAPglobal average pooling全局平均池化GMPglobal max pooling全局最大池化[ ]concatenation拼接（串联）δReLU activationReLU激活函数σsigmoid activationsigmoid激活函数tanhtanh activationtanh激活函数Softmaxsoftmax activationsoftmax激活函数BNbatch normalization批标准化Expandexpan input by repetition重复输入

2.1. 通用形式

当我们在日常生活中看到一个场景时，我们会把注意力集中在识别区域，并快速处理这些区域。上述过程可表述为：

A t t e n t i o n = f ( g ( x ) , x ) {Attention = f(g(x),x)}A t t e n t i o n =f (g (x ),x )

g ( x ) {g(x)}g (x )可以表示为产生注意力，这对应于注意待识别区域的过程；f ( g ( x ) , x ) {f(g(x),x)}f (g (x ),x )表示基于attention g ( x ) {g(x)}g (x )处理输入x x x，这与处理关键区域、获取信息是一致的。

根据上述定义，我们发现几乎所有现存的注意力机制都能够被写成上述形式。这里我们列举了self-attention的Non-Local和spatial attention的SENet。

Non-Local可以写成：

SENet可以写成：

因此，我们会通过上述形式介绍各种注意力机制方式。

; 2.2 通道注意力 | channel attention | what to pay attention to

2.2.1 SENet

squeeze模块： 全局平均池化(GAP)，压缩通道[ H , W ] [H,W][H ,W ]->[ 1 , 1 ] [1,1][1 ,1 ]
excitation模块：后接 全连接层(W 1 W_1 W 1 )->ReLU层(δ)->全连接层(W 2 W_2 W 2 )->Sigmoid(σ)
将得到的结果和原特征图相乘，为每一个通道给不同的权重

; 2.2.2 GSoP-Net

创新点：改进了squeeze模块。global average pooling(GAP) -> global second-order pooling(GSoP)

动机：SENet仅仅采用了全局平均池化方法，GSoP-Net认为这是不够的，这限制了注意力机制的建模能力，因此提出了global second-order pooling(GSoP) block在收集全局信息的同时对高阶统计数据建模.

和SEBlock一样，GSoPBlock同样有 squeeze和excitation两部分结构。

squeeze模块：
1 × 1 {1\times1}1 ×1 卷积(Conv)将通道维度从[ C , H , W ] [C,H,W][C ,H ,W ]->[ C ′ , H , W ] [C^{‘},H,W][C ′,H ,W ]，( C ′ < C ) (C^{‘}
协方差矩阵(Cov)C ′ × C ′ {C^{‘}\times{C^{‘}}}C ′×C ′，计算各通道间的相关性
接下来，对协方差矩阵执行逐行归一化。归一化协方差矩阵中的每个( i , j ) {(i,j)}(i ,j )表示信道i与信道j相关联
excitation模块
行卷积(RC)以保持结构信息并输出向量
利用 全连接层(W)和sigmoid函数(σ)得到C维注意力向量（通道权重）
将得到的结果和原特征图相乘，为每一个通道给不同的权重

通过使用全局二阶池化(GSoP)，GSoPBlock提高了通过SEBlock收集全局信息的能力。然而，这是以额外计算为代价的。因此，通常在几个剩余块之后添加单个GSoPBlock。

2.2.3 SRM

创新点：改进了squeeze模块和excitation模块。提出了style-based recalibration module (SRM)。它利用输入特征的均值(mean)和标准差(std)来提高捕获全局信息的能力。它还采用了一个轻量级的通道全连接层(CFC)代替原有的全连接层(FC)，以减少计算需求。

动机：以风格迁移的成功为动机，即提升精度的同时，减少计算量，提出了新的squeeze模块和轻量级全连接层。

squeeze模块：使用 style pooling(SP)，它结合了全局平均池化和全局标准差池化。（为什么输出为C × d {C\times{d}}C ×d：当只用全局平均池化就是C × 1 {C\times{1}}C ×1；当用了全局平均池化和全局标准差池化就是C × 2 {C\times{2}}C ×2；当用了全局平均池化和全局标准差池化和全局最大池化就是C × 3 {C\times{3}}C ×3）
excitation模块：
与通道等宽的全连接层CFC(Channel-wise fully-connected layer) ，含义：通道维度由[ C , d ] {[C,d]}[C ,d ]变为[ C , 1 ] {[C,1]}[C ,1 ]，即对于每一个通道，都有一个全连接层输入为d，输出为1（原文：This operation can be viewed as a channel-independent, fully connected layer with d input nodes and a single output）
利用 BN层和sigmoid函数(σ)得到C维注意力向量
将得到的结果和原特征图相乘，为每一个通道给不同的权重

; 2.2.4 GCT

动机：由于excitation模块中全连接层的计算需求和参数数量，在每个卷积层之后使用SE块是不切实际的。提出了gated channel transformation (GCT)。减少计算量，在backbone中可以加入更多层注意力机制。

l2-normalization(Norm)，对输入特征图Norm，通道数从C , H , W {C,H,W}C ,H ,W->[ C , 1 , 1 ] [C,1,1][C ,1 ,1 ]，乘以可训练权重α \alpha α，输出结果作为第二部分的输入用s i n s_{in}s i n 表示
channel normalization(CN)，对应图中中间部分，具体操作为

s o u t = C N o r m ( s i n ) s i n ; s i n , s o u t = [ C , 1 , 1 ] {s_{out}=\cfrac{{\sqrt{C}}}{Norm(s_{in})}}s_{in}; s_{in},s_{out}=[C,1,1]s o u t =N o r m (s i n )C s i n ;s i n ,s o u t =[C ,1 ,1 ]

乘以可训练权重γ \gamma γ和偏置β \beta β，输出结果用s ′ s^{‘}s ′表示
s = 1 + t a n h ( s ′ ) s=1+tanh(s^{‘})s =1 +t a n h (s ′)

GCT block的参数比SE block少，而且由于它很轻量，可以添加到CNN的每个卷积层之后。

2.2.5 ECANet

创新点：论文动机出发点说了一大堆，具体表现就是， 用一维卷积替换了SENet中的全连接层

全局平均池化(GAP)
一维卷积(Conv1D)后接激活函数Sigmoid(σ)
将得到的结果和原特征图相乘，为每一个通道给不同的权重

注：文中对卷积核大小有自适应算法，即根据通道的长度，调整卷积核k的大小。原论文给出超参数γ = 2 {\gamma=2}γ=2，b = 1 {b=1}b =1。∣ ∣ o d d {||_{odd}}∣∣o d d 表示k只能取奇整数

; 2.2.6 FcaNet

动机：在squeeze模块中仅使用全局平均池化(GAP)限制了表达能力。为了获得更强大的表示能力，他们重新思考了从压缩角度捕获的全局信息，并分析了频域中的GAP。他们 证明了全局平均池是离散余弦变换（DCT）的一个特例，并利用这一观察结果提出了一种新的 多光谱注意通道(multi-spectral channel attention)。

将 输入特征图x ∈ R C × H × W {x\in{R^{C\times{H}\times{W}}}}x ∈R C ×H ×W 分解(Group)为许多部分x i ∈ R C i × H × W {x^{i}\in{R^{C^{i}\times{H}\times{W}}}}x i ∈R C i ×H ×W，每一段长度相等
对每一段x i {x^i}x i 应用2D 离散余弦变换(DCT, discrete cosine transform)。2D DCT可以使用预处理结果来减少计算
在处理完每个部分后，所有结果都被连接到一个向量中
后接 全连接层(W 1 W_1 W 1 )->ReLU层(δ)->全连接层(W 2 W_2 W 2 )->Sigmoid(σ)
将得到的结果和原特征图相乘，为每一个通道给不同的权重

注：2D DCT 看不懂。。。。。。

2.2.7 EncNet

动机：受SENet的启发， 提出了上下文编码模块（CEM, context encoding module），该模块结合了语义编码损失（SE-loss, semantic encoding loss），以建模场景上下文和对象类别概率之间的关系，从而利用全局场景上下文信息进行语义分割。

给定一个输入特征映射，CEM首先在训练阶段学习K个聚类中心D，D = { d 1 , . . . , d K } {D={d_1,…,d_K}}D ={d 1 ,…,d K }和一组平滑因子S，S = { s 1 , . . . , s K } {S={s_1,…,s_K}}S ={s 1 ,…,s K }。接下来，它使用软分配权重对输入中的局部描述子和相应的聚类中心之间的差异进行求和，以获得置换不变描述子。然后，为了提高计算效率，它将聚合应用于K个簇中心的描述符，而不是级联。形式上，CEM可以写成如上公式。

; 2.2.8 通道注意力机制模型总结

3. 论文链接

论文缩写论文名称 | 链接权重范围论文投稿SE Block
Squeeze-and-Excitation Networks

(0,1)CVPR2018GSoP Block
Global Second-order Pooling Convolutional Networks

(0,1)CVPR2019SRM Block
SRM : A Style-based Recalibration Module for Convolutional Neural Networks

(0,1)ICCV2019GCT Block
Gated Channel Transformation for Visual Recognition

(0,1)CVPR2020ECA Block
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

(0,1)CVPR2020Fca Block
FcaNet: Frequency Channel Attention Networks

(0,1)ICCV2021Enc Block
Context Encoding for Semantic Segmentation

(-1,1)CVPR2018

Original: https://blog.csdn.net/weixin_43913124/article/details/123183337
Author: Matorch
Title: 综述：计算机视觉中的通道注意力机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/722052/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

合思·易快报马春荃：让专精特新企业费控报销“从心所欲不逾矩”

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0077
论文阅读《Meta-FDMixup：Cross-Domain Few-Shot Learning Guided by Labeled Target Data》

Background ＆ Motivation 之前看的小样本论文大部分是目标域和源域属于同一个域，比如 COCO 数据集里的小样本设定：60类为 Base，20类为 Novel。…

人工智能 2023年7月10日
0066
yolov5+opencv+java：通过DJL在maven项目中使用yolov5的小demo

目录前言环境导出yolov5s模型编写Maven项目 * 编写pom.xml文件引入opencv依赖 – 下载opencv 获取opencv的jar包和动态链…

人工智能 2023年7月21日
0056
平方预测误差(Squared prediction error，SPE)和霍特林统计量（Hotelling’s T2）原理

读Paper读的头炸（原因：太菜），坚持每天简单通俗总结一下！故障检测是多变量过程监控的第一步。通常，SPE（或Q-统计量）和霍特林的T2指数分别用于监测RS和PCS的正常变异…

人工智能 2023年7月15日
0053
pandas in python

pandas 用来进行数据处理，其是基于numpy建立的库，因此每次import pandas的时候也需要import numpy 目录 pandas的两种数据结构 series …

人工智能 2023年7月7日
0085
高德地图哪个语音包最好_高德地图景点语音导览分析&优化

本文主要分析景点语音导览的目标人群是谁，解决了用户的什么问题。如果我是产品，下一次迭代我会怎么做？痛点：目标用户：综上所述，目标用户是希望以极低的价格、较少的精力获取旅游景点…

人工智能 2023年5月27日
0073
Huggingface BERT源码详解：应用模型与训练优化

©PaperWeekly 原创 · 作者｜李泺秋学校｜浙江大学硕士生研究方向｜自然语言处理、知识图谱接上篇，记录一下对 HuggingFace 开源的 Transformer…

人工智能 2023年5月30日
0096
【tensorflow】制作自己的数据集

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页： knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️ 目录数据集的基本介绍 …

人工智能 2023年7月25日
00122
误差反向传播算法

通过单个感知机或者单层神经网络只能够实现线性分类的问题，而多层神经网络可以解决非线性分类问题。神经网络中的模型参数，是神经元模型中的连接权重以及每个功能神经元的阈值，这些模型参数…

人工智能 2023年6月16日
00171
【AI】对抗搜索：Alpha-Beta剪枝搜索图解及井字棋应用的python实现

一、对抗搜索简介对抗搜索也称为博弈搜索，在一个竞争的环境中，智能体之间通过竞争实现相反的利益，一方最大化这个利益，另外一方最小化这个利益。最小最大搜索(Minimax Searc…

人工智能 2023年6月24日
0075
目标检测和手势识别(笔记)

目录一.R-CNN 二.目标检测 1.具体过程如下： 2.R-CNN基本工作流程: 3.R-CNN的优点与不足：除此之外 ———————————————————————————…

人工智能 2023年7月12日
0067
图片分类的入门：二分类

作为深度学习的入门，先来讲一下简单的猫狗分类。深度学习：训练数据集，让计算机精准识别这个是猫还是狗。猫狗识别： 1、数据预处理：准备训练集和测试集 2、卷积神经网络模型：构建网…

人工智能 2023年7月2日
0073
单目深度估计–深度学习篇

文章目录一：深度估计应用背景 * 1.深度估计的定义 2.深度估计的应用场景 3.几种深度估计的方法 4.使用深度学习估计的优缺点二：单目深度估计模型 * 1.使用的数据集 2…

人工智能 2023年7月26日
0067
使用anaconda进行tensorflow的cpu版本和gpu版本的安装步骤

1.cpu版本安装首先在anaconda中创建一个环境命名为TF2，python版本为3.7，然后按open terminal后，输入： pip install tensorfl…

人工智能 2023年5月23日
00126
【论文翻译】Meta Relational Learning for Few-Shot Link Prediction in Knowledge Graphs

【论文翻译】Meta Relational Learning for Few-Shot Link Prediction in Knowledge Graphs （基于元关系学习的小…

人工智能 2023年6月1日
0082
人工智能学习——模糊控制

模糊控制文章目录模糊控制前言一、模糊控制是什么？与神经网络的区别？二、模糊控制原理 * 1.模糊化 2.模糊规则 3.模糊推理 4.解模糊化三、模糊控制算法实例解析（含…

人工智能 2023年6月26日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

综述：计算机视觉中的通道注意力机制

综述：计算机视觉中的通道注意力机制

; 1. INTRODUCTION:

2. 计算机视觉中的注意力机制

2.1. 通用形式

; 2.2 通道注意力 | channel attention | what to pay attention to

2.2.1 SENet

; 2.2.2 GSoP-Net

2.2.3 SRM

; 2.2.4 GCT

2.2.5 ECANet

; 2.2.6 FcaNet

2.2.7 EncNet

; 2.2.8 通道注意力机制模型总结

3. 论文链接

大家都在看