深入理解CV中的Attention机制之SE模块

2023年6月16日上午9:12 • 人工智能 • 阅读 118

CV中的Attention机制汇总（一）：SE模块

Squeeze-and-Excitation Networks

1. 摘要

In this work, we focus instead on the channel relationship and propose a novel architectural unit, which we term the “Squeeze-and-Excitation”(SE) block,that adaptively recalibrates（重新校准）channel-wise feature responses by explicitly modelling interdependencies between channels.

SE模块属于通道注意力机制，可以自适应学习不同通道之间的依赖关系。

2. SE模块详细理解

原文中给出的SE模块图例如下:

结合论文第3节的内容对以下两个问题进行详细理解：

SE模块是如何学习不同通道之间的依赖关系的？
SE模块是如何利用通道信息引导模型对特征进行有区分度的加权学习的？

; 2.1 多输入与多输出通道

图1中①部分描述了多输入与多输出通道的卷积层.

多输入通道:输入特征图的每个通道都对应一个二维卷积核,所有输入通道的卷积结果之和为最后的卷积结果,如下图所示（为了简便描述，省略了偏差）:

式中，C C C表示第C C C个输出通道，S S S表示第S S S个输入通道。
每个输入通道均对应一个二维卷积核,所以: 三维卷积核的通道数=输入特征图的通道数.

2.2 多输出通道

每个输出通道对应独立的三维卷积核,因此, 输出特征图的通道数=三维卷积核的个数。通常，输出通道数是超参数。

根据多输入与多输出通道的原理，我们不难理解在常规的卷积计算中，不同输入通道之间的关联性隐藏于每个输出通道中，且仅采用”相加”这一简单的方式，而不同的输出通道对应于独立的三维卷积核，因此，输入通道之间的关联性没有得到合理的利用。

因此论文作者提出SE模块来显式地利用不同输入通道之间的信息。

; 2.3 Squeeze-and-Excitation Block

2.3.1 Squeeze: Global Information Embedding

作者采用全局平均汇聚(Global Average Pooling)得到每个通道的信息。
z c = F s q ( u c ) = 1 H × W ∑ i = 1 H ∑ j = 1 W u c ( i , j ) z_c=\bold F_{sq}(\bold u_c)=\frac{1}{H\times W}\sum_{i=1}^{H} \sum_{j=1}^{W}u_c(i,j)z c =F s q (u c )=H ×W 1 i =1 ∑H j =1 ∑W u c (i ,j )

为什么这么做？原文中解释道：

Each of the learned filters operates with a local receptive field and consequently each unit of the transformation output U U U is unable to exploit contextual information outside of this region.

在一张大小为H × W H\times W H ×W的特征图中，每个元素仅对应输入特征图中的某个局部区域（即感受野），因此输出特征图中的每个元素仅包含了局部信息而不是全局信息。

To mitigate this problem, we propose to squeeze global spatial information into a channel descriptor. This is achieved by using global average pooling to generated chanel-wise statistics.

作者采用全局平均汇聚得到每个通道的全局特征，目的是为了融合局部信息得到全局信息，之所以采用全局平均汇聚是因为实现简单，也可以采用其他更为精细但复杂的操作。

2.3.2 Excitation: Adaptive Recaloibration

Excitation（激励）模块是为了更好地得到各个通道之间的依赖关系，需要满足两个要求：

可以学习各个通道之间的非线性关系；
可以保证每个通道都有对应的输出，得到soft-label，而不是one-hot型向量。
因此，作者使用了两个全连接层学习非线性关系，最后使用sigmoid激活函数。
并且为了降低模型参数和复杂度，采用了”bottleneck”思想设计全连接层，随之产生一个超参数：r r r，文中令r = 16 r=16 r =1 6。

关于为什么使用 s i g m o i d 函数的思考？ \color{red}{关于为什么使用sigmoid函数的思考？}关于为什么使用s i g m o i d 函数的思考？

sigmoid是常见的激活函数之一，SE模块最后的输出相当于学习到的每个通道的权重，首先要保证权重不能为0，为0的话反而会损失大量信息，因此不能使用ReLU；另外，这里想要得到范围在[ 0 , 1 ] [0,1][0 ,1 ]的权重，而不是为了突出某一个通道，有别于”多类别分类”问题，更像”多标签分类”问题，因此这里使用softmax函数是不合适的。

Excitation模块公式表示：
s = F e x ( x , W ) = σ ( g ( z , W ) ) = σ ( W 2 δ ( W 1 z ) ) s=\bold F_{ex}(\bold x, \bold W)=\sigma(g(\bold z,\bold W))=\sigma(\bold W_2\delta(W_1 \bold z))s =F e x (x ,W )=σ(g (z ,W ))=σ(W 2 δ(W 1 z ))
式中，δ ( ∙ ) \delta(\bullet)δ(∙)表示ReLU激活函数，σ ( ∙ ) \sigma(\bullet)σ(∙)表示sigmoid激活函数。

; 2.3.3 加权

最后将SE模块的输出作用于卷积层的输出，得到通道注意力加权的输出特征图。

使用得到的channel-wise向量，对每个通道的特征图的每个元素作加权（理解公式（4）后面是标量与矩阵的乘积）。

3. SE模块的使用

; 三、PyTorch实现SE模块

3.1 使用全连接层实现Excitation

class SE(nn.Module):
    def __init__(self, channels, reduction=16):
        super(SE, self).__init__()
        self.squeeze = nn.AdaptiveAvgPool2d((1, 1))
        self.excitation = nn.Sequential(
            nn.Linear(channels, channels // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channels // reduction, channels, bias=False),
            nn.Sigmoid())

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.squeeze(x).view(b, c)
        y = self.excitation(y).view(b, c, 1, 1)
        return x * y.expand_as(x)

3.2 使用 1 × 1 1\times 1 1 ×1 卷积实现Excitation

使用1 × 1 1\times 1 1 ×1卷积代替全连接层，避免矩阵与向量之间的维度转换

class SE(nn.Module):
    def __init__(self, channels, reduction=2):
        super(SE, self).__init__()
        self.squeeze = nn.AdaptiveAvgPool2d((1, 1))
        self.excitation = nn.Sequential(
            nn.Conv2d(channels, channels // reduction, kernel_size=1, stride=1, padding=0, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(channels // reduction, channels, kernel_size=1, stride=1, padding=0, bias=False),
            nn.Sigmoid())

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.squeeze(x)
        print(y.shape)
        y = self.excitation(y)
        print(y.shape)
        return x * y

Original: https://blog.csdn.net/qq_34554039/article/details/122875820
Author: 草莓酱土司
Title: 深入理解CV中的Attention机制之SE模块

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622931/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

(最全、最新、直接用)df数据类型转化和说明(astype,apply,object)

系列文章目录我们在分析数据的时候，会遇到某些字段的数据类型与原来的不相同，极有可能是数据不规整造成的。先来看看主要的数据类型,pandas、python与numpy之间的数据对应…

人工智能 2023年7月6日
0068
卷积层中的权重共享是什么意思

问题：卷积层中的权重共享是什么意思？介绍：在深度学习中，卷积神经网络（Convolutional Neural Networks，简称CNN）是一种主要用于图像识别和处理的神经…

人工智能 2024年1月1日
0038
【Python入门教程】第73篇写入CSV文件

本篇我们介绍如何使用 Python 内置的 csv 模块将数据写入 CSV 文件。写入 CSV 文件在 Python 代码中写入 CSV 文件的步骤如下：首先，使用内置的 o…

人工智能 2023年7月5日
0075
[论文阅读]PIT

Permutation Invariant Training of Deep Models for Speaker-Independent Multi-Talker Speech …

人工智能 2023年5月25日
0065
Review of AI (HITSZ)

Review of AI （HITSZ）含22年真题回顾 * – 1. Introduction – 2. Intelligent Agents &#821…

人工智能 2023年6月29日
0056
2.数据及其预处理

数据样本矩阵一般数据集的构造形式：一行一样本，一列一特征，以下为一个示例姓名年龄性别工作经验月薪 A 22 男 2 5000 B 23 女 3 6000 C 25 男…

人工智能 2023年6月4日
00116
2020东京奥运会奖牌数据可视化

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月11日
0094
AI上推荐之 AutoInt模型(Transformer开始玩特征交互)

1. 写在前面这段时间做优化模型的事情，正好和特征交互有关系，这个也是推荐系统里面一直探索的一个方向，从浅层模型的FM, FFM, HOFM, FwFM到深层模型的DNN, PN…

人工智能 2023年5月28日
0077
Python数据分析报告

业务背景：B2B业务已收会员和服务费作为收益主要来源，目前会员类型分成钻石会员、金牌会员，销售合同一般会包含会员服务、增值服务、广告服务等等，销售过程可能会受到销售策略的影响，做一…

人工智能 2023年7月18日
0053
深度学习中的随机种子torch.manual_seed(number)、torch.cuda.manual_seed(number)

训练模型过程中，会遇到很多的随机性设置，设置随机性并多次实验的结果更加有说服力。但是现在发论文越来越要求模型的可复现性，这时候不得不控制代码的随机性问题且每次随机的初始权重一样，有…

人工智能 2023年7月26日
0084
python 实现学生信息管理系统+MySql 数据库，包含源码及相关实现说明~

学生信息管理系统 1、系统说明 python 编写的学生信息管理系统+MySQL数据库，实现了增删改查的基本功能。 2、数据库说明本人使用的是 MySQL8.0 版本数据库端口号…

人工智能 2023年7月6日
0078
Pandas 模块-操纵数据(2)-重新索引-reindex()函数

重新索引请注意，DataFrame.rename() 函数是对行名和列名进行修改，并不修改数据，而DataFrame.reindex 可以引入新行/列，或者去掉旧行/列。 2.1…

人工智能 2023年7月8日
0050
如何看待第三代神经网络SNN？详解脉冲神经网络的架构原理、数据集和训练方法原创

作者丨科技猛兽编辑丨极市平台本文首发于极市平台公众号，转载请获得授权并标明出处。本文目录 1 脉冲神经网络简介2 脉冲神经网络原理3 脉冲神经网络数据集4 脉冲神经网络训练方法5…

人工智能 2023年6月16日
0061
物联网工程导论简单整理

第一章物联网概论 1.1物联网发展的社会背景 1、物联网概念的提出：2005年ITU（国际电信联盟）发布互联网研究报告《The Internet of Thing》 2、2009…

人工智能 2023年7月27日
0051
python实战项目分析2—物流

物流信息分析一.数据清洗 * 异常值处理二.数据规整三.数据分析并可视化 * – 1.配送服务是否存在问题 + a.月份维度 b.销售区域维度 c.货品维度 d….

人工智能 2023年6月19日
0084
Power BI的基本操作

1、度量值与关系模型 1、查看关系模型导入数据点击左侧【数据】，可以查看表中数据。关系模型可以看到，商品表和销售表是一对多的关系；门店和销售表也是一对多的关系。 ; 2、创…

人工智能 2023年7月15日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31