随笔记录：关于SE模块插入位置的总结

2023年7月27日下午3:19 • 人工智能 • 阅读 70

一、前言

由于之前工作中，训练数据集普遍较小以及开发板对模型的限制，所以对 SE模块的使用较少，对它的插入位置不是很清楚，这样不利于日后对它的使用。故最近查了下使用案例，记录总结如下。

二、正文

（一） `plain` 模型

SE作者对 SE模块在 plain模型插入位置的建议是：在每个卷积的激活函数后面插入。这样一看会误以为在每个卷积层后面加个 SE模块，一般是在 每个 block 后面插入，下面结合实际的案例来做说明。

1. SE-Inception 模型

2. PP-LCNet 模型
随笔记录：关于SE模块插入位置的总结

由上面两张图可见， SE模块在 plain模型的插入位置，一般在 上个block的结尾下一个block之前的位置插入。

; （二） `skip connection` 模型

skip connection 模型指 ResNet、 MobileNet v2/v3这种具有 shortcut操作的模型。现在的模型基本是这个结构，它与 plain模型 block最大的不同就是多了个恒等映射的分支（一些变种可能不是恒等映射分支，意思明白就好）。

1. `(类)residual unit` 外部， `SE` 的插入位置

SE作者做了个实验，验证 SE模块在 residual unit外部时，放在哪个位置效果最好。这个实验虽然是用残差网络来做的，但是其他模型如 MobileNet也可以借鉴，毕竟二者的思路是一致的。

验证结果如下，下图中的 SE就是上图的 Standard SE block，其他名词含义与上图一致。
随笔记录：关于SE模块插入位置的总结

由上图可见， SE-POST block误差相对最大，所以作者建议： SE 模块要加在两个分支汇合之前。
至于 SE-PRE block、 SE-Identity block的 top1误差比 Standard SE block还小，但 SE作者最后并没有采用这种形式，而是用了 Standard SE block(也即上图的 SE)形式。我猜想可能是 plain模型的思维惯性，即放在卷积后面。
在此还要说明一点， SE作者自己说过，这些插入位置什么的，不是 SE论文的核心，所以他没做很多实验。他建议针对特定网络结构，针对性地插入 SE模块，可能会得到更好的结果。所以 SE-PRE block、 SE-Identity block甚至 SE-POST block都可以尝试一下。（反正深度学习是拿实验数据说话）

; 2. `(类)residual unit` 内部， `SE` 的插入位置

SE作者还实验了下，把插入位置由下图的 ” SE模块” 换到 ” SE_3X3“处(3x3指的是 block中间那个 3x3卷积)。另外说下，下图就是 SE-ResNet50的模型图，也就是作者最终选定的结构样式。

上面实验结果如下，可以发现二者的性能没什么差别，但因为 ResNet的 3x3卷积比下面 1x1卷积的通道数更低，所以 SE_3X3的参数量、计算量也更低。

此外，看 git上MobileNet v3代码，会发现 SE的插入位置还有个版本，该版本插入位置与 SE-ResNet50一致，在 unit最后一个卷积后面。这里估计是想减少点参数量及计算复杂度，毕竟 MobileNet v3的 3x3卷积比下面 1x1卷积的通道数更高。 实际使用时，两个位置都可以试试。

class Block(nn.Module):
    '''expand + depthwise + pointwise'''
    def __init__(self, kernel_size, in_size, expand_size, out_size, nolinear, semodule, stride):
"""
        这块代码不重要，就不贴出来了，免得不好看博客
"""
    def forward(self, x):
        out = self.nolinear1(self.bn1(self.conv1(x)))
        out = self.nolinear2(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        if self.se != None:
            out = self.se(out)
        out = out + self.shortcut(x) if self.stride==1 else out
        return out

自 YOLO V5面世以来，针对其的改进也有添加 SE模块的方式。纵观网上的博客，发现 V5添加 SE模块一般是在两个位置：
① 在 C3-bottleneck中添加 SE模块的，这样添加主要为了更好的做实验，参考博客；

另外，目前一般是加在 bottleneck中第一个卷积 block后面，参考上面的博客内容，也可以试试放在第二个卷积 block后面。最后我们可以看到，无论是 YOLO V5、 MobileNet v3还是 SE-ResNet50， 添加 SE 模块都是以block为单位目标来添加的，这点与我们在博文开头处的观点倒是不谋而合。

② 在 V5-backbone结尾处添加 SE模块。
这个添加位置比较少见，我也是看这个参考博客才知道，博主表示 backbone结尾添加一个注意力机制 会好点。


backbone:

  [
    [-1, 1, Focus, [64, 3]],
    [-1, 1, Conv, [128, 3, 2]],
    [-1, 3, C3, [128]],
    [-1, 1, Conv, [256, 3, 2]],
    [-1, 9, C3, [256]],
    [-1, 1, Conv, [512, 3, 2]],
    [-1, 9, C3, [512]],
    [-1, 1, Conv, [1024, 3, 2]],
    [-1, 1, SPP, [1024, [5, 9, 13]]],
    [-1, 3, C3, [1024, False]],
    [-1, 1, SELayer, [1024, 4]],
  ]

想了一下，这点在 SE论文里的 SE-Inception也有体现。如下图：

3. 在模型哪几层插入 `SE` 模块

这对我们使用 SE模块，确实是个问题，每层都用不合适，选一层的话又不知道应该选哪层。 SE作者为此做了个实验。
先看看作者做实验的模型，绿色的字体是我打的，让各位更明白模型每个 stage在模型中的位置，其中每个 feature map尺寸就是一个 stage。中间与右边两列中括号里的 fc,[xx, xx]就是 SE模块。

作者做了组对比实验，分别只在 SE_stage_2， SE_stage_3， SE_stage_4 插入 SE模块，最后又给出所有 stage（ SE_ALL）插入 SE模块的实验结果。可以看见，每层都加的效果是最好的（其参数量与计算量也最高），所以作者最后也是每个 block都添加了 SE模块。
随笔记录：关于SE模块插入位置的总结

但要注意的是，在模型的最后三个 block（ SE_stage_4）添加 SE模块，会发现 性能-计算复杂度取到一个比较好的平衡，这点在 PP-LCNet里也得到了呼应。如下图所示， PP-LCNet在模型最后的两个 block添加 SE模块（也是最后一个 stage），也是取得了 性能-计算复杂度平衡，故以后部署平台算力紧张时，可以考虑这种策略。
随笔记录：关于SE模块插入位置的总结

查看 MobileNet v3论文，发现其对 SE的用法也有点类似于前两者。据下图可知， MobileNet v3在其 large与 small版本的最后两个 stage中都插入了 SE模块。以后使用时， 在模型最后两个 stage 添加 SE 模块性价比更高点，如果算力限制大，也可以试着 只在最后一个 stage 添加 SE 模块。

; 三、后语

抛砖引玉之作，如有遗漏、补充，还请各位看官不吝指出，谢谢。

Original: https://blog.csdn.net/tangshopping/article/details/126133995
Author: tang-shopping
Title: 随笔记录：关于SE模块插入位置的总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/718634/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

力扣每日一题：790. 多米诺和托米诺平铺【dp动态规划】

有两种形状的瓷砖：一种是 2 x 1 的多米诺形，另一种是形如 “L” 的托米诺形。两种形状都可以旋转。给定整数 n ，返回可以平铺 2 x n 的面板的…

人工智能 2023年6月26日
0083
大象声科在联想YOGA Pro 14s的方案概要和 intel GAN初见

在联想联想高阶旗舰品牌YOGA Pro 14s (YOGA Slim 9i)上搭载了大象声科Vocplus PC AI语音方案，据该方案这是一套集成在Intel GNA人工智慧加…

人工智能 2023年5月27日
00148
升级｜ ONES Wiki 多人实时协作，万物皆可编辑

近日， ONES 完成了对知名文档工具为知笔记的全资收购，为知笔记将多人协同、区块编辑等核心编辑器能力赋予 ONES Wiki，带来新一代的文档协作与知识管理体验。全新升级的 O…

人工智能 2023年6月11日
0078
智能新时代的天津故事

*本文系第六届世界智能大会观察团成员《一点财经》出品新能源车”天津号”，像一道蓝色闪电在公路上行驶，汽车所需的能源来自于太阳。一块位于车顶的太阳能板，持续…

人工智能 2023年7月16日
0059
Pandas大数据清洗实战之二：牛刀小试

1、数据准备 csv是以纯文本形式存储的表格数据，接下来讲述使用pandas读取和操作csv中的数据首先准备csv文件，内容如下： white,red,blue,pink,blac…

人工智能 2023年7月8日
0085
python实现PCA降维及可视化

实现功能： python对数据清洗以及数据编码（具体实现方式可查看前两篇文章）后的变量进行PCA降维，并进行可视化展示。实现代码： # 导入&#x97…

人工智能 2023年6月19日
0090
CLIP模型的使用和训练-利用CLIP实现zero-shot的分类任务

CLIP模型文章目录 CLIP模型 * @[toc] 1 论文介绍 – 1.1 训练阶段 1.2 测试阶段 1.3 优缺点 1.4 官方给定的实验结果 2 利用CLI…

人工智能 2023年5月26日
0099
BackBone—Resnet

在介绍之前首先理解一下BackBone的含义。 backbone这个单词原意指的是人的脊梁骨，后来引申为支柱，核心的意思。在CV领域，一般先对图像进行特征提取（常见的有vggne…

人工智能 2023年7月13日
00101
利用Seurat包入门生物信息学(part2)–引导案例之PBMC聚类

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月3日
00214
监督学习-判别学习算法和生成学习算法

从云盘上翻到之前期末复习做的思维导图。判别学习算法和生成学习算法都属于监督学习，前者包含了我们熟知的线性回归、逻辑回归等，后者则以朴素贝叶斯较为著名。主要参考了吴恩达的CS229，…

人工智能 2023年6月4日
0076
pytorch实现图像上采样的几种方式

pytorch实现图像上采样的几种方式 * – 1. torch.nn.Upsample() – 2. torch.nn.ConvTranspose2d()…

人工智能 2023年7月21日
0084
R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战

R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战目录 R语言数据包自带数据集之ToothGrowth数据集字段解释、数据导入实战 #数据字段说明 #导入…

人工智能 2023年6月19日
00128
中文文本多标签文本分类（python tensorflow2实现）

NLP（中文文本多标签文本分类）本文主要是说明中文文本多标签分类的具体流程，结果不理想暂不考虑，后续再进行优化（刚接触NLP）。先来说说多标签分类和二分类，多分类的区别。二分类…

人工智能 2023年5月25日
0091
使用MindSpore训练及保存模型

MindSpore提供了回调Callback机制，可以在训练过程中执行自定义逻辑，这里以使用框架提供的ModelCheckpoint为例。 ModelCheckpoint可以保存网…

人工智能 2023年5月26日
00100
目标检测2——卷积注意力模块

卷集注意力模块（CBAM）为后续YOLOv4网络加入卷集注意力模块，在这里记录一下卷集注意力模块的理解。文章目录卷集注意力模块（CBAM） * 1.卷集注意力模块整体结构 2…

人工智能 2023年7月12日
0081
目标检测后处理中检测框不稳定的处理方式

前言经历了场景需求调研，方案技术路线。下面开始时间算法开发： ; 一、目标检测框不稳定类型 1.目标检测框的宽高比不稳定2.目标检测框的中心坐标稳定3.目标检测框连续若干帧检测不…

人工智能 2023年7月9日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

随笔记录：关于SE模块插入位置的总结

（一） plain 模型

; （二） skip connection 模型

1. (&#x7C7B;)residual unit 外部， SE 的插入位置

; 2. (&#x7C7B;)residual unit 内部， SE 的插入位置

3. 在模型哪几层插入 SE 模块

大家都在看

（一） `plain` 模型

; （二） `skip connection` 模型

1. `(类)residual unit` 外部， `SE` 的插入位置

; 2. `(类)residual unit` 内部， `SE` 的插入位置

3. 在模型哪几层插入 `SE` 模块