详解 Non-local 与 SENet、CBAM 模块融合：GCNet、DANet (视觉注意力机制 (三))

2023年6月25日下午1:31 • 人工智能 • 阅读 91

一、Global Context Network (GCNet)

论文地址：https://arxiv.org/search/?query=GCNet&searchtype=all&source=header
代码地址：https://github.com/xvjiarui/GCNet
为了捕获长距离依赖关系，产生了两类方法：采用自注意力机制来建模query对的关系。
对query-independent(可以理解为无query依赖)的全局上下文建模。
NLNet 就是采用自注意力机制来建模像素对关系。然而NLNet对于每一个位置学习不受位置依赖的 attention map，造成了大量的计算浪费。SENet 用全局上下文对不同通道进行权值重标定，来调整通道依赖。然而，采用权值重标定的特征融合，不能充分利用全局上下文。
GCNet 模块
作者提出了一种新的全局上下文建模框架，global context block(简写GCNet)，即能够像Non-local block一样建立有效的长距离依赖，又能够像SE block一样省计算量。
GC block的3个步骤为：
global attention pooling用于上下文建模。
bottleneck transform来捕获通道间依赖。
broadcast element-wise addition用于特征融合。
在简化版的 non-local block 中，transform 模块有大量的参数。为了获得 SE block 轻量的优点，1×1 卷积用 bottleneck transform 模块来取代，能够显著的降低参数量(其中r是降低率)。因为两层 bottleneck transform 增加了优化难度，所以在 ReLU前面增加一个 layer normalization 层(降低优化难度且作为正则提高了泛化性)。

import torch
from torch import nn

class ContextBlock(nn.Module):
    def __init__(self,inplanes,ratio,pooling_type='att',
                 fusion_types=('channel_add', )):
        super(ContextBlock, self).__init__()
        valid_fusion_types = ['channel_add', 'channel_mul']

        assert pooling_type in ['avg', 'att']
        assert isinstance(fusion_types, (list, tuple))
        assert all([f in valid_fusion_types for f in fusion_types])
        assert len(fusion_types) > 0, 'at least one fusion should be used'

        self.inplanes = inplanes
        self.ratio = ratio
        self.planes = int(inplanes * ratio)
        self.pooling_type = pooling_type
        self.fusion_types = fusion_types

        if pooling_type == 'att':
            self.conv_mask = nn.Conv2d(inplanes, 1, kernel_size=1)
            self.softmax = nn.Softmax(dim=2)
        else:
            self.avg_pool = nn.AdaptiveAvgPool2d(1)
        if 'channel_add' in fusion_types:
            self.channel_add_conv = nn.Sequential(
                nn.Conv2d(self.inplanes, self.planes, kernel_size=1),
                nn.LayerNorm([self.planes, 1, 1]),
                nn.ReLU(inplace=True),  # yapf: disable
                nn.Conv2d(self.planes, self.inplanes, kernel_size=1))
        else:
            self.channel_add_conv = None
        if 'channel_mul' in fusion_types:
            self.channel_mul_conv = nn.Sequential(
                nn.Conv2d(self.inplanes, self.planes, kernel_size=1),
                nn.LayerNorm([self.planes, 1, 1]),
                nn.ReLU(inplace=True),  # yapf: disable
                nn.Conv2d(self.planes, self.inplanes, kernel_size=1))
        else:
            self.channel_mul_conv = None

    def spatial_pool(self, x):
        batch, channel, height, width = x.size()
        if self.pooling_type == 'att':
            input_x = x
            # [N, C, H * W]
            input_x = input_x.view(batch, channel, height * width)
            # [N, 1, C, H * W]
            input_x = input_x.unsqueeze(1)
            # [N, 1, H, W]
            context_mask = self.conv_mask(x)
            # [N, 1, H * W]
            context_mask = context_mask.view(batch, 1, height * width)
            # [N, 1, H * W]
            context_mask = self.softmax(context_mask)
            # [N, 1, H * W, 1]
            context_mask = context_mask.unsqueeze(-1)
            # [N, 1, C, 1]
            context = torch.matmul(input_x, context_mask)
            # [N, C, 1, 1]
            context = context.view(batch, channel, 1, 1)
        else:
            # [N, C, 1, 1]
            context = self.avg_pool(x)
        return context

    def forward(self, x):
        # [N, C, 1, 1]
        context = self.spatial_pool(x)
        out = x
        if self.channel_mul_conv is not None:
            # [N, C, 1, 1]
            channel_mul_term = torch.sigmoid(self.channel_mul_conv(context))
            out = out * channel_mul_term
        if self.channel_add_conv is not None:
            # [N, C, 1, 1]
            channel_add_term = self.channel_add_conv(context)
            out = out + channel_add_term
        return out
if __name__ == "__main__":
    in_tensor = torch.ones((12, 64, 128, 128))
    cb = ContextBlock(inplanes=64, ratio=1./16.,pooling_type='att')
    out_tensor = cb(in_tensor)
    print(in_tensor.shape)
    print(out_tensor.shape)

二、Dual Attention Network for Scene Segmentation（DANet）

论文地址：https://arxiv.org/pdf/1809.02983.pdfarxiv.org
代码地址：https://github.com/junfu1115/DANetgithub.com
DANet 是一种经典的应用self-Attention的网络，它引入了一种自注意力机制来分别捕获空间维度和通道维度中的特征依赖关系。
场景分割需要预测出图像中的像素点属于某一目标类或场景类，其图像场景的复杂多样（光照，视角，尺度，遮挡等）对于场景的理解和像素点的判别造成很大困难。
主流场景分割方法大致可分为以下两种类型：一是通过使用多尺度特征融合的方式增强特别的表达，例如空间金字塔结构 (PSP，ASPP) 或者高层浅层特征融合 (RefineNet)。但是这些方式没有考虑到不同特征之间的关联依赖，而这对于场景的理解确实十分重要。另一是利用 RNN 网络构建特征长范围的特征关联，但这种关联往往受限于 RNN 的 long-term memorization。
双重注意网络（DANet）来自适应地集成局部特征和全局依赖。在传统的扩张 FCN 之上附加两种类型的注意力模块，分别模拟空间和通道维度中的语义相互依赖性。
从其结构图中可以看到，它由两个并列的 attention module 组成，第一个得到的是特征图中任意两个位置的依赖关系，称为Position Attention Module（PAM）；第二个是任意两个通道间的依赖关系，称为 Channel Attention Module（CAM）。

从其具体的模块中来看，PAM中的 attention_map 的大小为 B×(W×H)×(W×H)，而 CAM 中的 attention_map 大小为B×C×C，这就是 PAM 与 CAM 的区别，他们所代表的一个是任意两个位置之间的依赖关系，一个代表的是任意两个通道之间的依赖关系。

&#x4F4D;&#x7F6E;&#x6CE8;&#x610F;&#x529B;&#x6A21;&#x5757;&#xFF08;PAM&#xFF09;&#x901A;&#x8FC7;&#x6240;&#x6709;&#x4F4D;&#x7F6E;&#x5904;&#x7684;&#x7279;&#x5F81;&#x7684;&#x52A0;&#x6743;&#x548C;&#x6765;&#x9009;&#x62E9;&#x6027;&#x5730;&#x805A;&#x5408;&#x6BCF;&#x4E2A;&#x4F4D;&#x7F6E;&#x7684;&#x7279;&#x5F81;&#x3002;&#x65E0;&#x8BBA;&#x8DDD;&#x79BB;&#x5982;&#x4F55;&#xFF0C;&#x7C7B;&#x4F3C;&#x7684;&#x7279;&#x5F81;&#x90FD;&#x5C06;&#x5F7C;&#x6B64;&#x76F8;&#x5173;&#x3002;
&#x901A;&#x9053;&#x6CE8;&#x610F;&#x529B;&#x6A21;&#x5757;&#xFF08;CAM&#xFF09;&#x901A;&#x8FC7;&#x6574;&#x5408;&#x6240;&#x6709;&#x901A;&#x9053;&#x6620;&#x5C04;&#x4E4B;&#x95F4;&#x7684;&#x76F8;&#x5173;&#x7279;&#x5F81;&#x6765;&#x9009;&#x62E9;&#x6027;&#x5730;&#x5F3A;&#x8C03;&#x5B58;&#x5728;&#x76F8;&#x4E92;&#x4F9D;&#x8D56;&#x7684;&#x901A;&#x9053;&#x6620;&#x5C04;&#x3002;
&#x5C06;&#x4E24;&#x4E2A;&#x6CE8;&#x610F;&#x6A21;&#x5757;&#x7684;&#x8F93;&#x51FA;&#x76F8;&#x52A0;&#x4EE5;&#x8FDB;&#x4E00;&#x6B65;&#x6539;&#x8FDB;&#x7279;&#x5F81;&#x8868;&#x793A;&#xFF0C;&#x8FD9;&#x6709;&#x52A9;&#x4E8E;&#x66F4;&#x7CBE;&#x786E;&#x7684;&#x5206;&#x5272;&#x7ED3;&#x679C;&#x3002;

位置注意力模块（PAM）
问题：传统FCNs生成的特征会导致对物体的错误分类。
解决：引入位置注意模块在局部特征上建立丰富的上下文关系，将更广泛的上下文信息编码为局部特征，进而增强他们的表示能力。

链接来源：https://blog.csdn.net/qq_39478403/article/details/105459001?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164999496416780271535838%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=164999496416780271535838&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v1~rank_v31_ecpm-5-105459001.142v9pc_search_result_cache,157v4control&utm_term=Non-local%E7%BD%91%E7%BB%9C%E6%A8%A1%E5%9D%97&spm=1018.2226.3001.4187

Original: https://blog.csdn.net/walkinging1/article/details/126336218
Author: 正在搬砖嘤
Title: 详解 Non-local 与 SENet、CBAM 模块融合：GCNet、DANet (视觉注意力机制 (三))

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651001/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python根据csv绘制多折线图（内含批量读取+自定义坐标标签+阴影处理）

实现功能 1.从csv中读取数据 2.数据清洗（大小超出范围的异常值处理） 3.数据累积处理（将每日数据处理为历史累积值） 4.绘制多折线图 0.导入相关包import os im…

人工智能 2023年7月8日
0056
OpenCV——Canny边缘检测（cv2.Canny()）

Canny边缘检测 Canny 边缘检测是一种使用多级边缘检测算法检测边缘的方法。1986 年，John F. Canny 发表了著名的论文 A Computational App…

人工智能 2023年6月18日
0067
机械臂识别抓取笔记（深抓取：用深神经网络检测和定位抓取）

Antipodal Robotic Grasping using Generative Residual Convolutional Neural Network （基于生成残差卷…

人工智能 2023年7月13日
0062
Phoenix 对 Hbase 中表的映射

目录 * – 1）表的关系 – 2）Hbase中创建表 test – 3）视图映射 – 4）表映射 – 数字类型说明 1…

人工智能 2023年7月30日
0067
普通话转粤语_免费音频转文字，好用的录音转文字软件

作为一个单词狗，我很清楚整理录音的痛苦。我把大部分时间都花在整理采访或会议记录的录音上。 [En] As a word dog, I am well aware of the pa…

人工智能 2023年5月27日
0079
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0068
pandas写入excel指定行_使用pandas操作excel

pandas操作excel 最近由于要处理一些excel表格，发现pandas可以免去很多的繁琐的人工劳动，在这里记录一下我所用到的知识。导入文档将excel中的工作表导入 f…

人工智能 2023年7月7日
0067
Pandas StringMethods概述

假定有一个表如大学招生表，包括c -> colCode(大学代码),f -> firstSubject(首选科目),o -> otherSubject(其他科目要…

人工智能 2023年7月8日
0055
2022年高教社杯全国大学生数学建模国赛B题思路

1.比赛报名与思路解析（持续更新750967193） 2.比赛时间：2022年9月15日18点到2022年9月18日20点如下为B题思路：先贴题目：如下是初步分析：无人机的…

人工智能 2023年7月27日
0064
变量之间的相关性研究

目录 * – 1 什么是相关性？ – + 协方差及协方差矩阵 + 相关系数 + （1）简单相关分析 + （2）偏相关分析 + （3）复相关分析 + （4）典…

人工智能 2023年7月16日
0042
程序分析与优化-9 附录 XLA的缓冲区指派

本章是系列文章的案例学习，不属于正篇，主要介绍了TensorFlow引入的XLA的优化算法。XLA也有很多局限性，XLA更多的是进行合并，但有时候如果参数特别多的场景下，也需要进行…

人工智能 2023年6月4日
0098
Lingo语言程序设计基础

运算符关系运算符 Lingo 仅识别 “=”,”>=”,” 算术运算符就是 + – 啥的逻辑运算…

人工智能 2023年6月29日
0074
COCO数据集Keypoint标注格式梳理和使用COCO-Annotator在自有数据集上进行标注

这里写自定义目录标题 COCO数据集Keypoint标注格式 * COCO数据集官网 Keypoint Detection关键点检测 – 统一数据格式 Keypoint…

人工智能 2023年7月6日
0081
《机器学习》西瓜书课后习题9.4——python实现K-means算法

《机器学习》西瓜书课后习题9.4——python实现K-means算法 9.4 试编程实现k均值算法，设置三组不同的k值、三组不同的初始中心点，在西瓜数据集4.0上进行实验比较，并…

人工智能 2023年6月15日
0073
【工具使用】AI帮你写代码

文章目录 1.Copilot * 1.1什么是 GitHub Copilot？ 1.2 Copilot 工作原理 2.实测体验 3.面向注释编程 * 3.1缺点 3.2优点先说结…

人工智能 2023年7月27日
00105
神经网络之BP神经网络

一、BP神经网络的概念 BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，对于如下的只含一个隐层的神经网络模型： (三层BP神经…

人工智能 2023年6月16日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

详解 Non-local 与 SENet、CBAM 模块融合：GCNet、DANet (视觉注意力机制 (三))

一、Global Context Network (GCNet)

二、Dual Attention Network for Scene Segmentation（DANet）

大家都在看