Coordinate Attention和BiFPN

2023年6月25日下午1:46 • 人工智能 • 阅读 50

文章目录

*
–
+ 1 坐标注意力机制(Coordinate Attention)
+
* 原理：
* 结构：
* 代码：
* 优缺点：
+ 2 加权双向特征金字塔(BiFPN)网络结构
+
* 原理
* 结构
* 代码
* 优缺点

1 坐标注意力机制(Coordinate Attention)

论文：http://arxiv.org/abs/2103.02907
源码：https://github.com/Andrew-Qibin/CoordAttention
推荐文章（参考文章）：https://blog.csdn.net/zhouchen1998/article/details/114518727

原理：

通过将位置信息嵌入到通道注意力中，使得轻量级网络能够在更大的区域上进行注意力，同时避免了产生大量的计算开销。为了缓解2D全局池化造成的位置信息丢失，论文作者将通道注意力分解为两个并行的1D特征编码过程，有效地将空间坐标信息整合到生成的注意图中。更具体来说，作者利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图。然后，这两个嵌入特定方向信息的特征图分别被编码为两个注意力图，每个注意力图都捕获了输入特征图沿着一个空间方向的长程依赖。因此，位置信息就被保存在生成的注意力图里了，两个注意力图接着被乘到输入特征图上来增强特征图的表示能力。由于这种注意力操作能够区分空间方向（即坐标）并且生成坐标感知的特征图，因此将提出的方法称为坐标注意力（coordinate attention）。

结构：

从结构图上不难看出

其中X A v g P o o l X Avg Pool X A v g P o o l是对W W W方向做平均池化，得到C × H × 1 C \times H \times 1 C ×H ×1，同样Y A v g P o o l Y Avg Pool Y A v g P o o l是对H H H方向做平均池化，得到C × 1 × W C \times 1 \times W C ×1 ×W
对两个多通道的一D向量在做空间维度的c o n c a t concat c o n c a t，然后用1 × 1 1 \times 1 1 ×1卷积压缩通道数
然后再通过BN和Non-linear来编码垂直方向和水平方向的空间信息
在进行split分离（就是将完整的特征向量重新分为两个方向的向量），通过1 × 1 1 \times 1 1 ×1卷积重新调整两个方向特征向量的通道数，然后经过S i g m o i d Sigmoid S i g m o i d函数
最后在与原输入信息进行两个方向的加权

; 代码：

源码地址：https://github.com/Andrew-Qibin/CoordAttention
下面是原作者github上传的源代码：

import torch
import torch.nn as nn
import math
import torch.nn.functional as F

class h_sigmoid(nn.Module):
    def __init__(self, inplace=True):
        super(h_sigmoid, self).__init__()
        self.relu = nn.ReLU6(inplace=inplace)

    def forward(self, x):
        return self.relu(x + 3) / 6

class h_swish(nn.Module):
    def __init__(self, inplace=True):
        super(h_swish, self).__init__()
        self.sigmoid = h_sigmoid(inplace=inplace)

    def forward(self, x):
        return x * self.sigmoid(x)

class CoordAtt(nn.Module):
    def __init__(self, inp, oup, reduction=32):
        super(CoordAtt, self).__init__()
        self.pool_h = nn.AdaptiveAvgPool2d((None, 1))
        self.pool_w = nn.AdaptiveAvgPool2d((1, None))

        mip = max(8, inp // reduction)

        self.conv1 = nn.Conv2d(inp, mip, kernel_size=1, stride=1, padding=0)
        self.bn1 = nn.BatchNorm2d(mip)
        self.act = h_swish()

        self.conv_h = nn.Conv2d(mip, oup, kernel_size=1, stride=1, padding=0)
        self.conv_w = nn.Conv2d(mip, oup, kernel_size=1, stride=1, padding=0)

    def forward(self, x):
        identity = x

        n,c,h,w = x.size()
        x_h = self.pool_h(x)
        x_w = self.pool_w(x).permute(0, 1, 3, 2)

        y = torch.cat([x_h, x_w], dim=2)
        y = self.conv1(y)
        y = self.bn1(y)
        y = self.act(y)

        x_h, x_w = torch.split(y, [h, w], dim=2)
        x_w = x_w.permute(0, 1, 3, 2)

        a_h = self.conv_h(x_h).sigmoid()
        a_w = self.conv_w(x_w).sigmoid()

        out = identity * a_w * a_h
        return out

优缺点：

1.它捕获了不仅跨通道的信息，还包含了方向感知和位置感知的信息，这使得模型更准确地定位到并识别目标区域。
2.其次就是论文中所说的，插入到MobileNetV2网络中，在不增加太多的参数前提下，分类精度提升较明显
3.其次提到的下游任务：检测分割等，效果也很好，但是从论文的角度去看，在他们的训练策略下，坐标注意力就已经比SE、CBAM参数多，如果是我们自己改进，参数量肯定是需要考虑的方面。（不过作为一种新的注意力机制，创新性还是很很可观的）

2 加权双向特征金字塔(BiFPN)网络结构

推荐文章：https://zhuanlan.zhihu.com/p/96773680

原理

BiFPN主要思想有两点：一是高效的双向跨尺度连接，二是加权特征图融合。

结构

上图为比较经典的PANet结构

上图为BiFPN结构
下面将FPN，PANet，BiFPN结构进行对比：
Coordinate Attention和BiFPN

图(a) FPN 引入了一条自顶向下的通道来融合特征
图(b) PANet 在 FPN 基础上增加了一条自底向上的通道
图© BiFPN：不同于其他的FPN结构（不同 resolution 的特征融合时直接相加），但实际上它们对最后 output 的贡献是不同的，所以作者希望网络来学习不同输入特征的权重，即 weighted feature fusion。在PANet的基础上，若输入和输出都是同一水平的(好多文章都说水平二字，我认为应该是在网络结构图上来看，他们处于同一水平，并且通道数一致），则添加一条额外的边。在EfficientDet文章中，BiFPN当做一个小的网络模块来使用，并且叠加多次。
加权特征融合
先前的特征融合方法大多平等地对待所有输入特征。然而，因为不同的特征具有不同的分辨率，他们对特征融合的贡献是不平等的。为解决此问题，本文提出在特征融合期间为每个输入添加一个额外的权重，让网络去学习每个输入特征的重要性。

; 代码

代码（源码）链接：https://github.com/xuannianz/EfficientDet

优缺点

特征复用更绝对化，而不是平均化
作为改进当下的网络模型可以进行参考

注：参考的原文出处已经给出，本着学习的态度去搜的参考文章，而不仅仅是搬运工~~

Original: https://blog.csdn.net/qq_46497842/article/details/123299993
Author: 勇敢牛牛@
Title: Coordinate Attention和BiFPN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651021/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mmsegmentation中构造自己的数据集和数据加载部分，跑现有demo

在mmsegmentation中训练自己的数据集先在mmse/dataset下创建一个python文件，我的名字是my_thermal_dataset.py 在其中填写下面内容 …

人工智能 2023年6月4日
00104
【鸢尾花数据集最小错误率贝叶斯分类】

一、问题描述——鸢尾花数据集最小错误率贝叶斯分类iris是鸢尾植物数据集，存储了其萼片和花瓣的长宽，共4个特征属性（记萼长为属性1，萼宽为属性2，花瓣长为属性3，花瓣宽为属性4）…

人工智能 2023年7月1日
0052
Python组合数据类型及数据格式化

《Python高级应用》实验报告实验名称：实验4 组合数据类型及数据格式化实验日期： 4.21 姓名：汪珊珊学号： 084619248班级：计算机192 …

人工智能 2023年7月15日
0080
变形金刚——Transformer入门刨析详解

Transformer是什么呢？ \qquadTransformer最早起源于论文Attention is all your need，是谷歌云TPU推荐的参考模型。\qquad目…

人工智能 2023年7月30日
0069
Python魔法方法之__iter__

定义 __iter__方法后下面的例子简单实现一个 range(n) from numpy import iterable class MyList: def __init__(…

人工智能 2023年6月17日
0066
Visdom安装&解决遇到的坑

在Pytorch虚拟环境中安装Visdom 第一步：激活Pytorch虚拟环境 activate pytorch 第二步：下载Visdom安装包在github中下载visdom包…

人工智能 2023年7月24日
0057
图像匹配天花板：SuperPoint+SuperGlue复现

最近工作原因接触到图像匹配，经过调研发现SuperPoint+SuperGlue方法简直是图像匹配届的天花板，各种精度比较以及运行时间真令人惊讶，如下：后来图像匹配（也可以做视频…

人工智能 2023年7月4日
0075
第三章使用 matplotlib 绘制直方图

系列文章目录第一章使用 matplotlib 绘制折线图第二章使用 matplotlib 绘制条形图第三章使用 matplotlib 绘制直方图第四章使用 matplot…

人工智能 2023年7月15日
0066
使用PyQt5为YoloV5添加界面（一）

使用PyQt5为YoloV5添加界面近期因为疫情，无法正常入职上班。所以在家参考相关博文，视频和代码等，学习了PyQt5的基础知识，并尝试为YOLOV5添加界面。反正啥也不咋会，…

人工智能 2023年7月4日
0078
Tensorflow-GPU（Win10）超完整版安装

一、Anaconda的安装 ANACONDA官网这个部分需要注意的就是添加环境变量，不然后期使用VSCode测试的时候会出现IMPORT ERROR 上面四个文件路径在Anaco…

人工智能 2023年5月23日
0084
【NLP】词袋模型（bag of words model）和词嵌入模型（word embedding model）

本文作为入门级教程，介绍了词袋模型（bag of words model）和词向量模型（word embedding model）的基本概念。目录 1 词袋模型和编码方法 *…

人工智能 2023年5月28日
00119
免费教程·开源 | 从零开始制作ROS无人竞速车RACECAR教程

一、课程前提自动驾驶汽车即将成为交通出行的主流工具之一，它以计算机、现代汽车产业技术为基础，以数字化、智能化为依托实现自动化驾驶，学习自动驾驶需要了解架构、环境感知、行为决策、…

人工智能 2023年6月10日
0071
大数据编程实验三：SparkSQL编程

大数据编程实验三：SparkSQL编程文章目录大数据编程实验三：SparkSQL编程 * 一、前言二、实验目的与要求三、实验内容四、实验步骤 – 1、Spar…

人工智能 2023年6月27日
0067
基于卷积神经网络的高光谱分类 CNN+高光谱+印度松数据集

基于卷积神经网络的高光谱分类一、研究现状只考虑到高光谱图像的光谱特征，即： 1、提取特征(小波变换、Gabor纹理分析、形态学剖面) 2、利用分类方法分类(支持向量机、决策树、…

人工智能 2023年6月30日
0080
分类任务系列学习——总述

本文是分类任务系列第一篇——概述，主要介绍分类的基本定义和一般流程。 overview 分类是nlp中常见的任务，例如垃圾邮件分类、情感分析、意图识别、行业分类等，通过一定的方法或…

人工智能 2023年7月1日
00109
数字图像处理的数学变换（一）线性点运算、分段线性点运算、非线性点运算、阈值化运算

线性点运算线性点运算的应用 1）如果a>1，输出图像的对比度增大（灰度扩展） 2）如果0分段线性点运算将感兴趣的灰度范围线性扩展，相对抑制不感兴趣的灰 …

人工智能 2023年6月20日
0084

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30