深度学习之图像分类（十九）– Bottleneck Transformer(BoTNet)网络详解

2023年7月22日上午8:34 • 人工智能 • 阅读 60

深度学习之图像分类（十九）Bottleneck Transformer(BoTNet)网络详解

; 1. 前言

BoTNet 为 UC Berkeley 和谷歌团队合作发布在 2021 CVPR 的文章，Transformer 的一作 Ashish Vaswani 也在本文作者当中。BoTNet 原始论文为 Bottleneck Transformers for Visual Recognition。我们首先看一下 CV 领域 Self-Attention Model 分类，可分为纯 Attention Model 包括 ViT，此外则是 CNN + Attention。为什么要把 CNN 与 Attention 进行融合呢？其中一大原因就是因为纯 ViT 类型的结构对于输入尺寸特别敏感，不能变动，是 224 × 224 224 \times 224 2 2 4 ×2 2 4 就是 224 × 224 224 \times 224 2 2 4 ×2 2 4 。然而我们的目标检测，实例分割等任务的输入可能是 1024 × 1024 1024 \times 1024 1 0 2 4 ×1 0 2 4 的大图。如果硬Train一发纯 Transformer，计算量怕你吃不消。与 CNN 融合的 Attention 结构也可分为 Transform 形式的，也可分为 Non-Local 形式的。关于 NL 的知识可以参考知乎解答 Non-local neural networks，其实 NL 提到说 Self-Attention 是 NL 的一个特例，在 Non-Local 中没有位置编码 Position Embedding。CNN 融合的 Attention 可以放在 Backbone 外，将 CNN 的输出特征图进行映射后接入 Transformer，也可以直接将 Transformer block 嵌入 CNN Backbone 的单个 block 内。本次讲解的 BoTNet 则是将 Attention 模块融入到 CNN 原有的 block 中。

深度学习之图像分类（十九）-- Bottleneck Transformer(BoTNet)网络详解

说难也难，说简单也简单，BoTNet 其实就是把 ResNet50 等使用的 Bottleneck 中间的 3 × 3 3 \times 3 3 ×3 卷积给替换成了 Multi-Head Self-Attention，文中缩写为 MHSA。至于为什么要做这种替换，在哪里进行替换，是全体换呢还是像之前的 EfficientnetV2 一样对 MBConv 进行部分替换呢？这是本文之后要继续探讨的点。

ResNet50 变成 BoTNet 之后能做什么？很自然，ResNet50 能做的 BoTNet 都能做。直接作为分类模型进行 ImageNet 分类，作为 Backbone 嵌入 Faster R-CNN 做目标检测，作为 Backbone 嵌入 Mask R-CNN 做实例分割。

; 2. Multi-Head Self-Attention

首先我们来看一下作者使用的 Multi-Head Self-Attention 结构。Bottleneck Transformer 中使用的 MHSA 结构如下所示。在实验中，作者使用的是 head = 4，在下图中并没有进行展示。MHSA 的输入尺寸为 H × W × d H \times W \times d H ×W ×d，分别表示输入特征矩阵的高宽以及单个 token 的维度（特征图的通道转换到最后一维来就行了）， token 的数量即为 H × W H \times W H ×W。 此处的 relative position encodings 是我一直没有搞清楚的点。首先是初始化两个可学习的参数向量 R h R_h R h 和 R w R_w R w ，分别表示高度和宽度不同位置的位置编码，然后将它们通过广播机制加起来，那就是 ( i , j ) (i, j)(i ,j ) 位置的编码为 R h i + R w j R_{h_i} + R_{w_j}R h i +R w j 的两个 d d d 维向量相加。这样做将 H × W × d H \times W \times d H ×W ×d 个编码简化到了 ( H + W ) × d (H + W) \times d (H +W )×d。但是为什么这么来做呢，参考文献 [53, 4, 49] 是这么做的。此外，位置编码也不是直接加到输入上，而是与 query 矩阵进行矩阵乘法得到 Attention 的一部分，将其与 query 和 key 算出来的加和后经过 softmax 得到最终的 Attention。

对于位置编码作者进行了实验，R50 指 ResNet50 作为 backbone。作者在 COCO 数据集进行目标检测上发现，如果不加位置编码直接使用 q k T qk^T q k T 计算 Attention 有提升，但是直接使用位置编码计算的 Attention 得到的 gain 还要大一些 q r r e l a t i v e T qr_{relative}^T q r r e l a t i v e T 。如果结合而这提升更大。做这也尝试了绝对位置编码（不知道是不是不可学习的意思哈），发现效果其实并不如相对位置编码。

注意到，上图说没有高亮蓝色框之后就是 Non-Local Layer（highlighted blue boxes，position encodings and the value projection），然而我去看他的引文[63] Non-local Neural Networks 原始论文，别人有 value projection 啊，所以我不知道是他理解错了还是我理解错了。

[53] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position representations. arXiv preprint arXiv:1803.02155, 2018.

[4] wan Bello, Barret Zoph, Ashish Vaswani, Jonathon Shlens, and Quoc V Le. Attention augmented convolutional networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 3286–3295, 2019.

[49] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Stand-alone self-attention in vision models. arXiv preprint arXiv:1906.05909, 2019.

[63] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018.

; 3. Bottleneck Transformer

在 Multi-Head Self-Attention 结构前后加上 1 × 1 1 \times 1 1 ×1 卷积就得到了 Bottleneck Transformer。Bottleneck Transformer 和 ViT 中的 Transformer block 其实是有亲属关系的，他们不是差异很大的结构。作者在论文中首先提到说，具有 MHSA 的 ResNet botteneck 块可以被视作具有 bottleneck 结构，其他方面具有微小差异（例如残差结构，正则化层等）的 Transformer 块。 We point out that it is not the case. Rather, ResNet botteneck blocks with the MHSA layer can be viewed as Transformer blocks with a bottleneck structure, modulo minor differences such as the residual connections, choice of normalization layers, etc。

这怎么理解呢？我觉得是这样的，在 ViT 中的 Transformer 块中 MHSA 前后有残差连接，MHSA 之后经过了 MLP block，这里的 MLP block 其实就是两层全连接，第一层全连接对特征进行扩充，然后第二层全连接对特征进行压缩。MLP block 的输出也和输入进行了残差相加。这里忽略掉 Dropout 层。整个结构就如上图最左边一样。如果我们把 MLP block 拆开，然后 MHSA 放到 Expansion 之后会这么样呢？那就成了上图中间的模样。这个不就和 ResNet 中的 Bottleneck block 一样了嘛，不同在于 ResNet 在中间使用 3 × 3 3 \times 3 3 ×3 卷积。那我们就换成 MHSA 好了。这也就是 BoT 诞生的初衷。

作者也相当坦诚啊： We note that the architectural design of the BoT block is not our contribution. Rather, we point out the relationship between MHSA ResNet bottleneck blocks and the Transformer with the hope that it improves our understanding of architecture design spaces [47, 48] for self-attention in computer vision.作者的贡献不在于提出 BoTNet 的结构，而在于揭示它和 Transformer 原始结构的内在联系。

值得注意的是，既然把 MHSA 放到了 Resnet 中，原来的 LN 就被替换为了 BN。此外，在原始的 Transformer Block 中仅仅在 MLP block 中有一个 GELU 激活函数，而在 Bottleneck Transformer 中，有三个激活函数分别在一头一尾两个 1 × 1 1 \times 1 1 ×1 卷积之后以及 MHSA 之后。这也是为了尽可能不修改原始的 ResNet 结构，只做最小的替换。至于说 BoTNet 使用 SGD，ViT 使用 Adam 等细节我们就略过了。

4. BoTNet 网络结构

BoTNet50 的网络结构如表所示，我们能够发现它其实就是把 ResNet50 最后一个阶段的 3 个 block 给替换上了 MHSA 结构。我们知道 Transformer 计算量是很大的，仅仅放在最后我们看到推理速度和计算操作个数都大幅增加了，尽管参数量少了点。这里有一个细节，c5 阶段第一个 block 是要进行下采样的，以前是 3 × 3 3 \times 3 3 ×3 那里的 stride = 2。由于 MHSA 不支持下采样，现在呢在 MHSA 之后增加一个 2 × 2 2 \times 2 2 ×2 的 average-pooling 层就行了（看源码知道的，作者并没有说是加在 MHSA 前还是后）。

BoTNet50 是用来做 Backbone 的，用在 R-CNN 框架中。如果是做 ImageNet 分类，则 c5 其实不需要再进行下采样，否则特征图太小了。所以 c5 第一个 block 不进行 2 × 2 2 \times 2 2 ×2 的 average-pooling 下采样的被称为 BoTNet50-S1 (stride = 1) 的意思。其实作者发现，在 c4 和 c5 都使用 BoT 模块效果更好，单单在 c4 加一个 BoT 都比 c5 用三个好，但是最终为什么还是用 BoT50 呢，考虑到计算量和速度以及性能的权衡，c4 加计算量太大了。

除去 BoT50 外，做这还能做到 BoT152 和 BoT200。再让 TPU 发展几年，这还不得到 BoT1k 啊。

一般我不分析实验的，但今天还是站出来提出一个一直困扰我的疑惑！欢迎大家在评论区发表高见。

作者提到，BoTNet 对于小物体检测有提升，对于大物体没什么优势。但是 MHSA 是加在最后一个 stage 的，也就是最小分辨率的特征图上的。我们知道，层数越深尺度越小的特征图其实是被我们用来检测大物体的，而层数越浅尺度越大的特征图其实是被我们用来检测小物体的。BoTNet 在 c5 阶段扩大感受野到整个特征图，但是为什么提升了小物体的检测性能呢？DETR 就是因为将 Transformer 加到了 backbone 输出后面，对大特征图没有用，所以小物体检测也没有提升。而为什么 BoTNet 就能做到呢？

Significant boost from BoTNet on small objects (+2.4 Mask AP and +2.6 Box AP) (Appendix);

With visibly good gains on small objects in BoTNet, we believe there maybe an opportunity to address the lack of gain on small objects found in DETR, in future

; 5. 代码

代码出处见此处。

import torch
import torch.nn as nn
import torch.nn.functional as F

def get_n_params(model):
    pp=0
    for p in list(model.parameters()):
        nn=1
        for s in list(p.size()):
            nn = nn*s
        pp += nn
    return pp

class MHSA(nn.Module):
    def __init__(self, n_dims, width=14, height=14, heads=4):
        super(MHSA, self).__init__()
        self.heads = heads

        self.query = nn.Conv2d(n_dims, n_dims, kernel_size=1)
        self.key = nn.Conv2d(n_dims, n_dims, kernel_size=1)
        self.value = nn.Conv2d(n_dims, n_dims, kernel_size=1)

        self.rel_h = nn.Parameter(torch.randn([1, heads, n_dims // heads, 1, height]), requires_grad=True)
        self.rel_w = nn.Parameter(torch.randn([1, heads, n_dims // heads, width, 1]), requires_grad=True)

        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x):
        n_batch, C, width, height = x.size()
        q = self.query(x).view(n_batch, self.heads, C // self.heads, -1)
        k = self.key(x).view(n_batch, self.heads, C // self.heads, -1)
        v = self.value(x).view(n_batch, self.heads, C // self.heads, -1)

        content_content = torch.matmul(q.permute(0, 1, 3, 2), k)

        content_position = (self.rel_h + self.rel_w).view(1, self.heads, C // self.heads, -1).permute(0, 1, 3, 2)
        content_position = torch.matmul(content_position, q)

        energy = content_content + content_position
        attention = self.softmax(energy)

        out = torch.matmul(v, attention.permute(0, 1, 3, 2))
        out = out.view(n_batch, C, width, height)

        return out

class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, in_planes, planes, stride=1, heads=4, mhsa=False, resolution=None):
        super(Bottleneck, self).__init__()

        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        if not mhsa:
            self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, padding=1, stride=stride, bias=False)
        else:
            self.conv2 = nn.ModuleList()
            self.conv2.append(MHSA(planes, width=int(resolution[0]), height=int(resolution[1]), heads=heads))
            if stride == 2:
                self.conv2.append(nn.AvgPool2d(2, 2))
            self.conv2 = nn.Sequential(*self.conv2)
        self.bn2 = nn.BatchNorm2d(planes)
        self.conv3 = nn.Conv2d(planes, self.expansion * planes, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(self.expansion * planes)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != self.expansion*planes:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, self.expansion*planes, kernel_size=1, stride=stride),
                nn.BatchNorm2d(self.expansion*planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = F.relu(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out

class ResNet(nn.Module):
    def __init__(self, block, num_blocks, num_classes=1000, resolution=(224, 224), heads=4):
        super(ResNet, self).__init__()
        self.in_planes = 64
        self.resolution = list(resolution)

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)

        if self.conv1.stride[0] == 2:
            self.resolution[0] /= 2
        if self.conv1.stride[1] == 2:
            self.resolution[1] /= 2
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        if self.maxpool.stride == 2:
            self.resolution[0] /= 2
            self.resolution[1] /= 2

        self.layer1 = self._make_layer(block, 64, num_blocks[0], stride=1)
        self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2)
        self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2)
        self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2, heads=heads, mhsa=True)

        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Sequential(
            nn.Dropout(0.3),
            nn.Linear(512 * block.expansion, num_classes)
        )

    def _make_layer(self, block, planes, num_blocks, stride=1, heads=4, mhsa=False):
        strides = [stride] + [1]*(num_blocks-1)
        layers = []
        for idx, stride in enumerate(strides):
            layers.append(block(self.in_planes, planes, stride, heads, mhsa, self.resolution))
            if stride == 2:
                self.resolution[0] /= 2
                self.resolution[1] /= 2
            self.in_planes = planes * block.expansion
        return nn.Sequential(*layers)

    def forward(self, x):
        out = self.relu(self.bn1(self.conv1(x)))
        out = self.maxpool(out)

        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)

        out = self.avgpool(out)
        out = torch.flatten(out, 1)
        out = self.fc(out)
        return out

def ResNet50(num_classes=1000, resolution=(224, 224), heads=4):
    return ResNet(Bottleneck, [3, 4, 6, 3], num_classes=num_classes, resolution=resolution, heads=heads)

def main():
    x = torch.randn([2, 3, 224, 224])
    model = ResNet50(resolution=tuple(x.shape[2:]), heads=8)
    print(model(x).size())
    print(get_n_params(model))

Original: https://blog.csdn.net/baidu_36913330/article/details/120218954
Author: 木卯_THU
Title: 深度学习之图像分类（十九）– Bottleneck Transformer(BoTNet)网络详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708745/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用tensorfolw优化器做梯度下降求方程系数和截距最优解（d代码详细步骤说明）以及matlab实现对比

import tensorflow as tf import numpy as np #生成模&#x62D…

人工智能 2023年5月24日
00101
[附源码]Nodejs计算机毕业设计基于的仓库管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置： Node.js+ Vscode + Mysql5.7 + HBuilderX+Nav…

人工智能 2023年7月29日
0071
谈谈机器学习AI模型测试与评估方法分析

随着数字化转型与人工智能发展，AI应用软件层出不穷，人们虽然理解人工智能趋势，但是，企业往往很难接受这样AI应用软件，其中质疑点主要有：预测或识别的准确性模型相关性鲁棒性安…

人工智能 2023年6月26日
0076
自然语言处理–哈工大LTP的基本使用方法

导入 from pyltp import SentenceSplitter,Segmentor, Postagger, Parser,NamedEntityRecognizer, …

人工智能 2023年5月28日
00106
Anaconda创建虚拟环境

题外话：对自己最近一年多的学习做一个总结，方便日后查看，也希望可以帮助到需要的人，所有内容亲测有效。 win10系统下： 1、win+r，然后输入cmd，打开终端窗口 2、输入命…

人工智能 2023年7月30日
0067
残差网络(Residual Network)，残差连接(skip-connect)

目录残差网络残差块 2 残差网络为什么叫残差网络一、背景 1）梯度消失问题 2）网络退化问题二、ResNets 残差网络三、网络架构 1）普通网络(Plain Netw…

人工智能 2023年6月16日
0081
注意力机制——CAM、SAM、CBAM、SE

CAM、SAM、CBAM详见：CBAM——即插即用的注意力模块（附代码）目录 1.什么是注意力机制？ 2.通道注意力机制——SE （1）Squeeze （2）Excitation…

人工智能 2023年7月4日
00122
SettingWithCopyWarning：A value is trying to be set on a copy of a slice from a DataFrame（Pandas库）

pandas警告SettingWithCopyWarning: A value is trying to …原理和解决方案_Lucky0928的博客-CSDN博客…

人工智能 2023年7月6日
0084
【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2）））

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2））） 13 人工神经网络（2） * 13.1 小批量梯度下降法 – 1…

人工智能 2023年5月26日
00109
深度学习从入门到精通——yolov3

YOLO v3 论文地址：https://pjreddie.com/media/files/papers/YOLOv3.pdf 论文：YOLOv3: An Incremental …

人工智能 2023年7月11日
0083
数学建模（8）多元线性回归模型

1.因变量的分类回归分析三个重要作用：数据分类 1.横截面数据：同一时间段内不同对象的数据 2.时间序列数据同一对象不同时间内的数据 3.面板数据横截面数据和时间序列…

人工智能 2023年6月17日
00157
Vision Transformer模型与预训练权重简析

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、ViT原理图二、算法实现过程三、ViT-B/16结构详图四、ViT-B/16预训练权重…

人工智能 2023年6月24日
00104
DeepSpeed使用指南(简略版)

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会 OOM，更别提后面的训练优化。作为传统…

人工智能 2023年7月28日
00124
深度学习–TensorFlow（5）BP神经网络（混淆矩阵、准确率、精确率、召回率、F值）

目录一、混淆矩阵二、准确率三、召回率四、精确率五、综合评估指标 — F值一、混淆矩阵也程误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来…

人工智能 2023年5月26日
00121
【前沿技术RPA】一文学会用UiPath实现PDF自动化

🐋作者简介：博主是一位.Net开发者，同时也是RPA和低代码平台的践行者。🐬个人主页：会敲键盘的肘子🐰系列专栏：UiPath🦀专栏简介： UiPath在传统的RPA（Robotic…

人工智能 2023年5月30日
0077
Linux_gdb_进程概念

目录进度条学习过程自主实现： Linux的git操作 .gitignore .git git add . git commit git push git log git st…

人工智能 2023年6月26日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31