我对Swin Transformer V2的理解

2023年6月25日下午3:41 • 人工智能 • 阅读 100

Swin Transformer V2: Scaling Up Capacity and Resolution

一、前言

1.综述

本文提出一种升级版SwinTransformerV2，最高参数量可达3 Billion，可处理大尺寸图像。通过提升模型容量与输入分辨率，SwinTransformer在四个代表性基准数据集上取得了新记录。

2.要解决的问题

视觉模型通常面临 尺度不稳定问题；
下游任务需要高分辨率图像，尚不明确如何 将低分辨率预训练模型迁移为高分辨率版本 ；
当图像分辨率非常大时， GPU显存占用也是个问题。

3.改进方案

提出 后规范化(Post Normalization)技术与 可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;
提出 log空间连续位置偏置技术进行低分辨率预训练模型向高分辨率模型迁移；
我们还共享了 至关重要的实现细节 ，它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

二、方法

1.A Brief Review of Swin Transformer

Normalization Configuration 众所周知，规范化技术对于更深架构的训练非常重要。原始的SwinTransformer采用了常规的预规范化技术，见下图：

Relative position bias 它是原始SwinTransformer的一个关键成分，它引入了一个额外参数化偏置，公式如下：
我对Swin Transformer V2的理解

Issues in scaling up model capacity and window resolution 在对SwinTransformer进行容量与窗口分辨率缩放过程中，发现以下两个问题：

容量缩放过程中的不稳定问题，见下图：
跨分辨率迁移时的性能退化问题，见下表：

; 2.Scaling up Model Capacity

Post Normalization 为缓解该问题，我们提出了Post Normalization(后规范化)：每个残差模块的输出先进行规范化再与主分支进行合并，因此主分支的幅值不会逐层累积。从上面的Figure2可以看到：使用后规范化的模型激活幅值更温和。

Scaled Cosine Attention 在原始自注意力计算过程中，像素对的像素性通过query与key的点积计算。我们发现：在大模型中，某些模块与head的注意力图会被少量像素对主导。为缓解该问题，我们提出了Scaled Cosine Attention(SCA)，公式如下：

3.Scaling Up Window Resolution

接下来，引入一种 log空间连续位置偏置方法以使得相对位置偏置跨窗口分辨率平滑迁移。

Continuous Relative Position Bias 不同于直接对偏置参数直接优化，连续位置偏置方法采用了针对相对坐标的元网络：

注：G是一个很小的网络
它对任意相对坐标生成偏置参数，因而可以自然地进行任意可变窗口尺寸的迁移。

Log-space Coordinates 当跨大窗口迁移时，有较大比例的相对坐标范围需要外插。为缓解该问题，采用了对数空间坐标：

通过对数空间坐标，在进行块分辨率迁移时，所需的外插比例会更小。
Table 1则给出了不同位置偏置下的迁移性能对比，可以看到：当向更大窗口尺寸迁移时，对数空间连续位置偏置性能最佳。

; 4. Implementation to Save GPU Memory

大分辨率输入与大容量模型存在的另一个问题是GPU显存占用不可接受问题。
本文采用了以下实现改善该问题：

Zero-Redundancy Optimizer(ZeRO): 采用ZeRO优化器减少GPU显存占用，对整体训练速度影响极小；
Activation check-pointing：采用checkpoint技术节省GPU占用，但会降低30%训练速度；
Sequential Self-attention computation：采用串式计算，而非batch模式，对整体训练速度影响极小。

5. Model Configurations

本文保持与SwinTransformer相同的stage、block以及通道配置得到了四个版本的SwinTransformerV2：

T(Tiny)，S(Small)，B(Base)，L(Large)

SwinV2-T: C=96, layer number= {2,2,6,2}

SwinV2-S: C=96, layer number= {2,2,18,2}

SwinV2-B: C=128, layer number= {2,2,18,2}

SwinV2-L: C=192, layer number= {2,2,18,2}

我们进一步对SwinV2进行更大尺寸缩放得到了658M与3B参数模型：

SwinV2-H: C=352, layer number={2,2,18,2}

SwinV2-G: C=512, layer number={2,2,42,2}

三、实验结果

本文主要在ImageNetV1、ImageNetV2、COCO检测、ADE20K语义分割以及Kinetics-400视频动作分类方面进行了实验。

上表给出了 ImageNet分类任务上的性能对比，可以看到：

在ImageNetV1数据上，SwinV2-G取得了90.17%的精度；
在ImageNetV2数据上，SwinV2-G取得了84.0%的精度，比之前最佳高0.7%；
相比SwinV1，SwinV2性能提升约0.4~0.8%。

上表比较了 COCO检测任务上的性能，可以看到：所提方案取得了63.1/54.4的box与mask mAP指标，比此前最佳高1.8/1.4 。

上表比较了 ADE20K语义分割任务上的性能，可以看到：所提方案取得了59.9mIoU指标，比此前最佳高1.5 。

上表比较了 Kinetics-400视频动作分类任务上的性能，可以看到：所提方案取得了86.8%的精度，比此前最佳高1.4% 。

Reference：
1. 屠榜各大CV任务！最强骨干网络：Swin Transformer V2来了
2. 【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution
3. Swin-Transformer网络结构详解

Original: https://blog.csdn.net/m0_58770526/article/details/126321250
Author: 像梦一样自由al
Title: 我对Swin Transformer V2的理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651161/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch实现Seq2Seq（Attention）字符级机器翻译

前言前些天学了seq2seq和transformer，然后用机器翻译练习了一下，今天这篇博客就讲讲带注意力机制的seq2seq模型怎么做机器翻译。数据集准备数据集我使用的数…

人工智能 2023年5月30日
0082
中的异常检测算法如何实现

问题描述异常检测是数据分析中一个重要的任务，它被应用于各个领域，例如网络入侵检测、金融欺诈检测、设备故障检测等。在这个问题中，我们将探讨如何使用统计学方法进行异常检测。介绍异…

人工智能 2023年12月31日
0041
ML之yellowbrick：基于titanic泰坦尼克是否获救二分类预测数据集利用yellowbrick对LoR逻辑回归模型实现可解释性(阈值图)案例

ML之yellowbrick：基于titanic泰坦尼克是否获救二分类预测数据集利用yellowbrick对LoR逻辑回归模型实现可解释性(阈值图)案例目录基于titanic泰…

人工智能 2023年7月1日
0071
计算机毕业设计之java+javaweb的外婆家网上订餐平台

计算机毕业设计之java+javaweb的外婆家网上订餐平台 项目介绍 外婆家网上订餐的需求…

人工智能 2023年5月30日
0081
图像分类基础

目录图像分类 * 1 CIFAR-10数据集 2 卷积神经网络（CNN） 3 CNN结构的演化 4 AlexNet网络 5 Network-in-Network网络 &#8211…

人工智能 2023年7月2日
0081
Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point Clouds

每日论文–CVPR2022目标检测论文解读论文解读本文基于point_base的方法实现了高效的3D检测器IA-SSD，作者认为，使用传统的FPS方法会丢失大量前…

人工智能 2023年7月14日
0058
多分类问题

在前面介绍了二分类问题，逻辑回归可以很好的解决二分类问题。但是在现实生活中，存在着大量的多分类问题。下面就以鸢尾花数据集来学习如何实现多分类的任务。 1、自然顺序码、独热编码、独…

人工智能 2023年6月30日
0092
华为云原生之数据仓库服务GaussDB(DWS)的深度使用与应用实践

一、GaussDB（DWS）简介 ① 什么是 GaussDB（DWS）？数据仓库服务 GaussDB(DWS) 是一种基于华为云基础架构和平台的在线数据处理数据库，提供即开即用、…

人工智能 2023年7月15日
00110
Springboot整合JavaMail(发送邮件)

一、邮件的基础概念 SMTP(Simple Mail Transfer Protocol):简单邮件传输协议，用于发送电子邮件的传输协议 POP3(Post Office Prot…

人工智能 2023年6月30日
0063
深度学习论文精读[7]：nnUNet

相较于常规的自然图像，以UNet为代表的编解码网络在医学图像分割中应用更为广泛。常见的各类医学成像方式，包括计算机断层扫描（Computed Tomography, CT）、核磁共…

人工智能 2023年6月13日
0085
光场相机知识总结

1 光场成像要了解光场相机，首先了解光场是什么。光场（Light field)用以描述光在三维空问中的辐射传输特性，概念跟电场磁场大同小异，用以描述光的一些特性，其包含了光线强度…

人工智能 2023年5月28日
0068
Pytorch官方FasterR-CNN源代码解析(一)——特征提取

本系列深入Pytorch官方Faster R-CNN源代码，博主会尽可能详尽地解释每一处代码，如果对你有帮助可以点点关注点点赞，有问题在评论区指出，博主会尽可能地解答。 Faste…

人工智能 2023年7月24日
0055
常见机器学习优点和缺点

1 、朴素贝叶斯：生成式模型优点：发源于古典数学理论，有坚实的数学基础，以及稳定的分类效率速度较快，对特征概率的运算对小规模数据表现很好，能处理多分类任务对缺失值不敏…

人工智能 2023年6月11日
0069
动态SLAM论文归纳

持续更新，持续更新基于视觉的移动平台运动目标检测 [2018]Detect-SLAM_ Making Object Detection and SLAM Mutually Ben…

人工智能 2023年7月28日
0060
cesium之相机的位置和姿态获取

之前文章发表过一篇关于cesium接口的思维导图的文章，可以在此翻阅，http://mp.weixin.qq.com/s?__biz=MzkwMzMwNTg2NQ==&mi…

人工智能 2023年5月28日
0089
知识图谱：图谱推理

; 一、概述面向知识图谱的推理主要围绕关系的推理展开，即基于图谱中已有的事实或关系推断出未知的事实或关系，一般着重考察实体、关系和图谱结构三个方面的特征信息。具体来说，知识图…

人工智能 2023年6月1日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31