CV-Model【6】：Vision Transformer

2023年6月17日上午2:27 • 人工智能 • 阅读 99

系列文章目录

Transformer 系列网络（一）：
CV-Model【5】：Transformer
Transformer 系列网络（二）：
CV-Model【6】：Vision Transformer
Transformer 系列网络（三）：
CV-Model【7】：Swin Transformer

文章目录

系列文章目录
前言
1. Abstract & Introduction
*
1.1. Abstract
1.2. Introduction
2. Vision Transformer
*
2.1. Model Architecture
–
2.2. Hyperparameters
2.3. Hybrid Architecture
总结

前言

Vision Transformer，或称 ViT，是一种用于图像分类的模型，在图像的补丁上采用了类似 Transformer 的结构。一幅图像被分割成固定大小的斑块，然后对每个斑块进行线性嵌入，添加位置嵌入，并将得到的向量序列送入一个标准的 Transformer 编码器。为了进行分类，使用了向序列添加额外的可学习”分类标记”的标准方法

原论文链接：
An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale

Abstract & Introduction

1.1. Abstract

虽然 Transformer 架构已成为 NLP 任务的事实标准，但它在 CV 中的应用仍然有限。在视觉上，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们证明了这种对 CNNs 的依赖是不必要的，直接应用于图像块序列 ( sequences of image patches ) 的纯 Transformer 可以很好地执行图像分类任务。当对大量数据进行预训练并迁移到多个中小型图像识别基准时 ( ImageNet、CIFAR-100、VTAB 等 )，与 SOTA 的 CNN 相比， Vision Transformer ( ViT ) 可获得更优异的结果，同时仅需更少的训练资源

1.2. Introduction

受 NLP 中 Transformer 成功放缩 ( scaling ) 的启发，本文尝试将标准 Transformer 直接应用于图像，并尽可能减少修改。为此，本文将图像拆分为块 ( patch )，并将这些图像块的线性嵌入序列作为 Transformer 的输入。图像块 image patches 的处理方式与 NLP 应用中的标记 tokens (单词 words) 相同。本文以有监督方式训练图像分类模型。

当在没有强正则化的中型数据集（如 ImageNet）上进行训练时，这些模型产生的准确率比同等大小的 ResNet 低几个百分点。这种看似令人沮丧的结果可能是意料之中的 Transformers 缺乏 CNN 固有的一些归纳偏置 ( inductive biases )，例如平移等效性和局部性 ( translation equivariance and locality )，因此在数据量不足的情况下训练时不能很好地泛化。

Vision Transformer

Vision Transformer 网络结构如下所示（以 ViT-B/16 为例）：

; 2.1. Model Architecture

模型由三个模块组成：

Linear Projection of Flattened Patches（Embedding 层）
Transformer Encoder（图右侧给出的更加详细的结构）
MLP Head（最终用于分类的层结构）

2.1.1. Embedding Layer

2.1.1.1. Patch Embeddings

标准 Transformer 接受 一维标记嵌入序列 ( Sequence of token embeddings ) 作为输入（ token 序列），即二维矩阵 [num_token, token_dim]

为处理 2D 图像，我们将图像 x ∈ R H × W × C x \in \mathbb{R}^{H \times W \times C}x ∈R H ×W ×C reshape 为一个展平 ( flatten ) 的 2D 块序列 x p ∈ R N × ( P 2 ⋅ C ) x_p \in \mathbb{R}^{N \times (P^2 \cdot C) }x p ∈R N ×(P 2 ⋅C )

( H , W ) (H, W)(H ,W ) 是原始图像的分辨率
C C C 是通道数（RGB 图像 C = 3）
( P , P ) (P, P)(P ,P ) 是每个图像块的分辨率
N = H W / P 2 N = HW / P^2 N =H W /P 2 是产生的图像块数，即 Transformer 的有效输入序列长度

Transformer 在其所有层中使用恒定的 隐向量 (latent vector) 大小 D D D（即 token 序列的长度），因此我们将图像块展平，并使用可训练的线性投影（FC 层）将维度 P 2 ⋅ C P^2 \cdot C P 2 ⋅C 映射为 D D D 维，同时保持图像块数 N N N 不变。

此投影输出称为图像块嵌入 (Patch Embeddings)，本质就是对每一个展平后的 patch vector x p ∈ R N × ( P 2 ⋅ C ) x_p \in \mathbb{R}^{N \times (P^2 \cdot C) }x p ∈R N ×(P 2 ⋅C ) 做一个线性变换 / 全连接层 E ∈ R ( P 2 ⋅ C ) × D E \in \mathbb{R}^{(P^2 \cdot C) \times D}E ∈R (P 2 ⋅C )×D，由 P 2 ⋅ C P^2 \cdot C P 2 ⋅C 维降维至 D D D 维，得到 x p E ∈ R N × D x_pE \in \mathbb{R}^{N \times D}x p E ∈R N ×D

以 ViT-B/16 为例，每个 token 向量长度为 768：

首先将一张图片按给定大小分成一堆 patches
将输入图片224 × 224 224 \times 224 224 ×224 按照16 × 16 16 \times 16 16 ×16 大小的 patch 进行划分，划分后会得到( 224 / 16 ) 2 = 196 (224/16)^2=196 (224/16 )2 =196 个 patches
接着通过线性映射将每个 patch 映射到一维向量中
每个 patch 数据 shape 为[ 16 , 16 , 3 ] [16, 16, 3][16 ,16 ,3 ] 通过映射得到一个长度为 768 的向量 (token)

在代码中，上述步骤直接通过一个卷积层来实现。直接使用一个卷积核大小为 16 × 16 16 \times 16 16 ×16，步距为 16，卷积核个数为 768 的卷积来实现。通过卷积 [ 224 , 224 , 3 ] → [ 14 , 14 , 768 ] [224, 224, 3] \rightarrow [14, 14, 768][224 ,224 ,3 ]→[14 ,14 ,768 ]，然后把 H 以及 W 两个维度展平即可 [ 14 , 14 , 768 ] → [ 196 , 768 ] [14, 14, 768] \rightarrow [196, 768][14 ,14 ,768 ]→[196 ,768 ]，此时正好变成了一个二维矩阵。

; 2.1.1.2. Learnable Embedding

类似于 BERT 的 [ c l a s s ] t o k e n \mathrm{[class]} token [class ]t o k e n，此处为图像块嵌入序列预设一个可学习的嵌入，数据格式和其他token一样都是一个向量（一个分类向量），用于训练 Transformer 时学习类别信息。

以 ViT-B/16 为例，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起：C a t ( [ 1 , 768 ] , [ 196 , 768 ] ) → [ 197 , 768 ] Cat([1, 768], [196, 768]) \rightarrow [197, 768]C a t ([1 ,768 ],[196 ,768 ])→[197 ,768 ]

2.1.1.3. Position Embedding

位置嵌入 E p o s ∈ R ( N + 1 ) × D E_{pos} \in \mathbb{R}^{(N+1) \times D}E p os ∈R (N +1 )×D 也被加入图像块嵌入，以保留输入图像块之间的空间位置信息。不同于 CNN，Transformer 需要位置嵌入来编码 patch tokens 的位置信息，这主要是由于 自注意力的扰动不变性 (Permutation-invariant)，即打乱 Sequence 中 tokens 的顺序并不会改变结果。相反，若不给模型提供图像块的位置信息，那么模型就需要通过图像块的语义来学习拼图，这就额外增加了学习成本。

ViT 论文中对比了几种不同的位置编码方案：

无位置嵌入
1-D 位置嵌入：考虑把 2-D 图像块视为 1-D 序列
2-D 位置嵌入：考虑图像块的 2-D 位置 (x, y)
相对位置嵌入：考虑图像块的相对位置

最后发现如果不提供位置编码效果会差，但其它各种类型的编码效果效果都接近，这主要是因为 ViT 的输入是相对较大的图像块而非像素，所以学习位置信息相对容易很多。在源代码当中默认使用 1-D 位置嵌入，因为相对来说参数较少。

对学习到的位置编码进行了可视化，发现相近的图像块的位置编码较相似，且同行或列的位置编码也相近：

计算每个 patch 的位置编码与其他 patch 位置编码之间的余弦相似度，即 cos 的值
对于每个 patch 的位置编码与它自身的余弦相似度，即 cos(0) = 1，对应的最相似

; 2.1.2. Transformer Encoder

Transformer 编码器由交替的多头自注意力层 (MHA) 和多层感知机块 (MLP) 构成。在每个块前应用层归一化 (Layer Norm)，在每个块后应用残差连接 (Residual Connection)。

Layer Norm，这种 Normalization 方法主要是针对 NLP 领域提出的，这里是对每个 token 进行 Norm 处理
Multi-Head Attention，可以参考我的另一篇blog：CV-Model【5】：Transformer
Dropout / DropPath
MLP Head
包含两个 FC 层，
- 第一个 FC 将特征从维度 D 变换成 4D
- 第二个 FC 将特征从维度 4D 恢复成 D
中间的非线性激活函数均采用 GeLU (Gaussian Error Linear Unit，高斯误差线性单元)

集合了类别向量、图像块嵌入和位置编码三者到一体的输入嵌入向量后，即可馈入 Transformer Encoder。 ViT 类似于 CNN，不断前向通过由 Transformer Encoder Blocks 串行堆叠构成的 Transformer Encoder，最后提取可学习的类别嵌入向量 —— class token 对应的特征用于图像分类。整体前向计算过程如下：

等式 1：由图像块嵌入、类别向量和位置编码构成的嵌入输入向量
等式 2：由多头注意力机制、层归一化和跳跃连接 (Layer Norm & Add) 构成的 MSA Block，可重复L L L 个，其中第l l l 个输出为z l ′ z_l’z l ′
等式 3：由前馈网络 (FFN)、层归一化和跳跃连接 (Layer Norm & Add) 构成的MLP Block，可重复L L L 个，其中第l l l 个输出为z l z_l z l
等式 4：由层归一化 (Layer Norm) 和分类头 (MLP or FC) 输出图像表示y y y

; 2.2. Hyperparameters

Patch Size 是模型输入的 patch size，ViT 中共有两个设置：14×14 和 16×16，该参数仅影响计算量
Layers 是 Transformer Encoder 中重复堆叠 Encoder Block 的次数
Hidden Size 是通过 Embedding 层后每个 token 的 dim（向量的长度）
MLP size 是 Transformer Encoder 中 MLP Block 第一个全连接的节点个数（是 Hidden Size 的 4 倍）
Heads 代表 Transformer 中 Multi-Head Attention 的 heads 数

2.3. Hybrid Architecture

首先使用传统的卷积神经网络提取特征，再利用上述的 ViT 模型进一步进行图像分类

特征提取网络采用 Res50，并做出一下更改：

Res50 的卷积层采用的是 StdConv2d，而不是传统的 Conv2d
将所有的 BatchNorm 层替换成 GroupNorm 层
把 stage 4 中的 3 个 block 移至 stage 3 中
存在 stage 4 的话下采样率为 32
只保留 3 个 stage 的话下采样率为 16
网络通过改进后的 Res50 输入 ViT 结构之前，会经过一个1 × 1 1 \times 1 1 ×1 的卷积层，用于将特征矩阵的 channel 调整为合适的大小

Hybrid Architecture 作为原始图像块的替代方案，输入序列可由 CNN 的特征图构成。在这种混合模型中，图像块嵌入投影被用在经 CNN 特征提取的块而非原始输入图像块。

作为一种特殊情况，块的空间尺寸可以为 1 × 1 1 \times 1 1 ×1，这意味着输入序列是通过简单地将特征图的空间维度展平并投影到 Transformer 维度获得的。然后，如上所述添加了分类输入嵌入和位置嵌入，再将三者组成的整体馈入 Transformer 编码器。

简单来说，就是先用 CNN 提取图像特征，然后由 CNN 提取的特征图构成图像块嵌入。由于 CNN 已经将图像下采样了，所以块尺寸可为 1 × 1 1 \times 1 1 ×1。

; 总结

至此，Vision Transformer 的原理及模型结构以及全部介绍完毕。从实验给出的结果，在当时也达到了 SOTA，但是相比于 CNN，它需要更多的数据集。在小数据集上训练出来的精度是不如 CNN 的，但在大数据集上 ViT 精度更高。

一个直观的解释是：ViT 因为 self-attention 独特的机制，更多的利用 token 与 token 跨像素之间的信息，而 CNN 只是对领域的像素进行计算，所以相同参数的情况下，ViT获得的信息更多，在某种程度上可以看成是模型深度更深。所以小数据集上ViT是欠拟合的。

实际开发中的做法是：基于大数据集上训练，得到一个预训练权重，然后再在小数据集上Fine-Tune。

参考博客
 视频资料

Original: https://blog.csdn.net/HoraceYan/article/details/127152378
Author: zzzyzh
Title: CV-Model【6】：Vision Transformer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627979/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ENVI经验|基于多源遥感影像的红树林范围提取4-面向对象分类

传统的基于像素的遥感影像处理方法都是基于遥感影像光谱信息极其丰富，地物间光谱差异较为明显的基础上进行的。对于只含有较少波段的高分辨率遥感影像，传统的分类方法，就会造成分类精度降低，…

人工智能 2023年7月2日
0084
Opencv编译及调用GPU版本

1、安装好cuda驱动可参考CUDA 环境搭建_ima_zhan的博客-CSDN博客_cuda环境搭建 2、下载opencv 3.11 的源代码和lib 在官网的release页…

人工智能 2023年5月26日
0098
MMCV学习——基础篇1（配置&注册机制）

博主最近在学习mmcv这个基础库，所以写一个博客记录一下。一来是作为学习笔记，方便日后查阅，二来是和大家分享交流一下我得学习心得。 mmcv是由OpenMMLab开源的一个计算机视…

人工智能 2023年6月16日
00117
分类和回归的区别及其在目标检测中的应用

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题🍊往期回顾：目标检测系列——开山之作RCNN原理详解目标检测系列——Fast R-CNN原理详解目标检测系列——Faster …

人工智能 2023年6月17日
00118
JS新年倒计时

✅作者简介：热爱国学的Java后端开发者，修心和技术同步精进。🍎个人主页：Java Fans的博客🍊个人信条：不迁怒，不贰过。小知识，大智慧。💞当前专栏：前端案例分享专栏✨特色专栏…

人工智能 2023年7月31日
0043
图片文字识别python

一、功能介绍利用python对图片内文字内容进行识别提取。二、调用库下载我们需要下载两个模块： pip install pytesseract pip install pil…

人工智能 2023年7月5日
0067
pandas 怎么筛选两个条件_使用Pandas处理excel文件-（6）筛选DataFrame中满足特定条件的数据…

段丞博：使用Pandas处理excel文件-（1）动机和资源段丞博：使用Pandas处理excel文件-（2）DataFrame和相关概念段丞博：使用Pandas处理excel…

人工智能 2023年7月9日
0080
python 手眼标定OpenCV手眼标定（calibrateHandeye()）一

以下代码来源本篇博客通过该代码，附上记录的公式与查找连接，方面以后调用能弄懂各个参数的意思本篇看完看第二篇代码踩坑部分python 手眼标定OpenCV手眼标定（calibrate…

人工智能 2023年6月18日
0088
【五分钟会，半小时懂】卡尔曼滤波器(Kalman Filter)—目标跟踪（含源码）

目录系列文章效果展示卡尔曼滤波器的简单介绍一、公式解释二、卡尔曼增益的推导三、第一个例子四、第二个例子系列文章【目标跟踪】卡尔曼滤波器(Kalman Filter…

人工智能 2023年5月28日
00108
高斯过程回归(Gaussian Processes Regression, GPR)简介

高斯过程回归（Gaussian Processes Regression, GPR）简介 * – 一、高斯过程简介 – 二、高斯分布 – + 1…

人工智能 2023年6月16日
0089
K-means聚类分析-机器学习

大量数据中具有”相似”特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。聚类的基本思想是”物以类聚、人以群分&#8…

人工智能 2023年5月31日
00112
完备的娱乐行业知识图谱库如何建成？爱奇艺知识图谱落地实践

2012年5月16日，谷歌首次正式提出了知识图谱的概念，希望利用结构化知识，来增强搜索引擎，提高搜索质量和用户体验。也就是说，从诞生之日起，知识图谱就和搜索引擎密不可分。随着…

人工智能 2023年6月1日
0092
DataFrame数据预处理：修改指定列的数据类型

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】DataFrame数据预处理修改指定列的数据类型选择题对于以下python代…

人工智能 2023年7月6日
0096
tensorflow2.6.0 安装的警告记录

安装Anaconda3-2021.05-Windows-x86_64后，再pipinstall tensorflow2.6.0的时候出现下述错误： ERROR: pip&#8217…

人工智能 2023年5月26日
00112
持续学习EWC代码实现

Overcoming catastrophic forgetting in neural networks 论文地址：EWC论文论文代码：EWC代码，该代码包含大部分持续学习算法的…

人工智能 2023年6月16日
00174
基于C++的YOLOV5在TX2-NX上的实现（一）

最近接到了一个在嵌入式设备上跑算法模型的需求，综合评估设备性能和醒目需求后，决定使用英伟达的TX2-NX基于C++实现算法模型，本篇文章是基于此想法做的一个试验。首先，需要准备一…

人工智能 2023年7月20日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31