Encoder in Vision Transformer

2023年6月20日下午5:16 • 人工智能 • 阅读 98

Encoder · overall

整个Encoder分为输入，自注意力，layer normalization 和前馈网络几个大步组成；接下来细致地分块理一理几个步骤地具体操作是如何完成的；

; Patch Embedding

在Vision Transformer开始，大家习惯上将一张图像分割为一个个的patch，

Linear Transformation

define：Inputs[batch, patch, dimension] = Inputs[b, m, n] = X[b, m, n]；
通常我们将输入的图像打成patches，经过patch embedding，每一个patch会变换成一个长度为n的token，一共有m个tokens，我们一次并行处理b个图像，因此我们用上面式子中的b,m,n分别表示batch size为b，tokens(patches)数目为m，每一个tokens的序列长度为n；

经过patch embedding，我们将 Images[batch,3,H,W]的图像表示映射到了Inputs[b,m,n]token表示；接下来我们方便起见将Inputs表示为X[b, m, n];
我们会初始化三个权重矩阵Wq,Wk,Wv，这三个权重矩阵用于做线性变换，并且这三个矩阵的参数是学习(training)得到的，分别是

经过这样一个线性变换，我们将输入的token序列变换到了其他的特征空间；需要注意我们在这里描述的是自注意力机制，因此Wk和Wv对应的输入是相同的，对于NLP中的Transformer·Encoder是有些不同的，如下图；
Encoder in Vision Transformer

需要指出的是，目前的常规操作是我们会保持输入和输出tokens的dimension是相同的，因此我们会将Wq,Wk,Wv的size设置为nxn，因此可以得出，经过linear transformation，我们得到的Query，Key，Value三个的维度关系是

X[b, m, n] · Wq[n, n] = Query[b, m, n] X[b, m, n] · Wk[n, n] = Key[b, m, n] X[b, m, n] · Wv[n, n] = Value[b, m, n]

; self-Attention

当我们经过Linear Transformation，我们得到了输入X的三种特征表示，或者说是三种状态空间下的表示，分别是Query，Key，Value；接下来我们需要实施一次”注意力”机制；所谓的注意力机制就是我们希望通过权重分配得到对重要特征的关注，在这篇不进行所谓原理的理解和解释，旨在代码操作层面和维度变换这两个角度上进行梳理，因此我们暂且不关心具体的道理；需要注意dk是每一个Head下的维度；

O u t p u t s = s o f t m a x ( Q ⋅ K T d k ) ⋅ V Outputs = softmax(\frac {Q·K^T}{\sqrt{d_k}})·V O u t p u t s =s o f t m a x (d k Q ⋅K T )⋅V
维度变换：Q [ b , m , n ] ⋅ K T [ b , n , m ] = y [ b , m , m ] Q[b, m, n] · K^T[b, n , m] = y[b, m, m]Q [b ,m ,n ]⋅K T [b ,n ,m ]=y [b ,m ,m ]

我们对得到的y先进行一次逐元素的放缩，然后经过一个softmax得到attention map,y i [ m , m ] y_i[m,m]y i [m ,m ],可以认为维度是m x m的原因如下：每一个token需要计算和其他所有token(包括自身)的相似性，而每一个token都进行一次这样的操作，那么得到了mxm个注意力得分；可以看到计算复杂度是相当高的，这也是之后很多工作想办法解决的问题；
最后和V进行逐元素的相乘得到输出；
y [ b , m , m ] ⋅ V [ b , m , n ] = O u t p u t s [ b , m , n ] y[b,m,m]·V[b,m,n] = Outputs[b,m,n]y [b ,m ,m ]⋅V [b ,m ,n ]=O u t p u t s [b ,m ,n ]

import torch
import torch.nn as nn

class ScaledDotProductAttention(nn.Module):
    """Scaled dot-product attention mechanism."""

    def __init__(self, attention_dropout=0.0):
        super(ScaledDotProductAttention, self).__init__()
        # 初始化dropout和softmax函数;
        self.dropout = nn.Dropout(attention_dropout)
        self.softmax = nn.Softmax(dim=2) # 在每一个token内部进行计算;

    def forward(self, q, k, v, scale=None, attn_mask=None):
        """前向传播.

        Args:
            q: Queries张量，形状为[b, m, n]
            k: Keys张量，形状为[b, m, n]
            v: Values张量，形状为[b, m, n]
            scale: 缩放因子，一个浮点标量
            attn_mask: Masking张量，形状为[b, m, n]

        Returns:
            上下文张量和attetention张量
"""
        attention = torch.bmm(q, k.transpose(1, 2))
        if scale:
            attention = attention * scale
        if attn_mask:
            # 给需要mask的地方设置一个负无穷
            attention = attention.masked_fill_(attn_mask, -np.inf)
        # 计算softmax
        attention = self.softmax(attention)
        # 添加dropout
        attention = self.dropout(attention)
        # 和V做点积
        context = torch.bmm(attention, v)
        return context, attention

softmax 以及 bmm函数说明

import torch
import torch.nn as nn

生成 2x4 tensor
x = torch.arange(1,9).view(2,4)*1.0
net1 = nn.Softmax(dim=0) # 函数初始化
net2 = nn.Softmax(dim=1)
y1 = net1(x)
y2 = net2(x)

可以看到，当指定沿着某一维度进行softmax的时候，会计算其他维度的一个平均值，然后使用softmax 函数进行计算；

x = torch.arange(1,25).view(2,3,4)*1.0
map = torch.ones(2,4,1)*0.5
y = torch.bmm(x,map)
print(x)
print(y)

可以看到，torch.bmm这个操作是将3维的一个tensor保留第0维度，在第一维度和第二维度构成的矩阵上进行矩阵乘法；

Multi-head attention

所谓多头注意力是指，作者发现将线性变换后得到的Q，K，V分成h份，然后对每一份内部实施自注意力机制效果更好；
先将Q，K，V进行分组，经过scaled dot-product attention 之后，将不同的head得到的Outputs concatenate在一起，得到Multi-head 输出；
维度变换

b, m, n, heads = 3, 2, 3, 2
x = torch.arange(1,b*m*n+1).view(b,m,n)*1.0
dim_per_heads = n
x_heads = x.view(b*heads,-1,dim_per_heads)
print(x)
print(x_heads)

总体上保证了view后所有元素都被保留了，三个维度可能都会有所变化；

Layer Normalization & Residual connection

多头注意力得到的输出concatenate在一起之后，会经过一个线性映射，然后加上原始的输入，再进行一个layer normalization;

import torch
import torch.nn as nn

class LayerNorm(nn.Module):
    """实现LayerNorm。其实PyTorch已经实现啦，见nn.LayerNorm。"""

    def __init__(self, features, epsilon=1e-6):
        """Init.

        Args:
            features: 就是模型的维度。论文默认512
            epsilon: 一个很小的数，防止数值计算的除0错误
"""
        super(LayerNorm, self).__init__()
        # alpha
        self.gamma = nn.Parameter(torch.ones(features))
        # beta
        self.beta = nn.Parameter(torch.zeros(features))
        self.epsilon = epsilon

    def forward(self, x):
        """前向传播.

        Args:
            x: 输入序列张量，形状为[B, L, D]
"""
        # 根据公式进行归一化
        # 在X的最后一个维度求均值，最后一个维度就是模型的维度
        mean = x.mean(-1, keepdim=True)
        # 在X的最后一个维度求方差，最后一个维度就是模型的维度
        std = x.std(-1, keepdim=True)
        return self.gamma * (x - mean) / (std + self.epsilon) + self.beta

FFN

经过layer normalization 之后，需要再经过一个Feed Forward Network；

F F N ( x ) = m a x ( 0 , 𝑥 𝑊 1 + 𝑏 1 ) 𝑊 2 + 𝑏 2 FFN (x)=max(0,𝑥𝑊_1+𝑏_1)𝑊_2+𝑏_2 F F N (x )=m a x (0 ,x W 1 +b 1 )W 2 +b 2

import torch
import torch.nn as nn

class PositionalWiseFeedForward(nn.Module):

    def __init__(self, model_dim=512, ffn_dim=2048, dropout=0.0):
        super(PositionalWiseFeedForward, self).__init__()
        self.w1 = nn.Conv1d(model_dim, ffn_dim, 1)
        self.w2 = nn.Conv1d(model_dim, ffn_dim, 1)
        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(model_dim)

    def forward(self, x):
        output = x.transpose(1, 2)
        output = self.w2(F.relu(self.w1(output)))
        output = self.dropout(output.transpose(1, 2))

        # add residual and norm layer
        output = self.layer_norm(x + output)
        return output

reference

Transformer的PyTorch实现
 深度学习attention机制中的Q,K,V分别是从哪来的？

Original: https://blog.csdn.net/weixin_46257458/article/details/124308251
Author: M宝可梦
Title: Encoder in Vision Transformer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/641682/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用贝叶斯优化工具实践XGBoost回归模型调参

关于调参 0.1. 超参数在机器学习的上下文中，超参数（hyper parameters）是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数…

人工智能 2023年6月16日
0094
tensorflow1.14和numpy版本对应

tensorflow是1.14.0版本。应该使用pip uninstall numpy卸载所有的numpy，再安装1.16.4即可 pip install -U scikit-im…

人工智能 2023年5月23日
00154
【计算机视觉】：基于PyTorch的YoloV5目标检测平台

基于PyTorch的YoloV5目标检测平台 YoloV5改进的部分改进 YoloV5思路 * 一、整体结构二、网络结构分析 – 1、主干网络Backbone（即C…

人工智能 2023年5月26日
0074
【论文导读】- Federated Graph Neural Networks: Overview, Techniques and Challenges（联邦图神经网络：概述、技术和挑战）

文章目录论文信息摘要论文内容与结构 * 1. Introduction 2. Terminology and Taxonomy（术语与分类法） 3. Data Owners …

人工智能 2023年7月12日
0043
Pandas中loc和iloc函数用法总结，以及如何在groupBy后提取分组的指定行数据

loc函数：通过行索引 “Index” 中的具体值来取行数据（如取”Index”为”A”的行） iloc函…

人工智能 2023年7月8日
0054
基于Pytorch的MNIST手写数字识别实现（含代码+讲解）

说明：本人也是一个萌新，也在学习中，有代码里也有不完善的地方。如果有错误/讲解不清的地方请多多指出本文代码链接: GitHub – Michael-OvO/mnist…

人工智能 2023年6月23日
0093
Python实现线性回归（公式推导+源代码）

写这篇文章之前，首先要对自己做一个小小的反思，很多时候在学习新技术的时候，看到出了什么什么框架，在这个框架上什么什么方法可以直接拿过来用，这样的好处就是我们可以减少写代码量，几个函…

人工智能 2023年6月17日
0096
机器学习算法——详细的介绍聚类算法的实现原理（以Kmean算法为中心的优化算法、以及sklearn如何实现）

目录一、聚类算法简介 * 1、认识聚类算法 – 1.1 聚类算法在现实中的应用 1.2 聚类算法的概念 1.3 聚类算法与分类算法最大的区别小结：二、聚类算法ap…

人工智能 2023年6月2日
0071
数据分析可视化常用图介绍以及相关代码实现（箱型图、Q-Q图、Kde图、线性回归图、热力图）

文章目录前言一、箱型图是什么？ * 1-1、箱型图介绍 1-2、箱型图的作用 1-3、实战二、Q-Q图是什么？ * 2-1、Q-Q图（分位数-分位数图：quantile-qu…

人工智能 2023年7月15日
0068
Anaconda及pytorch详细安装及使用教程

Anaconda的介绍 Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anacond…

人工智能 2023年7月22日
0072
如何解决AI算法中的类别不平衡问题

问题背景在机器学习中，学习算法的目标是通过观察和分析数据，通过构建数学模型来预测新的未知数据。为了使得这个预测模型更加准确，我们需要定义一个评估模型预测结果的指标，即损失函数。损…

人工智能 2024年1月1日
0030
基于python的多因子分析

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 最近看了很多的关于因子分析的资料，整理出这篇理论+实战文章分享给大家。后续会出一篇 PCA主成分分析的…

人工智能 2023年7月18日
0078
QT designer安装及运用

在PyQt编辑界面，可以使用可视化工具Qt Designer来完成，通过拖拽控件，编辑数值，可以直接看到效果 QT designer的安装第一种方式：如果有安装pycharm可…

人工智能 2023年7月4日
0098
室内移动机器人二维激光数据线特征提取算法的总结与开源算法分享

本文章总结并翻译于 A comparison of line extraction algorithms using 2D rangedata for indoor mobile …

人工智能 2023年6月2日
0090
Keras深度学习使用VGG16预训练神经网络实现猫狗分类

Keras深度学习使用VGG16预训练神经网络实现猫狗分类最近刚刚接触深度学习不久，而Keras呢，是在众多的深度学习框架中，最适合上手的，而猫狗的图像分类呢，也算是计算机视觉中…

人工智能 2023年7月13日
0051
从编译器对指令集的要求看API设计原则

摘要：最近看《计算机体系结构：量化研究方法（第五版）》，发现指令集设计中的一些原则，对API设计也同样适用，给大家分享一下。本文中的所有内容来自工作和学习过程中的心得整理，如需转…

人工智能 2023年6月4日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31