VIT transformer详解

2023年6月25日下午11:53 • 人工智能 • 阅读 102

1.VIT 整体架构

对图像数据构建patch序列

对于一个图像，将图像分为9个窗口，要将这些窗口拉成一个向量，比如一个10103维的图像，我们首先要将这个图像拉成一个300维的向量。

位置编码：

位置编码有两种方式，第一种编码是一维编码，将这些窗口按照顺序，依次编码成1,2,3,4,5,6,7,8,9.第二种方式是二维编码，返回每个图像窗口的坐标。

最后，连接一层全连接，将图像编码和位置编码映射到计算更容易识别的编码。

那么，架构图中的0编码有什么作用呢？

我们一般在图像分类中加入0编码，图像分割与目标检测一般不需要加入，0patch主要用于特征整合，整合各个窗口的特征向量，因此，0 patch可以加在任何位置。

2.公式详解

输入patch[(PP)C]经过全连接E得到((PP)D),即做一个特征映射，N+1表示额外找一个patch表示分类特征，即上面所说的 0 patch,然后再将特征整合相加。

MSA就是一个残差连接。

3.多头注意力的感受野

如图所示，纵轴表示注意力的距离，也相当于卷积的感受野，当只有一个transformer时，感受野比较小，也会有感受野大的情况出现，随着transformer数量的增多，感受野普遍都比较大，这说明了Transformer提取的是全局特征。

4. 位置编码

结论：编码有用，但是怎么编码影响不大，干脆用简单的得了，2D（分别计算行和列的编码，然后求和）的效果还不如1D的，每一层都加共享的位置编码也没啥太大用

当然，这是分类任务，位置编码可能影响不大

5.实验效果（/14表示patch的边长是多少）

6.TNT：Transformer in Transformer

VIT中只针对pathch进行建模，忽略了其中更小的细节

外部transformer将原始图像分为一个个窗口，经过图像编码和位置编码生成一个特征向量。

内部transformer将外部transformer的窗口，在进一步重组为多个超像素，重组为新的向量，比如说：外部transformer将图像拆分为16163的窗口，内部tranformer再将其拆分为44的超像素，此时小窗口大小为44*48，这样每一个patch就整合了多个channels的信息。新向量再通过全连接改变输出特征大小，此时内部组合后的向量与patch编码大小相同，将内部向量与外部向量再相加。

TNT的PatchEmbedding的可视化

对于蓝色的点表示TNT提取的特征，从可视化图像中可以看出，蓝色的点特征更离散，方差更大，更有利于分离，特征更鲜明，分布更多样性

实验结果

内外兼修，都加编码效果最好

Original: https://blog.csdn.net/qq_52053775/article/details/126242791
Author: 樱花的浪漫
Title: VIT transformer详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651780/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【pytorch】将模型部署至生产环境：使用opencv(C++)中的dnn模块或onnxruntime(python)直接调用ONNX模型

(一）待训练模型采用CIFAR10，10分类按上述源码训练后得到模型参数文件：saveTextOnlyParams.pth关于onnx及onnxruntime使用见：【pytorc…

人工智能 2023年7月19日
0091
语音识别算法中是否考虑了不同语音背景噪音对准确性的影响

问题介绍在计算机科学中，Connecte是一个常见的问题，用于确定某个给定的图或网络中是否存在连接的路径或连通分量。该问题可以用于维护和管理互联网、社交网络分析、寻找最短路径等应…

人工智能 2024年1月3日
0028
在 Python 中安装 yaml

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0075
[机器学习与scikit-learn-51]：模型评估-图解分类模型的评估指标（准确率、精确率、召回率）与代码示例

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年7月1日
0087
厉害了！看嘴型竟然就能识别发音

你可以通过嘴唇的形状来判断人们在说什么，这就是嘴唇识别。 [En] You can tell what people are saying by the shape of the …

人工智能 2023年5月25日
0067
描述性统计分析

概要描述性统计，是指运用制表和分类，图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述，主要包括数据的频数分析、集中趋势分…

人工智能 2023年7月15日
0055
机器学习笔记 – 基于深度学习(HomographyNet)的图像单应性估计

论文提出了一个深度卷积神经网络来估计一对图像之间的相对单应性。我们的前馈网络有 10 层，以两个堆叠的灰度图像作为输入，并产生一个 8 自由度的单应性，可用于映射从第一个图像到第二…

人工智能 2023年7月13日
0088
GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis Abstract 虽然二维生成对抗网络能够实现高分辨率的…

人工智能 2023年5月26日
0093
分享本周所学——使用Flask实现Python程序服务化

大家好，欢迎来到《分享本周所学》第四期。本人是一名人工智能初学者，最近一周学习了如何用Flask将一个AI模型实现服务化，觉得非常有收获，就想把学到的东西分享给大家。不管你是像我一…

人工智能 2023年5月25日
0087
OpenCV学习笔记（一）：windows7+cmake4.5+Vs2019编译OpenCV4.5.5、使用Vs2091调用编译好的OpenCV库

目录下载安装步骤 1、打开cmake-gui.exe对opencv源码进行编译错误一：CMake’s ‘find_host_package(Pytho…

人工智能 2023年7月18日
0075
前端安全：CSRF、XSS该怎么防御？

近几年随着业务的不断发展，前端随之面临很多安全挑战。我们在日常开发中也需要不断预防和修复安全漏洞。接下来，梳理一些场景的前端安全问题和对应的解决方案。 XSS攻击介绍 XSS是后端…

人工智能 2023年6月29日
0081
信号与系统-1-线性时不变系统

线性时不变系统的证明前情提要 “线性”特性的判断 “时不变”特性的判断前情提要对于一般系统，我们总要判断它究竟是何种系统，或者…

人工智能 2023年7月1日
0071
目标检测：yolov5环境搭建，3分钟弄懂，避开环境不适合的坑

解决问题 yolov5环境搭建半天，还是到处是bug。所以我对之前的坑找了一条比较简单而有效的路。准备：1、conda2、yolov5的源码https://github.com/…

人工智能 2023年7月9日
0077
什么是目标检测？有哪些应用？终于有人讲明白了

导读：计算机视觉（Computer Vision，CV）是一门教计算机如何”看”世界的学科。计算机视觉包含多个分支，其中图像分类、目标检测、图像分割、目标跟…

人工智能 2023年6月24日
0098
【OpenCV】—图像金子塔与图片尺寸缩放

序言：继续，继续，开干！！！本节学习OpenCV中的函数pyrUp和pyrDown对图像进行向上和向下采样，以及了解专门用于缩放图像尺寸的resize函数的用法文章目录 * &…

人工智能 2023年6月21日
00108
第十四届蓝桥杯模拟赛第一期试题与题解Java

文章目录 A 二进制位数 * 问题描述答案提交参考答案个人题解 B 晨跑 * 问题描述答案提交个人题解 C 调和级数 * 问题描述答案提交个人题解 D 山谷 * 问题…

人工智能 2023年6月29日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

VIT transformer详解

对图像数据构建patch序列

4. 位置编码

TNT的PatchEmbedding的可视化

实验结果

大家都在看