VIT中特殊class token的一些问题

2023年7月21日上午8:19 • 人工智能 • 阅读 59

类似于BERT中的[class] token,ViT引入了class token机制，其目的：因为transformer输入为一系列的patch embedding，输出也是同样长的序列patch feature，但是最后要总结为一个类别的判断，简单方法可以用avg pool，把所有的patch feature都考虑算出image feature。但是作者没有用这种方式，而是引入一个类似flag的class token,其输出特征加上一个线性分类器就可以实现分类。其中训练的时候，class token的embedding被随机初始化并与pos embedding相加，因此从图可以看到输入transformer的时候【0】处补上一个新embedding，最终输入长度N+1.


self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))

self.head = nn.Linear(self.num_features, num_classes) if num_classes > 0 else nn.Identity()

B = x.shape[0]
x = self.patch_embed(x)
cls_tokens = self.cls_token.expand(B, -1, -1)
x = torch.cat((cls_tokens, x), dim=1)
x = x + self.pos_embed

一些问题：
ViT做分类时取出第n+1个token作为分类的特征，这样做的原理在哪里?有人说这样是为了避免对输入的某一个token有偏向性，那么我将前n个token做平均作为要分类的特征是否可行呢？

首先不存在n+1这个意思奥，论文里面是class token是放在首位，也就是第0个位置，
答案：

题主所说的第n+1个token（class embedding）的主要特点是：（1） 不基于图像内容；（2） 位置编码固定。这样做有以下好处：1、 该token随机初始化，并随着网络的训练不断更新，它能够编码整个数据集的 统计特性；2、该token对所有其他token上的信息做汇聚（全局特征聚合）， 并且由于它本身不基于图像内容，因此可以避免对sequence中某个特定token的偏向性；3、对该token使用 固定的位置编码能够避免输出受到位置编码的干扰。ViT中作者将class embedding视为sequence的头部而非尾部，即位置为0。这样 即使sequence的长度n发生变化，class embedding的位置编码依然是固定的，因此，更准确的来说class embedding应该是第0个而非第n+1个token。另外题主说的”将前n个token做平均作为要分类的特征是否可行呢”，这也是一种全局特征聚合的方式，但它相 较于采用attention机制来做全局特征聚合而言表达能力较弱。因为采用attention机制来做特征聚合，能够根据query和key之间的关系来自适应地调整特征聚合的权重，而采用求平均的方式则是对所有的key给了相同的权重，这限制了模型的表达能力。

Original: https://blog.csdn.net/zqx951102/article/details/121707077
Author: zqx951102
Title: VIT中特殊class token的一些问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706669/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI绘画突然爆火？快速体验二次元画师NovelAI(diffusion)

目录 0 写在前面 1 diffusion vs GAN 2 NovelAI 3 AI绘画环境搭建 4 体验AI创作 0 写在前面机器学习强基计划聚焦深度和广度，加深对机器学习模…

人工智能 2023年6月26日
0097
不想用selenium处理滑块验证码？教你用cv2解决

cv2解决滑块验证码验证 opencv-python安装案例场景 cv2实战 opencv-python安装虽然cv2是直接通过导入cv2包使用，但是它不是通过 import …

人工智能 2023年7月20日
00109
用Python绘制超酷的gif动图，惊艳了所有人

在之前的一篇文章当中，小编当时分享了如何用 Python当中的 gif模块来制作 gif格式的图表，今天小编再给大家来介绍一种制作 gif格式图表的新方法，调用的是 matplo…

人工智能 2023年7月19日
0049
python解析json数据的三种方式

目录 * – 1、运用re、json、jsonpath包解析json思路 – 2、三种方式的json解析案例 – + （1）运用re正则表达式解…

人工智能 2023年7月4日
0057
如何根据CUDA版本安装对应的pytorch？

### 回答1： CUDA 11.6 对应_的 _PyTorch 版本_为 _PyTorch 1.10.0。在发布 CUDA 11.6 之前， PyTorch 1.9.0 目前是支…

人工智能 2023年6月15日
0073
K-means算法与K-means++算法的异同

经典Kmeans算法是最常用的一种聚类算法。感觉在西瓜书里面最容易看懂的，而且最容易用的一个算法便是k-mean算法，算法实现的流程十分简单，可以简单将其划分为4个步骤： Step…

人工智能 2023年5月31日
0072
ResNet结构详解

ResNet结构详解 ResNet的层数34,50,101到底指什么？ * 首先看ResNet34的对比图然后再看这个表 ResNet 到底是个什么结构 * ResNet-34 …

人工智能 2023年6月16日
0045
【水滴计划】：盛最多水的容器、移除元素

1、写在前面大家好，我是翼同学，这里是【水滴计划 | 刷题日志】每日两题，拒绝摆烂。 2、内容 2.1、题目一：盛最多水的容器链接：11. 盛最多水的容器 – 力…

人工智能 2023年6月27日
0099
Nvidia Jetson 平台 DeepStream-6.0.1 部署 YoloV5-6.0 实现目标检测

项目介绍：在 Jetson 平台上利用 DeepStream 处理多路视频源，并实现自己训练的 YoloV5 模型的部署。文章目录前言 1. YoloV5 模型训练自己的数据集…

人工智能 2023年6月24日
00118
OpenCV4.3 Java 编程入门：图片的亮度、对比度、及伽马矫正

文章目录 1 计算公式 2 对比度、亮度矫正 3 伽马矫正图像亮度和对比度的调整操作，属于图像处理中比较简单的一种——点像素操作！ 1 计算公式点操作仅仅根据输入像素值，结合配…

人工智能 2023年7月20日
0064
pandas rolling方法_Python Pandas rolling_apply将两列输入功能

Following on from this question Python custom function using rolling_apply for pandas, abo…

人工智能 2023年7月8日
0099
打假Yolov7的精度，不是所有的论文都是真实可信

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 最近我们…

人工智能 2023年6月25日
0069
美团获得小样本学习榜单FewCLUE第一！Prompt Learning+自训练实战

近日，美团搜索与NLP部NLP中心语义理解团队的小样本学习模型FSL++在中文小样本语言理解权威评测基准FewCLUE榜单登顶，在自然语言推理（OCNLI）单任务中取得第一，并在极…

人工智能 2023年5月31日
00115
社交网络的数据挖掘与分析,什么是社交网络分析

社交网络数据挖掘理解基于计算机的社会网络的一种可能方法是Garton等人（1997年）提出的”社会网络分析”（SNA）工具和方法论，来创建一幅描述知识网络…

人工智能 2023年6月19日
00138
【实际操作】DenseFusion复现过程详解-LineMOD数据集

DenseFusion系列代码全讲解目录：【DenseFusion系列目录】代码全讲解+可视化+计算评估指标_Panpanpan！的博客-CSDN博客这些内容均为个人学习记录，欢…

人工智能 2023年7月24日
0067
几种常规的图像融合方法及其原理

目前，根据图像融合的层次，将图像融合算法分为像素级图像融合，特征级图像融合和决策级图像融合。像素级图像融合处理主要是在图像像素层面上操作处理图像数据，属于基础层次的图像融合。优点是…

人工智能 2023年6月17日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

VIT中特殊class token的一些问题

大家都在看