极智AI | 详解 ViT 算法实现

2023年6月25日上午8:49 • 人工智能 • 阅读 62

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享

大家好，我是极智视界，本文详细介绍一下 ViT 算法的设计与实现，包括代码。

ViT 全称 Vision Transformer，是 transformer 在 CV 领域应用表现好的开始，而在此之前，CV 领域一直是 CNN 的天下，虽然 ViT 主要用于图像分类这个简单的任务，但它说到底挑战了自从 2012 年 AlexNet 出世以来，卷积神经网络在计算机领域绝对统治的地位。ViT 的重要性不只在于证明了 transformer 在图像分类上也能 work 的很好，其贡献还在于它给大家挖了个大坑，并随之而来井喷出了大量 ViT 变种以及其他视觉任务的应用，如目标检测 (DETR)、语义分割 (SETR)、图像生成 (GANsformer) 、多模态应用 (CLIP) 等。

本文不止会介绍 ViT 的原理，还会介绍 ViT 的实现，包括代码。下面开始。

参考 Paper：《An Image is Worth 16×16 words Transformers for image recognition at scale》。

Original: https://blog.csdn.net/weixin_42405819/article/details/124898872
Author: 极智视界
Title: 极智AI | 详解 ViT 算法实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650587/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习之图像分类（十一）–MobileNetV2 网络结构

深度学习之图像分类（十一）MobileNetV2 网络结构目录 * – 深度学习之图像分类（十一）MobileNetV2 网络结构 – + 1. 前言 +…

人工智能 2023年6月17日
0095
基于遗传算法、元胞自动机邻域和随机重启爬山混合优化算法（GA-RRHC）的柔性车间调度研究（Matlab代码实现）

💥💥💞💞 欢迎来到本博客❤️❤️💥💥 🏆博主优势： 🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️ 座右铭：行百里者，半于九十。目录💥1 概述📚2 运行结果🎉3 参…

人工智能 2023年6月26日
0071
【OpenCV 例程 300篇】249. 特征描述之视网膜算法（FREAK）

『youcans 的 OpenCV 例程300篇 – 总目录』【youcans 的 OpenCV 例程 300篇】249. 特征检测之视网膜算法（FREAK） 1. …

人工智能 2023年7月31日
0087
降维算法实战项目（2）—使用PCA对图像降维（Python代码+数据集）

在这部分练习中，我们将学习人脸图像上运行PCA，看看如何在实践中使用它来减少维度。老规矩，先放出数据集：链接：https://pan.baidu.com/s/1R0oiqoWH…

人工智能 2023年6月17日
00118
卷积神经网络各卷积层输入输出及权重尺寸

卷积神经网络各尺寸的计算 Feature map数量和尺寸, 神经元的数量，连接数量，权重size 几个参数输入尺寸：in_size输出尺寸：out_size卷积核：k (k…

人工智能 2023年7月13日
0074
Layer中的激活函数有哪些常见的选择

关于Layer中的激活函数有哪些常见的选择在神经网络中，激活函数是一种非线性函数，它通过对输入进行非线性变换来引入非线性特性，以提高神经网络的表达能力。常见的激活函数包括Sigm…

人工智能 2024年1月6日
0029
MMDetection3D的运行环境

OS: Ubuntu20.04 GPU: RTX 3060(12G) python==3.7.12 cuda==11.2 cudnn==cudnn-11.2-linux-x64-v…

人工智能 2023年6月4日
0057
深度学习实战（1）：花的分类任务｜附数据集与源码

写在前面：实验目的：通过建立Alexnet神经网络建立模型并根据训练数据来训练模型以达到可以将一张花的类别进行分类Python版本：Python3IDE：VSCode系统：Ma…

人工智能 2023年7月1日
0069
给视频配解说词字幕的最便宜方法

视频字幕有很多软年或平台，但大多数都是付费的。自从剪报电脑版发布以来，它给了我一个新的想法。 [En] There are many soft years or platforms…

人工智能 2023年5月23日
0076
epsfallback_EPS网络CS Fallback技术研究

在现有2G和3G的基础上，3GPP推出了演进的分组系统EPS。在EPS网络建网初期，如果运营商已经有成熟的GERAN/UTRAN网络，出于对CS投资的保护和LTE/EPC的部署策略…

人工智能 2023年5月27日
0080
从零开始，手把手教你使用Keras和TensorFlow构建自己的CNN模型

最近学习CNN，搭建CNN模型时看网上鱼龙混杂的博客走了不少歪路，决定自己来总结一下。注意本教程未必对所有版本有效，请根据需要的版本适当调整。文章中配置的环境是Python 3….

人工智能 2023年5月23日
0074
python计算csv文件内的数据_使用python计算CSV文件数据的持续时间和平均值

如果您使用像pandas这样的高级库，您可以更容易地解决这个问题。我来演示一下：假设您在file.csv中保存了下一个数据文件：2013-07-18 04:54:15.871 U…

人工智能 2023年7月8日
0082
ResNet与Densenet之间的关系以及区别

一、ResNet和DenseNet的之间的关系以及区别，如参数量和训练速度。简单介绍下ResNet以及DenseNet ResNet的最大的贡献是缓解深层的神经网络训练中的梯度消…

人工智能 2023年5月26日
0088
VGG16实现分类任务

VGG16实现分类任务 VGG是2014年由牛津大学著名研究组VGG(Visual Geometry Group)提出，斩获当年ImageNet竞赛中定位任务第一名和分类任务第二名…

人工智能 2023年7月1日
0083
Deformable CNN 和 Deformable Attention

论文地址：Deformable Convolutional Networks 针对视觉任务中，如何根据物体的尺寸、位置、视角等来调整模型的几何变化，一般传统做法有： 1）通过数据增…

人工智能 2023年7月13日
0097
圣诞纯情手势告白（Mediapipe基本使用&手势识别详解）

文章目录前言环境安装快速上手（手势捕捉） * 获取手的坐标返回参数详解不同算子手势识别案例 * 手指状态判断编码升级版（圣诞表白器）总结前言本来不想写这个的，…

人工智能 2023年7月19日
00141

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

极智AI | 详解 ViT 算法实现

大家都在看