《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

2023年10月25日上午7:03 • Python • 阅读 32

论文题目：《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》
论文作者：Qibin Hou, Zihang Jiang, Li Yuan et al.

论文发表年份：2022.2
模型简称：ViP
发表期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

Abstract

在本文中，我们提出了一种概念简单、数据高效的类似MLP的视觉识别体系结构——视觉置换器（Vision Permutator）。不同于最近的类似MLP的模型大都沿着平坦的空间维度编码空间信息。由于认识到二维特征表示所携带的位置信息的重要性，Vision Permutator通过线性投影分别对沿高度和宽度维度的特征表示进行编码。这使得Vision Permutator可以沿着一个空间方向捕获远程依赖关系，同时保持沿着另一个方向的精确位置信息。由此产生的位置敏感输出，然后以相互补充的方式聚合，形成感兴趣的对象的表达。Vision Permutator由纯1 × 1卷积组成，但可以对全局信息进行编码。Vision Permutator也消除了对自注意力的依赖，因此效率更高。开源代码： https://github.com/Andrew-Qibin/VisionPermutator

Method

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

Vision Permutator从与Vision Transformers类似的tokenization操作开始，它将输入图像统一地分割为小块，然后将它们映射到带有线性投影的token embedding。然后将形状为”height×width×channels”的结果token embeddings到Permutator block序列中，每个Permutator block由一个用于空间信息编码的Permute-MLP和一个用于通道信息混合的Channel – MLP组成。Permute-MLP层如下图所示，

Permute-MLP层由三个独立的分支组成，每个分支沿特定的维度编码特征，即高度、宽度或通道维度。Channel-MLP模块的结构与Transformer中的前馈层相似，包括两个完全连接的层，中间有一个GELU激活。完整的Vip架构公式如下：

对于Channel信息编码，只需要一个权重WC∈RC×C的全连接层，就可以对输入X进行线性投影，得到XC。对于高度信息编码，首先对传入的分割好的每个tokens作维度变换（ex:Transpose the first (Height) dimension and the third (Channel) dimension: (H, W, C) → (C, W, H).）然后沿着通道维度连接它们作为Premute的输出，传入Linear Projection：连接权重为WH∈RC×C的全连接层，混合高度信息。再通过维度变换复原输入维度。对宽度信息编码作类似处理，最后讲三个分支的输出加和作为最后全连接层的输入。Linear Projection的输出公式表示如下：（最后输出再与input tokens作跳跃连接得到最终Permute-MLP的输出。）

Weighted Permute-MLP：上述方法只是简单地将所有三个分支的输出通过元素相加来融合。在这里，我们通过重新校准不同分支的重要性，进一步改进了上述Permute-MLP，并提出加权Permute-MLP。这可以通过利用分散注意力(split attention)实现。不同的是，分散注意力应用于XH、XW和XC，而不是由分组卷积生成的一组张量。在下文中，我们默认使用Permutator中的加权Permute-MLP。

Experiment

与ImageNet上最近的类MLP模型比较Top-1精度，所有模型都是在没有外部数据的情况下进行训练的。在相同的计算量和参数约束下，我们的模型始终优于其他方法。

与ImageNet上的经典CNN和Vision Transformer的精度比较。所有模型都是在没有外部数据的情况下进行训练的。在相同的计算和参数约束下，我们的模型可以与一些强大的基于CNN和基于Transformer的模型竞争。

Original: https://www.cnblogs.com/AllFever/p/16727241.html
Author: AllFever
Title: 《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/804805/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python如何用pip安装pygame_Python中pip以及Pygame的下载与安装

1.pip的下载： ①进入https://pypi.org/project/pip/(或者搜索”pip下载”即可找到官方下载入口) ②找到”下载…

Python 2023年9月20日
0044
scrapy框架（3）：CSS选择器解析数据

CSS选择器提取数据一、HTML涉及内容补充：二、css选择器介绍三、实操 * 1、前提 2、code实现的方法介绍 – ①、Pycharm debug ②、黑窗…

Python 2023年10月2日
0047
Python Pandas数据结构

一、概念 1.1Series和DataFrame pandas的数据结构有两大核心：Series和DataFrame。 Series:是一维数组和Numpy中一维数组类似，这两种一…

Python 2023年8月21日
0036
【数学建模之Python】4.AttributeError: module ‘matplotlib.cbook‘ has no attribute ‘is_numlike‘ in Networkx

你们的每个赞都能让我开心好几天✿✿ヽ(°▽°)ノ✿ 报错：AttributeError: module ‘matplotlib.cbook’ has no …

Python 2023年9月2日
0066
【python】无规律时间步长时序数据转为固定步长

写在前面日常可能会遇到时间步长无规律的数据，需要转化为固定时间步长，此时需要进行重采样或插值。例子在选择好时间间隔后，可以用pandas的resample来操作。 import …

Python 2023年8月8日
0076
UNI-APP封装全局登录检查函数

封装的函数主要用于检查用户是否登录封装一个全局函数在main.js文件下定义checkLogin全局函数,代码的注解都在代码块里面参数说明：backpage, backtype…

Python 2023年6月10日
0085
【云原生 | Docker】部署 Django & Nginx & Gunicorn

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 🌐 推荐一款找工作神器网站: 点击跳转牛客网登陆注册🎉🎉 |笔试题库|面试经验|实习…

Python 2023年8月6日
0050
.NET MAUI 社区工具包 1.3版本发布

MAUI（多应用程序用户界面）框架是微软用于跨平台应用程序开发的最新框架，取代了 Xamarin 和 Xamarin Forms。它已经在2022年8月正式发布，在 GitHub …

Python 2023年10月19日
0031
DDPM代码详细解读(1)：数据集准备、超参数设置、loss设计、关键参数计算

[ DDPM（Denoising Diffusion Probabilistic Model）是一种生成式模型，可以用于图像生成和图像去噪等任务。下面是用 PyTorch_框架训练…

Python 2023年9月17日
0071
matplotlib.pyplot.legend()参数详解

[ matplotlib. py plot_是 _Python_中常用的绘图库，可以用来绘制各种类型的图表，包括折线图、散点图、柱状图、饼图等。以下是一些 _matplotlib….

Python 2023年9月1日
0040
MAE详解

目录一、介绍二、网络结构 1. encoder 2. decoder 3. LOSS 三、实验全文参考：论文阅读笔记：Masked Autoencoders Are Scal…

Python 2023年10月27日
0018
验证一个小小的问题

在之前的文章提到过一个问题，而且网上很多文章也是这么说的，前几天有人对这个问题提出了一点不同的意见，抱着谨慎的态度做了一个测试。问题是这样的：COMPACT格式下，NULL值列表…

Python 2023年10月22日
0047
k8s驱逐篇(5)-kube-controller-manager驱逐

kube-controller-manager驱逐 kube-controller-manager驱逐主要依靠 NodeLifecycleController以及其中的 Taint…

Python 2023年10月12日
0050
Appuim+Pycharm+Pytest 自动化测试环境搭建 Mac版

这一套流程有很多坑，因为最近换主机原因被迫搭了2，3次，忍无可忍打算记录一下超详细的搭建过程。 注意：下载环境过程…

Python 2023年9月10日
0058
【Pandas 数据分析 4-1】Pandas基础操作

4.1 索引操作 4.1.1 建立索引 4.1.2 重置索引 4.1.3 索引类型 4.1.4 索引对象 4.1.5 索引的属性 4.1.6 索引的操作 4.1.7 索引重命名 4…

Python 2023年8月7日
0042
【OpenCV–模板匹配】

目录一、模板匹配1.定义：2.实现：二、霍夫线检测1.原理：2.实现：三、霍夫圆检测1.描述：2.用法：一、模板匹配 1.定义：模板匹配就是在给定的图片中，查找和模板最相似的…

Python 2023年9月29日
0028

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

大家都在看