【网络模型】Wave-MLP

2023年5月28日下午6:26 • 人工智能 • 阅读 67

Wave-MLP

An image patch is a wave:Quantum Insipired Vision MLP
*
Abstract
keypoint
设计方法：
–
Experiment
–
- ImageNet分类：
- Ablation study
总结

An image patch is a wave:Quantum Insipired Vision MLP

Tang Y, Han K, Guo J, et al. An image patch is a wave: Phase-aware vision mlp[J]. arXiv preprint arXiv:2111.12294, 2021.

Abstract

这是一篇2022CVPR的文章，一般的MLP的输入与ViT中的类似，基本都是将图像或者特征切成patch来生成对应的token作为输入，一般的MLP方法都是采用fix weight来对不同的token进行融合，使用固定的权重可能会导致无法很好的去调节来自不同图像不同的语义信息，因此本文提出了根据输入进行动态聚合token的方法。借用量子力学wave function的幅度和相位的概念，作者提出了wave-MLP，本文将幅度直接定义为原始的特征，相位项通过复数形式进行表征，且相位项由输入图像进行动态的生成，引入相位项可以动态调节tokens与MLP fix weight之间的关系。（有点CNN中条件卷积的味道了）

keypoint

作者认为Vision MLP的瓶颈在于它的一个聚合特征的方式 通过固定权重的全连接层来融合不同的token，因为在Transformer中，可以通过使用注意力来调节权重，所以作者也想寻找方法能够对权重进行调节。

设计方法：

一般的MLP模型主要由 全连接和 非线性激活函数组成。对于vision MLP，一般是将图像分为多个patch（tokens），然后使用channel FC和token FC去提取他们的特征，对于d维n个tokens Z = [ z 1 , z 2 , . . . z n ] \Z=[z1,z2,…zn]Z =[z 1 ,z 2 ,…z n ]，channel FC可以表示如下：

一般为了聚合不同tokens，因此也会有token FC操作：
【网络模型】Wave-MLP

j表示第j个输出token，Token FC操作可以通过融合不同的tokens来捕获空间信息。如果想对这两种融合方式更了解的话，可以看看MLP-Mixer，比较经典的一篇文章。

; Phase-Aware Token Mixing

为了动态的调节tokens和权重的关系，作者将每个token视为一个带有幅度和相位的wave function，wave function的表达式如下：

实际上和大学学的一些电路很多知识差不多，很多领域都有这种表达。这里面前面项表征幅度，后面项实际上是一个周期函数，而θ j \ \theta j θj表示相位用于表示当前token的位置，通过幅度和相位的组合表示，每个token都可以得到一个复数域的表达。

假设我们要对token z 1 z1 z 1以及z 2 z2 z 2进行融合，在这里为了更简单的叙述，假设他们的融合权重均为1，得到z r = z 1 + z 2 zr=z1 +z2 z r =z 1 +z 2的结果的幅度和相位可以计算如下：

对融合的一个更直观的图如下图所示：
【网络模型】Wave-MLP

左图所示就是两个token在复数域相加的形式（可以认为有点类似于两个向量的相加），右图是他们在不同相位（角度下）在实数轴的投影。可见，当两个token具有相同相位的时候，它们的结果是互相增强的，反相是互相削弱的，对于其他情形，它们融合后的结果增强还是削弱取决于相位差，可以看出以往MLP在实数域的表达只有同相和反相两种特殊类型。

Amplitude

对于幅度项，由上面的公式3可以看出，是实际上就是对一个实数域加绝对值的操作，但实际上，这种绝对值操作在复数域中可以通过修改相位来实现，所以去绝对值可以通过给相位加上一定的偏移如π \pi π来实现，作者在这里对token的幅度获取是通过对输入进行channel FC来获得，实际上就是原始获得的特征：

; Phase

相位在wave function中表示wave在某个阶段中所在的位置，如果用可学习的固定参数来表示相位信息的话，虽然能够区分同幅图像中不同的token（这样做有点类似于transfomer的位置编码），但忽略了不同输入图像的多样性。
为了捕获到每个不同的输入的信息，作者定义了一个估计模块来根据输入特征产生相应的相位信息：可以表示如下：

然后作者实现这个操作，也是直接用channel FC来生成这个相位。

Token aggreation:

具有wave function形式的token一般在复数域进行表示，为了进行更好的计算，可以使用欧拉公式对上述式子3进行展开得到：

因此一个复数域可以拆分为实部和虚部进行表示，然后不同的token可以通过token FC操作进行融合：

可以看出相位信息在动态的调节权重和token的关系，同时相位也作用于tokens的聚合过程，根据上述的做法，作者建立了一个PATM模块来执行上述token的聚合过程，如下图所示：

可以看出，给定输入的特征幅度和相位分别由channel FC来产生，然后将wave function形式的token用公式7进行展开实数虚数部分，然后聚合得到输出，模块的最后输出再使用一个Channel FC来增强表达能力。

; Wave MLP Block

从图上可以看出Wave MLP主要包含两种类型的Block，分别是token mixing和Channel-mixing MLP，其中Channel-Mixing MLP的实现通过堆叠两个channel-FC和非线性激活函数构成。token mixing则包含PATM模块用于聚合不同的tokens。
Token mixing MLP主要由两个并行的PATM模块组成，然后对他们的输出进行加权求和。为了解决不同图像可能具有不同的size问题（就是想减少计算量），作者对token Fc操作限制一个local window中进行，对tokens进行连接，除了两个并行的PATM，作者使用了额外的channel FC连接进行原始的信息的保留。
整个模型通过交替的堆叠token mixing，Channel FC和归一化构成。为了产生层级的特征，作者将整个模型分为四个stage，逐步减少图像的分辨率，增加通道数（常规操作）

Experiment

ImageNet分类：

基础模型的token-FC窗口设为7×7，模型的大小可以通过调节stage和窗口大小根据计算量和参数量进行设定，其中T*模型是将相位的产生从FC换成深度可分离卷积来代替。

然后将其作为检测主干网络，采用mask r-cnn的检测头也是获得不错的结果：
【网络模型】Wave-MLP

总的来说，从实验结果可以看出，MLP模型也能完爆Swin Transformer，不过对于这些模型通常需要采用更大的数据集以及更好的训练方法，emmmm当然也要有更好的卡！

; Ablation study

读文章更应该关注消融实现，消融实验是再T*模型上做的，首先是相位是否有用：

可以看出相位对性能的提升还是有必要的。
接着是生成相位的模型，作者对比了深度可分离卷积，channel FC和残差直接映射的做法：

此外也对比了聚合不同token的局部窗口的size,窗口太大对于图像来说未必有用：
【网络模型】Wave-MLP

总结

这篇文章针对了MLP中固定权重的问题无法针对不同语义的输入，提出了Wave-MLP，并获得了优于Swin的性能，在摩尔定律的趋势下，未来的模型或许会由CNN向MLP进行发展，Transformer在某种意义上其实也是MLP的一种变体，只不过Transformer能够利用attention的形式进行计算，对MLP的研究相信未来或许是视觉里面的一个大方向。

Original: https://blog.csdn.net/qq_42129459/article/details/123947499
Author: 小飞龙飞飞飞
Title: 【网络模型】Wave-MLP

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/533006/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

实时目标追踪：ByteTrack算法步骤详解和代码逐行解析

ByteTrack算法简介 ByteTrack算法是一种基于目标检测的追踪算法，和其他非ReID的算法一样，仅仅使用目标追踪所得到的bbox进行追踪。追踪算法使用了卡尔曼滤波预测…

人工智能 2023年7月4日
0063
Anaconda 修改默认虚拟环境安装位置

项目场景：使用Anaconda Prompt创建虚拟环境问题描述保存虚拟环境的默认地址是C盘，而我想将下载的虚拟环境保存到我自定义的位置。解决方案： 1、使用 conda …

人工智能 2023年6月26日
0095
MPC（模型预测控制）控制小车沿轨迹移动——C++实现

任务说明要求如下图所示，给定一条轨迹，要求控制小车沿这条轨迹移动，同时可以适用于系统带有延时的情况。注意，本篇文章只给出部分C++代码参考。主要流程首先用运动学自行车模型（K…

人工智能 2023年7月27日
00134
如何快速连接Basler工业摄像头,获取并保存图像和视频（python+opencv+pypylon)

写在前面：电脑已经安装anaconda(或者miniconda)如有需要，请联系：qq:2953392202 1.打开anaconda2.搭建虚拟环境 conda create -…

人工智能 2023年7月19日
00156
Opencv与python实现多目标跟踪（二）- 目标跟踪

通常voc数据集或coco数据集的label种类能够满足大部分的目标检测需求，但是对于特定场景业务的时候，就需要自定义自己的数据集，这个时候的模型，就不能直接用上文训练好的模型了 …

人工智能 2023年7月19日
0055
利用k近邻模型进行鸢尾花分类-Python实现

利用k近邻模型进行鸢尾花分类-Python实现数据集简介https://www.cnblogs.com/mandy-study/p/7941365.html K近邻算法参考书：…

人工智能 2023年7月2日
0093
使用 OpenCV 收集数据

OpenCV 是”开源计算机视觉”的缩写，是一个机器学习库，旨在实现图像处理和计算机视觉应用。与对象检测和识别相反，OpenCV 还有一个应用是它收集数据的…

人工智能 2023年5月26日
0088
数据中台建设（六）：数据体系建设

### 回答1：电信和互联网行业数据_安全标准 _体系建设_指南，是一份提供行业标准和指导的文件，旨在帮助企业和组织建立和实施有效的 _数据_安全措施，以应对现代数字环境中不…

人工智能 2023年7月16日
0064
目标检测 | YOLO系列超全讲解v1，v2，v3

* – 前言 – 一、YOLOv1 – + 1. 网络结构 + 2. 实现方法 + 3. 损失函数 + 4. 缺点 – 二、YOLO…

人工智能 2023年7月14日
0056
回归分析（三）—— 多元线性回归

主要内容回归分析概述一元线性回归分析多元线性回归逻辑回归其他回归分析三、多元线性回归在实际经济问题中，一个变量往往受到多个变量的影响。例如，家庭消费支出，除了受家庭可支配收入的…

人工智能 2023年6月15日
00326
python实现井字棋

参考学习：Python实现井字棋游戏闲扯井字棋(Tic-Tac-Toe)，初高中进行打发时间的一种画x画o的游戏，3*3的格子组成，一方把行列斜行连成相同的就算获胜。那么怎么…

人工智能 2023年7月4日
0047
Python数据探索性分析和预处理

Python数据探索性分析和预处理讲在前面一.探索性分析 * 1.数据质量分析 – 1.缺失值 + 查看缺失情况缺失值处理 2.异常值 + 异常值检测（查看）异…

人工智能 2023年7月15日
0077
python 数据清洗难度_Python数据清洗

检测与处理重复值 pandas提供了一个名为drop_duplicates的去重方法。该方法只对DataFrame或者Series类型有效。这种方法不会改变数据原始排列，并且兼具代…

人工智能 2023年7月9日
0048
Pandas

一、Pandas对缺失值的处理 1.1 忽略空行 skiprows 1.2 删掉全是空值的列或者行 .dropna（axis=”columns” / &#8…

人工智能 2023年7月8日
0048
基于svm机器学习的手写数字识别

机器学习入门来说，手写数字识别是个很不错的练习项目而我们这里基于svm练习我们的所学习的机器学习。而我们选择的训练集是MNIST，这个训练集量大，好用，有几万张纯手写28*28的…

人工智能 2023年7月26日
0056
学python如何不加班杀手框架Pandas

Pandas是一个基于python中Numpy模块的一个模块 Python在数据处理和准备⽅⾯⼀直做得很好，但在数据分析和建模⽅⾯就差⼀些。pandas帮助填补了这⼀空⽩，使您能够…

人工智能 2023年7月7日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31