Sequencer: Deep LSTM for Image Classification(LSTM在CV领域杀出一条血路，完美超越Swin与ConvNeXt等前沿算法)

2023年7月10日上午3:44 • 人工智能 • 阅读 97

LSTM在CV领域杀出一条血路，完美超越Swin与ConvNeXt等前沿算法

论文链接：https://download.csdn.net/download/weixin_38353277/85298208

代码链接：待开放

在最近的计算机视觉研究中，ViT的出现迅速改变了各种架构设计工作:ViT利用自然语言处理中的Self-Attention实现了最先进的图像分类性能，MLP-Mixer利用简单的多层感知器也实现了具有竞争性的结果。相比之下，一些研究也表明，精心设计的卷积神经网络(CNNs)可以实现媲美ViT的先进性能，而无需借助这些新想法。在这种背景下，人们对什么是适合于计算机视觉的归纳偏差越来越感兴趣。

在这里，作者提出Sequencer，一个全新且具有竞争性的架构，可以替代ViT，为分类问题提供了一个全新的视角。与ViT不同，Sequencer使用LSTM(而不是Self-Attention)对远程依赖关系进行建模。

作者还提出了一个二维的Sequencer模块，其中一个LSTM被分解成垂直和水平的LSTM，以提高性能。

虽然结构简单，但是经过实验表明，Sequencer的表现令人印象深刻:Sequencer2D-L在ImageNet-1K上仅使用54M参数，实现84.6%的top-1精度。不仅如此，作者还证明了它在双分辨率波段上具有良好的可迁移性和稳健性。

; 背景

Vision Transformer成功的原因被认为是由于Self-Attention建模远程依赖的能力。然而，Self-Attention对于Transformer执行视觉任务的有效性有多重要还不清楚。事实上，只基于多层感知器(MLPs)的MLP-Mixer被提议作为ViTs的一个有吸引力的替代方案。

此外，一些研究表明，精心设计的CNN在计算机视觉方面仍有足够的竞争力。因此，确定哪些架构设计对计算机视觉任务具有内在的有效性是当前研究的一大热点。本文通过提出一种新颖的、具有竞争力的替代方案，为这一问题提供了一个新的视角。

本文提出了Sequencer体系结构，使用LSTM(而不是Self-Attention)进行序列建模。Sequencer的宏观架构设计遵循ViTs，迭代地应用Token Mixing和Channel Mixing，但Self-Attention被基于LSTMs的Self-Attention层取代。特别是，Sequencer使用BiLSTM作为一个构建块。简单的BiLSTM表现出一定的性能水平，而Sequencer可以通过使用类似Vision Permutator(ViP)的思想进一步提高。ViP的关键思想是平行处理垂直轴和水平轴。

作者还引入了2个BiLSTM，用于并行处理上/下和左/右方向。这种修改提高了Sequencer的效率和准确性，因为这种结构减少了序列的长度，并产生一个有空间意义的感受野。

在ImageNet-1K数据集上进行预训练时，新的Sequencer架构的性能优于类似规模的Swin和ConvNeXt等高级架构。它还优于其他无注意力和无CNN的架构，如MLP-Mixer和GFNet，使Sequencer在视觉任务中的Self-Attention具有吸引力的新替代方案。

值得注意的是，Sequencer还具有很好的领域稳健性以及尺度稳定性，即使在推理过程中输入的分辨率增加了一倍，也能强烈防止精度退化。此外，对高分辨率数据进行微调的Sequencer可以达到比Swin-B更高的精度。在峰值内存上，在某些情况下，Sequencer往往比ViTs和cnn更经济。虽然由于递归，Sequencer需要比其他模型更多的FLOPs，但更高的分辨率提高了峰值内存的相对效率，提高了在高分辨率环境下的精度/成本权衡。因此，Sequencer作为一种实用的图像识别模型也具有吸引人的特性。

全新范式

2.1 LSTM的原理

LSTM是一种特殊的递归神经网络(RNN)，用于建模序列的长期依赖关系。Plain LSTM有一个输入门，它控制存储输入，一个控制前单元状态的遗忘的遗忘门，以及一个输出门，它控制当前单元状态的单元输出。普通LSTM的公式如下：

; 2.2 Sequencer架构

1、架构总览
本文用LSTM取代Self-Attention层：提出了一种新的架构，旨在节省内存和参数，同时具有学习远程建模的能力。

图2a显示了Sequencer体系结构的整体结构。Sequencer架构以不重叠的Patches作为输入，并将它们投影到特征图上。Sequencer Block是Sequencer的核心组件，由以下子组件组成：

BiLSTM层可以经济、全局地Mixing空间信息

MLP用于Channel Mixing

当使用普通BiLSTM层时，Sequencer Block称为Vanilla Sequencer block；当使用BiLSTM2D层作为Sequencer Block时，Sequencer Block称为Sequencer2D block。最后一个块的输出通过全局平均池化层送到线性分类器。

伪代码如下：

3、架构变体
为了比较由Sequencer 2D组成的不同深度的模型，本文准备了3种不同深度的模型：18、24和36。模型的名称分别为Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隐藏维度设置为D=C/4。

3实验

3.1 ImageNet-1K

3.3 稳健性实验

; 3.4 可视化分析

一般来说，CNN具有局部化的、逐层扩展的感受野，而没有移动窗口的ViT捕获的是全局依赖。相比之下，作者Sequencer不清楚信息是如何处理的。因此作者计算了ResNet-50、DeiT-S和Sequencer2D-S的ERF，如图5所示。

Sequencer2D-S的ERFs在所有层中形成十字形。这一趋势使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是，在浅层中，Sequencer2D-S比ResNet-50的ERF更宽，尽管没有DeiT那么宽。这一观察结果证实了Sequencer中的lstm可以像预期的那样建模长期依赖关系，并且Sequencer可以识别足够长的垂直或水平区域。因此，可以认为，Sequencer识别图像的方式与CNN或ViT非常不同。

Original: https://blog.csdn.net/weixin_38353277/article/details/124594763
Author: 中科哥哥
Title: Sequencer: Deep LSTM for Image Classification(LSTM在CV领域杀出一条血路，完美超越Swin与ConvNeXt等前沿算法)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682023/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

自动驾驶——Carla 模拟器简介

; CARLA基本介绍 CARLA是一个开源的自动驾驶模拟器。它是从头开始构建的，用作模块化和灵活的API，以解决自动驾驶问题中涉及的一系列任务。 CARLA的主要目标之一是帮助自…

人工智能 2023年6月2日
00255
PPASR中文语音识别（入门级）

PPASR语音识别（入门级）项目将分为三个阶段，即入门级别、入门级别和应用级别分支，目前处于入门级别，随着级别的提高，识别准确率也有所提高，也更适合实际项目使用，敬请关注！ [E…

人工智能 2023年5月25日
0096
三、将 tensorform 与 tensorboard 进行结合

tensorforms的使用 transforms的简介 transforms结合tensorboard的使用 * 读取图片创建transforms实例并将PIL格式图片转为te…

人工智能 2023年5月25日
0096
OpenCV+YOLO+IP摄像头实现目标检测

title: OpenCV+YOLO+IP摄像头实现目标检测前言学习OpenCV、YOLO到现在我实现了调用本地摄像头使用自己训练的模型进行目标识别，然后想着能不能远程获取视频…

人工智能 2023年7月9日
00134
SCS【6】单细胞转录组之细胞类型自动注释 (SingleR)

点击关注，桓峰基因桓峰基因公众号推出单细胞系列教程，有需要生信分析的老师可以联系我们！首选看下转录分析教程整理如下： Topic 6. 克隆进化之 Canopy Topic 7….

人工智能 2023年6月19日
00119
熬夜爆肝万字C#基础入门大总结【建议收藏】

往期文章分享点击跳转=>熬夜再战Android从青铜到王者-UI组件快速搭建App界面点击跳转=>熬夜再战Android从青铜到王者-几个适配方案点击跳转=>熬…

人工智能 2023年5月30日
00104
数据分析+数据挖掘告诉你：电商销售额与哪些因素有关？

轰轰烈烈的”双十一大战”刚刚落下帷幕。作为电商行业一年一度的”大战”，各家电商和品牌方都在摩拳擦掌，火力全开。作为品牌方，想要在电商…

人工智能 2023年7月18日
0095
【图基础】PyG框架demo：使用GCN完成Core数据集分类【代码+数据集】

🍓这篇博客简单介绍了PyG以及Core数据集，并用一个简单的两层GCN实现了Core分类。🍓代码参考https://zhuanlan.zhihu.com/p/430446184，并…

人工智能 2023年5月28日
0093
2023预制菜展/江西预制菜加工设备与包装设备展/方便食品展

2023中国（江西）国际预制菜产业展览会（JXCYE江西预制菜展）The 2023 China (Jiangxi) International prefabricated Vege…

人工智能 2023年6月27日
00109
【综述】一文读懂卷积神经网络(CNN)

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Netwo…

人工智能 2023年7月13日
0056
深度学习入门（九）——深度学习框架概览

深度学习框架概览 Caffe Theano TensorFlow Torch Pytorch MXNet cuda-convnet2 Neon Deeplearning4j CNT…

人工智能 2023年6月17日
0087
VS+openCV 处理图像的颜色（上）用策略设计模式比较颜色

用策略设计模式比较颜色【实现】 #pragma once #include<opencv2 core.hpp> #include<opencv2 highgui…

人工智能 2023年6月22日
0078
TransUnet: 结构解析

github来源原文论文最近在学习TransUnet的算法，希望能应用到降雨预测中论文中本人认为没有对此结构进行非常清晰的解释，尤其是CNN代码块部分。而源码因本人刚开始接触…

人工智能 2023年6月15日
0090
关于聚类问题的算法python代码实现-K-均值聚类方法

聚类含义定义：聚类，也叫做聚类分析，依据对象的属性，将相似的对象归位一类。聚类，就是寻找发生数据之间内在联系的方法。分类：从聚类的类型来讲，一般有结构性聚类、分散性聚类、密度聚类…

人工智能 2023年5月31日
00107
Numpy：数组（Ndarray）操作之数组的转换

文章目录数组转换 * 数组转为其他类型数组元素数据类型转换数组的副本和视图 – 概念方法数组操作的内容较多，主要以对数组的转换，数组变化形状，对数组元素进行选…

人工智能 2023年7月14日
0090
基于Arduino的智能环境监测与反馈系统

基于Arduino的智能环境监测与反馈系统一、项目背景二、效果展示三、材料清单 * 1.Arduino开发板——YwRduino uno 2.Arduino盾板——IO Se…

人工智能 2023年5月27日
00196

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31