VideoMAE：南大MCG&腾讯AI Lab 提出第一个视频版MAE框架，使用90%甚至95%遮挡，性能SOTA！…

2023年5月26日下午3:24 • 人工智能 • 阅读 85

关注公众号，发现CV技术之美

本文分享论文 『VideoMAE: Masked Autoencoders are Data-Efﬁcient Learners for Self-Supervised Video Pre-Training』 ，由南大王利民团队提出第一个VideoMAE 框架，使用超高 masking ratio（90%-95%），性能SOTA，代码已开源！

详细信息如下：

VideoMAE：南大MCG&腾讯AI Lab 提出第一个视频版MAE框架，使用90%甚至95%遮挡，性能SOTA！...

论文链接：https://arxiv.org/abs/2203.12602
项目链接：https://github.com/MCG-NJU/VideoMAE

摘要

为了在相对较小的数据集上实现卓越的性能，通常需要在超大规模数据集上对视频Transformer进行预训练。在本文中，作者证明了视频掩蔽自动编码器（video masked autoencoders，VideoMAE）是自监督视频预训练（SSVP）的数据有效学习方式。

受到ImageMAE的启发，作者在本文中提出定制视频数据的掩蔽和重建。这些简单的设计对于克服视频重建过程中时间相关性造成的信息泄漏是有效的。通过实验，作者获得了 关于SSVP的三个重要发现：

极高比例的掩蔽率（即90%-95%）仍然可以产生良好的VideoMAE性能。时间上冗余的视频内容能够实现比图像更高的掩蔽率。
VideoMAE在非常小的数据集（即大约3k-4k视频）上取得了非常好的结果，而无需使用任何额外数据。这部分归因于视频重建的挑战性任务，以加强高级结构学习。
VideoMAE表明，对于SSVP，数据质量比数据量更重要。预训练数据集和目标数据集之间的域迁移是SSVP中的重要问题。

值得注意的是，在Kinects-400上，作者使用vanilla ViT主干的VideoMAE可以实现83.9%，在Something-Something V2上可以实现75.3%，在UCF101上可以实现90.8%，在HMDB51上可以实现61.1%，而无需使用任何额外数据。

Motivation

Transformer在自然语言处理方面取得了重大进展。视觉Transformer还改进了一系列计算机视觉任务，包括图像分类、目标检测、语义分割和视频识别。线性投影的图像/视频token上的多头自注意能够在空间或时间上建模视觉内容之间的全局依赖性。通过这种灵活的注意机制，可以有效地减少inductive bias。

训练有效的视觉Transformer（VIT）通常依赖于大规模的监督数据集。最初，预训练ViTs通过使用数以亿计的标注图像来实现良好的性能。对于视频Transformer，它们通常来自基于图像的Transformer，并且严重依赖于大规模图像数据的预训练模型。之前关于从头开始训练视频Transformer的试验产生了非常好的结果（具有强inductive bias的MViT除外）。

因此，学习到的视频Transformer自然会受到基于图像的模型的影响， 如何无需使用任何预训练的模型或额外的图像数据，有效地训练一个普通的视频视觉Transformer仍然是一个挑战。此外，与图像数据集相比，现有视频数据集相对较小，这进一步增加了从头开始训练视频Transformer的难度。同时，自监督学习在使用大规模图像数据集时表现出了显著的性能。当被转移到下游任务时，学习到的表示优于通过监督学习得到的表示。作者希望这种自监督学习范式可以为解决视频Transformer训练的挑战提供一个有希望的解决方案。

继NLP和图像中屏蔽自动编码（masked autoencoding）的成功之后，作者提出了一种新的自监督视频预训练（SSVP）方法，称为视频屏蔽自动编码器（Video Masked Autoencoder，VideoMAE）。本文的VideoMAE继承了屏蔽随机立方体（即时间和空间维度同时屏蔽）并重建缺失立方体的简单方案。然而，视频的额外时间维度使其不同于masked模型中的图像。

首先，视频画面捕获在时间上是非常密集的（如通常30fps)，语义随时间变化缓慢。这种时间冗余性会增加从时空邻域中恢复丢失像素的风险，而缺乏高层次的理解。此外，视频可视为静态外观的时间演化，帧之间存在对应关系。除非考虑特定的掩蔽策略，否则这种时间相关性可能导致重建过程中的信息泄漏。从这个意义上讲，对于每个掩蔽立方体，很容易在相邻帧中找到相应的未掩蔽副本。此属性将使学习的模型识别一些难以推广到新场景的”快捷”特征。为了使视频掩蔽建模更加有效，作者需要在VideoMAE设计中缓解上述问题。

具体而言，在本文中，作者在VideoMAE中提出了两种设计，以有效地执行视频中掩蔽和重建的预训练任务。首先，由于时间冗余，作者使用极高的掩蔽率从下采样片段中删除掩蔽立方体。这种简单的策略不仅有效地提高了预训练性能，而且由于采用了非对称的编解码结构，大大降低了计算成本。

其次，为了考虑时间相关性，作者设计了一种简单而有效的tube masking策略，这有助于减少重建过程中的信息泄漏风险。借助VideoMAE中的这两个核心设计，本文方法能够在相对较小的视频数据集上成功地训练vanilla ViT主干，如Something-Something、UCF101和HMDB51，在没有额外数据的情况下，其表现明显优于之前的SOTA水平。

总之，本文的 主要贡献有三个方面：

本文提出了第一个屏蔽视频建模框架，该框架在相对较小的视频数据集上对SSVP表现良好。为了解决视频数据中的时间冗余性和相关性导致的信息泄漏问题，作者提出了两种核心设计，即极高的掩蔽率和tube掩蔽，这两种设计是视频MAE成功的关键。
与NLP和掩蔽建模的结果一致，本文的VideoMAE表明，这种简单的掩蔽和重建策略为自监督的视频预训练提供了一个很好的解决方案。使用本文的VideoMAE预训练的模型显著优于那些从头开始训练或使用对比学习方法预训练的模型。
作者获得了在NLP和图像中可能被忽略的掩蔽建模的额外重要发现。（1）本文的研究结果表明，VideoMAE是一个数据效率很高的学习方案，只需3.5k视频就可以成功地进行训练。（2） VideoMAE表明，当源数据集和目标数据集之间存在域迁移时，SSVP的数据质量比数量更重要。

方法

3.1. Revisiting Masked Autoencoders

ImageMAE使用非对称编码器-解码器架构执行掩蔽和重建任务。输入图像首先划分为大小为16×16的规则非重叠patch，每个patch用token嵌入表示。然后，以高掩蔽率（75%）随机掩蔽token子集，并且仅剩下的token被馈入Transformer编码器。最后，将浅层解码器放置在编码器的可见token和可学习掩蔽token的顶部，以重建图像。损失函数是像素空间中归一化掩蔽token和token令牌之间的均方误差（MSE）损失：

其中是token索引，是掩蔽token集，是输入图像，是重建图像。

3.2. Characteristics of Video Data

Temporal redundancy

视频中经常会捕获帧。语义随时间变化缓慢。作者观察到，连续帧是高度冗余的，如上图所示。这个特性导致了掩蔽视频自动编码中的两个关键问题。首先，如果在预训练保持原始的时间帧率，那么效率就会降低。这将促使作者在掩蔽建模中更多地关注静态或慢速运动。其次，时间冗余性大大稀释了运动表示。这将使重建缺失像素的任务在正常掩蔽率（例如，50%到75%）下不存在困难。编码器主干无法有效捕获运动表示。

Temporal correlation

视频可视为静态外观的时间扩展，因此相邻帧之间存在固有的对应关系。这种时间相关性可能会增加掩蔽和重建中的信息泄漏风险。例如，如上图所示，可以通过在普通随机掩蔽或帧掩蔽下在相邻帧中找到相应的未掩蔽patch来重建掩蔽patch。在这种情况下，这可能会导致视频MAE学习低级的时间对应关系，而不是高级信息，例如对内容的时空推理。为了避免这种行为，需要提出一种新的掩蔽策略，使重建更具挑战性，并鼓励时空结构表征的有效学习。

3.3. VideoMAE

为了解决视频掩蔽建模中的上述问题，作者在VideoMAE中进行了定制设计，总体流程如上图所示。

Temporal downsampling

根据以上对连续帧时间冗余性的分析，作者提出使用跨步时间采样策略来执行更有效的视频预训练。首先从原始视频V中随机抽取一个由t个连续帧组成的视频片段。然后，作者使用时间采样将片段压缩为T帧，每个帧包含H×W×3个像素。在实验中，在Kinetics和Something-Something数据集中，步幅τ分别设置为4和2。

Cube embedding

作者在VideoMAE中采用了联合时空立方体嵌入，将每个大小为2×16×16的立方体视为一个token嵌入。因此，嵌入层获得个3D token，并将每个token映射到通道尺寸D。这种设计可以降低输入的时空维度，有助于缓解视频中的时空冗余。

Tube masking

为了缓解之前讨论的时间相关性带来的信息泄漏，作者提出了temporal tube masking机制，用于视频中的掩蔽自动编码器预训练。temporal tube masking强制mask在整个时间轴上扩展，即，不同的帧共享相同的masking map。从数学上讲，tube masking机制可以表示为和不同的时间t共享相同的值。利用这种机制，掩蔽立方体的时间邻域总是被mask的。这将鼓励本文的VideoMAE通过高级语义进行推理，以恢复这些完全缺失的时空立方体。这种简单的策略可以缓解屏蔽视频建模中的信息泄漏问题。

Extremely high masking ratio

时间冗余性是影响视频设计的关键因素。作者发现，与ImageMAE相比，VideoMAE有利于极高的掩蔽比率 (例如90% 至95%)。视频信息密度比图像低得多，作者猜想高比率会增加重建难度。

Backbone: joint space-time attention

由于上面提到的高掩蔽率比例，只剩下少数token作为编码器的输入。为了更好地捕获剩余token中的高级时空信息，作者使用vanilla ViT主干，并采用联合时空注意。因此，所对token都可以在多头自注意层中相互交互。编码器和解码器的具体架构设计如上表所示。联合时空注意机制的二次复杂性是一个计算瓶颈，而作者设计的极高掩蔽率通过仅将未掩蔽的token（例如10%）放入编码器来缓解此问题。

实验

轻量级解码器是VideoMAE中的一个关键组件。作者在上表中进行了不同深度的实验。

作者将不同的掩蔽策略与75%的tube掩蔽进行了比较。如上表所示，普通随机掩蔽和帧掩蔽实现的性能低于tube掩蔽。当掩蔽率增加到90%时，性能从67.3%提高到69.3%。作者认为，这些设计通过强制网络学习有用的特征，使VideoMAE成为一项具有挑战性的任务。

从上表中，可以发现：首先，如果只使用视频片段中的中心帧作为目标，结果会大大降低。连续16帧的结果明显低于本文的下采样clip（53.2%vs.69.3%）。作者还尝试从下采样的16帧重建连续的32帧，但结果稍差。

作者在上表中比较了不同的预训练策略。与之前的试验类似，从头开始训练视频transformer会在这个运动敏感数据集上产生不太好的结果。

在大规模图像数据集（ImageNet-21K）上进行预训练后，视频transformer的准确率从32.6%提高到61.4%。使用在ImageNet-21K和Kinetics上预训练的模型，可进一步将精确度提高到64.8%。本文的VideoMAE可以在不使用任何额外数据的情况下从视频本身有效地训练视频transformer，并实现最佳性能69.3%。

作者在三个数据集上进行了预训练，并在SS V2数据集上进行微调和测试，结果如上表所示。

上表包含损失函数的消融研究。作者发现，与L1损失和smooth L1损失相比，MSE损失可以获得更高的结果。因此，作者默认使用MSE损失。

作者在不同数据集上用流行的自监督预训练方法进行测试，结果如上表所示，可以看出本文提出的VideoMAE有明显的性能优势。

作者在上表中比较了VideoMAE预训练和MoCo v3预训练的效率。高比率的屏蔽自动编码任务更具挑战性，因此需要更多的训练时间（800 vs.300）。由于VideoMAE中的非对称编码器-解码器和极高的掩蔽率，本文方法的预训练时间比MoCo v3要短得多（19.5小时vs.61.7小时）。

上图展示了重建的示例可视化。作者发现，即使在高掩蔽率下，VideoMAE也可以产生令人满意的重建结果。这意味着本文的VideoMAE能够学习有用的表示，以捕获视频中的整体时空结构。

在VideoMAE中，一个核心设计是极高的掩蔽率。作者在Kinetics-400和SomethingSomething V2数据集上对此设计进行了调查。结果如上图所示。

为了进一步研究VideoMAE在表征学习中的泛化能力，作者将学习到的VideoMAE从Kinetics-400转换为Something V2、UCF101和HMDB51。结果如上表所示，作者将其与MoCo v3预训练方法进行了比较。本文的VideoMAE预训练的模型比MoCo v3预训练的模型要好，这表明VideoMAE学习了更多的可迁移表示。

上表展示了在Something-Something V2和Kinetics-400数据集上，本文方法和SOTA方法的对比结果。

总结

在本文中，作者提出了一种简单且数据高效的视频Transformer预训练自监督学习方法（VideoMAE）。本文的VideoMAE引入了两种关键的设计，即极高的掩蔽率和tube掩蔽策略，以使视频重建任务更具挑战性。更有挑战性的预训练任务将鼓励VideoMAE学习更多有用的特征，并缓解信息泄漏问题。实验结果表明，这种简单的算法适用于不同大小数量的视频数据集。只能通过数千个视频片段来学习有效的VideoMAE，这对于可用数据有限的场景具有重要的实用价值。

参考资料

[1]https://arxiv.org/abs/2203.12602

[2]https://github.com/MCG-NJU/VideoMAE

END

欢迎加入「视频」交流群👇备注：Vid

Original: https://blog.csdn.net/moxibingdao/article/details/125025960
Author: 我爱计算机视觉
Title: VideoMAE：南大MCG&腾讯AI Lab 提出第一个视频版MAE框架，使用90%甚至95%遮挡，性能SOTA！…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/520194/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

语言学句法分析树形图怎么画_科学网—《泥沙龙笔记：漫谈自动句法分析和树形图表达》 – 李维的博文…

我: 关键是，一个 real life robust parser 可能不能把所有句子 parse 对，但是每个完整句法树中间可以分解为n个binary的依存关系，然后可以数一数这…

人工智能 2023年6月1日
0081
最新资讯｜2022年8月29日，IECEE发布电池认证CTL协议DSH1037A！

2022年8月29日，IECEE发布电池认证CTL协议DSH 1037A，涉及标准IEC 62133:2002 ，IEC 62133:2012，IEC 62133-1:2017，I…

人工智能 2023年6月4日
0083
力扣：复原 IP 地址java

力扣：复原 IP 地址java ; 流程：设置一个list的结果集result回溯三部曲：返回值和参数：返回值为空，参数为字符串s、开始下标startindex和已经打点数量po…

人工智能 2023年6月29日
0076
医学健康数据分析与挖掘（一）—— R语言实战

1 实验简介 R简介及线性回归实验熟悉 R 语言基本语法利用 R 语言完成线性回归 2 实验内容 2.1 混合同余法利用如下递推公式：x n = ( a x n − 1 + …

人工智能 2023年7月16日
0065
计算机视觉项目-人脸识别与检测

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学…

人工智能 2023年6月26日
0093
头歌平台-人工智能技术应用-实践学习与答案2（补充实训部分）

第1关 LDA算法 import jieba import jieba.analyse as analyse import gensim from gensim import co…

人工智能 2023年6月25日
00122
python之parser.add_argument()输入是什么！！

parser.add_argument()输入是什么找到了一个代码想使用一下，发现有几行这样的语句 parser = argparse.ArgumentParser(descri…

人工智能 2023年5月26日
0090
SVM ValueError: y should be a 1d array, got an array of shape (1, 250) instead. Found input variable

阅读前请看一下：我是一个热衷于记录的人，每次写博客会反复研读，尽量不断提升博客质量。文章设置为仅粉丝可见，是因为写博客确实花了不少精力。希望互相进步谢谢！！文章目录阅读前请看一…

人工智能 2023年7月31日
00103
ewiews面板回归模型操作_Eviews虚拟变量的操作（一）：定义与截距变动模型回归…

虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更…

人工智能 2023年6月18日
0090
【JVM】内存结构

一、程序计数器 ; 1.1 定义 Program Counter Register 程序计数器（寄存器）：物理上是通过寄存器实现的。寄存器是CPU组件中读取数据最快的一个单元，又因…

人工智能 2023年6月29日
0083
Pytorch中的grid_sample算子功能解析

pytorch中的grid_sample是一种特殊的采样算法。调用接口为： torch.nn.functional.grid_sample(input,grid,mode=&#8…

人工智能 2023年6月23日
0067
【一周入门MySQL—5】

数据库实例应用【电商数据处理案例】目标需求：将某电商脱敏后数据导入数据库进行加工处理，使用加工好的数据分析业务问题数据获取客户相关：UserInfo.csv:用户主表、Reg…

人工智能 2023年6月11日
0088
【win10 +visual studio +opencv4.5.5】安装opencv和环境配置

一、opencv下载与安装 opencv镜像下载源头博客 1、下载opencv4.5.5 ; 2、解压文件二、添加系统环境变量依次选择计算机—>属性—>高级系统设置…

人工智能 2023年7月19日
0067
Mask RCNN批量输出分割图片( 附 test.py)

Mask RCNN复现及批量输出分割图片 1 Mask RCNN复现 2 Mask RCNN批量输出分割图片 * 2.1 路径修改 – 2.1.1 COCO_MODEL…

人工智能 2023年7月10日
0085
【机器学习之高斯混合模型(Gaussian Mixed Model，GMM) 】

文章目录前言一、高斯混合模型(Gaussian Mixed Model，GMM) 是什么？二、详解GMM * 1.初步原理 2.EM算法 3.深读原理 3.GMM（高斯混合模…

人工智能 2023年6月25日
0086
arcface的前世今生

arcface调研 1.简介 * 1.1发表 1.2优点 1.3性能 2.arcface的前世今生 * 2.1 softmax 2.2center loss 2.2 L-softm…

人工智能 2023年7月29日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31