Facebook AI推出“杂食者”：一个模型解决图像、视频和3D数据三大分类任务，性能还不输独立模型

2023年7月2日上午3:12 • 人工智能 • 阅读 92

最近，Meta AI推出了这样一个 “杂食者” （Omnivore）模型，可以对 不同视觉模态的数据进行分类， 包括图像、视频和3D数据。 喜欢记得关注、收藏、点赞。

Facebook AI推出“杂食者”：一个模型解决图像、视频和3D数据三大分类任务，性能还不输独立模型

比如面对最左边的图像，它可以从深度图、单视觉3D图和视频数据集中搜集出与之最匹配的结果。

这在之前，都要分用不同的模型来实现；现在 一个模型就搞定了。

而且Omnivore易于训练，使用现成的标准数据集，就能让其性能达到与对应单模型相当甚至更高的水平。

实验结果显示，Omnivore在图像分类数据集 ImageNet上能达到 86.0% 的精度，在用于动作识别的 Kinetics数据集上能达 84.1%，在用于单视图3D场景分类的 SUN RGB-D也获得了 67.1%。

另外，Omnivore在实现一切跨模态识别时，都无需访问模态之间的对应关系。

; 推荐文章

不同视觉模态都能通吃的”杂食者”

Omnivore基于Transformer体系结构，具备该架构特有的灵活性，并针对不同模态的分类任务进行联合训练。

模型架构如下：

Omnivore会将输入的图像、视频和单视图3D图像转换为embedding，并馈送到Transformer中。

虽然它可以使用任何vision transformer架构来处理patch embedding，但鉴于 Swin transformer在图像和视频任务上的强大性能，这里就使用该架构作为基础模型。

具体来说，Omnivore将图像转为patch，视频转为时空tube（spatio-temporal tube），单视图3D图像转为RGB patch和深度patch。

然后使用线性层将patches映射到到embedding中。其中对RGB patch使用同一线性层，对深度patch使用单独的。

总的来说，就是通过embedding 将所有视觉模式转换为通用格式，然后使用一系列时空注意力（attention）操作来构建不同视觉模式的统一表示。

研究人员在ImageNet-1K数据集、Kinetics-400数据集和SUN RGB-D数据集上联合训练出各种Omnivore模型。

这种方法类似于多任务学习和跨模态对齐，但有2点重要区别：

1、不假设输入观测值对齐（即不假设图像、视频和3D数据之间的对应关系）；

2、也不假设这些数据集共享相同的标签空间（label space）。

; 性能超SOTA

实验方面，首先将Omnivore与各视觉模态对应的 特定模型（下表中指Specific）进行比较。

一共有三种不同的模型尺寸：T、S和B。

预训练模型在七个下游任务上都进行了微调。

图像特定模型在IN1K上预训练。视频特定模型和单视图3D特定模型均使用预训练图像特定模型的inflation进行初始化，并分别在K400和SUN RGB-D上进行微调。

结果发现，Omnivore在 几乎所有的下游任务上的性能 都相当于或优于各特定模型。

其中尺寸最大的 Swin-B实现了全部任务上的SOTA。

将Omnivore与具有相同模型架构和参数数量的特定模型比较也是相同的结果。

其中Omnivore在IN1K、K400和SUN数据集上从头开始联合训练，而特定模态的模型针对每个数据集专门训练：

ImageSwin模型从零开始训练，VideoSwin和DepthSwin模型则从ImageSwin模型上进行微调。

接下来将Omnivore与图像、视频和3D数据分类任务上的 SOTA模型进行比较。

结果仍然不错，Omnivore在所有预训练任务中都表现出了优于SOTA模型的性能（下图从上至下分别为图像、视频和3D数据）。

此外，在ImageNet-1K数据集上检索给定RGB图像的深度图也发现，尽管Omnivore 没有接受过关于1K深度图的训练，但它也能够给出语义相似的正确答案。

最后，作者表示，尽管这个”杂食者”比传统的特定模式模型有了很多进步，但它有一些局限性。

比如目前它仅适用于单视图3D图像，不适用于其他3D表示，如体素图（voxels）、点云图等。

论文地址：
https://arxiv.org/abs/2201.08377

代码已开源：

https://github.com/facebookresearch/omnivore

技术交流

目前已开通了技术交流群，群友已超过 1000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、微信搜索公众号： 机器学习社区，后台回复：加群；
方式③、可以直接加微信号： mlc2060。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

Original: https://blog.csdn.net/m0_59596990/article/details/122679841
Author: 机器学习社区
Title: Facebook AI推出“杂食者”：一个模型解决图像、视频和3D数据三大分类任务，性能还不输独立模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664593/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

预训练模型–GPT

why预训练+finetune 目前在nlp领域，比较流行的一种方式就是”pretrain+finetune”为什么是这种模式呢？在nlp领域大量数据是无…

人工智能 2023年5月28日
00112
关于tensorflow 中module ‘tensorflow‘ has no attribute ‘xxx‘问题的根本解决方法。

在用tensorflow复现github上面的代码时，经常会出现tensorflow版本不对的情况，如下图所示。 FLAGS = tf.flags.FLAGS 很多博主的解决方法都…

人工智能 2023年7月5日
0072
[Transformer]Patches Are All You Need?

Patches are All you Need Abstract Section I Introduction Section II A simple Model: ConvMi…

人工智能 2023年5月30日
0080
《知识图谱——概念与技术》笔记：基础篇

文章目录 * – 1 知识图谱概述 – + 1.1 知识图谱的基本概念 + * 1.1.1 知识图谱的狭义概念 * 1.1.2 知识图谱的广义概念 + 1….

人工智能 2023年6月1日
0069
Halcon图像处理之图像增强

图像增强可以有&#…

人工智能 2023年6月22日
0086
论文概述系列-FCM及其相关改进算法

模糊C均值聚类算法 Fuzzy C-Means 模糊C均值聚类算法 * FCM的模型模型的求解 FCM的优缺点总结 * FCM的优点 FCM的缺点后续进展模糊C均值聚类算法 …

人工智能 2023年6月2日
0079
逻辑回归（Logistic Regression）

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、逻辑回归简介与用途二、逻辑回归的理论推导 1、问题描述和转化 …

人工智能 2023年6月12日
0087
Windows系统下完美配置GPU版TensorFlow2.x深度学习环境（附带每个步骤所需软件工具的链接）

1、安装TensorFlow 打开cmd输入： pip install tensorflow-gpu （默认是安装最新版，如果需要指定安装版本，例如2.5.0版本，则可以输入： p…

人工智能 2023年5月25日
0079
dataframe怎么按行求和_pandas.DataFrame对行和列求和及添加新行和列

pandas.DataFrame对行和列求和及添加新行和列导入模块： from pandas import DataFrame import pandas as pd impor…

人工智能 2023年7月7日
0046
开集识别(Open Set Recognition, OSR)算法：《Towards Open Set Deep Networks》OpenMax

写完了论文，重新梳理一下，以后不再更新。 1.相关论文源码《Towards Open Set Deep Networks》即OpenMax源码:https://github.co…

人工智能 2023年6月17日
00116
2022年Python最新面试题汇总及答案

总结了一部分，会继续更新一、基础部分 1、什么是Python？为什么它会如此流行？ Python是一种解释的、高级的、通用的编程语言。 Python的设计理念是通过使用必要的空格…

人工智能 2023年7月5日
0057
用Bert的attention对角线mask 来代替 [mask]导致loss为0问题

自己实习的时候遇到这个问题，需要对用到mlm的任务方式，一开始采用了对attention矩阵进行对角线mask的方式，但是训练出现泄漏了，loss很快到了0. 内容来源：https…

人工智能 2023年6月4日
0078
改进YOLOv5系列：2.PicoDet结构的修改

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月28日
0063
数据挖掘之C4.5决策树算法

1.决策树算法实现的三个过程：特征选择：选择哪些特征作为分类的标准是决策树算法的关键，因此需要一种衡量标准来进行特征的确定，不同的决策树衡量标准不同。例如C4.5决策树就是以信息…

人工智能 2023年6月19日
00194
自然语言理解难在哪儿？

自然语言理解任务的本质是结构预测，关键则是对语言单元的语义表示能力。 1.1 自然语言理解本质是结构预测自然语言文本是典型的无结构数据，由语言符号（如汉字）序列构成。要实现对自…

人工智能 2023年5月28日
00107
数值分析-多项式插值方法小结

数值分析-多项式插值方法小结前言插值的应用与唯一性 Lagrange插值法和逐次线性插值 * 代码实现逐次线性插值 * 代码实现逼近复杂函数 Newton插值法 * 代码实…

人工智能 2023年7月16日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Facebook AI推出“杂食者”：一个模型解决图像、视频和3D数据三大分类任务，性能还不输独立模型

; 推荐文章

不同视觉模态都能通吃的”杂食者”

; 性能超SOTA

技术交流

大家都在看