2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理

2023年5月28日上午6:49 • 人工智能 • 阅读 98

1.1 MAE

模型简介：

Masked Autoencoders Are Scalable Vision Learners

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计：我们设计了一种非对称编解码架构，其中编码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度。

1.2 iBOT

模型简介：

iBOT: Image BERT Pre-Training with Online Tokenizer,字节跳动、约翰霍普金斯大学等机构组成的联合团队提出iBOT十几类任务和数据集上刷新了 SOTA 结果，在一些指标上甚至超过了 MAE。

1.3 RELICv2

模型简介：

RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率，而更大的ResNet模型则带来了80.6%的top-1准确率，以较大的优势超越了此前的自监督方法;RELICv2优于DINO和MoCo v3，并在参数数量相当的情况下表现出与EsViT类似的性能，尽管这些方法用了更强大的架构和更多的训练。

1.4 data2vec

模型简介：

data2vec 是首个适用于多个模态输入的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本，在计算机视觉、语音任务上优于最佳单一用途算法，并且在 NLP 任务也能取得具有竞争力的结果。此外，data2vec 还代表了一种新的、全面的自监督学习范式，其提高了多种模态的进步，而不仅仅是一种模态

论文链接： https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

2.1 ConvNext

模型简介：

当应用于广义CV任务(如目标检测、语义分割)时，常规的ViT面临着极大挑战。因此，分层Transformer(如Swin Transformer)重新引入了ConvNet先验信息，使得Transformer成实际可行的骨干网络并在不同视觉任务上取得了非凡的性能。完全标准ConvNet模块构建的ConvNeXt取得了优于Transformer的精度87.8%，在COCO检测与ADE20K分割任务上超越了SwinTransformer，同时保持了ConvNet的简单性与高效性。

2.2 UniFormer

模型简介：

基于UniFormer模块，我们构建了一种新强力骨干并用于不同的视觉任务，包含图像与视频，分类与稠密预测。无需额外你训练数据，UniFormer在ImageNet数据及上取得了86.3%的精度；仅需ImageNet-1K预训练，它在诸多下游任务上取得了SOTA性能，比如Kinetics-400/600数据集上的82.9%/84.8%、Something-Something V1/V2数据集上的60.9%/71.2%、COCO检测任务上的53.8boxAP与46.4MaskAP、ADE20K分割任务上的50.8mIoU、COCO姿态估计上的77.4AP

3.1 NÜWA

模型简介：

微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NÜWA（女娲），直接包揽8项SOTA

3.2 Florence

模型简介：

微软正式发布了一个新的计算机视觉基础模型Florence（佛罗伦萨），要用一个模型一统多模态天下！Florence可以轻松适用于各种计算机视觉任务，如分类、目标检测、VQA、看图说话、视频检索和动作识别，并在超过40个基准中刷新了SOTA。

源码链接

3.3 Omnivore

模型简介：

Omnivore在图像分类数据集ImageNet上能达到86.0%的精度，在用于动作识别的Kinetics数据集上能达84.1%，在用于单视图3D场景分类的SUN RGB-D也获得了67.1%。Omnivore在图像、视频和3D数据分类任务上超越当前SOTA模型

4.1 AutoML

模型简介：

东北大学王言治团队将网络结构搜索与剪枝搜索相结合了全新的自动搜索框架。该AutoML框架得到的稀疏模型能够在移动设备上实时且高质量地处理视频超分辨率任务，最高可以将超清视频渲染加速70倍。

5.1 Dynamic Head

模型简介：

本文提出一种新颖的动态头框架，它采用注意力机制将不同目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知，空间位置之间的注意力机制用于空间感知，输出通道内的注意力机制用于任务感知，该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

6.1 HaloNet

模型简介：

来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型，该模型不仅可以超越标准的基线模型，而且可以超越高性能的卷积模型。提出了自注意力的两个扩展，并与自注意力的更高效实现相结合，提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet，并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。

7.1 ERNIE 3.0

模型简介：

百度 ERNIE 升级到 3.0，重磅发布知识增强的百亿参数大模型。该模型除了从海量文本数据中学习词汇、结构、语义等知识外，还从大规模知识图谱中学习。

ERNIE 3.0 一举刷新 54 个中文 NLP 任务基准，其英文模型在国际权威的复杂语言理解任务评测 SuperGLUE 上，以超越人类水平 0.8 个百分点的成绩登顶全球榜首。ERNIE 3.0 同时具备超强语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力。

7.2 MT-NLG

模型简介：

微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

8.1 SDCUP

模型简介：

研究者所在的达摩院 Conversational AI 团队发布了中文首个表格预训练模型 SDCUP，同时也是业界最大表格预训练模型（72 层 Transformer，10 亿参数），在 WikiSQL、SQuALL 等多个学界 Benchmark 均取得 SOTA 效果。

9.1 ViT 综述

模型简介：

中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务（分类、检测和分割）的一百多种不同的视觉 Transformer，最新模型截止至今年8月！同时，综述还包括了大量的实证分析、性能改进分析，并披露了三个具有广阔前景的未来研究方向！

Original: https://blog.csdn.net/pxiongw/article/details/122748518
Author: 沧海明月
Title: 2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530287/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

yolox目标检测实现人脸识别换搞笑图

今天介绍的是一个使用yolox目标检测算法，实现换人脸的过程。首先是换人脸视频的准备，我们可以找一些比较的热门视频作为素材，比如”华强买瓜”。使用视频抽…

人工智能 2023年7月11日
0068
利用基于注意力的神经网络绘制化学反应空间图谱

《Mapping the Space of Chemical Reactions Using Attention-Based Neural Networks》利用基于注意力的神经…

人工智能 2023年7月14日
0077
记录使用Anaconda、Pycharm配置Yolov5环境全过程

1.安装Anaconda 首先到Anaconda官网https://www.anaconda.com/distribution下载安装包下载完成后打开安装包建议安装在c盘以外其它盘…

人工智能 2023年6月19日
0047
模型性能度量

这里的内容主要包括：性能度量、比较检验和偏差与方差。在上一个notebook中，我们解决了评估学习器泛化性能的方法，即用测试集的”测试误差”作为&#8221…

人工智能 2023年7月2日
0086
Linux 学习笔记 day01———Linux基础

目录 1. 用户类型 2. 终端 terminal * 2.1 终端类型 2.2 查看当前的终端设备 3. 交互式接口 * 3.1 交互式接口类型 3.2 什么是shell 3.3…

人工智能 2023年6月29日
0085
python绘图技巧（高清图）

一、绘制普通的多线图。除了常规的样式坐标名字以及调节大小等，还有一些解决的特殊的，但是需要的问题。 1、注意我们经常保存的画会留白很大，解决了这个问题 2、中文乱码 3、图像模…

人工智能 2023年7月3日
0098
今天教你快速查到英语原版书蓝思指数

先介绍一下蓝思指数（Lexile）蓝思分级阅读测评体系可以匹配读者的阅读能力和读物的难度等级，从而辅助教师、家长为孩子选择适合的读物。蓝思阅读测评体系是美国Metametircs…

人工智能 2023年6月1日
00243
无权无向和加权网络的聚类系数

一、无权无向网络情形 1、聚类系数定义我们可以用聚类系数刻画某个节点相邻的两个节点彼此也相邻的概率。网络中一个度为k i _i i 的节点i的聚类系数C i _i i 定义为…

人工智能 2023年5月31日
0079
使用redis-shake工具迁移云Redis数据（二十一）

文章目录 * – 1.在ECS服务器中部署相同版本的Redis – 2.安装redis-shake工具 – 3.redis-shake配置文件 …

人工智能 2023年7月29日
0060
如何处理AI算法中的异常值

如何处理AI算法中的异常值问题在机器学习和数据分析中，异常值是指与大多数样本不符合的极端数值。当我们训练和使用AI算法时，存在异常值会对算法的性能和准确性产生负面影响。因此，处理…

人工智能 2024年1月1日
0050
5000张高清壁纸大图（手机用），用Python在法律的边缘又试探了一把

[removed][removed] [removed] $(function () { $(“#search”).click(function () { …

人工智能 2023年7月5日
0088
python虚拟环境的建立和使用

为什么要建立虚拟环境？之前我也一直搞不清楚这个问题，直到有一次我安装TensorFlow，然后安装opencv-python，还安装了Pytorch等一系列库，最后共同依赖的其他…

人工智能 2023年5月24日
0066
Anaconda安装与配置Python环境

因为需要配置airsim环境，本来决定在命令行直接安装python的，但是有个包的下载始终有问题，想把python的版本换了试试，但cmd操作太麻烦，于是萌生了使用Anaconda…

人工智能 2023年7月4日
0070
RabbitMQ系列【1】概述

有道无术，术尚可求，有术无道，止于术。文章目录 * – 什么是MQ？ – 核心功能 – + 1、流量削峰填谷 + 2、应用解耦 + 3、异步处…

人工智能 2023年6月26日
0059
三分钟解决Matlab中文乱码问题

前言：简单介绍Matlab中文乱码处理方式。 ; 乱码原因比如：教研室电脑上的是Matlab 2022a，个人笔记本上的是Matlab 2018b，用个人笔记本电脑打开教研室上电…

人工智能 2023年6月17日
0095
Gtk调整widget部件大小size

原型 gtkmm void set_size_request(int width = -1, int height = -1); gtk voidgtk_widget_set_si…

人工智能 2023年6月4日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2021 CV NLP CTR 多模态深度学习 超越SOTA新模型整理

1.1 MAE

1.2 iBOT

1.3 RELICv2

1.4 data2vec

2.1 ConvNext

2.2 UniFormer

3.1 NÜWA

3.2 Florence

3.3 Omnivore

4.1 AutoML

5.1 Dynamic Head

6.1 HaloNet

7.1 ERNIE 3.0

7.2 MT-NLG

8.1 SDCUP

9.1 ViT 综述

大家都在看

2021 CV NLP CTR 多模态深度学习超越SOTA新模型整理