SIMVLM:简单视觉语言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

; 论文地址:

https://arxiv.org/abs/2108.10904

主要工作:

随着视觉和文本表示联合建模的最新进展,视觉-语言预训练(VLP)在许多多模态下游任务上取得了令人印象深刻的性能。然而,对昂贵的注释的要求,包括干净的图像标题和区域标签,限制了现有方法的可伸缩性,并随着引入多个特定于数据集的目标,使预训练过程变得复杂。在这项工作中,作者放松了这些约束,并提出了一个极简的预训练框架,名为简单视觉语言模型(SimVLM)。

SimVLM通过利用大规模的弱监督,降低了训练的复杂性,并使用单一的前缀语言建模(PrefixLM)目标进行端到端训练。在没有使用额外的

Original: https://blog.csdn.net/weixin_44936889/article/details/120789833
Author: BIT可达鸭
Title: SIMVLM:简单视觉语言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548021/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球