SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
; 论文地址:
https://arxiv.org/abs/2108.10904
主要工作:
随着视觉和文本表示联合建模的最新进展,视觉-语言预训练(VLP)在许多多模态下游任务上取得了令人印象深刻的性能。然而,对昂贵的注释的要求,包括干净的图像标题和区域标签,限制了现有方法的可伸缩性,并随着引入多个特定于数据集的目标,使预训练过程变得复杂。在这项工作中,作者放松了这些约束,并提出了一个极简的预训练框架,名为简单视觉语言模型(SimVLM)。
SimVLM通过利用大规模的弱监督,降低了训练的复杂性,并使用单一的前缀语言建模(PrefixLM)目标进行端到端训练。在没有使用额外的
Original: https://blog.csdn.net/weixin_44936889/article/details/120789833
Author: BIT可达鸭
Title: SIMVLM:简单视觉语言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548021/
转载文章受原作者版权保护。转载请注明原作者出处!