ConceptBert: Concept-Aware Representation for Visual Question Answering (2020)

视觉问答(VQA)是一项耗时很长的任务,越来越受到 计算机视觉自然语言处理领域的关注。目前VQA的研究主要集中在可以通过 直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert,用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题,ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph,KG)来推断正确的答案。我们介绍了一种多模态表示,它学习了一种 联合概念-视觉-语言嵌入。我们使用 ConceptNet KG对常识知识进行编码,并在外部知识–VQA(OK-VQA)和VQA数据集上对我们的方法进行了评估。

Introduction

视觉问答(VQA)最早被引入 视觉和语言联合空间,以弥补自然语言处理和图像理解应用之间的 差距(马林诺夫斯基和弗里茨,2014)。大多数VQA基准使用 单词嵌入技术和递归神经网络(RNNs)以及一组包括 边界框坐标和图像特征向量的对象描述符来计算问题表示。单词和图像表示然后被融合并被馈送到网络以训练VQA模型。然而, 当不需要视觉内容以外的知识时,这些方法是实用的

融入外部知识有几个好处。 外部知识支持事实可以 改善图像中检测到的对象之间的关系表示,或者 问题中的实体和图像中的对象之间的关系表示。它还 提供了如何从问题中得出答案的信息。因此,可以在支持知识库的基础上增加问题的复杂性。组织世界上的事实并将其存储在结构化的数据库中,即大规模知识库,已经成为表示外部知识的重要资源。典型的知识库由一组主谓宾三元组组成,也称为事实。这种形式的知识库通常被称为知识图(KG) (Bollacker等),因为它有图形化的表示。实体是节点,关系是链接节点的有向边。三元组指定两个实体通过特定的关系连接,例如(莎士比亚,作家,哈姆雷特)。

利用KGs的VQA系统是一个新兴的研究课题,目前还没有得到很好的研究。最近的研究已经开始将基于知识的方法集成到模型中(王等人,2017,2016;Narasimhan等人,2018年;Narasimhan和Schwing,2018年;朱等,2015;Marino等人,2019年)。这些方法通过 两种方法结合了外部知识:I)它们为VQA数据集中提供的 每个问题探索一组相关事实(Narasimhan等人,2018;Narasimhan和Schwing,2018),或者ii)他们为每个问题-图像对收集可能的 搜索查询,并使用 搜索API来检索答案(Wang等人,2017,2016;朱等,2015;Marino等人,2019年)。然而,我们更进一步,实现了 完全可训练的端到端VQA模型。我们的模型 不需要VQA数据集中的知识标注或搜索查询

最近的大部分工作仍然 基于上下文无关的单词嵌入的思想,而不是预先训练的语言表示(LR)模型。虽然预先训练的LR模型如BERT (Devlin等,2018)是一个新兴的方向,但 在VQA任务中很少研究它与KG和图像表示的融合。刘等人提出了一种基于知识的语言表示方法,并 使用BERT作为标记嵌入方法。然而,这个模型也是一个基于查询的方法。它 收集问题中涉及的实体名称,并从 KG中查询它们对应的三元组。然后,它将查询的实体注入到问题中。在这篇文章中,我们介绍了一个模型,该模型从 视觉、语言和KG嵌入中联合学习,并 捕获图像-问题-知识特定的交互。我们方法的管道如图1所示。我们计算一组对象、问题和KG嵌入。嵌入的输入然后通过两个主要模块传递:

I) 视觉语言表示,和ii) 概念语言表示。视觉语言表示模块共同增强了图像和问题嵌入,每一个都改进了与另一个的文本表示。概念语言表示在问题嵌入中使用KG嵌入来 合并相关的外部信息。然后,这两个模块的输出被聚合以表示概念-视觉-语言嵌入,然后被馈送到分类器以预测答案。

ConceptBert: Concept-Aware Representation for Visual Question Answering (2020)

我们的模型与以前的方法不同,因为我们 使用了预先训练的图像和语言特征,并将它们与KG嵌入融合在一起,从而。将外部知识纳入VQA任务。因此,我们的模型不需要额外的知识标注或搜索查询,降低了计算成本。此外,我们的工作代表了一条完全可训练的端到端管道。

综上所述,我们工作的主要贡献是:
1.将 常识知识融入VQA模型的新方法(图1)。
2.在VQA模型中使用知识边图嵌入的概念感知表示(图2-b)。
3.新的多模态概念-视觉语言嵌入(第3.4节)

Conclusions

在本文中,我们提出了 ConceptBert,这是一个概念感知的端到端管道,用于从外部结构化内容中请求知识的 问题。我们提出了一种新的问题表示方法,利用变压器块和知识图嵌入来 增强外部知识。然后,我们聚合视觉、语言和概念嵌入来学习概念-视觉-语言的联合嵌入。实验结果表明,该模型在VQA 2.0和OK-VQA数据集上的性能良好。
在以后的工作中,我们将研究 如何集成实体和对象之间的显式关系。我们认为,利用知识图中提供的关系,并将它们与问题/图像中发现的对象之间的关系相结合,可以提高预测效果。

总结:

提出的问题

目前VQA方法主要集中在分析问题和图像上,而目前存在的两种方法是

1)使用知识标注的探索一组外部相关事实

2) 使用API检索的方式。

而大部分的嵌入工作都是 基于上下文无关的嵌入,通过检索与问题实体相关的三元组,然后将查询实体注入问题。

解决方案:

利用 BERT模型,提出 视觉、语言和KG嵌入中联合学习,并 捕获图像-问题-知识特定的交互。

参考了VilBERT的多模态预训练方式,引入了KG的联合嵌入

讨论:

通过预训练思想的方式,在BERT上联合嵌入图片和文本以及KG相关的知识,起到了一个信息补充和对齐,注意力机制等功能实现。

这种联合嵌入引入的外部知识,也没有细粒度的对KG进行处理,计算量较大,且可能引入 噪声。

Original: https://blog.csdn.net/wangxiaoxiaodeer/article/details/122144154
Author: kevinwang8090
Title: ConceptBert: Concept-Aware Representation for Visual Question Answering (2020)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531209/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球