ConceptBert: Concept-Aware Representation for Visual Question Answering （2020）

2023年5月28日上午11:28 • 大数据 • 阅读 64

视觉问答(VQA)是一项耗时很长的任务，越来越受到 计算机视觉和 自然语言处理领域的关注。目前VQA的研究主要集中在可以通过 直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert，用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题，ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph，KG)来推断正确的答案。我们介绍了一种多模态表示，它学习了一种 联合概念-视觉-语言嵌入。我们使用 ConceptNet KG对常识知识进行编码，并在外部知识–VQA(OK-VQA)和VQA数据集上对我们的方法进行了评估。

Introduction

视觉问答(VQA)最早被引入 视觉和语言联合空间，以弥补自然语言处理和图像理解应用之间的差距(马林诺夫斯基和弗里茨，2014)。大多数VQA基准使用 单词嵌入技术和递归神经网络(RNNs)以及一组包括 边界框坐标和图像特征向量的对象描述符来计算问题表示。单词和图像表示然后被融合并被馈送到网络以训练VQA模型。然而， 当不需要视觉内容以外的知识时，这些方法是实用的。

融入外部知识有几个好处。 外部知识和 支持事实可以 改善图像中检测到的对象之间的关系表示，或者 问题中的实体和图像中的对象之间的关系表示。它还 提供了如何从问题中得出答案的信息。因此，可以在支持知识库的基础上增加问题的复杂性。组织世界上的事实并将其存储在结构化的数据库中，即大规模知识库，已经成为表示外部知识的重要资源。典型的知识库由一组主谓宾三元组组成，也称为事实。这种形式的知识库通常被称为知识图(KG) (Bollacker等)，因为它有图形化的表示。实体是节点，关系是链接节点的有向边。三元组指定两个实体通过特定的关系连接，例如(莎士比亚，作家，哈姆雷特)。

利用KGs的VQA系统是一个新兴的研究课题，目前还没有得到很好的研究。最近的研究已经开始将基于知识的方法集成到模型中(王等人，2017，2016；Narasimhan等人，2018年；Narasimhan和Schwing，2018年；朱等，2015；Marino等人，2019年)。这些方法通过 两种方法结合了外部知识:I)它们为VQA数据集中提供的 每个问题探索一组相关事实(Narasimhan等人，2018；Narasimhan和Schwing，2018)，或者ii)他们为每个问题-图像对收集可能的 搜索查询，并使用 搜索API来检索答案(Wang等人，2017，2016；朱等，2015；Marino等人，2019年)。然而，我们更进一步，实现了 完全可训练的端到端VQA模型。我们的模型 不需要VQA数据集中的知识标注或搜索查询。

最近的大部分工作仍然 基于上下文无关的单词嵌入的思想，而不是预先训练的语言表示(LR)模型。虽然预先训练的LR模型如BERT (Devlin等，2018)是一个新兴的方向，但 在VQA任务中很少研究它与KG和图像表示的融合。刘等人提出了一种基于知识的语言表示方法，并 使用BERT作为标记嵌入方法。然而，这个模型也是一个基于查询的方法。它 收集问题中涉及的实体名称，并从 KG中查询它们对应的三元组。然后，它将查询的实体注入到问题中。在这篇文章中，我们介绍了一个模型，该模型从 视觉、语言和KG嵌入中联合学习，并 捕获图像-问题-知识特定的交互。我们方法的管道如图1所示。我们计算一组对象、问题和KG嵌入。嵌入的输入然后通过两个主要模块传递:

I) 视觉语言表示，和ii) 概念语言表示。视觉语言表示模块共同增强了图像和问题嵌入，每一个都改进了与另一个的文本表示。概念语言表示在问题嵌入中使用KG嵌入来 合并相关的外部信息。然后，这两个模块的输出被聚合以表示概念-视觉-语言嵌入，然后被馈送到分类器以预测答案。

ConceptBert: Concept-Aware Representation for Visual Question Answering （2020）

我们的模型与以前的方法不同，因为我们 使用了预先训练的图像和语言特征，并将它们与KG嵌入融合在一起，从而。将外部知识纳入VQA任务。因此，我们的模型不需要额外的知识标注或搜索查询，降低了计算成本。此外，我们的工作代表了一条完全可训练的端到端管道。

综上所述，我们工作的主要贡献是：
1.将 常识知识融入VQA模型的新方法(图1)。
2.在VQA模型中使用知识边图嵌入的概念感知表示(图2-b)。
3.新的多模态概念-视觉语言嵌入(第3.4节）

Conclusions

在本文中，我们提出了 ConceptBert，这是一个概念感知的端到端管道，用于从外部结构化内容中请求知识的问题。我们提出了一种新的问题表示方法，利用变压器块和知识图嵌入来 增强外部知识。然后，我们聚合视觉、语言和概念嵌入来学习概念-视觉-语言的联合嵌入。实验结果表明，该模型在VQA 2.0和OK-VQA数据集上的性能良好。
在以后的工作中，我们将研究 如何集成实体和对象之间的显式关系。我们认为，利用知识图中提供的关系，并将它们与问题/图像中发现的对象之间的关系相结合，可以提高预测效果。

总结：

提出的问题：

目前VQA方法主要集中在分析问题和图像上，而目前存在的两种方法是

1）使用知识标注的探索一组外部相关事实

2）使用API检索的方式。

而大部分的嵌入工作都是 基于上下文无关的嵌入，通过检索与问题实体相关的三元组，然后将查询实体注入问题。

解决方案：

利用 BERT模型，提出 视觉、语言和KG嵌入中联合学习，并 捕获图像-问题-知识特定的交互。

参考了VilBERT的多模态预训练方式，引入了KG的联合嵌入

讨论:

通过预训练思想的方式，在BERT上联合嵌入图片和文本以及KG相关的知识，起到了一个信息补充和对齐，注意力机制等功能实现。

这种联合嵌入引入的外部知识，也没有细粒度的对KG进行处理，计算量较大，且可能引入 噪声。

Original: https://blog.csdn.net/wangxiaoxiaodeer/article/details/122144154
Author: kevinwang8090
Title: ConceptBert: Concept-Aware Representation for Visual Question Answering （2020）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531209/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

docker配置阿里云镜像

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

大数据 2023年5月28日
0058
Hive查看表大小(所占的磁盘空间大小)

查看该hive表的总容量大小单位为G [root@hadoop225 ~]$ hadoop fs -du /user/hive/warehouse/src.db/user/use…

大数据 2023年11月12日
0055
vue父子组件通信以及非父子组件通信的方法

组件是 vue.js最强大的功能之一，而组件实例的作用域是相互独立的，这就意味着不同组件之间的数据无法相互引用。一般来说，组件可以有以下几种关系，父子关系、兄弟关系和隔代关系，简化…

大数据 2023年5月26日
0068
OpenStack部署

镜像下载、域名解析、时间同步请点击阿里云开源镜像站环境需求环境配置 ①配置静态地址、主机名 vi /etc/sysconfig/network-scripts/ifcfg-et…

大数据 2023年5月27日
0096
Tapdata 与麒麟软件完成兼容性互认证，国产化生态布局再跃步

近日， Tapdata 实时数据平台（Tapdata Live Data Platform, Tapdata LDP）与麒麟软件完成产品兼容互认证。经深圳钛铂数据有限公司和麒麟软件…

大数据 2023年6月3日
0079
WPS 文字排版标题回车后标题号自动增加

飞思卡来互联网提供全球性的看了看风格的呵呵合格否d合格否的 secure embedded嵌入式解个国家和地区,注册了成千上万项专利,产品面向物联网,汽车电子,消费电子,…

大数据 2023年5月28日
0070
Spark调优、DataFrame API使用、大表Join、动态分区

Spark DataFrame [scala版] 实践小结 Spark DataFrame 使用注意事项下面介绍的是使用Dataframe时 api 文档中没有写，但是需要注意的…

大数据 2023年11月13日
0043
PyTorch入门到实战自然语言处理及计算机视觉01为什么选择Pytorch

项目主要包含如下功能：使用唐诗数据集训练模型。使用训练好的模型，随机生成一首古体诗。使用训练好的模型，续写一首古体诗。使用训练好的模型，随机生成一首藏头诗。先对项目做个简…

大数据 2023年5月28日
00100
【Python】SQLite3获取新插入的记录ID及ROWID探究

sqlite是一个非常好用的轻量级数据库，并且python自带操作sqlite的函数库，开箱即用，对新手特别友好。 1. 傻瓜式调用在Python官方API中，sqlite3.C…

大数据 2023年11月11日
0035
mysql 基础

mysql基础 mysql基础 mysql安装虚拟格式化 mysql工具使用数据库操作表操作用户操作查看命令SHOW 获取帮助 MySQL 数据类型 mysql安装第一…

大数据 2023年5月27日
0085
浅入Android

dcloud_uniplugins 注册 { "type": "module", "name": "PDUti…

大数据 2023年11月10日
0049
【大数据基础实践】(六)数据仓库Hive的基本操作

目录 * – 1. 数据仓库概念 – 2. Hive简介 – + 2.1 简介 + 2.2 特性 + 2.3 生态系统 – 3. H…

大数据 2023年11月12日
0056
windows 重启redis的方法

大数据 2023年11月14日
0068
从行业角度看，数仓领域的未来是什么？

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0081
【Node.js实战】一文带你开发博客项目之登录（对接完毕，cookie、session、redis各司其职）

大数据 2023年11月14日
0045
Hive语法及其进阶(二)

1、使用JDBC连接Hive 1 import java.sql.Connection; 2 import java.sql.DriverManager; 3 import jav…

大数据 2023年5月26日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ConceptBert: Concept-Aware Representation for Visual Question Answering （2020）

大家都在看