论文浅尝 – EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生

研究方向 | 知识图谱/图神经网络/多模态

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf

代码:https://github.com/ZiaMaryam/ConceptBERT

发表会议:EMNLP 2020

任务核心ideas

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

模型概览

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

流程如下:

  • 得到对应模态的嵌入表示
  • 通过两个并行模态融合模块
    *
  • 视觉-语言(输出2个向量)
  • 知识-语言(输出1个向量)
  • 聚合三种向量
    *
  • 带有语言信息的视觉向量
  • 带有视觉信息的语言向量
  • 带有外部知识的语言向量
  • 分类器进行答案分类

背景知识

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

借鉴AAAI2020的一篇文章(Commonsense knowledge base completion with structural and semantic context)中所提到的ConceptNet embedding 作为I2020 常识概念图中的实体表示

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

借鉴NIPS2019中一篇文章中的多模态交叉attention方法,交叉视觉和语言两条stream分别使用了自己的query和来自另一边的key和value向量,进行信息融合

模型方法

输入模块:

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

编码模块:

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

包括:

1:图片与bert的联合编码

2:bert与Kgembedding的联合编码

3:3个编码方式的聚合

实验

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

作者在OK-VQA数据集上达到了sota,但是在VQA标准数据集VQA2.0上并没有达到。主要原因是因为该方法侧重于常识与背景知识,在trick上不如当前SOTA的VQA模型(效果接近76%)。

同时,该论文避开了FVQA数据集,猜测原因是在该数据集上表现不佳(该数据上大部分方法都是基于pipeline,这种end2end的方法不好去对标)

总结与灵感

  • 常识知识库某种程度上可增强许多VQA任务,哪怕不是显式地需要外部知识
  • 多模态任务中以图的形式引入外部知识依然有很大的潜力可以挖掘
  • 预训练fine-tune +(交叉)注意力机制 + 外部知识 + KG图结构 – – > 信息最大化

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

点击 阅读原文,进入 OpenKG 网站。

Original: https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/113009524
Author: 开放知识图谱
Title: 论文浅尝 – EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/595394/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球