从数据集CLEVR来看视觉推理的发展

2023年7月14日上午4:35 • 人工智能 • 阅读 71

一、视觉推理的发展

视觉推理 (Visual Reasoning) 概念的兴起是在Li Fei-Fei组提出的 CLEVR 数据集后，被大家广泛认识并且越来越多的人开始研究，大家提出的各种模型都是为了让机器或者是神经网络具有一定的推理能力，能够像人一样进行一些稍微复杂的推理能力，传统的VQA任务上work的模型，如CNN+LSTM这类神经网络模型直接用于该推理数据集效果很差，这基本说明一般的神经网络模型并没有办法通过End-to-End端到端的训练来具备推理能力，为了在CLEVER数据集上取得好的结果，我们必须寻找新的神经网络模型。
在数据集2016.12月提出之后出现了大量的工作，提出了很多全新的idea，首先来说Li Fei-Fei组的文章：
[1] Inferring and Executing Programs for Visual Reasoning，以下是该文章的模型架构图。

以上的文章有新意的点：Seq2seq Program Generator + Execution Engine 全新的解决方案的提出
具体是1) Take each reasoning as a program. 2) Neural Module Networks! (Dan Klein, UCB ). 3) The two modules are trained separately, followed by reinforcement learning.

本篇文章达到了一个较好的效果，有一个主要的原因使用了数据集的 中间推理标签，但经过了训练的神经网络从效果来看，确实是能看出来该网络具有了逻辑推理的能力，这也可以说明神经网络的确可以具有逻辑推理能力。

这篇论文可以说是一小步，如果能不实现额外的监督数据就能让神经网络有逻辑那必然是更好的，毕竟这种监督数据做起来也是很麻烦。

2017年还依托于CLEVR数据集发表了一系列视觉推理的文章，有兴趣的同学可以进一步阅读：

[2] Learning to reason: End-to-end module networks for visual question answering — ICCV2017
[3] A simple neural network module for relational reasoning — DeepMind发表，把CNN提取的feature特征信息当做图像中的物体来看待，然后不同物体两两组合再加上问题的LSTM输出特征，连在一起经过MLP输出一个所谓的关系feature
[3] — AAAI2018 一个可以通用的嵌入到CNN或者是线形层中的结构
[4] Learning Visual Reasoning Without Strong Priors — AAAI2018 在FiLM的基础上进一步改进
[5] Compositional attentionnetworks for machine reasoning — ICLR2018 全可微神经网络架构，参考了计算机架构模式
[6] Murel: Multimodal relational reasoning for visual question answering— CVPR2019
部分参考来自：Here

上述系列的文章是我在做相关视觉推理survey所精读的相关文章，感觉大受启发，还有相关有趣的推理文章大家可以互相分享啊！！！
上述文章没有特意的找 Attention机制和 外部知识库KB相关的推理论文，有兴趣的朋友可以评论补充噶。这里CodeAntenna有一部分相关的论文大家可以参考！这里是基于外部知识的VQA的相关博客！

; 二、视觉推理的展望

人工智能的发展很多是来自于数据集的驱动，如果说CLEVR数据集启发了视觉推理领域的发展，最近我看到了由清华和计算所发布的 [7] Transformation Driven Visual Reasoning 一文中提出视觉推理中更加复杂的视觉推理概念—Transformation，这篇工作提出了更加复杂的数据集 TRANCE dataset 以及一种新的encoder-decoder的框架TranceNet来解决提出的数据集。如下所示。

论文链接：CVPR2021
代码及数据集：https://hongxin2019.github.io/TVR

CLEVR 定义问答的范式，来测试机器对图像是否具有空间，关系和其他推理能力。

TRANCE 在CLEVR的基础上提出，给定最初和最终的状态，比如两个图像，目标是推断两个图片状态变换对应的单步或多步变换。

这个数据集的提出是为了解决大多数现有的视觉推理任务都只在静态设置上定义，不能很好地捕捉状态之间的动态的问题，我也粗浅的认为未来的视觉推理也有可能是向着这个方向来改进，不断的解决更加复杂以及动态变换的推理关系，有兴趣的可以详读论文，以此为基础进行相关的研究！我目前只时粗浅的进行了相关Survey，有不严谨的地方还恳请各位指出 Respect！

Original: https://blog.csdn.net/qq_42346574/article/details/122483966
Author: 郝同学
Title: 从数据集CLEVR来看视觉推理的发展

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691310/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从R-CNN到Faster-RCNN再到YOLOV5，目标检测网络发展概述

R-CNN R-CNN由Ross Girshick于2014年提出，R-CNN首先通过选择性搜索算法Selective Search从一组对象候选框中选择可能出现的对象框，然后将…

人工智能 2023年7月12日
0099
6-2 矩阵乘法函数（高教社，《Python编程基础及应用》习题4-11）

设计一个Python函数，计算两个矩阵（二维列表）的乘积。 a1.png 函数接口定义：def multiply(a,b,p,q,r)a是一个p行q列的二维列表；b是一个q行r列的…

人工智能 2023年6月26日
00128
【读论文】DenseFuse: 一种红外图像和可见图像的融合方法

DenseFuse：一种红外图像和可见图像的融合方法 * – + 摘要：一种解决红外图像和可见图像融合的新型的深度学习框架。 + 导言 + * 过去的方法： * 评价：…

人工智能 2023年7月13日
0061
OpenAI对强化学习环境的汇总

文章目录 * – 视频游戏类 – + 飞行小鸟 + gym-derk + MineRL + Procgen + Slime Volleyball + ML-…

人工智能 2023年6月10日
0095
【数据统计】移动端数据可视化模板、数据统计、Axure移动端图表数据统计设计

作品介绍：支持软件版本：Axure8.1（兼容Axure9、Axure10）本作品整合各行业数据可视化模板，包括数据可视化模板和图表组件两部分。可视化模板：电商：销售数据、…

人工智能 2023年6月11日
00117
Rviz将bag数据可视化为点云的简单教程

1.首先运行roscore和Rviz，在终端输入如下代码： roscore 注：如没有安装可在csdn里面搜索教程先安装。运行成功的话会出现如下类似的信息： … loggin…

人工智能 2023年6月2日
00151
Pytorch 深度强化学习模型训练速度慢

最近一直在用Pytorch来训练深度强化学习模型，但是速度一直很慢，Gpu利用率也很低。一、起初开始在训练参数 batch_size = 200, graph_size = 40…

人工智能 2023年7月22日
0087
流聚类之DenStream

前文在流聚类之CluStream中介绍了CluStream算法的相关内容，本文简单总结了有关流聚类算法DenStream的相关知识，从算法提出的目的以及两阶段过程进行阐述。对Cl…

人工智能 2023年6月2日
0086
OpenCV-Python实战（番外篇）——利用 SVM 算法识别手写数字

[ OpenCV_是一款非常强大的计算机视觉库，其中包含了很多功能强大的图像处理和计算机视觉 _算法。而在这个系列的第三篇文章中，我们将重点介绍如何在 _OpenCV_中绘制图形和…

人工智能 2023年7月27日
0052
谈谈图书馆知识资源细颗粒度标引中的古籍稿本标引

针对自有版权的地方古籍进行细颗粒度标引存在一定的技术要求，首先在图书馆知识资源中，包含了大量的县志、古籍抄本、印刷善本等等，由于古代、近代的印刷技术限制，大部分古籍存在印刷不清晰、…

人工智能 2023年6月10日
0086
图像缩放（Image resize）

在OpenCV中提供函数 cv2.resize()实现对图像的缩放，该函数的具体形式如下： dst = cv2.resize( src, dsize[, fx[, fy[, int…

人工智能 2023年5月26日
00103
图数据库（neo4j）学习心得

图数据库（neo4j）学习心得什么是图？图数据库常用领域 * – 1、社交网络 2、推荐和个性化 3、欺诈识别 4、金融领域 5、汽车制造领域 6、电信领域图数据…

人工智能 2023年6月1日
0085
中文Stable Diffusion模型太乙使用教程

中文Stable Diffusion模型太乙使用教程太乙模型介绍在线体验地址: Stable Diffusion 太乙模型，首个开源的中文Stable Diffusion模型，…

人工智能 2023年7月30日
0074
Python数据分析高薪实战第六天数据过滤与数据清洗

13 高级索引：过滤与查看表格中的局部数据上一节课中，我们学习了 pandas 中两个核心的数据结构：Series 和 DataFrame，之后还学习了 DataFrame 的常…

人工智能 2023年7月16日
0069
The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

1.本文贡献（1）提出prompt tuning，并在大型语言模型领域展示其与model tuning(fine tuning)的竞争力；（2）减少了许多设计选择，显示质量和鲁…

人工智能 2023年5月27日
0071
在VSCode中使用Pytorch遇到的问题

PowerShell无法使用conda虚拟环境按教程在VSCode中输入代码，提示缺少模块，于是在终端中安装缺少的模块，发现在VSCode的终端中激活不了conda的虚拟环境。 …

人工智能 2023年7月23日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

从数据集CLEVR来看视觉推理的发展

一、视觉推理的发展

; 二、视觉推理的展望

大家都在看