论文阅读：《Compositional Attention Networks for Machine Reasoning》

2023年6月4日下午1:37 • 人工智能 • 阅读 91

标题：机器推理的合成注意网络
来源：ICLR 2018 https://arxiv.org/abs/1803.03067
代码：https://github.com/stanfordnlp/mac-network
作者笔记：https://cs.stanford.edu/people/dorarad/mac/blog.html

一、问题提出

虽然当前的深度神经网络模型在学习”输入和输出之间的直接映射”方面非常有效，其深度、规模和统计特性使得它们能够处理嘈杂和多样化的数据，但也限制了它们的可解释性，无法展示出一个连贯且透明的”思维过程”来得到他们的预测。

深度学习系统缺少推理能力，例如下例中，问题需要分步解决——从一个对象遍历到相关对象，迭代地朝着最终解决方案前进。

论文阅读：《Compositional Attention Networks for Machine Reasoning》

建立连贯的多步推理模型对于完成理解任务至关重要，作者文中提到了前人提出的一些将符号结构和神经模块起来的方法，例如：神经模块网络，其存在一定的问题，必须依赖于外部提供的结构化表示和功能程序，并且需要相对复杂的多阶段强化学习训练方案。这些模型结构的刚性和对特定操作模块的使用削弱了它们的鲁棒性和泛化能力。

为了在端到端的神经网络方法的通用性和鲁棒性与支持更加明确和结构化推理的需求之间取得平衡，作者提出了MAC 网络，这是一种端到端的可微推理架构，用来顺序执行具体推理任务。

二、主要思想

给定一个知识库K(对于VQA，是一个图像)和一个任务描述q(对于VQA，是一个问题)，MAC网络将问题分解为一系列推理步骤，每一个推理步骤使用一个MAC单元。

其组成主要包括三部分：

输入单元
堆叠的MAC单元（执行推理任务）
输出单元

Part1：输入单元

处理输入的图片和问题：

图片：使用预训练的ResNet提取特征，获取中间层conv4特征，并后缀CNN得到图片每一个小块的特征表示，最终组合得到知识库：

[K^{H\times W\times d}={k_{h,w}^d|_{h,w=1,1}^{H,W}},H=W=14 ]

文本：将字符串转换为单词嵌入序列，并通过d维Bi-LSTM网络提取特征：

一系列隐藏状态：(cw_1,…,cw_s)。

问题特征表示：最后的隐藏状态的拼接(\overleftarrow{cw_1},\overrightarrow{cw_s})，输入MAC单元时需要进行线性变换：(q_i={W_i}^{d\times2d}q+b_i^d)。

Part2：MAC单元

MAC单元（Memory、Attention、Composition）是一个循环单元，被设计的类似于GRU或LSTM。

设计理念：

MAC网络内部的设计作者借鉴了计算机体系结构的知识，将控制和内存分离，通过串行执行一系列指令来操作：

Step1：控制器获取指令并进行解码；

Step2：按照指令的指示，从内存中读取信息；

Step3：执行指令，选择地写入相应的内存，并考虑处理的信息进行下一步循环。

组成：

基于此，MAC单元显式地将内存与控制分离，内部保持双重隐藏状态：维度为(d)的控制状态(c_i)和内存状态(m_i)，并由三个串联工作的操作单元组成，以执行一个推理步骤：

控制单元Control：在每一步选择性地处理问题词序列中的一些部分来计算推理操作（这一步计算注意力来得到单词序列上的概率分布，表示该步骤对每个词的关注程度），并更新控制状态来表示单元要执行的推理操作。
读取单元Read：在控制状态的指导下，从知识库中提取相关信息（在图片中选择性关注部分区域，同样使用注意力分布来表示提取到的信息）
写单元Write：将提取到的新信息和前一步内存状态整合在一起，存储中间结果并更新内存状态——该状态为当前推理获得的结果。

初始化：初始化学习参数(c_0)和(m_0)。

控制单元：

输入：问题词序列(cw_1,…,cw_s)，问题特征(q_i)，前一步的控制状态(c_{i-1})

Step1：拼接问题特征表示(q_i)和先前的控制状态(c_{i-1})并进行线性变换（获取相关知识）；

Step2：基于注意力生成推理操作(c_i)：首先计算(cq_i)和每个问题词特征的相似度，之后通过线性变换和softmax函数获得问题词序列上的注意力分布，最后基于该分布对词进行加权求和生成新的推理操作(c_i)。

补充：后续该注意力可以用于可视化并解释控制状态内容，提高模型的透明度。

读取单元：

输入：知识库(k_{h,w})，前一步的内存状态 (m_{i-1})，当前步骤的控制状态(m_i)

Step1：通过将知识库元素和前一步的内存状态进行线性变换并对应位置相乘，提取模型从之前推理步骤中获取到的中间信息(I_{i,h,w})。

Step2：拼接知识库元素和中间结果。考虑到一些推理过程需要将独立的事实组合在一起得到答案，该步骤将允许模型推理考虑与之前的中间结果不直接相关的新信息。

Step3：计算控制状态(c_i)和中间信息(I_{i,h,w}^)的相似度，并通过softmax产生知识库元素上的注意力分布，最终加权求和得到读取单元的检索信息(r_i)。 可视化注意力： <img alt="论文阅读：《Compositional Attention Networks for Machine Reasoning》" src="https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230602/2803233-20220410193850199-1712284078.png" /> 例子：问题"what color is the matte thing to the right of the sphere in front of the tiny blue block"，首先找到蓝色小块并更新(m_1)，之后控制单元关注到"the sphere in front of"，找到前面的球体并更新(m_2)，最后关注到"the matte thing to the right of"，找到问题的结果：紫色圆柱。 写单元： <img alt="论文阅读：《Compositional Attention Networks for Machine Reasoning》" src="https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230602/2803233-20220410193849909-1837001334.png" /> 输入：前一步的内存状态 (m_{i-1})，读取单元的检索信息(r_i)，当前步骤的控制状态(m_i) 主要用于基于推理指令，集成先前推理得到的内存状态和该步得到的检索信息 Step1：拼接(r_i)和(m_{i-1})并进行线性变换，得到更新的内存状态(m_i^{info})； 可选操作： Step2：注意力机制：为了支持非顺序推理，允许单元综合先前的所有内存状态进行更新。计算当前指令(c_i)和先前指令序列(c_1,...,c_{i-1})的相关性并生成注意力分布(sa_{ij})。利用该概率分布对前序内存状态进行加权求和，并组合(m_i^{info})得到更新的内存状态(m_i^)。

Step3：记忆门控：允许模型根据给定的问题动态调整推理过程长度。基于指令可选的更新内存状态(m_i)。

Part3：输出单元

基于问题特征表示(q)和最终的存储状态(m_p)，利用双层全连接softmax分类器获得最终的答案预测。

三、实验

实验：CLEVR数据集

结果：

可解释性：

计数：

四、总结

1、保持问题和图像的表征空间之间的严格分离(它们只能通过可解释的离散分布进行交互)，极大地增强了网络的可泛化性，并提高了其透明度。

2、不同于模块网络，MAC是端到端的完全可微网络，无需额外的监督数据，通过MAC单元的堆叠顺序执行推理才做，不需要依靠语法树或者其他设计和部署模块集合。此外，与深度神经网络方法相比，MAC具有更好的泛化性能、更高的计算效率和更透明的关系推理能力。

Original: https://www.cnblogs.com/jiojio-star/p/16127193.html
Author: jiojio-star
Title: 论文阅读：《Compositional Attention Networks for Machine Reasoning》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568126/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas数据分析

1、pandas的数据结构分析 1、Series是一维的数据结构 2、DataFrame是二维的、表格型的数据结构 1.1、Series 1、Series是一个类似于一维数组的对象…

人工智能 2023年7月6日
0081
记录自己NVIDIA GeForce MX250迷之安装cuda+pytorch成功了

电脑是ubuntu20.4 Pop!_OS 20.04 LTS MX250显卡并没有列在CUDA支持的GPU里希望文中链接的别人的博客不会消失掉。安装了英伟达的驱动参考了这一…

人工智能 2023年6月4日
00121
Low-Light Image and Video Enhancement Using Deep Learning: A Survey 论文阅读笔记

由于环境问题或者拍摄技巧的缺失，拍摄者可能得到一系列质量较差的图像如以下6类：低光图像质量增强在许多方面都有用武之地，比如监控、自动驾驶、摄影图像处理等。传统的方法主要是两类——…

人工智能 2023年5月28日
0068
无序链表(顺序查找)和有序数组(二分查找)-基础实现-符号表(二)-数据结构和算法(Java)

1 无序链表的顺序查找符号表中使用的数据结构的一个简单选择就是链表，每个节点存储一个键值对。 get(K key)：方法实现就是遍历链表，equals()方法比较节点中键的相等性…

人工智能 2023年6月30日
0070
重装系统以后怎么还原电脑原本的资料

在给电脑重装系统的过程中，有些网友不注意保存好自己的电脑重要数据，导致电脑重装系统后数据丢失怎么办。我们可以借助些软件来恢复，下面就教下大家重装系统以后恢复电脑数据的方法。工具/…

人工智能 2023年6月27日
0082
pandas的apply函数常见用法总结

对DataFrame的每一行执行一些复杂的操作举一个例子，计算DataFrame中每一条数据中两个人的轨迹相似度，因为和业务相关，里面的子函数不能透露，这里重点呈现apply的用…

人工智能 2023年7月17日
0059
python金融量化初体验——2020年“大湾区杯”金融数学建模比赛A题《大湾区指数增强策略》刷题总结（持续更新中）

目录 1.前言 2.准备工作（1）题目分析：提供的数据集问题 3.解题思路：（1）第一问解题思路 4.代码实现（1）第一题部分代码 1.前言之前和男朋友一起学完了数据挖…

人工智能 2023年7月4日
0089
关于图像处理分析的一些理解

1.图像处理较为底层的操作，可以看成数据预处理（图像本身也是由像素数据组成的），常见的处理有：图像降噪，压缩，提升分辨率，边缘检测等彩色图像灰度化边缘检测：检测出图像中亮度变化显…

人工智能 2023年7月10日
0079
【论文阅读】图神经网络应用在推荐系统中的挑战、方法、方向

文章目录文章信息推荐系统 * 工作流程 – pipeline Matching 召回阶段 Ranking 排序阶段 Re-ranking 再排序阶段场景 &#82…

人工智能 2023年7月14日
00121
【代码解读】超详细，YOLOV5之build_targets函数解读。

文章目录 * – + build_targets作用 + 注意 + 可视化结果 + 过程 + 详细代码解读 + * 准备 * 第一遍筛选 * 扩增正样本 + Refer…

人工智能 2023年6月17日
0091
R语言与DataFrame

什么是DataFrame 引用 r-tutor上的定义： DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。没错，DataFrame就…

人工智能 2023年6月2日
0072
python基础篇：字符画生成~甜心教主

前言 **大家好，我是王心凌~~ 不对，我是辣条哥最近着实被唤起当年的青葱回忆了，回忆的同时当然也不会忘记给大家整个趣味小例子，今天我们就整一个王心凌字符画吧~ 字符画：字符画…

人工智能 2023年5月31日
0064
MIL图像处理那些事:直角坐标和极坐标间变换MimPolarTransform

文章目录极坐标&直角坐标直角坐标和极坐标间变换理论 MimPolarTransform 代码示例 * MIL直角坐标到极坐标变换 MIL极坐标到直角坐标转换总结极坐…

人工智能 2023年6月20日
0072
python dataframe日期运算常见的报错及解决方法 – unsupported operand type(s) for -: ‘DatetimeArray‘ and ‘str‘等

1、背景描述：（日期加减计算经常遇到的报错）数据分析中要对日期进行计算，经常遇到这些报错或问题： TypeError: cannot subtract DatetimeArray…

人工智能 2023年7月6日
00110
tensorflow-gpu无法调用GPU的解决办法

配置：i5 6300HQ显卡是GTX950M 之前用tensorflow整天检测都是说False，捣鼓了一天，总结分享一下。因为要使用pytorch，所以安装的cuda10.2（…

人工智能 2023年5月25日
00125
干货！利用潜在邻域结构的无源域自适应

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！域适应(DA)旨在减轻源域和目标域之间的domain shift。大多数DA方法都需要访问源数据，但通常这是不可行的…

人工智能 2023年5月31日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文阅读：《Compositional Attention Networks for Machine Reasoning》

一、问题提出

二、主要思想

三、实验

四、总结

大家都在看