【论文阅读】Attention-based Deep Multiple Instance Learning

题目:CCF A-Loss-Based Attention for Deep Multiple Instance Learning

International conference on machine learning

摘要

多实例学习 (MIL) 是监督学习的一种变体,其中将单个类标签分配给一袋实例。
在本文中,我们将 MIL 问题描述为学习 包标签的伯努利分布,其中包标签概率由 神经网络完全参数化。此外,我们提出了一种基于神经网络的 置换不变聚合算子,它对应于注意机制。值得注意的是,所提出的基于注意力的算子的应用可以深入了解每个实例对包标签的贡献。
我们凭经验表明,我们的方法在基准 MIL 数据集上实现了与最佳 MIL 方法相当的性能,并且它在基于 MNIST 的 MIL 数据集和两个真实组织病理学数据集上优于其他方法,而不会牺牲可解释性。

引入

多示例学习
假设图像清楚地代表了一个类别(一个类)。然而,在许多实际应用中,会观察到多个实例,例如,计算病理学、乳房 X 线摄影或 CT 肺筛查)中尤为明显,其中图像通常由单个标签(良性/恶性)或区域描述粗略地给出了兴趣
MIL 处理分配了单个类标签的实例包。因此,MIL 的主要目标是学习一个预测袋子标签的模型
利用包之间的相似性 (Cheplygina et al., 2015b),将实例嵌入到紧凑的低维表示中,然后进一步馈送到包级分类器、实例级分类器的响应

背景:
目前的一些方法:利用包之间的相似性 (Cheplygina et al., 2015b),将实例嵌入到紧凑的低维表示中,然后进一步馈送到包级分类器;并结合实例级分类器的响应。只有最后一种方法能够提供可解释的结果。但此类方法的实例级准确度较低。

本文:
提出了一种新方法,旨在将 可解释性融入 MIL 方法并增加其灵活性。
我们使用包标签的伯努利分布来制定 MIL 模型,并通过优化 对数似然函数来训练它。
对称函数的基本定理为包标签概率建模提供了一个过程:(1)将实例转化为低维嵌入;(2)一个置换不变(对称)的聚合函数;(3)对包概率的转换
本文建议使用 神经网络即卷积层和全连接层的组合参数化所有转换,并允许通过优化无约束的目标函数以端到端的方式训练模型。
本文建议用可训练的加权平均值替换广泛使用的 置换不变算子,例如最大算子最大值和平均算子平均值,其中权重由 两层神经网络给出。两层神经网络对应于 注意力机制。值得注意的是,注意力权重使我们能够找到关键实例,这些实例可以进一步用于突出可能的 ROI。

相关概念

置换不变(permutation-invariant)
指的是特征之间没有空间位置关系
对数似然函数(log-likelihood function)
从模型得到一个函数,优化该函数得到合适的参数;利用结果反推出导致结果的参数值参考
伯努利分布(Bernoulli distribution)
两点分布/0-1分布
对称函数(Symmetric Functions)
函数的输出值不随输入变数的排列而改变参考
最大算子(maximum operator)
神经网络参数化
MIL 池化 σ
MIL 池化算子
最大算子
平均算子
tanh函数链接

符号系统

符号含义
X = { x 1 , … , x K } \boldsymbol{X}={\boldsymbol{x}_1,\dots,\boldsymbol{x}_K}X ={x 1 ​,…,x K ​}x k \boldsymbol{x_k}x k ​

实例
K K K

不同包的实例数量不同
Y \boldsymbol{Y}Y

标签向量
{ y i , … , y K } , y k ∈ { 0 , 1 } {y_i,\dots,y_K},y_k \in {0,1}{y i ​,…,y K ​},y k ​∈{0 ,1 }

每个实例的标签
h k \boldsymbol{h}_k h k ​

实例的嵌入

方法

2.1. Multiple instance learning (MIL)

通过优化对数似然函数来训练 MIL 模型,其中袋标签根据伯努利分布分布,即给定实例包 X,Y = 1 的概率

【论文阅读】Attention-based Deep Multiple Instance Learning
Theorem 1 包X \bold{X}X的评分函数,其中 f 和 g 是合适的变换。给出的分解对袋子概率建模的一般策略。
【论文阅读】Attention-based Deep Multiple Instance Learning
Theorem 2 用 max 而不是 sum 的类似分解
【论文阅读】Attention-based Deep Multiple Instance Learning
共同点:一种通用的三步方法来对包进行分类:(1)用函数 f 对实例进行转换(2)使用对称(排列不变)函数σ对转换后的实例进行组合(3)由f使用函数g变换的组合实例的变换

于给定的 MIL 运算符,有两种主要的 MIL 方法:(1)实例级方法 (2)嵌入级方法
我们将展示如何通过使用新的 MIL 池来修改嵌入级方法以使其可解释。

; 2.2. MIL with Neural Networks

神经网络 fψ(·) 参数化的变换;h k ∈ H h_k \in \mathcal{H}h k ​∈H;若h k ∈ 0 , 1 h_k \in {0,1}h k ​∈0 ,1,则为基于实例的方法;若h k ∈ R M h_k \in \mathbb{R}^M h k ​∈R M,则为嵌入的方法

【论文阅读】Attention-based Deep Multiple Instance Learning
转换g ϕ g_\phi g ϕ​:在基于实例的方法中,变换 gφ 只是恒等式,而在基于嵌入的方法中,它也可以由具有参数 φ 的神经网络参数化
【论文阅读】Attention-based Deep Multiple Instance Learning

2.3. MIL pooling

两个MIL池化算子保证得分函数为对称函数:
(1)最大算子

【论文阅读】Attention-based Deep Multiple Instance Learning
(2)平均算子
【论文阅读】Attention-based Deep Multiple Instance Learning
(3)其他算子代替定理2中的max
例如凸最大算子(即 log-sum-exp)、集成分割和识别、噪声或和噪声和

; 2.4. Attention-based MIL pooling

所有 MIL 池化算子都有一个明显的缺点,即它们是预定义的且不可训练的。因此,灵活和自适应的 MIL 池可以通过调整任务和数据来获得更好的结果。
使用实例的加权平均值(低维嵌入),其中权重由神经网络确定。其中权重与嵌入一起是 f 函数的一部分

【论文阅读】Attention-based Deep Multiple Instance Learning
我们注意到 tanh(·) 非线性对于学习复杂关系可能效率低下,因此,我们建议额外使用门控机制 以及 tanh(·) 非线性:【论文阅读】Attention-based Deep Multiple Instance Learning

Original: https://blog.csdn.net/qq_43505356/article/details/123471298
Author: Windingd
Title: 【论文阅读】Attention-based Deep Multiple Instance Learning

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/690503/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球