分享 | 防御物理上可实现的图像分类攻击

作者研究了保护用于图像分类的深度神经网络方法免受物理可实现攻击的问题。首先,证明了可学习的鲁棒模型的两种最具可扩展性和最有效的方法(PGD 攻击的对抗训练和随机平滑),对三种最引人注目的物理攻击的效果非常有限。

论文信息

原文链接:https://arxiv.org/abs/1909.09552

原文开源代码:https://github.com/tongwu2020/phattacks

解决的问题

接下来,作者提出了一种新的抽象对抗模型,矩形遮挡攻击(rectangular occlusion attacks),其中对手在图像中放置一个小的对抗制作的矩形,并开发两种方法来有效地计算得到的对抗样本。最后,作者证明了使用新攻击的对抗训练产生的图像分类模型对研究的物理可实现的攻击表现出很高的鲁棒性,为此类攻击提供了第一个有效的通用防御。

由于作者在人脸识别、交通牌识别和分类任务上发现,传统的对抗训练和随机平滑对patch攻击并没有很好的防御作用,即用于使深度学习对攻击具有鲁棒性的传统模型在面对物理上可实现的攻击时表现很差。例如下图是面对对抗眼镜时的acc,随着迭代的提升,acc迅速下降:

分享 | 防御物理上可实现的图像分类攻击

换句话说,证据有力地表明,如果人们关注在实践中可能面临的主要物理威胁,攻击者可以对输入图像进行

分享 | 防御物理上可实现的图像分类攻击

有界扰动的传统攻击模型并不是特别有用。然而,考虑到一个人可能实施的物理攻击的多样性,是否有可能有一种有意义的方法来确保对广泛的物理攻击的鲁棒性?

提出的方法

目前,考虑的两种攻击非常相似:一种是对抗眼睛;在另一个,停车标志上的贴纸。作者观察到,这些攻击以及可能会遇到的许多其他物理攻击中的关键共同元素是它们涉及在输入的一部分中引入对抗性遮挡(adversarial occlusions)。此类攻击面临的共同约束是避免显著,这有效地限制了对抗性遮挡的大小,但不一定是其形状或位置。接下来,作者介绍一个简单的遮挡攻击抽象模型,然后讨论如何计算此类攻击以及如何使分类器对它们具有鲁棒性。

作者提出了以下输入图像对抗性遮挡的简单抽象模型。攻击者引入了一个固定尺寸的矩形。攻击者可以将这个矩形放置在图像中的任何位置,并且攻击者还可以在矩形内引入

分享 | 防御物理上可实现的图像分类攻击

噪声,具有外部指定的上限(例如, ,这有效地允许添加任意对抗性噪声)。该模型与 攻击有一些相似之处,但矩形施加了一个连续约束,这反映了常见的物理限制。该模型显然是抽象的:在实践中,例如,对抗性遮挡不需要是矩形或具有固定尺寸(例如,眼镜框攻击显然不是矩形),但同时通常不能任意叠加在图像上,因为它们是在物理环境中实现的。然而,该模型反映了许多物理攻击共有的一些最重要的方面,例如贴在希望识别的对象的对抗性选择部分上的贴纸。作者将这种攻击模型称为矩形遮挡攻击(rectangular occlusion attack,ROA)。这种攻击的一个重要特征是它是无目标的(untargeted):由于最终目标是防御物理攻击,因此旨在最大化错误的无目标攻击是最有用的。

除了建模的考虑之外,ROA 攻击的另一个优点是,原则上它比

分享 | 防御物理上可实现的图像分类攻击

有界攻击更容易计算,因为细粒度的对抗扰动仅限于一个小区域,因此只需要在图像中为该区域找到一个位置。事实上,后一项任务可以通过穷举搜索来完成:考虑矩形左上角的所有可能位置,使用 PGD 计算矩形内的对抗噪声,并选择最坏情况攻击( 即,最大化在结果图像上计算的损失的攻击)。但是,这种方法会非常慢,因为需要在矩形内对每个可能的位置执行 PGD。因此,作者将这两个任务分离。具体来说,首先使用灰色矩形执行穷举搜索,为其找到最大损失的位置,然后固定该位置并在矩形内应用 PGD。

ROA 位置穷举搜索方法的一个重要限制是它需要计算每个可能位置的损失函数,这本身每次都需要完全前向传播。因此,搜索本身仍然相对较慢。为了进一步加快处理速度,作者使用输入图像的梯度来识别候选位置。具体来说,为具有最高梯度幅度的贴纸选择 C 个位置的子集,并且仅在这些 C 个位置中进行穷举搜索。C 相对于图像中的像素数被外生指定为较小,这显着限制了损失函数评估的数量。

分享 | 防御物理上可实现的图像分类攻击

一旦能够计算出 ROA 攻击,就会应用标准的对抗训练方法进行防御。用ROA进行对抗训练的防御方法称之为分类器遮挡攻击防御 (Defense against Occlusion Attacks,DOA) 。

试验和结果

评估 DOA 的有效性,即使用ROA 威胁模型的对抗性训练——对抗物理上可实现的攻击。回想一下,只考虑相应物理攻击的数字表示。因此,可以将本节中的结果视为对实际物理攻击的鲁棒性的下限,它必须处理额外的实际限制,例如对多视点的鲁棒性。除了之前考虑的两种物理攻击之外,还针对对抗图块(adversarial patch)攻击评估 DOA,在人脸识别和交通标志数据上实现。

考虑两个矩形尺寸导致可比较的面积:100 × 50 和 70 × 70,均以像素为单位。因此,矩形占据了 224 × 224 人脸图像的大约 10%。使用了

分享 | 防御物理上可实现的图像分类攻击

的 PGD 的 {30, 50} 次迭代来在矩形内生成对抗噪声,并相应地使用学习率 α = {8, 4}。对于 ROA 的梯度版本,选择 C = 30。DOA 对抗训练进行了 5 个 epoch,学习率为 0.0001。

分享 | 防御物理上可实现的图像分类攻击

可以看到 DOA 为这个领域产生了更强大的分类器。基于梯度的启发式算法确实要付出一定的代价,其性能比使用穷举搜索时稍差,但这种性能下降相对较小,结果仍远优于传统的鲁棒 ML 方法。

然后用交通标志数据和停车标志攻击重复评估。在这种情况下,作者使用了 10 × 5 和 7 × 7 的矩形,覆盖了 32 × 32 图像中的 ∼5%。同时为基于梯度的 ROA 设置 C = 10。DOA 的实现在其他方面与上面的人脸识别实验相同,其性能也优于传统方法

分享 | 防御物理上可实现的图像分类攻击

总结

实验数据集都比较小,没有提供在ImageNet上的实验结果。

作者:咫尺小厘米

|关于 深延科技|

分享 | 防御物理上可实现的图像分类攻击

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

Original: https://blog.csdn.net/shenlanshenyanai/article/details/123188068
Author: 深兰深延AI
Title: 分享 | 防御物理上可实现的图像分类攻击

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/666331/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球