NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用( 二 )


CD-VAE可用于分析神经网络的行为和复杂数据的内在属性 。 例如 , 可以凸显出图像中神经网络主要关注的区域 , 并帮助人们理解神经网络做出正确或不正确预测的原因 。
2、比较自然样本和对抗样本的类别解耦
NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用
文章图片
表1各个解耦部分的范数
NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用
文章图片
图4各个解耦部分的可视化
进一步研究对抗样本是如何攻击分类器的 。 我们提供了一项实证研究来比较自然样本和其生成的对抗样本的类别解耦结果 。 我们特别感兴趣的是
1.类别信息主要集中在输入图像中的哪些部分 。
2.对抗攻击主要针对输入图像中的哪些部分 。
具体来说 , 我们定义为对抗扰动在输入样本、类别相关部分和类别无关部分中的分量 。
我们可以看一下、和的范数 , 的范数比的范数大得多 , 这表明对抗扰动主要位于类别相关部分上 。 此外 , 我们还可以看各个部分的可视化图像 , 我们可以发现中包含的内容很多 , 并且看起来和很像 , 而非常稀疏 , 这再次验证了对抗性扰动主要存在于 , 而对于上造成的扰动是非常轻微的 。 这表明对的攻击主要集中在 , 但并未严重扭曲 。 因此 , 我们可以使用进行对抗检测 , 使用进行对抗防御 。
然后我们可以看类别相关部分的可视化 , 它突显了每个图像中非常稀疏但足以完成对分类任务预测的重要特征 , 例如狗的耳朵和鼻子 , 鹦鹉的眼睛等 。 因此 , 可以很自然地为神经网络分类器这一黑盒模型做出的预测提供解释 。
NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用
文章图片
表2在各个解耦部分训练并测试分类器:Top-1(Top-5) 。
为了进一步了解类别信息在和中是如何分布的 , 我们在、和的训练图像上分别训练了分类器 , 并分别在这三部分进行测试 。
我们发现 , 首先在上训练的分类器对十分有效 , 并且反之亦然 , 这说明和共享对两个分类器都很重要的类信息;其次 , 在上训练的分类器有一定的分类准确率 , 说明仍然保留了有用的信息;最后 , 在上训练的分类器在上的准确率很差 , 并且反之亦然 , 表明它们使用不同的信息进行分类 。 因此 , 攻击在上训练的分类器将主要扰动和共享的类别信息 , 但将几乎不会影响中的类别信息 , 这再次表明我们可以通过使用分类来防御对抗攻击 。
3、类别解耦在对抗检测中的应用
我们的发现可以直接导出在对抗检测和防御中的两个应用 。
首先 , 我们可以在的空间中更好的检测对抗样本 。 在图4中 , 所捕获的稀疏区域能在很大程度上缩小了被攻击区域的搜索范围 , 从而使得对抗样本的检测更加容易和准确 。 之前的检测方法[4-6]都是基于原图来进行对抗检测的 , 而在这里我们仅仅是把之前方法的输入换成了 , 因此是和之前的检测方法互补的 。
4、类别解耦在对抗防御中的应用
如前表所示 , 在上训练的分类器也具有一定的分类准确率 , 这说明中仍然包含一些(冗余的)类别信息 , 并且几乎没有被对抗扰动攻击到 。 因此在上的分类可能对对抗攻击更加鲁棒 , 这提供了一种简单有效的基于预处理的防御策略:给定一个对抗样本,我们先用CD-VAE预处理它得到 , 然后使用来进行分类 。 注意这里我们考虑的是灰盒攻击 , 即我们只让攻击方访问分类器 , 而不让其访问CD-VAE 。
最后 , 我们扩展CD-VAE来防御最具挑战性的白盒攻击 。 在这里 , 我们允许攻击方访问我们的所有模型 , 包括分类器和CD-VAE 。 之前我们提出使用来分类对抗样本 , 而在白盒攻击下 , 攻击方将主要攻击 。 因此 , 我们需要稍加修改之前CD-VAE目标函数中的项如以下公式所示: