NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用( 三 ) 预测一个图像的类别|神经网络

给定一个对抗样本，我们训练来预测正确的类别，而训练来预测被攻击的类别。具体来说，我们训练来预测的错误预测，即被攻击方攻击到的类别。这样，除了鼓励预测正确的类别外， CD-VAE还将中被攻击方扰动的类别信息移动到，所以主要保留了对于对抗攻击鲁棒的类别相关信息。我们使用(8)-(10)式来训练CD-VAE 。其中项与原来的CD-VAE保持一致，而根据上述策略进行修改。
三、实验结果

文章图片
表3对于5种对抗攻击的检测效果（CIFAR10）
表3是对抗性检测的结果。我们在三个基线[4-6]上进行实验，并将我们的方法应用于这三个基线，只需将它们的输入由替换为。我们可以看到CD-VAE通常可以大幅改进这些方法。例如， FGSM是检测最具挑战性的攻击，但我们的方法仍然可以将KD[4]的TNR提高近15% 。值得一提的是，我们的方法是对现有方法的补充，只需将输入由替换为。

文章图片
表4针对灰盒攻击的防御效果（CIFAR10和Restricted-ImageNet）
表4是针对灰盒攻击的防御效果。 CD-VAE优于基于对抗训练的方法和其他基于预处理的方法（HGD[7]、APE-GAN[8]）。例如， PGD是一种非常流行的攻击方法，我们的方法可以将对于PGD攻击的鲁棒性提高2%以上。

文章图片
表5针对白盒攻击的鲁棒性（CIFAR10）
表5是针对白盒攻击的鲁棒性。我们针对多种白盒攻击评估我们的方法和基线。我们的方法十分鲁棒，尤其对于那些未见过的攻击（即没有用于对抗训练的攻击），它实现了最高的未见攻击（平均）准确度。而其他基于对抗训练的方法对用于训练的攻击方法效果很好，但无法应对未见过的攻击。例如，使用recolor进行对抗训练的模型对recolorattack防御效果很好，但对stadv的防御却很失败，得到接近0的准确率。相反，即使我们在训练期间没有使用stadv ，但对stadv依然十分鲁棒。
四、结论
在本文中，我们提出了一个基于VAE+分类器的类别解耦模型：类别解耦的变分自动编码器（CD-VAE）来将输入图像x分解为，其中捕获用于分类的最少必要信息，而涵盖所有其他的类别冗余信息。我们提出了一个联合训练VAE和分类器的目标函数来引导类别解耦。 CD-VAE提供了新的视角来理解(1)神经网络分类器如何预测图像的类别以及(2)对抗样本如何攻击该分类器。受CD-VAE实验的启发，我们提出分别利用和进行对抗检测和对抗防御。这两种简单的策略大大提高了应对各种对抗攻击的检测和防御准确率。
参考文献
[1]KaiwenYang,TianyiZhou,YonggangZhang,XinmeiTian,andDachengTao.Class-DisentanglementandApplicationsinAdversarialDetectionandDefense.NeurIPS2021.
[2]AlexanderAAlemi,IanFischer,JoshuaVDillon,andKevinMurphy.Deepvariational
informationbottleneck.arXivpreprintarXiv:1612.00410,2016.
[3]NaftaliTishby,FernandoCPereira,andWilliamBialek.Theinformationbottleneckmethod.
【NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用】arXivpreprintphysics/0004057,2000.
[4]ReubenFeinman,RyanRCurtin,SaurabhShintre,andAndrewBGardner.Detectingadversarialsamplesfromartifacts.arXivpreprintarXiv:1703.00410,2017.
[5]KiminLee,KibokLee,HonglakLee,andJinwooShin.Asimpleunifiedframeworkfor
detectingout-of-distributionsamplesandadversarialattacks.NeurIPS2018.
[6]XingjunMa,BoLi,YisenWang,SarahMErfani,SudanthiWijewickrema,GrantSchoenebeck,DawnSong,MichaelEHoule,andJamesBailey.Characterizingadversarialsubspacesusing