对抗攻击(1)-- 论文Intriguing properties of neural networks阅读笔记_qq_43205738的博客-CSDN博客

对抗样本(二)L-BFGS

:对抗攻击基础知识(十六)

[论文笔记] Intriguing properties of neural networks

Formal description

知道了上面的原理后,

如何生成对抗样本呢?

作者在这里提出了一种box-constrained优化问题来生成对抗样本。

参数说明

r 表示对抗噪声,x 表示原始的输入图像, x+r 表示对抗样例, l 表示分类的类别,
f(x+r)=l 表示图像在加入了对抗噪声后被错误分类为目标类别l,
x+r∈[0,1] 表示要求攻击者生成一幅合理的图像,即像素归一化后在0和1之间。 

该类型为针对性攻击(即被错误的分类为指定的类别),在两个盒约束条件下:

  1. 加入对抗噪音r的图像被错误的分类为目标类别l。
  2. 攻击者生成的图像是一幅合理的图像,即像素归一化后的值在0和1之间。

求出最小化的对抗噪音r,此时x+r就是我们找的对抗样例。

那怎么求出来这个最小化的对抗噪音r呢?

一般来说,可以满足这个条件的r不是唯一的,我们用 D(x,l)来表示一个最小的r。如果要直接求出D(x,l)是及其困难的,作者使用了box-constrained的L-BFGS来近似它,给出了满足f(x+r)=l的损失函数,如下:(怎么推导来的我还没看懂)——个人理解(L-BFGS的思想就是把要优化的函数用二次函数来近似表示,此处就是用二次函数来近似表示我们要求的D(x,l),其损失函数就是一个二次函数,c|r|类似于以前的正则项,接下来的操作就可以用梯度下降算法来求出收敛值(最优解))

参数说明

c 是平衡2个最小值的超参数

在满足加入噪声后图像仍是一个合理的图像的前提下,试图找到满足f(x+r)=l的最小扰动r,同时要求对抗样例被分类为l的损失函数尽可能的小。

对于超参数c的值,作者使用线性搜索的方法来寻找满足上述条件的最小的c(c>0).

实验过程