高被引Top1团队综述:图像、图形及文本领域的对抗攻击及防御
发布时间:2021-01-21
论文题名:Adversarial Attacks and Defenses in Images, Graphs and Text: A Review
论文作者:Han Xu, Yao Ma, Hao-Chen Liu, Debayan Deb, Hui Liu, Ji-Liang Tang, Anil K. Jain
全文链接:https://link.springer.com/article/10.1007/s11633-019-1211-x
2020年3月,IJAC发表美国工程院院士、密歇根州立大学Anil K. Jain团队和Jiliang Tang 团队合作带来的特约综述,第一作者为密歇根州立大学Xu Han博士。文章总结、讨论了与对抗样本及其应对策略相关的研究,系统且全面地综述了图像、图形、文本领域的前沿算法,概览了对抗攻击与防御(adversarial attacks and defenses)的主要技术与成果。
图片来自Springer
在机器学习领域中,深度神经网络(DNN)逐渐代替传统模型,成功地应用于各个场景,例如计算机视觉和自然语言处理等等。在一些应用中,深度模型表现出了近似或者高于人脑的智力,比如在2017年DeepMind科学家提出的Alpha Zero模型,可以战胜顶尖的人类围棋选手。
随着深度学习模型的发展,它们的的安全性逐渐被得到重视,因为它们经常被用于处理一些安全性相关的任务。比如,自动驾驶车辆通过卷积神经网络识别交通标志。或者是金融风险检测系统可以借助图形卷积网络(GCN),帮助企业判断客户的信用评级。假如以上涉及的深度神经网络发生任何不可预测的错误,这会产生巨大的损失。所以我们除了要求深度模型有高性能的表现以外,也需要关注它们的稳定性和可靠性。
近年来,很多研究表明DNN模型极容易被对抗样本所攻击,"对抗样本"可定义为"机器学习模型中,攻击者有意设计的、旨在使模型出错的输入数据"。最早的对抗样本产生于图像分类的场景中。对于已经训练好并有很好的准确度的图片分类模型,攻击者可以人为合成一些图片,它们与原图看上去几乎一样,但能误导分类器得到完全错误的预测,如下图所示。
图片来自文章
在MNIST,CIFAR,ImageNet等数据集上的实验上显示,几乎所有的图片都可以被上述的方式攻击。这表明我们所使用的DNN模型有很大的安全性隐患。此外,在其他包括图形、文本或声音的应用领域,可对抗样本的现象也同样存在。
例如,在图形神经网络(GNN)中,改变原图的一两条边,足以使模型产生错误的判断。或者是在对话系统中,一句话中一个错误的拼写,会导致模型返回完全不相关的回答。因此,对抗样本以及模型在对抗样本下的鲁棒性成为了深度学习领域中亟待解决的问题。
为了解决对抗样本带来的问题,找到保护深度神经网络的对策,学术界已经发表了很多研究成果,这些成果可大致分为三类:1) 隐藏梯度(gradient masking):由于多数攻击算法基于分类器的梯度信息,因此故意隐藏或混淆梯度可以使(攻击者找不到对抗样本。2) 鲁棒优化(robust optimization):这类研究展示了如何训练出鲁棒的分类器。即使攻击者生成对抗样本,模型依旧可以准确的将它们分类。3) 对抗检测(Adversary detection):这类方法试图在样本输入模型之前先对样本是否对抗做出检测,可以看作是一种预防对抗样本的方法。上述三类方法很好地提升了DNN对于对抗样本的防御能力,但仍有很多被之后的更先进的攻击方法攻击。攻击和防御算法的发展使其相互促进,从而帮助我们不断提升深度模型的安全性能。
除了构建安全可靠的DNN模型,研究对抗样本及其应对措施可帮助我们更好理解DNNs的特性,并不断对其进行改善。例如,对抗扰动在感观上不易被人眼察觉,但能逃避DNN的检测,这表明DNN的预测方法与人脑推理不一致。当前,有一些说明和解释DNNs对抗样本存在的研究,可以让我们更加深入了解DNN模型。
本文旨在总结、讨论与对抗样本及其应对策略相关的研究,系统且全面地综述了图像、图形、文本领域的前沿算法,概览了对抗攻击与防御的主要技术与成果。
本文第一部分为导读;第二部分介绍了一些对抗攻击与防御相关的常用概念及其定义,同时对攻击与防御进行了基本分类;第三和第四部分着重讨论了图像分类场景中的主要攻击及防御技术;第五部分简述了一些研究,旨在解释对抗样本现象;第六和第七部分分别综述了图形及文本数据领域的相关研究。
参考链接:https://mp.weixin.qq.com/s/UfK7YcVTQzsHUNVnyK7jEA
来源:《International Journal of Automation and Computing》编辑部