對抗樣本論文匯總(添加了一個survey)

對抗樣本(adversarial examples)這一概念在Szegedy et al. (2014b)中被提出:對輸入樣本故意添加一些人無法察覺的細微的干擾,導致模型以高置信度給出一個錯誤的輸出。

現如今,deep neural networks在很多問題上都取得了極大的飛躍,但對抗樣本這一問題卻在deep neural networks 中普遍存在。當下機器學習儼然成為了炙手可熱的話題,無論是為了提高模型的魯棒性,還是為了確保應用上的安全性(比如考慮日後的無人駕駛,對路標進行篡改,在人眼不可發現的情況下讓「停止」路標被識別為「禁止停車」),對抗樣本問題都越來越引起了人們的重視。

作為一個信息安全本科轉CS直博的學生,本人也擬採用「對抗樣本」作為畢設的課題(最終定題是在明年二三月份,但基本不會變了),在這期間也會將一些理解和學習總結整理到專欄中。但由於時間有限,且對有些論文理解不是很透徹,無法將所有內容都發到專欄里,故在這篇文章里匯總一下個人認為可以借鑒學習的一些論文,方便有興趣的人參考。

PS:本文會(在一定時間範圍內)持續更新(補充和修改)。


Explaining and Harnessing Adversarial Examples:

對抗樣本方向上的經典論文(Goodfellow et al.),對已有的工作進行了一個全面的總結,解釋了神經網路對干擾表現脆弱的原因是神經網路的線性(早期的解釋是對抗樣本的原因是非線性和過擬合),設計了一種快速生成adversarial examples的方法(Fast Gradient Sign Method),這個方法被之後的工作所廣泛採用

Deep Neural Networks are Easily Fooled:

提出了三種方式生成去一些fool examples(主要是通過兩種EA演算法),這些樣本人類完全無法識別,但深度學習模型會以高置信度對它們進行分類(與大部分的論文不同:大部分論文提出的是對圖片施加人眼無法識別的干擾,但能使分類器將它錯誤分類,本篇論文關注的是人無法識別的圖片分類器卻能將其以很高的置信度識別),例如將雜訊識別為獅子。

Practical Black-Box Attacks against Machine Learning:

論文的作者提出了一種基於黑盒攻擊的方式,在不知道模型的參數、結構等情況下,訓練一個跟想要攻擊的目標模型完成同樣任務的替代模型,基於當前的模型去生成對抗樣本,這些對抗樣本最終被用於攻擊原目標模型。(其實這件事情很好想,因為對抗樣本是有移植性的)

Ensemble Adversarial Training Attacks and Defenses:

提出了一種更有效的one-shot攻擊——RAND+FGSM,以及提出一種更加有效的adversarial training方式——Ensemble Adversarial Training(這種對抗訓練方式被之後的研究工作所普遍使用)

DeepFool: a simple and accurate method to fool deep neural networks:

提出了deepfool演算法用以生成針對模型的minimal perturbation,且因為生成的是(近似)最小的干擾,所以可以用來估量模型的魯棒性。

adversarial examples在文本上的一些(極少)工作:

Deep Text Classification Can be FooledTowards Crafting Text Adversarial Samples:

針對文本分類生成對抗樣本——對輸入文本進行增刪改處理,使得文本分類出現分類錯誤

Adversarial Examples for Evaluating Reading Comprehension Systems:

針對QA系統生成對抗樣本——對原文paragraph增添句子,讓QA系統回答錯誤

關於提高模型的魯棒性:

Robust Supervised LearningRevisiting Distributionally Robust Supervised Learning in Classification

更改訓練時的樣本分布使得訓練的模型更加robust。

PS:第二篇論文Revisiting Distributionally Robust Supervised Learning in Classification為本人在閱讀Robust Supervised Learning這篇論文遇到問題跟作者Bagnell郵件溝通時作者推薦的可參考的論文。

----------------------2017.12.22更新------------------------

ADVERSARIAL MACHINE LEARNING AT SCALE

提出在大型的數據上如何adversarial training,對single-step attack和multi-step attack做了比較,發現multi-step attack的移植性較差,所以single-step更適合用於黑盒攻擊。「label leaking」( adversarial example is

generated using the true label) 會導致經過adversarial

training訓練後的模型在adversarial examples上的表現比clean examples上好。

Intriguing properties of neural network

首次提出對抗樣本。

發現,1. 在高層上,單個節點和節點的隨機線性組合沒有區別,所以在neural network的high layer上,是整個空間而非單個節點包含語義信息。

2. 深度神經網路學習的input-output映射在很大程度上是相當不連續的。

Boosting Adversarial Attacks with Momentum

NIPS 2017 Targeted(Non-targeted) Adversarial Attack比賽上Top.1清華的隊伍將他們生成對抗樣本的方法總結成的一篇論文,方法是基於動量的迭代演算法。

Mitigating adversarial effects through randomization

NIPS 2017 Defense Against Adversarial Attack比賽上Top.2的隊伍將他們防禦對抗樣本的方法總結成的一篇論文,方法是隨機resize+隨機padding+adversarial training

2018.2.11更新---------------------------------

抱歉很久沒更新了,因為最近事太多了…

今天先放一下 ICLR 2018 接收的關於defense adversarial examples的八篇論文(還沒來得及看,看完會整理出來),以及一篇論文提出了「混淆梯度」這一概念,並對這八篇論文進行了實驗,發現其中的七篇論文中的防禦可以被他們的攻擊技術攻破。

ICLR 2018 的八篇論文:

Thermometer Encoding: One Hot Way To Resist Adversarial Examples

Characterizing Adversarial Subspaces Using Local Intrinsic Dimensionality

Countering Adversarial Images using Input Transformations

Stochastic activation pruning for robust adversarial defense

Mitigating Adversarial Effects Through Randomization(NIPS 2017 Defense Against Adversarial Attack比賽上取得第二

PixelDefend: Leveraging Generative Models to Understand and Defend against Adversarial Examples

Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models

Towards Deep Learning Models Resistant to Adversarial Attacks (這篇是唯一的沒有被那個新的攻擊技術攻破的)

看了一下這篇論文,總的來說就是對min-max鞍點問題求解,具體的做法是用迭代攻擊來做對抗訓練,不過與傳統對抗訓練不同的是,該方法在訓練的過程中沒有直接對任何原樣本進行訓練。感覺這論文主要的貢獻是使對抗訓練和魯棒性優化之間的關係更加明確,對min-max公式做了系統性的實證研究,當然他的實際防禦效果跟其他的相比也是較好的。不過,該方法雖然在MNIST上的效果很好,但在CIFAR-10上的效果就不是那麼理想了,作者給的解釋是泛化不佳。

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

該論文中提到 發現了一種「混淆梯度」(obfuscated gradient)現象,它給對抗樣本的防禦帶來虛假的安全感。儘管基於混淆梯度的防禦看起來擊敗了基於優化的攻擊,但是作者發現依賴於此的防禦並非萬無一失。對於發現的三種混淆梯度,論文中描述展示這一效果的防禦指標,並開發攻擊技術來克服它。在案例研究中,試驗了 ICLR 2018 接收的 8 篇論文,發現混淆梯度是一種常見現象,其中有 7 篇論文依賴於混淆梯度,並被的這一新型攻擊技術成功攻克。

2018.3.30更新------------------------------------

就,開始寫畢設了,然後,為了改掉刷手機這毛病直接把知乎微博都卸了,好久沒上知乎。再加上懶癌發作,也好久沒更新了,直接扔個大雜燴,逃...

Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

這是一個關於對抗樣本的survey,作者引了190+的論文,還是很全面的


推薦閱讀:

教你如何寫出一篇A+ Report!
在社交媒體上曬論文,會帶來更高的引用嗎?
論文筆記:Matching Networks for One Shot Learning
AAAI 2018最佳論文出爐,中國留學生再下一城
論文格式要求及字體大小

TAG:機器學習 | 論文 | 信息安全 |