警惕人工智慧系統中的木馬、病毒——深度學習對抗樣本簡介

近年來,隨著深度學習的興起,人工智慧的發展迎來了新的高潮,科學家和工程師們在圖像、語音、自然語言處理等多個方面取得了突破性的進展,某些領域AI已經超越人類。然而,在深度學習「一統天下」的同時,研究者們也發現,基於深度神經網路模型的系統,很容易被欺騙愚弄。如圖1所示,對於一張熊貓的照片,加上人為設計的微小雜訊之後,人眼是對兩張圖片看不出分別的,計算機卻會以99.3%的概率將其錯判為長臂猿[1]。對於一些人為生成的在人眼看來毫無意義的雜訊或者紋理,計算機也會以極高的概率將其分為某種類別(見圖2)[2]。上述由惡意的攻擊者故意設計生成的以欺騙人工智慧系統的樣本被稱為對抗樣本(adversarial samples)。近期的研究也發現,對抗樣本可以列印到紙面上,仍然可以達到欺騙系統的效果。也即是說,對抗樣本也是可以存在於我們生活的真實環境中的[3]。

圖1 熊貓圖像在加雜訊之後被計算機認為是長臂猿

圖2 無意義的圖片欺騙人工智慧系統

同樣的對抗樣本,會同時被不同的分類器錯誤分類,也即對抗樣本具有遷移性。例如,現有兩個圖片分類模型,一個基於VGG,一個基於Google Inception,攻擊者基於VGG模型生成了對抗樣本,然後發現該對抗樣本同樣可以欺騙Inception模型,使其對圖像分類出現錯誤。這就為黑盒攻擊提供了可能性,攻擊者即使對所要攻擊的AI系統所使用的網路模型一無所知,仍然可以生成對抗樣本。文獻[4]給出了利用對抗樣本進行黑盒攻擊的實例,對於可以自動識別交通標誌的無人駕駛系統,攻擊者生成一個禁止通行標誌的對抗樣本(如圖3右圖所示),自動識別系統會將其誤判為是可以通行的標誌。當自動駕駛系統和人類駕駛員同時駕車行駛時,這足以造成災難性的後果。

圖3 正常的交通停止標誌(左)及其對抗樣本(右),在人眼看來,這兩張圖幾乎 是無差別的,但是無人駕駛系統卻會把右圖認為是可以通行的標誌

基於強化學習的智能體同樣會被對抗樣本所操控,強化學習領域應用廣泛的演算法諸如DQN、TRPO、A3C易被對抗樣本攻擊,在機器玩Atari遊戲時表現出了性能的退化[5]。例如在Pong(乒乓)遊戲中,球拍本應該下降,但計算機卻被誤導採取了向上的動作。這其實也給中國棋手在與AlphaGo的圍棋決戰中取勝提供了一點思路。是否可以找到某種方法欺騙誤導AlaphGo,使其價值網路和策略網路出現誤判,最終戰勝人工智慧。在AlphaGo和李世石對決的第四局中,正是李世石的一手棋使得AlphaGo的神經網路對局勢的判斷出現了差錯,最終輸掉了比賽。

對於對抗樣本,一個很自然的想法就是將其當做訓練數據中的負樣本繼續訓練,來提升神經網路的分類精度。這種訓練方法也叫對抗訓練,對抗訓練過後的神經網路在原有測試集(不含對抗樣本的數據)中的精度得到了提升,同時對對抗樣本識別的正確率也得到了改善。其實,生成式網路(GAN)中就包含了對抗訓練的思想,生成器(generator)不斷的試圖生成樣本欺騙判別器(discriminator),而判別器不斷試圖找出生成器生成的樣本,兩者互相博弈,達到納什均衡,最終生成器可以生成符合原有數據真實分布的樣本。

在人工智慧的應用越來越廣泛、越來越深入的今天,我們必須對其安全性保持足夠的重視。對抗樣本就是人工智慧系統中的「木馬」、「病毒」,他可以攻擊無人駕駛系統致使安全事故;可以讓計算機把支票上的數字9識別成1,帶來潛在的經濟損失;可以把張三的臉讓計算機識別成李四,騙過人臉識別系統,在今年的315晚會中,也展示了人臉識別系統被欺騙的實例。

後續文章中,我將給大家介紹對抗樣本生成的演算法。同時歡迎研究對抗樣本的同仁們一起交流探討。

參考資料

1. Goodfellow, I.J., J. Shlens, and C. Szegedy, Explaining and Harnessing Adversarial Examples. Computer Science, 2014.

2. Nguyen, A., J. Yosinski, and J. Clune, Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. 2015: p. 427-436.

3. Kurakin, A., I. Goodfellow, and S. Bengio, Adversarial examples in the physical world. 2016.

4. Papernot, N., et al., Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples. 2016.

5. Huang, S., et al., Adversarial Attacks on Neural Network Policies. 2017.
推薦閱讀:

如何評價賈尼?
傳統IP Vendor的AI加速器一覽
人從那裡來-人是什麼系列外篇之二
如何評價《羅輯思維》第 115 期對謝熊貓君翻譯的關於人工智慧的文章的重新演繹?
智能運維繫統(一)

TAG:人工智能 | 深度学习DeepLearning | 信息安全 |