Google驚人研究：一組圖片，就能強迫神經網路執行其他任務

07-14

來自專欄量子位236 人贊了文章

夏乙發自凹非寺
量子位出品 | 公眾號 QbitAI

還記得那些把熊貓認成猩猩、把烏龜認成槍、把槍認成直升機的演算法嗎？

它們遭遇的，是一個名為「對抗攻擊(adversarial attacks)」的敵人。這個敵人每次出現，都能讓圖像識別演算法不知所措。

現在，更喪心病狂的來了。

谷歌大腦三位研究員Gamaleldin F. Elsayed、Ian Goodfellow、Jascha Sohl-Dickstein的最新論文展示了一種新型對抗攻擊手段，AI前所未遇的強大敵人。

他們說，對抗攻擊不僅能讓圖像識別模型認錯圖，還能對被攻擊模型進行重新編程，讓它們拋棄本職任務，去干一些由攻擊者指定的，別的事情。他們將這種偷天換日指派的事情稱為「對抗任務」。

就算是模型根本沒有這種技能，也沒關係。所需要的，僅僅是在測試圖像上加入一些對抗擾動信息。

比如說，讓ImageNet分類器改行去數方塊。

實現的過程並不複雜，總共分三步。

首先，要在ImageNet標籤和對抗任務標籤之間建立映射。在這個例子里，就是將ImageNet的類別，映射到方塊的數量，鯉魚是1個方塊，金魚是2個方塊，白鯊是3個方塊……

映射建立好之後，就要把表示對抗任務的圖片嵌入到一個對抗程序圖片的正中間，得到用來攻擊神經網路的對抗圖片。

接下來，就該讓對抗圖片和目標模型見面了。

二者見面之後，目標模型就放棄了原本的圖像識別任務，只會數圖上究竟有幾個方塊。

重新分配的任務也可以比數方塊複雜一點，比如說，讓ImageNet分類器以為自己是個只會識別手寫數字的MNIST分類器。

用來實現這個任務的對抗圖片，就長成上圖的樣子。

同樣的方法，還可以讓ImageNet分類器變成CIFAR-10分類器。

慘遭他們毒手的，有六個ImageNet圖像識別模型，包括三種Inception變體和3種Resnet變體。

還好還好，沒讓神經網路去幹什麼驚世駭俗的事兒。

但是要知道，這項研究才剛剛起步，以後會發展到什麼程度，誰也不好說……畢竟，以前並沒有人給神經網路挖過這樣的陷阱。

Elsayed等人在論文中也說，這些結果首次展示了這類攻擊的可能性。

這一研究的三個作者，全部來自Google Brain團隊。

其中第一作者Gamaleldin F. Elsayed，去年從哥倫比亞大學獲得博士學位。目前，他其實是一位Google AI Residency成員，也就是相當於實習或者訪學的身份。

第二作者Ian Goodfellow，大名鼎鼎。通常也被稱作生成對抗網路（GANs）之父，人工智慧領域的大牛。早年間，他致力於教神經網路造假騙人；現在，他的大部分研究集中在對抗攻擊領域，專註於欺負神經網路。

第三作者Jascha Sohl-Dickstein，2012年在伯克利獲得博士學位。加入Google之前曾在斯坦福做訪問學者。

Jascha把他們的這個研究發到了Twitter上，立刻引發了大量用戶的轉載。不過留言評論的目前只有一個人。

那個人問：你們什麼時候發布源代碼？謝。

……

論文

更多詳情，請看他們的論文：

Adversarial Reprogramming of Neural Networks

Gamaleldin F. Elsayed, Ian Goodfellow, Jascha Sohl-Dickstein

https://arxiv.org/abs/1806.11146

當然，如果你想直接下載pdf版本，也可以在量子位公眾號（QbitAI）對話界面，回復：「攻擊」兩個漢字即可。

— 完 —

歡迎大家關注我們的專欄：量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態