人工智慧對網路安全的意義(和誤解)

本文得到David Brumley翻譯發表授權許可,原文「為什麼CGC比賽對我很重要」。

David Brumley教授簡介

David Brumley教授現任卡耐基梅隆大學(CMU)Cylab主任,全球頂尖安全專家,ForAllSecure公司CEO,DARPA專家顧問,兩次帶領團隊在Defcon取得冠軍。去年在DARPA CGC人工智慧網路對抗比賽取得第一名,他代表了人工智慧在安全領域應用的最高水平。此文寫於CGC比賽前幾天。

正文

2008年我開始在CMU(卡耐基梅隆大學,其計算機專業與MIT、斯坦福齊名)開始擔任助理教授。我坐下來,努力思考在研究生階段學到了什麼,並苦苦思索下一步要做什麼。我的博士導師是Dawn Song,安全領域的頂尖學者之一,並在2010年贏得麥克阿瑟天才獎[1],她的成就令人望塵莫及。我常常想到這點,因為奇怪的命運安排,她離開CMU前往伯克利擔任教職後,我開始使用她在CMU的辦公室。(作者先在斯坦福讀碩士、CMU讀博,導師從CMU前往伯克利後也搬到加州,最後又回到CMU擔任教職)

當時(註:2008年)我提出的研究願景與今天我正在從事的工作一致:自動化發現軟體漏洞。對我而言,最重要的兩個關鍵詞是自動化和可利用。自動化是因為人類編寫新軟體的速度遠遠快於人工檢查的速度(不幸的是,人工檢查現在常常被採用)。可利用是指我們並不僅想找到軟體bug,而且這些bug是可被利用併入侵計算機的漏洞。 想想看,如果我們能夠開發一套系統來自動化發現漏洞,那麼軟體開發公司可以提前修復這些漏洞。使用單詞「我們」是因為我只是眾多研究者之一,而且在工業界有更多同行。

上述原因是我對DARPA舉辦的網路挑戰賽(DARPA Cyber Grand Challenge,CGC)如此興奮的原因。CGC在世界上第一次提供了一個客觀、公正的競爭環境,來衡量不同(自動化漏洞發現)方法。我們可以和不同參賽團隊比賽。DARPA為了激勵參賽團隊,提供37萬5千美元給第一名(註:按照5人蔘賽團隊規模,每個人大概可以獲得45萬人民幣)。

CGC比賽現場

09年我擔任CMU教職後,多麼希望當時有類似CGC的比賽。我與我的兩個學生基於我們的研究成果成立了一家名為AllForSecure的公司。一周後(註:2016年8月初)我們將使用該系統與其它團隊PK。AllForSecurity公司人數也從3人增長到9人,作為一家匹茲堡初創企業(註:CMU位於賓夕法尼亞州匹茲堡市),公司開發人員來自於名為PPP的安全團隊。我非常幸運,能夠與如此有才華的一群人共同工作,他們都有打造世界上最好軟體漏洞發現系統的願望,並渴望最終通過構建自動化系統來檢查真實世界的軟體漏洞。

我們也很幸運,將與一些非常棒的團隊比賽,包括:Shellphish來自UCSB(加州大學聖巴巴拉分校),Grammatech公司、DeepRed深紅來自於雷神公司(註:全球最大軍火供應商之一),當然還有我的導師 Dawn Song。即使是那些我不太熟悉的團隊如CSDS,他們已經做了了不起的工作。 ForAllSecure在一年前的資格賽中取得了不錯成績,但總決賽完全不同,所有團隊將展開激烈競爭。

正如諺語所說,「種樹的最佳時間是在20年前,下一次種樹的最佳時間是今天」。

我很激動CGC種下了正確的樹。也許20年後,我們將擊敗世界上最聰明的大腦。作為一個類比,1960年國際象棋計算機系統已可用,但它花了30多年才在1997年戰勝世界冠軍卡斯帕羅夫。國際象棋花費了30年,而計算機安全的複雜度比國際象棋高几個數量級!

CGC比賽並不完美,我們不會挑戰複雜軟體如瀏覽器。人類也許會發現自動化系統無法發現的漏洞,自動化系統將遠不夠完善。但是CGC提供了一個公平的競爭環境,這是鼓勵持續進步的正確理念。2016年8月4日,將開始CGC第一場比賽。

譯者後記

機器學習,深度學習,人工智慧這些火熱的概念和技術目前在網路安全領域應用非常有限,主要原因是「網路安全本質是人和人之間的對抗」。數據挖掘用於網路安全最早始於1996年Oakland論文「A sense of self for Unix processes」;20年過去了,我們仍然未取得重大進展,包括惡意代碼和漏洞等重要方向。今年RSA會議的人工智慧創新乏善可陳,Splunk和IBM等大廠的產品亮點也不多;Cylance在融資一億美元後,其後續發展值得關注。

總結下,人工智慧在網路安全的應用仍處於「嬰兒階段」,我們期待巨頭公司如谷歌和蘋果將最先進的人工智慧技術大規模應用在安全領域(為什麼首先是巨頭公司,留給讀者思考)。

推薦閱讀:

ML6-Keras1 "hello world of deep learning "(李宏毅筆記)
h2o.ai--Driverless AI
鋼鐵直男的救世主來了!讓AI告訴你妹子到底是啥意思
看得見的資訊理論-為什麼用交叉熵作為邏輯回歸的代價函數
計算機視覺學習之路——每日更新

TAG:人工智慧 | 網路安全 | 機器學習 |