知物由學 | AI時代，那些黑客正在如何打磨他們的「利器」？（二）

05-03

「知物由學」是網易雲易盾打造的一個品牌欄目，詞語出自漢·王充《論衡·實知》。人，能力有高下之分，學習才知道事物的道理，而後才有智慧，不去求問就不會知道。「知物由學」希望通過一篇篇技術乾貨、趨勢解讀、人物思考和沉澱給你帶來收穫的同時，也希望打開你的眼界，成就不一樣的你。當然，如果你有不錯的認知或分享，也歡迎通過郵件（zhangyong02@corp.netease.com）投稿。

在本系列的「第一部分」中，我們介紹了機器學習如何幫助黑客進行信息收集以及模擬攻擊。接下來我們介紹本系列的第二部分：

3.利用機器學習進行未經授權的訪問

接下來是獲得對用戶帳戶的未經授權的訪問。想像一下網路犯罪分子需要未經授權訪問用戶的會話，顯而易見的方法是不斷的去嘗試密碼登錄。對於大規模的黑客行為，其中一個非常惱人的事情是驗證碼。許多計算機程序可以解決簡單的驗證碼測試，但最複雜的部分是對象分割，有許多研究論文描述了驗證碼驗證方法。2012年6月27日，Claudia Cruz，Fernando Uceda和Leobardo Reyes發表了該領域的機器學習的第一個例子。他們使用支持向量機（SVM）的方法來破解在reCAPTCHA圖像上運行的系統，其準確率為82％，並且所有的驗證碼機制都得到了改善。但是之後，出現了一大堆利用深度學習方法破解CAPTCHA的論文。2016年，有文章[1]發表詳細說明了如何使用深度學習以92％的準確率打破簡單驗證碼。

另一項研究是使用了圖像識別領域的最新進展之一[2]，具有34層的深度殘留網路，打破印度流行網站IRCTC的CAPTCHA，準確率達到95-98％。這些論文大多採用基於字元的CAPTCHA。

其中一個最鼓舞人心的論文是在BlackHat會議上發布的，這項研究被稱為「我是一個機器人」。他們打破了最新的語義圖像CAPTCHA的記錄，並比較了各種機器學習演算法，並且打破了Google的reCAPTCHA的記錄，準確率達到98％。

更讓人敬畏的是，一篇新的文章指出，科學家稱即將推出100％的CAPTCHA驗證方法。網路犯罪分子可能在機器學習的幫助下找到另一個領域是暴力破解密碼。

在深度學習成為熱門話題之前的很長一段時間裡，馬爾可夫模型是2005年用來產生密碼「預測」的第一個模型。如果你熟悉當前的神經網路和LSTM，你可能已經聽說過一個基於訓練的文本生成文本的網路，例如，如果你給這個網路一個莎士比亞的作品，它會根據它創建一個新的文本。同樣的想法也可以用來生成密碼。如果我們能夠使用最常見的密碼來訓練網路，並且可以生成許多類似的密碼。研究人員採用這種方法，將其應用於獲取密碼並獲得了不錯的結果，這比傳統的方式更好地創建密碼列表，例如將字母更改為符號，例如從「s」到「$」。

另一種方法是在論文「PassGAN：密碼猜測的深度學習方法 [3]」之一中提到的，研究人員使用GAN（生成對抗網路）來生成密碼。GAN是由兩個網路組成的特殊類型的神經網路; 一個通常被稱為生成性的，另一個是有區別性的。當一個網路產生敵對的例子時，另一個是測試他們是否可以解決一個問題，其核心思想是根據最近發生的數據泄露所收集的密碼真實數據來訓練網路。在發布了來自所有違規的14億個密碼的最大資料庫之後，這個想法的實現對於網路罪犯來說看起來很有希望。

4.利用機器學習進行攻擊

網路犯罪分子想要利用機器學習的第四個領域就是實際的攻擊。總體而言，攻擊有三個總體目標：間諜活動，破壞活動和欺詐行為。這些惡意軟體、間諜軟體、勒索軟體或任何其他類型的惡意程序都是由網路釣魚或攻擊者將其上傳到受害者的計算機上而造成的。無論如何，攻擊者都需要以某種方式將惡意軟體上傳至受害者機器上。

使用機器學習來保護惡意軟體可能是第一個在網路安全領域進行機器學習的商業成功的應用，現在已經有很多篇論文描述如何使用人工智慧（AI）檢測惡意軟體的不同技術。

網路犯罪分子如何利用機器學習來製造惡意軟體？第一個眾所周知的用於創建惡意軟體的AI例子是在2017年發表的一篇名為「基於GAN的黑盒攻擊產生敵手惡意軟體的例子」的論文中[4]提出的，作者建立了一個名為MalGAN的網路。

該研究提出了一種生成惡意軟體實例的演算法，能夠繞開基於黑箱機器學習的檢測模型。它所提出的演算法比傳統的基於梯度的生成演算法實例要好得多，並且能夠將檢測率降低到幾乎為零。系統以原始惡意軟體樣本為輸入，基於樣本和一些雜訊輸出敵對樣本。神經網路的非線性結構使他們能夠生成更複雜，更靈活的例子來欺騙目標模型。

我之前提到有三個主要的攻擊目的：間諜，破壞和欺詐，其中大部分是由惡意軟體執行的。不過，還有另外一種相對較新的攻擊方式，可以被視為破壞行為，被稱為Crowdturfing[5]。簡而言之，是惡意使用眾包服務。例如，攻擊者向工作人員支付一些現金，為競爭業務寫入不好的在線評論。由於是真實的人寫的，這些評論往往不被發現，因為自動化工具正在尋找軟體攻擊者。

其他選項可能是海量的，DoS攻擊或者是假信息的產生。在機器學習的幫助下，網路罪犯可以降低這些攻擊的成本並實現自動化。 2017年9月發布的「在線評論系統中的自動化人群攻擊和防禦」研究論文介紹了一個系統，該系統生成對Yelp的虛假評論。好處不僅僅是無法檢測到的很好的評論，而是比人類評分更高的評論。

5.網路犯罪自動化的機器學習

有經驗的黑客可以使用機器學習在各個領域自動完成某些必要的任務。因此很難說什麼時候是自動化的，但是由於網路犯罪組織有成百上千的成員，可能會出現不同類型的軟體，也可能會支持更多的我們意想不到的方式。

至於具體的網路犯罪，還有一個新術語——Hivenet[6]-它們是聰明的殭屍網路。這個想法的大概內容是，如果殭屍網路是由網路犯罪分子手工管理的，那麼蜂巢網路可以有一個大腦來支撐完成一個特定的事件，並根據事件改變它的行為。多台機器人同時處在設備上，根據任務，他們將決定現在誰將使用受害者的資源，就像生物體中的一串寄生蟲。

原文地址：知物由學 | AI時代，那些黑客正在如何打磨他們的「利器」？（二）

附錄：

「深度學習以92%的準確率打破簡單驗證碼」[1]
34層深度殘差網路破解CAPTCHA[2]
PassGAN:密碼猜測的深度學習方法[3]
基於GAN的黑盒攻擊[4]
惡意使用眾包服務：Crowdturfing[5]
聰明的殭屍網路：Hivenet[6]

文中知識點，可在尾部長按識別二維碼關注網易易盾公眾號，輸入「20180306」獲得鏈接查看。