知物由學 | AI時代，那些黑客正在如何打磨他們的「利器」？（一）

04-05

「知物由學」是網易雲易盾打造的一個品牌欄目，詞語出自漢·王充《論衡·實知》。人，能力有高下之分，學習才知道事物的道理，而後才有智慧，不去求問就不會知道。「知物由學」希望通過一篇篇技術乾貨、趨勢解讀、人物思考和沉澱給你帶來收穫的同時，也希望打開你的眼界，成就不一樣的你。當然，如果你有不錯的認知或分享，也歡迎通過郵件（zhangyong02@corp.netease.com）投稿。

機器學習（ML）正在迅速的被用來應對網路安全領域以及其他技術領域，在過去的一年中，關於機器學習在防禦和攻擊方面的使用已經有了大量的實例。雖然大多數文章都涉及到哲學論證方面（我推薦閱讀「網路安全中的機器學習的真相」[1]），但是，網路犯罪分子的機器學習似乎已經被描述的與我們想像的並完全不一致了。

儘管如此，美國情報界也非常高度關注人工智慧[2]。最近的調查結果顯示網路犯罪分子正在研究如何利用機器學習來使攻擊更猛烈、更快、更便宜地執行。

本文的目標是系統化有關惡意網路機器學習部署的可能涉及到的現實生活方式的信息。它旨在幫助信息安全團隊的成員為即將發生的威脅做好準備。

1.網路犯罪分子的任務：

所有網路犯罪分子都可以通過機器學習輔助完成相關任務，例如從最初信息收集開始、到引起系統妥協，可以分為以下幾類：

信息收集——準備攻擊。
假冒——企圖模仿。
未經授權的訪問——繞過限制訪問某些資源或用戶帳戶。
攻擊——執行實際的攻擊，如惡意軟體或DDoS。
自動化——自動化開發和後期開發。

2.信息收集的機器學習：

信息收集是網路攻擊的第一步，無論是針對個人攻擊還是針對多人攻擊。你收集到的信息越好，你就會有更好的攻擊成功的機會。

至於釣魚或感染準備，黑客可能會使用分類演算法將潛在受害者描述為屬於可以攻擊的群體。想像一下，在收集了數以千計的電子郵件之後，你只會將惡意軟體發送給那些更有可能點擊鏈接的人，將其標記為可攻擊群體，從而降低安全團隊參與的可能性。在這裡可能有很多因素都能起到幫助，舉一個簡單的例子，你可以將他們在社交網站上撰寫的IT主題的用戶與專註於食物和貓的用戶區分開來。作為攻擊者，我會選擇後者，因為他們根本就不懂網路攻擊到底是什麼。這些區分可以使用從K均值和隨機森林到神經網路的各種聚類和分類方法來完成。

關於針對性攻擊的信息收集，它的任務不是收集儘可能多的個人攻擊目標，其使命是儘可能多地獲得相關基礎設施的信息。這個想法是自動化所有的檢查，包括有關網路基礎設施的信息收集。雖然現有的網路掃描儀和嗅探器等工具可以分析傳統網路，但基於SDN的新一代網路太複雜了。這就是機器學習可以幫助到的地方。一個鮮為人知的但有趣的概念是知道你的敵人（Know Your Enemy）攻擊[3]，允許隱藏情報收集目標SDN網路的配置；這是將機器學習應用於信息收集任務的一個相關示例。黑客可以收集的信息是從安全工具和網路虛擬化參數的配置到QoS等一般網路策略。通過分析來自一個網路設備的規則然後推演出其他網路的條件以及規則的類型，攻擊者可以推斷出有關網路配置的敏感信息。

在探測階段中，攻擊者試圖觸發特定交換機上流量規則的安裝，探測流量的具體特徵取決於黑客感興趣的信息。

在下一階段，攻擊者分析探測階段產生的探測流量與安裝的相應流量規則之間的相關性。從這個分析中，他或她可以推斷網路策略針對特定類型的網路流量執行。例如，攻擊者可以通過在探測階段使用網路掃描工具來篩選網路流量來實現防禦策略。如果你手動執行此操作，則可能需要數周才能收集數據，你仍然需要具有預配置參數的演算法，例如，決定需要多少特定數據包很難確定，因為數量取決於各種因素。在機器學習的幫助下，黑客完全可以自動化這個過程。

這是兩個例子，但一般來說，所有需要大量時間的信息收集任務也可以自動化。例如，可以通過添加一種遺傳演算法，LSTM或GAN來生成與現有目錄更相似的目錄名稱，來改進用於掃描可用目錄和文件的工具DirBuster。

3.機器學習模擬攻擊：

網路犯罪分子利用冒名形式以各種方式攻擊受害者，這大部分是需要取決於交流渠道。攻擊者能夠說服受害者在發送電子郵件或使用社交工程後跟蹤利用或惡意軟體的鏈接。因此，即使打電話也被認為是冒充的手段。

電子垃圾郵件是使用機器學習的最安全的領域之一，在這裡，我預計ML將成為網路犯罪分子首先應用的領域之一。他們不是手動生成垃圾郵件，而是「教」一個神經網路來創建看起來像真正的電子郵件的垃圾郵件。

但是，在處理電子垃圾郵件時，我們很難模仿一個人發郵件的規律。但問題是，如果你通過電子郵件要求員工更改密碼或公司軟體管理員下載更新，這是無法以與管理員完全相同的方式進行編寫。除非你看到一堆電子郵件，否則你將無法複製樣式。即便如此，這個問題也可以通過網路釣魚來解決。

社交媒體網路釣魚比電子郵件網路釣魚的最大優勢是公開性和便於訪問到的個人信息。你可以通過閱讀他或她的帖子來觀看和了解用戶的行為。這個想法在最近一個名為「社會工程數據科學化」的研究[4]中得到了證明 - Twitter上的自動E2E魚叉式網路釣魚。這項研究提出了SNAP_R，這是一個自動化的工具，可以顯著增加釣魚攻擊活動。有了它，傳統的自動釣魚攻擊可以提升大約5-14％的準確度，而手動釣魚的釣魚攻擊則有45％。他們的方法恰到好處，準確率達到30％，在某些情況下甚至達到了66％。他們使用馬爾科夫模型根據用戶以前的推文生成推文，並將結果與當前的神經網路，特別是LSTM進行比較。LSTM提供更高的準確度，但需要更多的時間來訓練。

在人工智慧的新時代，企業不僅會製造假冒文字，還會製造虛假的聲音或視頻。Lyrebird是一家專註於模仿聲音的媒體和視頻的創業公司，他們展示了可以製作出與你完全發音相同的機器人。隨著越來越多的數據出現和不斷發展的網路，黑客可以獲得的東西也就越來越多，自然而然成功的幾率也就越高。由於我們不知道Lyrebird是如何工作的，所以黑客可能無法使用這個服務來滿足自己的需求，但是他們可以發現更多的開放平台，比如Google的WaveNet[5]，它們可以做同樣的事情。

值得注意的是，那些黑客們現在正在應用生成敵對網路（GAN）——一種更先進的神經網路類型。

在下一篇中，我們將討論黑客如何可能使用機器學習來獲得未經授權的訪問和實施攻擊（譯者/盾虎）。

附錄：

「網路安全中的機器學習的真相」[1]
美國情報界也非常高度關注人工智慧[2]
一個鮮為人知的但有趣的概念是知道你的敵人（Know Your Enemy）攻擊[3]
一個名為「社會工程數據科學化」的研究[4]
Google的WaveNet[5]

文中知識點，可關注網易易盾公眾號「yidun_163yun」，輸入「20180301」獲得鏈接查看。