A Deep Learning Approach to Fast, Format-Agnostic Detection of Malicious Web Content 閱讀筆記

05-23

來自專欄西土城的搬磚日常

論文地址：https://arxiv.org/abs/1804.05020

來源：[cs.CR] 13 Apr 2018

1 介紹

惡意網頁內容檢測，旨在發現網頁中隱藏的攻擊代碼、釣魚信息等。論文提出的方法不單追求危險檢測的效果，還要求該方法能夠在諸如終端設備等商業級硬體上快速運行，不至於影響用戶體驗。論文採用了詞袋結合樹形分層檢測結構的方法，以多種詞袋式方法作為基線，架構以0.1％的誤報率實現97.5％的檢測率，並在商用硬體上以每秒超過100個的速率對小批量網頁進行分類。

2 系統結構

網路主要由特徵表示層、Inspector、Master三個部分組成，下面分別介紹。

2.1 特徵表示

傳統的用詞袋方法進行惡意網頁內容檢測都是基於整個網頁的詞袋錶示，這往往會有大量雜訊干擾，不利於檢測出藏匿在良性網頁內容下的一絲惡意網頁內容，故論文對傳統詞袋錶示做出了改進：採取基於不同空間尺度的詞袋樹表示方法。

2.1.1 Tokenize塊

Tokenize方法基於一個正則表達式：([?x00-x7F]+|w+)，把網頁內容（html文件等）劃分成沿著非字母數字內容邊界的token，再將token流平均劃分成16個塊（每個塊的長度就是裡面包含的token的個數）。

2.1.2 特徵哈西

對上述每個塊的內容進行特徵哈西（作為一種快速高效的特徵壓縮方法），每個塊得到一個1024維的詞袋式向量，故得到一個 $16 imes1024$ 的特徵矩陣。

2.1.3 構建分層樹

對上述 $16 imes1024$ 的矩陣進行 $window\_length = 2$ , $step\_size = 2$ 的均值pooling，直到輸出矩陣大小為 $1 imes1024$ ,得到分層樹。分層樹的葉子節點對應特徵哈西得到的16個塊的詞袋特徵，通過逐層向上整合局部信息，在根節點上得到全局信息。故通過分層樹得到一個 $31 imes1024$ 的網頁內容詞袋式特徵表示。（ $16 + 8 + 4 + 2 +1 = 31$ ）

分層樹結構圖

2.2 Inspector

Inspector是兩層全鏈接網路，用來提取網頁抽象特徵表示，結構如下圖所示。Inspector用於對不同空間尺度的詞袋特徵進行相同的特徵學習，即將 $31 imes1024$ 的分層樹特徵按行一一輸入到Inspector中，Inspector的輸出在列上進行最大值pooling，得到 $1 imes1024$ 的向量。從直覺上來看，通過上述方式，使得模型可以學到最有利於判別惡意網頁內容的模板特徵，無論這個特徵出現在網頁內容的什麼位置，以及這個網頁內容有多長。Inspector中使用Layer Norm來對抗梯度消失，利用Dropout層來減少過擬合。

Inspector結構圖

Inspector輸入輸出映射

2.3 Master

Master也是一個兩層全鏈接層結構，每層前有一層Layer Norm和Dropout，作為分類器。Master以Inspector輸出的 $1 imes1024$ 網頁抽象特徵作為輸入，最後是一組26個sigmoid單元，對應一個 $1 imes26$ 的分類結果，其中分類結果第一個值對應網頁是否含有惡意內容，後邊25個分別作為額外的信息標籤，例如是否是一個釣魚網站，或者是一個挖掘工具。