自動化Web滲透Payload提取技術

10-07

本文僅作技術討論，禁止用於其他非法用途

0x0 寫在前面

做Web安全已經三四年了，從最初的小白到今天的初探門路，小鮮肉已經熬成了油膩大叔。Web安全是一個日新月異的朝陽領域，每天的互聯網上都在發生著從未暴露的0 Day和N Day攻擊。這時一個大家都意識到的重要問題就浮出水面了：如何能從海量Web訪問日誌中把那一小撮異常請求撈出來，供安全人員分析或進行自動化實時阻斷和報警？

對於這個問題，傳統的方法是利用

傳統的WAF

（無機器學習引擎），進行

規則匹配

。傳統WAF有其存在的意義，但也有其掣肘。首先，安全從業人員都懂，基於黑名單的防禦往往存在各種被繞過的風險，看看安全論壇里各式花樣打狗（安全狗）秘籍就可見一斑。其次，傳統WAF只能發現已知的安全攻擊行為或類型，對於新出現的攻擊存在更新延遲，維護上也有比較大的成本。我認為這些問題都源於一個現實——傳統WAF不能對其保護的網站進行建模，因此只能基於已知規則，對各式各樣的Web系統進行統一的

無差別

的保護。

近年來，機器學習（包括深度學習）高調闖入人們的視野，也逐步應用在了信息安全領域。基於機器學習的WAF相關論文和文章也看了一些，似乎大家都主要應用了有監督機器學習，也都提到了一個問題：有標記的攻擊數據集（黑樣本）難於大量獲取。而一小波提出無監督異常檢測思路的文章，又會遇到精確度低的問題。

針對這些問題，我決定先進行一些分解。既然直接預測整個請求是否是攻擊很難做到可接受的準確率，不妨就先把異常的攻擊Payload找出來。找出來後，就可以用來進行精準的攻擊分析，還可以幫助優化WAF規則等。本文所述的技術最大的優勢是無監督，無需先驗規則即可自動提取異常Payload。

項目GitHub： https://github.com/zhanghaoyil/Hawk-I （不斷完善中，歡迎貢獻代碼）

0x1 思路

要把異常參數找出來，最顯而易見要解決的問題就是如何量化請求中各參數的異常程度。為了最大化利用日誌中蘊含的需要保護的Web系統自身的結構信息，我決定對請求按訪問路徑進行拆解，即分析

參數value在同路徑同參數Key的其他參數值中的異常程度

。

具體演算法步驟是：

1）基於TF-IDF對不同路徑下的樣本分別進行特徵向量化，按參數維度對特徵向量進行

匯聚

。

2）基於特徵向量提取出樣本參數在同路徑同參數Key的其他參數值中異常分數AS（Anomaly Score）。

3）設置閾值T，取出AS大於T的異常參數值作為輸出。

0x2 數據集及預處理

本文使用HTTP CSIC 2010數據集。該數據集由西班牙最高科研理事會CSIC在論文Application of the Generic Feature Selection Measure in Detection of Web Attacks中作為附件給出的，是一個電子商務網站的訪問日誌，包含36000個正常請求和25000多個攻擊請求。異常請求樣本中包含SQL注入、文件遍歷、CRLF注入、XSS、SSI等攻擊樣本。數據集下載鏈接：http://www.isi.csic.es/dataset/ 。在本項目Github中也準備好了。

HTTP CSIC 2010數據集單個樣本為如下格式：

根據觀察，該數據集除路徑（URI）和參數外其他Header無任何攻擊Payload，具有很多冗餘信息。因此對該數據集進行格式化，只保留HTTP方法、路徑和參數，轉為JSON格式方便後面使用。具體進行了如下預處理，具體代碼見data/parse.py：

1）去除冗餘信息。

2）執行迭代的urldecode。

3）生成標準化的參數，將大小寫字母、數字分別轉換為a和n。同時保留原始參數和標準化的參數，用於最終的Payload提取。

0x3 實現

根據演算法步驟，項目主要分為向量化和參數異常評估和異常Payload提取兩部分。

0x3a 向量化和參數異常分數

一個Web訪問記錄的成分是比較固定的，每個部分（方法、路徑、參數、HTTP頭、Cookie等）都有比較好的結構化特點。因此可以把Web攻擊識別任務抽象為文本分類任務，而且這種思路應用在了安全領域，如有監督的攻擊識別[1]、 XSS識別[2] 等。文本分類任務中常用的向量化手段有詞袋模型（Bag of Word，BOW）、TF-IDF模型、詞向量化（word2vec）等，兜哥的文章[3]已經做了詳細的講解。

經過對Web日誌特點的分析，本文認為使用TF-IDF來對樣本進行向量化效果更好。一是經過標準化後請求參數的值仍會有非常多的可能性，這種情況下詞袋模型生成的特徵向量長度會非常大，而且沒法收縮；二是每個請求中參數個數有大有小，絕大多數不超過10個，這個時候詞向量能表達的信息非常有限，並不能反映出參數value的異常性；三是TF-IDF可以表達出不同請求同一參數的值是否更有特異性，尤其是IDF項。

舉個例子， http://ip.taobao.com/ipSearch.html?ipAddr=8.8.8.8 是一個查詢IP詳細信息的頁面（真實存在），在某一段時間內收到了10000個請求，其中9990個請求中ipAddr參數值是符合xx.xx.xx.xx這個IP的格式的，通過0x2中提到的標準化之後，也就是9990個請求的ipAddr參數為n+.n+.n+.n+ （當然這裡做了簡化，數字不一定為多位）。此外有10個請求的ipAddr是形如alert("XSS")、"or "1" = "1之類的不同的攻擊Payload。

經過TF-IDF向量化後，那9900個請求ipAddr=n+.n+.n+.n+這一項的TF-IDF值：

TF-IDF normal = TF IDF = 1 log(10000/(9990+1)) = 0.001

而出現ipAddr=alert("XSS")的請求的TF-IDF值：

TF-IDF abnormal = TF IDF = 1 log(10000/(1+1)) = 8.517

可以看出異常請求參數value的TF-IDF是遠大於正常請求的，因此TF-IDF可以很好地反映出參數value的異常程度。

熟悉TF-IDF的同學一定有疑問了，你這TF-IDF的字典也會很大呀，如果樣本量很大而且有各式各樣的參數value，你的特徵向量豈不是稀疏得不行了？對於這個問題，我有一個解決方案，也就是將所有的TF-IDF進一步加以處理，對參數key相同的TF-IDF項進行求和。設參數key集合為K={k1, k2, …, kn}，TF-IDF字典為集合x={x1, x2, …, xm}。則每個參數key的特徵值為：

vn = ∑TF-IDFxn xn∈{x | x startswith 『kn=』}

具體代碼在vectorize/vectorizer.py中：

這些特徵向量能否充分反映樣本的異常性呢？我使用未調參的隨機森林模型進行驗證，得到了大於95%準確率的結果，比較滿意。下圖是模型學習曲線，可以看出仍處於欠訓練的狀態，如果樣本量更充足的話將會得到更好的效果。

由於本文所述方法旨在使用無監督學習提取異常參數，並不用糾結於有監督分類的結果，只要驗證了提取的特徵的確可以反映出參數的異常性即可。

0x3b 異常參數值提取

得到參數值的異常分數下面的工作就簡單多了，主要就是：

1）數據的標準化（Standardization）

2）根據閾值確定異常參數

3）根據異常分數在訓練集矩陣的位置提取對應的參數值

這部分沒有什麼特別的邏輯，直接看代碼吧：

提取結果：

可以看到，至此已經把異常參數值提取出來了，包括SQL注入、XSS、命令注入、CRLF注入、文件包含等典型的攻擊Payload。

0x4 後續計劃

這篇文章算是我在信息安全領域應用機器學習一系列嘗試的第一篇，思路不算清奇，也沒有什麼特別的難點。但我個人喜歡先抑後揚，不管怎麼樣先把成果搞出來，然後再慢慢優化和進步嘛。路總是一步一步走的。

後面我打算還是在Web安全這個領域做一些機器學習應用嘗試。這篇文章只是靜態地提取出異常Payload，而沒有利用到關鍵的Web系統結構信息，包括訪問時序的特徵，訪問來源主體（IP、UID、設備指紋等）、訪問分布的特徵，我將充分利用這些信息，嘗試開發一個無規則化的簡易機器學習WAF。

參考鏈接：

[1]: https://github.com/Monkey-D-Groot/Machine-Learning-on-CSIC-2010
[2]: http://www.freebuf.com/news/142069.html
[3]: http://www.freebuf.com/column/167084.html

*本文原創作者：zhanghaoyil，本文屬FreeBuf原創獎勵計劃，未經許可禁止轉載