自動化Web滲透Payload提取技術
本文僅作技術討論,禁止用於其他非法用途
0x0 寫在前面
做Web安全已經三四年了,從最初的小白到今天的初探門路,小鮮肉已經熬成了油膩大叔。Web安全是一個日新月異的朝陽領域,每天的互聯網上都在發生著從未暴露的0 Day和N Day攻擊。這時一個大家都意識到的重要問題就浮出水面了:如何能從海量Web訪問日誌中把那一小撮異常請求撈出來,供安全人員分析或進行自動化實時阻斷和報警?
對於這個問題,傳統的方法是利用
傳統的WAF
(無機器學習引擎),進行規則匹配
。傳統WAF有其存在的意義,但也有其掣肘。首先,安全從業人員都懂,基於黑名單的防禦往往存在各種被繞過的風險,看看安全論壇里各式花樣打狗(安全狗)秘籍就可見一斑。其次,傳統WAF只能發現已知的安全攻擊行為或類型,對於新出現的攻擊存在更新延遲,維護上也有比較大的成本。我認為這些問題都源於一個現實——傳統WAF不能對其保護的網站進行建模,因此只能基於已知規則,對各式各樣的Web系統進行統一的無差別
的保護。
近年來,機器學習(包括深度學習)高調闖入人們的視野,也逐步應用在了信息安全領域。基於機器學習的WAF相關論文和文章也看了一些,似乎大家都主要應用了有監督機器學習,也都提到了一個問題:有標記的攻擊數據集(黑樣本)難於大量獲取。而一小波提出無監督異常檢測思路的文章,又會遇到精確度低的問題。
針對這些問題,我決定先進行一些分解。既然直接預測整個請求是否是攻擊很難做到可接受的準確率,不妨就先把異常的攻擊Payload找出來。找出來後,就可以用來進行精準的攻擊分析,還可以幫助優化WAF規則等。本文所述的技術最大的優勢是無監督,無需先驗規則即可自動提取異常Payload。
項目GitHub: https://github.com/zhanghaoyil/Hawk-I (不斷完善中,歡迎貢獻代碼)
0x1 思路
要把異常參數找出來,最顯而易見要解決的問題就是如何量化請求中各參數的異常程度。為了最大化利用日誌中蘊含的需要保護的Web系統自身的結構信息,我決定對請求按訪問路徑進行拆解,即分析
參數value在同路徑同參數Key的其他參數值中的異常程度
。具體演算法步驟是:
1) 基於TF-IDF對不同路徑下的樣本分別進行特徵向量化,按參數維度對特徵向量進行
匯聚
。2) 基於特徵向量提取出樣本參數在同路徑同參數Key的其他參數值中異常分數AS(Anomaly Score)。
3) 設置閾值T,取出AS大於T的異常參數值作為輸出。
0x2 數據集及預處理
本文使用HTTP CSIC 2010數據集。該數據集由西班牙最高科研理事會CSIC在論文Application of the Generic Feature Selection Measure in Detection of Web Attacks中作為附件給出的,是一個電子商務網站的訪問日誌,包含36000個正常請求和25000多個攻擊請求。異常請求樣本中包含SQL注入、文件遍歷、CRLF注入、XSS、SSI等攻擊樣本。數據集下載鏈接:http://www.isi.csic.es/dataset/ 。在本項目Github中也準備好了。
HTTP CSIC 2010數據集單個樣本為如下格式:
根據觀察,該數據集除路徑(URI)和參數外其他Header無任何攻擊Payload,具有很多冗餘信息。因此對該數據集進行格式化,只保留HTTP方法、路徑和參數,轉為JSON格式方便後面使用。具體進行了如下預處理,具體代碼見data/parse.py:
1) 去除冗餘信息。
2) 執行迭代的urldecode。
3) 生成標準化的參數,將大小寫字母、數字分別轉換為a和n。同時保留原始參數和標準化的參數,用於最終的Payload提取。
0x3 實現
根據演算法步驟,項目主要分為向量化和參數異常評估和異常Payload提取兩部分。
0x3a 向量化和參數異常分數
一個Web訪問記錄的成分是比較固定的,每個部分(方法、路徑、參數、HTTP頭、Cookie等)都有比較好的結構化特點。因此可以把Web攻擊識別任務抽象為文本分類任務,而且這種思路應用在了安全領域,如有監督的攻擊識別[1]、 XSS識別[2] 等。文本分類任務中常用的向量化手段有詞袋模型(Bag of Word,BOW)、TF-IDF模型、詞向量化(word2vec)等,兜哥的文章[3]已經做了詳細的講解。
經過對Web日誌特點的分析,本文認為使用TF-IDF來對樣本進行向量化效果更好。一是經過標準化後請求參數的值仍會有非常多的可能性,這種情況下詞袋模型生成的特徵向量長度會非常大,而且沒法收縮;二是每個請求中參數個數有大有小,絕大多數不超過10個,這個時候詞向量能表達的信息非常有限,並不能反映出參數value的異常性;三是TF-IDF可以表達出不同請求同一參數的值是否更有特異性,尤其是IDF項。
舉個例子, http://ip.taobao.com/ipSearch.html?ipAddr=8.8.8.8 是一個查詢IP詳細信息的頁面(真實存在),在某一段時間內收到了10000個請求,其中9990個請求中ipAddr參數值是符合xx.xx.xx.xx這個IP的格式的,通過0x2中提到的標準化之後,也就是9990個請求的ipAddr參數為n+.n+.n+.n+ (當然這裡做了簡化,數字不一定為多位)。此外有10個請求的ipAddr是形如alert("XSS")
、"or "1" = "1
之類的不同的攻擊Payload。
經過TF-IDF向量化後,那9900個請求ipAddr=n+.n+.n+.n+這一項的TF-IDF值:
TF-IDF normal = TF IDF = 1 log(10000/(9990+1)) = 0.001
而出現ipAddr=alert("XSS")
的請求的TF-IDF值:
TF-IDF abnormal = TF IDF = 1 log(10000/(1+1)) = 8.517
可以看出異常請求參數value的TF-IDF是遠大於正常請求的,因此TF-IDF可以很好地反映出參數value的異常程度。
熟悉TF-IDF的同學一定有疑問了,你這TF-IDF的字典也會很大呀,如果樣本量很大而且有各式各樣的參數value,你的特徵向量豈不是稀疏得不行了?對於這個問題,我有一個解決方案,也就是將所有的TF-IDF進一步加以處理,對參數key相同的TF-IDF項進行求和。設參數key集合為K={k1, k2, …, kn},TF-IDF字典為集合x={x1, x2, …, xm}。則每個參數key的特徵值為:
vn = ∑TF-IDFxn xn∈{x | x startswith 『kn=』}
具體代碼在vectorize/vectorizer.py中:
這些特徵向量能否充分反映樣本的異常性呢?我使用未調參的隨機森林模型進行驗證,得到了大於95%準確率的結果,比較滿意。下圖是模型學習曲線,可以看出仍處於欠訓練的狀態,如果樣本量更充足的話將會得到更好的效果。
由於本文所述方法旨在使用無監督學習提取異常參數,並不用糾結於有監督分類的結果,只要驗證了提取的特徵的確可以反映出參數的異常性即可。
0x3b 異常參數值提取
得到參數值的異常分數下面的工作就簡單多了,主要就是:
1)數據的標準化(Standardization)
2)根據閾值確定異常參數
3)根據異常分數在訓練集矩陣的位置提取對應的參數值
這部分沒有什麼特別的邏輯,直接看代碼吧:
提取結果:
可以看到,至此已經把異常參數值提取出來了,包括SQL注入、XSS、命令注入、CRLF注入、文件包含等典型的攻擊Payload。
0x4 後續計劃
這篇文章算是我在信息安全領域應用機器學習一系列嘗試的第一篇,思路不算清奇,也沒有什麼特別的難點。但我個人喜歡先抑後揚,不管怎麼樣先把成果搞出來,然後再慢慢優化和進步嘛。路總是一步一步走的。
後面我打算還是在Web安全這個領域做一些機器學習應用嘗試。這篇文章只是靜態地提取出異常Payload,而沒有利用到關鍵的Web系統結構信息,包括訪問時序的特徵,訪問來源主體(IP、UID、設備指紋等)、訪問分布的特徵,我將充分利用這些信息,嘗試開發一個無規則化的簡易機器學習WAF。
參考鏈接:
[1]: https://github.com/Monkey-D-Groot/Machine-Learning-on-CSIC-2010
[2]: http://www.freebuf.com/news/142069.html
[3]: http://www.freebuf.com/column/167084.html
*本文原創作者:zhanghaoyil,本文屬FreeBuf原創獎勵計劃,未經許可禁止轉載
推薦閱讀: