阿里DNS：一種不斷變化前綴域名攻擊檢測方法

01-26

1.概述

不斷變化前綴域名：是指域名的後綴不變，前綴隨機變化，例如：

aaaxbhzqegs.www.example.com. aachbgunkyi.www.example.com. aaazqppqiir.www.example.com. aabkwblebrz.www.example.com. aaaiwcdsrvf.www.example.com.

其中：www.example.com 是三級後綴，aaaxbhzqegs，aachbgunkyi，aaazqppqiir等都是 www.example.com 的緊鄰下一級前綴；example.com 是二級後綴，www是它的緊鄰下一級前綴。

另外，還有一些不斷變化中綴域名：是指域名的前綴、後綴不變，中綴隨機變化，例如：

www.aaaxbhzqegs.example.com. www.aachbgunkyi.example.com. www.aaazqppqiir.example.com. www.aabkwblebrz.example.com. www.aaaiwcdsrvf.example.com.

其中：www是前綴，example.com 是二級後綴，aaaxbhzqegs，aachbgunkyi等都是中綴，同時也是 example.com 二級後綴的緊鄰下一級前綴。

不斷變化前綴域名攻擊中，前綴字元串是隨機變化的，且數量龐大，不對它們進行遞歸請求很難判斷該域名是否存在，而遞歸能力一直是DNS系統的性能瓶頸，因此需要實時對此攻擊進行檢測，進而進行相應地防護。

2.難點

不斷變化前綴域名攻擊檢測的一些已知難點有：

不斷變化的部分可能是任意級的前綴、中綴；
攻擊有可能同時針對多個後綴，且每個後綴的前綴變化次數都不顯著，而它們加起來的變化次數比較顯著；
泛解析干擾：有些後綴配置了泛解析，則不管其前綴如何變化，均不能被認為是攻擊；
攻擊域名與正常域名屬於相同的後綴，正常域名容易被誤殺，如 example.com 是攻擊域名，而 www.example.com 是正常域名，當檢測到後綴 example.com 遭受攻擊時，容易將 www.example.com 誤殺；

3.解決方案

針對上面遇到的問題，我們提出了一種基於在離線混合學習的隨機域名攻擊檢測方案。該方案包括在線檢測與離線訓練兩個部分，如下圖所示：

圖3-1 不斷變化前綴域名攻擊檢測系統結構圖

在線檢測部分的功能是：根據離線訓練好的分類模型對實時流入的DNS查詢請求進行分類，分為疑似攻擊域名與正常域名兩類，再結合其響應結果分別統計，累計一段極短的時間後，根據閾值檢測出攻擊的後綴，並輸出檢測結果；

離線訓練部分的功能是：對一段較長時間的DNS服務日誌進行挖掘，分類訓練，得到分類模型，供在線檢測部分使用；

首先我們來看在線檢測的流程，如下圖所示：

圖3-2 在線檢測流程圖

定時更新分類模型：每天定時從外部更新分類模型；
旁路流入DNS查詢、響應：旁路鏡像流入DNS查詢、響應數據包；
查詢、響應組合：根據五元組（源IP、源埠、目的IP、目的埠、DNS_ID）將查詢包與響應報組合起來，得到每個查詢對應的響應狀態碼（如NoError, ServFail, NxDomain等）；
過濾：過濾出沒有響應（超時）或響應狀態碼是ServFail、NxDomain的查詢；
域名拆分組合：將查詢域名拆分成各級後綴與其緊鄰下一級前綴的組合，如 example.com 被拆分成：一級後綴與其緊鄰下一級前綴的組合：com + [example]、二級後綴與其緊鄰下一級前綴的組合：example.com + [aaaxbhzq]；
字元串判定：對各級後綴的緊鄰下一級前綴字元串提取特徵，根據分類模型判定其是否隨機、無意義；
重複前綴判定：對於每一個後綴，維護一個集合，用於緩存出現過的前綴，重複前綴被丟棄；
累計緩存：把前綴追加到對應後綴的緩存集合里，對應後綴的計數器加1；
窗口判定：統計時間窗口設置為一個極短的時間（如30秒）；
攻擊判定：後綴計數器大於攻擊閾值T0；
輸出攻擊的後綴：此時不通知防禦；
防禦判定：所有攻擊後綴的計數器之和大於防禦閾值T1；
通知開啟防禦：及時通知外部開啟防禦，給出攻擊後綴列表；
清空緩存集合、計數器；

然後我們再來看一下離線訓練的流程，如下圖所示：

圖3-3 離線訓練流程圖

日誌預處理：將DNS服務日誌處理成<查詢域名，是否攻擊>的二元組；
樣本採集：隨機選擇大量（如100萬）的是攻擊的二元組作為正樣本、大量（如30萬）的不是攻擊的二元組作為負樣本；
樣本劃分：所有正負樣本一起按一定的比例（如6：4）隨機劃分為訓練集和測試集；
計算變化前綴所在級數L及對應的信息熵均值h：在訓練集上，遍歷域名若干級後綴，提取其緊鄰下一級前綴字元串的信息熵（見第6步中(b)信息熵），統計其均值，使得均值最大的級數即為所求的L，對應的均值記為h；
信息熵均值是否大於閾值H；
特徵提取並歸一化：對前綴字元串提取特徵向量，它由三個特徵組成：

1) 最長母音距(mvd)：即字元串中母音之間的最長間隔，如「alibaba-inc」的最長母音距是最後的「nc」2個字元長度（字元串中的連字元『-』也當作母音處理，字元串結尾也當作有一個母音）。

母音距表徵了字元串中各音節的長度，體現了發音的節奏。正常有意義的單詞或短語的音節比較短，節奏比較均勻，以方便發出聲音，相應地，其最長母音距偏短，如「alibaba-inc」的母音距為[1,1,1,2]，最長母音距為2；而無意義的隨機字元串的音節比較長，沒有節奏，相應地，其最長母音距偏長，如「aaaxbhzqegs-2」的母音距為[5,2,1]，最長母音距為5；

2）信息熵(entropy)：表徵字元串的隨機程度，其計算公式為：