如何將大數據分析技術應用於信息安全領域？

01-25

查閱了很多資料，目前來看將storm spark hadoop這些大數據框架應用於信息安全是個很熱的趨勢，但是又沒有見到很具體的架構方案和具體演算法方法。我認為可以在應用層異常檢測，網路層安全運維，業務層網銀欺詐檢測等領域開展研究。
請問是否有大牛有這方面的經驗或案例嗎，能稍微詳細闡述下如何將大數據的一些分析演算法應用於信息安全領域。

好問題！也是我最近很感興趣的一個領域，實操經驗寥寥，不敢妄言。

推薦一個博客：http://danqingdani.blog.163.com/

這也是安全領域為數不多的美女工程師的博客。用題中關鍵詞搜索，可以找到不錯的文章。

目前是社工庫，關係查詢，人立方這樣的，比較多些。

mysql+sphinx+php

謝邀，能力有限，在安全領域沒有過多研究，不懂相關演算法，不敢妄談如何應用，只是大概說點架構上的思路。

對於一個數據應用架構來說最重要的是要形成一個完整的數據鏈，應用和後台計算模型能形成一個閉環。雖然我不懂安全領域的相關演算法，只能隨意YY，但是幾個元素我覺得應該一定少不了：

1.實時性。考慮到請求量壓力可能很大，這就意味著對計算系統有很高的要求。對於每個請求要在足夠短的時間內通過演算法給出判定，實時性應該在ms級別，你說得三個框架里只有storm才能達到這個實時水平。

2.相關性事件。用戶的訪問行為進行安全判定時可能不只是基於單次訪問，而是根據前後幾次訪問連續事件才能進行判定（猶如一個有限狀態機）。而在分散式情況下對於事件順序的判定是很有難度的事情，這裡涉及到分散式系統的時鐘問題，需要根據實際情況來做設計。

3.模型訓練。分離線和在線兩種，離線訓練使指每隔一定周期（比如一天）根據存儲系統內的歷史數據訓練計算模型和參數，然後更新判定演算法。在線模式是根據用戶行為在訪問周期內就實時更新判定演算法，相對來說後者難度更大一點，但是效果會更好一點。

4.維護和演化。產品級的數據應用不是功能做出來就可以了，所謂道高一尺魔高一丈，我猜想安全領域應該是非常需要向前演化演算法策略的。也就意味著，你的系統可能隨著系統發展或者相關演算法開發人員的研發，需要在實施時接入不同的數據（比如說今天需要實時的x參數作為計算參數，明天需要實時的y參數作為計算參數）。這時候架構要支持快速接入新的監控參數的能力。需要注意的是數據產品不會是一個孤立單一的應用，是一組應用的集合。

從08年開始，一直在做安全數據分析相關的產品的開發。那時候還沒出現大數據的概念，就是分析一些IDS，防火牆的日誌。安全產品的形式也經歷了SIEM，SOC和現在所謂的威脅情報系統。這類產品一直是理論上概念很好，但實際效果不理想。最關鍵的問題還是誤報太多。所以把數據存下來不是關鍵技術挑戰了，關鍵是用什麼方法去分析，保證誤報在可容忍的範圍內，並且能檢測到傳統方法檢測不到的入侵和風險。近年來機器學習火了，業界都在嘗試用機器學習的技術。但這裡的技術上和非技術上的挑戰很多。分析哪些數據源，特徵工程（天然特徵有限，需要領域知識去抽取特徵），如果是有監督的學習，如何獲取標籤數據....

我能說下大數據說白了就是分析行為，收集各種信息，最擔心的還是用於商業間諜活動，人在互聯網上越頻繁越真實，根據你的購物、醫療、學習等直接可以分析你這個人在現實生活中的樣子，有人說人可以違背自己的意願做一些事情在虛擬的世界裡，除非你不用互聯網，只要涉及到肯定能抓取，現在可能還沒到那種程度，未來有極大的可能做到，具體怎麼運用到不是很了解，但這勢必是一把雙刃劍，有利有弊吧，最終還是人來控制其走向

這個我可以給你一些資料。最近正好公司要去青島參展，有一些宣傳資料需要我做。我這裡可以發一張出來給你。

如果圖片不清楚（因為是截圖）你可以私信，我可以給你打文字，因為是上班偷偷玩知乎

就不敢玩太久。

大數據在信息安全應用的成功案例是，SOC。對網路中的海量事件信息進行採集分析，可以做到ATP檢測，對攻擊者行為進行預判.