我理解的大數據安全

我初次聽說大數據,是來自一位叫做車品覺的阿里巴巴副總裁講座,他講了了一個有意思而生動的例子。他問了一個問題:當我們想要了解一枚1960年的1元真幣到底價值多少,怎麼評估。在聽的人有人舉手說上網查新聞,聽有專家估價、心理估值。另一些人說貨幣的價值不變,1元就是1元啊。車大師笑了,說如果是他,他會上淘寶搜索一下,在大數據的情況下,供需平衡,價格的總是不斷地趨近於價值。我覺得這個理念蠻有意思,於是便記下來。

我也想結合我所在的行業談談大數據安全領域。在此前我和一些國企、央企的技術同學聊過,在他們口中似乎大數據就是使用spark、mapReduce、noSQL;對於一些乙方公司而言,大數據就是各種複雜的解決方案和威脅情報,那是在非常偏技術領域。而在數據運用上,談得並不多。

車大師在分享時也提到,原先他只是跟別人談數據,但是後來發現太普通,於是他乾脆在數據前面加了一個大字稱作大數據,後來這個名詞竟然火了。其實大數據與傳統BI的活沒什麼兩樣,大數據並不意味著一定是PB數量級別的數據在一起計算,也不一定涉及到複雜演算法。在我的理解中,大數據就是全量、全景、全行業、所有情況。這裡所謂的大是相對於統計學的抽樣而言的。在計算機能力越來越強的大背景下,我們可以拿全量的樣本來進行計算,對多維度數據進行串並,從而拿到更準確的結果。

當計算能力不再是主要矛盾,我們改變自己原先固有的思維模式,需要對數據有一定敏感,能夠了解到數據與數據之間的關係,理解黑產對於大數據的利用現狀。在從前,黑產的主要困難在於如何獲取數據,於是通常採用釣魚、入侵等方式。而現在隨著大數據的興起,現在很多公司,都是為了獲取他人數據而"免費"提供API服務。由於有了強烈的需求和充足的供應,對於數據的定價和流通其實在網上非常方便。譬如到農村送洗衣粉換手持身份證號都可以收繳很多老人用戶敏感信息。相比於傳統,並不需要複雜的技術都可以實現。

在2011年之前,xss釣魚、黑鏈SEO、垃圾廣告是主要威脅。而近年我們發現黑產人們都不這麼玩。從前搞xss釣魚的那撥黑產,單點對單點地欺詐。近年開始紛紛採用CSRF實施水坑攻擊。1個人,一台伺服器即可影響千萬人;從前全網掃弱口令的,近年開始紛紛採用撞庫方式。黑客手上有全行業幾十億的社工庫,把帳號輸入庫中,直接就能查出對應的明文密碼。一個人一輩子所使用的3~4個密碼,都在社工庫里,不論怎麼改終究逃脫不了黑客的掌控;從前發垃圾廣告的,現在利用行業數據、越權漏洞行為數據進行精準營銷。現在每天都有詐騙新聞發生,其實都是黑產對大數據的利用。

在大數據攻擊方面安全攻擊方面已出現新的形式,也對防守方有了數據應用要求。防守方需要數據,來說明事情的重要性,以及自身優化程度。無法衡量就無法改進。如果沒有數據,一個團隊最基本的評估自身好壞的能力都沒有,也就只能像無頭蒼蠅一樣到處亂撞。安全團隊會陷入「沒有發生安全事件的時候,安全相比業務成長成為最低優先順序;出現安全事件後,安全就是背黑鍋的時候」的窘迫。安全團隊如果不知道全量域名、全量IP、全量應用的話,受攻擊面無限大,也很難做好安全防護工作。在公司中也不好衡量安全團隊的價值。

反而言之,如果數據充足,安全團隊可以準確刻畫價值。隨著安全基礎數據的完善,如果我們有全量的行為日誌監控,我們可以利用日誌重放功能還原出歷史安全事件每一個細節,我們可以超越時空,身臨其境地感受。我們可以穿越歷史與未來,跨部門、跨事業部、跨行業地還原事實,將業務與技術深度串聯,回溯。

安全體驗會成為未來三年的重點需求,能夠刻畫抽象的安全感。此前安全事件通常會被人理解小概率事件,黑天鵝事件。但是如果我們的數據足夠全面,即使是十萬分之一的概率。放眼世界全量樣本,安全事件其實天天都在海量地發生,"小概率事件"即"必然事件"。

利用全量數據,我們可以將一些人們之前認為「虛」、"不確定"、"不可控"的東西準確刻畫,進而更好地改進程度與重點方向。如果數據及維度充足,我們可以以更高的維度衡量一個公司的風險率與資損率,數據從十萬級到百萬級的細微差別可以凸顯。


推薦閱讀:

技術人員什麼時候會有一種「老哥,穩!」的感覺
AI驅動的智能系統,將成為科技公司新護城河 | 愛分析編譯
從「放肆一下」盛典看一下科技的玩法:從技術型公司到「內容運營商」
網路無遠弗屆 技術摧枯拉朽
睡前消息【16-09-14】——科技的糾結年代

TAG:大数据 | 技术 | 黑色产业链 |