大數據安全面臨的技術問題和挑戰

大數據安全面臨的技術問題和挑戰

大數據安全威脅滲透在數據生產/採集、處理和共享等大數據產業鏈的各個環節,風險成因複雜交織;既有外部攻擊,也有內部泄露;既有技術漏洞,也有管理缺陷;既有新技術新模式觸發的新風險,也有傳統安全問題的持續觸發。本報告將聚焦於大數據本身面臨的安全威脅,從大數據平台安全、數據安全和個人信息安全三個方面展開分析,確定大數據安全需求。

(一)平台安全問題與挑戰

1、大數據平台在Hadoop 開源模式下缺乏整體安全規劃,自身安全機制存在局限性

目前,Hadoop 已經成為應用最廣泛的大數據計算軟體平台,其技術發展與開源模式結合。Hadoop 在設計階段最初設計是為了管理大量的公共web 數據,假設集群總是處於可信的環境中,由可信用戶使用的相互協作的可信計算機組成。

因此最初的Hadoop 沒有設計安全機制,也沒有安全模型和整體的安全規劃。隨著Hadoop 的廣泛應用,越權提交作業、修改JobTracker 狀態、篡改數據等惡意行為的出現,Hadoop開源社區開始考慮安全需求,並相繼加入了Kerberos 認證、文件ACL 訪問控制、網路層加密等安全機制,這些安全功能可以解決部分安全問題,但仍然存在局限性。在身份管理和訪問控制方面,依賴於Linux 的身份和許可權管理機制,身份管理僅支持用戶和用戶組,不支持角色;僅有可讀、可寫、可執行三個許可權,不能滿足基於角色的身份管理和細粒度訪問控制等新的安全需求。安全審計方面,Hadoop 生態系統中只有分布在各組件中的日誌記錄,無原生安全審計功能,需要使用外部附加工具進行日誌分析。另外,開源發展模式也為Hadoop 系統帶來了潛在的安全隱患。企業在進行工具研發的過程中,多注重功能的實現和性能的提高,對代碼的質量和數據安全關注較少。因此,開源組件缺乏嚴格的測試管理和安全認證,對組件漏洞和惡意後門的防範能力不足。據Common Vulnerabilities and Exposures(以下簡稱「CVE」)

漏洞列表顯示,從2013 年到2017 年,Hadoop 暴露出來的漏洞數量共計18 個,其中有5 個是關於信息泄露的漏洞,並且漏洞數量逐年增長,這五年的具體漏洞數量如圖2 所示。

圖2.2013-2017 年Hadoop 漏洞統計圖

2、大數據平台服務用戶眾多、場景多樣,傳統安全機制的性能難以滿足需求

大數據場景下,數據從多個渠道大量匯聚,數據類型、用戶角色和應用需求更加多樣化,訪問控制面臨諸多新的問題。首先,多源數據的大量匯聚增加了訪問控制策略制定及授權管理的難度,過度授權和授權不足現象嚴重。其次,數據多樣性、用戶角色和需求的細化增加了客體的描述困難,傳統訪問控制方案中往往採用數據屬性(如身份證號)來描述訪問控制策略中的客體,非結構化和半結構化數據無法採取同樣的方式進行精細化描述,導致無法準確為用戶指定其可以訪問的數據範圍,難以滿足最小授權原則。大數據複雜的數據存儲和流動場景使得數據加密的實現變得異常困難,海量數據的密鑰管理也是亟待解決的難題。

3、大數據平台的大規模分散式存儲和計算模式導致安全配置難度成倍增長

開源Hadoop 生態系統的認證、許可權管理、加密、審計等功能均通過對相關組件的配置來完成,無配置檢查和效果評價機制。同時,大規模的分散式存儲和計算架構也增加了安全配置工作的難度,對安全運維人員的技術要求較高,一旦出錯,會影響整個系統的正常運行。據Shodan 互聯網設備搜索引擎的分析顯示,大數據平台伺服器配置不當,已經導致全球5120TB 數據泄露或存在數據泄露風險,泄露案例最多的國家分別是美國和中國1。本年初針對Hadoop 平台的勒索攻擊事件,在整個攻擊過程中並沒有涉及常規漏洞,而是利用平台的不安全配置,輕而易舉地對數據進行操作。

4、針對大數據平台網路攻擊手段呈現新特點,傳統安全監測技術暴露不足

大數據存儲、計算、分析等技術的發展,催生出很多新型高級的網路攻擊手段,使得傳統的檢測、防禦技術暴露出嚴重不足,無法有效抵禦外界的入侵攻擊。傳統的檢測是基於單個時間點進行的基於威脅特徵的實時匹配檢測,而針對大數據的高級可持續攻擊(APT)採用長期隱蔽的攻擊實施方式,並不具有能夠被實時檢測的明顯特徵,發現難度較大。此外,大數據的價值低密度性,使得安全分析工具難以聚焦在價值點上,黑客可以將攻擊隱藏在大數據中,傳統安全策略檢測存在較大困難。因此,針對大數據平台的高級持續性威脅(APT)攻擊時有發生,大數據平台遭受的大規模分散式拒絕服務(DDoS)攻擊屢見不鮮。Verizon 公司《2018 年數據泄露調查報告》顯示,48%的數據泄露與黑客攻擊有關,其中,DDoS、釣魚攻擊以及特權濫用是主要的黑客攻擊方式,具體數據如圖3 所示。

圖3.數據泄露中主要攻擊手段統計圖

(二)數據安全問題和挑戰

除數據泄露威脅持續加劇外,大數據的體量大、種類多等特點,使得大數據環境下的數據安全出現了有別於傳統數據安全的新威脅。

1、數據泄露事件數量持續增長,造成的危害日趨嚴重大數據因其蘊藏的巨大價值和集中化的存儲管理模式成為網路攻擊的顯著目標,針對大數據的勒索攻擊和數據泄露問題日趨嚴重,重大數據安全事件頻發。Gemalto 《2017數據泄露水平指數報告》顯示,2017 年上半年全球範圍內數據泄露總量為19 億條,超過2016 年全年總量(14 億),比2016 年下半年增長了160%多,從2013 年到2017 年全球數據泄露的具體數目如圖4 所示,從圖中可以看出數據泄露的數目呈現逐年上漲的趨勢。僅2017 年,全球即發生了多起影響重大的數據泄露事件,美國共和黨下屬數據分析公司、徵信機構3先後發生大規模用戶數據泄露,影響人數均達到億級規模。我國數據泄露事件也時有發生。2017 年3 月,京東試用期員工與網路黑客勾結,盜取涉及交通、物流、醫療等個人信息50 億條,在網路黑市販賣。此外,大數據平台自身安全形勢同樣不容樂觀。據Shodan 統計,截至2017 年2月3 日,中國有15046 個MangoDB 資料庫暴露在公網,存在嚴重安全隱患。

圖4.2013-2017 年數據泄露數量統計圖

2、數據採集環節成為影響決策分析的新風險點

在數據採集環節,大數據體量大、種類多、來源複雜的特點為數據的真實性和完整性校驗帶來困難,目前,尚無嚴格的數據真實性和可信度鑒別和監測手段,無法識別並剔除掉虛假甚至惡意的數據信息。若黑客利用網路攻擊向數據採集端注入臟數據,會破壞數據真實性,故意將數據分析的結果引向預設的方向,進而實現操縱分析結果的攻擊目的。

3、數據處理過程中的機密性保障問題逐漸顯現

數字經濟時代來臨,越來越多的企業或組織需要協同參與產業鏈的聯合,以數據流動與合作為基礎進行生產活動。企業或組織在使用數據資源參與合作的應用場景中,數據的流動使數據突破了組織和系統的界限,產生跨系統的訪問或多方數據匯聚進行聯合運算。保證個人信息、商業機密或獨有數據資源在合作過程中的機密性,是企業或組織參與數據流動與數據合作的前提,也是數據安全有序互聯互通必須要解決的問題。

4、數據流動路徑的複雜化導致追蹤溯源變得異常困難

大數據應用體系龐雜,頻繁的數據共享和交換促使數據流動路徑變得交錯複雜,數據從產生到銷毀不再是單向、單路徑的簡單流動模式,也不再僅限於組織內部流轉,而會從一個數據控制者流向另一個控制者。在此過程中,實現異構網路環境下跨越數據控制者或安全域的全路徑數據追蹤溯源變得更加困難,特別是數據溯源中數據標記的可信性、數據標記與數據內容之間捆綁的安全性等問題更加突出。2018年3 月的「劍橋分析」事件中,Facebook 對第三方APP 使用數據缺乏監管和有效的追責機制,最終導致8700 萬名用戶資料被濫用,還帶來了股價暴跌、信譽度下降等嚴重後果。

(三)個人隱私安全挑戰

大數據應用對個人隱私造成的危害不僅是數據泄露,大數據採集、處理、分析數據的方式和能力對傳統個人隱私保護框架和技術能力亦帶來了嚴峻挑戰。

1、傳統隱私保護技術因大數據超強的分析能力面臨失效的可能

在大數據環境下,企業對多來源多類型數據集進行關聯分析和深度挖掘,可以復原匿名化數據,從而獲得個人身份信息和有價值的敏感信息。因此,為個人信息圈定一個「固定範圍」的傳統思路在大數據時代不再適用。在傳統的隱私保護技術中,數據收集者針對單個數據集孤立地選擇隱私參數來保護隱私信息。而在大數據環境下,由於個體以及其他的相互關聯的個體和團體的數據分布廣泛,數據集之間的關聯性也大大增加,從而增加了數據集融合之後的隱私泄露風險。傳統的隱私保護技術如k 匿名和差分隱私等並沒有考慮到這種情況。

2、傳統隱私保護技術難以適應大數據的非關係型資料庫

在大數據技術環境下,數據呈現動態變化、半結構化和非結構化數據居多的特性,對於占數據總量80%以上的非結構化數據,通常採用非關係型資料庫(NoSQL)存儲技術完成對大數據的抓取、管理和處理。而非關係型資料庫沒有嚴格的訪問控制機制及完善隱私管理工具,現有的隱私保護技術如數據加密、數據脫敏等,多用於關係型資料庫併產生作用,不能有效應對非關係型資料庫的演進,容易發生隱私泄露風險。

--摘自《大數據安全白皮書(2018 年)》


推薦閱讀:

超霸氣的可視化工具!從數據中挖掘新洞察
MaxCompoute禁止Full Scan功能開放
今日數據行業日報(2017.4.5)
【行業】金融級資料庫提升商業銀行核心競爭力
驚呆了!顏值爆表的20+位阿里技術女神同一時間向你發出共事邀請!

TAG:網路安全 | 數據安全 | 大數據 |