靜態數據脫敏產品技術路線分析
隨著信息技術的高速發展,各用戶單位業務系統經過多年沉澱,積累了大量個人隱私數據和企業信息。海量數據除了內部流轉,還需要進行外部「共享」,這亦是國家大數據發展戰略規劃的需求和前提。如何保證數據在產生、交換、共享等場景下的安全可用?這讓數據脫敏安全技術成為熱門
《網路安全法》的正式實施,數據脫敏被納入法規遵從的需求。《網路安全法》要求:數據流動過程中應重視保護個人隱私、社保信息、資產信息、醫療信息等敏感信息的安全。為滿足這一要求,數據共享時需要使用數據脫敏技術。特別是當數據應用於開發、測試、培訓等環境時,安全風險較大,使用真實數據將臨嚴重數據泄露的風險。
數據脫敏又稱數據去隱私化或數據變形,是在給定的規則、策略下對敏感數據進行變換、修改的技術機制,能夠在很大程度上解決敏感數據在不可控環境中使用的問題。國內銀行、通信運營商等是最早開始使用數據脫敏工具的單位,多以靜態脫敏為主。
市面上有諸多靜態脫敏產品,如何做挑選?本文將從這些脫敏產品的技術路線進行分析,從使用效果出發,淺析各種技術在脫敏過程中使用效果上存在的差異,呈現產品真正能實現的功能和價值。希望能為廣大用戶在數據脫敏產品的選型上提供參考。
一、脫敏系統的數據獲得方式
數據脫敏第一步,需要獲得資料庫中的數據。如何獲得數據主要有以下幾種方式:
1. 代理軟體
使用代理軟體,部署在資料庫上從資料庫讀取數據。這種方式的脫敏產品對用戶方來說是侵入式的,只有極少數產品才這樣使用。市面上數據備份廠商的數據脫敏產品會採用這種方式,因為利用備份軟體客戶端作為數據脫敏的數據採集工具使用,速度較快。
2. 資料庫開發介面
這種針對不同的資料庫開發介面方式的有點在於數據採集速度較快,市面上大部分脫敏產品採用此種方式。這種採集方式的缺點也很明顯,資料庫類型太多,脫敏產品支持的資料庫類型與版本都會受限制。如果用戶將來升級了資料庫版本,除非脫敏廠商也花精力開發升級版本,否則採購的脫敏產品可能無法繼續支持。
3. ETL技術
這種採集技術的優勢是兼容性大,ETL工具兼容的資料庫類型是最全面的。當然這個方式也有弱點,由於不是專門針對特定資料庫類型開發,在沒有強大的ETL技術積累的情況下,採集數據的速度一般。從國外脫敏廠商來看,具備有一定ETL技術積累優勢大多採用此種技術,如:Informatica 。而國內脫敏廠商中,大多數廠商主業並不是大數據處理,沒有ETL工具的技術能力而很少採用。
二、數據落地與否
數據落地是指數據脫敏過程中,數據需要保存到脫敏系統後再進行脫敏。數據落地的好處是,獲得了需要脫敏的全部數據後再脫敏,對數據關係、業務關聯方面容易處理與實現。但問題是,數據落地需要脫敏系統也具有數據源同樣大小的存儲空間,對脫敏系統的存儲要求較高,同時進行多業務數據源脫敏的情況下,還需要對接存儲系統,不僅硬體成本高,還存在安全困擾。
數據脫敏從信息安全的職責分離的要求下出發,脫敏系統的管理者為安全管理員,將DBA接觸敏感數據場景剝離出來,同時安全管理員不具有DBA許可權也無法查看全部的敏感數據。但在數據落地的情況下,安全管理員可以從數據脫敏系統內獲得全部敏感數據,這就違背了職責分離的初衷。
市面上大部分產品不會採用此種數據落地方式脫敏,只有少數由於沒有ETL技術,也沒有針對不同資料庫開發介面,擁有備份技術積累的脫敏廠商會使用這種脫敏方式。
三、脫敏演算法的複雜程度
脫敏系統需要解決的一個重要安全問題是演算法的可逆性。脫敏系統不像腳本處理作簡單替換即可。以國內姓名欄位的脫敏演算法為例,用于姓名的主要脫敏技術主要有包括:
(1)直接將所有中文姓名,替換為固定姓名,如「張—」。這種演算法簡單,處理速度快,安全性差,處理結果單一,分布特徵完全喪失。
(2)將原姓名每個中文字元的編碼進行偏移隨機長度,以生成另外一個中文字元。這種演算法安性高,像真實姓名一樣。速度也較快,處理後的數據結果有較強的真實性。
(3)準備一張常見中文名字的碼錶,存放100萬左右的中文姓名,將原有姓名hash查表後進行替換。數據脫敏演算法需要大量時間和空間開銷,數據安全性一般,演算法可逆程度不高。
(4)分析原始數據通過預處理建立頻度碼錶的方式。這種方式需要先分析原始數據的特徵,然後建立一個頻度的分析報告,再建立不同字元的分布標準表格,脫敏演算法依據頻度對應的字元來替換。
在選擇脫敏產品時,也應該關注數據脫敏演算法,選擇最為高效可用的。
四、脫敏系統的環境適應能力
市場上資料庫種類多,伺服器與系統種類也多,特別是一些不常用的系統與資料庫,類似於小機環境下的資料庫,部分客戶還是IBM的Z系統的大型機等。
面對擁有不同類型的伺服器與資料庫的客戶,市場上並不是所有脫敏系統全部兼容支持的。用戶在選用這些脫敏系統時需要具有長遠的發展眼光,將來可能會用到的資料庫與系統,脫敏產品時是否需要全面支持。
另外,還需要考慮不同資料庫之間的數據脫敏轉換。(異構數據脫敏)可能會出現源資料庫使用的是一種類型,而數據需求方使用的資料庫是另一種類型,這時候的數據脫敏就需要兼容不同資料庫之間的數據轉換。
五、脫敏廠商的安全與資料庫服務能力
數據脫敏系統畢竟不同於傳統網路安全的硬體,需要對資料庫具有較深入的理解,是信息安全與資料庫DBA的結合領域。
一方面需要脫敏產品具有傳統安全的理念,如實現數據脫敏的流程化、落實數據的職責分離。(如脫敏系統屬於安全管理員維護的系統、而資料庫維護屬於DBA職責)。另一方面,系統應具有配套的流程管理系統,幫助安全管理員實現數據的脫敏。
由於安全管理員不具有DBA的知識背景,在很多脫敏項目中需要脫敏廠商幫助安全管理員來制定脫敏策略,實現數據安全脫敏。
六、快速響應客戶的開發能力
數據脫敏系統國外產品進入國內已經多年,早期大數據用戶使用時會明顯感覺國外產品對國內用戶使用帶來的不便,需要將產品做一些修改調整時往往無法實現。
隨著國內脫敏產品的日益完善,國外脫敏產品已正慢慢退出,國內產品可以按客戶要求場景快速修改(二次開發能力),滿足國內用戶的使用要求。
七、脫敏解決方案的全面性
大部分用戶在選擇脫敏系統時,不僅需要考慮當前數據離開生產環境的靜態脫敏,還需要考慮當數據還在生產環境時,面對DBA與業務系統的脫敏需求。業務系統用戶還可以通過應用開發來設置用戶屏蔽條件,但針對DBA的使用場景,就需要動態脫敏產品進行動態脫敏。如果同一廠商在靜態脫敏與動態脫敏都具有解決方案,對用戶而言,更具備競爭優勢。
八、脫敏系統的合法性
數據脫敏系統已經被納入了計算機信息系統安全專業產品範疇,按照公安部的要求應具備產品銷售許可證。很多廠商都沒有耐心研發產品,OEM其它廠商後申請一個軟體著作權證書,就變成自己的產品解決方案,更有些廠商OEM後連銷售許可都不具備。建議用戶選擇脫敏系統時,選用獲得公安部銷售許可證的數據脫敏系統。
推薦閱讀:
※今日數據行業日報(2017.08.23)
※今日數據行業日報(2016.10.28)
※【大數據專欄】中國的中產階級們,到了國外到底有多能買?
※如何用表單收集高價值數據?
※中金數據:讓雲落地