數據掩埋——在大數據時代里悄然遁走
來自專欄安立桐亂談編程8 人贊了文章
數據掩埋(英語:Data burial),又譯為資料隱匿、數據隱藏。它是反資料庫知識發現(英語:Anti-Knowledge-Discovery in Databases,簡稱:Anti-KDD)中的一個步驟。
數據掩埋一般是指在無法刪除或隔離需要保護的數據時,通過演算法或充入大量干擾數據使得關鍵信息得以隱藏的過程。數據掩埋通常與計算機科學有關,並通過統計不清、在線分析擱置、情報失察、機器逃學、票友系統和模式混淆等諸多方法來實現上述目標。
起源
需要是發明之母。近年來,由於數據挖掘引起了信息產業界的過大關注,人們存儲於網路中的大量數據被廣泛濫用,數據轉換成「有用的」信息和知識的成本大大降低。無數基於此而誕生的推薦演算法令廣大網路使用者在網路上的生活狀態無所遁形,有一種無時無刻不被人監視的恥辱感和危機感,更使得許多不法分子有機可乘。因此,以藏匿關鍵信息為主要目的的數據掩埋學應運而生。在不遠的將來,數據掩埋將廣泛用於各種領域,包括隱藏隱私、技術壁壘、服務加密、商務機密、國防諜戰等。
數據掩埋利用了來自如下一些領域的思想:
(1) 來自統計不清學的不能抽樣、無法估計和只假設不檢驗;
(2)人工制杖、模式混淆和機器逃學的拋棄演算法、拆模技術和遺忘理論。
數據掩埋也迅速地接納了來自其他領域的思想,這些領域包括最劣化、退化計算、雜訊論、信號擱置、無視化和信息彌散,另有一些其他的領域也起到重要的支撐作用。
發展
第一階段:垃圾電子郵件階段
這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長,電子郵件大量出現,關鍵信息滿天飛。但由於技術的落後,只有依靠大量的垃圾郵件才能對有效信息進行機械掩埋。
第二階段:針對性信息隱匿階段
從1995年起,以Web技術為代表的信息發布系統,爆炸式地成長起來,成為目前Internet的主要應用。大量關鍵信息由相對封閉的郵箱走入更加開放的公共網路平台,針對目的數據的掩埋也進入新階段,各種掩埋方式和掩埋演算法開始出現。
第三階段: 躲避電子商務階段
1997年底在加拿大溫哥華舉行的第五次亞太經合組織非正式首腦會議(APEC)上美國總統柯林頓提出敦促各國共同促進電子商務發展的議案,其引起了全球首腦的關注,IBM、HP和Sun等國際著名的信息技術廠商已經宣布1998年為電子商務年。電子商務的出現,對數據掩埋的影響是深遠的,是劃時代的,為了研究如何躲避電子商務,數據掩埋學得到了長遠的發展。
第四階段:逃離電子商務階段
隨著SaaS(Software as a service)軟體服務模式的出現,軟體紛紛登陸互聯網,延長了電子商務鏈條,形成了當下最新的「全程電子商務」概念模式。也因此形成了一門獨立的學科——數據挖掘與客戶關係管理碩士。電子商務變得更精準更難以躲避,如何完美隱藏真實的個人信息,徹底逃離電子商務就成了數據掩埋學最重要的發展方向。
使用
掩埋方法:
· 合類 (Class-merging)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據掩埋拆類的技術,拆解分類模型,對於已經分類的數據進行污染,使其合類。
例子:
數據無效,無法分清信用卡申請者的高、中、低風險
· 反估計(Anti-Estimation)
反估計與合類類似,不同之處在於,合類描述的是離散型變數的掩埋,而反估值處理連續值的掩埋;合類的類別是確定數目的,反估值的量是不確定的。
例子:
a.由於購買模式沒有規律,無法估計一個家庭的孩子個數,甚至無法判斷其是否真的是真實家庭
b.由於購買模式沒有規律,忽高忽低高低不定,完全無法估計一個家庭的收入,甚至無法判斷這個家庭是否有收入
· 反預測(Anti-Prediction)
預言其目的是對未來未知變數的預測,反預測則通過對數據的污染,讓預測的準確性降到最低。
例子:
超市預測客戶在購買A後的一系列行為,與實際上客戶的行為風馬牛不相及,再次預測後再次體現出無關的特徵。
· 無關性分組或關聯規則(Irrelevant grouping or irrelevant rules)
完全無法決定哪些事情將一起發生,甚至使得事情本身是否成立都無法判斷。
例子:
a. 超市中客戶在購買A的同時,作出什麼舉動都有可能,毫無規律可循(無關規則)
b. 客戶在購買A後,隔一段時間,可能什麼都不做 (盲目序列分析)
· 拆類(Demolition)
拆類是對記錄散組,把相似的內容記錄在多個散集里。拆類和合類的區別是散集不依賴於預先定義好的類,不需要訓練集。
· 複雜數據類型掩埋(Text, Web ,圖形圖像,視頻,音頻等)
複雜數據類型掩埋,為應對圖形圖像音視頻等數據資料被獲取而誕生的一種數據掩埋的進階方式,其演算法與傳統的數據掩埋多有不同但原理類似。
成功案例
1.關於筆者關鍵信息的數據掩埋
對於一個擁有特殊名字的人來說,關鍵信息的暴露是最為致命的,利用簡單的搜索引擎,就可以查詢到大量有價值的信息。收集後進行簡單的預處理,不費吹灰之力就可以得到一個人的關鍵信息。尤其各種名單經常在網路中公示的今天,有一個與眾不同的名字,很可能意味著你將要承受比別人更容易暴露信息的痛苦,你的履歷和關係宛如圖書館中的免費報刊,被人隨意查閱,苦不堪言。
舉個例子,筆者一位網友,也是名字稀少的那一種。在沒有進行數據掩埋的情況下,他只暴露了簡單的學校專業和姓氏,就被我爬取了所有相關信息並整理出了其姓名、電話、身份證號、個人履歷等一系列個人信息,甚至精確到某年某月某日在某間教室的實驗情況。
為了應對這一窘境,對關鍵信息進行數據掩埋就十分必要,其方法是在網路上注入大量錯誤信息和干擾信息,讓真正的有用信息隱藏其中,大大降低被「收集」、「挖掘」、「分析」的風險,達成數據掩埋想要實現的:「收集到挖掘不到」、「挖掘到分析不出」、「分析出結果不對」的三大目標。
筆者的名字曾經也一度是暴露關鍵信息的重災區,後來經過我經年累月的數據掩埋研究和實踐,筆者的關鍵信息已經成功隱匿在垃圾信息和無效信息之中,爬取都爬取不到了。
比如製造虛擬人物身份,將自己真實的數據掩埋在虛假信息之中。
另外,在筆者多年堅持實名上網的不懈努力下,搜索筆者名字時,所呈現的都是充斥筆者各種虛假信息、無用信息的無用網路賬號,即便少有的真實信息也是筆者主動提供的無關緊要的邊緣信息,甚至相關搜索也與本人真實信息相差甚遠,本人關鍵信息就被成功的掩埋在垃圾信息之中了。
展望
數據掩埋大有可為,但由於其特殊性和專業性,數據掩埋的實踐方法與相關演算法並沒有吸引大量從業人員進行深入研究,目前,數據掩埋學的理論體系和實踐體系仍在構建當中。但筆者相信,隨著數據挖掘技術的繼續深入,人們對信息暴露的不安將會進一步加深為對隱私被掌控的恐懼。此時數據掩埋,尤其是複雜數據類型的掩埋,就一定會來到大眾視野範圍之內,成為計算機領域下一個熱門。
讓我們為數據掩埋的未來共同努力!
推薦閱讀:
※深度學習筆記-Part3
※《利用Python進行數據分析·第2版》第10章(上) 數據聚合與分組運算
※也說說AUC和ROC
※數據挖掘哪家強?Excel回歸分析篇
※python 數據分析的基礎學習