OSA，人工數據，可帶來與真實數據同樣的結果，而不損害隱私

09-20

導讀：新的方案可助力組織機構依託人工數據和眾包來縮放其數據科學努力。

雖然數據科學家可以從大型數據集中獲得精彩的洞見——並可最終使用這些洞見來應對重大挑戰——但是要完成這項工作，說起來比做起來容易得多。

這些努力大部分從一開始就受到妨礙，因為隱私顧慮使科學家難以訪問他們想處理的數據。

在 IEEE 國際數據科學和高級分析會議上提交的一篇論文中，麻省理工學院信息與決策系統實驗室 (LIDS) 數據人工智慧實驗室的成員、LIDS 及數據、系統和社會研究所首席研究科學家 Kalyan Veeramachaneni，以及共同作者 Neha Patki 和 Roy Wedge 描述了一種自動創建合成數據的機器學習系統——其目標在於激活數據科學努力，由於缺乏對真實數據的訪問許可權，這本來可能無法啟動。

雖然真實數據可能引起重大隱私顧慮，這種合成數據完全不同於由真實用戶產生的數據——但仍可用來開發和測試數據科學演算法和模型。

「一旦我們建立一個完整的資料庫模型，我們便可以取樣並重建一個合成版本的數據，從統計學意義上講，該數據看起來非常類似於原始資料庫，」Veeramachaneni 表示。

「如果原始資料庫中有一些遺漏值和一些雜訊，我們也會……以某種方式把該雜訊植入合成版本中，我們正在用機器學習來實現機器學習。」

該論文描述了一種合成數據倉庫 (SDV)，即一套從真實資料庫中建立機器學習模型，以便創建人工或合成數據的系統。這種演算法（即所謂的「遞歸條件參數聚合」）利用了所有資料庫中常見的數據分層組織。

例如，它可以用一份客戶交易表格為每一個客戶構建一個基於其交易的多變數模型。

該模型可抓取這些交易中多個欄位之間的相互關係——例如，購買量和類型、交易發生的時間等。演算法建立模型並為每一名客戶集合參數後，它便可以構建一個這些參數本身的多變數模型，並對整個資料庫建立一個遞歸模型。一旦模型經過學習後，它便可以合成填滿了人工數據的整個資料庫。

結果和影響

建立 SDV 後，團隊用它來生成合成數據，用於五種不同的公開可用數據集。他們隨後聘請 39 名自由數據科學家分四組工作，以開發預測性模型，作為一個眾包實驗的一部分。

他們想要回答的問題是：「獲得合成數據的數據科學家的工作，和那些可訪問真實數據的數據科學家的工作，二者之間是否有任何差別？」

為了測試此問題，賦予其中一個小組原始數據集，同時賦予其他三個小組合成版的數據。

每個小組使用自己的數據來解決一個預測性建模問題，最終跨越 5 個數據集進行 15 次測試。最後，對他們的解決方案進行比較時，在 15 次測試中有 11 次，使用真實數據的小組生成的解決方案與使用合成數據的小組生成的解決方案並未顯示重大性能差異（70% 的次數）。

這些結果表明，合成數據在軟體編寫和測試中可以成功取代真實數據——意味著數據科學家可用它來克服一個重大准入壁壘。「使用合成數據可解決『隱私瓶頸』——這樣便可以著手開展工作，」Veeramachaneni 表示。

這對各行各業的數據科學來說都是有意義的。除了使工作得以著手開展以外，合成數據還將允許數據科學家繼續進行手頭工作，而不牽涉真實的、具有潛在敏感性的數據。

「企業現在可以利用自己的數據倉庫或資料庫來創建合成版本的數據，」Veeramachaneni 表示。「因此，他們可以規避像 Uber 一樣的企業目前所面臨的問題，並使他們的數據科學家得以繼續進行方案設計和測試，而不侵犯使用其服務的真實人們的隱私（包括他們的朋友和家人）。」

此外，Veeramachaneni 及其團隊的機器學習模型可輕鬆實現縮放，以創建很小或很大的合成數據集，從而促進快速開發周期或推動大數據系統測試。

人工數據也是用來教育學生的重要工具——雖然真實數據處理起來通常對他們過於敏感，合成數據卻可以替代它高效地使用。這項創新可讓下一代數據科學家享受大數據的所有好處，而沒有任何負擔。