《科學大家》專欄| 從「臉書」數據泄露談起：社交網路中該如何保護隱私？

05-26

這裡有

最前沿的科學新聞

最精彩震撼的圖片

全文字數：3546字

閱讀時間：11分鐘

導讀

2018年3月17日當地時間，美國紐約時報和英國觀察者報（英國衛報的周日版）共同發布了深度報道，」 The Cambridge Analytica Files」，稱Facebook上超過5000萬用戶信息數據被一家名為Cambridge Analytica（劍橋分析）的公司不當獲取，用於在2016年美國總統大選中對目標受眾進行精準信息投放，可能影響到大選結果。這篇報道在世界範圍內引發了軒然大波，並不斷發酵至今，也引起人們對社交網路數據隱私保護的熱切關注。

出品 | 新浪科技《科學大家》

撰文 | 朱廷劭中國科學院心理研究所研究員

事情起因於劍橋大學的心理學講師Aleksandr Kogan通過一款用於科研的Facebook應用（thisisyourdigitallife）收集了約27萬用戶的數據記錄，並通過好友關係抓取了共5000萬名Facebook用戶數據。

Facebook宣稱Kogan後來將這些數據轉手賣給了第三方，其中就包括劍橋分析公司。劍橋分析通過對Facebook數據挖掘獲取選民的心理特點，進而有針對性地為特朗普投放競選廣告，由此輔助特朗普贏得2016美國大選，從而名聲大噪。

事件曝光後在媒體和網路上持續發酵，報道中遭到個人數據泄露的用戶數量在不斷放大，甚至有媒體宣稱挖到了「通俄」線索，Facebook股價也隨之大跌，一時眾說紛紜，好不熱鬧。

在熱鬧與震驚背後，這一事件觸及了在以社交網路為代表的大數據時代，用戶數據應該被如何使用的一些關鍵問題。這些問題在近年來社交網路心理學研究中被不斷提及，在學術界也已有若干討論與共識。巧合的是，這次事件的起源恰恰有可能與對科研倫理的違背有關。下面我們來逐一分析。

網上沒有留下關鍵信息，隱私還會泄露嗎？

隨著網路的普及

人們對於網路信息的安全性愈加關注

不會輕易把個人的關鍵信息放在網上

但縱然如此

隱私真的就萬無一失了嗎？

2006年6月，Pass等人在香港舉辦的一個國際會議上發表了」A Picture of Search」的論文，並將文中使用的美國在線2006年3月1號到5月31號的搜索日誌公開，包括1900萬次搜索、1080多萬搜索詞以及65萬餘匿名化處理後的用戶ID。雖然這些數據中已經將用戶信息刪除，但是有的搜索本身就含有個人隱私性質。一些搜索記錄可能與特定的人能夠相聯繫，縱然用戶ID已經被匿名化處理，但是從某個用戶ID所做的一系列搜索，仍然有可能找到這個用戶的真實身份。

紐約時報記者根據搜索數據輕易地找到一位62歲的老太太，這個老太太證實那些列出的搜索關鍵詞確實是她的。事後，這個研究小組被解散，並最終導致AOL首席技術官引咎辭職。個人隱私的泄露除了自己主動放到網上被他人不當獲取之外，通過對網路留痕的分析，也可以對一些比較隱私的個人關鍵信息（如年齡性別等）進行有效推斷。

人們在社交網路上的一舉一動，都是性格特點與內心狀態等心理特徵的某種反映。個人往往不需要在社交網路上直接寫下「我是××性格的人」，只要對社交網路的日常使用積累到一定數量，科學家就能夠運用人工智慧技術，通過其在社交網路上日常展示的信息自動計算出心理特徵，目前在Facebook/Twitter以及微博上相關研究也證實了這種個人心理特徵自動獲取的可行性。

如果我們在社交網路上展示的內容足夠豐富，對我們心理特徵的計算可以做到很準確，甚至能超過家人對我們的了解程度。這些心理特徵可能對許多應用有重要的指導作用，比如可以根據用戶的心理特徵來推薦他感興趣的內容，帶來更佳的用戶體驗；又比如可以根據這些心理特徵有針對性地投放廣告，提高宣傳的效果，而這正是Cambridge Analytica公司據稱在英國脫歐和美國大選中所做的事情。

運用類似的方法，通過社交網路行為數據還有可能識別出個體的性取向、政治傾向、價值觀等通常意義上更「敏感」的個人信息。而在其他一些只反映某種特定行為的數據集上，如利用匿名之後的信用卡刷卡的地點記錄，用戶的身份更是很容易被定位。因此，只隱去傳統意義上的個人關鍵信息，在人工智慧和大數據的配合下，可能我們的隱私反而會以一種更深刻的形式泄露出去。

當然，利用人工智慧技術算出上述個人特徵的前提，是掌握了此人足夠多的數據。如果此人在社交網路上留下的有效行為數據不夠多，那再厲害的演算法也無能為力。而且，我們可以在社交網路平台上為自己所展示的內容設定不同的私密等級，比如把有些內容設置為只有好友可見，這樣一來，如果沒有我們的授權，陌生人就不能獲得這些數據。因此通常而言，在社交網路上獲得大量用戶的、足夠準確計算其中每個人心理特徵的數據，並不是一件容易的事。

App被允許收集用戶數據，應更好服務大眾

社交網路上的第三方App的一個共同特點，就是需要用戶授權，授權App服務的提供者（比如本次事件中的Kogan團隊）獲取用戶在社交網路上發表的各種數據。如果用戶想要使用這項App服務，那就必須對其授權。事實上，所有社交網路平台都允許這樣的App存在，並提供相應的開發介面，因為只有如此，社交網路才能具有豐富多彩的功能和不斷提升的用戶體驗。

通常App訪問用戶數據的目的，是為實現和提升其服務功能，例如我們想讓App推薦附近的餐館，自然要允許它訪問我們的位置信息。不只社交網路，搜索引擎、電商、網路媒體等各種網路平台功能與體驗的提升，都依賴於對用戶數據的收集分析。換句話說，網路用戶允許自己的數據在某種程度上被分析和利用，也是享受到更多、更好服務的必然前提。

同時，社交網路中積累的海量用戶行為數據，是科學研究的資源寶庫。合理分析利用這些數據，能夠獲得大量關於人類行為與心理的新知，不僅能有力促進心理學、社會學等基礎學科和人工智慧技術的發展，更能為解決諸如心理健康、自殺等實際挑戰帶來新的曙光。社交網路行為數據由大眾自發產生，也應當被用於旨在增進大眾福利的探索與實踐。

怎樣利用這些數據才是可以接受的？

在Facebook事件曝光之後，不僅公眾反應強烈，互聯網巨頭們也紛紛表態強調對用戶隱私的保護，表達了「隱私是基本人權」、「數據是個人資產」、「保護信息安全是公司責任」等原則性觀點；同時，他們也指出了讓數據得到合理利用而不被浪費的重要性。那麼，怎樣利用這些數據才是可以接受的？就操作層面而言，關鍵是保障用戶對數據被使用的知情權與選擇權。

Facebook事件之所以成為公眾無法接受的醜聞，核心在於公眾對自己的數據用於干預選舉並不知情，更談不上同意。

從目前的公開報道來看， Kogan團隊和Facebook公司對這一局面的形成可能都負有一定責任：如果Aleksandr Kogan對其App用戶聲稱數據收集只用於科研目的，由此獲得了用戶授權，但之後卻把數據或分析結果賣給了第三方，則這一行為明顯違背了科研倫理；如果Facebook在明確得知以科研名義獲取的數據被挪作他用之後沒有及時採取措施，則也應承擔相應責任。更重要的是，據報道2015年之前Facebook在App許可權的管理規則上存在漏洞，造成Kogan的App在只有27萬用戶授權的情況下能夠獲取約5千萬用戶的數據，這種數據量上的擴增是導致「一個App可能影響大選」的重要原因。

事實上，從人工智慧技術最早在科研中被用於分析社交網路數據的那一刻起，學術界就已經開始了對相關倫理標準的探討，並已達成了基本共識：基於社交網路的行為心理研究同樣應當遵守人類被試研究的一般倫理原則，使用需要用戶授權的數據必須徵得用戶的知情同意，並嚴格按照經由倫理委員會審核批准的程序進行，尤其不能將研究數據用於倫理委員會批准範圍之外的目的（如轉賣給第三方）。即便是使用不需用戶授權的公開網路數據，在用於科研時也應同時滿足以下四項標準：　

用戶對數據公開是知情的

數據收集後應匿名處理

研究中不存在與用戶的互動和溝通

在公開發表物中不得出現能夠識別用戶個人身份的信息

上述倫理原則對網路行為數據在非學術領域的使用也具有借鑒意義。無論我們以何種名義，都應該確保用戶對自己數據被使用的知情權和選擇權，任何形式的越廚代庖都是對用戶的不尊重，最終也必然被用戶所拋棄。

怎樣避免類似事件再次發生？

社交網路滿足了人們的諸多需求，它的普及乃是大勢所趨，人工智慧的發展和應用更是人類技術與產業進步的希望所在。我們不可能也不應該因噎廢食，因存在個人隱私泄露的風險而廢止社交網路、禁止對社交網路數據的分析和利用。我們真正需要做的，是用制度和規則來規範對網路平台用戶數據的使用，使之在法律和道德的框架之內有序運行，這樣才能避免類似醜聞再次發生，保證網路行為數據這一由大眾產生出的寶藏最終服務於增進大眾的福祉、促進人類進步。

對基於社交網路的科學研究應當予以鼓勵，但必須與其他傳統研究領域一樣，在嚴格的科研倫理標準和有效的違規懲戒機制下運行。研究人員要謹遵知情同意原則和隱私保護原則，在從數據到成果的整個流程中都採取有效措施避免用戶的利益受到侵害。如果研究項目有商業機構的參與，尤其需要謹慎處理。

為保障普通用戶的知情權和選擇權得以充分落實，一方面網路平台須在功能上充分滿足用戶知情同意的要求，如在用戶授權之前提供充足的說明，提供方便的隱私設定選項等，尤其要在數據管理規則上與用戶授權的等級嚴格匹配；另一方面也應對普通網路用戶進行必要的知識普及。當用戶在社交網路上展示自我、享受關注與互動的同時，應當充分意識到自己的行為數據根據自身設定的私密等級，處於不同程度的暴露狀態，並將基於自己的授權而為社交網路平台和各種第三方所分析和利用。

相信隨著Facebook數據泄露事件的真相逐步釐清，不管是對科研倫理的違反還是數據安全管理的疏漏，終將有著明確的責任認定和懲戒方案。而在這個互聯網大數據時代，如何讓人工智慧更好地造福於人，而不是帶來煩惱甚至危險，這依然需要緊隨技術發展的腳步，不斷開展持續深入地討論，並在實踐中不斷修正。