標籤:

史上最嚴苛隱私數據保護法5月生效!

本文由 「AI前線」原創(ID:ai-front),原文鏈接:史上最嚴苛隱私數據保護法5月生效!

策劃編輯 | Natalie

作者 | Debra

編輯 | Emily

AI前線導讀:昨日,李彥宏一句「中國用戶願意用隱私換效率」,輿論一片嘩然。不得已的中國用戶們,哪個是真的願意用隱私換效率?大部分人怕都是「不得不」用隱私換效率。

而再早一點的 Facebook泄漏用戶數據的事件發酵到今天,已然成了社交媒體史上最大的醜聞,將互聯網時代讓用戶深深憂心但不敢輕易揭開的事實——數據隱私安全的漏洞完全暴露出來。這些都為數據安全工作領域敲響了警鐘:此類事件不是第一次發生,也不會止於這一次,應該怎麼做才能盡量避免它再次發生呢?

據悉,歐盟已經搶先採取行動,對 GDPR(General Data Protection Regulation,歐盟通用數據保護條例)做了號稱史上最嚴格的一次修訂,將於今年 5月 25日正式生效。AI前線關心的是,GDPR做了哪些改動?到底會對大數據、AI科技公司和開發人員帶來什麼影響?普通民眾的個人隱私將得以保全嗎?為此,AI前線對這一法案進行了深入研究,我們發現,雖然條例中仍存在許多不確定因素,但它將影響的可不只是歐盟成員國人士。

更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)什麼是 GDPR?

經過四年的準備和辯論之後,GDPR 終於在 2016 年 4 月 14 日獲得了歐盟議會的批准,取代了 1995 年的數據保護指令 95/46/EC,旨在調整整個歐洲的數據隱私法律,保護和賦權所有歐盟公民的數據隱私,並重塑整個地區組織處理隱私數據的方式。該條例對隱私保護條例做出了 20 年來最大的改動,從 2018 年 5 月 25 日起生效,屆時違規組織可能面臨重罰。

官網鏈款:eugdpr.org/key-changes.

GDPR 的目標是在大數據時代保護所有歐盟公民免受隱私和數據泄露的侵害。該條例的數據隱私關鍵原則仍符合此前的 1995 年指令,但監管政策有了諸多改變。以下是 GDPR 關鍵變化,以及它對商業影響的詳細說明。

有哪些改動?

1. 管理地域範圍擴大(域外適用性)

不管公司在不在歐盟,不管數據物理地址在哪裡,只要從事涉及歐盟公民個人數據處理業務的企業和機構,包括跨國公司(如 BAT 等所有互聯網企業)都得遵守 GDPR。

可以說,GDPR 的最大改動是地域適用性擴大,該修訂法案生效後將適用於所有涉及歐盟個人數據處理業務的公司(不管公司所處位置)。此前,該指令的地域適用性並不明確,而 GDPR 使之變得非常明確——適用於所有在歐盟的個人數據服務商和處理主體,無論數據處理過程是否在歐盟進行。GDPR 還將適用於未在歐盟設立公司的服務商或個人數據處理公司,只要其活動涉及:向歐盟公民提供商品或服務(不論是否需要付款),以及監測在歐盟內發生的活動。此外,處理歐盟公民數據的非歐盟企業也必須在歐盟設立代表處(人)。

2. 懲罰加重

違反 GDPR 的組織可能會面臨最高全球年營業額 4%或 2000 萬歐元(或更高)的罰款,包括「雲」業務。

根據 GDPR,違反 GDPR 的組織可能會面臨最高全球年營業額 4%或 2000 萬歐元(或更高)的罰款。如果沒有獲得客戶同意就處理該用戶數據,或未在設計階段實踐保護隱私(Privacy by Design )的核心概念,公司將被處以最高罰款。另外,罰款是分等級的:例如因記錄不清晰,不通知監管當局和數據主體違約或不進行影響評估,違法公司會被罰款 2%(第 28 條)。值得注意的是,這些規則也適用於服務商和處理器——這意味著「雲」業務也將包含在 GDPR 的監管範圍之內。

3. 用戶同意

使用數據前必須徵得的用戶同意,用戶可以撤回同意,而且還要讓用戶看得懂條款和條件、知道怎麼撤回同意。

新法規強調用戶同意的重要性,公司不允許在用戶同意條款中使用難以理解的條款和條件,而必須以易於理解和訪問的語言和形式提供,同意條款必須清晰明確,並與其他事項區分開來。另外,撤回同意也應與授權同意程序的操作難度一致。

數據主體權利

1. 違規通知

根據 GDPR,在數據泄露可能「導致個人權利和自由風險」的所有成員國,如果違反規定必須通知用戶成為強制性要求。違規公司必須在第一次意識到違規之後 72 小時內完成通知工作,同時要求數據處理器在第一次意識到數據泄露之後「通知他們的客戶和服務商」,不得「無故拖延」。

2. 訪問權

GDPR 下,數據主體的部分擴展權利包括數據主體有權從數據管理員處確認是否正在處理與其有關的個人數據,用途以及使用地點。此外,服務商應以電子格式免費提供個人資料的副本。這一變化是數據透明度化和數據主體授權的一個巨大變化。

3. 被遺忘權(數據擦除)

也稱為數據擦除,被遺忘權使數據主體有權讓數據服務商擦除他 / 她的個人數據,停止進一步傳播數據,並可以要求第三方停止處理數據。根據第 17 條規定,刪除數據的條件包括數據已與原始處理目的不再相關,或者數據主體撤回同意。還應該注意的是,這項權利要求管理者在考慮這些請求時將主體的權利與「公眾對數據可用性的興趣」進行比較。

4. 數據可遷移性

GDPR 新增了數據的可遷移性——數據主體有權接收關於他們的個人數據,這些數據以前曾以「通用和機器可讀的格式」提供,屆時,數據主體將有權將數據遷移到其他服務商。

5. 隱私設計

隱私設計作為一個概念已經存在多年,但它只是成為 GDPR 的一部分。隱私設計的核心在於要求系統在設計階段就應包含數據保護的考慮,而不是之後增加。更具體地說,「控制人應當...... 以有效的方式採取適當的技術和組織措施...... 以滿足本法規的要求並保護數據主體的權利」。第 23 條要求管制人員只保留和處理完成其職責絕對必要的數據(數據最小化),並將個人數據的訪問限於需要處理數據的人員。

6. 數據保護官

目前,服務商需要向當地數據處理局(Data Processing Agency)告知其數據處理活動,這對於跨國公司來說可能是一個官僚主義的噩夢,因為大多數成員國都有不同的通知要求。根據 GDPR,他們不需要向每個當地的 DPA 提交數據處理活動的通知 / 註冊,也不需要根據示範合同條款(MCC)通知 / 獲得轉讓批准。相反地,如下所述,他們應當保存內部記錄,並且僅對核心活動處理操作的服務商和處理器進行資料保護長 Data protection officer(DPO)強制任命,這些處理操作需要對數據主體進行大規模,或與刑事定罪和犯罪有關的特定數據類別進行長期和系統的監控。重要的是,這些 DPO:

  • 必須具有專業素質,特別是精通關於數據保護法律和慣例的專業知識
  • 可以是工作人員或外部人員
  • 必須向相關 DPA 提供聯繫方式
  • 必須獲得適當的資源來執行他們的任務並更新專業知識
  • 必須直接向最高級別的管理層報告
  • 不得執行可能導致利益衝突的任何其他任務

對機器學習、大數據、AI 人員和公司的影響

除了上述地域上的影響,即所有在歐盟開辦業務的涉及數據處理的企業(包括跨國企業)都將納入 GDPR 監管範圍之內,大數據、AI 開發人員和公司還會受到其他的影響。

機器學習將非法?

不久前,人工智慧研究領域大牛——華盛頓大學的 Pedro Domingos 教授,用他的推文掀起了一場風暴。

「從 25 日起,歐盟將要求演算法解釋輸出的原理,屆時深度學習將變得非法。」

——Pedro Domingos

事實上,GDPR 真的要求解釋機器學習演算法原理嗎?關於這一點其實還是有一些爭議的。

據專家分析,GDPR 將對機器學習領域產生重大影響的規定可能是「演算法解釋的權利」(right to explanation),即數據主體有權要求數據服務商解釋機器學習進行自主決策的演算法原理。

雖然現在已經有一些演算法,如 LIME:Local Interpretable Model-Agnostic Explanations,可以解釋機器學習分類器的預測原理,但它並不是萬能的,解釋演算法原理仍然是一項極具挑戰的事。

一位歐盟律師,同時是牛津大學大數據、AI& 機器人學院的研究員 SandraWachter5 對 GDPR 條款做了一些分析。

她說道,GDPR 要求數據公司採取適當的措施來保護數據主體的權利自由和合法利益。這些措施應該包括數據主體有權獲得人為干預、表達觀點和對對決策提出異議的權利。

她的觀點是,GDPR 第 15 條意味著一種更加泛化的監督形式,而不是一項要求系統對某一決策原理進行解釋的權利。因此,GDPR 中關於解釋的權利不具有法律約束力,但公司可以自願提供。在她的文章中提到,「數據服務商可以各種方式提供解釋,目前至少有兩種可能的演算法解釋:「系統功能」的解釋和關於單獨決策「基本原理」的解釋。解釋用於評估信譽度或設定利率(系統功能)的演算法方法,與解釋某個特定比率的依據或拒絕信用卡申請的「原因」不同。

她說道,她與圖靈研究人員 Brent Mittelstadt 博士和 Luciano Floridi 教授一起研究了這一說法。「不幸的是,與我們所希望的相反,研究表明,GDPR 可能僅要求向個人告知有關自動決策機制和「系統功能」的存在,但沒有關於要求解釋決策基本原理的規定。事實上,在整個 GDPR 中,「解釋權」在規定中只提到過一次,71 條缺乏構成獨立權利的法律效力(這條法令旨在解釋監管框架的運作部分不清晰時提供指導)。」

立法人員將「解釋權」放在 71 條中,而且歐洲議會提出的使這項權利具有法律約束力的建議未獲通過,這表明歐洲立法者不希望讓這一想法與 GDPR 第 22 條具有相等的法律約束力。當然,這並不意味著數據公司不能自願提供解釋,或者未來在這條法令之上增加這樣的內容。

對於這種情況,她認為一種可行的解決辦法是反設事實(Counterfactuals):比如你因收入為 30000 歐元而貸款被拒,但當你的收入為 45000 歐元時就會被接受。

在論文 Counterfactual Explanations Without Opening the Black Box: Automated Decisions and the GDPR 中,作者 Sandra Wachter,Brent Mittelstadt 和 Chris Russell 解釋了在使用高度複雜的系統時,我們如何給人們提供有意義的解釋,而無需了解演算法的內部邏輯。而且,使用反設事實也不太可能侵犯商業秘密。

然而,並不是所有人都同意她的說法。例如 Andrew D. Selbst 和 Julia Powles 在 Meaningful information and the right to explanation 一文中說道:「儘管 GDPR 沒有關於「解釋權利」的明確條款,但並不是無中生有。第 13-15 條規定數據主體擁有知悉自動化決策「有關所涉邏輯的有意義信息」的權利。無論是否使用該詞語,這都是一種解釋權。」

看來,圍繞「解釋的權利」還大有討價還價的空間存在,律師們可有的忙了。

數據服務公司受打擊

根據新規中新增加的數據轉移權規定,用戶可隨時將個人數據遷移至新的服務商,這樣一來,谷歌、Facebook、Twitter 等嚴重依賴用戶數據進行創新服務的公司將是巨大的打擊;被遺忘權規定,用戶有權要求數據服務商刪除個人數據,且不能過分延長數據保存時間,像依賴 cookie 數據收集、廣告投放的技術公司將受損失;演算法解釋權規定,用戶有權要求服務商解釋演算法自動決策的原理,並有權在對解釋不滿意時退出。

AI 黑箱問題提高成本,阻礙 AI 創新

新規規定,數據服務商必須以簡單易懂的語言列明用戶同意條款,使用用戶數據需經過用戶同意。另外也有人認為,即使沒有明確規定「解釋權」,但 13-15 條里有關用戶「有權獲得自動決策相關邏輯有用信息」的條文實際上就是一種「解釋權」,這是產生矛盾的地方。從這個角度解讀,GDPR 對 AI 企業可開發人員的影響就不可小覷了,與 SandraWachter 所說的 GDPR 中並沒有明確規定的說法相悖,這可能意味著,AI 公司在處理諸如 AI 黑箱問題時需徵求用戶同意,相關 AI 應用可能也不再合法。

其次,AI 公司還面臨 AI 黑箱(black-box problem)的問題。目前,大多數 AI 公司嚴重依賴大數據,通過人工智慧或深度學習的方法獲利,而當前業界普遍認為神經網路存在黑箱問題,科技公司需要花費巨大的成本解決解釋網路的工作原理。

更進一步說,人工智慧目前火熱的發展勢頭,可能都會因 GDPR 而遭受打擊。

立法容易撒網過大

不久前,Facebook 抓取 5000 萬用戶隱私信息的事件已經演變成一個巨大的醜聞,事發後不僅 Facebook 股價大跌,CEO 馬克?扎克伯格 (Mark Zuckerberg) 都親自發文出面為這家超級社交網路公司挽尊。最新消息透露,如果美國聯邦貿易委員會(FTC)最終裁決 Facebook 違反協議,Facebook 可能將會面臨巨額罰款,每泄露一個用戶的信息,就要罰款 4 萬美元。按照 5000 萬用戶的基數算的話,Facebook 可能要面臨 2 萬億美元的巨額罰款。3 月 21 日,扎克伯格在接受美國有線新聞網 (CNN) 採訪時表示,針對最近媒體對劍橋分析 (Cambridge Analytica) 收集逾 5000 萬個 Facebook 賬戶的數據的報道,他願意就美國政府的任何相關調查作證,他不反對他的社交媒體公司受到監管。但是在拿出是行動之前,用戶的怒火是無法平息的。

在國內,今日頭條使用麥克風竊取用戶隱私的事件熱度仍然不減,雖然今日頭條聲稱實現「麥克風竊取用戶隱私的技術還有些遙遠「,但已經有聲紋處理專家和生物識別專家站出來指證,「類似的功能,十年前的技術就能實現,CIA、NSA 早就在使用了」。

在大數據時代,我們的信息早已暴露在互聯網中,一款軟體就可以將你的個人信息傳遞到世界的各個角落。面對嚴峻的個人隱私信息泄漏現狀,我們可以從技術和法律監督層面上做出更多努力。得益於即將生效的 GDPR,目前十分流行的第三方支付工具 PayPal,在 2018 年 1 月公開了可以分享該軟體用戶個人數據的第三方公司和機構名單,為用戶數據用途公開透明化開了個好頭。

這份長長的名單著實讓人震驚,第三方包括支付處理方、審計方、客戶服務外包商、信用和防欺詐機構、金融產品公司、商業合作夥伴等不下數千家公司,是真正的「客戶不出門,數據天下傳」。當你在這款軟體上登記註冊下你的個人信息時,遠在天邊的各種公司和機構的電腦、雲端中已經存下了你的檔案,包括你的姓名、出生日期、地址、電子郵件、賬戶信息、信用狀況等,而沒有人能保證,這些信息還會流轉到其他人手上,相信經常收到陌生推銷電話和信息的朋友們都深有體會。

想了解 PayPal 如何使用用戶數據、分享給哪些第三方,可以點擊下面的鏈接查看數據可視化效果:

rebecca-ricks.com/paypa

PayPal 公布共享用戶信息的第三方完整名單鏈接:

paypal.com/ie/webapps/m

當然,這對於用戶來說是個好消息,但對公司和開發人員來說卻是一個巨大的負擔。

除了技術手段,法律監管也是解決用戶數據隱私的方法之一。然而,法律有時會撒下一張過大的網,難免會造成打擊面過廣的尷尬境地。

例如,從 2016 年就已經存在,近日在法律程序上有所進展的歐盟版權方針(EU Copyright Directive)。該提案要求託管內容的所有平台檢查所有上傳的內容有無侵犯版權。歐盟的這一項版權提案旨在防止媒體盜版,用意是好的,但可能會因為撒網過大,給使用代碼倉庫 GitHub 等服務的廣大開發者帶來嚴重影響,因為按照新法律 GitHub 將被迫過濾代碼,導致軟體的成本更高昂。此外,新法規還要求代碼共享平台刪除沒有許可證的代碼。

該提案的第 13 條專門涉及自動內容過濾器的實施,這也是讓 GitHub 及其他歐洲程序員們深為擔憂的部分。

第 13 條規定:「如果提供商存儲用戶上傳的大量作品或其他主題,並允許公眾訪問這些內容」,須與版權所有者合作,實施措施以防止內容被非法共享。 「那些措施(比如使用有效的內容識別技術)應該是適當的、相稱的,」該提案表示。第 13 條進一步提到了內容識別技術是發現版權侵犯行為的最佳實踐的一部分,因此過濾器很可能成為新版權法最終條文的一部分。然而,哪些類型的內容要過濾卻沒有明確規定。

如果新法規實施,代碼共享平台就需要招聘眾多的人員幫助做好版權合規工作,通過使用 Git 及其他軟體工具而共享的大量內容需要 GitHub 等面向開發的平台公司實施自動化過濾機制,確定什麼內容可以共享、什麼不可以共享。

GitHub 認為,對於軟體開發者而言,由於應用程序常常牽涉許多不同的貢獻者和不同層的代碼(這些代碼也許採用不同的許可證),可能出現誤報或漏報這個問題顯得尤為突出。

正如 GitHub 指出的那樣,自動過濾代碼對於獨立程序員和大企業程序員來說都是毀滅性的,他們面臨的問題可能包括:誤報 / 漏報、丟失依賴項、許可證混淆以及不必要的負擔會阻礙創新。

目前該版權提案仍在討論中,已經有人開始竭力阻止實施。如自由軟體基金會歐洲分會和開放論壇歐洲共同發起了 Save Code Share,這場請願活動旨在阻止第 13 條實施,呼籲歐盟的政策制定者重新考慮或擯棄第 13 條。他們認為,對於處理代碼、文檔、音頻和視頻的開發者來說,版權合規檢查完全實現自動化是不可行的。

用戶隱私保護任重道遠

大數據時代,個人隱私保護涉及我們每個人的切身利益,數據產業如何在保護消費者隱私的前提下快速發展,也是眾人應該思考的問題,立法成了解決這個問題的「最後一根稻草」。但是,打擊面過廣又會造成用戶和商業利益之間的衝突和不必要的損失,如何把握好立法的合理度成為一項挑戰,用戶隱私保護仍然任重而道遠。但無論怎樣,如果能用技術實現個人隱私保護與信息利用之間的平衡,相信對任何一方都是最令人期望的 Happy Ending。

參考資料:

kdnuggets.com/2018/03/g

paypal.com/ie/webapps/m

rebecca-ricks.com/paypa

weixin.qq.com/r/dijSyg3 (二維碼自動識別)

今日薦文

點擊下方圖片即可閱讀

李彥宏也來攪局視頻智能音箱,這張「親情牌」打得響嗎?

深度培訓

ArchSummit 深圳站除準備了上百場前沿架構案例之外,此次還邀請了 Facebook 商業機器學習負責人、阿里高級技術專家前來開展 內部深度培訓,手把手幫你搭建主流機器學習平台及實時流計算架構。其中 Facebook 培訓大綱如下:

  • 機器學習、特徵工程實踐問題及步驟解析
  • 監督學習:分類、回歸、深度學習、模型性能
  • 無監督 /半監督學習
  • 其他機器學習應用(備份、個性化、預測)
  • 工業機器學習應用
  • Facebook、Microsoft、Amazon 的機器學習應用實踐

PS:上述實踐使用 R 和 Python 語言

目前 ArchSummit 會議及培訓限時報名,席位有限,詳細內容歡迎識別下方二維碼或點擊閱讀原文,如需幫助可直接聯繫票務經理(微信:aschina666)

如果喜歡我們的文章,歡迎大家在閱讀後隨手點贊,以示鼓勵。原創是一種信仰,專註是一種態度。

更多乾貨內容,可關注AI前線,ID:ai-front,後台回復「AI」、「TF」、「大數據」可獲得《AI前線》系列PDF迷你書和技能圖譜。


推薦閱讀:

面對水漲船高的一體機,PC端VR不行了嗎?
人工智慧開始風生水起
大數據、雲計算與人工智慧推動呼叫中心運營新模式
【阿童木人工智慧】如何培養兒童的創造力和發散思維能力
什麼是智能機器人?

TAG:人工智慧 |