【深度學習不是犯罪】歐盟祭出最嚴數據保護法:專家解讀 GDPR
深度學習會是犯罪行為嗎?歐洲「史上最嚴」的數據保護條例今天實施,其中提及了對演算法的可解釋性。華盛頓大學計算機科學教授Pedro Domingos曾發推特說,條例會讓深度學習成為違法行為。但實際上並非如此。
今天,歐洲「史上最嚴」的數據保護條例——通用數據保護條例(The EU General Data Protection Regulation,GDPR)生效。
GDPR有多嚴格?對於違規收集個人信息的互聯網公司,最高可罰款2000萬歐元或全球營業額的4%。
這個數字看上去沒什麼概念。舉個例子,微軟2017年收入 900億美元,4%就是36億美元;亞馬遜2017年的收入為1779億美元,若罰款4%就是70億美元。
對大公司罰再多的款看上去也跟開發者無關,畢竟又罰不到開發者身上。
那就錯了。
在今年初,華盛頓大學人工智慧專家Pedro Domingos教授的發推特:GDPR要求演算法有可解釋性,這讓深度學習成了違法行為!
當時這條推特就引起了恐慌,引發各種律師出來進行解讀。
最新的消息是,在ICAN諮詢公司的GDPR交付經理(Delivery Manager)說,GDPR不會停止機器學習和深度學習,也不會成為它們的危險。
看上去鬆了口氣,但對AI產業界來講,GDPR帶來的影響才剛剛開始。
深度學習的「大敵」:你給我解釋解釋可解釋
Domingos教授認為「深度學習違法」,是因為GDPR中的第13至15條規定,公司有義務提供對個人演算法決策的詳細解釋,或關於演算法如何作出決定的一般信息——這是爭論的焦點。
很多人對Domingos教授的話感到擔憂:GDPR是否真的需要機器學習演算法的解釋?
首先應該區分一下「解釋」的範圍:
- 全局解釋(Global explanation):機器學習的演算法是如何工作的(這對於深度學習等複雜方法來說可能非常困難)。
- 局部解釋(Local explanation):影響特定人員的某個特定決策的因素有哪些(比較容易)。已經有一些演算法,如LIME:Local Interpretable Model-Agnostic Explanations,它可以解釋任何機器學習分類器的預測。
例如,如果一個人的抵押貸款被拒,TA是否應該知道是哪些因素促成了這一決定?一方面,如果你被演算法拒絕,你想知道為什麼,並有機會上訴。另一方面,足夠的解釋可能會使決策邊界被反向設計,並允許潛在的邪惡行為者對系統進行博弈。在很多情況下這是非常不可取的(例如安全應用)。
- 歐盟律師、牛津大學人工智慧和機器人技術法律與倫理研究員Sandra Wachter博士認為,GDPR要求數據控制器實施適當的措施來保障數據主體的權利自由和合法權益。而第15條意味著一種更普遍的監督形式,而不是對某一特定決定作出解釋的權利。
說起來有點繞,直白點的意思是:
在GDPR中,解釋的權利不具有法律約束力,但可以自願提供。
Sandra Wachter博士還認為,GDPR很可能只向個人提供關於自動決策和系統功能存在的信息,但是沒有關於決策基本原理的解釋。事實上,在整個GDPR中,「解釋權」只在第71章的規定中提到過一次,而這一規定缺乏建立獨立權利的法律權力。
數據研究公司MediaGamma聯合創始人、CEO Rael Cline認為,深度學習僅僅是一種使用大量數據(標記或未標記)的演算法。由於其有效性與數據的數量和質量以及這些數據集的危害程度有關,在最壞的情況下,GDPR可能影響演算法的準確性並限制其商業價值。
「使用未經消費者同意的數據在GDPR下是非法的,但深度學習的方法不違法。值得注意的是,在許多用例中,GDPR的影響非常小(例如,工廠的數據是由機器生成的,而不是終端用戶的)。」
ICAN諮詢公司GDPR交付經理Can Huzmeli也說,GDPR不會成為機器學習和深度學習的危險。
「GDPR關注的是作為系統輸入的數據,以及作為處理結果共享數據的人。」Huzmeli說。「只要你的數據處理方式在隱私方面是安全的,你就可以使用任何演算法。」
在這種情況下,只要你有輸入的合法依據,也不非法共享演算法的輸出,那麼就是安全的。
Huzmeli也說,這確實給機器學習系統帶來了額外的負擔,因為它們通常使用爬蟲來收集數據。但是,他們已經使用過濾器來清理數據。因此,GDPR中添加的唯一額外一項規定是在數據集結束之前過濾敏感數據。
「GDPR正將必要的意識引入到生態系統中,並通過提醒公司在隱私領域承擔多大的責任來引導它們。」
Sandra Wachter博士也認為,基於人工智慧的系統往往是不透明的「黑盒子」,難以仔細檢查。隨著我們越來越多的經濟、社會和公民交互——從信貸市場和健康保險應用到招聘和刑事司法系統——都是通過演算法進行的,人們對技術背後缺乏透明度的擔憂越來越多,對如何做出決定的理解很少。
「我們需要適當的保護措施來確保正在做出的關於我們的決定實際上是公正和準確的。」
應對「史上最嚴」條例,企業應關注9大要點
之所以被稱為「史上最嚴」數據保護條例,因為GDPR規定,對違規收集個人信息、沒有保障數據安全的互聯網公司,最高可罰款2000萬歐元或全球營業額的4%(以較高者為準)。
舉例來說,亞馬遜2017年的收入為1779億美元,如果亞馬遜非法收集用戶數據,那麼罰款2000萬歐元就太少了,應該是年收入的4%,即70億美元。百度2017年的利潤是28.1億美元,對亞馬遜的罰款相當於是2.5個百度。
罰款只是極端情況,GDPR對AI公司的影響遠比罰款複雜的多,總結下來有以下九大影響:
1. 要求公司手工審查重要的演算法決策增加了AI的整體成本。
在GDPR中,最直接針對AI使用的是第22條,即要求公司必須讓人類審查某些演算法的決策。這一限制大大增加了人工成本,阻礙AI的使用——開發AI的一個主要動機就是自動化,如果由人類來完成的話將會更慢、更昂貴、更難以完成。
2. 知情權可能導致降低AI的準確性。
GDPR的第13至15條規定,公司有義務提供對個人演算法決策的詳細解釋,或關於演算法如何作出決定的一般信息。前者可能破壞演算法的準確性,甚至適得其反,導致不公平的決策。因為在演算法決策中準確性和透明度之間存在權衡。
GDPR規定,數據控制者必須以清楚、簡單、明了的方式向個人說明其個人數據是如何被收集處理的。可以想見的是,當前企業普遍應用的隱私政策必須進行大幅改革,才能滿足合規要求。如果涉及自動化的數據處理,包括數據畫像活動,則需要提供基本的演算法邏輯以及針對個人的運算結果。
3. 被遺忘權可能會破壞AI系統。
第17(1)條中的「被遺忘權」(right to erasure)也可能損害AI。所有使用無監督機器學習的AI系統都被要求「記住」它們用來自我訓練的所有數據,以維持從那些數據中得到的規則。但是,清楚這些數據可能導致AI的準確率降低,甚至完全失效。
4. 禁止重新利用數據將限制AI的創新。
GDPR第6條規定,除了首次收集數據之外的任何其他目的都禁止使用數據,因此企業難以利用數據進行創新。
5. 模糊的規則可能阻止公司使用去識別數據(de-identified data)。
雖然GDPR允許使用去識別的數據,但缺乏明確的去識別標準,這可能削弱公司對數據進行去識別的動力。
6. GDPR的複雜性會提高使用AI的成本。
GDPR是一項非常複雜的法規,可能難以遵循。開發或使用AI的公司需要有專門的人員和技術來確保它們符合GDPR,這將提高使用AI的成本。
7. GDPR增加了使用AI的企業面臨的監管風險。
8. 數據本地化的要求提高了AI成本。
GDPR第5條概述了與個人數據處理相關的原則,對歐盟以外的個人數據流動有嚴格的控制,例如要求企業必須使用歐盟國家的數據中心。這減少了雲服務提供商之間的競爭,但增加了數據處理的成本。
9. 「數據可攜權」將加劇服務提供商的競爭。
「個人數據可攜權」(第20條)是指用戶可以無障礙地將其個人數據從一個信息服務提供者處轉移至另一個信息服務提供者。例如,Facebook的用戶可以將其賬號中的照片以及其他資料轉移至其他社交網路服務提供商。該權利不僅適用於社交網路服務,還包括雲計算、網路服務、手機應用等自動數據處理系統。
AI公司是怎麼應對的?
GDPR對AI產業界的影響重大,受該條例管轄的不僅僅是傳統意義上的互聯網公司或AI公司,哪怕其從事的業務並非狹隘上的互聯網服務,只要涉及了用戶數據,也在GDPR管轄範圍之內。
以下是將適用於歐洲用戶的一些關鍵的GDPR要求:
- 公司必須建立允許用戶查看他們存儲的個人信息的工具。
- 公司必須允許用戶刪除、糾正或移動他們的數據。
- 公司必須在72小時內將數據泄露通知有關部門。
- 公司必須獲得肯定同意或證明他們有一個收集用戶數據的「合法依據」。
在GDPR制定過程中,一些公司就已經開始準備應對措施。
微軟
微軟的副首席法律顧問Julie Brill在一篇官方博客中透露,微軟已經為GDPR項目投入了1600多名工程師,他們將為全球客戶提供正在為歐洲建設的符合GDPR的工具,微軟的客戶可以查看、刪除和移動他們的個人數據。
亞馬遜
3月底,亞馬遜宣布AWS已經為GDPR做好準備。該公司解釋說:「AWS服務使您能夠以您需要的方式來實施您自己的安全措施,以遵守GDPR。」
扎克伯格5月22日在歐洲議會聽證會中表示,Facebook已經為GDPR做好準備,並且「很大一部分」用戶已經被提示更新隱私設置。奇怪的是,Facebook在這個關頭在歐洲啟用了人臉識別認證。
Facebook還將美國、加拿大和歐盟國之外的約15億用戶的註冊地從都柏林移至美國。據路透社報道,這一舉動意味著非洲、亞洲、澳大利亞和拉丁美洲的用戶不受GDPR的影響。Facebook表示,它正在向世界各地的所有人提供隱私工具,但具體的隱私政策在各個國家不一樣。
Apple
早在2011年發布的iOS 5,蘋果就在其設備之間發送的iMessage中添加了端到端加密。與Facebook和谷歌不同,蘋果公司不依賴於廣告賺錢。
對於GDPR,蘋果已更新其隱私條款並推出了新的用戶頁面。歐洲的用戶現在可以下載蘋果公司對其收集的所有數據。這些數據由照片、Apple Pay,聯繫人等服務收集。用戶下載的個人數據以壓縮文件夾的形式出現,其中包含可重複使用的CSV和JSON文件。
蘋果還加入了暫時停用帳戶的功能。停用後,Apple服務將停止,蘋果公司還將停止為其機器學習和AI系統使用客戶數據。這些功能將在未來幾個月內推廣到全球的所有帳戶。
谷歌CEO Sundar Pichai不久前表示:「我們的大部分廣告業務都來自搜索,我們依賴非常有限的信息——基本上就是關鍵詞——來顯示相關廣告或產品。」 他補充說,他認為GDPR對於互聯網用戶來說基本上是件好事。
Twitter在GDPR生效之前更新了服務條款和隱私政策。Twitter在官方博客中解釋道:「在該日或該日之後使用我們的服務,您將同意這些修訂。」
但Twitter沒有清楚地說明更新的內容,只說更新「關注我們為您提供的有關您的個人數據的控制措施,以及Twitter如何公開分享您的數據」。由於GDPR,Twitter還關閉了Roku,Android TV和Xbox版的Twitter應用。
Rael Cline創辦的MediaGamma公司使用人工智慧做出實時決策,他們的產品之一是幫助廣告商根據用戶的興趣為相關的用戶投放相關廣告。「我們必須做出一些改變,以確保能遵守GDPR,做法包括限制我們持有授權的數據的時間,以及確保我們可以在客戶要求的情況下刪除特定用戶的所有記錄。」Rael Cline說。
同時,Rael Cline也認為,GDPR給人們提供了一個利用人工智慧填補空白的機會。例如,在在線廣告行業中,隨著同意(企業新隱私條款)的用戶數量的減少,我們可以應用人工智慧來對這些已同意的用戶的行為進行建模,然後根據共享屬性找到相似的用戶,這被稱為「lookalike」。
參考資料:
1.https://blogs.microsoft.com/on-the-issues/2018/05/21/microsofts-commitment-to-gdpr-privacy-and-putting-customers-in-control-of-their-own-data/
2.https://www.geekwire.com/2018/race-gdpr-finish-line-us-tech-companies-preparing-europes-stringent-new-privacy-law/
3.http://www.softwaretestingnews.co.uk/gdpr-isnt-dangerous-for-machine-learning-says-gdpr-delivery-manager/
4.https://www.kdnuggets.com/2018/03/gdpr-machine-learning-illegal.html
5.http://www.xinhuanet.com/2018-05/24/c_1122881389.htm
https://www.pcmag.com/commentary/361258/how-gdpr-will-impact-the-ai-industry
(本文首發於新智元微信公眾號:AI_era,歡迎關注!)
推薦閱讀:
※怎樣使用tensorflow導入已經下載好的mnist數據集?
※Kubeflow 安利:在 Kubernetes 上進行機器學習
※淺入淺出TensorFlow 7 - 行人檢測之Faster-RCNN
※白話TensorFlow +實戰系列(二)從零構建傳統神經網路
※TensorFlow Dev Summit 2018視頻分享
TAG:深度學習DeepLearning | TensorFlow | 機器學習 |