「用戶畫像」大數據的合規邊界

「用戶畫像」大數據的合規邊界

來自專欄周公觀娛

如今,隨著相關技術日臻成熟,各種大數據應用紛紛落地,並開始重塑現有商業模式。其中,用戶畫像(persona)作為大數據的根基,扮演了至關重要的作用。

無論是一年一度的支付寶賬單、私人音樂報告,還是日常生活中豐富的個性化推送,都提醒著人們:你的行為軌跡隨時會被數據記錄、存儲、分析。每當在軟體中邂逅怦然心動的音樂、覓得喜愛的電影、買到恰好需要的商品,可能都要歸功於用戶畫像背後的大數據分析。

這正是用戶畫像的強大之處:通過抽象出一個用戶的信息全貌,商家可以精準、快速地分析用戶行為習慣、消費習慣等重要信息,並進行有針對性的商業推廣。但與此同時,也有越來越多人開始擔心自己的隱私、個人信息是否安全?有鑒於此,本文將分析當下常見的對動態數據、靜態數據的利用,並通過案例分析的方式剖析相關的法律要點。

1 用戶畫像的數據基礎:動態數據&靜態數據

簡單來說,用戶畫像是根據用戶的靜態數據(屬性數據)和動態數據(行為數據)來構建一個可標籤化的用戶模型。其中靜態數據一般是用戶的註冊信息,比如生日、性別、住址、愛好等;動態數據記錄於用戶的訪問日誌,比如常用的一些後端日誌數據、前端埋點數據等等。

而上述信息數據的獲取與分析,可以幫助企業實現精準營銷、個性推薦及用戶流失預測。但上述利用在為社會生活帶來便利的同時,也會使部分用戶產生隱私被侵犯之感。不僅如此,由於上述信息具有極高的經濟價值,數據佔有方之間也會引發不正當競爭糾紛。

2 動態數據與個人信息

不可否認的是,精準營銷不僅使廣告主以最優價格獲取匹配的流量,也在一定程度上降低了用戶的搜索成本。但精準意味著數據的充分挖掘,因此極易造成隱私泄露的風險。

以朱燁訴百度公司隱私權糾紛案為例:原告朱燁表示,其在通過百度網站搜索「減肥」、「人工流產」、「隆胸」關鍵字後,再進入「4816」網站和「500看影視」網站時,就會分別出現相關廣告。原告認為,百度公司未經其知情和選擇,將其興趣愛好、個人需求等顯露在相關網站上,並利用記錄的關鍵詞,對其瀏覽的網頁進行廣告投放,侵害了其隱私權,使其感到恐懼,精神高度緊張,影響了正常的工作和生活,因此提起訴訟,主張停止侵權並賠償精神損失。

經過兩審法院判決,此案以原告敗訴告終,關鍵原因在於法院對於關鍵詞等cookie信息的性質界定存在不同觀點:一審法院認定關鍵詞搜索記錄是個人隱私,認為關鍵詞展示了個人上網的偏好,在一定程度上標識個人基本情況和個人私有生活情況,屬於個人隱私的範圍;二審法院則認為,搜索記錄雖具有隱私性質,但不屬於個人信息,因為百度公司個性化推薦服務收集和推送信息的終端是瀏覽器,沒有定向識別使用該瀏覽器的網路用戶身份,而網路活動軌跡及上網偏好一旦與網路用戶身份相分離,便無法確定具體的信息歸屬主體,不再屬於個人信息範疇。

從上述終審結果來看,我國現有的司法實踐認為動態行為數據如果不具有可識別性,則不構成個人信息。鑒於本案發生2014年,法院判決援引了工信部《電信和互聯網用戶個人信息保護規定》第4條中對於「個人信息」範圍的界定。然而即使放在最新施行的《網路安全法》框架之下,「可識別性」仍然是界分個人數據與個人信息的關鍵。

例如《網路安全法》第76條第5項規定:「個人信息,是指以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別自然人個人身份的各種信息,包括但不限於自然人的姓名、出生日期、身份證件號碼、個人生物識別信息、住址、電話號碼等。」

由此可以看出,在動態數據應用領域,目前的司法實踐傾向於認為「可識別性」是相關數據構成「個人信息」的關鍵。只有當動態數據能夠與具體的個人相關聯時,才有可能構成受到法律保護的「個人信息」。

3 靜態數據與不正當競爭糾紛

從數據採集方式來看,前述百度案中利用的是自行採集的數據,而相關數據除了可以自行採集,還可以通過接入第三方平台Open API進行調用。然而在企業之間通過API介面共享數據的情況下,同樣會產生關於數據利用的不正當競爭糾紛。

一個典型的案例為微博訴脈脈案。「脈脈」作為一款廣受歡迎的職場社交軟體,一方面能夠藉助大數據和AI對簡歷進行篩選評估,並進行職位匹配;另一方面,脈脈大數據和演算法也會通過用戶的關係鏈顯示其有幾度人脈,極大地提高了招聘的真實性和有效性。然而,不當的數據利用,使其在2016年捲入了一場矚目的不正當糾紛案。

人脈社交軟體脈脈上線之初與新浪微博進行合作,用戶可以通過新浪微博帳號和個人手機號註冊登錄脈脈軟體。據新浪微博稱,脈脈用戶的一度人脈中,對於大量非脈脈用戶,也直接顯示了非脈脈用戶的新浪微博用戶頭像、名稱、職業、教育等信息。後雙方終止合作,非脈脈用戶的新浪微博用戶信息仍存在。新浪微博遂提起訴訟,主張脈脈非法抓取新浪微博用戶信息,構成不正當競爭行為。

不同於百度案的動態行為數據,本案中涉及的數據屬於靜態屬性數據,直接指向用戶職業信息、教育信息等具有可識別性的個人信息,因而對於此類數據的保護原則更為嚴苛,具體表現為該案中北京知產法院強調的「三重授權規則」,即在Open API開發合作模式中,對於API平台在收集用戶數據應當經過用戶授權,API數據合作方之間的許可權應當經過平台授權,而在API中數據調取和使用平台在使用用戶數據中應當經過用戶的再次授權

4 「動靜結合型」數據的隱私侵權風險

實際生活中,還有一類數據既包含屬性信息,也包含行為信息,最典型的體現則為各類旅遊app中可以獲取的用戶行程信息。

此類「動靜結合型」數據在旅遊行業精準營銷中的應用非常廣泛:根據遊客的年齡、性別等屬性數據,可以推知其消費能力;而遊客游前的攻略搜索,游中的目的地查詢,游後的遊記都會形成行為數據,由各大社交媒體網路根據用戶的興趣、愛好和傾向進行個性化整合推送,實現精準營銷。

例如,旅遊廣告公司Sojern收集並聚合來自航空公司、酒店、汽車租賃商和信用卡公司的數據,通過機器學習和高級分析極大豐富了用戶個人資料,從中可以發現注入「人們什麼時候出行」「去哪裡」「旅行者喜歡什麼品牌」「旅行時間和服務等級」等有價值信息。此種「智慧旅遊」概念正在以前所未有的速度改變消費者的旅遊模式。

然而,由於訂票規則具有特殊性,第三方平台獲取的數據包含了用戶的真實姓名、證件號、個人行程信息,極易被惡意泄露或非法竊取,侵犯用戶權益。現實中不乏真實案例,比如發生於2014年的龐某訴去哪兒網、東航隱私權糾紛案。該案中,原告委託他人從去哪兒網站購買東航機票一張,後原告收到「航班因機械故障而取消」的詐騙簡訊。原告認為去哪兒網、東方航空泄露了自己的隱私信息,遂將兩公司訴至法院。

該案中,原告被泄露的信息包括姓名、手機號、行程安排(包括起落時間、地點、航班信息)等。根據《最高人民法院關於審理利用信息網路侵害人身權益民事糾紛案件適用法律若干問題的規定》第十二條的界定,龐某某被泄露的行程安排無疑屬於「私人活動」信息,從而屬於隱私信息,可以通過隱私權糾紛主張救濟。此外,二審法院還權衡了原被告的證明能力,確定數據佔有方具有較高的舉證義務,最後以原告勝訴告終。

從上述案例可以看出,當企業收集的數據同時包括動態數據和靜態數據時,這些數據已經能夠與具體的信息歸屬主體相對應,具有了可識別性。不當使用這些數據將可能構成對用戶隱私權的侵犯。


從不可識別的動態數據,到靜態數據,再到二者結合後被明確定義成「隱私信息」的數據,可以看出:法律對數據的保護力度與數據佔有方收集數據的範圍密切相關。在這個「用戶畫像」逐步演化成真實的用戶面貌、用戶越來越在意信息安全的時代,如何妥善平衡不同主體之間的利益,將成為大數據時代亟待探索的重要問題。

從宏觀層面來講,這一問題依賴政府頂層設計、一體化建設以及大數據治理等方面,而微觀層面來說,作為用戶和數據佔有方都有改進的空間。

一方面,絕大多數軟體在登錄之前都會提醒用戶閱讀並接受隱私條款,但用戶往往不會去仔細閱讀,而是被動接受相關條款。從前述案例來看,用戶至少應當重視信息權利,閱讀隱私政策條款。如有相關需求,也可通過多種方法刪除cookies數據;此外,應在權利受到侵害時,應及時尋求救濟。

而從數據佔有方的角度,則應該採取切實有效的技術措施和其他必要措施,確保其收集的個人信息安全。以微博訴脈脈案為例,雖然微博要求開發者必須申請介面許可權才能調用相關信息,但微博實際上沒有設置足夠的技術障礙,這也使得脈脈未經許可同樣也能調用教育和職業介面。這也為包括微博在內的網路服務商們敲響了警鐘。


往期精彩內容:

「周公觀娛」,由北京金誠同達律師事務所高級合伙人周俊武率領的精英律師團隊傾力出品。「周公團隊」主要從事知識產權及文娛業投融資法律業務,在文化娛樂、影視遊戲、互聯網等多領域有極為豐富的經驗,系中國最早及領先的專業娛樂法團隊之一。

聯繫方式:zhou_junwu@jtnfa.com 010-57068585

(編輯:劉宗鑫)


推薦閱讀:

跑步步幅多少合適?大數據告訴你
身陷大數據殺熟風波,蘋果是這樣回應的
導航軟體上的中國堵城大數據
如何使用Excel進行數據分析?
大數據的行業應用

TAG:用戶畫像 | 大數據 | 隱私權 |