「大數據殺熟」?商家對數據的使用可能遠超出你的想像
圖/視覺中國
在龐大的數據面前,人類越來越像一個提供輸入的變數角色,任何試圖偽裝和保護自己的舉動,在360度無死角的數據監控下都顯得徒勞。你使用的APP,在試圖了解和定義你。
文 | 閆坤沐
編輯 | 金匝
「越氪越非」
律師李欣然(化名)第一次對某大型旅行票務網站產生警覺是在去年暑假。為了帶女兒去日本迪士尼,她相中一家酒店,但同一個房型,在她手機上顯示的價格比在丈夫手機上貴了120元人民幣。
剛開始,李欣然還以為是丈夫沒選三人同住的緣故,但仔細核對後發現並不是。她向婆婆要來手機,以新客人的身份下載註冊了同一款APP,還很嚴謹地用流量而不是家裡WiFi聯網,查詢後發現,一些房間比丈夫手機上顯示的價格還要更低。
「搜索以後的結果直接就有差異,我沒有領優惠券也沒有收到紅包。」
因為工作原因,李欣然出差頻繁,經常用APP給自己訂商務型酒店。儘管不清楚具體的技術原理,但她憑直覺推斷,自己是被平台的用戶畫像識別成了消費能力高的客戶,所以會給她顯示更高的價格。
李欣然和丈夫的收入都不低,自認為並不算對價格敏感的用戶,如果APP用正常的價格調節方式給新用戶發放一些額外優惠,她並不會介意。
讓她不舒服的是,價格上的差異對待是在她完全不知情的情況下進行的:「我在乎的是知情權。如果我知道網站在搞活動,但我沒資格參加,這就沒關係;如果我知道有優惠券,但是需要分享到朋友圈、每天簽到點贊或者掐時間搶,我不願意犧牲這個精力來換優惠,我也心甘情願。但現在我懷疑,是APP收集我的使用習慣暗地裡對我區別定價,那我當然有負面情緒。」
在社交網路上,和李欣然一樣因為感受到被區別對待而產生「負面情緒」的人不在少數,他們的集體控訴經由媒體報道後催生了一個新的概念:「大數據殺熟」。概念的發明反過來又刺激了更多網友把自己的經歷對號入座。
圖/視覺中國
幾乎沒有一個互聯網產品不被懷疑「殺熟」——
有人說在電影購票APP里花錢買了會員,票價反而比非會員更高;
有人發現同樣是買一年的視頻網站會員,iPhone用戶比Android手機用戶多花幾十塊錢;有人察覺到用旅行APP買機票,只要你沒付錢,價格越搜越貴,余票越來越少,直到只剩一張,嚇得你趕緊出手。可等付了錢再搜,這張機票還能買,而且又跌回了原來的優惠價。有人抱怨玩卡牌遊戲「越氪越非」(越花錢越難抽到價值大的卡牌),讓不愛花錢的用戶更容易抽到好卡,作為誘餌刺激有付費意願的人繼續掏更多錢……
輿論風暴中,攜程大住宿事業部CEO陳瑞亮接受採訪,以職業身份向用戶保證,自家平台上沒有過也不會有大數據殺熟的現象發生。他解釋不同用戶間顯示的差價是優惠券造成的,攜程會「努力優化頁面展示,更清晰真實地展示優惠後的價格信息,避免誤解。」至於有什麼避免被「殺熟」的方法,他覺得「更多地還是要從公司層面來驅動」;而對於消費者而言,「能做的就是多進行價格比對」。
也就是說:做不做「大數據殺熟」,全憑公司自覺;而如果一家公司決定這麼做,用戶要付出很大的代價。
鬥智斗勇
但李欣然覺得,這聽起來顯然非常不「互聯網」。
她察覺到房間價格異樣時,還沒有「大數據殺熟」這個詞的出現,但出於職業習慣,她敏銳地意識到了一個比「殺熟」更深層次的問題:我使用的APP,在試圖了解和定義我。
「如果一個APP能判斷我和我婆婆對價格的承受能力不同,那它一定知道我更多信息。」
攜程技術中心基礎業務研發部高級研發經理周源曾寫過一篇文章,叫《手把手教你用大數據打造用戶畫像》,其中透露出來的一些信息,從側面驗證了李欣然的猜想。
據周源介紹,攜程對用戶數據的採集不僅來自於自家網站和APP,同樣也會抓取合作站點,比如微博、知乎的用戶信息。他們為用戶建立畫像的維度包括性別、年齡、消費能力、親子偏好等等,「數據是海量的」。
文章中的一個圖表顯示,攜程對用戶的消費能力定義劃分為「非常小氣、一般小氣、一般大方、非常大方」四個等級。 周源在文章中反覆強調,要在攜程內部調用這些數據需要非常嚴格的程序限制。
但身為消費者,很難在裁判缺失的情況下,相信企業們在利益面前會充分自律。
《手把手教你用大數據打造用戶畫像》一文中使用的圖表
事實上,差別定價並不是什麼了不起的新鮮技術,電商巨頭亞馬遜早在2000年9月就實施過類似的實驗。為了衝擊更高的零售額,他們選擇了68款DVD碟片,根據用戶填寫的資料、購物歷史、上網使用的操作系統等條件判斷他們的購買力,給他們輸出不同的價格。一個20美元出頭的產品,新用戶和老用戶之間差價波動在4美元左右。
儘管68個產品在亞馬遜超過千萬種的商品列表裡顯得絲毫不起眼,但這個實驗進行了不到一個月,還是被用戶發現了。在一個叫DVDTALK的音樂論壇上,成百上千的網友通過發布自己買到的產品價格做人工比價,憤怒之餘,討論層面不可避免地上升到懷疑亞馬遜在收集和分析用戶的隱私數據,以至於當時的CEO不得不站出來保證,亞馬遜永遠不會對用戶區別定價。
18年之後的中國,幾乎類似的情境發生在更多公司身上,並且遠遠不止於此。
「大數據殺熟」刷屏之後,知乎用戶「邏格斯」又提出另一個更可怕的假設叫「大數據售假」:如果消費行為大數據顯示你是一個不愛寫評價,幾乎不會給出差評的用戶,那麼稍有良心的平台可以把別的客戶退換的貨物或者次品優先配送給你,但更誇張的可能性是,在某些真假混賣的電商平台,他們可以依據這項數據把假貨發給你。
如何避免被大數據收集信息?作為一個對維權很敏感的人,李欣然開始關注和大數據鬥智斗勇的方法。她棄用了大多數APP,重新回到網頁時代,自學使用瀏覽器的隱身模式,不在電腦或者手機上留下訪問網站的痕迹,還養成了手動清理cookie記錄的習慣,不讓網站有機會追蹤自己的行為邏輯,以及用任何服務之前都會貨比三家。
和李欣然一樣,更多網友試圖研究「調戲」大數據的方法。
豆瓣用戶「大魔王·桶狗」就貢獻了一條他的實驗成果:
我昨天在A平台上打算買一桶油,下單前臨時剎車,去B平台上看了一眼,B平台比A平台的會員價還便宜,於是把B平台的油加入購物車,再刪除了A平台的購物車。然後,我再打開A平台,它給我發了一張糧油優惠券。
這條廣播被他打上#與大數據鬥智斗勇#的標籤發布出來,成了當天豆瓣的熱門廣播,評論中不少網友都在互相交換自己常用的比價工具。
這樣的試驗或許有玩笑成分,但也反映了在大數據面前,一個普通用戶想要保護自己的利益和隱私需要付出高昂的成本。
抵抗和偽裝都是徒勞
對大數據的恐慌情緒愈演愈烈,也催生出很多錯覺和謠言。
最典型的一個,是懷疑自己被監聽。你一定聽朋友講過這樣的「恐怖」故事:我前腳聊天時和別人討論了去海邊旅行,後腳打開購物APP就發現它在給我推薦泳衣。我什麼都沒搜,它是怎麼知道我想幹什麼的?難道是利用麥克風許可權在監聽我?
事實上,如果人工智慧真的能做到這麼「智能」,別說手機抗不扛得住電量,市面上的語音識別服務也不至於還在錯漏百出的階段了。
公眾的誤解在於,比起監聽,其實你手機里的APP有一萬種性價比更高的方式了解你,而你幾乎難以察覺。
以幾乎每個APP都要求開放的位置授權舉例:
知道你什麼時間位於哪個範圍活動後,通過簡單的演算法分析,就能推斷出你的住址和工作地址——如果你夜裡12點到早上8點都停留在一個地方沒動,那這兒十有八九是你的家。
如果再綜合比對你的鄰居們和同事們的位置數據,知道和你有交集的人平時都在哪些消費水平的地段活動,就能輕鬆為你的消費能力劃分等級。
從要求開放位置許可權到獲得用戶的消費能力信息
同樣的道理,開放讀取簡訊授權,意味著APP可以讀取你所有的信息往來,其中可能包括銀行發給你的交易明細記錄、你常消費的商家發給你的節假日問候、你出行預定機票酒店的確認信息。
從開放簡訊授權到獲取用戶全方位信息
還有更讓人意想不到的是Uber經濟研究主管Keith Chen在美國國家公共電台(NPR)做節目時曾經講過一個案例:讀取手機電量對APP來說也是一項很有用的數據。在手機電量即將耗盡時,用戶願意承受高達9.9倍的動態溢價。但他也強調,Uber不會這麼做。這背後的心理原理很簡單:手機沒電的人等不了,如果是著急要去一個地方,花多少錢都在所不惜。
隨著科技發展給人們提供越來越多的便利,「隱私」的概念也不僅僅是身份證號、電話號碼這樣的固定信息。那些你以為不太重要的數據,都在不經意間泄露著你的習慣。
知乎大V李小粥是國內某家互聯網公司總部的高級產品經理,工作讓他對大數據隱私產生了比普通人更敏銳的警覺:「現在大家對隱私的意識還是偏保守的,事實上有些場景下人工智慧對人的監控,並不需要人的主動輸入。比如你用可穿戴設備,它記錄你的體重、心律、體溫,由此給你推銷一些對應的保險,這算不算泄露隱私呢?再比如,如果將來有一款類似於Google Glass的眼鏡產品,獲得你的授權可以讀取你的虹膜,你路過一個櫥窗對哪個產品多看了一眼,它就推送相關的產品廣告給你,這算不算泄露隱私呢?」
事實上,早已經有公司應用了他所擔憂的技術。
2014年,美國一家醫療公司會利用大數據推斷病人的發病幾率。比如一個哮喘病人,醫院可以通過監測他是否購買過香煙、是否居住在高濃度花粉地區來判斷急救率。再比如可以綜合一個人在健身房鍛煉和購買食品的記錄,推斷他突發心臟病的概率。而這些數據都是醫院從相關的網站或者應用購買來的。
最近,亞馬遜申請了兩項關於手環的專利,能夠根據手環的運動軌跡,追蹤倉庫工人的手部動作。如果發現工人的雙手出現在非工作區域,或者不是工作應有的活動頻率,可以用震動給他們發出警告……
在龐大的數據面前,人類越來越像一個提供輸入的變數角色,任何試圖偽裝和保護自己的舉動,在360度無死角的數據監控下都顯得徒勞。
美國技術博客Gizmodo去年曾經採訪過一個叫Leila的性工作者。為了保護自己的人身安全,她註冊Facebook時使用了和客戶聯繫時完全不同的郵箱、電話,也從不在社交網路上發布和現實身份相關的內容。但有一天,她在Facebook「可能認識的好友」推薦欄里發現了自己現實中的客戶。
事實上,Leila自以為精妙的偽裝在技術面前非常不堪一擊——Facebook會識別用戶的設備ID和上網IP來判斷你的身份。儘管註冊了不同的賬號,但只要用同一部手機上網,就有可能被它判斷為屬於同一個人。
而當大數據對用戶擁有充分的了解,多花錢只是大數據應用中對受眾傷害最小的「坑」。
扎克伯格最近遇到的信任危機就應證了這一點。他親自承認Facebook未能及時防範「假新聞」和「仇恨言論」散播、「用戶隱私數據」遭竊用、外國勢力利用平台「干預」2016年總統選舉,並為此道歉。
在一篇叫《人民不再相信科技公司了》的評論文章中,科技媒體品玩的創始人駱軼航把社交網路用戶這種在不知不覺的情況下被利用的感覺形容為:「被數據奴役了思維的恥辱感和不安感」。
灰色的不同意
「大數據殺熟」的全民討論過後,公眾對隱私保護的戒心越來越強烈,但互聯網公司們肆意處置用戶信息的案例依然層出不窮。
如果你的朋友下載註冊了探探,並給它授權了讀取通訊錄許可權,你大概率會收到一條類似這樣的推廣簡訊:「你的一位手機聯繫人在探探上將你設置為暗戀對象……」等你興沖衝下載註冊了,才發現一切都是套路。
職場社交APP脈脈曾經被昔日的合作夥伴微博起訴,理由是「非法抓取使用新浪微博用戶信息」。如果用戶通過新浪微博的賬號登錄脈脈,那麼脈脈會把你通訊錄里的聯繫人和微博好友做信息比對,識別他們的身份,即便你的朋友並沒有註冊和使用脈脈,他們也會被實名列舉在你的「一度人脈」列表中。
最近,知乎用戶打開APP,都會收到一份《用戶隱私協議》彈窗,最後一條寫道:「您使用或者繼續使用我們的服務,即意味著同意我們按照本《隱私政策》收集、使用、存儲、共享、轉讓和公開披露您的相關信息。」
其中「轉讓」和「公開披露」兩個詞格外刺眼。在前文的細則條款中,知乎列舉的會被收集的用戶隱私包括:姓名、性別、照片、身份證號、電話號碼、位置信息等等。如果點了同意,就意味著授權知乎處置這些敏感信息。
這份協議下方雖然設置了同意和不同意兩個按鈕,但不同意的按鈕是灰色的。如果用戶點擊同意,則會彈出一個說明,告知「我們將按照業界成熟的安全標準,採取相應的安全保護措施來保護您的個人信息。」至於業界標準是什麼,沒有再做進一步解釋。用戶只能選同意,否則就不能再使用知乎APP。
前不久,百度總裁李彥宏在中國發展高層論壇上說,「我想中國人可以更加開放,對隱私問題沒有那麼敏感,如果他們願意用隱私交換便捷性,很多情況下他們是願意的,那我們就可以用數據做一些事情。」
雖然這話不那麼順耳,但我們都清楚,這是實話。
前百度人工智慧首席科學家吳恩達就曾經公開說,大公司的產品常常不是為了收入而做,而是為了用戶的數據而做,在某一個產品上收集的數據,會用於在另一個產品上獲利。這也就解釋了為什麼哪怕是一個手電筒APP,在安裝時也需要用戶同意包括讀取位置信息、通訊錄在內的幾十項許可權授權。
《南方日報》曾經對個人信息黑市做過相關調查,發現越來越多APP收集到的精準數據成為「黑產」鏈條的源頭:「這種高精度的個人信息被用在網路詐騙等方面時,會讓受害者難以辨識,更容易中招。」
也就是說,當產品和服務是免費的,你,具象地說是你的個人信息,就是商品本身。大數據時代,我們每個人都在被幾十到幾百個變數定義,它甚至比你更了解自己。無孔不入的信息搜集中,我們是透明人。
文章為每日人物原創 侵權必究
想看更多,請移步每日人物微信公眾號(ID:meirirenwu)
推薦閱讀:
※數據可視化-電影分析
※泰迪熊移動融資高歌猛進,用戶數據安全或成最大隱患?
※給妹子講python-S02E15創建Pandas多級索引
※數據挖掘之旅(1)
※從0開始分析 | 基礎技能之Problem Solving