善意還是齷齪?Facebook如何利用大數據
Intetix Foundation(英明泰思基金會)由從事數據科學、非營利組織和公共政策研究的中國學者發起成立,致力於通過數據科學改善人類社會和自然環境。通過聯絡、動員中美最頂尖的數據科學家和社會科學家,以及分布在全球的志願者,我們創造性地踐行著我們的使命:為美好生活洞見數據價值。
原文鏈接:How Facebook is Using Big Data: Good, Bad, and Ugly
原作者:AvantikanMonnappa
引言
一篇來自麥肯錫公司的報告曾指出,直到2009年底,那些擁有超過1000位僱員的公司已經存儲了他們客戶的日常生活中超過200萬億位元組的數據。
在過去的四年里,社交媒體上數據的暴增,增加了這一驚人的存儲數據量:上萬億條推特消息,數十億個Facebook里的「贊」,還有更多數量的Foursquare(簽到應用的鼻祖)「簽到」。還有Instagram和Pinterest也為海量的信息數據做了貢獻。光是社交媒體所收集的數據,其數目已足夠驚人。
社會媒體加快創新的步伐、促進成本的節約並加強品牌間的大規模合作。在每一個行業,公司都在使用這些平台來經營和提升他們的服務和產品的質量,並監測其用戶們對於他們品牌的反饋。
社交媒體與大數據的結合將達到一個全新的技術水平。
作為一個在近五年里積累了超過12億全球用戶的主流網路平台,Facebook存儲了大量的用戶數據,這使它成為一個巨大的「數據樂園」。
2015年社交媒體市場營銷行業報告指出,Facebook在眾多社交平台中獨佔鰲頭。
我們每天都推送給Facebook資料庫成堆的信息:100億條Facebook消息被發布、45億個「贊」被點擊,還有3.5億張新照片被上傳。
大多數人起初可能對這些信息一屑不顧。但是有了這些數據,Facebook就能知道誰是我們的朋友,我們是什麼樣子,我們在哪裡,我們正在做什麼,我們喜歡什麼,我們厭惡什麼等等。一些研究者甚至認為Facebook掌握我們足夠的信息,所以它比我們的個人醫生更懂我們!
除了谷歌,Facebook可能是唯一一家擁有消費者高度詳細數據的公司。使用Facebook的用戶越多,他們獲取的信息也就越龐大。Facebook斥巨資來提高他們自身收集、存儲和分析數據的能力,但它並不是止步於此。除了分析用戶數據,Facebook也有其他分析其用戶行為的方式:
1. 跟蹤電腦cookies:Facebook在互聯網上通過追蹤cookies來追蹤它的用戶。若用戶在登錄Facebook同時瀏覽網頁,它就能跟蹤到其用戶正在訪問的網站地址。
2. 面部識別:Facebook近期將投資重點放在了面部識別和圖像處理功能上。Facebook存儲用戶共享圖像,所以它能在網路上跟蹤到用戶和其他Facebook用戶頭像。
3. 建議使用的標籤:通過在Facebook里添加的標籤,用戶的圖像能夠進行畫面處理和面部識別。
4. 分析點「贊」:最近一項由劍橋大學和微軟公司研究院發起的研究表明,僅僅通過分析用戶在Facebook點過的「贊」,就能精準預測其在一定範圍內的個人特性,這包括預測用戶的性取向、對生活的滿意度、智力水平、情感的穩定性、宗教、酒精以及藥物的攝入情況、情感狀態、年齡、性別、種族以及政治觀點等方面的信息。
nnnnnnnnnnnnnnFacebook 公司的首席分析師Ken Rudin曾提到:「大數據關係到公司的生死存亡」。他補充到,「Facebook依賴於Hadoop(分散式系統基礎架構)式的一個大規模裝置,那是一個通過廉價伺服器群來解決問題的可拓展的計算機開放源代碼框架。出於這個目的,Facebook甚至設計了自己的硬體設備,而Hadoop只是Facebook應用的眾多大數據技術的一種。
實例:
以下例子展現Facebook如何利用其存儲的大數據。
Facebook照片回憶器
在公司成立十周年之際,Facebook向用戶提供查看和分享短片的功能,這個短片記錄了用戶從註冊之日到現在的社交網路活動。這就是Facebook的照片回憶器,這段視頻其實是由用戶收穫了最多評論和「贊」數的照片和狀態組成的,並配上一段懷舊的背景音樂。
「我已投」
Facebook已經成功將政治活動捆綁在其用戶的參與中,他們通過一個社會實驗使用戶能夠用一個在他們個人資料上的顯示「我已投」。
這個實驗在2010年美國中期選舉運行地十分有效。當用戶看到投票按鈕,他們就極有可能去投票,並會在和他們同樣參與其中的朋友直言不諱地分享。在Facebook所有的6100萬用戶當中,有20%的用戶看到他們的朋友們投票了,自己也會去投。
nnnnnnnnnnnnnnnnnnnnnnnnFacebook數據科學部門稱,通過6萬名選民在Facebook上的直接投票和由社會感染效應而產生的28萬名選民,總共為這次中期選舉貢獻了34萬張投票。
慶祝驕傲
最高法院宣布同性婚姻合法化後, Facebook隨即推出一款叫作慶祝驕傲的彩虹大頭照濾鏡工具。類似這樣的慶祝活動之前是前所未見的,直到2013年,當時300萬用戶開始將頭像改為紅色等號以此支持婚姻平等,「紅色等號」正是美國最具影響力的反同性戀歧視組織HRC標誌。Facebook提供一個簡單方法將頭像變成彩虹色。
nnnnnnnnnnnnnnnnnn據Facebook發言人William Nevius說,短短几個小時內就有超過百萬的用戶更改頭像。在這樣的狂潮下,人們不禁關注起Facebook在進行用戶情緒的追蹤方面和其隱藏行為方面的研究起著怎樣的引導作用。Facebook的兩位數據科學家在發表的論文《對線上社交運動支持的擴散》中分析在Facebook里能預測婚姻平等支持率的要素。根據這篇文章可知導致用戶將頭像更改為紅色等號的原因。
擔憂
隱私問題
因為數據隱藏著巨大財富,廣告商如飢餓禿鷲般伺機等待。這導致用戶對隱私問題的高度擔憂。儘管Facebook不斷向用戶保證信息只有在用戶允許下才能共享和匿名出售給市場營銷者,但是問題仍然存在。舉個例子,很多用戶抱怨隱私設置不易理解或太複雜。用戶很容易不經意間分享他們的狀態。Facebook為了解決這些問題反而使得用戶更加迷惑。
另一個浮現的隱私問題是由臉部識別引起的,這一技術促使2011年歐盟隱私監管機構進行調查。Facebook的照片搜索功能又引起一場軒然大波,因為該功能給陌生人提供比以往更多訪問私人數據的信息。
因此,Facebook用戶都有一個問題,個人隱私真的無法保障嗎?
Facebook的兩個問題:
nnnnnnnnnnnnnnnnnnnnnnnnKen Rudin 說依賴大數據的公司經常在框架結構上有兩個錯誤:
1.他們過於依賴某一種技術,如Hadoop。Facebook依賴於Hadoop軟體的大量安裝,這個高度可擴展開源框架利用大量低成本伺服器來解決問題。為了這個目的,公司甚至設計自己的內部硬體。Rudin先生補充道Hadoop只是眾多大數據技術的一種,是不足以滿足公司業務需求的。
他又說,「Facebook分析過程始於300PB數據分析倉庫」。為了應答特定查詢,數據經常被分離出數據倉庫,放在表中使得數據能被研究。團隊也研製一個搜索引擎對數據倉庫中數據進行編製索引。這些都是Facebook為管理和分析而使用眾多技術的冰山一角。
2.公司常常為了無意義問題使用大數據。Rudin先生說「在Facebook,所謂一個有意義問題是被可以答出可以改變行為的基礎性問題。如果你不認為一個問題的答案可以引導改變你的經營模式,那麼這個問題根本沒有問的必要」。
Facebook的最近進展
主題數據
Facebook最近向它的一些合作夥伴介紹「主題數據」。
「主題數據」是什麼?
「主題數據」是這樣一種能將消費者關於品牌,事件,活動,和主題的反饋展示給市場營銷者,在某種程度上保護消費者個人隱私的技術。
市場營銷者反過來可以利用從「主題數據」得到的信息來選擇性得改變他們在平台和其他渠道的營銷方式。
nnnnnnnnnnnnnn先前由第三方提供的此類數據由於樣本量過小而收效甚微,況且得到規律是不可能的。通過引入「主題數據」,Facebook將數據分類並且將相關用戶的個人信息剝離,通過提供某個特定活動中用戶潛在的(消費)行為來幫助市場營銷者。這為市場營銷者帶來一個可行的,全面的首次新用戶視圖。關於隱私問題,Facebook已作出安全承諾。所有用於主題數據的信息都將被匿名收集。
參與人員:策劃-徐睿藝、樊茜茜;
編譯-歐陽碧娜、王詩萁;
編輯-梁雅祺;
推廣-申洪浩、李華芳 、李燕雲
轉載聲明:歡迎轉載,請您在轉載時保留署名和引用信息。歡迎您在知乎或微信上關注我們。
推薦閱讀:
※數據整理(Tidy Data)—翻譯Hadley Wickham的一篇論文
※MaxCompute Studio使用心得系列3——可視化分析作業運行
※告別盲目建設大數據 國家即將出台兩項大數據重要標準