射手男更易出軌?從出軌網站數據泄露看懂「數據分析」
人人都在談論大數據,但有幾個人真的了解、親自實踐過數據分析?我們將上手分析某著名出軌約炮網站泄露的用戶信息,並藉此帶你了解數據分析的真實面目。
原文地址:eIQ Insights: Analyzing Ashley Madison Leaked Data to Understand Big Data
作者:何瀟益, ACOMMERCE GROUP 首席營銷官由作者授權 優達學城 (Udacity) 翻譯並發表,內容略有刪減。
大數據現在有多火?《哈佛商業評論》稱之為一場「管理革命」。麥肯錫發布了一篇長達156頁的報告,稱它是「創新、競爭和生產力的下一個前沿」。美國很多擁有遠大抱負的大學畢業生,甚至不再把 Google、Facebook 和 Twitter 放到第一位,而是把目光轉移到了 Palantir 這樣的大數據企業上 —— 這家企業最近一次融資達到 200 億美元,還曾用大數據協助美國政府追蹤本·拉登的行蹤。無論是通過什麼樣的方式。大數據,已經成為所有行業的焦點。
「遍地都是黃金,只等著有人來撿起。」——《絕命毒師》老白(Walter White)
谷歌搜索表明,「大數據」的搜索量呈現出一個完美的指數上升曲線軌跡,這是許多初創公司夢寐以求的。顯而易見,「大數據」中孕育著一個極大的商機。
「數據分析就像青少年性行為:大家都在熱論著,卻沒有人真正知道如何去做,只是覺得其他人都在做,所以聲稱自己也在做而已...」 —— 杜克大學心理學教授丹·艾瑞里儘管媒體都在炒作大數據,但悲哀的現實是,沒有人真正了解它。
譯者註:我們將先終結一個關於大數據的流言,然後將上手分析一個著名婚外情約炮網站泄露的用戶數據,來印證我們的結論。
流言終結者:大數據一定要海量數據?
有關大數據的一個常見謊言是,我們需要有非常大量的數據才能做「大數據」。
「今天的企業似乎對數據有無法滿足的胃口,他們錯誤地認為數據越多,創造的價值就越大,但大數據往往是些啞巴數據。」 Peter Thiel 說。
現實是,大多數企業根本不需要太多數據。如果你的公司不存在尋找治癒癌症方法,或追蹤恐怖分子的需要,就沒有必要為了銷售產品而使用大量數據。
大多數大企業之所以無休止地痴迷於數據量,原因很簡單:他們感到害怕。他們害怕通過不完美的數據做出決策;他們害怕做實際的工作;他們害怕承擔責任,因為他們本可以躲藏在煙幕後面。人們沒有意識到,數據能帶來的價值多少,取決於數據分析之後的行動,與數據多少無關。
「企業吹噓他們的數據集有多大,就和漁民吹噓他們的魚有多大一樣。他們聲稱自己獲得大量的信息。優勢似乎顯而易見:你知道的越多越好。」 Slater Victoroff 在他發表在 TechCrunch 上的文章中說道。
數據夠用即可
就像「精益運動」鼓勵公司和員工採用「最簡化可運行產品(MVP)」的方式來建立企業和產品,大數據的 MVP 革命其實早就應該誕生了。你不需要很多數據,夠用即可。
著名外遇網站用戶資料泄露的啟示:越大,真的越好?
為了說明我們的觀點——利用不太大的數據,以人為本,精益求精的方法,就能得出給大家深刻印象的見解——我們對美國婚外情網站 Ashley Madison 的泄漏數據進行了分析,希望能回答以下四個問題:
射手座男子更加花言巧語嗎?
最常見的性偏好是什麼?
性愛偏好會隨時間而變化嗎?
該出軌約炮網站的用戶流失率和客戶終生價值(LTV)是多少?
譯者註:作者使用的工具和技術都很平民:MySQL,Python,PHP,Excel,Notepad ++。數據來源也是前段時間網上就可以獲得的數據集,內容為約3000萬用戶的註冊資料。
問題1:射手座男子更容易出軌嗎?
一個對此觀點堅信不疑的人說道,「射手座(Sagittarius)是十二星座中最大的騙子。 他可能會表面上追求非常高的道德標準,但是一旦看到漂亮的臉蛋或身材時,他們就會失去理性。 把你的射手座男友綁在床頭板上吧。」
但這是真的嗎? 運行 SQL 查詢後,我們得到以下結果。Ashley Madison 的射手座用戶並不是所有星座中最多的。由於 Ashley Madison 註冊下拉菜單中的默認月份和年份設置,導致摩羯座出現異常值。去除摩羯座異常值後,我們看到與普遍的觀點相反,射手座(紅色欄)並不是十二星座中最常出軌的星座。
問題2:最常見的性偏好是什麼?
在 Ashley Madison 註冊時,用戶會註明他們的性偏好。 我們使用 SQL 和 python 組合來對偏好進行分析,並按性別繪製視圖。
問題3:性偏好會隨時間而變化嗎?
顯然,他們會。通過出生年份繪製性偏好,我們發現年輕一代更樂於嘗試一夜情,而老年人則喜歡依偎著睡在一起和調情。
問題4:Ashley Madison 的客戶流失率和終生價值(LTV)是多少?
作為營銷人員,我們自然有興趣去測量一下其客戶流失率和客戶終生價值(公司從用戶長期的所有活動中得到的全部收益的總和),因為這些數字足以建立或摧垮一個企業。 據 Andrew Chen 介紹,投資者通常不會資助初創公司,因為他們普遍有著較高的用戶流失率,以及與行業平均水平相比較高的用戶獲取成本。通常,一家初創企業的用戶年流失率可以高達93,Ashley Madison 的流失率為80%。
Ashley Madison 的客戶終身價值約為400美元。 自2013年10月起,他們每月的用戶質量都呈上升趨勢。這很可能是因為他們在產品上的一系列新動作:推出移動支付、商務旅行特別服務、付費從而獲得更多關注以及(諷刺的)付費徹底刪除賬戶。
從這次數據分析中獲得的結論
每個人都可以利用大數據,只要你以人為本,而不是過度強調平台、過程和政治。而且,如果你了解 SQL 或 python 基本技能,小數據也可以創造奇蹟。不要害怕,只要掌握了關鍵工具,就可以讓大數據成為你的朋友。
我們也可以粉碎另一個流言:只有數據科學家才能做數據分析。
Josh Attenberg 和 Foster Provost 在紐約大學教授實踐數據科學課程,他們介紹:「人們往往抱怨計算機科學系畢業的數據科學家『只關注技術』,能很好地理解演算法,但缺乏重要的技能:對一般問題的界定、評估和分析。另一方面,在商學院接受培訓的人又往往技術水平不達標。」
如果企業想要更快地開始使用大數據,僅僅招聘傳統的數據科學家或 MBA 是不夠的;實際上,每個人都需要具備處理數據的能力。
不過,也有積極的一面,尤其是在營銷上。Andrew Chen 說,「增長黑客」的新職位正在融入矽谷的文化中,擁有編程和技術技能,現在已是一名營銷人員的重要加分項。營銷副總裁(長期以來被認為是非技術性角色)的作用正在快速退化,而且出現了新一代的營銷人員/程序員混合體,」
LiveRamp 首席執行官 Auren Hoffman 在 Quora 上分享:「首席營銷官(CMO)的角色正在發生巨大變化,並且正在成為「香餑餑」。現在的CMO,會以數據為導向,利用客戶行為的顆粒數據,支配產品策略、客戶服務並優化銷售渠道。」
快速瀏覽 Facebook 和 Uber 的營銷職位,也可以印證我們正在經歷的轉型。 Uber 的增長營銷人員除了要能處理和分析複雜的數據集,還將使用 Tableau 等工具,並了解 Python 和 SQL 等語言。
在哪裡找到這些高手? 找到這些工程、計算機科學、數學、經濟學或統計學專業的畢業生? 與此同時,傳統的數字營銷企業仍然停留在 2005 年,並聘請傳媒專業的畢業生來擔任「績效營銷」角色(對此我只能說,祝你們好運)。
推薦閱讀:
※[引子]政務大數據的七大痛點
※大數據的戰略選擇:是「賺大錢」,還是「掙小錢」
※能源行業將被重構,大數據有哪些「挖」法?
※大數據實時日活計算之Bloom Filter
※寒假學習打卡