歡度愚人節—那些大數據的段子

在愚人節這個莫名其妙、來歷不明卻全民狂歡的日子裡,不來點段子,彷彿就對不起這個日子!

大數據火起來的這兩年,段子也著實出來不少——雲途君搜羅了一些著實有意思的,分享給大家,搏一個樂也了解了解大數據領域的那些坑兒!

以下正文(來源:CSDN.net;編輯:雲途君)

1.大數據都是騙人的啊——大數據預測得准嗎?

從前,有一頭不在風口長大的豬。自打出生以來,就在豬圈這個世外桃源里美滿地生活著。每天都有人時不時地扔進來一些好吃的東西,小豬覺得日子愜意極了。

高興任性時,可在豬圈泥堆里打滾耍潑。憂傷時,可趴在豬圈的護欄上,看夕陽西下,春去秋來,歲月不爭。「豬」生如此,夫復何求?

根據過往數百天的大數據分析,小豬預測,未來的日子會一直這樣「波瀾不驚」地過下去,直到它從小豬長成肥豬……在春節前的一個下午,一次血腥的殺戮改變了豬的信念:什麼大數據都是騙人的啊……慘叫嘎然而止。

這則「人造寓言」是由《MacTalk·人生元編程》一書作者池建強先生「杜撰」而成的。池先生估計是想用這個搞笑的小寓言「黑」一把大數據。

我們知道,針對大數據分析,無非有兩個方面的作用:

1)面向過去,發現潛藏在數據表面之下的歷史規律或模式,稱之為描述性分析(Descriptive Analysis)。

2)面向未來,對未來趨勢進行預測,稱之為預測性分析(Predictive Analysis)。

把大數據分析的範圍從「已知」拓展 到了「未知」,從「過去」 走向 「將來」,這是大數據真正的生命力 和「靈魂」 所在。

那頭「悲催」的豬,之所以發出「大數據都是騙人的啊」吶喊,是因為它的得出了一個錯誤的「歷史規律」:根據以往的數據預測未來,它每天都會過著「飯來張口」的豬一般的生活。但是沒想到,會發生「黑天鵝事件」——春節的殺豬事件。

其實,我們不妨從另外一個角度來分析一下,這個搞笑的小寓言在「黑」大數據時,也有失敗的地方。通過閱讀知道,舍恩伯格教授在其著作《大數據時代》的第一個核心觀點就是:大數據即全數據(即n=All,這裡n為數據的大小),其旨在收集和分析與某事物相關的「全部」數據,而非僅分析「部分」數據。

那頭小豬,僅僅著眼於分析它「從小到肥」成長數據——局部小數據,而忽略了「從肥到沒」的歷史數據。數據不全,結論自然會偏,預測就會不準。

那麼,問題來了,大數據等於全數據(即n=All),能輕易做到嗎?

2.故事:顛簸的街道——對不起,「n=All」只是一個幻覺

波士頓市ZF推薦自己的市民,使用一款智能手機應用——「顛簸的街道(Street Bump)」。

這個應用程序,可利用智能手機中內置的加速度感測器,來檢查出街道上的坑窪之處——在路面平穩的地方,感測器加速度值小,而在坑坑窪窪的地方,感測器加速度值就大。

熱心的波士頓市民們,只要下載並使用這個應用程序後,開著車、帶著手機,他們就是一名義務的、兼職的市政工人,這樣就可以輕易做到「全民皆市政」。

市政廳全職的工作人員就無需親自巡查道路,而是打開電腦,就能一目了然的看到哪些道路損壞嚴重,哪裡需要維修,如圖中所示。

顛簸的街道 (圖片來源:作者截圖)

波士頓市ZF也因此驕傲地宣布,「大數據,為這座城市提供了實時的信息,它幫助我們解決問題,並提供了長期的投資計劃」。

然而,從一開始,「顛簸的街道」的產品設計就是有偏的(bias),因為使用這款App的對象,「不經意間」要滿足3個條件:

(1)年齡結構趨近年輕,因為中老年人愛玩智能手機的相對較少;

(2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;

(3)有錢,還得有閑。前面兩個條件這還不夠,使用者還得有「閑心」, 想著開車時打開「顛簸的街道」這個App。

想像一下,很多年輕人的智能手機安裝的應用程序數量可能兩位數以上,除了較為常用的社交軟體如Facebook或Twitter(中國用戶用得較多的是微博、微信等)記得開機運行外,還有什麼公益軟體「重要地」一開車就記得打開?

「顛簸的街道」的理念在於,它可以提供 「n=All(所有)」個坑窪地點信息, 但這裡的「n=All(所有)」也僅僅是滿足上述3個條件的用戶記錄數據,而非「所有坑窪點」的數據,上述3個條件,每個條件其實都過濾了一批樣本,「n=All」註定是不成立的。

在一些貧民窟,可能因為使用手機的、開車的、有閑心的App用戶偏少,即使有些路面有較多坑窪點,也未必能檢測出來。

「n=All」,夢想很豐滿,但現實很骨感。

3.故事:醉漢路燈下找鑰匙——大數據的研究方法可笑嗎?

一天晚上,一個醉漢在路燈下不停地轉來轉去,警察就問他在找什麼。醉漢說,我的鑰匙丟了。於是,警察幫他一起找,結果路燈周圍找了幾遍都沒找到。

於是警察就問,你確信你的鑰匙是丟到這兒嗎?醉漢說,不確信啊,我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來,問,那你到這裡來找什麼?醉漢振振有辭:因為只有這裡有光線啊!

這個故事也揭示了一個事實:在面臨複雜問題時,我們的思維方式也常同這個醉漢所差無幾,同樣也是先在自己熟悉的範圍和領域內尋找答案,哪怕這個答案和自己的領域「相隔萬里」。

數據那麼大,價值密度那麼低,你也可以去分析,但從何分析起?首先想到的方法和工具,難道不是當下你最熟悉的?而你最熟悉的,就能確保它就是最好的嗎?

沃頓商學院著名教授、紐約時報最佳暢銷書作者喬納伯傑(Jonah Berger)從另外一個角度,解讀這個故事:在這裡,浩瀚的黑夜就是如同全數據,「鑰匙」就好比是大數據分析中我們要找到的價值目標。

他認為,「路燈」就好比我們要達到這個目標的測量「標尺」,如果這個標尺的導向有問題,順著這個標尺導引,想要找到心儀的「鑰匙」,是非常困難的。在我們痴迷於某項自己熟悉的特定測量標尺之前,一定要提前審視一下。這個測量標尺是否適合幫助我們找到那把「鑰匙」,如果不能,趕快換一盞「街燈」吧!

4.啤酒和尿布:經典故事是偽造的,你知道嗎?

這是一個關於零售帝國沃爾瑪的故事。 在一次例行的數據分析之後, 研究人員突然發現: 跟尿布一起搭配購買最多的商品,竟是啤酒。

尿布和啤酒,聽起來風馬牛不相及,但這是對歷史數據進行挖掘的結果,反映的是數據層面的規律。這種關係令人費解,但經過跟蹤調查,研究人員發現,一些年輕的爸爸常到超市去購買嬰兒尿布,有30%-40%的新爸爸,會順便買點啤酒犒勞自己。隨後,沃爾瑪對啤酒和尿布進行了捆綁銷售,不出意料,銷售量雙雙增加。

上面這個案例,出自於塗子沛先生的所著的大數據暢銷書《數據之巔》,在這個案例中,要情節有情節,要數據,有數據,誓言旦旦,不容你置疑。但是,這個故事雖經典,但是讓你意想不到的是:

案例是編造的!

這個經典的「啤酒和尿布」 (Beer and Diapers)的案例,不僅是《大數據》類圖書的常客,事實上,它更是無數次流連於「數據挖掘」之類的書籍中,特別是用來解釋「關聯規則(Association Rule)」的概念,更是「居家旅行,必備之良藥(周星馳語)」。

當前,基本上所有講大數據應用,都會捎帶講上這個經典案例,要求大家多研究「相關性」,少研究因果關係。但實在掃興的是,這個案例僅是一碗數據分析的「心靈雞湯」——聽起來很爽,但信不得。

5.你的一夜情我知道——大數據的隱私之痛

Uber(優步,著名的打車軟體服務公司,乘客可以通過發送簡訊或是使用移動應用程序來預約車輛,利用移動應用程序時還可以追蹤車輛的位置)曾在官網上發布一篇題為「榮耀之旅(Rides of Glory,RoG)」的博客。

文中寫到,「我知道,我們不是你們生命中唯一的愛人,我們也知道,你們會在別的什麼地方尋找愛情(we know we』re not the only ones in your life and we know that you sometimes look for love elsewhere)。」 Uber稱作的「榮耀之旅(RoG)」——實際上就是所謂的一夜情(one-night stand)代名詞。

Uber利用數據分析技術,專門篩選出那些在晚上10點到凌晨4點之間的用車服務,並且這些客戶會在四到六小時之後(這段時間足夠完成一場快速的RoG),在距離上一次下車地點大約1/10英里(約160米)以內的地方再次叫車。

根據對這些數據的分析,Uber推斷出那些發生一夜情的時間和地點,並將這些地點在紐約(NYC)、舊金山(SF)、波士頓(Boston)以及其他美ㄈ國城市的地圖上進行標註,得出一夜情頻繁的高發區。

數據分析發現,波士頓位於美國「一夜情」之首,而紐約人則顯得比較保守,「一夜情」的比率僅僅為波士頓的1/5。

在時間節點上,一夜情「發作」的高頻發段是在周五和周六晚上,如果你的另一半在這個時間點上說自己工作忙要加班,你就要「悠著點」相信。

當然,Uber此處雖多為開玩笑之舉,但也確實嚴重侵犯了用戶的隱私,在遭到用戶和媒體抗議以後,Uber迅速刪除了這篇博客,但在這個數字時代,一旦上網,「侯門一入深似海」,踏雪無痕夢難成」。

所以,大數據技術就猶如那 「蠟和羽毛」做的翅膀,它可以助我們飛得更高,但倘若過分依賴它,就有葬身大海的風險。我們要學會如何讓大數據為我所用,而不是成為大數據的奴隸。

最後的最後,祝大家愚人節快樂!

關注「雲途數據」公眾號(ID:yuntudata),登錄kb.37degree.com/blog.html了解更多大數據趣聞喲~


推薦閱讀:

《R語言實戰》圖形初階實踐筆記
uber幽靈車技術上是怎麼發生的?
大數據人推薦:60款頂級大數據開源工具

TAG:愚人节 | 大数据 | 段子 |