大數據時代的入門書單(一)

老闆:小劉,銷售部門的張總跟我說,最近咱們上門客戶越來越少。找老客戶交流,他們也支支吾吾不肯說原因。你說這是為什麼呢?

小劉:啊?老闆我怎麼知道……我就是個寫代碼的而已啊?

老闆:小劉,我們是做什麼的?

小劉: 做……做數據分析服務的?

老闆:咱們的客戶都是誰?

小劉:都是……都是大老闆啊?

老闆:我是不是告訴你,讓你選幾本跟數據分析有關的書,贈送給客戶?

小劉:對……對啊,我選了幾本,都發給各位老闆了啊?

老闆:那你告訴我,你TM發的這是什麼東西?

小劉:可這本書是經典啊!經典中的經典!

老闆:小劉,我覺得你不太適合這份工作。(和善的微笑)

日常生活中總有這種技術宅,會搞砸各種各樣的事情。給客戶看一堆艱深的工具書,讓客戶一臉懵逼最後放棄合作,他們真的能做的出來。

但對於不太懂大數據的客戶,總不能放棄治療。書還是要看的,關鍵是看什麼書。

如今,大數據已經成為大街小巷的日常論題。然而相比於它作為話題的熱度,大數據相關知識的學習門檻,真的是非常高。甚至有一些口若懸河,三句不離大數據的朋友,被問到「大數據是什麼」的時候,最終也支支吾吾答不上來。

然而在我看來,大數據的基本原理其實非常樸素。只不過,從事數據相關工作的技術宅們,往往不善於表達,沒辦法用接地氣的方法,把「大數據是什麼」教給普羅大眾。

時代在進步,我們亟需一位穿梭於技術和大眾作者兩個身份之間的掮客,把艱深的大數據知識用生動的語言講述出來。

雖然我也很希望這個人會是我,但我還是太菜了。幸而,國內已有一位最能擔起這一責任的人選。今天介紹的書籍,就是來自於周濤的《為數據而生——大數據創新實踐》

  • 關於作者周濤

介紹作者其實蠻無聊的。書籍扉頁上一堆稀奇古怪的吹逼介紹,看得我差點就把書扔了。

幸好沒扔。扔了的話,會有三個後果:

①錯過了一本好書

②錯過了一次對周濤老師路轉粉的機會

③圖書館會來找我的麻煩

2012年,國內各大書店的暢銷書書架上不約而同地出現了一本書,叫做《大數據時代》。當時這本書反響激烈,暢銷無數,成為廣大人民群眾對「大數據」的啟蒙資料。

雖然這本書有很多廣為詬病的毛病(比如對於相關性和因果性的論述、全書沒有一幅圖等等),豆瓣評分也很低,但是這本書的歷史地位是不可磨滅的。因為,改變時代的科技進步要想進入大眾視野,普及型書籍是必不可少的一個因素。

周濤就是在2012年,比別人先行一步。《大數據時代》英文版剛剛寫成,周濤就開始緊鑼密鼓地組織翻譯工作。這一努力的結果是,《大數據時代》英文版與中文版近乎同時付梓出版,進入市場,銷量爆炸。

當然這都是過去的事情。雖然《大數據時代》火了,但之後,2013年到2015年之間,周濤其實也沒有閑著。三年時間,這本《為數據而生——大數據創新實踐》終於寫就。

事實證明,周老師憋了三年,憋出來的確實是哪吒,而不是肉球。

  • 寫公式與講故事

作為一隻統計狗,我經常需要面對長篇累牘的數學證明,這種「雖然認識每一個字但連起來卻毛都看不懂」的感覺,真是苦不堪言。

偏偏,這卻是必須經歷的過程。倒不是因為學界好裝逼,而是因為要保證知識嚴謹、可泛化,數學表達是必需的。簡而言之,寫公式是對統計學的基本尊重。

然而我們也知道,大數據更多時候是要面向實際問題的。億萬中國人每天上淘寶買買買,淘寶當然會想著,根據大家買買買的數據,在首頁進行個性化推薦,進一步促進大家的買買買。在這個例子中,數據來源和目標很輕鬆地就表達出來了。雖然大家可能不明白技術宅們在中間做了什麼以加重了他們的剁手,但至少他們能夠意識到大數據的存在了。以後再被問起「大數據是什麼」,總歸有話可說。

這便是講故事的意義,能讓每一個普通人從故事裡,輕鬆地了解大數據到底是什麼。

但更重要的意義在於,邏輯永遠高於方法。無論統計學還是機器學習,更多時候是提供各種各樣的「方法論」,就像電腦里的主板、顯卡、內存一樣,構造複雜。然而哪怕我們看懂了他們複雜的構造,我們依舊需要一個淺顯易懂的操作系統(Windows?macOS?)來幫我們解決問題。

所以我推薦每一個想要了解大數據、或是將要從事大數據工作的人,來讀一讀這本書。作者在書里講了大量的「故事」,這些故事對於任何一位大數據時代的親歷者,都是一次思想的洗禮。

  • 全書梗概

《為數據而生》全書分成四個部分。我給大家寫個梗概。:

1.大數據時代,用數據說話:

這一部分是引子。大數據時代,數據無處不在,我們每個人都製造更多數據,也接受更多數據。量變引起質變,大數據實際上已經成為一種新的理念,它已經引起商業模式、決策、生活方式等等的顛覆性變化。

所以作者認為,大數據將會驅動新的工業革命。計算效率的指數級提升,數據的數量、深度和廣度的增加,數據分析理論的進步,對於個性化的追求,這四點為我們描繪了工業革命的新圖景。

2.大數據1.0:分析

用常規的統計學分析方法結合大數據,能夠做到很多以前做不到的事情。數據總會呈現一些特徵,當異常情況出現,我們就能從中偵測到有用的信息,正所謂「統計呈現洞見」。事物之間總有關聯與因果,通過分析數據中的關聯關係,便能使關聯創造價值。通過統計和關聯發掘特徵之後,便能進行預測,指導決策

3.大數據2.0:外化

外化的意思包括兩點——

一方面是尋求外部數據的幫助。作者在電子科技大學採集學生日常行為數據,發現了諸多「在寢室呆的越久,成績越差」、「進圖書館次數越多,成績越好」甚至於「打水越多,成績越好」的關聯——而這些關聯的可信度,統統是由大數據支持的。可見,為達到某種分析目標,可能需要借用看起來關聯度並不高的外部數據。但實際效果卻是非常有效的。

另一方面是自身數據的外部價值。Google對自己搜索引擎的搜索數據進行挖掘,結果竟然建立了一個流感傳播趨勢的預測模型。在此之前,傳染病流行是一個非常複雜的統計問題,但基於先進的大數據方法,Google僅用45個變數就將其趨勢刻畫出來了。

這一部分最後提到的是機器學習,數據外化最神奇的利器。坦白說,這應該是全書最難的一章,但卻是不得不讀的一章。作者常被問到,什麼課程對於理解和應用大數據最有幫助?他永遠建議:統計理論和機器學習。真正厲害的大數據應用,絕大部分都和機器學習有關係。作者還很形象地把機器學習模型比喻為程咬金的「三板斧」,包括特徵、模型、融合三點。鑒於國內很少有機器學習的入門資料,這一項艱深的技術對於初學者可以說是非常不友好。但至少在這本書里,我們能有一個大概的鳥瞰式了解。

4.大數據3.0:集成

大家注意了。從這一章開始,整本書畫風一轉,每一頁的閱讀幾乎都能給人帶來超凡的體驗。

不因為別的。我覺得可能只是因為作者寫這幾章的時候心情比較好,本色流露了。。

這本書(指《數學天書中的證明》)曾經給我和我的很多朋友帶來快樂,現在還是我經常用於娛樂和放鬆的工具,我給本科生講的「離散數學」課經常選用這本書的題目作為考試題,以催毀他們的自信並從中娛樂

——周濤《為數據而生》

這個逼裝的我給零分。因為「催毀」並不是我打錯字了。周老師以後裝逼的時候可能需要認真一點(笑)。

言歸正傳,繼續寫梗概。這一部分,作者提到了三個「現在進行時」的重要構想,讀起來非常非常的一顆賽艇。

數據交易,和字面意思一樣。如今做數據的同學們很多都面臨「原始數據從哪找啊哭哭」的煩惱,這煩惱很樸素但卻很致命。這就創造了數據交易與共享的需求空間。比如科研數據共享平台、政府數據開放等等。這樣的平台可以說是一種全新的、前景無限的商業模式,而目前也已經有不少人在做了,前途一片光明。

數據城堡,指的是國內著名的數據科學競賽平台DataCastle(pkbigdata.com)。這個平台的原型是國外的kaggle.com。但目前來看,在國內可能還是阿里雲更加出名一點。由於這種數據競賽平台不僅能夠為企業解決實際需求,還能吸引、培養和發現人才,其前景也是一片大好。

創新工場,大數據創業公司目前有一些普遍的困境。例如,好的商業模式受阻於某種關鍵的技術。又例如,某些團隊擁有很強的數據分析/挖掘能力,但卻缺乏商業敏感性和產品設計能力。針對這些困境,作者提到了「大數據分析挖掘平台」(iCloudUnion),用於解決缺乏關鍵技術的困境。而後者,則需要類似於目前創業孵化器的「大數據創新工場」,來給好的數據產品提供商業機會。

  • 綜合評價

我覺得周濤老師寫這一本書,是有一定野心的。

周老師身兼數職。既是電子科技大學的教授,又是學術研究的一把好手,還是大量國內大數據企業的創辦者。作為國內「大數據圈子」里的核心人物,無論出於商業訴求,還是出於社會責任,總要給大數據多說點好話。

當然,周老師沒有直截了當地給自己的公司打廣告。我覺得這更能說明周老師的「野心」。國內大數據發展,早就不止是一兩個公司的局部利益的事情了。我們知道,貴陽今年可謂是傾全城之力,建設大數據云計算平台,發展大數據產業。在2015年GDP增長速度排行當中,貴陽高居全國第二,大數據在其中是否功不可沒呢?

由於西部的氣候條件天氣乾燥,供電、土地、人力、帶寬之類的成本都低於東部發達地區,具有建立雲計算平台的天然優勢。毫無疑問,貴陽早早地抓住了這個機會,嘗試去建立自己的優勢產業,在西部發展當中獨樹一幟。

說的更多,可能會有人把我的文章當成軟文了。(雖然這本書只是我從圖書館借來的,毫無金錢和PY交易……)但大數據時代已經不可避免地降臨了,作為新時代好青年(啊呸),總歸是想要抓住一點時代的尾巴的。

啊,由於學業繁忙,讀完一本書花的時間有點長。下一次更新不知道是什麼時候,所以大家可以先行點贊+關注以免錯過下一篇乾貨書評(不要臉)。

其他文章目錄:關於數據分析學習筆記的計劃(以及目錄)

推薦閱讀:

快來給這個圖表起個名字吧~
與R初相識:R的數據結構與EXCEL數據導入
Tidy data(整理數據)---Hadley Wickham
東易日盛:技術與數據,驅動傳統家裝行業效率和用戶體驗提升

TAG:大数据 | 数据分析 | 经济 |