大數據入門書籍有哪些(一)

  大數據是眼下非常時髦的技術名詞,自然也催生出了一些與大數據相關的職業,通過對數據的分析挖掘來影響企業的商業決策。

  這群人被稱做數據科學家(DataScientist),這個頭銜最早由D.J.Pati和JeffHammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook數據科學團隊的負責人。而數據科學家目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業里開始創造價值。

  不過在國內,大數據的應用才處於萌芽狀態,人才市場還不太成熟,每家公司對大數據工作的要求不盡相同:有的強調資料庫編程、有的突出應用數學和統計學知識、有的則要求有諮詢公司相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title,我們將其統稱為「大數據工程師」。

  那麼如何進行大數據的入門級學習呢?首先我們需要了解大數據工程師是做什麼的以及需要具備什麼樣的能力。

  一:大數據工程師是做什麼的?

  用一句大數據研究員的話來說,大數據工程師就是一群「玩數據」的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此「會玩」這些數據的人就很重要。

  分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。

  二:需要具備的能力

  數學及統計學相關的背景

  就採訪過的BAT三家互聯網大公司來說,對於大數據工程師的要求都是希望有統計學和數學背景的碩士或博士學歷。缺乏理論背景的數據工作者,更容易進入一個技能上的危險區域(DangerZone)—一堆數字,按照不同的數據模型和演演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就不是真正有意義的結果,並且那樣的結果還容易誤導你。但是,有統計學和數據碩士和博士的能是很少的,又是學習大數據的那就更少了,所以,對於現在的大數據從業人員,90%都沒有那麼高的學位,只要你能完成企業交給你的任務,就行了。正所謂不看學歷,只看能力,就是這個道理。

  電腦編碼能力

  實際開發能力和大規模的數據處理能力是作為大數據工程師的必備要素。舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉電腦處理大數據的方式。

  三:如何進行入門級學習

  雖然數據科學並沒有一個獨立的學科體系,統計學,機器學習,數據挖掘,資料庫,分散式計算,雲計算,信息可視化等技術或方法都可以來對付數據。但從狹義上來看,數據科學就是解決三個問題:

  1.datapre-processing;

  2.datainterpretation;

  3.datamodelingandanalysis.

  這也就是做數據工作的三個大步驟:

  1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的數據;

  2、數據「長什麼樣」,有什麼特點和規律;

  3、按照需要,比如要對數據貼標籤分類,或者預測,或者想要從大量複雜的數據中提取有價值的且不易發現的信息,都要對數據建模,得到output。

  這三個步驟未必嚴謹,每個大步驟下面可能根據問題的不同也會有不同的小步驟,但按照這個大思路走,數據一般不會做跑偏。

  四:有哪些適合初學者的書籍

  這樣看來,數據科學其實就是門複合型的技術,既然是技術就從編程語言談起,為了簡練,只說說R和Python。但既然是推薦數據科學方面的書,就不提R/Python編程基礎之類的書了,直接說跟數據科學相關的。

  1:Rprogramming

  如果只是想初步了解一下R語言已經R在數據分析方面的應用,那不妨就看看這兩本:

  2:Rinaction:其實對於一個沒有任何編程基礎的人來說,一開始就學這本書,學習曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發布的Rbasics,stackoverflow上有tag-R的問題集(Newest『r』Questions),遇到複雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕鬆,緊貼實戰。

  3:DataanalysisandgraphicswithR:使用R語言做數據分析的入門書。這本書的特點也是緊貼實戰,沒有過多地講解統計學理論,所以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。

  但如果你先用R來從事實實在在的數據工作,那麼上面兩本恐怕不夠,還需要這些:

  4:ModernappliedstatisticswithS:這本書里統計學的理論就講得比較多了,好處就是你可以用一本書既複習了統計學,又學了R語言。(S/Splus和R的關係就類似於Unix和Linux,所以用S教程學習R,一點問題都沒有)

  5:DatamanipulationwithR:這本書實務性很強,它教給你怎麼從不同格式的原始數據文件里讀取、清洗、轉換、整合成高質量的數據。當然和任何一本注重實戰的書一樣,這本書也有豐富的真實數據和模擬數據供你練習。對於真正從事數據處理工作的人來說,這本書的內容非常重要,因為對於任何研究,一項熟練的數據預處理技能可以幫你節省大量的時間和精力。否則,你的研究總是要等待你的數據。

  6:RGraphicsCookbook:想用R做可視化,就用這本書。150多個recipes,足以應付絕大多數類型的數據。

  7:AnintroductiontostatisticallearningwithapplicationinR:這本書算是著名的theelementofstatisticallearning的姊妹篇,後者更注重統計(機器)學習的模型和演演算法,而前者所涉及的模型和演演算法原沒有後者全面或深入,但卻是用R來學習和應用機器學習的很好的入口。

  8:AhandbookofstatisticalanalysisusingR:這本書內容非常紮實,很多統計學的學生就是用這本書來學慣用R來進行統計建模的。

  9:Python

  ThinkPython,ThinkStats,ThinkBayes:這是AllenB.Downey寫的著名的ThinkXseries三大卷。其實是三本精緻的小冊子,如果想快速地掌握Python在統計方面的操作,好好閱讀這三本書,認真做習題,答案鏈接在書里有。這三本書學通了,就可以上手用Python進行基本的統計建模了。

  10:PythonForDataAnalysis:作者是pandas的主要開發者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結構比較複雜的數據。這本書其實analysis講得不多,說成數據處理應該更合適。掌握了這本書,處理各種糟心的數據就問題不大了。

  11:IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis:這本書第一章就告訴你要安裝Numpy,Scipy,Matplotlib,Pandas,IPython等等。然後接下來的十好幾章就是逐一介紹這幾個庫該怎麼用。很全面,但讀起來比較枯燥,可以用來當工具書。

  12:PythonDataVisualizationCookbook:用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道。


推薦閱讀:

這家大數據公司,竟是英國脫歐與特朗普當選的背後功臣
讀「切莫空談大數據,解讀需要走出物流大數據應用的誤區」有感
為什麼說「大數據」可能被人們過度神化了
數據分析會騙人么?
知識布局-大數據apache基礎組件安裝文檔-部署準備

TAG:大數據 | 大數據處理 | 大數據營銷 |