強烈推薦 | 數據分析師的必讀書單

有不少人留言希望我推薦數據分析的書單,剛好即將春節,無論是假日學習還是年後,都值得充電。讀書最好的時候是學生時期,其次是現在。內容按照 《如何七周成為數據分析師 》 的順序。

數據分析是一門專業且跨越多個領域的學科,雖然我每篇公眾號都足夠篇幅(乃至我自己覺得啰嗦),可我還是得承認存在缺漏。如果有好書作為參考,對數據分析能力的成長更有幫助。

這份書單權作入門級推薦,如果大家有更好的歡迎留言說明。我不能保證全部看過,畢竟基礎書沒必要看幾本,但我盡量做到客觀。建議大家根據自己基礎挑選,不要貪多。

大家多支持正版。

Excel

《誰說菜鳥不會數據分析》

知名度比較高的一套書,適合新手,優點是它和數據分析結合,而不是單純地學習函數。學會函數適用的場景和過程比它本身更重要。

是否需要學習VBA是仁者見仁的答案。我個人不建議。Excel VBA的最大優勢是適用性廣,哪怕去其他行業其他職位,都離不開Excel,這時候它就是一個工作加分的亮點。但是在互聯網行業,對數據分析師,VBA的性價比就不高了。

這裡只推薦一本,因為我就翻過上面這本,還沒全看…

數據可視化

數據可視化的書不多。市面上多以編程為主,面向新手和設計的教程寥寥無幾。 如果只是了解圖表,看Excel的書籍也管用。

內容很豐富,涉及可視化的方方面面,也囊括更類編程語言和設計軟體:Python+JS+R+Excel。作者還有另外一本書《數據之美》。

可視化是一門側重靈感的學科,有一種入門技巧是從他人設計中學習,從模仿開始,了解他人是如何設計的,這個網路上有大量的信息圖可以參考。當然數據分析師更需要的是如何發現,別只學習展示。

英文足夠好,可以看Edward Tufte的著作:《The Visual Display of Quantitative Information》、《Envisioning Information》、《Beautiful Evidence》。他是數據可視化的領軍人物,他的理念是反對為藝術效果而混淆或者簡化數據。暫時沒有中文版。

分析思維

《金字塔原理》

分析思維首推《金字塔原理》,金字塔原理有些人說它晦澀難懂,我認為是芭芭拉這個老太有騙稿費之嫌,本書包含了報告、寫文、演講等諸多內容。可以細看可以快看。另外還有一本同名案例集,有興趣可以買。

另外麥肯錫相關的書籍還有《麥肯錫意識》《麥肯錫工具》《麥肯錫方法》等。

《深入淺出數據分析》

深入淺出系列是對新手非常友好的叢書,用生動但啰嗦的語言講解案例。厚厚的一本書翻起來很快。本書涉及的基礎概念比較廣,包含一點統計學知識,學下來對數據分析思維會有一個大概了解。

《精益數據分析》

國外的精益系列一直以互聯網創業作內容導向,本書也屬於此類。如果是互聯網行業相關,可以看看。它介紹了不同領域的指標,以及產品不同時期的側重點。案例都是歐美,這部分做參考用。

接下來的幾本,是興趣向讀物。《黑天鵝》能拓展思維,講敘了不確定性。《思考的技術》,大前研一的著作,也是諮詢類經典。如果對諮詢向的分析感興趣,還可以看BCG系列,或者刷CaseBook。《批判性思維》,則是教你如何形成理性思維。

SQL

資料庫有很多種,常見有Oracle,MySQL,SQL Server等。我推薦學習MySQL,這是互聯網公司的主流資料庫。以後學習Hadoop生態時,MySQL也是最接近Hive語法的語言。

MySQL不需要專門看書學習,因為數據分析師以查詢為主,不需要考慮數據性能、數據安全和架構的問題。使用搜索引擎能解決90%的問題,我就是w3cschool學的。

《MySQL必知必會》

如果真想買書看,可以看這本,適合新手向的學習,看基礎概念和查詢相關的章節即可。網路上大部分MySQL都是偏DBA的。

如果想深入,可以看《高性能MySQL》,對分析師沒啥用。至於另外一個方向NoSQL,對入門者還是小眾了些。

如果有餘力,就學習正則表達式吧,清洗數據的工作就靠它了。

統計學

統計學是比較大的範圍,分析師往後還需要學線性代數和矩陣、關係代數等。初學者不需要掌握所有公式定理的數學推導,懂得如何應用就行用。

《深入淺出統計學》

大概是最啰嗦的深入淺出系列,從賣橡皮鴨到賭博機的案例,囊括了常用的統計分析如假設檢驗、概率分布、描述統計、貝葉斯等。書本注重應用和趣味性,數學推理一般。

《商務與經濟統計》

國外的經典教材,已經出到第十二版了。國外教材都有豐富有趣的案例,所以讀起來會比國內的輕鬆不少。如果你還在讀書,不妨買這本看一看。

名字既然有商務與經濟,所以書中輔以了大量的相關案例。書內容很多,看起來不會快,適合細讀。

《The Elements of Statistical Learning》

稍微有一些難度的英文書籍,屬於進階版統計學,國外很推崇。如果要往機器學習發展,這本書可以打下很好的基礎。

以上書籍的難度是逐步遞增的。統計學是機器學習的基礎,是概率、矩陣等實際應用。現在已經有很多統計工具,Excel的分析工具庫、傳統行業的SPSS、SAS以及R、Python等,使用過程都不用計算推導,大學考試才會考,現在都是計算機解決,輕鬆不少。

業務知識

不同領域的業務知識都不一樣,這裡以互聯網舉例。

《增長黑客》

增長黑客的概念就是隨著這本書的暢銷傳播開來。增長黑客在國內即是數據分析+運營/產品的複合型人才。這本書好的地方在於拓展思路,告訴我們數據能夠做什麼,尤其是連AB測試都不清楚的新人。

實際涉及的業務知識不多,我推薦,是希望新人能夠了解數據驅動的概念,這本算是我走上數據化運營的啟蒙讀物了。

《從零開始做運營》

知乎亮哥的書籍,互聯網所有的數據都是和運營相關的,如果是新手,就以此學習業務知識。如果已經工作很多,就略過吧。

《網站分析實戰》

互聯網不再是網站的天下,但是移動端依舊有Web,我們在朋友圈看到的所有H5活動、第三方內容等,都是依託網頁實現。網站的數據分析依舊有存在空間,網站的數據指標還是能夠指導我們運營。

《數據挖掘與數據化運營實戰》

這本書涉及了數據挖掘,但是比較淺,可以作為數據分析師視野的承上啟下,了解數據化運營的高級應用。特點是以阿里的實際工作相結合,可又因為保密原則不夠詳盡。

《數據實踐之美》

是各領域專家眾籌完成的書本,比起傳統的書籍,囊括範圍更廣。雖然沒有深度講解技術,但是各領域的案例都是一手資料,對業務的觸類旁通理解有幫助。

業務知識我不再多推薦,以後我會通過公眾號文章的形式講解。因為從我看來,市面上也沒有詳盡介紹數據角度下的用戶行為、產品運營的書籍,都是點到為止。這一塊內容,盡量從工作中去學,收穫才是最大的。

Python/R

歡迎來到數據分析的最後殿堂,Python和R都是大分支,基本是前面所有內容的實現。Python的學習以PY3為前提,畢竟2017年了,我實在想不出不用Python3的理由。

除了書籍,Python/R更多依靠博客和文檔學習。Python的學習路徑不陡峭,新手水平取決於查詢能力,所以也請學會如何高效搜索。

《深入淺出Python》

還是深入淺出系列,完全適合零基礎的新人。需要注意的是,編程學習不同於其他知識,如果計算機基礎不穩固,在使用中會遇到各類問題。知其然不知其所以然,這是本書缺點:能掌握,但是Bug比較多。

《Python學習手冊》

對於擁有編程基礎的人,這本書系無巨細的有些啰嗦,不過對新人,可以避免不必要的坑。把它當作一本工具文檔吧,當遇到不理解的內容隨時翻閱。這是紙質書比電子書好的優勢之一。

《利用Python進行數據分析》

非新手向的書籍,成書較早,部分內容比較老舊。雖然學習中不會有問題,但很多Pandas函數已經有更優雅的寫法了,例如df.query。每段代碼都敲打一遍,千萬行的數據清洗基本不會有大問題了。

《Python Cookbook》

Python的進階書,如果想要掌握更好的編程能力,這是一本經典,值得時時翻閱。注意,它更偏向程序員。

《R語言實戰》

R語言的入門書籍,從數據讀取到各類統計函數的使用。雖然沒有涉及機器學習,依靠這本書入門R是綽綽有餘了。

《統計學:從數據到結論》

這本書是將R語言和統計學結合的教材,可以利用這本書再複習一遍統計知識。缺點是書本後面的內容質量不如前部分。

到這裡,入門書籍推薦完畢,當然好書不嫌多,例如《數學之美》、《集體智慧編程》、《統計學習方法》等,有興趣不妨閱讀。

上面的內容都吃透,不論是成為一名數據分析師,還是往後向機器學習、數據科學家、數據產品發展、都有了良好的基礎。

希望你能沉下心閱讀。

————

如果你都看完,或者已經不必要看,可以向我要下一階段的書籍

----------------------------------------------

作者:秦路

公眾號:秦路 (微信ID:tracykanc),不定期更新運營和數據知識

知乎專欄:秦路知乎專欄

博客專欄:運營大濕兄------定期更新分析和運營知識

最近很多人私信問我問題,平常知乎評論看到不多,如果沒有及時回復,大家也可以加小編微信:tszhihu,進知乎大數據分析挖掘交流群,可以跟各位老師互相交流。謝謝。


推薦閱讀:

用python-pandas作圖矩陣
Python進階課程筆記(四)
Scrapy學習實例(二)採集無限滾動頁面
特徵工程總結:R與Python的比較實現
Python 初學者最容易犯的幾個錯誤。

TAG:数据分析师 | 数据分析 | Python |