在數據分析、挖掘方面,有哪些好書值得推薦?


之前一直有朋友叫我列一個數據科學的書單,說實話這件事情我是猶豫了很久的。有兩個原因,其一是因為自己讀書太少才疏學淺,其二我覺得基於我個人觀點認為「好」的書其實可能對於很多人是不一定合適的。

不過,明天正好是世界讀書日,所以這裡從一個(在讀的統計PhD學生?即將去舊金山的某Startup進行Data Science暑期實習的准數據科學家)的角度,給大家列一個書單吧,裡面有我讀過的書,也有我想讀的書。

我的原則是儘可能推一些新書,和我自己所認為的「好書」。不過我覺得,我介紹的書當中可能有不少的書在之前的回答里都有提到了,那也是難免的。畢竟很多好書都是得到了大家的一致認可的。

對於讀過的書我可能會給一點點小短評,對於我想讀但是沒讀過的書我就不發表什麼太多看法了。這個書單,算是對自己過去閱讀的總結,也算是未來給自己所提的要求。如果對其他人有那麼一點點用,那也是極好的。

------------4.23 Update--------------------------------

這裡想澄清一個誤會,有些知友以為我這些書都看完了,怎麼可能嘛2333。裡面有些書是我讀過的,有些書是我正在讀的,有些書是我打算看的(todo list)。另外這個書單裡面有些書,我認為是值得從頭到尾看完的,有些書是適合看一部分的,還有些書是你在做項目,解決一個特定問題的時候才需要去翻查的。這些說明我會慢慢補上(施工ing)。

還有人問我怎麼找到這些書的電子版的。有個論壇,叫經管之家(原人大經濟論壇)我覺得不少人應該都聽說過吧,我在裡面混了8,9年了。

--------------------------------------------

第一部分:數據科學家核心技能(Data Scientist Core Skills)

1. 概覽(Overview):

The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists (看完了)

業內老司機給數據科學新人的一些建議

Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking (看完了)

Doing Data Science: Straight Talk from the Frontline(看完了)

2. 數學(Maths):

多變數微積分(multivariate calculus):

我是覺得看MIT這門課的前兩個Chapter就OK了。

https://ocw.mit.edu/courses/mathematics/18-02sc-multivariable-calculus-fall-2010/index.htm

線性代數(Linear Algebra):

這本書對應課程絕對良心:

https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/index.htm

3. 概率論與統計(Probability And Statistics):

Introduction to Probability, Statistics, and Random Processes(還沒看)

一本手把手教你概率論的書,相應學習網站上書和視頻都有。

https://www.probabilitycourse.com/

OpenIntro Statistics(看完了)

至今見到最好的一本統計學入門書,同樣相應學習網站上書和視頻都有。

OpenIntro

Statistical Inference(看完了)

不少美國大學統計系研究生第一年的教材,推薦給想系統學習數理統計的同學。

Applied Linear Statistical Models(看了一半)

我覺得是把線性模型講得很好的一本書

An Introduction to Generalized Linear Models(看完了)

廣義線性模型入門簡介

All of Statistics: A Concise Course in Statistical Inference(正在看)

注意,我覺得這本書是給的統計底子很好的人復慣用的,不適合自學。

Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (正在看)

Efron和Hastie兩位大師通過這本書給了大數據時代的統計學一個非常現代和全面的介紹。

Statistics in a Nutshell: A Desktop Quick Reference(翻查用)

案頭的統計學速查手冊

貝葉斯統計(Bayesian Statistics)

Bayes" Rule: A Tutorial Introduction to Bayesian Analysis(還沒看)

貝葉斯統計101

Think Bayes: Bayesian Statistics in Python(還沒看)

簡介怎麼用Python做貝葉斯統計

這裡可以免費下載:http://www.greenteapress.com/thinkbayes/thinkbayes.pdf

Bayesian Methods for Hackers(還沒看)

更加深入地介紹怎麼用Python做貝葉斯統計。

在線版本:CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

Practical Statistics for Data Scientists: 50 Essential Concepts(讀完了)

我在實習期間抽空看完的一本書,這本書應該算是填平課堂的統計學和工業界數據科學的一本很好的參考指南。寫得比較簡潔但是直擊要點,而且給出了很多reference。

這本書的github:andrewgbruce/statistics-for-data-scientists

這本書的Amazon 鏈接:Practical Statistics for Data Scientists: 50 Essential Concepts (9781491952962): Peter Bruce, Andrew Bruce: Books

4. 機器學習(Machine Learning)
我覺得機器學習不能沉溺於理論,要儘快開始動手把玩一些實際數據集來加深對演算法的理解。所以我打算推薦一些Hands-on(手把手)的書。
An Introduction to Statistical Learning: with Applications in R(看完了)

通過R講解演算法的統計學習入門書,估計被推薦爛了(笑)。可以在這本書的網站上找到這本書的pdf和數據集。

http://www-bcf.usc.edu/~gareth/ISL/

相關課程

https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about

Applied Predictive Modeling(看完了)

黃皮書,沒啥好多說的。準備面試和工作的時候必讀。

Python Machine Learning(基本上看完了)

手把手教你用sklearn做機器學習,同樣是工作必備。

Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies(看了一半)

我覺得這本書特別適合我這種腦子不太好的人,因為他會把機器學習演算法拆開,結合案例,一步一步地給你講。

Real-World Machine Learning(看完了)

告訴你工業界的人怎麼用Machine Learning解決實際問題的書。建議所有Data Scientist在實習前和全職工作開始前都讀一下。

Learning From Data(看完了)

這本書講清楚了很多機器學習書中不怎麼提到的機器學習理論,比如VC Dimension這種東西。Caltech有公開課,吐血推薦:

https://work.caltech.edu/telecourse.html

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(看了一半)

大名鼎鼎的ESL,讀起來比較累(我太渣),我覺得適合翻查和摘抄。

https://statweb.stanford.edu/~tibs/ElemStatLearn/

Pattern Recognition and Machine Learning(正在看)

同樣大名鼎鼎的PRML,我個人覺得比ESL好讀不少。

5. 數據挖掘(Data Mining)

數據挖掘中不少東西其實和機器學習是重合的,至於這兩個東西有什麼區別,可以看看這個回答:https://stats.stackexchange.com/questions/5026/what-is-the-difference-between-data-mining-statistics-machine-learning-and-ai

Principles of Data Mining(還沒看)

非常基本的數據挖掘入門書,講了不少Association Rule的東西

Introduction to Data Mining(正在看)

更加深入講數據挖掘的書,乾貨很多

Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management(還沒看)

通過實例講怎麼通過數據挖掘賺顧客錢做生意。

6. SQL:
SQL怎麼入門,網上到處都是教程。書的話我只是覺得這一本Cookbook最好。因為他把很多SQL query里的陷阱都提到了,而且每道題給出了市面上所有流行資料庫(MySQL,DB2,Oracle,SQL Server,Postgresql)的Query代碼

SQL Cookbook: Query Solutions and Techniques for Database Developers (翻查用)

7. R:

R in Action(正在看)

有名的R語言實踐

下面是R教主Hadley Wickham的三本書,沒啥好太多說的,讀就是了:

R for Data Science(正在看)

在線版本:

R for Data Science

R Packages(還沒看)

Welcome · R packages

Advanced R(還沒看)

在線版本:Welcome · Advanced R.

8. Python:

因為不是軟體工程師,我Python水平也不高。推薦兩本我用來入門和準備繼續進一步提高看的書吧。

Think Python(看完了)

這本書我拿來入門的

Fluent Python(還沒看)

打算用來Python進階的

Python for Probability, Statistics, and Machine Learning(還沒看)

我打算用來複習概率論和統計學的書(with Python)

Python Data Science Handbook(翻查用)

一本非常全面的通過Python解決數據科學問題的工作手冊。作者給出了這本書全部的Jupyter Notebook:

jakevdp/PythonDataScienceHandbook

9. 數據科學家面試 (Data Scientist Interview)

Data Science Interviews Exposed(看完了)

幾個在美國的中國人數據科學家寫的面試準備書。基本給出了所有數據科學面試涵蓋的知識點概述,數據科學家面試流程和注意事項,乾貨滿滿。仔細讀完這本書,數據科學家面試是怎麼個一回事兒,基本上你就心中有數了。

Cracking the PM Interview: How to Land a Product Manager Job in Technology(讀完了)

在美國,不少數據科學家在公司做的很多工作和產品相關,甚至不少數據科學家被當成半個產品經理用,所以這本產品經理的面試準備書對於數據科學家的面試也很有借鑒意義的。

10. 演算法(Algorithm)

數據科學家逃不掉演算法,雖然要求不像軟體工程師那麼高。因為我是Python死忠,所以這裡推薦的所有演算法書中的演算法實現都有用到Python。

Grokking Algorithms: An illustrated guide for programmers and other curious people(看了一半)

非常直觀的一本演算法入門書中的入門書,這本書作者不僅僅是軟體工程師,他還是一個繪本畫師,裡面所有的插圖都是他自己親手畫的,非常的萌。

Problem Solving with Algorithms and Data Structures Using Python(正在看)

一本用Python講數據結構和演算法的好書,有在線的電子版。

Problem Solving with Algorithms and Data Structures using Python

Algorithms in a Nutshell: A Practical Guide(翻查用)

演算法速查手冊,給出了Python的實現。

11. 工作手冊(Handbook)

The Data Science Handbook(正在看)

我正在讀的,涵蓋最全面的一本數據科學工作手冊,推薦給想成為「Unicorn"-全棧數據科學家的同學

12. 網路爬蟲與數據折騰(Web Scraping and Data Wrangling)(還沒看)

Web Scraping with Python: Collecting Data from the Modern Web

用Python3手把手教你做爬蟲

Data Wrangling with Python: Tips and Tools to Make Your Life Easier(正在看)

這本書教你怎麼把又髒亂差的原始數據清理,整理,折騰成你想要的樣子。

Regular Expressions Cookbook(翻查用)

我知道很多人不喜歡正則表達式,但是又不得不面對他,經常翻查這本書應該能搞定很多問題。

13. 數據可視化與講故事(Data Visualization and Storytelling)

怎麼畫出又漂亮又高大上的圖表,然後講一個好故事把你的老闆和客戶忽悠得一愣一愣的,是一個好的數據科學家的終極大招之一。

Communicating Data with Tableau: Designing, Developing, and Delivering Data Visualizations(還沒看)

我知道有些喜歡編程的人瞧不上各種按鈕點點點的軟體,但是我表示Tableau真的很好用。

Interactive Data Visualization for the Web: An Introduction to Designing with D3(還沒看)

講怎麼用數據可視化工具D3.js。會一些前端技能和Javascript對數據科學家絕對是錦上添花。

Data Visualization with Python and JavaScript: Scrape, Clean, Explore Transform Your Data(還沒看)

一本講怎麼把把Python和Javascript串起來做數據可視化的書,一顆賽艇。

Storytelling with Data: A Data Visualization Guide for Business Professionals(還沒看)

教你怎麼忽悠人23333

14. A/B 測試(A/B Testing)(看完了)

A / B Testing: The Most Powerful Way to Turn Clicks Into Customers

Designing with Data: Improving the User Experience with A/B Testing(正在看)

Spotify 的 VP of Design and User Experience 寫的怎麼做AB測試的書。

-----------------------分割線-------------------------

第二部分:其他技能(Some Other Skills)

這一部分推薦的書,是為那些想成為數據科學家中的超級賽亞人的同學所準備的23333

15. 神經網路與深度學習(Neural Network and Deep Learning)

Make Your Own Neural Network(正在看)

深度學習炒得火熱,但是在認真學習Deep Learning之前,各位巨巨們真的不先嘗試下推推公式,然後Python從頭自己造一個玩具神經網路玩一玩嗎,真的很好玩的!

Deep Learning(正在看)

這個還有介紹的必要嗎(望天)

Deep Learning

Hands-On Machine Learning with Scikit-Learn and TensorFlow(還沒看)

我覺得對於DS老司機們來說,這本書的Sklearn部分可以無視,重點放在後半部分怎麼用

TensorFlow玩深度學習。

16. 資訊理論(Information Theory)

關於資訊理論在數據科學上的重要性,可以看看這篇文章:

Data Science and Information Theory

Information Theory: A Tutorial Introduction(還沒看)

Information, Entropy, Life and the Universe: What We Know and What We Do Not Know(還沒看)

17. 因果推斷(Causal Inference)

關於因果分析的重要性可以看看這個slides:

http://cds.nyu.edu/wp-content/uploads/2014/04/causal-and-data-science-and-BART.pdf

Causal Inference in Statistics: A Primer(還沒看)

Field Experiments: Design, Analysis, and Interpretation (還沒看)

18. 抽樣(Sampling)

Sampling(還沒看)

19. 凸優化(Convex)

Convex Optimization(還沒看)

斯坦福的凸優化,課程在這裡:

Convex Optimization

另外這本書的網站給出了免費電子書:

Convex Optimization - Boyd and Vandenberghe

20. 增長分析(Growth Analytics)

Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)(還沒看)

Web Analytics 2.0: The Art of Online Accountability and Science of Customer Centricity(還沒看)

21. 文本挖掘與自然語言處理(Text Mining And Natural Language Processing)

Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit(還沒看)

Python NLTK的官方指南,有在線版:

NLTK Book

Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data(還沒看)

Introduction to Information Retrieval(還沒看)

斯坦福的信息萃取,有在線電子版

Introduction to Information Retrieval

數學之美(正在看)

吳軍老師的數學之美。

22. 異常檢測(Anomaly Detection)

Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection(正在看)

這本書我正在讀,不難讀,作為Fraud Detection的概述講得還是挺細的。

Outlier Analysis(正在看)

23. 推薦系統 (Recommender Systems)

Statistical Methods for Recommender Systems(還沒看)

Recommender Systems: The Textbook(還沒看)

24. 社交網路分析 (Social network analysis)

Network Science(正在看)

大牛Barabási 今年的力作,關於網路科學的簡介。有在線版本,裡面的圖漂亮得我是跪下了。

Network Science by Albert-László Barabási

Social and Economic Networks(還沒看)

斯坦福教授Matthew O. Jackson的書,在coursera上有這本書的公開課。

Social and Economic Networks: Models and Analysis - Stanford University | Coursera

Social Network Analysis for Startups: Finding connections on the social web(還沒看)

一本用Python做社交網路分析的書。

25. 時間序列預報(Time Series Analysis and Forecasting)

現在很多時間序列的書,重點放在描述時間序列上,所以會大量介紹ARMA和ARIMA。但是我這裡想著重強調的是預報(Forecasting)。這裡面有一套方法,個人感覺很少被傳統統計系的時間序列課程介紹。

Practical Time Series Forecasting with R: A Hands-On Guide(看完了)

Forecasting: principles and practice(還沒看)

這本書也是有在線版本的,和上面那本書互補。

Forecasting: principles and practice

26. 強化學習與人工智慧

Reinforcement Learning: An Introduction(還沒看)

強化學習入門書,有在線版

http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf

Artificial Intelligence: A Modern Approach(還沒看)

Google的大佬,研究總監Peter Norvig的書

-----------------------分割線-------------------------

第三部分:休閑讀物(Casual Reading)

這部分介紹的書,躺在床上看看很不錯。

Soft Skills: The software developer"s life manual(還沒看)

同軟體工程師一樣,數據科學家只會寫代碼和建模是遠遠不夠的。軟實力非常非常重要。

The Healthy Programmer: Get Fit, Feel Better, and Keep Coding(還沒看)

身體是革命的本錢,身體搞垮了怎麼繼續用數據科學改變世界呢?另外數據科學家其實和人打交道的機會通常來說要遠遠多於軟體工程師,在這個看臉看身材的時代,你懂的。

Exposing the Magic of Design(還沒看)

有一個Design Mindset對數據科學家是很加分的哦 :)

Thinking, Fast and Slow(還沒看)

這本書被大V鄒昕推薦過。

Naked Statistics: Stripping the Dread from the Data(還沒看)

可能是你讀過最好玩的統計學讀物。

Uncertainty: The Soul of Modeling, Probability Statistics(正在看)

一本在哲學層面上思考數據科學的書。

---------------------------------

大概先到這裡吧,豆瓣link什麼的之後再慢慢補。

最後祝大家世界讀書日快樂,比心~~~

------------------

答主睡前本想拍個圖慶祝世界讀書日,結果發現玩脫了 ,正在為以後的搬家問題發愁ing


2016.05.17 更新,周志華老師出書了 機器學習 (豆瓣) 都已經再版好多次了才來推薦,有些晚了。
---------
2014.2.1更新,由於經常接到私信要求在這個書單之內再推薦兩三本,每個人的行業背景也不一樣,所以就把下面的書單歸類整理一下。
---------


機器學習 (豆瓣)

把這本書放在下面所有的推薦之上。

入門讀物:

  1. 深入淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。
  2. 啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。難易程度:非常易。
  3. 數據之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數據分析的應用領域和做法非常有幫助。難易程度:易。
  4. 數學之美 (豆瓣) 這本書非常棒啦,入門讀起來很不錯!

數據分析:

  1. SciPy and NumPy (豆瓣) 這本書可以歸類為數據分析書吧,因為numpy和scipy真的是非常強大啊。
  2. Python for Data Analysis (豆瓣) 作者是Pandas這個包的作者,看過他在Scipy會議上的演講,實例非常強!
  3. Bad Data Handbook (豆瓣) 很好玩的書,作者的角度很不同。

適合入門的教程:

  1. 集體智慧編程 (豆瓣) 學習數據分析、數據挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數據挖掘中的演算法,淺顯易懂,還有可執行的Python代碼。難易程度:中。
  2. Machine Learning in Action (豆瓣) 用人話把複雜難懂的機器學習演算法解釋清楚了,其中有零星的數學公式,但是是以解釋清楚為目的的。而且有Python代碼,大讚!目前中科院的王斌老師(微博:
    王斌_ICTIR)已經翻譯這本書了 機器學習實戰 (豆瓣)。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我帶的研究生入門必看數目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 雖然是英文的,但是由於寫得很簡單,比較理解,又有 Python 代碼跟著,輔助理解。
  4. 數據挖掘導論 (豆瓣) 最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對於初學者來說不太容易讀懂。難易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通過實例講解機器學習演算法,用R實現的,可以一邊學習機器學習一邊學習R。

稍微專業些的:

  1. Introduction to Semi-Supervised Learning (豆瓣) 半監督學習必讀必看的書。
  2. Learning to Rank for Information Retrieval (豆瓣) 微軟亞院劉鐵岩老師關於LTR的著作,啥都不說了,推薦!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老師關於LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。
  4. 推薦系統實踐 (豆瓣) 這本書不用說了,研究推薦系統必須要讀的書,而且是第一本要讀的書。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 這個是Jordan老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的創刊號,可以免費下載,比較難懂,但是一旦讀通了,graphical model的相關內容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 經典,其實主要是講 NLTK 這個包,但是啊,NLTK 這個包幾乎涵蓋了 NLP 的很多內容了啊!

機器學習教材:

  1. The Elements of Statistical Learning (豆瓣) 這本書有對應的中文版:統計學習基礎 (豆瓣)。書中配有R包,非常贊!可以參照著代碼學習演算法。
  2. 統計學習方法 (豆瓣) 李航老師的扛鼎之作,強烈推薦。難易程度:難。
  3. Machine Learning (豆瓣) 去年出版的新書,作者Kevin Murrphy教授是機器學習領域中年少有為的代表。這書是他的集大成之作,寫完之後,就去Google了,產學研結合,沒有比這個更好的了。
  4. Machine Learning (豆瓣) 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 之前做過我帶的研究生教材,由於配有代碼,所以理解起來比較容易。
  5. Pattern Recognition And Machine Learning (豆瓣) 經典中的經典。
  6. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,徹徹底底的Bayesian學派的書,裡面的內容非常多,有一張圖將機器學習中設計演算法的關係總結了一下,很棒。
  7. Probabilistic Graphical Models (豆瓣) 鴻篇巨製,這書誰要是讀完了告訴我一聲。
  8. Convex Optimization (豆瓣) 凸優化中最好的教材,沒有之一了。課程也非常棒,Stephen老師拿著紙一步一步推到,圖一點一點畫,太棒了。

數據分析方面,我推薦《精益數據分析》,這本書里講解了創業公司該如何確定指標體系,如何用數據指導產品和運營。本書還針對電商、媒體、SaaS、雙邊市場、Ugc等,列舉了要關注的指標,並有豐富的案例。不足是整個書的內容比較散,系統性不強,但依舊是講互聯網產品數據分析方面我覺得最好的一本了。

數據挖掘方面,我推薦韓家煒的《數據挖掘概念與技術》,我自己就是在工作之後,通過閱讀這本書,對數據挖掘有了系統性的認識,後來我研究用戶行為序列模式挖掘的時候,發現看的許多論文都出自他的實驗室。在兩三年前,他還去百度做過一次報告,有幸去聽了。

當然,光靠看看書是遠遠不夠的,想深入數據分析,就在自己的工作中嘗試用數據指導決策,不管是項目效果的評估,運營活動的評估,都嘗試用數據來驗證。對於數據挖掘,還是找個應用場景,直接寫程序去嘗試一下個性化推薦,分類之類的演算法,這樣就不會覺得雲里霧裡了。

大數據分析方面,也可以看看我的知乎專欄:https://zhuanlan.zhihu.com/sangwf,我裡面寫了一些之前在百度從零到一構建大數據平台的經歷,以及如何實現數據驅動,希望能有幫助。


本文主要講數據分析方面的書籍:從入門到精通:互聯網數據分析的書籍清單。

任何一個技能的學習,都有從淺到深的過程,數據分析也不例外。因此我把推薦書籍劃分成幾個段位,更便於大家挑選。


Part 1 | 入門版


適合對數據分析的入門者,對數據分析沒有整體概念的人,常見於應屆畢業生,經驗尚淺的轉行者。

深入淺出數據分析 (豆瓣):HeadFirst 類的書籍,一向淺顯易懂形象生動,可以對分析概念有個全面的認知。

誰說菜鳥不會數據分析 (豆瓣):不僅講解了一些常見的分析技巧,並附帶 Excel 的一些知識以及數據分析在公司中所處的位置,對職場了解亦有一定幫助。

赤裸裸的統計學 (豆瓣):作者年輕時是個追求學習意義的學霸,後來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。

同樣類似的書籍還有「統計數字會撒謊 (豆瓣)」,這本書知名度要高點,不過我還沒看…


Part 2 | 進階版

具有一定的行業針對性,要求具備一定的分析常識,適合網站分析師,商業分析師以及數據產品經理。

精通 Web Analytics 2.0 (豆瓣):此書雖老,但其中很多思想和流量分析的案例仍然很有借鑒意義,現在紙質書只能上淘寶買舊書了。

與此類似的有「網站分析實戰 (豆瓣)」,是國內一本講網站分析的書,沒有上面經典,但勝在新出,很多案例和理念都有及時的更新。

深入淺出統計學 (豆瓣):Headfirst 類書籍,可以幫助你快速了解統計方面的知識。

數據化管理:洞悉零售及電子商務運營 (豆瓣):黃成明著,講解在企業中應用數據的例子,讀完受益匪淺,裡面舉的很多例子都很接地氣。雖說偏向於零售業管理,但大道歸一,可適用於很多行業,當時依據裡面的理念規划了美團外賣面向 BD 的數據產品。

MySQL 必知必會 (豆瓣):這本也是我當年學習 SQL 的入門書,薄冊子一本,看起來很快。SQL 是個性價比很高的技能,簡單而強大。任何想進一步提高自己數據分析技能的產品/運營/分析師 同學,都建議點亮 這個技能點。

互聯網增長的第一本數據分析手冊:我司 GrowingIO 出的一本數據分析的增長手冊(封面和目錄見下圖),為大家提供常見的分析手段講解,如漏斗分析,同期群分析等等。可點擊書籍名字在 GrowingIO 技術論壇中免費下載。


Part 3 | 高階版

更高階的數據相對來說專業性較強了,如涉及到企業內部數據治理,數據結合的業務分析,數據可視化等。當然,還有數據挖掘演算法之類的更深入的東西,這塊沒有研究就不瞎推薦了。

決戰大數據 (豆瓣):阿里巴巴前數據副總裁車品覺老師所著,講解了阿里巴巴在企業內部治理數據過程中的心得,所講「存-通-用」數據管理三板斧和「從數據化運營到運營數據」,字字珠璣,可堪借鑒。

精益數據分析 (豆瓣):此書優勢在於將企業分成了幾個大的行業類別,並分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。

The Wall Street Journal Guide to Information Graphics (豆瓣),華爾街日報負責商業分析的人做的可視化指南,精華且實用,我之前在公眾號上寫過讀書筆記「華爾街日報是這樣做數據可視化的(1)」,可供大家參考。

《數據倉庫經典教程》:網上有人整理出來的資料,優點是簡單明了,不像正常的數據倉庫教材厚厚一本。


本文作者陳新濤,GrowingIO - 矽谷新一代數據分析產品 產品經理。


一、引言
肖智博已經說得很全面了,再補充一些:)
之前回答過這類問題,有興趣的話建議先看一看:

  • 做數據分析不得不看的書有哪些?
  • 如何系統地學習數據挖掘?
  • 數據挖掘的系統教程是怎樣的,包含哪些教材?

二、因為問題已經更新到了馬年,所以推薦幾本2014年剛出的數據科學好書。(網上已經有PDF版可以下載,此處不再給出)

  • 《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)

作者之一Rachel Schutt本科在密歇根大學學習數學,同時擁有紐約大學數學碩士學位,以及斯坦福大學工程經濟系統和運籌學雙碩士學位,美國哥倫比亞大學統計學博士學位,而後在谷歌研究所擔任統計學專家。Johnson研究實驗室的高級科學家兼創始人之一,目前在哥倫比亞大學講授「數據科學導論」(Introduction to Data Science)課程。她提出了數據科學家的概念即「計算機科學家、軟體工程師和統計學家的混合體。」另一位作者Cathy O』Neil是哈佛大學數學博士,麻省理工學院數學系博士後,目前在華爾街的德劭基金(D.E.Shaw)做quant。(總之是兩個大牛XD)
本書前面幾個章節大致介紹了數據分析法、一些機器學習演算法、線性回歸和邏輯回歸、樸素貝葉斯等等。其中有一些內容需要一些數學基礎才能吃透。 第六到十章節是本書的精華,詳細介紹了如何利用金融及社交網路中的數據進行數據建模分析,值得反覆回味。

  • 《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)

本書適合剛入行的數據愛好者以及有兩三年工作經驗數據科學家,作者立志打造一個full-stack解決方案(包括開發框架、運行環境等,有了它無需再下載別的軟體)來減少前期在數據準備上必須花費的大量時間。此外書中的一些例子放在了GitHub上,建議一邊看書一邊DIY。

  • 《Fast Data Processing with Spark》:Fast Data Processing with Spark (豆瓣)

目前市面上關於Spark的書籍不多,這本120多頁的薄書可以當做預熱。Spark同Hadoop一樣是基於Mapreduce演算法實現的分散式計算,不同的是任務的中間輸出結果可以保存在內存中無需讀寫HDFS,所以更加適合需要進行反覆迭代的機器學習演算法實驗。作者Holden Karau曾在亞馬遜數據挖掘項目組,目前是一名在谷歌工作的軟體研發工程師。

以上,有時間再來更新。祝挖掘快樂:)


入門篇:

1.《深入淺出數據分析》

內容簡介:《深入淺出數據分析》以類似「章回小說」的活潑形式,生動地向讀者展現優秀的數據分析人員應知應會的技術:數據分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、回歸法、誤差處理、相關資料庫、數據整理技巧;正文以後,意猶未盡地以三篇附錄介紹數據分析十大要務、R工具及ToolPak工具,在充分展現目標知識以外,為讀者搭建了走向深入研究的橋樑。

本書構思跌宕起伏,行文妙趣橫生,無論是職場老手,還是業界新人,無論是字斟句酌,還是信手翻閱,相信都能跟著文字在職場中走上幾回,去體味數據分析領域的樂趣與挑戰。


2. 《誰說菜鳥不會數據分析》

內容簡介:《誰說菜鳥不會數據分析》基於通用的Excel工具,形式活潑,內容豐富而且充實,讓人有不斷閱讀下去的動力。在8個章節中,分別講解數據分析必知必會的知識、數據處理技巧、數據展現的技術、通過專業化的視角來提升圖表之美、數據分析報告的撰寫技能以及持續的修鍊。


3. 《大數據時代》

內容簡介維克托?邁爾?舍恩伯格在書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。

本書的核心在於大數據預測,並在書中展示了谷歌、微軟、亞馬遜、IBM、蘋果、facebook、twitter、VISA等大數據先鋒們最具價值的應用案例。


4. 《深入淺出SQL

內容簡介:《深入淺出SQL》帶你進入SQL語言的心臟地帶,從使用INSERT和SELECT這些基本的查詢語法到使用子查詢(subquery)、連接(join)和事務(transaction)這樣的核心技術來操作資料庫。到讀完《深入淺出SQL(影印版)》之時,你將不僅能夠理解高效資料庫設計和創建,還能像一個專家那樣查詢、歸一(normalizing)和聯接數據。你將成為數據的真正主人。


5.《數據之美》

內容簡介:本書通過世界上最好的數據工作者的示例,向讀者展示處理數據的方法。本書使得讀者可以站在優秀的數據設計師、管理者和處理者的肩上,去仔細審視涉及到數據的一些最有趣的項目。


進階篇:

1.《精益數據分析》

內容簡介:本書展示了如何驗證自己的設想、找到真正的客戶、打造能賺錢的產品,以及提升企業知名度。30多個案例分析,全球100多位知名企業家的真知灼見,為你呈現來之不易、經過實踐檢驗的創業心得和寶貴經驗,讓你深入理解精益創業、數據分析基礎,和數據驅動的思維模式。


2.《網站分析實戰》

內容簡介:本書以通俗易懂的方式來講解網站分析所需掌握的知識,剖析日常工作中遇到的問題,並且配合大量的實戰案例的講解。

不管你是做網路營銷、互聯網產品設計、電子商務運營、個人站點運營維護,我們都希望從數據中尋找有價值的結論,並且指導公司管理層的決策,最終創造更大的網站價值。


3.《R語言實戰》

內容簡介:通讀本書,你將全面掌握使用R語言進行數據分析、數據挖掘的技巧,並領略大量探索和展示數據的圖形功能,從而更加高效地進行分析與溝通。想要成為倍受高科技企業追捧的、炙手可熱的數據分析師嗎?想要科學分析數據並正確決策嗎?不妨從本書開始,挑戰大數據,用R開始炫酷的數據統計與分析吧!


4.《利用Python進行數據分析》

內容簡介:還在苦苦尋覓用Python控制、處理、整理、分析結構化數據的完整課程?本書含有大量的實踐案例,你將學會如何利用各種Python庫(包括NumPy、pandas、matplotlib以及IPython等)高效地解決各式各樣的數據分析問題。

由於作者Wes McKinney是pandas庫的主要作者,所以本書也可以作為利用Python實現數據密集型應用的科學計算實踐指南。本書適合剛剛接觸Python的分析人員以及剛剛接觸科學計算的Python程序員。


5.《深入淺出統計學》

內容簡介:本書涵蓋的知識點包括:信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態分布、統計抽樣、置信區
間的構建、假設檢驗、卡方分布、相關與回歸等等,。本書運用充滿互動性的真實世界情節,教給你有關這門學科的所有基礎,為這個枯燥的領域帶來鮮活的樂趣,不僅讓你充分掌握統計學的要義,更會告訴你如何將統計理論應用到日常生活中。

6.《用戶體驗度量》

內容簡介:有效地測量任何產品的可用性都需要選擇和使用正確的度量.並要有效地利用它所揭
示出來的信息。《用戶體驗度量》首次介紹了相關實用資料.可以使可用性從業人員和產品開發人員完成這種測量。作者把幾十個種度量整理成六類:績效、基於問題的、自我報告式的、Web導航、綜合性的/派生的, 以及生理/行為的。他們對每一種度量都進行了考察,並認真考慮了收集、分析和呈現這些數據的最佳方法。他們對使用任何技術來測量任何類型產品的可用性都提供了步進式指導。


7. 《The Wall Street
Journal Guide to Information Graphics》

內容簡介:
「華爾街日報」的新聞圖形總監傾力之作,本書通過循序漸進的指南和清晰簡潔的圖形,為我們展示如何使用不同的技術來有效地傳達消息。


高段位:

1.《數學之美》

內容簡介:作者吳軍博士幾乎把所有文章都重寫了一遍,為的是把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。讀者通過具體的例子學到的是思考問題的方式
——
如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。


2. 《數據挖掘與數據化運營實戰》

內容簡介:《數據挖掘與數據化運營實戰:思路、方法、技巧與應用》是目前有關數據挖掘在數據化運營實踐領域比較全面和系統的著作。作者結合自己數據化運營實踐中大量的項目經驗,用通俗易懂的「非技術」語言和大量活潑生動的案例,圍繞數據分析挖掘中的思路、方法、技巧與應用,全方位整理、總結、分享,幫助讀者深刻領會和掌握「以業務為核心,以思路為重點,以分析技術為輔佐」的數據挖掘實踐應用寶典。


3.《集體智慧編程》

內容簡介:本書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,並得出有用的結論,通過複雜的演算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank演算法等)、搜索海量信息並進行分析統計得出結論的優化演算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網路的信息匹配技術、機器學習和人工智慧應用等。

本書是Web開發者、架構師、應用工程師等的絕佳選擇。


4. 《數據挖掘-市場營銷、銷售與客戶關係管理領域應用》

內容簡介:本書是數據挖掘領域的經典著作,數年來暢銷不衰。全書從技術和應用兩個方面,全面、系統地介紹了數據挖掘的商業環境、數據挖掘技術及其在商業環境中的應用。


5. 《數據可視化之美》

內容簡介:在《數據可視化之美》中,20多位可視化專家包括藝術家、設計師、評論家、科學家、分析師、統計學家等,展示了他們如何在各自的學科領域內開展項目。他們共同展示了可視化所能實現的功能以及如何使用它來改變世界。


6.
《流量的秘密》

內容簡介:《流量的秘密:Google Analytics網站分析與優化技巧》將運用最新的網路計量學方法,教你獲取真正有價值的信息。

哪種市場營銷活動最有成效?如何量化這些效果?應該從哪些衡量指標進行追蹤?《流量的秘密:Google Analytics網站分析與優化技巧》介紹的Google Analytics分析工具,將幫你完美解決這些問題,讓你真正量化網站的成效。

《流量的秘密:Google Analytics網站分析與優化技巧》講述了安裝和配置Google Analytics最實用的技術,目標很明確:將最大化網站潛力所需要的知道奉獻給讀者。通過了解網站的訪客,你可以如手術刀般精準地調整網頁內容和營銷預算,以期獲得更佳的投資回報率。

《流量的秘密:Google Analytics網站分析與優化技巧》適合市場營銷人員、網站管理員、網站決策人員,還有所有對網站營銷有商業興趣的人。


7. 《數據化決策》

內容簡介:數據無孔不入,大數據時代,誰掌握了數據,誰就能把握成功。「一切皆可量化」,道格拉斯這個大膽的宣言是解決諸多生活和商業問題的關鍵所在。本書詳細講解了:專註於量化不確定性、風險和數據價值;提供了令人拍案驚奇的測算無形之物的簡便方法,讓你僅僅基於已知數據就能準確決策;展示了豐富而精彩的量化案例,讓身邊的數據唾手可得。

本書兼具實用性、可讀性與趣味性,甚至讓反感數據的人也能發現它的親切。


8. 《機器學習》

內容簡介:《機器學習》展示了機器學習中核心的演算法和理論,並闡明了演算法的運行過程。《機器學習》綜合了許多的研究成果,例如統計學、人工智慧、哲學、資訊理論、生物學、認知科學、計算複雜性和控制論等,並以此來理解問題的背景、演算法和其中的隱含假定。


9.
《數據挖掘與R語言》

內容簡介:本書利用大量給出必要步驟、代碼和數據的具體案例,詳細描述了數據挖掘的主要過程和技術,廣泛涵蓋數據大小、數據類型、分析目標、分析工具等方面的各種具有挑戰性的問題。


10.《數據挖掘與知識發現》

內容簡介:本書詳細地介紹了關聯規則、聚類分析、決策樹、貝葉斯網路、人工神經網路、支持向量機、粗糙集、模糊集等數據挖掘模型與演算法。


從系裡的reading list挑了些分享給大家:

1. &<Competing on Analytics&> by Tom Davenport and Jeanne Harris.
Competing on Analytics (豆瓣)

2. &<BIG DATA: A Revolution That Will Transform How We Live,
Work, and Think&>

https://book.douban.com/subject/12053751/
https://book.douban.com/subject/20429677/ (中文版)

3. &<The Signal and the Noise: Why So Many
Predictions Fail — but Some Don"t
&>
https://book.douban.com/subject/11580128/
信號與雜訊 (豆瓣) (中文版)

4. &<Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or
Die&>

by Eric Siegel, Thomas H. Davenport
https://book.douban.com/subject/19990583/
大數據預測 (豆瓣)

5. &

by Sam L. Savage, Jeff Danziger, Harry M. Markowitz

The Flaw of Averages (豆瓣)


6. &<Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics&> by Bill Franks (high level introduction on big data technologies)

Taming The Big Data Tidal Wave (豆瓣)

駕馭大數據 (豆瓣)


7. &<Uncontrolled: The Surprising Payoff of Trial-and-Error for Business, Politics, and Society&>

by Jim Manzi (hi-level intro to controlled experiments with many business examples)

Uncontrolled (è±??「£)


8. &<A Practitioner』s Guides to Business Analytics: Using Data Analysis Tools to Improve Your Organization』s Decision Making and Strategy&> by Randy Bartlett.

Big Data Analytics with Spark: A Practitioner"s Guide to Using Spark for Large Scale Data Analysis (è±??「£)


9. &<Bias and Causation&> by Herbert I.Weisberg

Bias and Causation (豆瓣)


10. &<The Black Swan: The Impact of the Highly Improbable: With a new section: "On Robustness and Fragility"> by Nassim Nicholas Taleb (這本都沒看過的同學應該面壁)

The Black Swan (è±??「£)

黑天鵝 (豆瓣)


11. &<Understanding Variation: The Key to Managing Chaos&> by Donald J. Wheeler

Understanding Variation (豆瓣)


12. &<Win with Advanced Business Analytics: Creating Business Value from Your Data&> by Jean-Paul Isson, Jesse Harriott

Win with Advanced Business Analytics (豆瓣)


13. &<Handbook of Statistical Analysis and Data Mining Applications&> by Robert Nisbet , John Elder IV, Gary Miner

Handbook of Statistical Analysis and Data Mining Applications (豆瓣)


14. &<The Elements of Statistical Learning: Data Mining, Inference, and Prediction&> by Trevor Hastie, Robert Tibshirani, Jerome Friedman

The Elements of Statistical Learning (豆瓣)


15. &<Introduction to Machine learning&> by Ethem Alpayd?n

Introduction to Machine Learning (豆瓣)


16. &<Living Standards Analytics: Development through the Lens of Household Survey Data (Statistics for Social and Behavioral Sciences)&> by Dominique Haughton , Jonathan Haughton

Living Standards Analytics (豆瓣)


17. &<Mostly Harmless Econometrics: An Empiricist"s Companion&> by Joshua D. Angrist, J?rn-Steffen Pischke

Mostly Harmless Econometrics (è±??「£)


18. &<Counterfactuals and Causal Inference: Methods and Principles for Social Research (Analytical Methods for Social Research)&> by Stephen L. Morgan, Christopher Kinship

Counterfactuals and Causal Inference (豆瓣)


19. &<Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management&> by Gordon S. Linoff , Michael J. A. Berry (This is a good high-level technical intro book for data mining)

Data Mining Techniques (豆瓣)


*我也陸陸續續在看,有興趣的朋友可以私信我,我們有空一起聊聊 (′???`)

*中信翻譯了很多啊
*基本是General Business Analytics類別的書,技術性不會特別特彆強
*之後如果我自己看到別的書會慢慢更新


知乎大神太多,我已經不知道自己是不是能答這個題了。但我真的是大公司data science部門的主力呀。。。汗。。。我只是不想寫個xxx公司xxx在我的自我介紹上。。。


我看你們點贊挺多的,我又寫了個更全面的入門文章,鏈接如下:
https://zhuanlan.zhihu.com/p/26704424

我弱弱的覺得在我的成長過程中,有兩個東西對我的幫助很大,一個是網易公開課上Andrew Ng給斯坦福學生上的機器學習課程(不是現在coursera上的那個相對簡單的公開課)。當年我看著屏幕,假裝自己在課堂上,認真的抄寫他在黑板上的每一個推導,課後也認真的思考並閱讀Ng教授的note,也還好好做作業。

在deep learning都要被看不起,aaai是爛會,只有nips和icml才會被人看得起的知乎,我這麼說可能實在是有點不上檔次。^_^。不過我還是強烈安利網易公開課上的二十個視頻。

還有一個就更啟蒙了,大二的時候參加高教社杯數學建模比賽,僥倖獲得國二。美賽icm和mcm也都參加了,兩個m獎。現在看起來當時所謂的「模型」就跟小孩子過家家一樣,但過不過這個家家,對我的思維方式影響挺大。

還有三個對我影響力很大的課程。

大二的時候,我有一個很好的概率論老師,我相信這麼多年沒見,他可能還會記得我。

研一的時候,我幸運的碰到了兩個很好的老師教我統計和統計信號處理。

類似Ng教授的課,我自學了mit的 Gilbert Strang的linear algebra 視頻公開課。講得很好。應該有中文字幕了吧。

總結一下,樓主你看書不如看視頻。那些「輕鬆入門」的書,可能並不能給你帶來真正的收穫。

###

作為網易跟貼局副局長,我還是想安利一下我家大網易。網易公開課還挺不錯的,還有個英國老師在耶魯講博弈論,挺有意思的。如果去金融行業做數據,必考博弈論吧。

三個課程鏈接見評論區


《精益數據分析》,我司入門必讀書目。網易創始人 CEO 丁磊重磅推薦:《精益數據分析》破除了創業教條」。Clarity CEO 評價《精益數據分析》彌補了精益創業的缺憾。目前已被翻譯成8國語言銷售,內憂100 多位創始人、投資人和創新者的成功創業經驗。

讀書筆記如下:

對於創業公司來說,不同發展階段都有一個高於一切、需要你集中全部注意力的數字,即 OMTM(One metric That Matters),即第一關鍵指標。精益數據分析的核心思想之一是,確定商業模式和創業階段後,即可跟蹤並優化當前的創業第一關鍵指標。

按照精益數據分析理論,企業的發展經歷移情階段、黏性階段、病毒階段、營收階段、規模化階段,每次進階都有需要破解的「關隘」,這些指標代表你可以進入下一階段的關鍵指標。

你的企業處於哪一階段?如何進入下一階段?

圖1 精益數據分析階段及進入下一階段的關隘

精益數據分析下的三大商業模式——電商、SaaS、媒體

企業指標的關注因商業模式而異,因企業發展階段而異——企業具有多種商業模式,不同商業模式在企業發展的不同階段所關注的指標不盡相同。下面列舉電子商務、SaaS 企業、媒體三種常見的企業類型,其增長的關鍵是什麼?不同發展階段所關注的指標有哪些?

第一,電子商務企業。

電子商務企業,移情階段真正重要的問題是:他們會從你這裡買走等價商品嗎?

電商企業增長的關鍵:他們會找到你的產品,並向他人推薦嗎?

收入的主要來源:交易量。

圖2 電子商務企業不同發展階段應該關注的指標

第二,SaaS 企業。

移情階段真正重要的問題是:用戶會為解決問題付錢嗎?

增長的關鍵:他們會註冊、逗留,並告知他人嗎?

收入的主要來源:活躍用戶。

圖 3 SaaS 企業不同發展階段應該關注的指標

第三,媒體企業。

移情階段真正重要的問題是:他們會反覆參與產品內容嗎?

增長的關鍵:你能將流量提升至可以盈利的狀態嗎?

收入的主要來源:廣告營收。

圖4 媒體企業不同發展階段應該關注的指標

綜上,模式+階段決定了企業應該關注與跟蹤的指標。這幫助企業克服許多公司或項目在早期都會面臨的風險,讓企業產品滿足客戶真實需求,在明確方案等堅定的基礎上發展。

最近因為工作關係(作者阿里斯泰爾·克羅爾會來北京參加2017數據驅動大會),所以一直在讀《精益數據分析》,本人陸續會在個人主頁更新心得,敬請關注。


我也來分享一個自己的書單:

#關於這份學習清單#

我會按照基礎到入門給出詳細推薦,並且附上個人點評。同時盡量做到各個資料在內容上並不重複(即使內容上有重複,也會在難度上做出區分),希望可以以最直接的方式告訴大家應該怎麼選擇。

Ps:這是第一版學習指南,由於最近時間比較緊張,預計在第二版中會加入業務材料的推薦和更多的學習索引,歡迎關注。

1先驗知識

由於統計學概率論甚至到機器學習會對數學基礎有一定要求,所以這裡給出一些先驗知識的內容推薦,主要是矩陣方面。

1.1 課程

可汗學院公開課:線性代數課程

可汗學院公開課:線性代數

因為網易公開課有翻譯,這裡是中文字幕課程鏈接,這裡真要給網易100個贊,字幕做得很好。

「可汗學院(Khan Academy),是由孟加拉裔美國人薩爾曼·可汗創立的一家教育性非營利組織,主旨在於利用網路影片進行免費授課,現有關於數學、歷史、金融、物理、化學、生物、天文學等科目的內容,教學影片超過2000段,機構的使命是加快各年齡學生的學習速度。」

1.2 參考書籍

(1)線性代數 豆瓣評分7.3

清華居余馬老師的線性代數教材,比較經典的教材了,裡面的知識足夠支撐我們後續統計分析和機器學習需要。

(2)高等代數 豆瓣評分8.1

相比於線性代數,高等代數更加深入,一般線性代數為非數學專業所用,數學類專業一般學習高等代數。不過一般情況下,線性代數也足夠使用了。

當然,在後續學習中有些演算法也會用到微積分的知識,但是都比較基礎,因此遇到不懂的時候直接查資料即可,就沒有特定推薦材料了。

2統計分析學習資料

2.1 統計學/概率課程

同樣推薦可汗學院的統計學和概率課程,而且剛好這兩門課程也被網易公開課進行了翻譯:

(1) 可汗學院公開課:統計學

可汗學院公開課:統計學

(2) 可汗學院公開課:概率

可汗學院公開課:概率


這兩本課程總體不算太難,適合入門。個人覺得講授還是蠻有特點的,粗暴直接,另外舉的例子也是蠻有趣的。


2.2統計學/概率參考書

(1)統計學 豆瓣評分8.8
作者William Mendenhall / Terry Sincich

「《統計學(原書第5版)》內容豐富,很少涉及統計學理論的嚴格數學證明,絕大部分是與實際應用緊密聯繫的例子和練習,適合作為理工科各專業本科生、研究生的統計學教材,也可作為相關領域研究人員的參考讀物。」

非常注重實用的統計學課程,偏應用,少數學證明,可讀性比較強

(2)統計學 豆瓣評分7.3
作者:賈俊平,何曉群,金勇進

統計比較通用的入門教材了,不知不覺竟然到了第六版,個人認為也算是兼顧數學證明和應用,可讀性沒有上面強,但是也非常的通俗易懂,有很多統計學專業的起始教材也會選擇這本。

(3)統計推斷 豆瓣評分8.8,/英本原本9.2
作者:William Mendenhall / Terry Sincich

非常經典經典的統計學教材,借用介紹「從概率論的基礎開始,通過例子與習題的旁徵博引,引進了大量近代統計處理的新技術和一些國內同類教材中不常見而又廣為使用的分布。其內容既包括工科概率入門、經典統計和現代統計的基礎,又加進了不少近代統計中數據處理的實用方法和思想」
可以作為研究生所用教材,有深度,但是作者循序漸進,解釋得非常漂亮

3機器學習資料

3.1機器學習課程

強烈推薦Andrew NG吳恩達的斯坦福機器學習課程,英文授課,但是已有完善的中文字幕,內容非常豐富且充實(20節),並且講解得非常的好,如果你想學習機器學習,一定不能錯過!

Coursera地址:

Coursera - Free Online Courses From Top Universities

網易公開課地址:

斯坦福大學公開課 :機器學習課程


同時該課程配有課件講義,同樣建議大家在學習視頻課程之餘多看講義和習題,雖然是英文,但是閱讀上基本沒有什麼問題,就講義本身也是非常的棒。

如果大家學習完Andrew NG的機器學習,還想通過其他課程觸類旁通,相互借鑒的話,可以上Coursera上門搜索還有其他選擇,例如台大的機器學習基礎等等,但毫無疑問首推Andrew NG的課程;

另外現在國內也有越來越多的培訓網站推出相關課程,大家有興趣的可以自己搜搜,這裡就不做推薦了;


3.2機器學習教材

(1)數據挖掘導論 豆瓣評分8.4,/英本原本8.8

作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

介紹得非常全面的一本書,但可能因為需要涵蓋的內容太多,所以難免有些演算法只能簡單介紹。儘管這樣,個人認為也是非常難得一見的入門教材,有一定難度。這本書從簡單的數據開始,到各種分類演算法,聚類演算法,關聯規則都有相對完整的指引,我認為對於我們構建自身的統計挖掘體系是有很大的幫助。中文版本翻譯還是挺好的,但是英文原版那是極好的。


(2)統計學習方法 豆瓣評分:8.9

作者:李航

個人認為中文教材裡面少見的精品,雖然精簡,但邏輯非常的清晰,非常詳細地為我們剖析了演算法原理,可能不太適合入門者,但是還是非常值得推薦閱讀學習,建議將《數據挖掘導論》以及《統計學習方法》相互借鑒學習


(3)The Elements of Statistical Learning(統計學習基礎)

豆瓣英本原版評分9.4 中文評分7.4

作者:Trevor Hastie

這本書被廣大人民喜稱為ESL,雖然書名是統計學習基礎,但是此書一點都不基礎,一點都不~另外此書還有一本專門的入門版本ISL(後面會介紹)

這本書涵蓋了非常多的內容,講解深入,有人評價說,「有了這本書就不需要其他機器學習教材」,雖然有點誇張,但是此書實際是機器學習的經典巨作,如果你真的希望好好研究機器學習,此書非常值得仔細研讀,另外此書要求不低的統計理論和數學基礎。

此外,這本書還有一個牛逼的地方在於,作者把書放在網上免費下載:

Elements of Statistical Learning: data mining, inference, and prediction.
2nd Edition.

前面都是一些理論知識,但是數據科學裡面實踐應用又是另外一個重中之重,接下來談一下藉助工具進行實踐應用的問題,由於Python還在整理當中,本次主要介紹SPSS與R語言

4SPSS學習資料

考慮到SPSS分為統計模塊Statistics以及數據挖掘模塊Modeler , 因此也分為兩大塊介紹


4.1SPSS統計分析資料

SPSS Statistics 市面上的書籍比較多,從我個人的角度,認為張文彤老師的系列足以讓大家加深對統計體系的理解,同時也能很好掌握在實際的應用當中如何使用統計分析幫助我們完成任務,我認為掌握統計分析原理實戰和SPSS操作,以下兩本書足矣。

(1) SPSS統計分析基礎教程 豆瓣評分8.4

提供了包括醫療、經濟、市場研究等方面的案例貫穿了全書,能夠很好從實際應用角度把統計分析原理和SPSS操作結合起來,也提供了很好的結果解讀,不失為一本極好的工具指南


(2)高等學校教材(SPSS統計分析高級教程)豆瓣評分7.7

相比於基礎教材,高級教程介紹了更多的統計演算法模型,同時也提供了一些統計新方法和新觀點的講解。整體來說直觀易懂,能夠很好提升實戰能力

另外張文彤老師也有對應視頻課程 《張文彤SPSS初中級教程》以及《張文彤SPSS高級教程》

4.2 SPSS機器學習教程

(1)Modeler官方的幫助文檔和Sample文件

Modeler提供完備Sample數據和數據建模文件,並且配套中文說明,可以幫助入門者一步一步搭建數據建模流並理解實際應用場景。Modeler提供的幫助文檔包括有演算法說明,節點說明,Crisp-dm方法論,應用文檔等,其中比較重要一本如:《IBM SPSS Modler 應用程序指南》


(2) IBM SPSS數據分析與挖掘實戰案例精粹 豆瓣評分9.3

作者:張文彤,鍾雲飛

非常詳盡工具手冊,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基於實戰需求,詳細講解整個案例的完整分析過程,並將模型和軟體的介紹融於案例講解之中,尤其是書本最後幾章實踐案例,從商業問題界定到商業應用,給出了非常詳盡的建模指南,個人認為目前市面上Modeler最好的工具手冊;另外即使不是使用SPSS,而是用其他工具,該書後面的例子也值得大家研讀。

5R語言學習資料

(1)R語言實戰 豆瓣評分8.8

作者:Robert I.Kabacoff

首先這本書絕對可以擔當日常工具手冊,從基本操作,數據處理,數據建模,圖形展示都給出了非常詳盡的介紹;其次雖然是工具手冊,但是能夠結合基本統計知識於簡單案例,具有很強實踐性,強烈建議各位把書中的代碼都實現,相信能夠大大提升R的功力。最後說一句,此書翻譯得不錯。


(2)AnIntroduction to Statistical Learning(統計學習導論) 英本版豆瓣評分9.5,中文版7.6

作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman

此書被廣大人民群眾稱為ISL,沒錯,就是上面ESL的入門版本。無論作為統計教材推薦還是R語言教材推薦都稱得上5星的讀物。ISL雖然是入門版本,但是絕對不是因為內容簡單。深入淺出,內容詳細,常常讀完有種恍然大悟的感覺,同時能夠結合R語言介紹,大大的加分。

最後厚顏無恥地介紹我個人的公眾號,wetalkdata,定期更新數據分析,數據挖掘方法,Statistics以及Modeler操作指南(比幫助手冊更詳細),而且還有送書活動!

http://weixin.qq.com/r/KEhPVwXE2VimrUE09x06 (二維碼自動識別)


我們按照概率論數理統計→數據分析→數據挖掘→非參數統計→機器學習這一由淺入深的學習路徑,整理了17本值得推薦的國內外書籍。

第一階段:概率論數理統計

剛入門的新人需掌握基礎概率論、數理統計、高等代數、微積分等知識。其中,高等代數和數學分析是數據分析與挖掘的基礎。

學習時,重點理解知識點背後的原理,並能夠用平實的語言描述主要方法和理論。推薦閱讀以下3本書籍。


1. Mathematical Statistics and Data Analysis

推薦指數:

推薦理由: 美國本科生常用的數理統計與數據分析教材,是一本經典詳盡的統計學入門書,基於簡單的微積分,可以培養讀者的統計直覺。對學習者的數學要求是能夠熟練掌握高等代數,會多重積分。本書強調了數據分析、圖形工具和計算機技術,並注重統計的實務和應用

購買地址:https://item.jd.com/1189924923.html


2. All of Statistics: A Concise Course in Statistical Inference

推薦指數

推薦理由:大牛之作,卡內基梅隆大學(CMU)的Larry Wasserman寫的統計學概要,深入淺出,薄薄的一本(不到200頁),適合有一定數學基礎的初學者。作者的文風清楚易懂,將重點放在統計概念的闡述上,而不是繁瑣複雜的數學證明,同時涉及一些基本的統計與學習模型。

本書需要讀者了解微積分和線性代數的知識,對概率論和統計知識沒有要求。

美中不足是文本中有些錯誤之處,閱讀時可以參考本書上的正誤表。

購買地址:https://item.jd.com/1136652750.html


3. Introduction to Probability and Statistic

推薦指數:

推薦理由: 概率論與數理統計的經典教材,對了解基礎概率論和統計知識很有幫助。作者在這本書中強調了用概率學洞察數學分析的方式,最終得到一種對常用數學分析法最直觀的理解方式。從書中的練習以及舉的案例可看出概率論是如何應用在日常工作中的。

購買地址:https://item.jd.com/1109412486.html

第二階段:數據分析

本階段需要學習概率統計、拓撲學、數值逼近、泛函分析、數學建模等知識。

學習時重點應該放在從實際數據集出發進行實戰操作以更好的理解方法和原理上。推薦以下2本書籍。


1. 利用Python進行數據分析

推薦指數:

推薦理由基於python語言介紹了numpy ,pandas等庫的操作,本書中有大量具體的實踐建議,以及大量綜合應用方法。由於作者Wes McKinney是pandas庫的主要作者,所以本書也可以作為利用Python實現數據密集型應用的科學計算實踐指南。

本書適合剛剛接觸Python的分析人員以及剛剛接觸科學計算的Python程序員。

購買地址:https://item.jd.com/11352441.html


2. 數據分析 R語言實戰

推薦指數

推薦理由: 結合R操作介紹了數據分析常用方法,並給出很多案例以備實戰模擬。本書側重於使用R進行數據的處理、整理和分析,重點講述了R的數據分析流程、演算法包的使用以及相關工具的應用。

購買地址:https://item.jd.com/11511540.html

第三階段:數據挖掘

學習數據挖掘,需要掌握微積分、線性代數、條件概率(樸素貝葉斯模型)、資料庫、編程語言等知識其中,線性分析是數據挖掘中最重要的一個環節。學習時,應著重數學推導原理並結合編程理解掌握各種方法。推薦閱讀以下4本書籍。


1. Data Mining, Concepts and Techniques

推薦指數

推薦理由:美國伊利諾伊大學香檳分校(UIUC) CS大牛Jiawei Han, Micheline Kamber及 西蒙弗雷澤大學 (SFU)教授Jian Pei合著的數據挖掘經典教科書,必讀系列之一。

本書主要是從數據管理和數據計算的角度給大家講解數據挖掘。該書對數據挖掘基本概念,演算法及其相關技術有比較全面的闡述,是國內大多數高校上課指定教材。

購買地址:https://item.jd.com/1098396840.html


2. Data Mining, the Textbook

推薦指數:☆

推薦理由:深入淺出介紹數據挖掘方法,是必備的教材。此書探索了數據挖掘的不同方面,從基礎知識到複雜的數據類型及其應用。除傳統數據挖掘問題之外,它還介紹了高級數據類型,例如文本、時間序列、離散序列、空間數據、圖數據等。

購買地址:https://item.jd.com/19701426.html


3. 數據挖掘與R語言實戰

推薦指數

推薦理由:數據挖掘的中級書籍,比較簡單易懂。偏重於實戰,原理比較少,這本書適合急於上手的同學閱讀。

本書在介紹各種數據挖掘方法同時,還介紹了R語言操作,並且在有一定R語言的基礎上引入了機器學習的幾個經典演算法。適合日常工作中用到R語言的同學。

購買地址:https://item.jd.com/11790199.html


4. 數據挖掘與數據化運營實戰 思路、方法、技巧與應用

推薦指數

推薦理由: 諸多數據挖掘書籍中為數不多的穿插大量真實的實踐應用案例和場景的書籍。阿里巴巴BI部門數據分析專家盧輝多年數據挖掘應用實踐經驗結晶,用通俗易懂的「非技術」語言和大量活潑生動的案例展現了數據挖掘與數據化運營的商業實踐。

購買地址:https://item.jd.com/11252775.html

第四階段:非參數統計

非參數統計是儘可能不對統計模型施加假設的情況下進行統計推斷。因其靈活性和普適性而在實踐中廣泛應用,非常值得學習。

需要的知識包括基礎概率論與數理統計、線性回歸等統計方法。學習重點應放在統計原理的理解上,最好可以運用基礎數學及概率論統計知識進行理論推導。推薦閱讀以下2本書籍。


1. All of Nonparametric Statistic

推薦指數

推薦理由:Larry Wasserman同一系列的另一本書,非參數統計概要。這本書主要面向統計學碩士或博士,它也適合於想要快速學習現代非參數方法的研究人員。

這本書要求掌握分布理論,高等代數和數學分析。對於非參數方法包括非參數回歸,非參數密度估計,小波演算法等都有介紹。感興趣的同學可以到CMU Larry Wasserman的網站上找到課程視頻和資料。

購買地址:https://item.jd.com/1104426803.html


2. Applied Nonparametric Statistical Methods

推薦指數

推薦理由:應用非參數統計方法這本書中有許多應用介紹,對非參數統計的應用感興趣的同學可以看這一本。

購買地址:https://item.jd.com/1197472932.html

第五階段:機器學習

本階段需要熟練掌握統計方法。學習時,既要能夠熟練進行數學理論推導,同時結合數據集進行實戰操作,靈活掌握各種機器學習方法。推薦閱讀以下6本書籍。


1. The Elements of Statistical Learning

推薦指數

推薦理由:斯坦福三位統計鼻祖級教授著作。本書對機器學習各領域的方法都有詳盡的介紹,有電子版,網上也提供一些數據集,可以配合著R操作來學習,熟練R的同時,掌握各種機器學習方法。

學習時,可以考慮將重要方法進行數學推導以理解原理,並結合數據集進行R編程操作。

購買地址:https://item.jd.com/1132486430.html


2. 機器學習

推薦指數:☆

推薦理由:作者周志華教授是人工智慧大牛,也是國際上人工智慧獎項「大滿貫」 Fellow華人第一人。這是一本非常值得推薦給機器學習入門者梳理知識以及機器學習從業者的書。

書本的印刷質量不錯,語言表達與思維邏輯也很清晰,內容涵蓋了絕大多數熱門演算法與模型。此書的結構基本與《elements of statistical learning》相同,不想看英文版的同學可以看這本。

購買地址:https://item.jd.com/11867803.html


3. 統計學習方法

推薦指數:☆

推薦理由:李航老師力作,李航老師曾任微軟亞洲研究院高級研究員及主任研究員,現任華為諾亞方舟實驗室首席科學家。

這本書以乾貨為主,書中沒有多餘的例子與解釋,很多都是從問題定義直接開始,到演算法,到分析。書中例子、推導、演算法相對比較難,很有必要仔細閱讀

購買地址:https://item.jd.com/10975302.html


4. Pattern Recognition and machine learning

推薦指數

推薦理由:模式識別的經典教材,講得比較淺顯,算是機器學習的初級書籍。這本書較輕為全面介紹了模式識別和機器學習領域,需要掌握一些多變數微積分和基本線性代數的知識。

本書有大段描述性文字,常用文字代替數學公式去描述原理。大家可以自己嘗試數學推導。

購買地址:https://item.jd.com/1104430003.html


5. Python語言構建機器學習系統

推薦指數

推薦理由: 機器學習的初級書籍,對機器學習中的聚類、分類、降維等熱點話題進行了介紹,並介紹了相應的python操作。本書可以幫助你進入應對正式而真實的數據集項目環節,運用建模技術,創建推薦系統,並介紹了主題建模、籃子分析和雲計算等高級主題。這些內容將拓展你的能力,讓你能夠創建大型複雜系統。

購買地址:https://item.jd.com/10253243790.html


6. 統計學習導論 基於R應用

推薦指數

推薦理由: 統計學習的入門書,通俗易懂,號稱是ESL的入門版。本書介紹了機器學習的方法,R的例子講的也很實用,並給出很多R程序,適合有編程需求的同學。

購買地址:https://item.jd.com/10378098942.html


最後強調一點,所有的學習重點最終應該放到實踐上。不論是數學推導促進理論的理解,還是編程對數據集進行分析和挖掘以應用理論,動手是非常重要的,需要在實踐中總結經驗並完善加深自己對各種統計理論的理解。

祝大家學習愉快!


感謝京東金融量化運營部提供回答,答者是位死活不想暴露名字的芝加哥大學統計系博士。


有youtube常青藤名教授的免費上課視頻,為何不先睹為快???一個教授給你上課的時候,肯定是會推薦書給你的。當然了,翻牆是樓主suppose你們需要擁有的基本生存技能。
先放鏈接再闡述我對數據科學進擊之路的理解。(註:以下視頻是樓主自己在學習的,因此多為graduate course,僅作演示目的)
1,Machine Learning by Prof. Nando de Freitas, 此視頻是其在UBC時13年所錄,後來跳槽去牛津計算機系了。
https://www.youtube.com/playlist?list=PLE6Wd9FR--EdyJ5lbFl8UuGjecvVw66F6

2,Deep learning at Oxford 2015 by Prof. Nando de Freitas, 跳槽到牛津所錄。
https://www.youtube.com/playlist?list=PLE6Wd9FR--EfW8dtjAuPoTuPcqmOV53Fu

3,Probabilistic Graphical Models by Daphne Koller, 斯坦福大學計算機系教授
https://www.youtube.com/playlist?list=PL50E6E80E8525B59C

簡單的說,原理和基礎都在數學這邊。
線性代數(矩陣表示和運算)是基礎中的基礎,微積分(求導,極限);
數據處理當然需要編程了,因此C/C++/Python任選一門,數據結構可以學學,只是讓你編程更順手,但是編程不是數據處理的核心。
Mid-level的課程,概率論+統計(很多數據分析基於統計模型),線性規劃+凸優化(統計到最後也還是求解一個優化問題,當然也有純優化模型不用統計模型的)
再高階的課程,就是些研究生的課程了,就比較specific了,可以看你做的項目再選擇選修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其實機器學習,學的都是一些統計和優化),圖像處理,deep learning, 神經網路,等等等等。

學到Mid-level,然後做幾個實際項目,就能上手咯。要讀Phd搞科研,才上高階的。
至於書,沒有特別推薦的,但是建議看英文原版。或者,直接翻牆Youtube看視頻課程,很多國際知名教授都很無私地把自己上課的視頻放在youtube上免費學習。

比如,海德堡HCI 的Fred,圖像處理課程:
https://www.youtube.com/playlist?list=PLuRaSnb3n4kSgSV35vTPDRBH81YgnF3Dd

更詳細回答,參見:
想學數據分析需要學哪些課程? - Ruobing Shen 的回答

關於我對最優化理論在諮詢行業的應用,參見

Data Science/Analytics 出身,可以在諮詢行業做些什麼? - Ruobing Shen 的回答

最好按照慣例廣告一波:

歐洲、北美、全球留學及數據科學深度私人定製諮詢,從此DIY - Ruobing Shen的文章 - 知乎專欄


2本書讓我明白什麼是、如何做數據挖掘。
1、數據挖掘概念與技術。從基礎上,講解各種演算法與原理。
2、數據挖掘與數據化運營實戰。以一個阿里巴巴數據運營從業人員的角度,講解電子商務中,如何利用數據進行數據化運營來創造價值。
PS:不要去收藏一長串的書單,只會讓你覺得無助與恐懼。認真看完這兩本書後,你自然會明確下一步自己需要看的是什麼書。


數據分析方面,推薦一本書吧:大前研一寫的《思考的技術》。
一切分析(包含數據分析)的目標,肯定是為了展示、定位和解決問題,而發現問題的過程,要遵循嚴格的邏輯(業務邏輯、商業邏輯等)。大前的這本書不會教你數據分析的「術」,但是會教你解決問題的邏輯。而這是數據分析的出發點。
如果時間有限,這本書可以只看前半部分。


給自己打個廣告吧,結合自己多年工作經驗寫的!
《從1開始 數據分析師成長之路》
相較於通俗讀物類的數據分析更加專業化,也不像舶來品那樣不接地氣。
書本小樣:https://pan.baidu.com/s/1jIymBKM
各大電商網站均有銷售。


我是最近三年在美國進入到數據分析領域的。這個領域變化很快,我來推薦幾本目前在美國比較火的、自己看過也受益匪淺的。

如果是Business背景想入門數據分析我推薦Data Science For Business。

如果是通過R來學數據分析的話 推薦 R in Action和Practical Data Science with R.


騰訊大數據知乎平台自開通以來,不時獲邀回答關於大數據入門和大數據書籍、工具的推薦等問題,我們也非常希望與大數據愛好者們分享一些經驗和乾貨。
本次我們邀請到了一位騰訊內部資深數據分析師,他將會為大數據入門者推薦相關書籍,同時也會系統地為大家講解數據分析師需要掌握的相關知識技能,最後分享一些他作為數據分析師的個人心得,希望能對大家在學習數據分析的過程中有所幫助。

一、數據分析師有哪些要求?

下圖是數據分析師認證的基本內容(http://cda.pinggu.org/view/3.html),1至3級,從低到高。概括起來四點要求:

1、理論要求及對數字的敏感性,包括統計知識、市場研究、模型原理等。

2、工具使用,包括挖掘工具、資料庫、常用辦公軟體(excel、PPT、word、腦圖)等

3、業務理解能力和對商業的敏感性。對商業及產品要有深刻的理解,因為數據分析的出發點就是要解決商業的問題,只有理解了商業問題,才能轉換成數據分析的問題,從而滿足部門的要求。

4、彙報和圖表展現能力。這是臨門一腳,做得再好的分析模型,如果不能很好地展示給領導和客戶,成效就大打折扣,也會影響到數據分析師的職業晉陞。

二、請把數據分析作為一種能力來培養

從廣義來說,現在大多數的工作都需要用到分析能力,特別是數據化運營理念深入的今天,像BAT這樣的公司強調全員參與數據化運營,所以,把它作為一種能力培訓,將會讓你終生受益。

三、從數據分析的四個步驟來看清數據分析師需具備的能力和知識:

數據分析的四個步驟(這有別於數據挖掘流程:商業理解、數據理解、數據準備、模型搭建、模型評估、模型部署),是從更宏觀地展示數據分析的過程:獲取數據、處理數據、分析數據、呈現數據。

(一) 獲取數據

獲取數據的前提是對商業問題的理解,把商業問題轉化成數據問題,要通過現象發現本質,確定從哪些緯度來分析問題,界定問題後,進行數據的採集。此環節,需要數據分析師具備結構化的思維和對商業問題的理解能力。

推薦書籍:《金字塔原理》、麥肯錫三部曲:《麥肯錫意識》、《麥肯錫工具》、《麥肯錫方法》

工具:思維導圖、mindmanager軟體

(二) 處理數據

一個數據分析項目,通常數據處理時間佔70%以上,使用先進的工具有利於提升效率,所以盡量學習最新最有效的處理工具,以下介紹的是最傳統的,但卻很有效率的工具:

Excel:日常在做通報、報告和抽樣分析中經常用到,其圖表功能很強大,處理10萬級別的數據很輕鬆。

UltraEdit:文本工具,比TXT工具好用,打開和運行速度都比較快。

ACCESS:桌面資料庫,主要是用於日常的抽樣分析(做全量統計分析,消耗資源和時間較多,通常分析師會隨機抽取部分數據進行分析),使用SQL語言,處理100萬級別的數據還是很快捷。

Oracle、SQL Sever:處理千萬級別的數據需要用到這兩類資料庫。

當然,在自己能力和時間允許的情況下,學習新流行的分散式資料庫及提升自身的編程能力,對未來的職業發展也有很大幫助。

分析軟體主要推薦:

SPSS系列:老牌的統計分析軟體,SPSS Statistics(偏統計功能、市場研究)、SPSS Modeler(偏數據挖掘),不用編程,易學。

SAS:老牌經典挖掘軟體,需要編程。

R:開源軟體,新流行,對非結構化數據處理效率上更高,需編程。

隨著文本挖掘技術進一步發展,對非結構化數據的分析需求也越來越大,需要進一步關注文本挖掘工具的使用。

(三) 分析數據

分析數據,需要用到各類的模型,包括關聯規則、聚類、分類、預測模型等,其中一個最重要的思想是對比,任何的數據需要在參照系下進行對比,結論才有意義。

推薦書籍:

1、《數據挖掘與數據化運營實戰,思路、方法、技巧與應用》,盧輝著,機械出版社。這本書是近年國內寫得最好的,務必把它當作聖經一樣來讀。

2、《誰說菜鳥不會數據分析(入門篇)》和《誰說菜鳥不會數據分析(工具篇)》,張文霖等編著。屬於入門級的書,適合初學者。

3、《統計學》第五版,賈俊平等編著,中國人民大學出版社。比較好的一本統計學的書。

4、《數據挖掘導論》完整版,[美]Pang-Ning Tan等著,范明等翻譯,人民郵電出版社。

5、《數據挖掘概念與技術》,Jiawei Han等著,范明等翻譯,機械工業出版社。這本書相對難一些。

6、《市場研究定量分析方法與應用》,簡明等編著,中國人民大學出版社。

7、《問卷統計分析實務---SPSS操作與應用》,吳明隆著,重慶大學出版社。在市場調查領域比較出名的一本書,對問卷調查數據分析講解比較詳細。

(四) 呈現數據

該部分需要把數據結果進行有效的呈現和演講彙報,需要用到金字塔原理、圖表及PPT、word的呈現,培養良好的演講能力。

推薦書籍:

1、《說服力讓你的PPT會說話》,張志等編著,人民郵電出版社。

2、《別告訴我你懂ppt》加強版,李治著,北京大學出版社。

3、《用圖表說話》,基恩。澤拉茲尼著,馬曉路等翻譯,清華大學出版社。

(五) 其他的知識結構

數據分析師除了具備數學知識外,還要具備市場研究、營銷管理、心理學、行為學、產品運營、互聯網、大數據等方面的知識,需要構建完整廣泛的知識體系,才能支撐解決日常遇到的不同類型的商業問題。

推薦書籍:

1、《消費者行為學》第10版,希夫曼等人著,江林等翻譯,中國人民大學出版社,現在應該更新到更高的版本。

2、《怪誕行為學》升級版,艾瑞里著,趙德亮等翻譯,中信出版社

3、《營銷管理》,科特勒等著,梅清豪翻譯,格致出版社和上海人民出版社聯合出版

4、《互聯網思維---獨孤九劍》,趙大偉主編,機械出版社

5、《大數據時代---生活、工作與思維的大變革》,舍恩伯格等著,周濤等翻譯,浙江人民出版社

四、關於數據分析師的職業發展:

1、數據分析師通常分兩類,分工不同,但各有優勢。

一類是在專門的挖掘團隊裡面從事數據挖掘和分析工作的。如果你能在這類專業團隊學習成長,那是幸運的,但進入這類團隊的門檻較高,需要紮實的數據挖掘知識、挖掘工具應用經驗和編程能力。該類分析師更偏向技術線條,未來的職業通道可能走專家的技術路線。

另一類是下沉到各業務團隊或者運營部門的數據分析師,成為業務團隊的一員。他們工作是支撐業務運營,包括日常業務的異常監控、客戶和市場研究、參與產品開發、建立數據模型提升運營效率等。該類型分析師偏向產品和運營,可以轉向做運營和產品。

2、數據分析師的理想行業在互聯網,但條條大道通羅馬,走合適你的路線。

從行業的角度來看:

1)互聯網行業是數據分析應用最廣的行業,其中的電商企業,更是目前最火的,而且企業也更重視數據分析的價值,是數據分析師理想的成長平台。

2)其次是諮詢公司(比如專門的數據挖掘公司Teradata、尼爾森等市場研究公司),他們需要數據分析人才,而且相對來說,數據分析師在諮詢公司成長的速度更快,專業也會更全面。

3)再次是金融行業,比如銀行和證券等行業,該行業對數據分析的依賴需求,越來越大。

4)最後是電信行業(中國移動、聯通和電信),它們擁有海量的數據,在嚴峻的競爭下,也越來越重視數據分析,但進入這些公司的門檻比較高。

五、什麼人適合學習數據分析?

這個問題的答案跟「什麼人適合學功夫」一樣,毫無疑問,功夫是適合任何人學習的(排除心術不正的人),因為能夠強身健體。而功夫的成效,要看習武者的修鍊深淺。常常有人爭論,是詠春拳厲害,還是散打厲害,其實是顛倒了因果,應該看哪個人練習得比較好,流派之間沒有高低,只有人修鍊的厚薄。

實際上,問題的潛台詞是「什麼人學習數據分析,會更容易取得成功(比如職業成功)」,這個要視乎你的興趣、付出和機遇。但要做到出類拔萃,除了上面三點,還需要一點天賦,這裡的機遇是指你遇到的職業發展平台、商業環境、導師和同事。借用管理大師德魯克的話「管理是可以習得的」,管理並非是天生的,而數據分析能力,也可以後天提升。或許做到優秀,只需要你更加的努力+興趣,而這個努力的過程,也包括你尋找機遇的部分。

六、最後的建議

請再次問問自己,是否真的喜歡數據分析,能否忍受處理數據時的寂寞?如果是,那就開始學習,給你幾條建議。

1、把數據分析作為一種能力培養,讓自己在現在的團隊中展現出良好的數據分析能力,為你以後內部轉崗做好準備。如果內部轉崗不成,你可以考慮跳槽到我之前分析的行業中,但我強烈建議你還是需要把系統開發的編程能力學習好,並且對商業智能系統(BI和CRM)有一定了解,這也許是應聘數據分析的優勢。如果沒有數據分析經驗去應聘,相對會難一些,用人單位會考你統計和數據挖掘模型方面的知識,以及工具使用情況。

2、在公司里找一些有共同愛好的同事一起學習數據分析,平時多請教數據分析做得好的同事,它山之石,可以攻玉。

3、紮實學好一、兩門數據挖掘軟體,基於你有編程的基礎,建議你可以學SAS或者R,同時輔助學習SPSS Modeler。如果沒編程基礎或者希望短期能夠取得成效,那也可以先學習SPSS。SAS+SPSS,基本能夠滿足很大部分企業的需求,三者都會,那更好。

4、要了解公司是如何運營,產品是如何開發的,如何做客戶研究鎖定客戶需求,如何做產品營銷,這些需要不斷工作積累和廣泛的閱讀。

5、開始學習時,先讀幾本有趣的數據分析類的書(如《誰說菜鳥不會數據分析》),然後系統學習一下統計知識(建議教材用《統計學》第五版,賈俊平等編著),接著網上快速搜集軟體操作視頻和案例,然後逐個分析模型進行學習和總結歸納,學習最好能夠結合實際工作中的問題進行。

6、學習到一定程度時,參加一些數據分析師的職業認證,進一步梳理知識結構,同時認識一些志同道合的朋友和老師,也是對你有很大幫助。

歡迎關注其個人微信公眾號:數據的力量(微信號:shujudeliliang)


最近整理的關於數據分析師的工作內容及知識體系:知乎專欄


推薦的書籍太多往往會沉入書海,推薦一些價值比較高的書。

1、側重於業務性的數據分析:

《誰說菜鳥不會數據分析》、《數據化管理:洞悉零售及電子商務運營》

2、側重於網站分析的數據分析:

《流量的秘密》、《網站數據分析實戰》

3、側重於數據挖掘的書籍:

《數據挖掘與數據化運營實戰 思路、方法》、《數據挖掘 概念與技術》

4、側重於python/R的工具書:

《使用python進行數據分析》、《R語言實戰》

5、側重於數據可視化的書:

《excel圖表之道》、《R數據可視化手冊》


推薦一本書《Python Machine Learning》,目前已經看完了chapter1-7、chapter10。全書共13個章節。
--------------------------------------------------------------------------------------------------------------------------------
該書主要使用sklearn的class來訓練、評估演算法以及調整參數。使用sklearn實現演算法前,作者多會自己寫個簡單的演算法實現幫助理解。

該書源代碼都是用Python語言寫的,因此需要一定的Python基礎,另外演算法的訓練數據多是矩陣形式的,需要對線性代數有一定的了解,如果之前就有Matlab矩陣運算的基礎就更好了。

該書另一大特色就是數據的可視化,使用matplotlib庫進行原始數據的探索、learning curve以及validation curve的可視化、模型評估中ROC曲線的可視化、residual(殘差)的可視化等等。

各章節的簡單介紹(請尊重作者的勞動成果,購買正版。)
chapter 1. Giving Computers the Ability to Learn from Data
簡單介紹了三種不同類型的機器學習:使用supervised learning進行預測、使用reinforcement learning解決交互問題以及使用unsupervised learning發現隱藏的數據結構,介紹了數據挖掘基本的術語和符號以及構建機器學習系統的roadmap。

chapter 2. Training Machine Learning Algorithms for Classification
介紹了Artificial neurons、perceptron(局限性比較大的感知機演算法)和Adaptive linear neurons演算法(使用gradient descent也就是梯度下降來最小化cost function)以及具體的演算法實現。

chapter 3. A Tour of Machine Learning Classifiers Using Scikit-learn
介紹了各種分類演算法以及具體的實現:演算法包括Logistic regression、support vector machines、kernel support vector machines(用來解決非線性問題)、decision tree learning(CART)、K-nearest neighbors。其中作者還穿插介紹了各演算法的優缺點。

Chapter 4. Building Good Training Sets – Data Preprocessing
介紹了如何進行數據的預處理,包括缺失值處理,分類數據的處理、樣本數據的拆分(按一定比例隨機拆分為training set和test set)、基於min-max scaling以及 standardize的features scaling(特徵縮放)、基於L1 regularization spare matrix以及Sequential backward selection(SBS)的 feature selecting(特徵的取捨)、使用random forest來評估各feature的重要程度

Chapter 5. Compressing Data via Dimensionality Reduction
介紹了使用PCA(Principal component analysis)以及LDA(linear discriminant analysis)來進行降維,使用kernel pca來進行非線性的映射。

要去搬磚了。待續。
--------------------------------------------------------------------------------------------------------------------------------
關於作者Sebastian Raschka:
Sebastian Raschka is a PhD student at Michigan State University, who develops new computational methods in the field of computational biology. He has been ranked as the number one most influential data scientist on GitHub by Analytics Vidhya. He has many years of experience with coding in Python and he has conducted several seminars on the practical applications of data science and machine learning. Talking and writing about data science, machine learning, and Python really motivated Sebastian to write this book in order to help people develop data-driven solutions without necessarily needing to have a machine learning background.

該書的亞馬遜網站鏈接:
https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130/ref=sr_1_1?ie=UTF8qid=1484186060sr=8-1keywords=python+machine+learning
https://www.amazon.cn/dp/B00YSILNL0/ref=sr_1_1?ie=UTF8qid=1484186381sr=8-1keywords=python+machine+learning

亞馬遜中國上這本書有kindle電子書版的,100多塊,電腦下個kindle軟體就可以看了,kindle軟體能做筆記,劃重點。紙質書要500多塊。

美國亞馬遜該書的截圖如下(外文書可以先到亞馬遜上看看評價):


--------------------------------------------------------------------------------------------------------------------------------
需要的軟體支持:Anaconda
Anaconda下載地址:https://www.continuum.io/downloads, 外國網站下載會比較慢,可以將下載鏈接複製後在迅雷離線中打開即可快速下載。
下載安裝Anaconda後,會自動安裝好Spyder,可以用來運行python程序。Anaconda已經自動安裝了pandas、sklearn、matplotlib、 numpy、scipy之類的數據挖掘包。
--------------------------------------------------------------------------------------------------------------------------------


推薦閱讀:

如何評價《怪誕行為學》?
2013 年你看過哪些值得推薦的好書?
有哪些心理學入門的書推薦?

TAG:書籍推薦 | 數據挖掘 | 數據分析 |