有哪些你看了以後大呼過癮的數據分析書?

可以包括機器學習, 統計分析等,

理論的, 或者實戰的, 都可以.

鏡像問題:

有哪些你看了以後大呼過癮的編程書? - 知乎


推薦兩本真正意義上的神書,一本是《Pattern Recognition and Machine Learning》(PRML),一本是《Deep Learning》(Ian Goodfellow和Yoshua Bengio寫的那本),絕對符合題主「看了以後大呼過癮」的標準。這兩本書都是屬於「大而全」的類型,兩本書都是從頭到尾講清楚了一個領域的細節。PRML是傳統機器學習,《Deep Learning》是講的最近幾年興起的深度學習。

先說說PRML。之前也看過很多機器學習的書,大多數書講解模型時,都只會講一個在某種情形下簡化的特殊版本。如針對分類的模型,講了一個0-1兩類分類模型就結束了,如何應用到多分類就一筆帶過。再比如回歸模型,也只是講個單變數不帶正則項的最簡化版。至於加什麼正則、為什麼這麼加更是很少涉及的話題。而看PRML的感覺就像作者拿著一個放大鏡,帶你從模型的motivation、模型的推導過程、模型的推廣、這個模型和其他模型的聯繫等方方面面講解,而且每一個部分都很詳細,都有非常細緻的推導過程,每步推導過程還都有解釋,這真的是太貼心了。

可能這樣說還是會有人不是很明白,我就舉幾個具體的例子。比如線性回歸,很簡單的人人都懂的: y = w^{T}x ,大多數書會講到 w 的求解就結束了,稍微詳細點的書會告訴你線性回歸的本質是:回歸目標在 x 列向量張成的空間的投影,就是最好的 y ,但也就僅此而已了。PRML里講線性回歸用的式子是 y=wTΦ(x) ,不僅可以講清楚線性回歸的基本原理,而且可以利用 Φ(x)告訴你線性回歸實際上也可以看做一種核方法,這就給之後章節做了鋪墊。PRML還推導了以下事情:1. 為什麼多維的y與一維的y在本質上是等價的(從一維到多維的推廣) 2. 加L2正則和L1正則項本質是以不同的先驗分布看待w 3. 為什麼L1正則會產生sparse的結果 4. 對線性回歸的bias-variance decomposition告訴你機器學習中無處不在的tradeoff:bias、variance等等。這樣整個模型才算是學透了。

另外PRML概率圖的那一章寫的真的太棒了,堪稱完美,也是看這一章我才真正搞懂了概率圖模型。寫到這裡請允許我小小的黑一下周志華老師的西瓜書,西瓜書中講概率圖模型時直接就是隱馬爾科夫模型,這樣雖然比較簡潔,但讓人搞不懂概率圖究竟是怎麼定義的、還有隱馬爾科夫模型的圖是怎麼畫出來的。西瓜書上只是說「圖中的箭頭表示了變數間的依賴關係」,然而到底是什麼樣的依賴關係?實在是讓我一頭霧水(隱馬爾科夫確實是一個難點,見過好多人無法理解。。)。直到看到PRML中時我才搞清楚所謂「依賴關係」實際上是變數間的「條件獨立」。PRML中是怎麼樣講概率圖模型的呢?它是從概率論中的條件獨立講起的,相當於是講模型之前先帶你把最重要的基礎知識複習一遍。講完條件獨立後又講了最簡單的三個概率圖: A&<--B--&>C、A--&>B--&>C、A--&>B&<--C。並一一分析了圖中蘊含的條件獨立性,又做了聯合分布的分解。這之後才開始過渡到隱馬爾科夫模型,這樣一步一個台階,非常容易理解。

《Deep Learning》和PRML有點像。同樣也是非常詳細的,就不展開寫了。

說了那麼多,其實我想表達的是:與其對很多模型一知半解,不如真正學懂一個模型,這樣其實是節省時間的。原因在於當你搞懂一個模型後,就算你忘記了某些細節,再次查看資料也可以很快回憶起來。而當你不懂一個模型時,每次回憶都要從零開始,來來回回其實浪費了很多時間。而PRML和《Deep Learning》就是讓你真正理解機器學習演算法的最佳途徑之一,強烈推薦。


推薦幾本:

《An Introduction to Statistical Learning with Applications in R》

介紹了線性回歸、邏輯斯特回歸、支持向量機、boosting等常見模型,入門為主,有詳細代碼;

《Elements of Statistical Learning》

上面那本的加強版,偏重理論推導,參考文獻豐富,適合深入挖掘;

《Applied Predictive Modelling》

適合kaggle競賽,偏應用,講了很多數據清理的內容,有詳細代碼;

《Statistical Learning with Sparsity》

更現代一些,講lasso模型的新發展。

《Computer Age Statistical Inference Algorithms》

講用計算機程序做Inference的方方面面

前三本我看過,除了第3本,其他都是斯坦福統計系的大佬們寫的,斯坦福統計系應該是美國最牛逼的統計系,學數據分析最好的地方,用的也是這些教參。


一、數據分析入門:

  • 《Head First Data Analysis》鏈接:深入淺出數據分析 (豆瓣)

電子工業出版社的經典書目系列,從數據分析基本步驟開始、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、回歸法、誤差處理、相關資料庫、數據整理技巧一一講到。圖比較多,適合入門。

  • 《Head First Statistics》鏈接:深入淺出統計學 (豆瓣)

推薦理由同上,適合入門者的經典教材。

  • 《R in Action-Data Analysis and Graphics with R》鏈接:R語言實戰 (豆瓣)

R是屬於GNU系統的一個自由、免費、源代碼開放的軟體,用於統計計算和統計製圖。這本書從實用的統計研究角度逐例分析R在數據處理、模型構建、以及圖形操作上的由淺入深的結合,堪稱經典。

  • 《數據之魅-基於開源工具的數據分析》鏈接:數據之魅 (豆瓣)

作者是華盛頓大學理論物理學博士。這本書是數據分析的經典之一,包含大量的R語言模擬過程及結果展示,例舉了很多數據分析實例和代碼。

  • 《數據挖掘-市場營銷、銷售與客戶關係管理領域應用》鏈接:數據挖掘技術 (豆瓣)

作者是Data Miners的創辦人,有二十多年的營銷和客戶關係管理結合數據挖掘的經驗。詳細介紹了作為一個數據挖掘團隊需要的知識體系,包括資料庫、SAS使用、統計學、機器學習、數據可視化、如何訪問用戶收集需求、如何寫論文與溝通等等。有條件的建議看英文原版。

  • 《Data Analytics for Beginners: Basic Guide to Master Data Analytics》

入門五星推薦。豆瓣上沒找到,只好附上亞馬遜的鏈接。2016新書,裡面很多圖表實例,手把手教你如何EXCEL畫圖,對各種知識點(平均值,模式,中值,方差,標準偏差)的講解相當的到位,比起大學裡的各種課本靠譜幾何級倍數。

先把這些花時間啃啃,數據分析的理論部分就基本入門了,根據實際情況還需要結合你的業務需求來進行系統的學習。

二、數據分析進階:

  • 《Doing Data Scienc

作者Cathy O』Neil是哈佛大學的博士,MIT的數據博士後,曾今作為一名Quant在對沖基金D.E. Shaw 工作,目前是一家紐約初創公司的Data scientist 。這本書需要有一定的編程和理論基礎,作為入門教材來說有點難,雖然只有400來頁,但是涉及的知識點很全面。每一章節的核心內容都附有編程案例,R/Python/Shell三種語言任君挑選。

  • 《Python for Data Analysis

Python數據分析必看,適合入行不久的數據分析師。作者有多年的Python數據分析工作經驗,對各種Pyhon包iPython,NumPy,pandas,matpotlib等有著很深的理解。看完這本,敲完代碼,Python數據分析就算入行了。

  • 《Data Science for Business

很多牛人為之作序,數據科學如何與商業結合,相信這本書會給你一些啟發。

  • 《Python Data Science Handbook

2016年6月出版的,500頁保質保量,作者(Jake VanderPlas)是華盛頓大學電子科學研究所的高級數據科學研究員,研究領域包括天文統計學、機器學習和可擴展計算。書的前半部分介紹了用於數據分析和一般的科學計算的基本Python庫,後面從實際應用的角度使用Python庫scikit-learn開始機器學習實踐。適合有一定Python基礎人(或者R基礎),並且想學習如何使用Python進行數據分析的人。

  • 《Storytelling with Data

作者Cole NussbaumerKnaflic,私募分析師,前Google人力分析團隊總監。本書展示了如何高效率展示量化資訊,如何用豐富的資料講故事。Google內部的數據可視化課程講師,之前也在Maryland Institute College of Art兼職講師。如果你想知道如何以圖敘事,這本好書不容錯過。

更多文章:預見未來


關於機器學習方面,前面有人推薦了Bishop的PRML,以及Goodfellow的 deep learning, 我深表贊同。

在統計方面,一本非常好的入門級的書是cmu 的的larry wasserman的&。這本書淺顯易懂,覆蓋了統計的方方面面。

另外就是john Rice的&< Mathematical Statistics and Data Analysis&> 。這是一本理論和實戰都講得非常好的書。

統計的中文書我個人非常推崇陳希儒先生的&<概率論與數理統計&>。陳老寫書功底深厚,例子很多,便於入門理解。

概率方面,入門的有jim pitman的&

, 高階的一點的有Cornell的durrent寫的高等概率論。不要輕易嘗試kallenberg的書,那叫一個難啃。

最厲害的是Statistics
by David Freedman, Robert Pisani, Roger Purves. 能夠不用公式和數學就把統計的視野講一遍並幫助不太懂數學的人入門,也只有這本被伯克利奉為奇書的這位了。江湖人稱FPP!

這些都是經典的佳作,值得一讀再讀。


不要擋我,我要回答。

2017-6-3更新:

不好意思知友們,本人臨近畢業,騰訊雲學生優惠也到期了,所以下載鏈接取消了,同時也有小夥伴私信我公開地址,任意分享作者的pdf是不好的,於是我就這樣吧。估計要掉粉。。。不過通過我獲得資源,還不如自己尋找資源,我就來詳細介紹一下我尋找pdf資源的方法。

  • Google大法好。

比如我要《Python machine learning》這本pdf,於是我可以這樣:

點開第一個鏈接:

看,我們就下載到了第一本書。所以Google實在是居家必備的搜索方式。有同學問,如何上Google,這就涉及到如何翻牆的問題,小夥伴們自行解決啊,我買的ss代理,80元一年的,具體名稱就不說了,免得有打廣告的嫌疑。

  • 微博

話說微博網盤現在不好使了,但是還是能搜到一些pdf 的。

  • 百度網盤
  • 印象筆記 本人經常逛一些論壇已經技術博客,看見有意思的就使用印象筆記截屏下來,製作成pdf

授人以魚不如授人以漁,希望小夥伴們學會自己搜索信息,自己掌握的才是真正的本領,謝謝大家。


2017-5-28更新:

知友們太給力啦,讓我一個知乎小白不知道說什麼好,而且私信我的同學特別多,於是我就自己做了一個伺服器,將pdf放在了上面,地址見最後,複製文件地址用下載器下載,直接打開很慢,租的1元的騰訊雲伺服器,點完贊再拿啊,謝謝大家。


-------------------我是分割線,以下為回答------------------------------------------------------------------------

首推&,這本書我看了兩個星期,裡面每一行代碼都打過,印象特別深刻,而且特別易懂,準備再看第二遍。

其次就是《Python for data analysis》,這本書可以作為工具書來看,特別棒,覆蓋了很多知識點,在業務中需要的時候翻翻。

第三就是:《Data Science from Scratch First Principles with Python》,這本書真的棒啊,作者從最基礎的線代、概率出發,講解在python中各種數學公式的實現,有代碼,也有解釋,不是教你用庫,對,教你從頭寫一個機器學習演算法,從簡單的邏輯回歸到複雜的神經網路,都有涉及,最後還介紹了大數據中常用的MapReduce,非常清晰。

第四:周志華老師的《機器學習》,就是西瓜書,講解了傳統的機器學習各種演算法的思想,每一章節後面還有小練習,非常棒。

第五:《deep learning》,今年剛出爐的,主要講解了最近火的不行的深度學習。

最後:《Deep learnig with keras》,現在學習深度學習誰不知道keras啊,這本書我看了兩遍,感覺還是不夠,裡面講解了keras使用入門到進階,代碼實現,一應俱全,真實難的的針對小白的書。

還有一些其他的書也是很棒的,我就不一一列舉了,如果知友們有興趣,我會繼續更新的。


Bengio 的 Deep Learning Deep Learning

Bishop 的 PRML Christopher Bishop at Microsoft Research

Jordan 的 Introduction to PGM(不是正式出版的書,但是網上可以搜到)

這三本都(相對)寫得深入淺出,強烈推薦。

另外,強烈推薦林軒田的兩門公開課,機器學習基石和機器學習技法。目前在 YouTube 上面還可以找到。https://www.youtube.com/user/hsuantien/playlists 個人感覺,機器學習基石這門課是我遇到的對機器學習那些基本而抽象的概念(比如 VC dimension)解釋的最好的材料,完爆我上的那次 CMU 10-701(Intro to ML, PhD level)。

Murphy 的 MLAPP https://www.cs.ubc.ca/~murphyk/MLbook/

這本書裡面的錯誤比較多,但是相對要比上面幾本書面面俱到,幾乎所有的(非 Deep Learning)機器學習方法都可以在上面找到。

最後,安利一下自己的讀書筆記 leelabcnbc/book-notes

歡迎大家交流讀書心得。


看過幾本國外大牛寫的關於機器學習實戰類(大多用在data mining方面)的書,以及國內少量理論性的書(主要是眾所周知的西瓜書和藍皮書)。

先說閱讀國外教材總體感受....

「如果你有大把時間的話,可以忽視以下回答,直接轉入scikit-learn: machine learning in Python」

如果能仔仔細細看完,保證你基礎紮實的不要不要的。因為其實我看過的百分之七十的教材都是在部分官方文檔上進行講解,推廣與應用,比如from sklearn...import...,降維啊,如何處理有問題的raw dataset等等。(我看的不多,不排除有更好的書)

如果你不想看官方文檔的話...

推薦教材的來源來:PACKT,O『Reilly,Springer和Apress出版社。其中以PACKT偏多,時不時逛逛PACKT主頁,會有好多Latest Releases書籍和Bestselling eBooks,其中不乏許多數據分析類的書,可以多留個心眼~當然我不是從這上面買的ebook...貴...底下會貼一個免費下載書的網站,其中基本上囊括了上面多位答主提到的好書。

第一本《Hands-On Machine Learning with Scikit-Learn and TensorFlow》

這是我讀的第一本數據分析加深度學習類且覺得過癮的的書。來來回回讀了大概有三遍。

亞馬遜評分:

另外也可以發現....

全書編排思路非常清晰,分為兩部分:The Fundamentals of Machine Learning以及Neural Networks and Deep Learning,前一部分基於sklearn,介紹通用的機器學習演算法,後一部分涵蓋了TensorFlow的多伺服器部署,CNN,RNN,自編碼器,強化學習,非常全面,而且不失深度。本書在第一章綜述之後,在第二章就直接上California Housing Prices數據集,用實例講解了如何對數據進行各種處理、可視化等等,各種注意點寫的非常詳細。後半部分又很好地與目前很火的深度學習、強化學習等對接。另外在每一章最後都有Exercise模塊,考察讀者對每種演算法的理解程度,同時在附錄A中也給出了Exercise Solutions。這本書的Appendix也是一大亮點。不足之處就是沒有介紹Naive Bayes(好吧其實要深入了解貝葉斯可以去看樓上提到的綠皮書,理論部分可以看《Bayesian Reasoning and Machine Learning》)。自己去看就知道了~全書564頁。

第二本書是《Python: End-to-end Data Analysis》

在PACKT官網上屬於Bestselling eBooks。

先說明一下這本書有1501頁...從Module1中如何使用最基本的工具包部分Numpy,Pandas,Matplotlib,PyMongo,sklearn開始,到Module2中的Statistical data analysis and probability以及Web Mining,Database,and Big Data,亦或Selecting Stocks with Financial Data Anaylsis等等,到最後Module3中的機器學習演算法的應用,基本上涵蓋了幾乎所有與數據分析相關的內容。重要的事說三遍:全書1501頁,全書1501頁,全書1501頁。

第三本是《Python Machine Learning Blueprints》

以下是它的目錄以及亞馬遜上一位讀者的feedback:

I"d been working on some personal projects in Python 3 that related to Machine Learning and Natural Language Processing when I saw the author"s post on LinkedIn, so I picked it up. As it happened, it saved me some time and trouble, as well as showed me ways I could have avoided some of the same.
.....
What the author does, successfully, is take a lot of the guesswork and research on the topics in the book and make them easily done by someone with basic Python experience.
I highly recommend this book for anyone that wants to dive into machine learning and is willing to work through the examples - at least the ones that interest them. With code on Github or downloadable from the Publisher"s site, it"s easy to proceed at the reader"s own rate.

與其他一些只講最基本原理和sklearn基本功能的書相比,這本書一看目錄就是那種想讓人躍躍欲試的有木有?全書324頁。

最後一本是《Advanced Machine Learning with Python》

說實話這本書讓我大呼過癮的地方是其中的Further reading部分,包括了許多國外講解演算法的優秀博客、PPT、視頻教程等,就像作者在所說:

At the end of each chapter, I refer you to further reading, in a book or online article, so that you can build a broader base of relevant knowledge. I"d suggest that it"s worth doing additional reading around any unfamiliar concept that comes up as you work through this book, as machine learning knowledge tends to tie together synergistically; the more you have, the more readily you"ll understand new concepts as you expand your toolkit.

比如以下就是第八章Ensemble Methods最後Further reading部分中作者給出的額外閱讀材料:

。 但是至於其他部分的話,作者介紹的PCA,SOM,RBM等在其他資料中也可以看到,大同小異。可看可不看。全書390頁。

---------------------------------------------------------------------------------------------------------------------------------

另外推薦一本樓上沒有提到,但是評價不錯的深度學習方面的教材:

  • 《Fundamentals of Deep Learning: Designing Next-Generation Machine Intelligence Algorithms》(亞馬遜評價很好)

百度網盤裡有上述提到書籍的pdf高清版本,加上其他很多本來自上述四個出版社關於ML和DL的教材。我在另一個回答「面試官如何判斷面試者的機器學習平?」(https://www.zhihu.com/question/62482926/answer/220934995)中貼出過書目截圖以及上面提到的那個電子書免費下載網址。這裡為了方便大家取用就直接把百度網盤鏈接貼出來,喜歡的自己去拿哦不用謝~

電子書下載的兩個網址(可搜索machine learning,data mining等關鍵詞,第一個網站的書幾乎天天更新):

finelybook

https://freeebookdownload.blogspot.jp/

書本資源鏈接:

http://pan.baidu.com/s/1mhU9aQW 密碼:yw0a

以上。如果有看到好的,會繼續更新。

---------------------------------------------------2017.9.14更新----------------------------------------------------

《Large Scale Machine Learning》

這本書在介紹了一般機器學習演算法如何處理數據的基礎上增加了如何對大規模數據進行建模的方法(大數據),也就是如何提升演算法的Scalability,書中對這個概念是這樣解釋的:

A machine learning algorithm is deemed scalable when it can work after an appropriate setup, in case of large datasets. A dataset can be large because of a large number of cases or variables, or because of both, but a scalable algorithm can deal with it in an efficient way as its running time increases almost linearly accordingly to the size of the problem. Therefore, it is just a matter of exchanging 1:1 more time (or more computational power) with more data. Instead, a machine learning algorithm doesn"t scale if it"s faced with large amounts of data; it simply stops working or operates with a running time that increases in a nonlinear way, for instance, exponentially, thus making learning unfeasible.

另外本書也涵蓋了TensorFlow,H20,Vowpal Wabbit,SkFlow,XGBoost,Hadoop,Spark....,是我目前看過的書中覆蓋面最廣的。當然如果對以上幾個領域想更加深入了解可以去finelybook里淘書。亞馬遜上購買的人不多,但是大體上評價還可以。以下是本書一位technical reviewer的評價,指出了與本書相比,一般教材的不足之處。我個人認為還是中肯的:

Many books when their subject is Machine Learning with Python concentrate on a few most known and used libraries to explain Machine Learning tasks and solutions. Although I don"t want to say that such books are useless for readers, they may still leave gaps in understanding of how a certain method or library would work in real-world scenarios. Authors of the book "Large Scale Machine Learning with Python" set up an ambitious goal to teach readers how to solve real-world Machine Learning problems by employing a variety of libraries, frameworks, and tools relying on Python. This advantageously differentiates a given book from many other books on the same subject.

不過貌似源代碼有一些問題...需要自己調一調啦

另外加一個非常好的IT類電子書下載網址:

Free IT eBooks Download


關於數據分析,統計建模肯定少不了講貝葉斯的書籍啊

我推薦兩本我以前剛入門是看的書籍,偏向實戰

貝葉斯思維 統計建模的Python學習法

貝葉斯方法 概率編程與貝葉斯推斷

這兩本書都是python 實戰貝葉斯概率編程的,用到的了numpy/scipy之類的第二本講MCMC 用到了PyMC這個庫,初學者容易眼高手低,比如你看了一些機器學習的書,但最終要還是要落實導動手編程上來。github 上也有書上的源代碼和數據供讀者學習。

《面向機器智能的TensorFlow實踐》

這是我最近讀的一本書,老外寫的tensorflow 入門書籍,由淺入深,一步步的從tensorflow API 基礎和機器學習基礎實現CNN 和RNN,,非常適合上手,看了一兩星期就可以上手tensorflow了。

關於理論書籍,bengio 的deep learning 就挺好的。

希望對大家有所幫助,畢竟實戰才是王道。


我之前這個答案說了不少,

知乎用戶:在數據分析、挖掘方面,有哪些好書值得推薦?

而且裡面不少書上面的同學也都提到了。

但是為什麼看了半天,沒人提到 R for Data Science!

在線版本:

R for Data Science

對於R教主Hadley Wickham,我只想獻上膝蓋。What a beautiful book,這本書的圖,語言和R Code實在是太漂亮了。瞧瞧教主貢獻的這些R包:

&> library(tidyverse)
Loading tidyverse: ggplot2
Loading tidyverse: tibble
Loading tidyverse: tidyr
Loading tidyverse: readr
Loading tidyverse: purrr
Loading tidyverse: dplyr

Hadley是超級大神,是給R裝上渦輪增壓發動機的人。

這本書的github:hadley/r4ds

另外還有一本:

Practical Statistics for Data Scientists: 50 Essential Concepts

這本書和傳統統計學教材,觀點是完全不一樣的。因為這本書的兩個作者來自統計學背景,但是他們有很多年的工業界數據科學家的經驗。這本書不僅講一些高級統計學概念在工業界數據科學上的應用,而且給出了不少處理數據和feature的tricks。另外還給出了一大堆有用的reference,書單,博客地址和講義鏈接。我已經過了兩遍了。

Practical Statistics for Data Scientists: 50 Essential Concepts (9781491952962): Peter Bruce, Andrew Bruce: Books

這本書的github:andrewgbruce/statistics-for-data-scientists


加幾本Python 向的真·入門書吧。

  • Data Science from Scratch: First Principles with Python

手把手教你用Python 實現常見的機器學習模型,生怕你不會,從最基本的概率統計開始教你,遇到稍難一點的都一筆帶過。內容多而淺,適合茶餘飯後翻一翻或新手入門。

  • Python for Data Analysis

入門pandas 首選,繞不過去的入門書,作者是AQR 的前員工。

  • NumPy: Beginner"s Guide

NumPy 入門,著重在金融領域的應用。

  • Building Machine Learning Systems with Python

進階版的關於machine learning 的參考書,如果第一本無法滿足你,看這一本吧。

  • Hands-On Machine Learning with Scikit-Learn and TensorFlow

17年3月才出的一本,評價還不錯,對Scikit-Learn 和TensorFlow 感興趣的朋友可以一試。

不斷補充中。


對於初學者來說,可能看機器學習的mooc更過癮吧!除了大名鼎鼎andrew ng的ml,林軒田的機器學習基礎和技法,我分享我正在看的其它兩門課:

1.華盛頓大學的machine learning specialization

課程地址:Machine Learning | Coursera

共四門課程,優勢是講解非常清晰,事無巨細,作業不難但是很多,絕對是對於看不了PRML,處在絕望邊緣的機器小白打基礎的好課。

2.優達學城的無人駕駛第一學期

課程地址:Self-Driving Car Engineer

主要講深度學習在無人駕駛上的應用,對於想入門DL但望著CNN/RNN不知所措的小白絕對是最好的入門課,實踐項目有用CNN來實現自動駕駛,用HOG+SVM實現車輛識別等等。

放三張圖,分別是這個課程里三個作業,第一個是車輛識別,第二個是車道跟蹤,第三個是最終項目在模擬器里自動駕駛(都是gif,但圖太大了,先上傳靜態圖啦)

順便安利一下我正在學習的華盛頓大學的machine learning筆記,希望能給大家一些幫助。

《Machine Learning》課程筆記索引貼 - 知乎專欄


就這本data science for business...解決絕大多數會技術不會業務的疑難雜症


理論篇:

  1. 周志華的西瓜書《機器學習》 機器學習 (豆瓣),推薦給機器學習入門的人,也可以溫故知新;
  2. 李航的《統計學習方法》統計學習方法 (豆瓣) ,可能需要一定的數學基礎,力推SVM那一章,理論講的無比透徹;
  3. The Elements of Statistical Learning The Elements of Statistical Learning ,網上有電子版,適合當工具書用到的時候在研究。

實戰的:

  1. R語言編程藝術 R語言編程藝術 (豆瓣) ,適合沒有系統學習過編程的讀者,讀者不需要統計學知識或者編程基礎就可以學習到很多高級編程技巧;
  2. R數據可視化手冊 R數據可視化手冊 (豆瓣) ,如果只是想用ggplot2畫幾張圖,參考這本書可以快速幫你找到合適的解決方案;
  3. R語言核心技術手冊 R語言核心技術手冊(第2版) (豆瓣) ,如果前兩本書看了不滿足,想了解更多關於R語言的技巧,這本書是不二的選擇,可以閱讀,同時也是很好的一本需要即查的工具書。

其實實戰類書更適合從頭到尾敲一遍,自然就會了。


其他答案已經提到了,就是這本《統計學習方法》

雖然這本書不厚、外貌也很普通,第一眼以為平淡無奇,但讀了以後發現這本書條理清晰、篇幅不長但通俗易懂,講解相對透徹,總體來說淺顯易懂,蠻適合初學者的,我也買過其他版本的統計學,但相對來說,個人還是比較喜歡這本。推薦

最關鍵性價比可以,才9.8元一本,十塊錢都不到你值得擁有!

PS:通過正規途徑購買本書不止9.8.9.8的大家心裡都懂,放這裡權當一笑

我是在淘寶某書店購買的,此店要晚上七點以後才上線,白天不上線,具體名字就不透露了,有興趣的可以夜裡搜一搜

安利一位博主吧

CSDN的Rachel Zhang,從大學時候就開始關注她,目前她是百度深度學習實驗室RD ,她的博文關於這塊講解的不錯,我這部分也看她的文章比較多。


《精益數據分析》,我司入門必讀書目。網易創始人 CEO 丁磊重磅推薦:《精益數據分析》破除了創業教條」。Clarity CEO 評價《精益數據分析》彌補了精益創業的缺憾。目前已被翻譯成8國語言銷售,內憂100 多位創始人、投資人和創新者的成功創業經驗。

我在個人知乎專欄知乎專欄用戶行為分析中寫過關於此書的讀書筆記,《精益數據分析》讀書筆記(上) | 你孜孜追求的「增長」 可能只是自嗨等。部分內容如下:

對於創業公司來說,不同發展階段都有一個高於一切、需要你集中全部注意力的數字,即 OMTM(One metric That Matters),即第一關鍵指標。精益數據分析的核心思想之一是,確定商業模式和創業階段後,即可跟蹤並優化當前的創業第一關鍵指標。

按照精益數據分析理論,企業的發展經歷移情階段、黏性階段、病毒階段、營收階段、規模化階段,每次進階都有需要破解的「關隘」,這些指標代表你可以進入下一階段的關鍵指標。

你的企業處於哪一階段?如何進入下一階段?

圖1 精益數據分析階段及進入下一階段的關隘

精益數據分析下的三大商業模式——電商、SaaS、媒體

企業指標的關注因商業模式而異,因企業發展階段而異——企業具有多種商業模式,不同商業模式在企業發展的不同階段所關注的指標不盡相同。下面列舉電子商務、SaaS 企業、媒體三種常見的企業類型,其增長的關鍵是什麼?不同發展階段所關注的指標有哪些?

第一,電子商務企業。

電子商務企業,移情階段真正重要的問題是:他們會從你這裡買走等價商品嗎?

電商企業增長的關鍵:他們會找到你的產品,並向他人推薦嗎?

收入的主要來源:交易量。

圖2 電子商務企業不同發展階段應該關注的指標

第二,SaaS 企業。

移情階段真正重要的問題是:用戶會為解決問題付錢嗎?

增長的關鍵:他們會註冊、逗留,並告知他人嗎?

收入的主要來源:活躍用戶。

圖 3 SaaS 企業不同發展階段應該關注的指標

第三,媒體企業。

移情階段真正重要的問題是:他們會反覆參與產品內容嗎?

增長的關鍵:你能將流量提升至可以盈利的狀態嗎?

收入的主要來源:廣告營收。

圖4 媒體企業不同發展階段應該關注的指標

綜上,模式+階段決定了企業應該關注與跟蹤的指標。這幫助企業克服許多公司或項目在早期都會面臨的風險,讓企業產品滿足客戶真實需求,在明確方案等堅定的基礎上發展。

最近因為工作關係(作者阿里斯泰爾·克羅爾會來北京參加2017數據驅動大會),所以一直在讀《精益數據分析》,本人陸續會在知乎專欄用戶行為分析更新心得,敬請關注。


推薦兩個比較適合入門的

1. Introductory Statistics With R: 適合那些需要重新撿起來統計的很多知識並用到實際工作的人, 如果你正好會用到R的話

2. 周志華的西瓜書: 通俗易懂


書不在多夠用就行,下面是我學數據分析看過的幾本書。


首先入門的時候對理論有個基本認識就行,直接造輪子有點難度,不如先用熟練已有的框架。


第一本是 實戰書 機器學習系統設計 (豆瓣)

這本書介紹了演算法,實現的時候使用的sklearn,可以快速上手,參加kaggle練練手。

借用一段這書豆瓣上的評論: 講機器學習理論的經典教材很多,但講經典的理論如何實現的好書就不那麼多了。用python做機器學習的書,《集體智慧編程》《機器學習實戰》算是佼佼者,但這些書都是講的怎麼自己造輪子。而造出來的輪子在實際工程中,幾乎是沒有實用價值的。

實際做機器學習項目時,用的往往都是現成的高效模型,或在這些模型基礎上做一些改進。如用python做機器學習,常會用到scikit-learn、numpy、scipy、matplotlib這些庫,但除了官方文檔,幾乎沒有書系統的闡述這些東東的工程級應用。這本書的出現,填補了這一空白。


第二本 機器學習理論書 統計學習方法 (豆瓣)

有了實戰的經驗,可以開始搞一下理論,這本書理論介紹的深入淺出,很適合入門學習理論。


第三本 線性代數及其應用 (豆瓣)

沒看這本書之前,我一直沒理解線性變換的本質,行列式的意義。看完這本書後,對線性代數的理解至少高了幾個層次。這本書從幾何上解釋了線性變換,思路十分清晰,大量的插圖,看著不枯燥。書本上的應用題都是線性代數在工程上的應用,包括PCA一類的機器學習應用。


第四個 推薦台灣大學的高等微積分 - 臺大開放式課程 (NTU OpenCourseWare)。雖然不是書,但是這個視頻能重新讓你認識微積分,對數學思維有個洗禮。我能感受這位老先生對數學的痴迷,和講課的藝術。

第一節課就告訴你什麼是數學,數學是怎麼以公理為基石,建立出來定理。

然後介紹歐幾里得幾何的公理體系,然後在改變一條公理後,如何得到新的幾何體系。

喜歡他課堂里的一句話,感覺是每個理工科學生在學習的道路上都會遇到的問題。

虛虛實實,有形無形,本是事物呈現的一種形式,放棄自己的執著,慧眼才能萌生,才能感悟到事物的本質。

他講課的思路非常有邏輯。比如微積分的定理的層次關係。

他先從上到下證明,給你一個初步的認知。然後從下往上證明,體現了數學的各個層次的抽象。


然後 偏個題,再推薦一本我喜歡的書。哥德爾、艾舍爾、巴赫 (豆瓣)。


推薦幾本淺顯易懂的統計學的書籍,針對小白用戶,大牛請忽略:


「Discovering Statistics Using R, Andy Field」

「Discovering Statistics Using IBM SPSS Statistics」, Andy Field

(這兩本作者是心理學背景,針對數學背景不強的社會科學研究者,基本上是面向零基礎讀者的。)


《深入淺出統計學》

《深入淺出數據分析》

(延續了「深入淺出(Head first)」系列形象生動的優點)


《統計學:從數據到結論》吳喜之

《統計學》賈俊平

(中文教科書裡面的佳作)


如果只是想解決應用問題的話,sk-learn user guide就很好。1000頁左右,例子很豐富。讀3遍足夠了。


《精益數據分析》


推薦閱讀:

吳恩達 (Andrew Ng) 是一個怎樣的人?
偏差和方差有什麼區別?
微軟識花是怎麼實現的?
機器學習&數據挖掘方向的計算機研究生該如何整體提升自己的技術水平?
最數學的計算機科學方向有哪些?

TAG:書籍推薦 | 統計學 | 數據分析 | 機器學習 | 深度學習(Deep Learning) |