機器學習,數據挖掘的書有哪些?


update : 之前很多鏈接用不了了,我把部分書籍放在我的github上了,大家可用從這裡下。

wq19901103wq/todo

下面轉的,不完全贊同,有些書我覺得沒啥意思,比如數學之美只能算科普讀物,集體智慧編程讀完了也只能忽悠完全不懂的人。另外我想多加一本Machine Learning: A Probabilistic Perspecitive。

入門書單

《數學之美》 PDF

作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。

《Programming Collective Intelligence》(《集體智慧編程》)PDF


者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data
Solutions》(《數據之美:解密優雅數據解決方案背後的故事》)的作者。這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門
書。目前中文版已經脫銷,對於有志於這個領域的人來說,英文的pdf是個不錯的選擇,因為後面有很多經典書的翻譯都較差,只能看英文版,不如從這個入手。
還有,這本書適合於快速看完,因為據評論,看完一些經典的帶有數學推導的書後會發現這本書什麼都沒講,只是舉了很多例子而已。

《Algorithms of the Intelligent Web》(《智能web演算法》)PDF


者Haralambos Marmanis、Dmitry
Babenko。這本書中的公式比《集體智慧編程》要略多一點,裡面的例子多是互聯網上的應用,看名字就知道。不足的地方在於裡面的配套代碼是
BeanShell而不是python或其他。總起來說,這本書還是適合初學者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細看代
碼,了解演算法主要思想就行了。

《統計學習方法》 PDF


者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高級研究員,現在華為諾亞方舟實驗室。書中寫了十個演算法,每個演算法的介紹都很乾脆,直接上公
式,是徹頭徹尾的「乾貨書」。每章末尾的參考文獻也方便了想深入理解演算法的童鞋直接查到經典論文;本書可以與上面兩本書互為輔助閱讀。

《Machine Learning》(《機器學習》) PDF


者Tom
Mitchell是CMU的大師,有機器學習和半監督學習的網路課程視頻。這本書是領域內翻譯的較好的書籍,講述的演算法也比《統計學習方法》的範圍要大很
多。據評論這本書主要在於啟發,講述公式為什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML。但有些基礎的經典還是不會過時的,所以
這本書現在幾乎是機器學習的必讀書目。

《Mining of Massive Datasets》(《大數據》) PDF


者Anand Rajaraman[3]、Jeffrey David
Ullman,Anand是Stanford的PhD。這本書介紹了很多演算法,也介紹了這些演算法在數據規模比較大的時候的變形。但是限於篇幅,每種演算法都
沒有展開講的感覺,如果想深入了解需要查其他的資料,不過這樣的話對演算法進行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤,勘誤表比
較長,讀者要用心了。

《Data Mining: Practical Machine Learning Tools and Techniques》(《數據挖掘:實用機器學習技術》) PDF


者Ian H. Witten 、Eibe
Frank是weka的作者、紐西蘭懷卡託大學教授。他們的《ManagingGigabytes》[4]也是信息檢索方面的經典書籍。這本書最大的特點
是對weka的使用進行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經典的入門書籍如《集體智慧編程》、《智能web演算法》已經很經典,學習
的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的演算法。

《機器學習及其應用》


志華、楊強主編。來源於「機器學習及其應用研討會」的文集。該研討會由復旦大學智能信息處理實驗室發起,目前已舉辦了十屆,國內的大牛如李航、項亮、王海
峰、劉鐵岩、余凱等都曾在該會議上做過講座。這本書講了很多機器學習前沿的具體的應用,需要有基礎的才能看懂。如果想了解機器學習研究趨勢的可以瀏覽一下
這本書。關注領域內的學術會議是發現研究趨勢的方法嘛。

《Managing Gigabytes》(深入搜索引擎)PDF

信息檢索不錯的書。

《Modern Information Retrieval》 PDF

Ricardo
Baeza-Yates et al.
1999。貌似第一本完整講述IR的書。可惜IR這些年進展迅猛,這本書略有些過時了。翻翻做參考還是不錯的。另外,Ricardo同學現在是Yahoo
Research for Europe and Latin Ameria的頭頭。

《推薦系統實踐》 PDF

項亮,不錯的入門讀物

深入

《Pattern Classification》(《模式分類》第二版) PDF

作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作,但對最近呈主導地位的較好的方法SVM、Boosting方法沒有介紹,被評「掛一漏萬之嫌」。

《Pattern Recognition And Machine Learning》 PDF


者Christopher M.
Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評「具有強烈的工程氣息,可以配合stanford 大學 Andrew
Ng 教授的 Machine Learning 視頻教程一起來學,效果翻倍。」

《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《統計學習基礎:數據挖掘、推理與預測》第二版) PDF


者RobertTibshirani、Trevor Hastie、Jerome
Friedman。「這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient
Boosting提出了理解Boosting方法的新角度,極大擴展了Boosting方法的應用範圍。這本書對當前最為流行的方法有比較全面深入的介
紹,對工程人員參考價值也許要更大一點。另一方面,它不僅總結了已經成熟了的一些技術,而且對尚在發展中的一些議題也有簡明扼要的論述。讓讀者充分體會到
機器學習是一個仍然非常活躍的研究領域,應該會讓學術研究人員也有常讀常新的感受。」[7]

《Data Mining:Concepts andTechniques》(《數據挖掘:概念與技術》第三版) PDF


者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian
Pei,其中第一作者是華裔。本書毫無疑問是數據挖掘方面的的經典之作,不過翻譯版總是被噴,沒辦法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東
西,就好好學習英文吧。

《AI, Modern Approach 2nd》 PDF

Peter Norvig,無爭議的領域經典。

《Foundations of Statistical Natural Language Processing》 PDF

自然語言處理領域公認經典。

《Information Theory:Inference and Learning Algorithms》 PDF

《Statistical Learning Theory》 PDF

Vapnik的大作,統計學界的權威,本書將理論上升到了哲學層面,他的另一本書《The Nature ofStatistical Learning Theory》也是統計學習研究不可多得的好書,但是這兩本書都比較深入,適合有一定基礎的讀者。

數學基礎

《矩陣分析》 PDF

Roger Horn。矩陣分析領域無爭議的經典

《概率論及其應用》 PDF

威廉·費勒。極牛的書,可數學味道太重,不適合做機器學習的

《All Of Statistics》 PDF 掃描版PDF 高清版

機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。

《Nonlinear Programming, 2nd》 PDF

最優化方法,非線性規劃的參考書。

《Convex Optimization》 PDF配套代碼

Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套代碼,是一本不可多得的好書。

《Numerical Optimization》 PDF

第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。

《Introduction to Mathematical Statistics》 PDF

第六版,Hogg著,本書介紹了概率統計的基本概念以及各種分布,以及ML,Bayesian方法等內容。

《An Introduction to Probabilistic Graphical Models》 PDF

Jordan著,本書介紹了條件獨立、分解、混合、條件混合等圖模型中的基本概念,對隱變數(潛在變數)也做了詳細介紹,相信大家在隱馬爾科夫鏈和用Gaussian混合模型來實現EM演算法時遇到過這個概念。

《Probabilistic Graphical Models-Principles and Techniques》 PDF

Koller著,一本很厚很全面的書,理論性很強,可以作為參考書使用。

具體數學 PDF

經典

歡迎補充。


如果你有一些功底, 建議去看Murthy寫的

Machine Learning: A Probabilistic Perspective


1. 《機器學習》 作者:Mitchell T.M.

2. 《統計學習理論的本質》 作者:瓦普尼克

3. 《模式識別(第4版) 》 作者:Sergios Theodoridis

4. 《數學建模(英文影印精編版.第4版)》 作者:Frank R. Giordano

5.《統計學習理論》 作者:瓦普尼克

6. 《統計自然語言處理基礎》 作者:Hinrich

6. 《支持向量機導論》 (英文版) 作者:克里斯蒂亞尼

7. 《統計學習基礎:數據挖掘、推理與預測》 作者:Trevor Hastie

8. 《神經網路與機器學習(英文版第3版)》 作者:Simon Haykin

9. 《模式分類(原書第2版)》(建議英文版) 作者:richard o.duda

10. 《統計自然語言處理》 作者: 宗成慶

11. 《Pattern Recognition and Machine Learning》 作者:Christopher M. Bishop

12. 《集體智慧編程Programming Collective Intelligence》 作者:Toby Segaran

13. 《統計學習方法》作者:李航


太多了,本著全而新的原則推薦如下兩本入門書籍:

機器學習:

Pattern Recognition and Machine Learning, by Christopher M. Bishop

數據挖掘:

Introduction to Data Mining, by Pang-Ning Tan, Michael Steinbach

其中第二本有中譯版


機器學習主要幾本,大家肯定都聽說過:

比較常見的幾本有(排名不分先後):

  1. Hastie: &
  2. Bishop: &
  3. Kevin Murphy: &
  4. Mohri: &


機器學習內容涉及廣泛,《高數》、《概率論》、《線性代數》、《矩陣論》、《隨機過程》等內容。

大家如果感興趣這方面的內容,就我目前所學習的過程,寫一些心得。希望幫助大家。

機器學習

機器學習設計內容比較多,演算法眾多,各有特點。首先推薦書吧。

《模式識別與機器學習》

這本書不推薦。這本書是有馬春鵬翻譯的,裡面的內容非常理論化,沒有代碼。雖說挺好的,

但是一般初學者真心駕馭不了!!

《集體智慧編程》

這本書代碼豐富,但是缺少理論。網上對這本書評價還挺好的。但是對於初學者來說,不推薦這本書。

因為這本書太不理論了!!為什麼這麼說呢?因為在代碼中,如果我們不知道理論公式的推導和又來,那麼代碼是如何來的呢?

如果沒有這些理論基礎,即使代碼寫的再好,也不明所以!

《機器學習演算法原理與編程實戰》

這本書是2015年11月出版,比較新。有理論有代碼。我本人買了一本,在學習中。

我比較推薦這本書給初學者。

雖然這本書是我推薦的,但是這本書問題也不少。雖然這本書有理論,但是理論部分太淺,跳躍性太大,初學者難以過度,

看書的過程中,你要搜索大量的內容來支撐書中的內容,這樣才能理解公式的由來和推導。並且,書中不少地方的公式推導,

雖說能看懂,但是明顯符號位置都是錯的,這就需要親手推導一遍看看書中的對,還是自己的對。

雖然這本書優缺點,但是不失為入門學習的比較好的書!

這本書的代碼下載地址:http://www.threedweb.cn/data/attachment/bigupload/MLBook.rar

代碼中包含了本書的全部代碼和實驗數據。還是挺全的。

《機器學習實戰》

這本書也值得推薦。這本書的源碼地址:pbharrin/machinelearninginaction · GitHub

這本書網上評價也挺高的,有理論有代碼有實踐。由於我沒有買書,看的是電子書,個人覺得挺好的。

《數學之美》

這本書強烈推薦!我在很多地方都有看到關於這本書的推薦和評價。相當高。我稍微看了電子檔,貌似代碼實踐比較欠缺,

所以對於初學者不推薦這本書。如果有一定基礎,這本書必看!!

以上是我在話題 [請各位大牛推薦幾本關於「Python 數據挖掘」方面的書??](請各位大牛推薦幾本關於「Python 數據挖掘」方面的書?? - 書籍推薦) 中的答案

希望有所幫助!

PS:不知道怎麼引用我的答案,所以上面內容我是複製過來的。


推薦你看看這個書單機器學習書籍推薦,囊括了機器學習、數據挖掘、模式識別等等以及相關數學基礎的幾乎所有經典書籍。


機器學習:《數據挖掘實用機器學習工具與技術》、《數據挖掘導論》、《機器學習》、,《數據挖掘與機器學習WAKA應用技術與實踐》

Python:《利用Python進行數據分析》、《Python基礎教程》、《Python Cookbook》、《「笨辦法」學Python》

MATLAB:《精通MATLAB》、《MATLAB R2014a從入門到精通》、《MATLAB R2014a完全自學一本通》、《MATLAB寶典》

資料庫:《MongoDB權威指南》、《資料庫系統概念》、《SQL語言與資料庫操作技術大全》、《Oracle從入門到精通》

R語言:《統計建模與R軟體》、《R語言實戰》、《ggplot2數據分析與圖形藝術》、《數據挖掘與R語言》


數據分析方面較經典的書:《輸入淺出數據分析》、《深入淺出統計學》、《精益數據分析》、《Excel應用大全》等

數據挖掘較好的入門的書:《數據挖掘概念與技術》、《Clementine數據挖掘方法及應用》、《信用風險評分卡研究》、《機器學習》、《R語言實戰》、《利用Python進行數據分析》等

歡迎大家補充


韓家煒的《數據挖掘概念、方法與技術》

Tom. Mitchell的《機器學習》

中英文版都有,你可以自己選擇。

機械工業出版社有出版。

西奧多里蒂斯的《模式識別》

電子工業出版社有出版。


推薦閱讀:

哪些書可以真正的讓我們靜下心來思考?
有哪些值得推薦的關於 TMT 行業的書?
有哪些值得推薦的 C 語言入門圖書?
除了「天工開物」和「營造法式」,還有什麼有意思的古書推薦嗎?
有哪些關於現代園林設計思想的書?

TAG:書籍推薦 | 機器學習 |