機器學習書籍選擇?

求推薦有詳細演算法推導的機器學習書籍或者數據挖掘書籍?


推薦的話還是聽聽業內人士說的建議吧。

現在北京大學的張志華教授曾經在2017年的《中國計算機學會通訊》上發表了《機器學習的發展歷程及啟示》[1],這篇文章里就很詳細地推薦了機器學習的學習方式——

機器學習集技術、科學與藝術於一體,它有別於傳統人工智慧,是現代人工智慧的核心。它牽涉到統計、優化、矩陣分析、理論計算機、編程、分散式計算等。因此,建議在已有的計算機專業本科生課程的基礎上,適當加強概率、統計和矩陣分析等課程,下面是具體課程設置和相關教材的建議 :

1.加強概率與統計的基礎課程,建議採用莫里斯·德格魯特 (Morris H. DeGroot) 和馬克·舍維什 (Mark J. Schervish) 合著的第四版《概率論與數理統計》(Probability and Statistics ) 為教材。豆瓣鏈接——Probability and Statistics

2.在線性代數課程里,加強矩陣分析的內容。教材建議使用吉爾伯特·斯特朗 (Gilbert Strang) 的 《線性代數導論》(Introduction to Linear Algebra )。吉爾伯特·斯特朗在麻省理工學院一直講述線性代數,他的網上視頻課程堪稱經典。後續建議開設矩陣計算,採用特雷費森·勞埃德 (Trefethen N. Lloyd) 和戴維·鮑 (David Bau lll) 著作的《數值線性代數》(Numerical Linear Algebra ) 為教科書。

3.開設機器學習課程。機器學習有許多經典的書籍,但大多不太適宜做本科生的教材。最近,麻省理工學院出版的約翰·凱萊赫 (John D. Kelleher) 和布瑞恩·麥克·納米 (Brian Mac Namee) 等人著作的《機器學習基礎之預測數據分析》 (Fundamentals of Machine Learning for Predictive Data Analytics ),或者安得烈·韋伯 (Andrew R. Webb) 和基思·科普塞 (Keith D. Copsey) 合著的第三版《統計模式識別》(Statistical Pattern Recognition ) 比較適合作為本科生的教科書。同時建議課程設置實踐環節,讓學生嘗試將機器學習方法應用到某些特定問題中。

此外,我建議設立以下課程作為本科計算機專業的提高課程或者榮譽課程。特別是,國內有些大學計算機專業設立了拔尖人才項目,我認為以下課程可以考慮列入該項目的培養計劃中。事實上,上海交通大學 ACM 班就開設了隨機演算法和統計機器學習等課程。

1.開設數值優化課程,建議參考教材喬治·諾塞達爾 (Jorge Nocedal) 和史蒂芬·賴特 (Stephen J.Wright) 的第二版《數值優化》(Numerical Optimization ) ,或者開設數值分析,建議採用蒂莫西·索爾的《數值分析》(Numerical Analysis ) 為教材。

2.加強演算法課程,增加高級演算法,比如隨機演算法,參考教材是邁克爾·米曾馬克 (Michael Mitzen-macher) 和伊萊 · 阿普法 (Eli Upfal) 的《概率與計算:隨機演算法與概率分析》(Probability and Computing: Randomized Algorithms and Probabilistic Analysis )。

3.在程序設計方面,增加或加強並行計算的內容。特別是在深度學習技術的執行中,通常需要GPU 加速,可以使用戴維·柯克 (David B. Kirk) 和胡文美 (Wen-mei W. Hwu) 的教材 《大規模並行處理器編程實戰》(第二版)(Programming Massively Parallel Processors: A Hands-on Approach, Second Edition ) ;另外,還可以參考優達學城 (Udacity) 上英偉達 (Nvidia) 講解 CUDA 計算的公開課。

總之,我認為以計算機科學為主導,聯合統計應用數學專業,開設機器學習研究生專業是值得考慮的。研究生專業應該圍繞理論機器學習、概率與隨機圖模型、貝葉斯方法、大規模優化演算法、深度學習等基礎機器學習領域。建議開設理論機器學習、概率圖模型、統計推斷與貝葉斯分析、凸分析與優化、強化學習、資訊理論等課程。

[1]原文地址 http://www.ccf.org.cn/common/modalWrapper.jsp?url=/signinang.jsp?fromURL=http://www.ccf.org.cn/cccfpdf/201611.pdfamp;amp;amp;amp;ticket=ST-256-XXvQLxqNDXBYD07My5Ke-cas


  • 機器學習

  1. 機器學習 by 周志華: 周志華老師的這本書非常適合作為機器學習入門的書籍,書中的例子十分形象且簡單易懂。

  2. 統計機器學習 by 李航:李航老師的這本書偏優化和推倒,推倒相應演算法的時候可以參考這本書。
  3. PRML by Christopher Bishop: PRML這本書有點偏Bayesian了,初學者看起來可能有些困難,可以和前兩本結合起來看。
  4. GPCA by Yi Ma: 這本書由馬毅老師耗時十年精心打造,推薦閱讀。

  5. Machine Learning A Probabilistic Perspective Learning by Kevin P. Murphy: MLAPP這本書也是一本比較經典的機器學習書,可以和PRML互相補充著來看。

  • 自然語言處理

  1. 數學之美 by 吳軍:吳軍老師的這本書適合作為入門自然語言處理的科普讀物。

  2. 統計自然語言處理 by 宗成慶:中文版的自然語言處理圖書是比較少的,這本書由中科院宗成慶老師所寫,推薦初學者先閱讀此書。

  3. Foundations of Statistical Natural Language Processing by Christopher D. Manning: 本書由Manning大神所寫,在1999年出版,最近比較火的Deep Learning for NLP沒有涉及,不過可以參考他的學生Socher開的這門課 CS 224N / Ling 284。
  4. Speech and Language Processing by Dan Jurafsky: 這本書第三版已經更新一部分章節了,書中介紹了deep learning for nlp方面的技術,推薦閱讀。


1. 周志華:機器學習。

比較新的機器學習入門教科書。對於機器學習領域覆蓋較為全面。

2. 李航: 統計學習方法。

較為簡略的機器學習教材。對模型的推導很清晰。

3. 集體智慧編程 amazon.cn 的頁面。

這本書會帶著你把部分機器學習演算法實現出來跑一遍。

4. PRML Pattern Recognition And Machine Learning (豆瓣)

機器學習進階書。側重貝葉斯。

5. MLAPP(Machine Learning: a Probabilistic Perspective) Machine Learning (豆瓣)

機器學習進階書。 內容較為全。

6.elements of statistical learning amazon.cn 的頁面

作者是超級大牛。書也較難。側重統計。

以上書籍,1-2中,推薦拿一本重點學習,並拿另一本做參考書,同時參考3進行演算法實現。這三本搞清楚之後再往後走。4-6的3本都是神書,都挺難讀,但深入機器學習還是需要這些。但不做research並且不想深入的話也可以不讀。到時候也可以挑一本看。個人喜歡5.

另,網路上有一些公開課,可以去找一下。

另,現在流行深度學習啥的,想要學習的話也請放到1-2之後進行。


轉行的人來寫一下。本人是從數學領域轉行到機器學習的,在期間也走了不少的彎路,不過也發現了一些不錯的書籍和教材。之前也寫過一篇文章《轉行數據挖掘和機器學習》,摘選一些書籍如下,供大家參考。

  1. 數據處理

《HIVE編程指南》,作者 Edward Capriolo

《SQL基礎教程》,作者 Mick

PS:個人特別喜歡《SQL基礎教程》,極易上手,易學易通。之前寫過一篇文章總結 HIVE 的使用細節,提供給大家做參考:《HIVE基礎介紹》

2. 編程語言

《Python基礎教程》,作者是 Magnus Lie Hetland

3. 機器學習

《機器學習實戰》,作者是 Peter Harrington

《機器學習》,作者是 周志華

當然在工作中會遇到各種各樣的業務問題,那些其實更多的靠自己的業務經驗了。


6月8日更新:

彷徨疑惑,機器學習該看什麼書?雲棲社區非同步社區機器學習好書籍推薦

機器學習作為近期人工智慧領域的熱點話題一直被廣大知乎討論,小編也一直收到很多私信諮詢有哪些好的書籍適合自己進行閱讀學習。本周:阿里云云棲社區機構號 聯合機器學習專業出版社:非同步社區,為大家帶來十本經典機器學習相關書籍,分別適合入門、進階到精深的三個不同階段同學閱讀,並且每本書籍都由非同步社區機器學習相關編輯同學標註了適合閱讀人群(文末有彩蛋不看後悔哦):

(非同步社區,是人民郵電出版社旗下IT專業圖書旗艦社區,也是國內領先的IT專業圖書社區,致力於優質學習內容的出版和分享,實現了紙書電子書的同步上架,於2015年8月上線運營。)

Python高性能編程Python高性能編程-圖書 - 非同步社區

本書適合初級和中級Python程序員、有一定Python語言基礎想要得到進階和提高的讀者閱讀。 本書共有12章,圍繞如何進行代碼優化和加快實際應用的運行速度進行詳細講解。本書主要包含以下主題:計算機內部結構的背景知識、列表和元組、字典和集合、迭代器和生成器、矩陣和矢量計算、並發、集群和工作隊列等。最後,通過一系列真實案例展現了在應用場景中需要注意的問題。

NLTK基礎教程——用NLTK和Python庫構建機器學習應用

NLTK基礎教程--用NLTK和Python庫構建機器學習應用-圖書 - 非同步社區

本書適合 NLP 和機器學習領域的愛好者、對文本處理感興趣的讀者、想要快速學習NLTK的資深Python程序員以及機器學習領域的研究人員閱讀。 NLTK 庫是當前自然語言處理(NLP)領域最為流行、使用最為廣泛的庫之一, 同時Python語言也已逐漸成為主流的編程語言之一。本書主要介紹如何通過NLTK庫與一些Python庫的結合從而實現複雜的NLP任務和機器學習應用。全書共分為10章。第1章對NLP進行了簡單介紹。第2章、第3章和第4章主要介紹一些通用的預處理技術、專屬於NLP領域的預處理技術以及命名實體識別技術等。第5章之後的內容側重於介紹如何構建一些NLP應用,涉及文本分類、數據科學和數據處理、社交媒體挖掘和大規模文本挖掘等方面。

機器學習與數據科學(基於R的統計學習方法)

機器學習與數據科學(基於R的統計學習方法)-圖書 - 非同步社區

本書適合數據科學家、數據分析師、軟體開發者以及需要了解數據科學和機器學習方法的科研人員閱讀參考。 本書試圖指導讀者掌握如何完成涉及機器學習的數據科學項目。本書將為數據科學家提供一些在統計學習領域會用到的工具和技巧,涉及數據連接、數據處理、探索性數據分析、監督機器學習、非監督機器學習和模型評估。本書選用的是R統計環境,書中所有代碼示例都是用R語言編寫的,涉及眾多流行的R包和數據集。

實用機器學習

實用機器學習-圖書 - 非同步社區

本書適合需要應用機器學習演算法解決實際問題的工程技術人員閱讀,也可作為相關專業高年級本科生或研究生的入門教材或課外讀物 大數據時代為機器學習的應用提供了廣闊的空間,各行各業涉及數據分析的工作都需要使用機器學習演算法。本書圍繞實際數據分析的流程展開,著重介紹數據探索、數據預處理和常用的機器學習演算法模型。本書從解決實際問題的角度出發,介紹回歸演算法、分類演算法、推薦演算法、排序演算法和集成學習演算法。在介紹每種機器學習演算法模型時,書中不但闡述基本原理,而且討論模型的評價與選擇。為方便讀者學習各種演算法,本書介紹了R語言中相應的軟體包並給出了示常式序。本書的最大特色就是貼近工程實踐。首先,本書僅側重介紹當前工業界最常用的機器學習演算法,而不追求知識內容的覆蓋面;其次,本書在介紹每類機器學習演算法時,力求通俗易懂地闡述演算法思想,而不追求理論的深度,讓讀者藉助代碼獲得直觀的體驗。

Python機器學習實踐指南

Python機器學習實踐指南-圖書 - 非同步社區

本書適合Python 程序員、數據分析人員、對演算法感興趣的讀者、機器學習領域的從業人員及科研人員閱讀。 機器學習是近年來漸趨熱門的一個領域,同時Python 語言經過一段時間的發展也已逐漸成為主流的編程語言之一。本書結合了機器學習和Python 語言兩個熱門的領域,通過利用兩種核心的機器學習演算法來將Python 語言在數據分析方面的優勢發揮到極致。全書共有10 章。第1 章講解了Python 機器學習的生態系統,剩餘9 章介紹了眾多與機器學習相關的演算法,包括各類分類演算法、數據可視化技術、推薦引擎等,主要包括機器學習在公寓、機票、IPO 市場、新聞源、內容推廣、股票市場、圖像、聊天機器人和推薦引擎等方面的應用。

貝葉斯方法:概率編程與貝葉斯推斷

貝葉斯方法:概率編程與貝葉斯推斷-圖書 - 非同步社區

本書適用於機器學習、貝葉斯推斷、概率編程等相關領域的從業者和愛好者,也適合普通開發人員了解貝葉斯統計而使用。 本書基於PyMC語言以及一系列常用的Python數據分析框架,如NumPy、SciPy和Matplotlib,通過概率編程的方式,講解了貝葉斯推斷的原理和實現方法。該方法常常可以在避免引入大量數學分析的前提下,有效地解決問題。書中使用的案例往往是工作中遇到的實際問題,有趣並且實用。作者的闡述也盡量避免冗長的數學分析,而讓讀者可以動手解決一個個的具體問題。通過對本書的學習,讀者可以對貝葉斯思維、概率編程有較為深入的了解,為將來從事機器學習、數據分析相關的工作打下基礎。

TensorFlow技術解析與實戰

TensorFlow技術解析與實戰-圖書 - 非同步社區

本書深入淺出,理論聯繫實際,實戰案例新穎,基於最新的TensorFlow 1.1版本,涵蓋TensorFlow的新特性,非常適合對深度學習和TensorFlow感興趣的讀者閱讀。 TensorFlow 是谷歌公司開發的深度學習框架,也是目前深度學習的主流框架之一。本書從深度學習的基礎講起,深入TensorFlow框架原理、模型構建、源代碼分析和網路實現等各個方面。全書分為基礎篇、實戰篇和提高篇三部分。基礎篇講解人工智慧的入門知識,深度學習的方法,TensorFlow的基礎原理、系統架構、設計理念、編程模型、常用API、批標準化、模型的存儲與載入、隊列與線程,實現一個自定義操作,並進行TensorFlow源代碼解析,介紹卷積神經網路(CNN)和循環神經網路(RNN)的演化發展及其TensorFlow實現、TensorFlow的高級框架等知識;實戰篇講解如何用TensorFlow寫一個神經網路程序並介紹TensorFlow實現各種網路(CNN、RNN和自編碼網路等),並對MINIST數據集進行訓練,講解TensorFlow在人臉識別、自然語言處理、圖像和語音的結合、生成式對抗網路等方面的應用;提高篇講解TensorFlow的分散式原理、架構、模式、API,還會介紹TensorFlow XLA、TensorFlow Debugger、TensorFlow和Kubernetes結合、TensorFlowOnSpark、TensorFlow移動端應用,以及TensorFlow Serving、TensorFlow Fold和TensorFlow計算加速等其他特性。最後,附錄中列出一些可供參考的公開數據集,並結合作者的項目經驗介紹項目管理的一些建議。

概率編程實戰

概率編程實戰-圖書 - 非同步社區

本書既可以作為概率編程的入門讀物,也可以幫助已經有一定基礎的讀者熟悉Figaro這一概率編程利器。 人工智慧領域的先驅、美國加州大學伯克利分校教授Stuart Russell作序推薦!一本不可思議的Scala概率編程實戰書籍!概率推理是不確定性條件下做出決策的重要方法,在許多領域都已經得到了廣泛的應用。概率編程充分結合了概率推理模型和現代計算機編程語言,使這一方法的實施更加簡便,現已在許多領域(包括炙手可熱的機器學習)中嶄露頭角,各種概率編程系統也如雨後春筍般出現。本書的作者Avi Pfeffer正是主流概率編程系統Figaro的首席開發者,他以詳盡的實例、清晰易懂的解說引領讀者進入這一過去令人望而生畏的領域。通讀本書,可以發現概率編程並非「瘋狂科學家」們的專利,無需艱深的數學知識,就可以構思出解決許多實際問題的概率模型,進而利用現代概率編程系統的強大功能解題。

Python機器學習——預測分析核心演算法

Python機器學習--預測分析核心演算法-圖書 - 非同步社區

本書主要針對想提高機器學習技能的Python 開發人員,幫助他們解決某一特定的項目或是提升相關的技能。 在學習和研究機器學習的時候,面臨令人眼花繚亂的演算法,機器學習新手往往會不知所措。本書從演算法和Python 語言實現的角度,幫助讀者認識機器學習。 書專註於兩類核心的「演算法族」,即懲罰線性回歸和集成方法,並通過代碼實例來展示所討論的演算法的使用原則。全書共分為7 章,詳細討論了預測模型的兩類核心演算法、預測模型的構建、懲罰線性回歸和集成方法的具體應用和實現。

機器學習項目開發實戰

機器學習項目開發實戰-圖書 - 非同步社區

本書適合對機器學習感興趣的.NET開發人員閱讀,也適合其他讀者作為機器學習的入門參考書。 本書通過一系列有趣的實例,由淺入深地介紹了機器學習這一炙手可熱的新領域,並且詳細介紹了適合機器學習開發的Microsoft F#語言和函數式編程,引領讀者深入了解機器學習的基本概念、核心思想和常用演算法。書中的例子既通俗易懂,同時又十分實用,可以作為許多開發問題的起點。通過對本書的閱讀,讀者無須接觸枯燥的數學知識,便可快速上手,為日後的開發工作打下堅實的基礎。

這裡是彩蛋:

本次非同步社區的同學也特意拿出10本書作為福利贈送給社區小夥伴們。

拿書規則:

1、關注阿里云云棲社區;

2、點擊到原文:彷徨疑惑,機器學習該看什麼書?雲棲社區amp;amp;非同步社區機器學習好書籍推薦 - 知乎專欄,評論回復以上10本中你最想看的一本書籍名稱。請不要在本回答中回復

我們將在6月20日,從關注社區且在評論中回復了想閱讀書籍名稱的用戶中,抽取10名幸運小夥伴免費贈送以上正版書籍一本哦。

end

---------------------------------------------------------------------------------------------------

原文鏈接:這10本由淺入深的好書,或讓你成為機器學習領域的專家-博客-雲棲社區-阿里雲

在這篇文章中,我挑選了10本書,這些書有不同的風格,主題也不盡相同,出版時間也不一樣。因此,無論你是新手還是領域專家,一定能找到適合你的。

新手的最佳讀物

這本書絕對是初學者非常期待的入門書。這本書條理清晰,學習成本低,因此我把它列為新手的最佳讀物。
下面讓我們深入討論一些關於人工智慧程序的話題。

人工智慧編程範例

如果您想接觸最新的人工智慧技術,那麼Peter Norvig寫的人工智慧編程範例將非常適合。
這被廣泛認為是有史以來最好的編程書籍之一。實際的寫作風格很容易遵循。它會引導你在學習的過程中自我發現。而且例子也幫助你用最清晰的方式寫出高質量的LISP程序。
請注意,在打開這本書之前,作者默認你應該有編程經驗。這並不是說你要成為一個編程方面的專家,但如果你從來沒有寫代碼(或者寫的不太好),那麼你可能在學習的過程中遇到很多困難。
這本書長達900多頁,但它仍然是無可爭議學習人工智慧這一與機器學習非常相關的主題的最好的資源。

傻瓜機器學習

以前,我一直是討厭推薦「For dummies」系列的書籍,因為它們都太過簡單直白。但是,由於這本書的作者都是經驗豐富的數據科學家,我決定破一次例。
即使是零基礎,傻瓜機器學習這本書也能讓讀者快速體驗到機器學習的魅力。儘管書中的例子是用python語言寫的,但是其實你並不需要了解python的語法。
在本書中,你將了解到機器學習的歷史以及機器學習與人工智慧的不同。作者為我們詳盡地講解了每一個知識點。
在讀本書之前,你只需要一些數學和邏輯方面的基本知識,而並不需要編程的經驗。如果你在讀這本書前從沒接觸過演算法,可能你會有點痛苦,不過仍然可以做一些互補的研究。

機器學習:新的人工智慧

這本書應該是本篇文章中推薦書目中最新的。為什麼要把這本書列進來呢?因為這本書著力於用演算法處理數據集並且幫助編程者從數據集中學習。
作者 Ethem Alpaydin是領域裡知名的學者。他還出版了機器學習導論。 Ethem有豐富的經驗,並且他之前的作品也是拔尖的。
Ethem向我們描述了機器學習的演化過程,並且告訴我們如何在實際的應用中使用機器學習的演算法。在讀這本書之前,你需要有一些編程的經驗。當然如果你對機器學習有濃厚的興趣,這樣也是可以的。
由於它是這個書單中最新的一本書,可以確定的是這本書和當前科技行業緊密結合。

人工智慧:一種現代的方法

雖然人工智慧和機器學習是不同的,但是它們有很多相通之處。編程人員可以從中學到很多。你應該學習如何找到解決機器學習項目中問題的方法。
這本書是一個非常棒的導論,總共有1100多頁,並涵蓋了許多的技術。
中高級編程人員可能會覺得這本書過於簡單。這本書並不是為有經驗者而寫,而是一本新手的入門書籍。它是你學習人工智慧和機器學習基礎的一盤開胃菜。

機器學習:用演算法讓數據說話

Peter Flach寫的這本機器學習包含了很多機器學習的實際案例。我認為這本書是為中高級開發人員而寫。他們可以用這本書鞏固機器學習方面的基礎知識,因為這本書比其它書更詳細。
用這本書,你將利用機器學習方法來生成,分析和預測統計模型。Peter闡述了自定義垃圾郵件過濾器如何工作,並且解釋了為何這種方法現在這麼火。
從ROC分析開始,後面的章節中會比之前深一些。
在每個知識點處,這本書都配有圖形、圖表的說明。機器學習是一個很寬的領域,而Peter通過例子的方式,分解了其中主要的部分。
如果你對大數據和機器學習感興趣,那麼我極力推薦這本書,但是這有一個前提,那就是你有一定的背景知識。

Python 機器學習

在我之前提到的書中,幾乎沒有限定語言的。而這本Sebastian Raschka的450多頁的書將打破這一記錄。
對於想學習機器學習的python開發人員來說,這本是最好的導論。
很多人選擇python作為工具是因為python語法簡單,功能強大,而且 像scikit-learn這樣的機器學習類庫眾多。
這本書詳細地講解了scikit-learn,並引導我們應用它來做數據分析。這本書的作者推崇在編寫演算法的同時進行可視化。因此,你不僅能學到如何編寫演算法,還能學會對數據進行可視化。
總的來說,這本書偏重技術,但是也不是專門為python專家寫的。如果你對python語言很熟悉,最好還了解scikit-learn,那麼這本書一定很適合你。

數據科學從零開始

這是另一本基於python的作品。儘管這本書比大多數書籍簡潔,但卻對例子進行了詳盡的描述。在數據科學這本書中,每一段代碼前作者都附上了一段介紹。所以即使是新手也可以很快上手。
儘管這樣,我仍然要向中高級Python開發人員推薦這本書。你不必知道機器學習的的方法或者數據分析的過程就能得到你想要的(正如標題中所寫的「從零開始」)。
這本書的風格簡潔而準確,深度上比python機器學習淺一些。如果你想深入研究機器學習,那麼這兩個都是不錯的選擇。
這本書中的編碼風格我非常喜歡。每一小片的代碼都是基於之前的工作,而且作者都附上了詳細的思路和過程。

搭建自己的神經網路

儘管在標題中沒有明言,這本書構建神經網路的語言仍然是python。Tariq Rashid 將神經網路作為機器學習過程中的基本組件,而這本書也是深入理解神經網路的最佳選擇之一。
這本書是傑出的,但價格卻並不昂貴。讀這本書之前,你需要有一定的python基礎,這樣讀起來才會比較順利。
作者希望通過用鮮活的例子來幫讀者建立對神經網路的理解。在讀這本書前,你並不需要成為專家,但是你要有足夠的決心來克服書中較難的章節。
值得慶幸的是作者的寫作風格溫和且易懂,因此你在閱讀過程中不會遇到太多阻礙。神經網路是非常難掌握的,而擁有這本書就足夠了!

機器學習原理:預測數據分析

這本書的標題有點拗口,價格在所有書中也偏貴,但這本MIT出版社出版的書確實是一本非常棒的書。
機器學習原理:預測數據分析向我們展示了基於關係和自定義演算法的分析和數據選擇過程。這包括能從其他相關資源中獲取信息的更通用的信息學習。這本書還包含了複雜的基於概率的機器學習方法。
你將學習到讓機器學習演算法按照你的指示進行數據分析的高級技能。這本書通過例子的方式引導讀者,並且驅動讀者考慮不同的方式分析數據。
在讀這本書之前,你需要足夠的編程知識和矩陣知識。我想將這本書推薦給了解機器學習並想更進一步的數據科學家。

模式識別和機器學習

這本書也是為高級數據科學家和高級開發人員準備的。每一章節包含基於數據集中模式的概率和機器學習的話題。
模式識別和機器學習是掌握模式識別的導論。這本書用基本的概念帶你從宏觀進入到鮮活的實例中。
這本書的寫作風格是沒的挑的。作者傾向與重複的闡明一個觀點。因此儘管這書的內容很難,這仍然是將知識灌進讀者腦子的最佳方式。
你需要有深厚的數學功底,甚至數據科學的知識也是非常必要的。這本書很難,但是簡潔的書寫風格和清晰的例子會讓你對模式識別有更深的認識。

這10本書是我精心挑選的,它們涵蓋了很寬泛的領域。如果你想更好的理解機器學習或者解決項目中的問題,你需要根據你的實際情況選擇最適合你的書,因為它們值得擁有。
對於沒有基礎的新手來說,我會推薦《傻瓜機器學習》這本書。如果你想著手於python,那麼python機器學習是個很好的選擇。
這些書都是很棒的。我建議你先理解一門語言,這樣就可以從一個真實場景中理解這些概念。
很多書都非常專業,因此很難去廣泛的推薦。但是讀完本文後,一定會有你想要的。

親們阿里云云棲社區已開通專欄,歡迎關注閱讀:我是程序員 - 知乎專欄


這是我在另一個類似問題下面的答案,供參考:

有關於data science的相關書籍推薦的么?


推薦 Deep Learning,大師作品,網上有電子版,寫的很好


題主要求演算法詳細推導,那麼非Machine Learning: a Probabilistic Perspective莫數了,很多問題去書上都能直接翻到詳細公式,而且涵蓋的方向又全,暫時無出其右。


題主問得只是書籍,這裡多說一下。

公開課:

Andrew Ng的入門課程

書籍:

周志華老師的西瓜書(推薦)

李航博士的《統計學習方法》

看完這些基本上就算入門了,接下來按照自己感興趣的方向,然後讀一些相關論文,建議多看一下ICML,NIPS,AAAI上近幾年優秀的論文。創建於 2016-11-06作者保留權利


推薦你看看這個書單機器學習書籍推薦,可以說幾乎覆蓋了所有機器學習相關的經典書籍。


目前也在讀機器學習的原版教材,發現:在對知識的不同理解階段選擇不同的書很關鍵,而從哪個角度理解機器學習也是不同階段的主題。

下面只討論理論機器學習的一般內容,具體到CV, NLP,DNN等領域,自有更加細化的書可以讀。

對於數學功底比較強的同學,可以直接上手murphy的Machine Learning - A Probabilistic Perspective,這本書的概率論符號剛開始看比較晦澀,不過理解後會有茅塞頓開之感。

對於剛剛入門,基礎比較薄弱的同學,推薦一本小書,CRC.Machine.Learning.An.Algorithmic.Perspective.2nd.Edition.是紐西蘭的一個教授寫的,從演算法角度理解機器學習,注重實踐演算法和intuitive的理解演算法。內容比較全,基本上包含了入門所需要學的基礎知識,基本沒有數學推導(MLP的BP還是比較詳細的),適合新手。補充另一本小書,其中有適量的數學推導,CIML, http://ciml.info/dl/

繼續進階的話,如果是注重實踐,可以上手Python.Machine.Learning.2015.9,如果是偏理論,推導,推薦Bishop - Pattern Recognition And Machine Learning - Springer 2006。需要注意的是,這些書並不是一下子要看完的,在不同認知時期翻閱會有不同的收穫。

---------

剛剛發現國人做的一個良心網站,收集了進階的機器學習各種資源, 好人...:https://github.com/JustFollowUs/Machine-Learning#learning_route


南大的《機器學習》

韓家偉的《數據挖掘》

還有一本電子工業出版的《統計學習基礎》

這三本經典先吃透

然後選一門語言,Python, R ,matlab, Scala等進行學習


以下三本堪稱機器學習界的九陽神功,是最純正的內功心法,而且覆蓋內容非常全面

Pattern Recognition and Machine Learning (Bishop)

https://raw.githubusercontent.com/chocoluffy/Machine-Learning-Course/master/Bishop%20-%20Pattern%20Recognition%20and%20Machine%20Learning.pdf

The Elements of Statistical Learning

https://web.stanford.edu/~hastie/Papers/ESLII.pdf

Machine Learning A Probabilistic Perspective (Murphy)

http://dsd.future-lab.cn/members/2015nlp/Machine_Learning.pdf

如果對搜索感興趣,再推薦一本

An Introduction to Information Retrieval (Manning)

https://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf


對於想入門了解機器學習的,注意這裡是機器學習,不是數據挖掘、數據分析喲,那麼Mitchell的&<機器學習&>是經典的入門之作。當然,因為年代久遠,很多新的模型都沒有涉及到,但不影響他的經典性——入門級。

對於程序員,想快速了解模型流程和優缺點的,甚至是實現模型的,那麼&是我比較推薦的,現在已經有中文版了&<機器學習實戰&>。這本書,提到了很多常見的模型,開始就是模型背景簡介,之後是模型優缺點和應用場景、在接著演算法實現和案例。而且,在書的最後,提及了一些比較切合時代的話題——大數據下機器學習。

對於想從事機器學習的入門人員,比較推薦一本有中文版的&<機器學習基礎&>(Simon Rogers的,英國格拉斯哥大學計算機科學學院講師),這本書適合高年級本科生和研究生。從理論的角度,推導了各個演算法,以及探究了各個模型的特性等。涉及數學和矩陣的地方,都有詳細的參照。適合高端點的入門,看這本書,可以體會一下自己的數學和矩陣,有種必須要加強的感覺。


中文推薦李航老師的《統計學習方法》;

英文可以看看Bishop的PRML,Hastie的ESL或Murphy的MLAPP。

另,建議提問前看看是否有類似問題已經被回答過,其他人的答案更加全面準確。在此拋磚引玉,僅供參考。


首推mlapp

其次prml


推薦閱讀:

如何做一名優秀的數據產品經理?
數據分析方法論是什麼?
如何看待 CMU New Initiative: CMU AI?
請分享一下數據分析方面的思路,如何做好數據分析?
關於數據挖掘就業方面的問題?

TAG:演算法 | 數據挖掘 | 機器學習 |