有沒有一些入門級的機器學習或數據挖掘的書推薦呢?演算法理論實戰都行的。

目的是從零開始學習這一塊,步步進階。暫時本人只有一定的計算機專業基礎。謝謝


謝邀。推薦一下我當時入門的書吧:

《集體智慧編程 (豆瓣)》《社交網站的數據挖掘與分析 (豆瓣)》《推薦系統 (豆瓣)》

還有一些比如:《數據挖掘實用機器學習技術 (豆瓣)》《數據挖掘導論 (豆瓣)》什麼的。

裡面的理論大多大同小異,但重在實踐。上手做了就算真的入門了。


彷徨疑惑,機器學習該看什麼書?雲棲社區非同步社區機器學習好書籍推薦

機器學習作為近期人工智慧領域的熱點話題一直被廣大知乎討論,小編也一直收到很多私信諮詢有哪些好的書籍適合自己進行閱讀學習。本周:阿里云云棲社區機構號 聯合機器學習專業出版社:非同步社區,為大家帶來十本經典機器學習相關書籍,分別適合入門、進階到精深的三個不同階段同學閱讀,並且每本書籍都由非同步社區機器學習相關編輯同學標註了適合閱讀人群(文末有彩蛋不看後悔哦):

(非同步社區,是人民郵電出版社旗下IT專業圖書旗艦社區,也是國內領先的IT專業圖書社區,致力於優質學習內容的出版和分享,實現了紙書電子書的同步上架,於2015年8月上線運營。)

Python高性能編程

Python高性能編程-圖書 - 非同步社區本書適合初級和中級Python程序員、有一定Python語言基礎想要得到進階和提高的讀者閱讀。 本書共有12章,圍繞如何進行代碼優化和加快實際應用的運行速度進行詳細講解。本書主要包含以下主題:計算機內部結構的背景知識、列表和元組、字典和集合、迭代器和生成器、矩陣和矢量計算、並發、集群和工作隊列等。最後,通過一系列真實案例展現了在應用場景中需要注意的問題。

NLTK基礎教程——用NLTK和Python庫構建機器學習應用

NLTK基礎教程--用NLTK和Python庫構建機器學習應用-圖書 - 非同步社區 本書適合 NLP 和機器學習領域的愛好者、對文本處理感興趣的讀者、想要快速學習NLTK的資深Python程序員以及機器學習領域的研究人員閱讀。 NLTK 庫是當前自然語言處理(NLP)領域最為流行、使用最為廣泛的庫之一, 同時Python語言也已逐漸成為主流的編程語言之一。本書主要介紹如何通過NLTK庫與一些Python庫的結合從而實現複雜的NLP任務和機器學習應用。全書共分為10章。第1章對NLP進行了簡單介紹。第2章、第3章和第4章主要介紹一些通用的預處理技術、專屬於NLP領域的預處理技術以及命名實體識別技術等。第5章之後的內容側重於介紹如何構建一些NLP應用,涉及文本分類、數據科學和數據處理、社交媒體挖掘和大規模文本挖掘等方面。

機器學習與數據科學(基於R的統計學習方法)

機器學習與數據科學(基於R的統計學習方法)-圖書 - 非同步社區 本書適合數據科學家、數據分析師、軟體開發者以及需要了解數據科學和機器學習方法的科研人員閱讀參考。 本書試圖指導讀者掌握如何完成涉及機器學習的數據科學項目。本書將為數據科學家提供一些在統計學習領域會用到的工具和技巧,涉及數據連接、數據處理、探索性數據分析、監督機器學習、非監督機器學習和模型評估。本書選用的是R統計環境,書中所有代碼示例都是用R語言編寫的,涉及眾多流行的R包和數據集。

實用機器學習

實用機器學習-圖書 - 非同步社區 本書適合需要應用機器學習演算法解決實際問題的工程技術人員閱讀,也可作為相關專業高年級本科生或研究生的入門教材或課外讀物 大數據時代為機器學習的應用提供了廣闊的空間,各行各業涉及數據分析的工作都需要使用機器學習演算法。本書圍繞實際數據分析的流程展開,著重介紹數據探索、數據預處理和常用的機器學習演算法模型。本書從解決實際問題的角度出發,介紹回歸演算法、分類演算法、推薦演算法、排序演算法和集成學習演算法。在介紹每種機器學習演算法模型時,書中不但闡述基本原理,而且討論模型的評價與選擇。為方便讀者學習各種演算法,本書介紹了R語言中相應的軟體包並給出了示常式序。本書的最大特色就是貼近工程實踐。首先,本書僅側重介紹當前工業界最常用的機器學習演算法,而不追求知識內容的覆蓋面;其次,本書在介紹每類機器學習演算法時,力求通俗易懂地闡述演算法思想,而不追求理論的深度,讓讀者藉助代碼獲得直觀的體驗。

Python機器學習實踐指南

Python機器學習實踐指南-圖書 - 非同步社區 本書適合Python 程序員、數據分析人員、對演算法感興趣的讀者、機器學習領域的從業人員及科研人員閱讀。 機器學習是近年來漸趨熱門的一個領域,同時Python 語言經過一段時間的發展也已逐漸成為主流的編程語言之一。本書結合了機器學習和Python 語言兩個熱門的領域,通過利用兩種核心的機器學習演算法來將Python 語言在數據分析方面的優勢發揮到極致。全書共有10 章。第1 章講解了Python 機器學習的生態系統,剩餘9 章介紹了眾多與機器學習相關的演算法,包括各類分類演算法、數據可視化技術、推薦引擎等,主要包括機器學習在公寓、機票、IPO 市場、新聞源、內容推廣、股票市場、圖像、聊天機器人和推薦引擎等方面的應用。

貝葉斯方法:概率編程與貝葉斯推斷

貝葉斯方法:概率編程與貝葉斯推斷-圖書 - 非同步社區 本書適用於機器學習、貝葉斯推斷、概率編程等相關領域的從業者和愛好者,也適合普通開發人員了解貝葉斯統計而使用。 本書基於PyMC語言以及一系列常用的Python數據分析框架,如NumPy、SciPy和Matplotlib,通過概率編程的方式,講解了貝葉斯推斷的原理和實現方法。該方法常常可以在避免引入大量數學分析的前提下,有效地解決問題。書中使用的案例往往是工作中遇到的實際問題,有趣並且實用。作者的闡述也盡量避免冗長的數學分析,而讓讀者可以動手解決一個個的具體問題。通過對本書的學習,讀者可以對貝葉斯思維、概率編程有較為深入的了解,為將來從事機器學習、數據分析相關的工作打下基礎。

TensorFlow技術解析與實戰

TensorFlow技術解析與實戰-圖書 - 非同步社區 本書深入淺出,理論聯繫實際,實戰案例新穎,基於最新的TensorFlow 1.1版本,涵蓋TensorFlow的新特性,非常適合對深度學習和TensorFlow感興趣的讀者閱讀。 TensorFlow 是谷歌公司開發的深度學習框架,也是目前深度學習的主流框架之一。本書從深度學習的基礎講起,深入TensorFlow框架原理、模型構建、源代碼分析和網路實現等各個方面。全書分為基礎篇、實戰篇和提高篇三部分。基礎篇講解人工智慧的入門知識,深度學習的方法,TensorFlow的基礎原理、系統架構、設計理念、編程模型、常用API、批標準化、模型的存儲與載入、隊列與線程,實現一個自定義操作,並進行TensorFlow源代碼解析,介紹卷積神經網路(CNN)和循環神經網路(RNN)的演化發展及其TensorFlow實現、TensorFlow的高級框架等知識;實戰篇講解如何用TensorFlow寫一個神經網路程序並介紹TensorFlow實現各種網路(CNN、RNN和自編碼網路等),並對MINIST數據集進行訓練,講解TensorFlow在人臉識別、自然語言處理、圖像和語音的結合、生成式對抗網路等方面的應用;提高篇講解TensorFlow的分散式原理、架構、模式、API,還會介紹TensorFlow XLA、TensorFlow Debugger、TensorFlow和Kubernetes結合、TensorFlowOnSpark、TensorFlow移動端應用,以及TensorFlow Serving、TensorFlow Fold和TensorFlow計算加速等其他特性。最後,附錄中列出一些可供參考的公開數據集,並結合作者的項目經驗介紹項目管理的一些建議。

概率編程實戰

概率編程實戰-圖書 - 非同步社區 本書既可以作為概率編程的入門讀物,也可以幫助已經有一定基礎的讀者熟悉Figaro這一概率編程利器。 人工智慧領域的先驅、美國加州大學伯克利分校教授Stuart Russell作序推薦!一本不可思議的Scala概率編程實戰書籍!概率推理是不確定性條件下做出決策的重要方法,在許多領域都已經得到了廣泛的應用。概率編程充分結合了概率推理模型和現代計算機編程語言,使這一方法的實施更加簡便,現已在許多領域(包括炙手可熱的機器學習)中嶄露頭角,各種概率編程系統也如雨後春筍般出現。本書的作者Avi Pfeffer正是主流概率編程系統Figaro的首席開發者,他以詳盡的實例、清晰易懂的解說引領讀者進入這一過去令人望而生畏的領域。通讀本書,可以發現概率編程並非「瘋狂科學家」們的專利,無需艱深的數學知識,就可以構思出解決許多實際問題的概率模型,進而利用現代概率編程系統的強大功能解題。

Python機器學習——預測分析核心演算法

Python機器學習--預測分析核心演算法-圖書 - 非同步社區 本書主要針對想提高機器學習技能的Python 開發人員,幫助他們解決某一特定的項目或是提升相關的技能。 在學習和研究機器學習的時候,面臨令人眼花繚亂的演算法,機器學習新手往往會不知所措。本書從演算法和Python 語言實現的角度,幫助讀者認識機器學習。 書專註於兩類核心的「演算法族」,即懲罰線性回歸和集成方法,並通過代碼實例來展示所討論的演算法的使用原則。全書共分為7 章,詳細討論了預測模型的兩類核心演算法、預測模型的構建、懲罰線性回歸和集成方法的具體應用和實現。

機器學習項目開發實戰

機器學習項目開發實戰-圖書 - 非同步社區 本書適合對機器學習感興趣的.NET開發人員閱讀,也適合其他讀者作為機器學習的入門參考書。 本書通過一系列有趣的實例,由淺入深地介紹了機器學習這一炙手可熱的新領域,並且詳細介紹了適合機器學習開發的Microsoft F#語言和函數式編程,引領讀者深入了解機器學習的基本概念、核心思想和常用演算法。書中的例子既通俗易懂,同時又十分實用,可以作為許多開發問題的起點。通過對本書的閱讀,讀者無須接觸枯燥的數學知識,便可快速上手,為日後的開發工作打下堅實的基礎。

這裡是彩蛋:

本次人民郵電出版社的同學也特意拿出10本書作為福利贈送給社區小夥伴們。

拿書規則:

1、關注阿里云云棲社區;

2、點擊到原文:彷徨疑惑,機器學習該看什麼書?雲棲社區amp;非同步社區機器學習好書籍推薦 - 知乎專欄,評論回復以上10本中你最想看的一本書籍名稱。請不要在本回答中回復

我們將在6月20日,從關注社區且在評論中回復了想閱讀書籍名稱的用戶中,抽取10名幸運小夥伴免費贈送以上正版書籍一本哦。


書能幫到你的很有限——並不是說沒有好書,而是有好書還要有好的悟性能看得懂才行。最靠譜的方法是找一個導師,跟著他學。

如果沒有這個條件,只能依靠看書自學的話,我個人的經驗是實戰類的、容易上手的(如樓上提到的集體智慧編程這些)可以當科普材料看,但反覆看太多這類書其實進益不大,看多了甚至會迷惑,學了一堆招式後還是站在門外不知所措。

想要有更深的理解,還是需要老老實實去啃PRML或者MLAPP這樣的學院派教材,是因為從這些書里,你能看到招式背後的套路,從而學會如何去思考。


推薦 機器學習實戰


南大 周志華的 西瓜書


請看這篇超強資料整理 機器學習資料與攻略超強整理吐血推薦(二) - 白馬負金羈 - 博客頻道 - CSDN.NET


如果你能看英文的話,當然首推 Introduction to Statistical Learning 而且書的主頁上可以免費下載.


機器學習:《數據挖掘實用機器學習工具與技術》、《數據挖掘導論》、《機器學習》、,《數據挖掘與機器學習WAKA應用技術與實踐》

Python:《利用Python進行數據分析》、《Python基礎教程》、《Python Cookbook》、《「笨辦法」學Python》

MATLAB:《精通MATLAB》、《MATLAB R2014a從入門到精通》、《MATLAB R2014a完全自學一本通》、《MATLAB寶典》

資料庫:《MongoDB權威指南》、《資料庫系統概念》、《SQL語言與資料庫操作技術大全》、《Oracle從入門到精通》

R語言:《統計建模與R軟體》、《R語言實戰》、《ggplot2數據分析與圖形藝術》、《數據挖掘與R語言》


機器學習推薦李航的《統計學習方法》,不難,書比較薄,入門應該不錯。


掃了一眼,看成挖掘機實戰了。。。還想樓主是要去藍翔面試的么。


推薦閱讀:

有哪些免費軟體能夠根據數據生成分析圖,簡易一些的,能夠讓數據分析的新手快速掌握數據分析方法?
數據分析和挖掘有哪些公開的數據來源?
數據埋點是什麼?設置埋點的意義是什麼?
產品數據分析需要注意哪些問題?
談談你覺得好的BI(商業智能)產品是怎樣的?

TAG:Python | 演算法 | 數據分析 | 機器學習 |