零基礎學習Python數據挖掘(修改版)

Python已經穩坐機器學習的第一語言(機器學習編程語言之爭,Python奪魁),尤其是深度學習框架Torch宣布支持Python之後。所以學習Python進行數據挖掘是性價比是最高的(本人也放棄了使用了3年多的R語言)。而使用Python進行數據挖掘是最近幾年才開始火起來的,之前網上很多的資料都是關於Python網頁開發等。但使用Python進行數據挖掘的側重點已經完全不一樣了。本人就是浪費了很多時間來篩選這些博客、書籍。所以就有了本文,希望能幫大家少走一點彎路。

-----------我是分割線----------

本文章主要從數據挖掘的角度出發,談談如何入門數據挖掘。本文不能保證你能成為大神,但是如果能踏踏實實地學習完,找一份年薪15w+的工作還是不太難的,考慮到市場上人才的稀缺。本人也是非計算機專業,所以希望給非計算機的人一點參考。現在市場上數據挖掘的人才非常缺少,現在大一點的企業都需要數據分析、數據挖掘的人才,但是國目前只有3所大學開設了相關的本科專業,計算機專業的人也不會搶這飯碗,因而,造成了數據挖掘市場上人才的供給不足,所以給了一大堆非科班出身人很多的機會。

一、Python 基礎語法學習

如果只推薦一本書,強烈推薦《跟老齊學Python》,Python中的核心概念做了非常棒的講解,深刻而不失幽默。

如果想系統的學習推薦密歇根大學的《學習使用Python編程並分析數據》系列課程。

廖雪峰Python教程 簡單易上手的Python基礎語法教程,值得學習, Python 2和Python 3版本都有。

二、 機器學習理論

推薦優達學城的課程 + 基本經典的機器學習書籍

(優達學城作為三大MOOC平台之一,特色是最前沿的技術以及通俗易懂的講解,對於小白入門非常友好,目前相關的課程還是免費的。所以強烈推薦。還有一些基礎的數學課也非常棒。)

機器學習入門(中/英)(谷歌大牛的課程)

機器學習(喬治亞理工大學計算機課程)

周志華的西瓜書《機器學習》

深入一些的可以考慮李航的《統計學習方法》

還有偏統計的斯坦福的教授寫的《統計學習導論》,深入版本的《The Elements of Statistical Learning》(英文影印版)

上面推薦的都是非常不錯機器學習的入門書籍,都是經典了。

三、Python機器學習代碼學習

掌握Python語法的基礎上學習《Python for data analysis》是比較不錯的選擇,涵蓋了ipython notebook、Numpy、Scipy和Pandas包的使用。

《Python數據分析與挖掘實戰》介紹了使用Python進行數據挖掘的詳細案例,數據和代碼都可以下載,作為機器學習的進階學習是不錯的選擇(這本書也用對應的R語言和Matlab 版本)。

還有Udacity機器學習納米學位項目代碼(Github上有)

再推薦2本國外網站的書籍,還在early release階段《Python Data Science Handbook》和《Hands On Machine Learning with Scikit-Learn and TensorFlow》,非常好的代碼示範。註冊Safari Online,可以免費看10天。

四、優秀博客和微信公眾號

我推薦的網站和微信公眾號都是我平時天天看的,那些水貨大多被我取消關注了,養成每周清理公眾號的好習慣。

1. 數據挖掘入門與實戰 全是乾貨,代碼質量非常高。

2. 機器學習研究會 我校老師組織的學習平台,代碼加行業信息齊飛,質量非常高。尤其是我校的AI公開課(有直播),中國頂尖人工智慧大腕雲集。

3. 新智元 人工智慧方向行業觀點,對於自己把握技術方向非常重要,比如說自動駕駛這個坑能不能入?

4. 機器之心 技術前沿與重量級新聞。

還有一些其他的,下次再繼續補充。

還有幾個博客:

iPhone上可以使用Reeder閱讀器,Instapaper用來保存後稍後閱讀,因為信息量比較大。

No free Hunch Kaggle競賽平台的官方博客,包括一些優秀的代碼解讀以及高分選手的採訪,十分有用的經驗(來自不同背景,不同年齡層次,不同職業的選手)

Analytics Community | Analytics Discussions | Big Data Discussion 乾貨技術文章

新浪微博-愛可可 (北郵PRIS模式識別實驗室陳老師)

五、計算機書籍下載網站

再添加幾個外文書籍下載網址:

1. All IT eBooks 全,可能需要使用翻*牆下載,翻*牆方法見文末

2. Library Genesis 各種書籍,不局限於編程書籍

3. Fox eBook - eBooks Free Download Site

4. Development / Programming / AvaxHome

P.S.: 衷心感謝大家的讚賞,這是對我最大的肯定(網費有著落了)。

推薦閱讀:

用 TensorFlow 訓練 Doom 機器人
機器學習領域,如何選擇研究方向?
如何評價 2017 年 IHMSC 上發表的探測流量的論文?
Boosting 和 Adaboost 的關係和區別是什麼?
如何評價演算法本身的理解不重要 ,只要會用現成的開源工具來實現就可以這種觀點?

TAG:机器学习 | 数据挖掘 | 大数据 |