標籤:

機器學習與數據挖掘網上資源

做機器學習和數據挖掘方面的研究和開發,常會在線搜索一些資源,日積月累便挖出了一堆比較牛的博主,特別說明:做這個方向的人很多,牛人也很多,但是這些資源大部分主要突出實用主義,相關博主也並不一定是這個領域中的泰山北斗(至少大部分都不是學校里的教授),但是他們的空間里真的有料,可以學到很多。不斷更新中,但大浪淘沙,我只保留最值得推薦的。

1、首先,是豆瓣上的數據鋪子主頁

數據鋪子的小站

因為我個人多是用R來做數據挖掘和分析,所以主頁菌的內容很對我的胃口。這個主頁里有大量用R做數據挖掘的內容。我也向博主偷師了很多。儘管主頁菌已經停止更新內容了,但是現有的部分(其實文章量很大)已經可以令後來者學到很多了。

2、JerryLead在博客園上的主頁

JerryLead - 博客園

如果你想了解數據挖掘演算法的原理,而且是從數學層面上做到「知其然,更知其所以然」的深度理解,這個博客(以及下面的博客)理應是你必看的內容。這個主頁的特點是對很多演算法都做了詳細的數學推導。博主應該是在中科院讀博的,儘管博客似乎也停更很久了,但是很多經典的東西其實永不過時。SVM、EM等系列文章介紹的很到位,尤其推薦。

3、pluskid的主頁

blog.pluskid.org/?

博主是浙大本碩,後來貌似應該去了美國讀博。這個博客跟JerryLead的很類似,大量數學推導,讓你從本質上認識和理解很多晦澀的數據挖掘演算法。網路上很多人推崇CSDN上的July,尤其是那篇SVM三重境界。殊不知,July的三重境界也不過是JerryLead和pluskid左一段右一段的移花接木之作罷了。最開始我看這幾篇文章的時候,就發現內容像極了,尤其是pluskid畫的圖基本原模原樣地出現在了July的文章中。後來在知乎上看了帖子研究者July在計算機和機器學習領域的水平怎麼樣? - 計算機科學 - 知乎,差不多也就明白裡面的事了。總之,希望大家還是能夠尊重原創吧。July的博客也可以看,畢竟超千萬的訪問量,他東搜西湊的不斷整理沒有功勞也有苦勞,大家可權當一個合集來看了。

4、龍心塵&寒小陽 的主頁

龍心塵 - 博客頻道 - CSDN.NET

數據挖掘和機器學習博客中的新生力量,看了幾篇博文,感覺實力不俗。神經網路和深度學習部分的內容比較推薦。

其他公共資源

R、Weka、Python和Matlab都是用來做數據挖掘的利器(甚至SPSS、STATA、SAS也能用來完成一些數據挖掘任務)。因此,事實上這些軟體或語言的公共主頁或論壇上也包含有大量不錯的內容(包括一些程序代碼和應用實例)。

最後,網上還有很多關於機器學習和數據挖掘的公開課。如果你想一點一點系統的學習,那麼這些資源你都不應該錯過。我主要推薦兩個:

一個是斯坦福的公開課——機器學習 ,由Andrew Ng主講。我相信JerryLead 的EM博文就參考了Andrew Ng的授課內容。這個課程是英文授課,國內網站的視頻上還配了中文字幕,如果你有毅力和決心,那麼啃這個課程是很不錯的選擇。國內可以訪問網易公開課來學習,地址如下

斯坦福大學公開課 :機器學習課程

如果你還是覺得聽英語很彆扭,那麼由台灣大學林軒田教授錄製的中文Coursera課程(也就是傳說中的MOOC)——機器學習系列就是一個絕佳的資源。該課程分上下兩個部分,對於初學者可以學習——「機器學習基石」課程

網易公開課

聽這個名字你也能知道上面的課程講的是基礎。如果你想學習進階內容(當然,前提是基石部分的知識你已經統統掌握了),那麼你便可以選擇林教授的另外一門MOOC課程——「機器學習技法」課程

網易公開課

補充一個不錯的資源:由悉尼科技大學 徐亦達博士 錄製的中文機器學習系列視頻,講解細緻、通俗易懂:

機器學習課程: Hidden Markov Model (Part 1)

最後,你也可以持續關注我的博客 白馬負金羈 - 博客頻道 - CSDN.NET,我也會利用閑暇時間多發布一些machine learning或者data mining方面的資料和筆記。

感謝上述資源提供者的無私奉獻。也衷心希望各位讀者學有所得,學有所成!


推薦閱讀:

關於專欄文章說明
《大演算:機器學習的終極演演算法將如何改變我們的未來,創造新紀元的文明》
引領深度學習革命--CNN架構全解析
第三章 線性模型
使用sklearn來進行驗證碼識別

TAG:機器學習 |