【機器學習Machine Learning】資料大全

昨天總結了深度學習的資料,今天把機器學習的資料也總結一下(友情提示:有些網站需要"科學上網"^_^)

  推薦幾本好書:

1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedmans )

2.Elements of Statistical Learning(by Bishops)

  這兩本是英文的,但是非常全,第一本需要有一定的數學基礎,第可以先看第二本。如果看英文覺得吃力,推薦看一下下面幾本英文書。

3.機器學習實戰

4.集體智慧編程

5.統計學習方法

6.機器學習

Ps:我個人的學習方法就是看書,因為我覺得看書比較快,視頻太慢了,有些不懂的地方會找一些MOOC視頻來理解,這樣效率比較高。入門的話看以上推薦的幾本書還是很好入門的,中英文均可,把一本書吃透比所有都看過但所有都不記得要好。

  以下是搜集的其他資料,我看過的會有一些小說明:

Summary:

Online courses:

1.Andrew Ngs Machine Learning at Coursera

  很多人接觸的第一個關於機器學習的視頻大概就是Andrew Ng的課,入門課,講的清晰易懂,涉及數學的方面也沒有講的很深奧,基本上都能聽懂。如果數學基礎差,也可以在網上搜一下這個課程的學習筆記,很多人總結的還是很好的,也很詳細。唯一的不好就是這麼課的編程語言是Octave,呃,相當於開源版的Matlab,但是在工作中用的不多(其實基本上不用。。),Python用的會比較多一點,所以可以看這個課程了解演算法背後的原理,再用其他的編程語言(如Python,java等)來實現。

2.Machine Learning Foundations: A Case Study Approach by UWs Carlos Guestrin and Emily Fox

  除了介紹機器學習演算法以外,還介紹了推薦系統和深度學習,這兩個概念現在很火,值得一看。此外,講的非常有趣,用的是Python,而且是真實數據集,看完可以直接上手工業界的項目了~

3. Intro to Statistical Learning by Trevor Hastie and Rob Tibshirani

深入講演算法背後的統計和數學知識,相對於前兩個課程,可能沒那麼有趣,畢竟數學 = =,而且在講R的實操的時候會很啰嗦,有一些測試時錯的,不太建議入門看這個,想補數學知識可以直接看上文說到的李航老師的《統計學習方法》。

其他: 

4. Mining Massive Datasets

5. Recommender Systems

6. Machine Learning Summer School:youtube.com/playlist?https://www.youtube.com/playlist?list=PLZSO_6-bSqHQCIYxE3ycGLXHMjK3XV7Iz


Books:

1. Hastie, Tibshirani, and Friedmans The Elements of Statistical Learning

2. Bishops Pattern Recognition and Machine Learning

3. David Barbers Bayesian Reasoning and Machine Learning

4. Kevin Murphys Machine learning: a Probabilistic Perspective

5. Foundations of Machine Learning,amazon.com/dp/026201825Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar

6. Learning From Data, Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin

7. Information Theory, Inference, and Learning Algorithms, David J. C. MacKay[free pdf]

8. All of Statistics, Larry Wasserman

9. Probabilistic Graphical Models: Principles and Techniques, Daphne Koller, Nir Friedman

10. Gaussian Processes For Machine Learning, Carl Edward Rasmussen, Christopher K. I. Williams [free pdf]

11. Machine Learning with R

12. Building Machine Learning Systems with Python

13. Machine Learning with Spark

14. Matrix Computations (Johns Hopkins Studies in the Mathematical Sciences): Gene H. Golub, Charles F. Van Loan: 9781421407944: Amazon.com: Books

15. Amazon.com: Convex Optimization (9780521833783): Stephen Boyd, Lieven Vandenberghe: Books

16. Larry Wassermans All of Statistics: A Concise Course in Statistical Inference


Applications and advanced topics:

1. Language modeling course and notes

2. Deep learning: ANN + CNN +RNN + NLP

3. Reinforcement learning and robotics

4. Memory and distributed representations

5. Neural models and vision

6. Cognition and lifelong learning

最後依然是Github的神總結:機器學習(Machine Learning)&深度學習(Deep Learning)資料(Chapter 1)

  • 《Brief History of Machine Learning》

介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、Deep Learning.

  • 《Deep Learning in Neural Networks: An Overview》

介紹:這是瑞士人工智慧實驗室Jurgen Schmidhuber寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從1940年開始講起,到60-80年代,80-90年代,一直講到2000年後及最近幾年的進展。涵蓋了deep learning里各種tricks,引用非常全面.

  • 《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》

介紹:這是一份python機器學習庫,如果您是一位python工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.

  • 《How to Layout and Manage Your Machine Learning Project》

介紹:這一篇介紹如果設計和管理屬於你自己的機器學習項目的文章,裡面提供了管理模版、數據管理與實踐方法.

  • 《Machine Learning is Fun!》

介紹:如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步blog.jobbole.com/67616/

  • 《R語言參考卡片》

介紹:R語言是機器學習的主要語言,有很多的朋友想學習R語言,但是總是忘記一些函數與關鍵字的含義。那麼這篇文章或許能夠幫助到你

  • 《Choosing a Machine Learning Classifier》

介紹:我該如何選擇機器學習演算法,這篇文章比較直觀的比較了Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature與Model權衡等問題。此外還有已經翻譯了的版本:52ml.net/15063.html

  • 《An Introduction to Deep Learning: From Perceptrons to Deep Networks》

介紹:深度學習概述:從感知機到深度網路,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本:cnblogs.com/xiaowanyer/

  • 《The LION Way: Machine Learning plus Intelligent Optimization》

介紹:<機器學習與優化>這是一本機器學習的小冊子, 短短300多頁道盡機器學習的方方面面. 圖文並茂, 生動易懂, 沒有一坨坨公式的煩惱. 適合新手入門打基礎, 也適合老手溫故而知新. 比起MLAPP/PRML等大部頭, 也許這本你更需要!具體內容推薦閱讀:intelligent-optimization.org

  • 《深度學習與統計學習理論》

介紹:作者是來自百度,不過他本人已經在2014年4月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麼聯繫?那麼應該立即看看這篇文章.

  • 《計算機科學中的數學》

介紹:這本書是由谷歌公司和MIT共同出品的計算機科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為5大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函數。4)概率,隨機行走。5)遞歸。等等

  • 《信息時代的計算機科學理論(Foundations of Data Science)》

介紹:信息時代的計算機科學理論,目前國內有紙質書購買,iTunes購買

  • 《Data Science with R》

介紹:這是一本由雪城大學新編的第二版《數據科學入門》教材:偏實用型,淺顯易懂,適合想學習R語言的同學選讀。

  • 《Twenty Questions for Donald Knuth》

介紹:這並不是一篇文檔或書籍。這是篇向圖靈獎得主Donald Knuth提問記錄稿: 近日, Charles Leiserson, Al Aho, Jon Bentley等大神向Knuth提出了20個問題,內容包括TAOCP,P/NP問題,圖靈機,邏輯,以及為什麼大神不用電郵等等。

  • 《Automatic Construction and Natural-Language Description of Nonparametric Regression Models》

介紹:不會統計怎麼辦?不知道如何選擇合適的統計模型怎麼辦?那這篇文章你的好好讀一讀了麻省理工Joshua B. Tenenbaum和劍橋Zoubin Ghahramani合作,寫了一篇關於automatic statistician的文章。可以自動選擇回歸模型類別,還能自動寫報告...

  • 《ICLR 2014論文集》

介紹:對深度學習和representation learning最新進展有興趣的同學可以了解一下

  • 《Introduction to Information Retrieval》

介紹:這是一本信息檢索相關的書籍,是由斯坦福Manning與谷歌副總裁Raghavan等合著的Introduction to Information Retrieval一直是北美最受歡迎的信息檢索教材之一。最近作者增加了該課程的幻燈片和作業。IR相關資源:www-nlp.stanford.edu/IR

  • 《Machine learning in 10 pictures》

介紹:Deniz Yuret用10張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occams razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.很清晰

  • 《雅虎研究院的數據集匯總》

介紹:雅虎研究院的數據集匯總: 包括語言類數據,圖與社交類數據,評分與分類數據,計算廣告學數據,圖像數據,競賽數據,以及系統類的數據。

  • 《An Introduction to Statistical Learning with Applications in R》

介紹:這是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的新書,並且在2014年一月已經開課:class.stanford.edu/cour

  • Best Machine Learning Resources for Getting Started

介紹:機器學習最佳入門學習資料匯總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹。

  • My deep learning reading list

介紹:主要是順著Bengio的PAMI review的文章找出來的。包括幾本綜述文章,將近100篇論文,各位山頭們的Presentation。全部都可以在google上找到。

  • Cross-Language Information Retrieval

介紹:這是一本書籍,主要介紹的是跨語言信息檢索方面的知識。理論很多

  • 探索推薦引擎內部的秘密,第 1 部分: 推薦引擎初探

介紹:本文共有三個系列,作者是來自IBM的工程師。它主要介紹了推薦引擎相關演算法,並幫助讀者高效的實現這些演算法。 探索推薦引擎內部的秘密,第 2 部分: 深度推薦引擎相關演算法 - 協同過濾,探索推薦引擎內部的秘密,第 3 部分: 深度推薦引擎相關演算法 - 聚類

  • 《Advice for students of machine learning》

介紹:康奈爾大學信息科學系助理教授David Mimno寫的《對機器學習初學者的一點建議》, 寫的挺實際,強調實踐與理論結合,最後還引用了馮 ? 諾依曼的名言: "Young man, in mathematics you dont understand things. You just get used to them."

  • 分散式並行處理的數據

介紹:這是一本關於分散式並行處理的數據《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。著重介紹了各種神級網路演算法的分散式實現,做Distributed Deep Learning 的童鞋可以參考下

  • 《「機器學習」是什麼?》

介紹:【「機器學習」是什麼?】John Platt是微軟研究院傑出科學家,17年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt和同事們遂決定開設博客,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看Platt的這篇博文

  • 《2014年國際機器學習大會ICML 2014 論文》

介紹:2014年國際機器學習大會(ICML)已經於6月21-26日在國家會議中心隆重舉辦。本次大會由微軟亞洲研究院和清華大學聯手主辦,是這個有著30多年歷史並享譽世界的機器學習領域的盛會首次來到中國,已成功吸引海內外1200多位學者的報名參與。乾貨很多,值得深入學習下

  • 《Machine Learning for Industry: A Case Study》

介紹:這篇文章主要是以Learning to Rank為例說明企業界機器學習的具體應用,RankNet對NDCG之類不敏感,加入NDCG因素後變成了LambdaRank,同樣的思想從神經網路改為應用到Boosted Tree模型就成就了LambdaMART。Chirs Burges,微軟的機器學習大神,Yahoo 2010 Learning to Rank Challenge第一名得主,排序模型方面有RankNet,LambdaRank,LambdaMART,尤其以LambdaMART最為突出,代表論文為: From RankNet to LambdaRank to LambdaMART: An Overview 此外,Burges還有很多有名的代表作,比如:A Tutorial on Support Vector Machines for Pattern Recognition Some Notes on Applied Mathematics for Machine Learning

  • 100 Best GitHub: Deep Learning

介紹:100 Best GitHub: Deep Learning

  • 《UFLDL-斯坦福大學Andrew Ng教授「Deep Learning」教程》

介紹:本教程將闡述無監督特徵學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習演算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。本教程假定機器學習的基本知識(特別是熟悉的監督學習,邏輯回歸,梯度下降的想法),如果你不熟悉這些想法,我們建議你去這裡機器學習課程,並先完成第II,III,IV章(到邏輯回歸)。此外這關於這套教程的源代碼在github上面已經有python版本了 UFLDL Tutorial Code

*《Deep Learning for Natural Language Processing and Related Applications》

介紹:這份文檔來自微軟研究院,精髓很多。如果需要完全理解,需要一定的機器學習基礎。不過有些地方會讓人眼前一亮,毛塞頓開。

  • Understanding Convolutions

介紹:這是一篇介紹圖像卷積運算的文章,講的已經算比較詳細的了

  • 《Machine Learning Summer School》

介紹:每天請一個大牛來講座,主要涉及機器學習,大數據分析,並行計算以及人腦研究。youtube.com/user/smolix (需FQ)

  • 《Awesome Machine Learning》

介紹:一個超級完整的機器學習開源庫總結,如果你認為這個碉堡了,那後面這個列表會更讓你驚訝:【Awesome Awesomeness】,國內已經有熱心的朋友進行了翻譯中文介紹機器學習數據挖掘免費電子書

  • 斯坦福《自然語言處理》課程視頻

介紹:ACL候任主席、斯坦福大學計算機系Chris Manning教授的《自然語言處理》課程所有視頻已經可以在斯坦福公開課網站上觀看了(如Chrome不行,可用IE觀看) 作業與測驗也可以下載。

  • 《Deep Learning and Shallow Learning》

介紹:對比 Deep Learning 和 Shallow Learning 的好文,來著浙大畢業、MIT 讀博的 Chiyuan Zhang 的博客。

  • 《Recommending music on Spotify with deep learning》

介紹:利用卷積神經網路做音樂推薦。

  • 《Neural Networks and Deep Learning》

介紹:神經網路的免費在線書,已經寫了三章了,還有對應的開源代碼:github.com/mnielsen/neu 愛好者的福音。

  • 《Java Machine Learning》

介紹:Java機器學習相關平台和開源的機器學習庫,按照大數據、NLP、計算機視覺和Deep Learning分類進行了整理。看起來挺全的,Java愛好者值得收藏。

  • 《Machine Learning Theory: An Introductory Primer》

介紹:機器學習最基本的入門文章,適合零基礎者

  • 《機器學習常見演算法分類匯總》

介紹:機器學習的演算法很多。很多時候困惑人們都是,很多演算法是一類演算法,而有些演算法又是從其他演算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是演算法的類似性。

  • 《機器學習經典論文/survey合集》

介紹:看題目你已經知道了是什麼內容,沒錯。裡面有很多經典的機器學習論文值得仔細與反覆的閱讀。

  • 《機器學習視頻庫》

介紹:視頻由加州理工學院(Caltech)出品。需要英語底子。

  • 《機器學習經典書籍》

介紹:總結了機器學習的經典書籍,包括數學基礎和演算法理論的書籍,可做為入門參考書單。

  • 《16 Free eBooks On Machine Learning》

介紹:16本機器學習的電子書,可以下載下來在pad,手機上面任意時刻去閱讀。不多我建議你看完一本再下載一本。

  • 《A Large set of Machine Learning Resources for Beginners to Mavens》

介紹:標題很大,從新手到專家。不過看完上面所有資料。肯定是專家了

  • 《機器學習最佳入門學習資料匯總》

介紹:入門的書真的很多,而且我已經幫你找齊了。

  • 《Sibyl》

介紹:Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視頻推薦。

  • 《Neural Network & Text Mining》

介紹:關於(Deep) Neural Networks在 NLP 和 Text Mining 方面一些paper的總結

  • 《前景目標檢測1(總結)》

介紹:計算機視覺入門之前景目標檢測1(總結)

  • 《行人檢測》

介紹:計算機視覺入門之行人檢測

  • 《Deep Learning – important resources for learning and understanding》

介紹:Important resources for learning and understanding . Is awesome

  • 《Machine Learning Theory: An Introductory Primer》

介紹:這又是一篇機器學習初學者的入門文章。值得一讀

  • 《Neural Networks and Deep Learning》

介紹:在線Neural Networks and Deep Learning電子書

  • 《Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜》

介紹:python的17個關於機器學習的工具

  • 《神奇的伽瑪函數(上)》

介紹:下集在這裡神奇的伽瑪函數(下)

  • 《分散式機器學習的故事》

介紹:作者王益目前是騰訊廣告演算法總監,王益博士畢業後在google任研究。這篇文章王益博士7年來從谷歌到騰訊對於分布機器學習的所見所聞。值得細讀

  • 《機器學習提升之道(Level-Up Your Machine Learning)》

介紹:把機器學習提升的級別分為0~4級,每級需要學習的教材和掌握的知識。這樣,給機器學習者提供一個上進的路線圖,以免走彎路。另外,整個網站都是關於機器學習的,資源很豐富。

  • 《Machine Learning Surveys》

介紹:機器學習各個方向綜述的網站

  • 《Deep Learning Reading list》

介紹:深度學習閱資源列表

  • 《Deep Learning: Methods and Applications》

介紹:這是一本來自微的研究員 li Peng和Dong Yu所著的關於深度學習的方法和應用的電子書

  • 《Machine Learning Summer School 2014》

介紹:2014年七月CMU舉辦的機器學習夏季課剛剛結束 有近50小時的視頻、十多個PDF版幻燈片,覆蓋 深度學習,貝葉斯,分散式機器學習,伸縮性 等熱點話題。所有13名講師都是牛人:包括大牛Tom Mitchell (他的[機器學習]是名校的常用教材),還有CMU李沐 .(1080P高清喲)

  • 《Sibyl: 來自Google的大規模機器學習系統》

介紹:在今年的IEEE/IFIP可靠系統和網路(DSN)國際會議上,Google軟體工程師Tushar Chandra做了一個關於Sibyl系統的主題演講。 Sibyl是一個監督式機器學習系統,用來解決預測方面的問題,比如YouTube的視頻推薦。詳情請閱讀google sibyl

  • 《Building a deeper understanding of images》

介紹:谷歌研究院的Christian Szegedy在谷歌研究院的博客上簡要地介紹了他們今年參加ImageNet取得好成績的GoogLeNet系統.是關於圖像處理的。

  • 《Bayesian network 與python概率編程實戰入門》

介紹:貝葉斯學習。如果不是很清可看看概率編程語言與貝葉斯方法實踐

  • 《AMA: Michael I Jordan》

介紹:網友問伯克利機器學習大牛、美國雙料院士Michael I. Jordan:"如果你有10億美金,你怎麼花?Jordan: "我會用這10億美金建造一個NASA級別的自然語言處理研究項目。"

  • 《機器學習&數據挖掘筆記_16(常見面試之機器學習演算法思想簡單梳理)》

介紹:常見面試之機器學習演算法思想簡單梳理,此外作者還有一些其他的機器學習與數據挖掘文章深度學習文章,不僅是理論還有源碼。

  • 《文本與數據挖掘視頻匯總》

介紹:Videolectures上最受歡迎的25個文本與數據挖掘視頻匯總

  • 《怎麼選擇深度學習的GPUs》

介紹:在Kaggle上經常取得不錯成績的Tim Dettmers介紹了他自己是怎麼選擇深度學習的GPUs, 以及個人如何構建深度學習的GPU集群: t.cn/RhpuD1G

  • 《對話機器學習大神Michael Jordan:深度模型》

介紹:對話機器學習大神Michael Jordan

  • 《Deep Learning 和 Knowledge Graph 引爆大數據革命》

介紹:還有2,3部分。blog.sina.com.cn/s/blog

  • 《Deep Learning 教程翻譯》

介紹:是Stanford 教授 Andrew Ng 的 Deep Learning 教程,國內的機器學習愛好者很熱心的把這個教程翻譯成了中文。如果你英語不好,可以看看這個

  • 《Deep Learning 101》

介紹:因為近兩年來,深度學習在媒體界被炒作很厲害(就像大數據)。其實很多人都還不知道什麼是深度學習。這篇文章由淺入深。告訴你深度學究竟是什麼!

  • 《UFLDL Tutorial》

介紹:這是斯坦福大學做的一免費課程(很勉強),這個可以給你在深度學習的路上給你一個學習的思路。裡面提到了一些基本的演算法。而且告訴你如何去應用到實際環境中。中文版

  • 《Toronto Deep Learning Demos》

介紹:這是多倫多大學做的一個深度學慣用來識別圖片標籤/圖轉文字的demo。是一個實際應用案例。有源碼

  • 《Deep learning from the bottom up》

介紹:機器學習模型,閱讀這個內容需要有一定的基礎。

  • 《R工具包的分類匯總》

介紹: (CRAN Task Views, 34種常見任務,每個任務又各自分類列舉若干常用相關工具包) 例如: 機器學習,自然語言處理,時間序列分析,空間信息分析,多重變數分析,計量經濟學,心理統計學,社會學統計,化學計量學,環境科學,藥物代謝動力學 等

  • 《機器學習常見演算法分類匯總》

介紹: 機器學習無疑是當前數據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法,以供您在工作和學習中參考.

  • 《Deep Learning(深度學習)學習筆記整理系列》

介紹: 很多乾貨,而且作者還總結了好幾個系列。另外還作者還了一個文章導航.非常的感謝作者總結。

Deep Learning(深度學習)學習筆記整理系列之(二)

Deep Learning(深度學習)學習筆記整理系列之(三)

Deep Learning(深度學習)學習筆記整理系列之(四)

Deep Learning(深度學習)學習筆記整理系列之(五)

Deep Learning(深度學習)學習筆記整理系列之(六)

Deep Learning(深度學習)學習筆記整理系列之(七)

DeepLearning(深度學習)學習筆記整理系列之(八)

  • 《Tutorials Session A - Deep Learning for Computer Vision》

介紹:傳送理由:Rob Fergus的用深度學習做計算機是覺的NIPS 2013教程。有mp4, mp3, pdf各種下載 他是紐約大學教授,目前也在Facebook工作,他2014年的8篇論文

  • 《FudanNLP》

介紹:FudanNLP,這是一個復旦大學計算機學院開發的開源中文自然語言處理(NLP)工具包 Fudan NLP里包含中文分詞、關鍵詞抽取、命名實體識別、詞性標註、時間詞抽取、語法分析等功能,對搜索引擎 文本分析等極為有價值。

  • 《Open Sourcing ml-ease》

介紹:LinkedIn 開源的機器學習工具包,支持單機, Hadoop cluster,和 Spark cluster 重點是 logistic regression 演算法

  • 《機器學習周刊》

介紹:對於英語不好,但又很想學習機器學習的朋友。是一個大的福利。機器學習周刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、數據挖掘、並行系統、圖像識別、人工智慧、機器人等等。謝謝作者

  • 《線性代數》

介紹:《線性代數》是《機器學習》的重要數學先導課程。其實《線代》這門課講得淺顯易懂特別不容易,如果一上來就講逆序數及羅列行列式性質,很容易讓學生失去學習的興趣。我個人推薦的最佳《線性代數》課程是麻省理工Gilbert Strang教授的課程。 課程主頁

  • 《Big-data》

介紹:大數據數據處理資源、工具不完備列表,從框架、分散式編程、分散式文件系統、鍵值數據模型、圖數據模型、數據可視化、列存儲、機器學習等。很贊的資源匯總。

  • 《machine learning for smart dummies》

介紹:雅虎邀請了一名來自本古里安大學的訪問學者,製作了一套關於機器學習的系列視頻課程。本課程共分為7期,詳細講解了有關SVM, boosting, nearest neighbors, decision trees 等常規機器學習演算法的理論基礎知識。

  • 《Entanglement-Based Quantum Machine Learning》

介紹:應對大數據時代,量子機器學習的第一個實驗 paper 下載

  • 《How a Math Genius Hacked OkCupid to Find True Love》

介紹:Wired雜誌報道了UCLA數學博士Chris McKinlay (圖1)通過大數據手段+機器學習方法破解婚戀網站配對演算法找到真愛的故事,通過Python腳本控制著12個賬號,下載了婚戀網站2萬女用戶的600萬問題答案,對他們進行了統計抽樣及聚類分析(圖2,3),最後終於收穫了真愛。科技改變命運!

  • 《Underactuated Robotics》

介紹:MIT的Underactuated Robotics於 2014年10月1日開課,該課屬於MIT研究生級別的課程,對機器人和非線性動力系統感興趣的朋友不妨可以挑戰一下這門課程!

  • 《mllib實踐經驗(1)》

介紹:mllib實踐經驗分享

  • 《Google Turns To Deep Learning Classification To Fight Web Spam》

介紹:Google用Deep Learning做的antispam(反垃圾郵件)

  • 《NLP常用信息資源》

介紹:NLP常用信息資源* 《NLP常用信息資源》

  • 《機器學習速查表》

介紹:機器學習速查表

  • 《Best Papers vs. Top Cited Papers in Computer Science》

介紹:從1996年開始在計算機科學的論文中被引用次數最多的論文

  • 《InfiniTAM: 基於深度圖像的體數據集成框架》

介紹:把今年的一個ACM Trans. on Graphics (TOG)論文中的代碼整理為一個開源的演算法框架,共享出來了。歡迎大家使用。可以實時的採集3D數據、重建出三維模型。Online learning,GPU Random forest,GPU CRF也會後續公開。

  • 《Hackers guide to Neural Networks》

介紹:【神經網路黑客指南】現在,最火莫過於深度學習(Deep Learning),怎樣更好學習它?可以讓你在瀏覽器中,跑起深度學習效果的超酷開源項目ConvNetJS作者karpathy告訴你,最佳技巧是,當你開始寫代碼,一切將變得清晰。他剛發布了一本圖書,不斷在線更新

  • 《Building a Production Machine Learning Infrastructure》

介紹:前Google廣告系統工程師Josh Wills 講述工業界和學術界機器學習的異同,大實話

  • 《Deep Learning Sentiment Analysis for Movie Reviews using Neo4j》

介紹:使用Neo4j 做電影評論的情感分析。

  • 《DeepLearning.University – An Annotated Deep Learning Bibliography》

介紹:不僅是資料,而且還對有些資料做了注釋。

  • 《A primer on deeping learning》

介紹:深度學習入門的初級讀本

  • 《Machine learning is teaching us the secret to teaching 》

介紹:機器學習教會了我們什麼?

  • 《scikit-learn:用於機器學習的Python模塊》

介紹:scikit-learn是在SciPy基礎上構建的用於機器學習的Python模塊。

  • 《對話機器學習大神Michael Jordan:解析領域中各類模型》

介紹:喬丹教授(Michael I. Jordan)教授是機器學習領域神經網路的大牛,他對深度學習、神經網路有著很濃厚的興趣。因此,很多提問的問題中包含了機器學習領域的各類模型,喬丹教授對此一一做了解釋和展望。

  • 《A*搜索演算法的可視化短教程》

介紹:A*搜索是人工智慧基本演算法,用於高效地搜索圖中兩點的最佳路徑, 核心是 g(n)+h(n): g(n)是從起點到頂點n的實際代價,h(n)是頂點n到目標頂點的估算代價。合集

  • 《基於雲的自然語言處理開源項目FudanNLP》

介紹:本項目利用了Microsoft Azure,可以在幾分種內完成NLP on Azure Website的部署,立即開始對FNLP各種特性的試用,或者以REST API的形式調用FNLP的語言分析功能

  • 《吳立德《概率主題模型&數據科學基礎》

介紹:現任復旦大學首席教授、計算機軟體博士生導師。計算機科學研究所副所長.內部課程

  • 《機器學習入門資源不完全匯總》

介紹:好東西的乾貨真的很多

  • 《收集從2014年開始深度學習文獻》

介紹:從硬體、圖像到健康、生物、大數據、生物信息再到量子計算等,Amund Tveit等維護了一個DeepLearning.University小項目:收集從2014年開始深度學習文獻,相信可以作為深度學習的起點,github

  • 《EMNLP上兩篇關於股票趨勢的應用論文 》

介紹:EMNLP上兩篇關於stock trend 用到了deep model組織特徵; Exploiting Social Relations and Sentiment for Stock Prediction用到了stock network。

  • 《Bengio組(蒙特利爾大學LISA組)深度學習教程 》

介紹:作者是深度學習一線大牛Bengio組寫的教程,演算法深入顯出,還有實現代碼,一步步展開。

  • 《學習演算法的Neural Turing Machine 》

介紹:許多傳統的機器學習任務都是在學習function,不過谷歌目前有開始學習演算法的趨勢。谷歌另外的這篇學習Python程序的Learning to Execute也有相似之處

  • 《Learning to Rank for Information Retrieval and Natural Language Processing》

介紹:作者是華為技術有限公司,諾亞方舟實驗室,首席科學家的李航博士寫的關於信息檢索與自然語言處理的文章

  • 《Rumor has it: Identifying Misinformation in Microblogs》

介紹:利用機用器學習在謠言的判別上的應用,此外還有兩個。一個是識別垃圾與虛假信息的paper.還有一個是網路輿情及其分析技術

  • 《R機器學習實踐》

介紹:該課程是網易公開課的收費課程,不貴,超級便宜。主要適合於對利用R語言進行機器學習,數據挖掘感興趣的人。

  • 《大數據分析:機器學習演算法實現的演化》

介紹:本章中作者總結了三代機器學習演算法實現的演化:第一代非分散式的, 第二代工具如Mahout和Rapidminer實現基於Hadoop的擴展,第三代如Spark和Storm實現了實時和迭代數據處理。BIG DATA ANALYTICS BEYOND HADOOP

  • 《圖像處理,分析與機器視覺》

介紹:講計算機視覺的四部奇書(應該叫經典吧)之一,另外三本是Hartley的《多圖幾何》、Gonzalez的《數字圖像處理》、Rafael C.Gonzalez / Richard E.Woods 的《數字圖像處理》

  • 《LinkedIn最新的推薦系統文章Browsemaps》

介紹:裡面基本沒涉及到具體演算法,但作者介紹了CF在LinkedIn的很多應用,以及他們在做推薦過程中獲得的一些經驗。最後一條經驗是應該監控log數據的質量,因為推薦的質量很依賴數據的質量!

  • 《初學者如何查閱自然語言處理(NLP)領域學術資料》

介紹:初學者如何查閱自然語言處理(NLP)領域學術資料

  • 《樹莓派的人臉識別教程》

介紹:用樹莓派和相機模塊進行人臉識別

  • 《利用深度學習與大數據構建對話系統 》

介紹:如何利用深度學習與大數據構建對話系統

  • 《經典論文Leo Breiman:Statistical Modeling: The Two Cultures 》

介紹:Francis Bach合作的有關稀疏建模的新綜述(書):Sparse Modeling for Image and Vision Processing,內容涉及Sparsity, Dictionary Learning, PCA, Matrix Factorization等理論,以及在圖像和視覺上的應用,而且第一部分關於Why does the l1-norm induce sparsity的解釋也很不錯。

  • 《Reproducing Kernel Hilbert Space》

介紹:RKHS是機器學習中重要的概念,其在large margin分類器上的應用也是廣為熟知的。如果沒有較好的數學基礎,直接理解RKHS可能會不易。本文從基本運算空間講到Banach和Hilbert空間,深入淺出,一共才12頁。

  • 《Hackers guide to Neural Networks》

介紹:許多同學對於機器學習及深度學習的困惑在於,數學方面已經大致理解了,但是動起手來卻不知道如何下手寫代碼。斯坦福深度學習博士Andrej Karpathy寫了一篇實戰版本的深度學習及機器學習教程,手把手教你用Javascript寫神經網路和SVM.

  • 《【語料庫】語料庫資源匯總》

介紹:【語料庫】語料庫資源匯總

  • 《機器學習演算法之旅》

介紹:本文會過一遍最流行的機器學習演算法,大致了解哪些方法可用,很有幫助。

  • 《Reproducible Research in Computational Science》

介紹:這個裡面有很多關於機器學習、信號處理、計算機視覺、深入學習、神經網路等領域的大量源代碼(或可執行代碼)及相關論文。科研寫論文的好資源

  • 《NYU 2014年的深度學習課程資料》

介紹:NYU 2014年的深度學習課程資料,有視頻

  • 《計算機視覺數據集不完全匯總》

介紹:計算機視覺數據集不完全匯總

  • 《Machine Learning Open Source Software》

介紹:機器學習開源軟體

  • 《LIBSVM》

介紹:A Library for Support Vector Machines

  • 《Support Vector Machines》

介紹:數據挖掘十大經典演算法之一

  • 《100 Best GitHub: Deep Learning》

介紹:github上面100個非常棒的項目

  • 《加州大學歐文分校(UCI)機器學習數據集倉庫》

介紹:當前加州大學歐文分校為機器學習社區維護著306個數據集。查詢數據集

  • 《Andrej Karpathy個人主頁》

介紹:Andrej Karpathy 是斯坦福大學Li Fei-Fei的博士生,使用機器學習在圖像、視頻語義分析領域取得了科研和工程上的突破,發的文章不多,但每個都很紮實,在每一個問題上都做到了state-of-art.

  • 《Andrej Karpathy的深度強化學習演示》

介紹:Andrej Karpathy的深度強化學習演示,論文在這裡

  • 《CIKM數據挖掘競賽奪冠演算法-陳運文》

介紹:CIKM Cup(或者稱為CIKM Competition)是ACM CIKM舉辦的國際數據挖掘競賽的名稱。

  • 《Geoffrey E. Hinton》

介紹:傑弗里·埃弗里斯特·辛頓 FRS是一位英國出生的計算機學家和心理學家,以其在神經網路方面的貢獻聞名。辛頓是反向傳播演算法和對比散度演算法的發明人之一,也是深度學習的積極推動者.

  • 《自然語言處理的深度學習理論與實際》

介紹:微軟研究院深度學習技術中心在CIKM2014 上關於《自然語言處理的深度學習理論與實際》教學講座的幻燈片

  • 《用大數據和機器學習做股票價格預測》

介紹: 本文基於<支持向量機的高頻限價訂單的動態建模>採用了 Apache Spark和Spark MLLib從紐約股票交易所的訂單日誌數據構建價格運動預測模型。(股票有風險,投資謹慎)GitHub源代碼託管地址.

  • 《關於機器學習的若干理論問題》

介紹:徐宗本 院士將於熱愛機器學習的小夥伴一起探討有關於機器學習的幾個理論性問題,並給出一些有意義的結論。最後通過一些實例來說明這些理論問題的物理意義和實際應用價值。

  • 《深度學習在自然語言處理的應用》

介紹:作者還著有《這就是搜索引擎:核心技術詳解》一書,主要是介紹應用層的東西

  • 《Undergraduate machine learning at UBC》

介紹:機器學習課程

  • 《人臉識別必讀的N篇文章》

介紹:人臉識別必讀文章推薦

  • 《推薦系統經典論文文獻及業界應用》

介紹:推薦系統經典論文文獻

  • 《人臉識別必讀的N篇文章》

介紹:人臉識別必讀文章推薦

  • 《第十二屆中國"機器學習及其應用"研討會PPT》

介紹:第十二屆中國"機器學習及其應用"研討會PPT

  • 《統計機器學習》

介紹:統計學習是關於計算機基於數據構建的概率統計模型並運用模型對數據進行預測和分析的一門科學,統計學習也成為統計機器學習。課程來自上海交通大學

  • 《機器學習導論》

介紹:機器學習的目標是對計算機編程,以便使用樣本數據或以往的經驗來解決給定的問題.

  • 《CIKM 2014主題報告的幻燈片》

介紹:CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum的主題報告的幻燈片, Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin的Industry Track報告的幻燈片

  • 《人工智慧和機器學習領域有趣的開源項目》

介紹:部分中文列表

  • 《機器學習經典演算法詳解及Python實現--基於SMO的SVM分類器》

介紹:此外作者還有一篇元演算法、AdaBoost python實現文章

  • 《Numerical Optimization: Understanding L-BFGS》

介紹:加州伯克利大學博士Aria Haghighi寫了一篇超贊的數值優化博文,從牛頓法講到擬牛頓法,再講到BFGS以及L-BFGS, 圖文並茂,還有偽代碼。強烈推薦。

  • 《簡明深度學習方法概述(一)》

介紹:還有續集簡明深度學習方法概述(二)

  • 《R language for programmers》

介紹:R語言程序員私人定製版

  • 《谷歌地圖解密:大數據與機器學習的結合》

介紹:谷歌地圖解密

  • 《空間數據挖掘常用方法》

介紹:空間數據挖掘常用方法

  • 《Use Googles Word2Vec for movie reviews》

介紹:Kaggle新比賽 」When bag of words meets bags of popcorn「 aka 」邊學邊用word2vec和deep learning做NLP「 裡面全套教程教一步一步用python和gensim包的word2vec模型,並在實際比賽裡面比調參數和清數據。 如果已裝過gensim不要忘升級

  • 《PyNLPIR》

介紹:PyNLPIR提供了NLPIR/ICTCLAS漢語分詞的Python介面,此外Zhon提供了常用漢字常量,如CJK字元和偏旁,中文標點,拼音,和漢字正則表達式(如找到文本中的繁體字)

  • 《深度卷積神經網路下圍棋》

介紹:這文章說把最近模型識別上的突破應用到圍棋軟體上,打16萬張職業棋譜訓練模型識別功能。想法不錯。訓練後目前能做到不用計算,只看棋盤就給出下一步,大約10級棋力。但這篇文章太過樂觀,說什麼人類的最後一塊堡壘馬上就要跨掉了。話說得太早。不過,如果與別的軟體結合應該還有潛力可挖。@萬精油墨綠

  • 《NIPS審稿實驗》

介紹:UT Austin教授Eric Price關於今年NIPS審稿實驗的詳細分析,他表示,根據這次實驗的結果,如果今年NIPS重新審稿的話,會有一半的論文被拒。

  • 《2014年最佳的大數據,數據科學文章》

介紹:KDNuggets分別總結了2014年14個閱讀最多以及分享最多的文章。我們從中可以看到多個主題——深度學習,數據科學家職業,教育和薪酬,學習數據科學的工具比如R和Python以及大眾投票的最受歡迎的數據科學和數據挖掘語言

  • 《機器學習經典演算法詳解及Python實現--線性回歸(Linear Regression)演算法》

介紹:Python實現線性回歸,作者還有其他很棒的文章推薦可以看看

  • 《2014中國大數據技術大會33位核心專家演講PDF》

介紹:2014中國大數據技術大會33位核心專家演講PDF下載

  • 《使用RNN和Paragraph Vector做情感分析》

介紹:這是T. Mikolov & Y. Bengio最新論文Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ,使用RNN和PV在情感分析效果不錯,[項目代碼](https://github.com/mesnilgr/iclr15)公布在github(目前是空的)。這意味著Paragraph Vector終於揭開面紗了嘛。

  • 《NLPIR/ICTCLAS2015分詞系統大會上的技術演講 》

介紹:NLPIR/ICTCLAS2015分詞系統發布與用戶交流大會上的演講,請更多朋友檢閱新版分詞吧。 我們實驗室同學的演講包括:孫夢姝-基於評論觀點挖掘的商品搜索技術研究 李然-主題模型

  • 《Machine Learning is Fun!》

介紹:Convex Neural Networks 解決維數災難

  • 《CNN的反向求導及練習》

介紹:介紹CNN參數在使用bp演算法時該怎麼訓練,畢竟CNN中有卷積層和下採樣層,雖然和MLP的bp演算法本質上相同,但形式上還是有些區別的,很顯然在完成CNN反向傳播前了解bp演算法是必須的。此外作者也做了一個資源集:機器學習,深度學習,視覺,數學等

  • 《正則表達式優化成Trie樹 》

介紹:如果要在一篇文章中匹配十萬個關鍵詞怎麼辦?Aho-Corasick 演算法利用添加了返回邊的Trie樹,能夠在線性時間內完成匹配。 但如果匹配十萬個正則表達式呢 ? 這時候可以用到把多個正則優化成Trie樹的方法,如日本人寫的 Regexp::Trie

  • 《Deep learning Reading List》

介紹:深度學習閱讀清單

  • 《Caffe》

介紹:Caffe是一個開源的深度學習框架,作者目前在google工作,作者主頁Yangqing Jia (賈揚清)

  • 《GoogLeNet深度學習模型的Caffe復現 》

介紹:2014 ImageNet冠軍GoogLeNet深度學習模型的Caffe復現模型,GoogleNet論文.

  • 《LambdaNet,Haskell實現的開源人工神經網路庫 》

介紹:LambdaNetLambdaNet是由Haskell實現的一個開源的人工神經網路庫,它抽象了網路創建、訓練並使用了高階函數。該庫還提供了一組預定義函數,用戶可以採取多種方式組合這些函數來操作現實世界數據。

  • 《百度余凱&張潼機器學習視頻》

介紹:如果你從事互聯網搜索,在線廣告,用戶行為分析,圖像識別,自然語言理解,或者生物信息學,智能機器人,金融預測,那麼這門核心課程你必須深入了解。

  • 《楊強在TEDxNanjing談智能的起源》

介紹:"人工智慧研究分許多流派。其中之一以IBM為代表,認為只要有高性能計算就可得到智能,他們的『深藍』擊敗了世界象棋冠軍;另一流派認為智能來自動物本能;還有個很強的流派認為只要找來專家,把他們的思維用邏輯一條條寫下,放到計算機里就行……" 楊強在TEDxNanjing談智能的起源

  • 《深度RNN/LSTM用於結構化學習 0)序列標註Connectionist Temporal ClassificationICML06》

介紹:1)機器翻譯Sequence to Sequence NIPS14 2)成分句法GRAMMAR AS FOREIGN LANGUAGE

  • 《Deep Learning實戰之word2vec》

介紹:網易有道的三位工程師寫的word2vec的解析文檔,從基本的詞向量/統計語言模型->NNLM->Log-Linear/Log-Bilinear->層次化Log-Bilinear,到CBOW和Skip-gram模型,再到word2vec的各種tricks,公式推導與代碼,基本上是網上關於word2vec資料的大合集,對word2vec感興趣的朋友可以看看

  • 《Machine learning open source software》

介紹:機器學習開源軟體,收錄了各種機器學習的各種編程語言學術與商業的開源軟體.與此類似的還有很多例如:DMOZ - Computers: Artificial Intelligence: Machine Learning: Software, LIBSVM -- A Library for Support Vector Machines, Weka 3: Data Mining Software in Java, scikit-learn:Machine Learning in Python, Natural Language Toolkit:NLTK, MAchine Learning for LanguagE Toolkit, Data Mining - Fruitful and Fun, Open Source Computer Vision Library

  • 《機器學習入門者學習指南》

介紹:作者是計算機研二(寫文章的時候,現在是2015年了應該快要畢業了),專業方向自然語言處理.這是一點他的經驗之談.對於入門的朋友或許會有幫助

  • 《A Tour of Machine Learning Algorithms》

介紹:這是一篇關於機器學習演算法分類的文章,非常好

  • 《2014年的《機器學習日報》大合集》

介紹:機器學習日報裡面推薦很多內容,在這裡有一部分的優秀內容就是來自機器學習日報.

  • 《 Image classification with deep learning常用模型》

介紹:這是一篇關於圖像分類在深度學習中的文章

  • 《自動語音識別:深度學習方法》

介紹:作者與Bengio的兄弟Samy 09年合編《自動語音識別:核方法》 3)李開復1989年《自動語音識別》專著,其博導、94年圖靈獎得主Raj Reddy作序

  • 《NLP中的中文分詞技術》

介紹: 作者是360電商技術組成員,這是一篇NLP在中文分詞中的應用

  • 《Using convolutional neural nets to detect facial keypoints tutorial》

介紹: 使用deep learning的人臉關鍵點檢測,此外還有一篇AWS部署教程

  • 《書籍推薦:Advanced Structured Prediction》

介紹: 由Sebastian Nowozin等人編纂MIT出版的新書《Advanced Structured Prediction》t.cn/RZxipKG ,彙集了結構化預測領域諸多牛文,涉及CV、NLP等領域,值得一讀。網上公開的幾章草稿:,,,,

  • 《An Introduction to Matrix Concentration Inequalities》

介紹: Tropp把數學家用高深裝逼的數學語言寫的矩陣概率不等式用初等的方法寫出來,是非常好的手冊,領域內的paper各種證明都在用裡面的結果。雖說是初等的,但還是非常的難

  • 《The free big data sources you should know》

介紹: 不容錯過的免費大數據集,有些已經是耳熟能詳,有些可能還是第一次聽說,內容跨越文本、數據、多媒體等,讓他們伴你開始數據科學之旅吧,具體包括:Data.gov、US Census Bureau、European Union Open Data Portal、Data.gov.uk

  • 《A Brief Overview of Deep Learning》

介紹: 谷歌科學家、Hinton親傳弟子Ilya Sutskever的深度學習綜述及實際建議

  • 《A Deep Dive into Recurrent Neural Nets》

介紹: 非常好的討論遞歸神經網路的文章,覆蓋了RNN的概念、原理、訓練及優化等各個方面內容,強烈推薦!本文作者Nikhil Buduma還有一篇Deep Learning in a Nutshell值得推薦

  • 《機器學習:學習資源》

介紹:裡面融合了很多的資源,例如競賽,在線課程,demo,數據整合等。有分類

  • 《Statistical foundations of machine learning》

介紹:《機器學習的統計基礎》在線版,該手冊希望在理論與實踐之間找到平衡點,各主要內容都伴有實際例子及數據,書中的例子程序都是用R語言編寫的。

  • 《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

介紹:IVAN VASILEV寫的深度學習導引:從淺層感知機到深度網路。高可讀

  • 《Research priorities for robust and beneficial artificial intelligence》

介紹:魯棒及有益的人工智慧優先研究計劃:一封公開信,目前已經有Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk等人簽署The Future of Life Institute (FLI).這封信的背景是最近霍金和Elon Musk提醒人們注意AI的潛在威脅。公開信的內容是AI科學家們站在造福社會的角度,展望人工智慧的未來發展方向,提出開發AI系統的Verification,Validity, Security, Control四點要求,以及需要注意的社會問題。畢竟當前AI在經濟領域,法律,以及道德領域相關研究較少。其實還有一部美劇《疑犯追蹤》,介紹了AI的演進從一開始的自我學習,過濾,圖像識別,語音識別等判斷危險,到第四季的時候出現了機器通過學習成長之後想控制世界的狀態。說到這裡推薦收看。

  • 《metacademy》

介紹:裡面根據詞條提供了許多資源,還有相關知識結構,路線圖,用時長短等。號稱是」機器學習「搜索引擎

  • 《FAIR open sources deep-learning modules for Torch》

介紹:Facebook人工智慧研究院(FAIR)開源了一系列軟體庫,以幫助開發者建立更大、更快的深度學習模型。開放的軟體庫在 Facebook 被稱作模塊。用它們替代機器學習領域常用的開發環境 Torch 中的默認模塊,可以在更短的時間內訓練更大規模的神經網路模型。

  • 《淺析人臉檢測之Haar分類器方法》

介紹:本文雖然是寫於2012年,但是這篇文章完全是作者的經驗之作。

  • 《如何成為一位數據科學家》

介紹:本文是對《機器學習實戰》作者Peter Harrington做的一個訪談。包含了書中部分的疑問解答和一點個人學習建議

  • 《Deep learning from the bottom up》

介紹:非常好的深度學習概述,對幾種流行的深度學習模型都進行了介紹和討論

  • 《Hands-On Data Science with R Text Mining》

介紹:主要是講述了利用R語言進行數據挖掘

  • 《Understanding Convolutions》

介紹:幫你理解卷積神經網路,講解很清晰,此外還有兩篇Conv Nets: A Modular PerspectiveGroups & Group Convolutions. 作者的其他的關於神經網路文章也很棒

  • 《Introduction to Deep Learning Algorithms》

介紹:Deep Learning演算法介紹,裡面介紹了06年3篇讓deep learning崛起的論文

  • 《Learning Deep Architectures for AI》

介紹:一本學習人工智慧的書籍,作者是Yoshua Bengio,相關國內報道

  • 《Geoffrey E. Hinton個人主頁》

介紹:Geoffrey Hinton是Deep Learning的大牛,他的主頁放了一些介紹性文章和課件值得學習

  • 《PROBABILITY THEORY: THE LOGIC OF SCIENCE》

介紹:概率論:數理邏輯書籍

  • 《H2O》

介紹:一個用來快速的統計,機器學習並且對於數據量大的數學庫

  • 《ICLR 2015會議的arXiv稿件合集》

介紹:在這裡你可以看到最近深度學習有什麼新動向。

  • 《Introduction to Information Retrieval》

介紹:此書在信息檢索領域家喻戶曉, 除提供該書的免費電子版外,還提供一個IR資源列表 ,收錄了信息檢索、網路信息檢索、搜索引擎實現等方面相關的圖書、研究中心、相關課程、子領域、會議、期刊等等,堪稱全集,值得收藏

  • 《Information Geometry and its Applications to Machine Learning》

介紹:信息幾何學及其在機器學習中的應用

  • 《Legal Analytics – Introduction to the Course》

介紹:課程《法律分析》介紹幻燈片。用機器學習解決法律相關分析和預測問題,相關的法律應用包括預測編碼、早期案例評估、案件整體情況的預測,定價和工作人員預測,司法行為預測等。法律領域大家可能都比較陌生,不妨了解下。

  • 《文本上的演算法》

介紹: 文中提到了最優,模型,最大熵等等理論,此外還有應用篇。推薦系統可以說是一本不錯的閱讀稿,關於模型還推薦一篇Generative Model 與 Discriminative Model

  • 《NeuralTalk》

介紹: NeuralTalk is a Python+numpy project for learning Multimodal Recurrent Neural Networks that describe images with sentences.NeuralTalk是一個Python的從圖像生成自然語言描述的工具。它實現了Google (Vinyals等,卷積神經網路CNN + 長短期記憶LSTM) 和斯坦福 (Karpathy and Fei-Fei, CNN + 遞歸神經網路RNN)的演算法。NeuralTalk自帶了一個訓練好的動物模型,你可以拿獅子大象的照片來試試看

  • 《Deep Learning on Hadoop 2.0》

介紹:本文主要介紹了在Hadoop2.0上使用深度學習,文章來自paypal

  • 《Practical recommendations for gradient-based training of deep architectures》

介紹:用基於梯度下降的方法訓練深度框架的實踐推薦指導,作者是Yoshua Bengio .感謝@xuewei4d 推薦

  • 《Machine Learning With Statistical And Causal Methods》

介紹: 用統計和因果方法做機器學習(視頻報告)

  • 《Machine Learning Course 180』》

介紹: 一個講機器學習的Youtube視頻教程。160集。系統程度跟書可比擬。

  • 《回歸(regression)、梯度下降(gradient descent)》

介紹: 機器學習中的數學,作者的研究方向是機器學習,並行計算如果你還想了解一點其他的可以看看他博客的其他文章

  • 《美團推薦演算法實踐》

介紹: 美團推薦演算法實踐,從框架,應用,策略,查詢等分析

  • 《Deep Learning for Answer Sentence Selection》

介紹: 深度學慣用於問答系統答案句的選取

  • 《Learning Semantic Representations Using Convolutional Neural Networks for Web Search 》

介紹: CNN用於WEB搜索,深度學習在文本計算中的應用

  • 《Awesome Public Datasets》

介紹: Awesome系列中的公開數據集

  • 《Search Engine & Community》

介紹: 一個學術搜索引擎

  • 《spaCy》

介紹: 用Python和Cython寫的工業級自然語言處理庫,號稱是速度最快的NLP庫,快的原因一是用Cython寫的,二是用了個很巧妙的hash技術,加速系統的瓶頸,NLP中稀鬆特徵的存取

  • 《Collaborative Filtering with Spark》

介紹: Fields是個數學研究中心,上面的這份ppt是來自Fields舉辦的活動中Russ Salakhutdinov帶來的《大規模機器學習》分享

  • 《Topic modeling 的經典論文》

介紹: Topic modeling 的經典論文,標註了關鍵點

  • 《Move Evaluation in Go Using Deep Convolutional Neural Networks》

介紹: 多倫多大學與Google合作的新論文,深度學習也可以用來下圍棋,據說能達到六段水平

  • 《機器學習周刊第二期》

介紹: 新聞,paper,課程,book,system,CES,Roboot,此外還推薦一個深度學習入門與綜述資料

  • 《Learning more like a human: 18 free eBooks on Machine Learning》

介紹: 18 free eBooks on Machine Learning

  • 《Recommend :Hang Li Home》

介紹:Chief scientist of Noahs Ark Lab of Huawei Technologies.He worked at the Research Laboratories of NEC Corporation during 1990 and 2001 and Microsoft Research Asia during 2001 and 2012.Paper

  • 《DEEPLEARNING.UNIVERSITY – AN ANNOTATED DEEP LEARNING BIBLIOGRAPHY》

介紹: DEEPLEARNING.UNIVERSITY的論文庫已經收錄了963篇經過分類的深度學習論文了,很多經典論文都已經收錄

  • 《MLMU.cz - Radim ?eh??ek - Word2vec & friends (7.1.2015)》

介紹: Radim ?eh??ek(Gensim開發者)在一次機器學習聚會上的報告,關於word2vec及其優化、應用和擴展,很實用.國內網盤

  • 《Introducing streaming k-means in Spark 1.2》

介紹:很多公司都用機器學習來解決問題,提高用戶體驗。那麼怎麼可以讓機器學習更實時和有效呢?Spark MLlib 1.2裡面的Streaming K-means,由斑馬魚腦神經研究的Jeremy Freeman腦神經科學家編寫,最初是為了實時處理他們每半小時1TB的研究數據,現在發布給大家用了。

  • 《LDA入門與Java實現》

介紹: 這是一篇面向工程師的LDA入門筆記,並且提供一份開箱即用Java實現。本文只記錄基本概念與原理,並不涉及公式推導。文中的LDA實現核心部分採用了arbylon的LdaGibbsSampler并力所能及地註解了,在搜狗分類語料庫上測試良好,開源在GitHub上。

  • 《AMiner - Open Science Platform》

介紹: AMiner是一個學術搜索引擎,從學術網路中挖掘深度知識、面向科技大數據的挖掘。收集近4000萬作者信息、8000萬論文信息、1億多引用關係、鏈接近8百萬知識點;支持專家搜索、機構排名、科研成果評價、會議排名。

  • 《What are some interesting Word2Vec results?》

介紹: Quora上的主題,討論Word2Vec的有趣應用,Omer Levy提到了他在CoNLL2014最佳論文里的分析結果和新方法,Daniel Hammack給出了找特異詞的小應用並提供了(Python)代碼

  • 《機器學習公開課匯總》

介紹: 機器學習公開課匯總,雖然裡面的有些課程已經歸檔過了,但是還有個別的信息沒有。感謝課程圖譜的小編

  • 《A First Course in Linear Algebra》

介紹: 【A First Course in Linear Algebra】Robert Beezer 有答案 有移動版、列印版 使用GNU自由文檔協議 引用了傑弗遜1813年的信

  • 《libfacedetection》

介紹:libfacedetection是深圳大學開源的一個人臉圖像識別庫。包含正面和多視角人臉檢測兩個演算法.優點:速度快(OpenCV haar+adaboost的2-3倍), 準確度高 (FDDB非公開類評測排名第二),能估計人臉角度。

  • 《Inverting a Steady-State》

介紹:WSDM2015最佳論文 把馬爾可夫鏈理論用在了圖分析上面,比一般的propagation model更加深刻一些。通過全局的平穩分布去求解每個節點影響係數模型。假設合理(轉移受到相鄰的影響係數影響)。可以用來反求每個節點的影響係數

  • 《機器學習入門書單》

介紹:機器學習入門書籍,具體介紹

  • 《The Trouble with SVMs》

介紹: 非常棒的強調特徵選擇對分類器重要性的文章。情感分類中,根據互信息對複雜高維特徵降維再使用樸素貝葉斯分類器,取得了比SVM更理想的效果,訓練和分類時間也大大降低——更重要的是,不必花大量時間在學習和優化SVM上——特徵也一樣no free lunch

  • 《Rise of the Machines》

介紹:CMU的統計系和計算機系知名教授Larry Wasserman 在《機器崛起》,對比了統計和機器學習的差異

  • 《實例詳解機器學習如何解決問題》

介紹:隨著大數據時代的到來,機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界,機器學習都是一個炙手可熱的方向,但是學術界和工業界對機器學習的研究各有側重,學術界側重於對機器學習理論的研究,工業界側重於如何用機器學習來解決實際問題。這篇文章是美團的實際環境中的實戰篇

  • 《Gaussian Processes for Machine Learning》

介紹:面向機器學習的高斯過程,章節概要:回歸、分類、協方差函數、模型選擇與超參優化、高斯模型與其他模型關係、大數據集的逼近方法等,微盤下載

  • 《FuzzyWuzzy: Fuzzy String Matching in Python》

介紹:Python下的文本模糊匹配庫,老庫新推,可計算串間ratio(簡單相似係數)、partial_ratio(局部相似係數)、token_sort_ratio(詞排序相似係數)、token_set_ratio(詞集合相似係數)等 github

  • 《Blocks》

介紹:Blocks是基於Theano的神經網路搭建框架,集成相關函數、管道和演算法,幫你更快地創建和管理NN模塊.

  • 《Introduction to Machine Learning》

介紹:機器學習大神Alex Smola在CMU新一期的機器學習入門課程」Introduction to Machine Learning「近期剛剛開課,課程4K高清視頻同步到Youtube上,目前剛剛更新到 2.4 Exponential Families,課程視頻playlist, 感興趣的同學可以關注,非常適合入門.

  • 《Collaborative Feature Learning from Social Media》

介紹:用社交用戶行為學習圖片的協同特徵,可更好地表達圖片內容相似性。由於不依賴於人工標籤(標註),可用於大規模圖片處理,難在用戶行為數據的獲取和清洗;利用社會化特徵的思路值得借鑒.

  • 《Introducing practical and robust anomaly detection in a time series》

介紹:Twitter技術團隊對前段時間開源的時間序列異常檢測演算法(S-H-ESD)R包的介紹,其中對異常的定義和分析很值得參考,文中也提到——異常是強針對性的,某個領域開發的異常檢測在其他領域直接用可不行.

  • 《Empower Your Team to Deal with Data-Quality Issues》

介紹:聚焦數據質量問題的應對,數據質量對各種規模企業的性能和效率都至關重要,文中總結出(不限於)22種典型數據質量問題顯現的信號,以及典型的數據質量解決方案(清洗、去重、統一、匹配、許可權清理等)

  • 《中文分詞入門之資源》

介紹:中文分詞入門之資源.

  • 《Deep Learning Summit, San Francisco, 2015》

介紹:15年舊金山深度學習峰會視頻集萃,國內雲盤

  • 《Introduction to Conditional Random Fields》

介紹:很好的條件隨機場(CRF)介紹文章,作者的學習筆記

  • 《A Fast and Accurate Dependency Parser using Neural Networks》

介紹: 來自Stanford,用神經網路實現快速準確的依存關係解析器

  • 《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》

介紹:做深度學習如何選擇GPU的建議

  • 《Sparse Linear Models》

介紹: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的報告,講稀疏線性模型——面向「寬數據」(特徵維數超過樣本數)的線性模型,13年同主題報告講義.

  • 《Awesome Computer Vision》

介紹: 分類整理的機器視覺相關資源列表,秉承Awesome系列風格,有質有量!作者的更新頻率也很頻繁

  • 《Adam Szeidl》

介紹: social networks course

  • 《Building and deploying large-scale machine learning pipelines》

介紹: 大規模機器學習流程的構建與部署.

  • 《人臉識別開發包》

介紹: 人臉識別二次開發包,免費,可商用,有演示、範例、說明書.

  • 《Understanding Natural Language with Deep Neural Networks Using Torch》

介紹: 採用Torch用深度學習網路理解NLP,來自Facebook 人工智慧的文章.

  • 《The NLP Engine: A Universal Turing Machine for NLP》

介紹: 來自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy來刻畫NLP中各項任務的難度.

  • 《TThe Probabilistic Relevance Framework: BM25 and Beyond》

介紹: 信息檢索排序模型BM25(Besting Matching)。1)從經典概率模型演變而來 2)捕捉了向量空間模型中三個影響索引項權重的因子:IDF逆文檔頻率;TF索引項頻率;文檔長度歸一化。3)並且含有集成學習的思想:組合了BM11和BM15兩個模型。4)作者是BM25的提出者和Okapi實現者Robertson.

  • 《Introduction to ARMA Time Series Models – simplified》

介紹: 自回歸滑動平均(ARMA)時間序列的簡單介紹,ARMA是研究時間序列的重要方法,由自回歸模型(AR模型)與滑動平均模型(MA模型)為基礎「混合」構成.

  • 《Encoding Source Language with Convolutional Neural Network for Machine Translation》

介紹: 把來自target的attention signal加入source encoding CNN的輸入,得到了比BBN的模型好的多neural network joint model

  • 《Spices form the basis of food pairing in Indian cuisine》

介紹: 揭開印度菜的美味秘訣——通過對大量食譜原料關係的挖掘,發現印度菜美味的原因之一是其中的味道互相衝突,很有趣的文本挖掘研究

  • 《HMM相關文章索引》

介紹: HMM相關文章,此外推薦中文分詞之HMM模型詳解

  • 《Zipfs and Heaps law》

介紹: 1)詞頻與其降序排序的關係,最著名的是語言學家齊夫(Zipf,1902-1950)1949年提出的Zipf『s law,即二者成反比關係. 曼德勃羅(Mandelbrot,1924- 2010)引入參數修正了對甚高頻和甚低頻詞的刻畫 2)Heaps law: 辭彙表與語料規模的平方根(這是一個參數,英語0.4-0.6)成正比

  • 《I am Jürgen Schmidhuber, AMA》

介紹: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主題,有不少RNN和AI、ML的乾貨內容,關於開源&思想&方法&建議……耐心閱讀,相信你也會受益匪淺.

  • 《學術種子網站:AcademicTorrents》

介紹: 成G上T的學術數據,HN近期熱議話題,主題涉及機器學習、NLP、SNA等。下載最簡單的方法,通過BT軟體,RSS訂閱各集合即可

  • 《機器學習交互速查表》

介紹: Scikit-Learn官網提供,在原有的Cheat Sheet基礎上加上了Scikit-Learn相關文檔的鏈接,方便瀏覽

  • 《A Full Hardware Guide to Deep Learning》

介紹: 深度學習的全面硬體指南,從GPU到RAM、CPU、SSD、PCIe

  • 《行人檢測(Pedestrian Detection)資源》

介紹:Pedestrian Detection paper & data

  • 《A specialized face-processing network consistent with the representational geometry of monkey face patches》

介紹: 【神經科學碰撞人工智慧】在臉部識別上你我都是專家,即使細微的差別也能辨認。研究已證明人類和靈長類動物在面部加工上不同於其他物種,人類使用梭狀回面孔區(FFA)。Khaligh-Razavi等通過計算機模擬出人臉識別的FFA活動,堪稱神經科學與人工智慧的完美結合。

  • 《Neural Net in C++ Tutorial》

介紹: 神經網路C++教程,本文介紹了用可調節梯度下降和可調節動量法設計和編碼經典BP神經網路,網路經過訓練可以做出驚人和美妙的東西出來。此外作者博客的其他文章也很不錯。

  • 《How to Choose a Neural Network》

介紹:deeplearning4j官網提供的實際應用場景NN選擇參考表,列舉了一些典型問題建議使用的神經網路

  • 《Deep Learning (Python, C/C++, Java, Scala, Go)》

介紹:一個深度學習項目,提供了Python, C/C++, Java, Scala, Go多個版本的代碼

  • 《Deep Learning Tutorials》

介紹:深度學習教程,github

  • 《自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授》

介紹:自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授.

  • 《FaceNet: A Unified Embedding for Face Recognition and Clustering》

介紹:Google對Facebook DeepFace的有力回擊—— FaceNet,在LFW(Labeled Faces in the Wild)上達到99.63%準確率(新紀錄),FaceNet embeddings可用於人臉識別、鑒別和聚類.

  • 《MLlib中的Random Forests和Boosting》

介紹:本文來自Databricks公司網站的一篇博客文章,由Joseph Bradley和Manish Amde撰寫,文章主要介紹了Random Forests和Gradient-Boosted Trees(GBTs)演算法和他們在MLlib中的分散式實現,以及展示一些簡單的例子並建議該從何處上手.中文版.

  • 《Sum-Product Networks(SPN) 》

介紹:華盛頓大學Pedro Domingos團隊的DNN,提供論文和實現代碼.

  • 《Neural Network Dependency Parser》

介紹:基於神經網路的自然語言依存關係解析器(已集成至Stanford CoreNLP),特點是超快、準確,目前可處理中英文語料,基於《A Fast and Accurate Dependency Parser Using Neural Networks》 思路實現.

  • 《神經網路語言模型》

介紹:本文根據神經網路的發展歷程,詳細講解神經網路語言模型在各個階段的形式,其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要變形,總結的特別好.

  • 《Classifying Spam Emails using Text and Readability Features》

介紹:經典問題的新研究:利用文本和可讀性特徵分類垃圾郵件。

  • 《BCI Challenge @ NER 2015》

介紹:Kaggle腦控計算機交互(BCI)競賽優勝方案源碼及文檔,包括完整的數據處理流程,是學習Python數據處理和Kaggle經典參賽框架的絕佳實例

  • 《IPOL Journal · Image Processing On Line》

介紹:IPOL(在線圖像處理)是圖像處理和圖像分析的研究期刊,每篇文章都包含一個演算法及相應的代碼、Demo和實驗文檔。文本和源碼是經過了同行評審的。IPOL是開放的科學和可重複的研究期刊。我一直想做點類似的工作,拉近產品和技術之間的距離.

  • 《Machine learning classification over encrypted data》

介紹:出自MIT,研究加密數據高效分類問題.

  • 《purine2》

介紹:新加坡LV實驗室的神經網路並行框架Purine: A bi-graph based deep learning framework,支持構建各種並行的架構,在多機多卡,同步更新參數的情況下基本達到線性加速。12塊Titan 20小時可以完成Googlenet的訓練。

  • 《Machine Learning Resources》

介紹:這是一個機器學習資源庫,雖然比較少.但蚊子再小也是肉.有突出部分.此外還有一個由zheng Rui整理的機器學習資源.

  • 《Hands-on with machine learning》

介紹:Chase Davis在NICAR15上的主題報告材料,用Scikit-Learn做監督學習的入門例子.

  • 《The Natural Language Processing Dictionary》

介紹:這是一本自然語言處理的詞典,從1998年開始到目前積累了成千上萬的專業詞語解釋,如果你是一位剛入門的朋友.可以借這本詞典讓自己成長更快.

  • 《PageRank Approach to Ranking National Football Teams》

介紹:通過分析1930年至今的比賽數據,用PageRank計算世界盃參賽球隊排行榜.

  • 《R Tutorial》

介紹:R語言教程,此外還推薦一個R語言教程An Introduction to R.

  • 《Fast unfolding of communities in large networks》

介紹:經典老文,複雜網路社區發現的高效演算法,Gephi中的Community detection即基於此.

  • 《NUML》

介紹: 一個面向 .net 的開源機器學習庫,github地址

  • 《synaptic.Js》

介紹: 支持node.js的JS神經網路庫,可在客戶端瀏覽器中運行,支持LSTM等 github地址

  • 《Machine learning for package users with R (1): Decision Tree》

介紹: 決策樹

  • 《Deep Learning, The Curse of Dimensionality, and Autoencoders》

介紹: 討論深度學習自動編碼器如何有效應對維數災難,國內翻譯

  • 《Advanced Optimization and Randomized Methods》

介紹: CMU的優化與隨機方法課程,由A. Smola和S. Sra主講,優化理論是機器學習的基石,值得深入學習 國內雲(視頻)

  • 《CS231n: Convolutional Neural Networks for Visual Recognition》

介紹: "面向視覺識別的CNN"課程設計報告集錦.近百篇,內容涉及圖像識別應用的各個方面

  • 《Topic modeling with LDA: MLlib meets GraphX》

介紹:用Spark的MLlib+GraphX做大規模LDA主題抽取.

  • 《Deep Learning for Multi-label Classification》

介紹: 基於深度學習的多標籤分類,用基於RBM的DBN解決多標籤分類(特徵)問題

  • 《Google DeepMind publications》

介紹: DeepMind論文集錦

  • 《kaldi》

介紹: 一個開源語音識別工具包,它目前託管在sourceforge上面

  • 《Data Journalism Handbook》

介紹: 免費電子書《數據新聞手冊》, 國內有熱心的朋友翻譯了中文版,大家也可以在線閱讀

  • 《Data Mining Problems in Retail》

介紹: 零售領域的數據挖掘文章.

  • 《Understanding Convolution in Deep Learning》

介紹: 深度學習卷積概念詳解,深入淺出.

  • 《pandas: powerful Python data analysis toolkit》

介紹: 非常強大的Python的數據分析工具包.

  • 《Text Analytics 2015》

介紹: 2015文本分析(商業)應用綜述.

  • 《Deep Learning libraries and ?rst experiments with Theano》

介紹: 深度學習框架、庫調研及Theano的初步測試體會報告.

  • 《DEEP learning》

介紹: MIT的Yoshua Bengio, Ian Goodfellow, Aaron Courville著等人講深度學習的新書,還未定稿,線上提供Draft chapters收集反饋,超贊!強烈推薦.

  • 《simplebayes》

介紹: Python下開源可持久化樸素貝葉斯分類庫.

  • 《Paracel》

介紹:Paracel is a distributed computational framework designed for machine learning problems, graph algorithms and scientific computing in C++.

  • 《HanLP:Han Language processing》

介紹: 開源漢語言處理包.

  • 《Simple Neural Network implementation in Ruby》

介紹: 使用Ruby實現簡單的神經網路例子.

  • 《Hackers guide to Neural Networks》

介紹:神經網路黑客入門.

  • 《The Open-Source Data Science Masters》

介紹:好多數據科學家名人推薦,還有資料.

  • 《Text Understanding from Scratch》

介紹:實現項目已經開源在github上面Crepe

  • 《 Improving Distributional Similarity with Lessons Learned from Word Embeddings》

介紹:作者發現,經過調參,傳統的方法也能和word2vec取得差不多的效果。另外,無論作者怎麼試,GloVe都比不過word2vec.

  • 《CS224d: Deep Learning for Natural Language Processing》

介紹:Stanford深度學習與自然語言處理課程,Richard Socher主講.

  • 《Math Essentials in Machine Learning》

介紹:機器學習中的重要數學概念.

  • 《Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks》

介紹:用於改進語義表示的樹型LSTM遞歸神經網路,句子級相關性判斷和情感分類效果很好.實現代碼.

  • 《Statistical Machine Learning》

介紹:卡耐基梅隆Ryan Tibshirani和Larry Wasserman開設的機器學習課程,先修課程為機器學習(10-715)和中級統計學(36-705),聚焦統計理論和方法在機器學習領域應用.

  • 《AM207: Monte Carlo Methods, Stochastic Optimization》

介紹:《哈佛大學蒙特卡洛方法與隨機優化課程》是哈佛應用數學研究生課程,由V Kaynig-Fittkau、P Protopapas主講,Python程序示例,對貝葉斯推理感興趣的朋友一定要看看,提供授課視頻及課上IPN講義.

  • 《生物醫學的SPARK大數據應用》

介紹:生物醫學的SPARK大數據應用.並且伯克利開源了他們的big data genomics系統ADAM,其他的內容可以關注一下官方主頁.

  • 《ACL Anthology》

介紹:對自然語言處理技術或者機器翻譯技術感興趣的親們,請在提出自己牛逼到無以倫比的idea(自動歸納翻譯規律、自動理解語境、自動識別語義等等)之前,請通過谷歌學術簡單搜一下,如果谷歌不可用,這個網址有這個領域幾大頂會的論文列表,切不可斷章取義,胡亂假設.

  • 《Twitter Sentiment Detection via Ensemble Classification Using Averaged Confidence Scores》

介紹:論文+代碼:基於集成方法的Twitter情感分類,實現代碼.

  • 《NIPS 2014 CIML workshop》

介紹:NIPS CiML 2014的PPT,NIPS是神經信息處理系統進展大會的英文簡稱.

  • 《CS231n: Convolutional Neural Networks for Visual Recognition》

介紹:斯坦福的深度學習課程的Projects 每個人都要寫一個論文級別的報告 裡面有一些很有意思的應用 大家可以看看 .

  • 《A Speed Comparison Between Flexible Linear Regression Alternatives in R》

介紹:R語言線性回歸多方案速度比較具體方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan』s optimizing()等.

  • 《Back-to-Basics Weekend Reading - Machine Learning》

介紹:文中提到的三篇論文(機器學習那些事、無監督聚類綜述、監督分類綜述)都很經典,Domnigos的機器學習課也很精彩

  • 《A Probabilistic Theory of Deep Learning》

介紹:萊斯大學(Rice University)的深度學習的概率理論.

  • 《Nonsensical beer reviews via Markov chains》

介紹:基於馬爾可夫鏈自動生成啤酒評論的開源Twitter機器人,github地址.

  • 《Deep Learning for Natural Language Processing (without Magic)》

介紹:視頻+講義:深度學慣用於自然語言處理教程(NAACL13).

  • 《Introduction to Data Analysis using Machine Learning》

介紹:用機器學習做數據分析,David Taylor最近在McGill University研討會上的報告,還提供了一系列講機器學習方法的ipn,很有價值 GitHub.國內

  • 《Beyond Short Snippets: Deep Networks for Video Classification》

介紹:基於CNN+LSTM的視頻分類,google演示.

  • 《How does Quora use machine learning in 2015?》

介紹:Quora怎麼用機器學習.

  • 《Amazon Machine Learning – Make Data-Driven Decisions at Scale》

介紹:亞馬遜在機器學習上面的一些應用,代碼示例.

  • 《Parallel Machine Learning with scikit-learn and IPython》

介紹:並行機器學習指南(基於scikit-learn和IPython).notebook

  • 《Intro to machine learning with scikit-learn》

介紹:DataSchool的機器學習基本概念教學.

  • 《DeepCLn》

介紹:一個基於OpenGL實現的卷積神經網路,支持Linux及Windows系.

  • 《An Inside Look at the Components of a Recommendation Engine》

介紹:基於Mahout和Elasticsearch的推薦系統.

  • 《Forecasting in Economics, Business, Finance and Beyond》

介紹:Francis X. Diebold的《(經濟|商業|金融等領域)預測方法.

  • 《Time Series Econometrics - A Concise Course》

介紹:Francis X. Diebold的《時序計量經濟學》.

  • 《A comparison of open source tools for sentiment analysis》

介紹:基於Yelp數據集的開源情感分析工具比較,評測覆蓋Naive Bayes、SentiWordNet、CoreNLP等 .

  • 《Pattern Recognition And Machine Learning》

介紹:國內Pattern Recognition And Machine Learning讀書會資源匯總,各章pdf講稿,博客.

  • 《Probabilistic Data Structures for Web Analytics and Data Mining 》

介紹:用於Web分析和數據挖掘的概率數據結構.

  • 《Machine learning in navigation devices: detect maneuvers using accelerometer and gyroscope》

介紹:機器學習在導航上面的應用.

  • 《Neural Networks Demystified 》

介紹:Neural Networks Demystified系列視頻,Stephen Welch製作,純手繪風格,淺顯易懂,國內雲.

  • 《swirl + DataCamp 》

介紹:{swirl}數據訓練營:R&數據科學在線交互教程.

  • 《Learning to Read with Recurrent Neural Networks 》

介紹:關於深度學習和RNN的討論 Sequence to Sequence Learning with Neural Networks.

  • 《深度強化學習(Deep Reinforcement Learning)的資源》

介紹:Deep Reinforcement Learning.

  • 《Machine Learning with Scikit-Learn》

介紹:(PyCon2015)Scikit-Learn機器學習教程,Parallel Machine Learning with scikit-learn and IPython.

  • 《PDNN》

介紹:PDNN: A Python Toolkit for Deep Learning.

  • 《Introduction to Machine Learning》

介紹:15年春季學期CMU的機器學習課程,由Alex Smola主講,提供講義及授課視頻,很不錯.國內鏡像.

  • 《Big Data Processing》

介紹:大數據處理課.內容覆蓋流處理、MapReduce、圖演算法等.

  • 《Spark MLlib: Making Practical Machine Learning Easy and Scalable》

介紹:用Spark MLlib實現易用可擴展的機器學習,國內鏡像.

  • 《Picture: A Probabilistic Programming Language for Scene Perception》

介紹:以往上千行代碼概率編程(語言)實現只需50行.

  • 《Beautiful plotting in R: A ggplot2 cheatsheet》

介紹:ggplot2速查小冊子,另外一個,此外還推薦《A new data processing workflow for R: dplyr, magrittr, tidyr, ggplot2》.

  • 《Using Structured Events to Predict Stock Price Movement: An Empirical Investigation》

介紹:用結構化模型來預測實時股票行情.

  • 《International Joint Conference on Artificial Intelligence Accepted paper》

介紹:國際人工智慧聯合會議錄取論文列表,大部分論文可使用Google找到.

  • 《Why GEMM is at the heart of deep learning》

介紹:一般矩陣乘法(GEMM)對深度學習的重要性.

  • 《Distributed (Deep) Machine Learning Common》

介紹:A Community of awesome Distributed Machine Learning C++ projects.

  • 《Reinforcement Learning: An Introduction》

介紹:免費電子書<強化學習介紹>,第一版(1998),第二版(2015草稿),相關課程資料,Reinforcement Learning.

  • 《Free ebook: Microsoft Azure Essentials: Azure Machine Learning》

介紹:免費書:Azure ML使用精要.

  • 《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

介紹:A Deep Learning Tutorial: From Perceptrons to Deep Networks.

  • 《Machine Learning is Fun! - The world』s easiest introduction to Machine Learning》

介紹:有趣的機器學習:最簡明入門指南,中文版.

  • 《A Brief Overview of Deep Learning》

介紹:深度學習簡明介紹,中文版.

  • 《Wormhole》

介紹:Portable, scalable and reliable distributed machine learning.

  • 《convnet-benchmarks》

介紹:CNN開源實現橫向評測,參評框架包括Caffe 、Torch-7、CuDNN 、cudaconvnet2 、fbfft、Nervana Systems等,NervanaSys表現突出.

  • 《This catalogue lists resources developed by faculty and students of the Language Technologies Institute.》

介紹:卡耐基梅隆大學計算機學院語言技術系的資源大全,包括大量的NLP開源軟體工具包,基礎數據集,論文集,數據挖掘教程,機器學習資源.

  • 《Sentiment Analysis on Twitter》

介紹:Twitter情感分析工具SentiTweet,視頻+講義.

  • 《Machine Learning Repository @ Wash U》

介紹:華盛頓大學的Machine Learning Paper Repository.

  • 《Machine learning cheat sheet》

介紹:機器學習速查表.

  • 《Spark summit east 2015 agenda》

介紹:最新的Spark summit會議資料.

  • 《Spark summit east 2015 agenda》

介紹:最新的Spark summit會議資料.

  • 《Learning Spark》

介紹:Ebook Learning Spark.

  • 《Advanced Analytics with Spark, Early Release Edition》

介紹:Ebook Advanced Analytics with Spark, Early Release Edition.

  • 《國內機器學習演算法及應用領域人物篇:唐傑》

介紹:清華大學副教授,是圖挖掘方面的專家。他主持設計和實現的Arnetminer是國內領先的圖挖掘系統,該系統也是多個會議的支持商.

  • 《國內機器學習演算法及應用領域人物篇:楊強》

介紹:遷移學習的國際領軍人物.

  • 《國內機器學習演算法及應用領域人物篇:周志華》

介紹:在半監督學習,multi-label學習和集成學習方面在國際上有一定的影響力.

  • 《國內機器學習演算法及應用領域人物篇:王海峰》

介紹:信息檢索,自然語言處理,機器翻譯方面的專家.

  • 《國內機器學習演算法及應用領域人物篇:吳軍》

介紹:吳軍博士是當前Google中日韓文搜索演算法的主要設計者。在Google其間,他領導了許多研發項目,包括許多與中文相關的產品和自然語言處理的項目,他的新個人主頁.

  • 《Cat Paper Collection》

介紹:喵星人相關論文集.

  • 《How to Evaluate Machine Learning Models, Part 1: Orientation》

介紹:如何評價機器學習模型系列文章,How to Evaluate Machine Learning Models, Part 2a: Classification Metrics,How to Evaluate Machine Learning Models, Part 2b: Ranking and Regression Metrics.

  • 《Building a new trends experience》

介紹:Twitter新trends的基本實現框架.

  • 《Storm Blueprints: Patterns for Distributed Real-time Computation》

介紹:Storm手冊,國內有中文翻譯版本,謝謝作者.

  • 《SmileMiner》

介紹:Java機器學習演算法庫SmileMiner.

  • 《機器翻譯學術論文寫作方法和技巧》

介紹:機器翻譯學術論文寫作方法和技巧,Simon Peyton Jones的How to write a good research paper同類視頻How to Write a Great Research Paper,how to paper talk.

  • 《神經網路訓練中的Tricks之高效BP(反向傳播演算法)》

介紹:神經網路訓練中的Tricks之高效BP,博主的其他博客也挺精彩的.

  • 《我和NLP的故事》

介紹:作者是NLP方向的碩士,短短几年內研究成果頗豐,推薦新入門的朋友閱讀.

  • 《The h Index for Computer Science 》

介紹:UCLA的Jens Palsberg根據Google Scholar建立了一個計算機領域的H-index牛人列表,我們熟悉的各個領域的大牛絕大多數都在榜上,包括1位諾貝爾獎得主,35點陣圖靈獎得主,近百位美國工程院/科學院院士,300多位ACM Fellow,在這裡推薦的原因是大家可以在google通過搜索牛人的名字來獲取更多的資源,這份資料很寶貴.

  • 《Structured Learning for Taxonomy Induction with Belief Propagation》

介紹:用大型語料庫學習概念的層次關係,如鳥是鸚鵡的上級,鸚鵡是虎皮鸚鵡的上級。創新性在於模型構造,用因子圖刻畫概念之間依存關係,因引入兄弟關係,圖有環,所以用有環擴散(loopy propagation)迭代計算邊際概率(marginal probability).

  • 《Bayesian analysis》

介紹: 這是一款貝葉斯分析的商業軟體,官方寫的貝葉斯分析的手冊有250多頁,雖然R語言 已經有類似的項目,但畢竟可以增加一個可選項.

  • 《deep net highlights from 2014》

介紹:deep net highlights from 2014.

  • 《Fast R-CNN》

介紹:This paper proposes Fast R-CNN, a clean and fast framework for object detection.

  • 《Fingerprinting Images for Near-Duplicate Detection》

介紹:圖像指紋的重複識別,作者源碼,國內翻譯版本.

  • 《The Computer Vision Industry 》

介紹:提供計算機視覺、機器視覺應用的公司信息匯總.應用領域包括:自動輔助駕駛和交通管理、眼球和頭部跟蹤、影視運動分析、影視業、手勢識別、通用視覺系統、各種工業自動化和檢驗、醫藥和生物、移動設備目標識別和AR、人群跟蹤、攝像、安全監控、生物監控、三維建模、web和雲應用.

  • 《Seaborn: statistical data visualization》

介紹:Python版可視化數據統計開源庫.

  • 《IPython lecture notes for OCW MIT 18.06》

介紹:麻省理工Gilbert Strang線性代數課程筆記,Gilbert Strang《Linear Algebra》課程主頁視頻+講義.

  • 《Canova: A Vectorization Lib for ML》

介紹:面向機器學習/深度學習的數據向量化工具Canova,github, 支持CSV文件、MNIST數據、TF-IDF/Bag of Words/word2vec文本向量化.

  • 《DZone Refcardz: Distributed Machine Learning with Apache Mahout》

介紹:快速入門:基於Apache Mahout的分散式機器學習.

  • 《Learning scikit-learn: Machine Learning in Python》

介紹:基於scikit-learn講解了一些機器學習技術,如SVM,NB,PCA,DT,以及特徵工程、特徵選擇和模型選擇問題.

  • 《Lightning fast Machine Learning with Spark》

介紹:基於Spark的高效機器學習,視頻地址.

  • 《How we』re using machine learning to fight shell selling》

介紹:WePay用機器學習對抗信用卡"shell selling"詐騙.

  • 《Data Scientists Thoughts that Inspired Me》

介紹:16位數據科學家語錄精選.

  • 《Deep learning applications and challenges in big data analytics》

介紹:深度學習在大數據分析領域的應用和挑戰.

  • 《Free book:Machine Learning,Mathematics》

介紹:免費的機器學習與數學書籍,除此之外還有其他的免費編程書籍,編程語言,設計,操作系統等.

  • 《Object detection via a multi-region & semantic segmentation-aware CNN model》

介紹:一篇關於CNN模型對象識別Paper.

  • 《A Statistical View of Deep Learning (V): Generalisation and Regularisation》

介紹:深度學習的統計分析V:泛化和正則化.

  • 《Highway Networks》

介紹:用SGD能高效完成訓練的大規模(多層)深度網路HN.

  • 《What I Read For Deep-Learning》

介紹:深度學習解讀文章.

  • 《An Introduction to Recommendation Engines》

介紹:Coursera上的推薦系統導論(Introduction to Recommender Systems)公開課.

  • 《Stanford Machine Learning》

介紹:Andrew Ng經典機器學習課程筆記.

  • 《ICLR 2015》

介紹:ICLR 2015見聞錄,博客的其他機器學習文章也不錯.

  • 《Stanford Machine Learning》

介紹:推薦系統"個性化語義排序"模型.

  • 《The More Excited We Are, The Shorter We Tweet》

介紹:激情時分更惜字——MIT的最新Twitter研究結果.

  • 《蘇州大學人類語言技術研究論文主頁》

介紹:蘇州大學人類語言技術研究相關論文.

  • 《Neural Turing Machines implementation》

介紹:實現神經圖靈機(NTM),項目地址,此外推薦相關神經圖靈機演算法.

  • 《Computer Vision - CSE 559A, Spring 2015》

介紹:華盛頓大學的機器視覺(2015),參考資料Computer Vision: Algorithms and Applications.

  • 《Mining of Massive Datasets》

介紹:"Mining of Massive Datasets"發布第二版,Jure Leskovec, Anand Rajaraman, Jeff Ullman 新版增加Jure Leskovec作為合作作者,新增社交網路圖數據挖掘、降維和大規模機器學習三章,電子版依舊免費.

  • 《Learning Deep Learning》

介紹:一個深度學習資源頁,資料很豐富.

  • 《Learning Deep Learning》

介紹:免費電子書"Learning Deep Learning".

  • 《Tutorial: Machine Learning for Astronomy with Scikit-learn》

介紹:Machine Learning for Astronomy with scikit-learn.

  • 《An Introduction to Random Forests for Beginners》

介紹:免費電子書"隨機森林入門指南".

  • 《Top 10 data mining algorithms in plain English》

介紹:白話數據挖掘十大演算法.

  • 《An Inside Look at the Components of a Recommendation Engine》

介紹:基於Mahout和Elasticsearch的推薦系統,國內譯版.

  • 《Advances in Extreme Learning Machines》

介紹:博士學位論文:ELM研究進展.

  • 《10-minute tour of pandas》

介紹:Pandas十分鐘速覽,ipn.

  • 《Data doesnt grow in tables: harvesting journalistic insight from documents》

介紹:面向數據新聞的文本挖掘.

  • 《Time-lapse Mining from Internet Photos》

介紹:用網路圖片合成延時視頻(SIGGRAPH 2015).

  • 《The Curse of Dimensionality in classification》

介紹:分類系統的維數災難.

  • 《Deep Learning vs Big Data: Who owns what?》

介紹:深度學習vs.大數據——從數據到知識:版權的思考,[翻譯版](csdn.net/article/2015-0

  • 《A Primer on Predictive Models》

介紹:預測模型入門.

  • 《Demistifying LSTM Neural Networks》

介紹:深入淺出LSTM.

  • 《ICLR 2015》

介紹:2015年ICLR會議視頻講義.

  • 《On Visualizing Data Well》

介紹:Ben Jones的數據可視化建議.

  • 《Decoding Dimensionality Reduction, PCA and SVD》

介紹:解讀數據降維/PCA/SVD.

  • 《Supervised learning superstitions cheat sheet》

介紹:IPN:監督學習方法示例/對比參考表,覆蓋logistic回歸, 決策樹, SVM, KNN, Naive Bayes等方法.

  • 《DopeLearning: A Computational Approach to Rap Lyrics Generation》

介紹:基於RankSVM和DNN自動(重組)生成Rap歌詞.

  • 《An Introduction to Random Indexing》

介紹:隨機索引RI詞空間模型專題.

  • 《VDiscover》

介紹:基於機器學習的漏洞檢測工具VDiscover.

  • 《Minerva》

介紹:深度學習系統minerva。擁有python編程介面。多GPU幾乎達到線性加速。在4塊GPU上能在4天內將GoogLeNet訓練到68.7%的top-1以及89.0%的top-5準確率。和同為dmlc項目的cxxnet相比,採用動態數據流引擎,提供更多靈活性。未來將和cxxnet一起整合為mxnet項目,互取優勢.

  • 《CVPR 2015 paper》

介紹:2015年國際計算機視覺與模式識別會議paper.

  • 《What are the advantages of different classification algorithms?》

介紹:Netflix工程總監眼中的分類演算法:深度學習優先順序最低,中文版.

  • 《Results for Microsoft COCO Image Captioning Challenge》

介紹:Codalab圖像標註競賽排行+各家論文,Reddit上flukeskywalker整理了各家技術相關論文.

  • 《Caffe con Troll: Shallow Ideas to Speed Up Deep Learning》

介紹:基於Caffe的加速深度學習系統CcT.

  • 《Low precision storage for deep learning》

介紹:深度學習(模型)低精度(訓練與)存儲.

  • 《Model-Based Machine Learning (Early Access)》

介紹:新書預覽:模型機器學習.

  • 《Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems》

介紹:免費電子書,此外推薦Introduction to Bandits: Algorithms and Theory.

  • 《Kaggle R Tutorial on Machine Learing》

介紹:基於Kaggles Titanic Competition的互動式R機器學習教程,介紹《Interactive R Tutorial: Machine Learning for the Titanic Competition》.

  • 《Deep Learning(深度學習)學習筆記整理系列》

介紹:Deep Learning(深度學習)學習筆記整理系列.

  • 《Introduction to Neural Machine Translation with GPUs 》

介紹:神經(感知)機器翻譯介紹.

  • 《Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning》

介紹:Andrew Ng關於深度學習/自學習/無監督特徵學習的報告,國內雲.

  • 《Recurrent Neural Network Training with Dark Knowledge Transfer》

介紹:論文:通過潛在知識遷移訓練RNN.

  • 《Show Me The Money》

介紹:面向金融數據的情感分析工具.

  • 《pyLDAvis》

介紹:(Python)主題模型交互可視化庫pyLDAvis.

  • 《Logistic Regression and Gradient Descent》

介紹:Logistic回歸與優化實例教程.

  • 《賈揚清微信講座記錄》

介紹:賈揚清(谷歌大腦科學家、caffe締造者)微信講座記錄.

  • 《sketch》

介紹:Theano/Blocks實現RNN手寫字元串生成sketch.

  • 《Web Scale Document Clustering: Clustering 733 Million Web Pages》

介紹:基於TopSig的海量(7億+)網頁聚類.

  • 《NAACL 2015 Proceedings on ACL Anthology》

介紹:NAACL 2015 論文papers.

  • 《Stock Forecasting With Machine Learning - Seven Possible Errors》

介紹:機器學習預測股市的七個問題.

  • 《Are there any good resources for learning about neural networks?》

介紹:神經網路學習資料推薦.

  • 《A Critical Review of Recurrent Neural Networks for Sequence Learning》

介紹:面向序列學習的RNN綜述.

  • 《Handling and Processing Strings in R》

介紹:R文本處理手冊.

  • 《Must-watch videos about Python》

介紹:「必看」的Python視頻集錦.

  • 《The Google Stack》

介紹:Google(基礎結構)棧.

  • 《Randomized Algorithms for Matrices and Data》

介紹:矩陣和數據的隨機演算法(UC Berkeley 2013).

  • 《Intermediate R》

介紹:DataCamp中級R語言教程.

  • 《Topology Without Tears》

介紹:免費電子書:輕鬆掌握拓撲學,中文版.

  • 《Information Theory, Pattern Recognition, and Neural Networks》

介紹:Book,video.

  • 《Scikit-learn》

介紹:Scikit-learn 是基於Scipy為機器學習建造的的一個Python模塊,他的特色就是多樣化的分類,回歸和聚類的演算法包括支持向量機,邏輯回歸,樸素貝葉斯分類器,隨機森林,Gradient Boosting,聚類演算法和DBSCAN。而且也設計出了Python numerical和scientific libraries Numpy and Scipy

  • 《Pylearn2》

介紹:Pylearn是一個讓機器學習研究簡單化的基於Theano的庫程序。

  • 《NuPIC》

介紹:NuPIC是一個以HTM學習演算法為工具的機器智能平台。HTM是皮層的精確計算方法。HTM的核心是基於時間的持續學習演算法和儲存和撤銷的時空模式。NuPIC適合於各種各樣的問題,尤其是檢測異常和預測的流數據來源。

  • 《Nilearn》

介紹:Nilearn 是一個能夠快速統計學習神經影像數據的Python模塊。它利用Python語言中的scikit-learn 工具箱和一些進行預測建模,分類,解碼,連通性分析的應用程序來進行多元的統計。

  • 《PyBrain》

介紹:Pybrain是基於Python語言強化學習,人工智慧,神經網路庫的簡稱。 它的目標是提供靈活、容易使用並且強大的機器學習演算法和進行各種各樣的預定義的環境中測試來比較你的演算法。

  • 《Pattern》

介紹:Pattern 是Python語言下的一個網路挖掘模塊。它為數據挖掘,自然語言處理,網路分析和機器學習提供工具。它支持向量空間模型、聚類、支持向量機和感知機並且用KNN分類法進行分類。

  • 《Fuel》

介紹:Fuel為你的機器學習模型提供數據。他有一個共享如MNIST, CIFAR-10 (圖片數據集), Google』s One Billion Words (文字)這類數據集的介面。你使用他來通過很多種的方式來替代自己的數據。

  • 《Bob》

介紹:Bob是一個免費的信號處理和機器學習的工具。它的工具箱是用Python和C++語言共同編寫的,它的設計目的是變得更加高效並且減少開發時間,它是由處理圖像工具,音頻和視頻處理、機器學習和模式識別的大量軟體包構成的。

  • 《Skdata》

介紹:Skdata是機器學習和統計的數據集的庫程序。這個模塊對於玩具問題,流行的計算機視覺和自然語言的數據集提供標準的Python語言的使用。

  • 《MILK》

介紹:MILK是Python語言下的機器學習工具包。它主要是在很多可得到的分類比如SVMS,K-NN,隨機森林,決策樹中使用監督分類法。 它還執行特徵選擇。 這些分類器在許多方面相結合,可以形成不同的例如無監督學習、密切關係金傳播和由MILK支持的K-means聚類等分類系統。

  • 《IEPY》

介紹:IEPY是一個專註於關係抽取的開源性信息抽取工具。它主要針對的是需要對大型數據集進行信息提取的用戶和想要嘗試新的演算法的科學家。

  • 《Quepy》

介紹:Quepy是通過改變自然語言問題從而在資料庫查詢語言中進行查詢的一個Python框架。他可以簡單的被定義為在自然語言和資料庫查詢中不同類型的問題。所以,你不用編碼就可以建立你自己的一個用自然語言進入你的資料庫的系統。現在Quepy提供對於Sparql和MQL查詢語言的支持。並且計劃將它延伸到其他的資料庫查詢語言。

  • 《Hebel》

介紹:Hebel是在Python語言中對於神經網路的深度學習的一個庫程序,它使用的是通過PyCUDA來進行GPU和CUDA的加速。它是最重要的神經網路模型的類型的工具而且能提供一些不同的活動函數的激活功能,例如動力,涅斯捷羅夫動力,信號丟失和停止法。

  • 《mlxtend》

介紹:它是一個由有用的工具和日常數據科學任務的擴展組成的一個庫程序。

  • 《nolearn》

介紹:這個程序包容納了大量能對你完成機器學習任務有幫助的實用程序模塊。其中大量的模塊和scikit-learn一起工作,其它的通常更有用。

  • 《Ramp》

介紹:Ramp是一個在Python語言下制定機器學習中加快原型設計的解決方案的庫程序。他是一個輕型的pandas-based機器學習中可插入的框架,它現存的Python語言下的機器學習和統計工具(比如scikit-learn,rpy2等)Ramp提供了一個簡單的聲明性語法探索功能從而能夠快速有效地實施演算法和轉換。

  • 《Feature Forge》

介紹:這一系列工具通過與scikit-learn兼容的API,來創建和測試機器學習功能。這個庫程序提供了一組工具,它會讓你在許多機器學習程序使用中很受用。當你使用scikit-learn這個工具時,你會感覺到受到了很大的幫助。(雖然這隻能在你有不同的演算法時起作用。)

  • 《REP》

介紹:REP是以一種和諧、可再生的方式為指揮數據移動驅動所提供的一種環境。它有一個統一的分類器包裝來提供各種各樣的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。並且它可以在一個群體以平行的方式訓練分類器。同時它也提供了一個互動式的情節。

  • 《Python 學習機器樣品》

介紹:用亞馬遜的機器學習建造的簡單軟體收集。

  • 《Python-ELM》

介紹:這是一個在Python語言下基於scikit-learn的極端學習機器的實現。

  • 《Dimension Reduction》

介紹:電子書降維方法,此外還推薦Dimensionality Reduction A Short TutorialMatlab Toolbox for Dimensionality ReductionUnsupervised Kernel Dimension Reduction

  • 《Datasets Used For Benchmarking Deep Learning Algorithms》

介紹:deeplearning.net整理的深度學習數據集列表.

  • 《Golang Natural Language Processing》

介紹:Go語言編寫的自然語言處理工具.

  • 《Rehabilitation of Count-based Models for Word Vector Representations》

介紹:詞頻模型對詞向量的反擊,參考Improving Distributional Similarity with Lessons Learned from Word Embeddings

  • 《Three Aspects of Predictive Modeling》

介紹:預測模型的三個方面.

  • 《CS224d: Deep Learning for Natural Language Processing》

介紹:斯坦福大學深度學習與自然語言處理課程,部分課程筆記詞向量引言

  • 《Google Computer Vision research at CVPR 2015》

介紹:CVPR2015上Google的CV研究列表.

  • 《Using Deep Learning to Find Basketball Highlights》

介紹:利用(Metamind)深度學習自動發現籃球賽精彩片段.

  • 《Learning Deep Features for Discriminative Localization》

介紹:對本土化特徵學習的分析

  如果大家有好的書或者經驗,歡迎留言~

參考文獻:

1.How do I learn machine learning?(quora.com/How-do-I-lear)

2.What is the best MOOC to get started in Machine Learning?(quora.com/What-is-the-b)

3.機器學習(Machine Learning)&深度學習(Deep Learning)資料(Chapter https://github.com/ty4z2008/Qix/blob/master/dl.md)

作者:胡曉曼 Python愛好者社區專欄作者,請勿轉載,謝謝。

博客專欄:CharlotteDataMining的博客專欄

配套視頻教程:三個月教你從零入門深度學習!| 深度學習精華實踐課程

公眾號:Python愛好者社區(微信ID:python_shequ),關注,查看更多連載內容。

推薦閱讀:

TAG:機器學習 | Python | 深度學習DeepLearning |