近200篇機器學習&深度學習資料分享(含各種文檔,視頻,源碼等)

From:近200篇機器學習&深度學習資料分享(含各種文檔,視頻,源碼等) - 推酷

本文收集了百來篇關於機器學習和深度學習的資料,含各種文檔,視頻,源碼等。而且原文也會不定期的更新,望看到文章的朋友能夠學到更多。

《Brief History of Machine Learning》

介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost 到隨機森林、Deep Learning.

《Deep Learning in Neural Networks: An Overview》

介紹:這是瑞士人工智慧實驗室 Jurgen Schmidhuber 寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從 1940 年開始講起,到 60-80 年代,80-90 年代,一直講到 2000 年後及最近幾年的進展。涵蓋了 deep learning 里各種 tricks,引用非常全面.

《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》

介紹:這是一份 python 機器學習庫,如果您是一位 python 工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.

《How to Layout and Manage Your Machine Learning Project》

介紹:這一篇介紹如果設計和管理屬於你自己的機器學習項目的文章,裡面提供了管理模版、數據管理與實踐方法.

《Machine Learning is Fun!》

介紹:如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 有趣的機器學習:最簡明入門指南

《R語言參考卡片》

介紹:R語言是機器學習的主要語言,有很多的朋友想學習R語言,但是總是忘記一些函數與關鍵字的含義。那麼這篇文章或許能夠幫助到你。

《Choosing a Machine Learning Classifier》

介紹:我該如何選擇機器學習演算法,這篇文章比較直觀的比較了 Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature 與 Model 權衡等問題。此外還有已經翻譯了的版本: 如何選擇機器學習演算法 - 我愛機器學習

《An Introduction to Deep Learning: From Perceptrons to Deep Networks》

介紹:深度學習概述:從感知機到深度網路,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本: 深度學習概述:從感知機到深度網路 - xiaowanyer - 博客園

《The LION Way: Machine Learning plus Intelligent Optimization》

介紹:<機器學習與優化>這是一本機器學習的小冊子, 短短 300 多頁道盡機器學習的方方面面. 圖文並茂, 生動易懂, 沒有一坨坨公式的煩惱. 適合新手入門打基礎, 也適合老手溫故而知新. 比起 MLAPP/PRML 等大部頭, 也許這本你更需要!具體內容推薦閱讀:intelligent-optimization.org for prescriptive analytics

《深度學習與統計學習理論》

介紹:作者是來自百度,不過他本人已經在 2014 年 4 月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麼聯繫?那麼應該立即看看這篇文章.

《計算機科學中的數學》

介紹:這本書是由谷歌公司和 MIT 共同出品的計算機科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為 5 大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函數。4)概率,隨機行走。5)遞歸。等等

《信息時代的計算機科學理論(Foundations of Data Science)》

介紹:這本書是由谷歌公司和 MIT 共同出品的計算機科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為 5 大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函數。4)概率,隨機行走。5)遞歸。等等

《信息時代的計算機科學理論(Foundations of Data Science)》

介紹:信息時代的計算機科學理論,目前國內有紙質書購買,iTunes 購買。

《Data Science with R》

介紹:這是一本由雪城大學新編的第二版《數據科學入門》教材:偏實用型,淺顯易懂,適合想學習R語言的同學選讀。

《Twenty Questions for Donald Knuth》

介紹:這並不是一篇文檔或書籍。這是篇向圖靈獎得主 Donald Knuth 提問記錄稿: 近日, Charles Leiserson, Al Aho, Jon Bentley 等大神向 Knuth 提出了 20 個問題,內容包括 TAOCP,P/NP 問題,圖靈機,邏輯,以及為什麼大神不用電郵等等。

《Automatic Construction and Natural-Language Description of Nonparametric Regression Models》

介紹:不會統計怎麼辦?不知道如何選擇合適的統計模型怎麼辦?那這篇文章你的好好讀一讀了麻省理工 Joshua B. Tenenbaum 和劍橋 Zoubin Ghahramani 合作,寫了一篇關於 automatic statistician 的文章。可以自動選擇回歸模型類別,還能自動寫報告...

《ICLR 2014 論文集》

介紹:對深度學習和 representation learning 最新進展有興趣的同學可以了解一下。

《Introduction to Information Retrieval》

介紹:這是一本信息檢索相關的書籍,是由斯坦福 Manning 與谷歌副總裁 Raghavan 等合著的 Introduction to Information Retrieval 一直是北美最受歡迎的信息檢索教材之一。最近作者增加了該課程的幻燈片和作業。IR 相關資源: Information Retrieval Resources

《Machine learning in 10 pictures》

介紹:Deniz Yuret 用 10 張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam"s razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity. 很清晰

《雅虎研究院的數據集匯總》

介紹:雅虎研究院的數據集匯總: 包括語言類數據,圖與社交類數據,評分與分類數據,計算廣告學數據,圖像數據,競賽數據,以及系統類的數據。

《An Introduction to Statistical Learning with Applications in R》

介紹:這是一本斯坦福統計學著名教授 Trevor Hastie 和 Robert Tibshirani 的新書,並且在 2014 年一月已經開課:Statistical Learning

Best Machine Learning Resources for Getting Started

介紹:機器學習最佳入門學習資料匯總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹。

My deep learning reading list

介紹:主要是順著 Bengio 的 PAMI review 的文章找出來的。包括幾本綜述文章,將近 100 篇論文,各位山頭們的 Presentation。全部都可以在 google 上找到。

Cross-Language Information Retrieval

介紹:這是一本書籍,主要介紹的是跨語言信息檢索方面的知識。理論很多

探索推薦引擎內部的秘密,第 1 部分: 推薦引擎初探

介紹:本文共有三個系列,作者是來自 IBM 的工程師。它主要介紹了推薦引擎相關演算法,並幫助讀者高效的實現這些演算法。 探索推薦引擎內部的秘密,第 2 部分: 深度推薦引擎相關演算法 - 協同過濾,探索推薦引擎內部的秘密,第 3 部分: 深度推薦引擎相關演算法 - 聚類。

《Advice for students of machine learning》

介紹:康奈爾大學信息科學系助理教授 David Mimno 寫的《對機器學習初學者的一點建議》, 寫的挺實際,強調實踐與理論結合,最後還引用了馮 · 諾依曼的名言: "Young man, in mathematics you don"t understand things. You just get used to them."

分散式並行處理的數據

介紹:這是一本關於分散式並行處理的數據《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的 James L. McClelland。著重介紹了各種神級網路演算法的分散式實現,做 Distributed Deep Learning 的童鞋可以參考下。

《「機器學習」是什麼?》

介紹:【「機器學習」是什麼?】John Platt 是微軟研究院傑出科學家,17 年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt 和同事們遂決定開設博客,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看 Platt 的這篇博文。

《2014 年國際機器學習大會 ICML 2014 論文》

介紹:2014 年國際機器學習大會(ICML)已經於 6 月 21-26 日在國家會議中心隆重舉辦。本次大會由微軟亞洲研究院和清華大學聯手主辦,是這個有著 30 多年歷史並享譽世界的機器學習領域的盛會首次來到中國,已成功吸引海內外 1200 多位學者的報名參與。乾貨很多,值得深入學習下。

《Machine Learning for Industry: A Case Study》

介紹:這篇文章主要是以 Learning to Rank 為例說明企業界機器學習的具體應用,RankNet 對 NDCG 之類不敏感,加入 NDCG 因素後變成了 LambdaRank,同樣的思想從神經網路改為應用到 Boosted Tree 模型就成就了 LambdaMART。 Chirs Burges,微軟的機器學習大神,Yahoo 2010 Learning to Rank Challenge 第一名得主,排序模型方面有 RankNet,LambdaRank,LambdaMART,尤其以 LambdaMART 最為突出,代表論文為: From RankNet to LambdaRank to LambdaMART: An Overview此外,Burges 還有很多有名的代表作,比如: A Tutorial on Support Vector Machines for Pattern Recognition

Some Notes on Applied Mathematics for Machine Learning

100 Best GitHub: Deep Learning

介紹:100 Best GitHub: Deep Learning

《UFLDL-斯坦福大學 Andrew Ng 教授「Deep Learning」教程》

介紹:本教程將闡述無監督特徵學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習演算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。本教程假定機器學習的基本知識(特別是熟悉的監督學習,邏輯回歸,梯度下降的想法),如果你不熟悉這些想法,我們建議你去這裡 機器學習課程 ,並先完成第 II,III,IV 章(到邏輯回歸)。此外這關於這套教程的源代碼在 github 上面已經有 python 版本了 UFLDL Tutorial Code

* 《Deep Learning for Natural Language Processing and Related Applications》

介紹:這份文檔來自微軟研究院,精髓很多。如果需要完全理解,需要一定的機器學習基礎。不過有些地方會讓人眼前一亮,毛塞頓開。

Understanding Convolutions

介紹:這是一篇介紹圖像卷積運算的文章,講的已經算比較詳細的了。

《Machine Learning Summer School》

介紹:每天請一個大牛來講座,主要涉及機器學習,大數據分析,並行計算以及人腦研究。 youtube.com/user/smolix (需FQ)

《Awesome Machine Learning》

介紹:一個超級完整的機器學習開源庫總結,如果你認為這個碉堡了,那後面這個列表會更讓你驚訝:【Awesome Awesomeness】,國內已經有熱心的朋友進行了翻譯 中文介紹 , 機器學習數據挖掘免費電子書 。

斯坦福《自然語言處理》課程視頻

介紹:ACL 候任主席、斯坦福大學計算機系 Chris Manning 教授的《自然語言處理》課程所有視頻已經可以在斯坦福公開課網站上觀看了(如 Chrome 不行,可用 IE 觀看) 作業與測驗也可以下載。

《Deep Learning and Shallow Learning》

介紹:對比 Deep Learning 和 Shallow Learning 的好文,來著浙大畢業、MIT 讀博的 Chiyuan Zhang 的博客。

《Recommending music on Spotify with deep learning》

介紹:利用卷積神經網路做音樂推薦。

《Neural Networks and Deep Learning》

介紹:神經網路的免費在線書,已經寫了三章了,還有對應的開源代碼:mnielsen/neural-networks-and-deep-learning 愛好者的福音。

《Java Machine Learning》

介紹:Java 機器學習相關平台和開源的機器學習庫,按照大數據、NLP、計算機視覺和 Deep Learning 分類進行了整理。看起來挺全的,Java 愛好者值得收藏。

《Machine Learning Theory: An Introductory Primer》

介紹:機器學習最基本的入門文章,適合零基礎者。

《機器學習常見演算法分類匯總》

介紹:機器學習的演算法很多。很多時候困惑人們都是,很多演算法是一類演算法,而有些演算法又是從其他演算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是演算法的類似性。

《機器學習經典論文/survey 合集》

介紹:看題目你已經知道了是什麼內容,沒錯。裡面有很多經典的機器學習論文值得仔細與反覆的閱讀。

《機器學習視頻庫》

介紹:視頻由加州理工學院(Caltech)出品。需要英語底子。

《機器學習經典書籍》

介紹:總結了機器學習的經典書籍,包括數學基礎和演算法理論的書籍,可做為入門參考書單。

《16 Free eBooks On Machine Learning》

介紹:16 本機器學習的電子書,可以下載下來在 pad,手機上面任意時刻去閱讀。不多我建議你看完一本再下載一本。

《A Large set of Machine Learning Resources for Beginners to Mavens》

介紹:標題很大,從新手到專家。不過看完上面所有資料。肯定是專家了。

《機器學習最佳入門學習資料匯總》

介紹:入門的書真的很多,而且我已經幫你找齊了。

《Sibyl》

介紹:Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視頻推薦。

《Deep Learning》

介紹:Yoshua Bengio, Ian Goodfellow, Aaron Courville 著。

《Neural Network & Text Mining》

介紹:關於(Deep) Neural Networks 在 NLP 和 Text Mining 方面一些 paper 的總結。

《前景目標檢測1(總結)》

介紹:計算機視覺入門之前景目標檢測1(總結)

《行人檢測》

介紹:計算機視覺入門之行人檢測。

《Deep Learning – important resources for learning and understanding》

介紹:Important resources for learning and understanding . Is awesome

《Machine Learning Theory: An Introductory Primer》

介紹:這又是一篇機器學習初學者的入門文章。值得一讀

《Neural Networks and Deep Learning》

介紹:在線 Neural Networks and Deep Learning 電子書。

《Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜》

介紹:python 的 17 個關於機器學習的工具。

《神奇的伽瑪函數(上)》

介紹:下集在這裡 神奇的伽瑪函數(下)

《分散式機器學習的故事》

介紹:作者王益目前是騰訊廣告演算法總監,王益博士畢業後在 google 任研究。這篇文章王益博士 7 年來從谷歌到騰訊對於分布機器學習的所見所聞。值得細讀

《機器學習提升之道(Level-Up Your Machine Learning)》

介紹:把機器學習提升的級別分為0~4 級,每級需要學習的教材和掌握的知識。這樣,給機器學習者提供一個上進的路線圖,以免走彎路。另外,整個網站都是關於機器學習的,資源很豐富。

《Machine Learning Surveys》

介紹:機器學習各個方向綜述的網站;

《Deep Learning Reading list》

介紹:深度學習閱資源列表;

《Deep Learning: Methods and Applications》

介紹:這是一本來自微的研究員 li Peng 和 Dong Yu 所著的關於深度學習的方法和應用的電子書;

《Machine Learning Summer School 2014》

介紹:2014 年七月 CMU 舉辦的機器學習夏季課剛剛結束有近 50 小時的視頻、十多個 PDF 版幻燈片,覆蓋深度學習,貝葉斯,分散式機器學習,伸縮性等熱點話題。所有 13 名講師都是牛人:包括大牛 Tom Mitchell (他的[機器學習]是名校的常用教材),還有 CMU 李沐 .(1080P 高清喲)

《Sibyl: 來自 Google 的大規模機器學習系統》

介紹:在今年的 IEEE/IFIP 可靠系統和網路(DSN)國際會議上,Google 軟體工程師 Tushar Chandra 做了一個關於 Sibyl 系統的主題演講。 Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視頻推薦。詳情請閱讀 google sibyl

《Building a deeper understanding of images》

介紹:谷歌研究院的 Christian Szegedy 在谷歌研究院的博客上簡要地介紹了他們今年參加 ImageNet 取得好成績的 GoogLeNet 系統.是關於圖像處理的。

《Bayesian network 與 python 概率編程實戰入門》

介紹:貝葉斯學習。如果不是很清可看看 概率編程語言與貝葉斯方法實踐 ;

《AMA: Michael I Jordan》

介紹:網友問伯克利機器學習大牛、美國雙料院士 Michael I. Jordan:"如果你有 10 億美金,你怎麼花?Jordan: "我會用這 10 億美金建造一個 NASA 級別的自然語言處理研究項目。"

《機器學習&數據挖掘筆記_16(常見面試之機器學習演算法思想簡單梳理)》

介紹:常見面試之機器學習演算法思想簡單梳理;

《文本與數據挖掘視頻匯總》

介紹:Videolectures 上最受歡迎的 25 個文本與數據挖掘視頻匯總;

《怎麼選擇深度學習的 GPUs》

介紹:在 Kaggle 上經常取得不錯成績的 Tim Dettmers 介紹了他自己是怎麼選擇深度學習的 GPUs, 以及個人如何構建深度學習的 GPU 集群: http://t.cn/RhpuD1G

《對話機器學習大神 Michael Jordan:深度模型》

介紹:對話機器學習大神 Michael Jordan

《Deep Learning 和 Knowledge Graph 引爆大數據革命》

介紹:還有2,3 部分。 Deep Learning 【2,3】

《Deep Learning 教程翻譯》

介紹:是 Stanford 教授 Andrew Ng 的 Deep Learning 教程,國內的機器學習愛好者很熱心的把這個教程翻譯成了中文。如果你英語不好,可以看看這個。

《Deep Learning 101》

介紹:因為近兩年來,深度學習在媒體界被炒作很厲害(就像大數據)。其實很多人都還不知道什麼是深度學習。這篇文章由淺入深。告訴你深度學究竟是什麼!

《UFLDL Tutorial》

介紹:這是斯坦福大學做的一免費課程(很勉強),這個可以給你在深度學習的路上給你一個學習的思路。裡面提到了一些基本的演算法。而且告訴你如何去應用到實際環境中。中文版

《Toronto Deep Learning Demos》

介紹:這是多倫多大學做的一個深度學慣用來識別圖片標籤/圖轉文字的 demo。是一個實際應用案例。有源碼

《Deep learning from the bottom up》

介紹:機器學習模型,閱讀這個內容需要有一定的基礎。

《R工具包的分類匯總》

介紹: (CRAN Task Views, 34 種常見任務,每個任務又各自分類列舉若干常用相關工具包) 例如: 機器學習,自然語言處理,時間序列分析,空間信息分析,多重變數分析,計量經濟學,心理統計學,社會學統計,化學計量學,環境科學,藥物代謝動力學等。

《機器學習常見演算法分類匯總》

介紹: 機器學習無疑是當前數據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法,以供您在工作和學習中參考.

《Deep Learning(深度學習)學習筆記整理系列》

介紹: 很多乾貨,而且作者還總結了好幾個系列。另外還作者還了一個文章導航.非常的感謝作者總結。

Deep Learning(深度學習)學習筆記整理系列之(二)

Deep Learning(深度學習)學習筆記整理系列之(三)

Deep Learning(深度學習)學習筆記整理系列之(四)

Deep Learning(深度學習)學習筆記整理系列之(五)

Deep Learning(深度學習)學習筆記整理系列之(六)

Deep Learning(深度學習)學習筆記整理系列之(七)

DeepLearning(深度學習)學習筆記整理系列之(八)

《Tutorials Session A - Deep Learning for Computer Vision》

介紹:傳送理由:Rob Fergus 的用深度學習做計算機是覺的 NIPS 2013 教程。有 mp4, mp3, pdf 各種下載 他是紐約大學教授,目前也在 Facebook 工作,他 2014 年的 8 篇 論文 。

《FudanNLP》

介紹:FudanNLP,這是一個復旦大學計算機學院開發的開源中文自然語言處理(NLP)工具包 Fudan NLP 里包含中文分詞、關鍵詞抽取、命名實體識別、詞性標註、時間詞抽取、語法分析等功能,對搜索引擎文本分析等極為有價值。

《Open Sourcing ml-ease》

介紹:LinkedIn 開源的機器學習工具包,支持單機, Hadoop cluster,和 Spark cluster 重點是 logistic regression 演算法。

《機器學習周刊》

介紹:對於英語不好,但又很想學習機器學習的朋友。是一個大的福利。機器學習周刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、數據挖掘、並行系統、圖像識別、人工智慧、機器人等等。謝謝作者。

《線性代數》

介紹:《線性代數》是《機器學習》的重要數學先導課程。其實《線代》這門課講得淺顯易懂特別不容易,如果一上來就講逆序數及羅列行列式性質,很容易讓學生失去學習的興趣。我個人推薦的最佳《線性代數》課程是麻省理工 Gilbert Strang 教授的課程。課程主頁

《Big-data》

介紹:大數據數據處理資源、工具不完備列表,從框架、分散式編程、分散式文件系統、鍵值數據模型、圖數據模型、數據可視化、列存儲、機器學習等。很贊的資源匯總。

《machine learning for smart dummies》

介紹:雅虎邀請了一名來自本古里安大學的訪問學者,製作了一套關於機器學習的系列視頻課程。本課程共分為 7 期,詳細講解了有關 SVM, boosting, nearest neighbors, decision trees 等常規機器學習演算法的理論基礎知識。

《Entanglement-Based Quantum Machine Learning》

介紹:應對大數據時代,量子機器學習的第一個實驗 paper 下載

《How a Math Genius Hacked OkCupid to Find True Love》

介紹:Wired 雜誌報道了 UCLA 數學博士 Chris McKinlay (圖1)通過大數據手段+機器學習方法破解婚戀網站配對演算法找到真愛的故事,通過 Python 腳本控制著 12 個賬號,下載了婚戀網站 2 萬女用戶的 600 萬問題答案,對他們進行了統計抽樣及聚類分析(圖2,3),最後終於收穫了真愛。科技改變命運!

《Underactuated Robotics》

介紹:MIT 的 Underactuated Robotics 於 2014 年 10 月 1 日開課,該課屬於 MIT 研究生級別的課程,對機器人和非線性動力系統感興趣的朋友不妨可以挑戰一下這門課程!

《mllib 實踐經驗(1)》

介紹:mllib 實踐經驗分享

《Google Turns To Deep Learning Classification To Fight Web Spam》

介紹:Google 用 Deep Learning 做的 antispam (反垃圾郵件)

《NLP 常用信息資源》

介紹:NLP 常用信息資源《NLP 常用信息資源》

《機器學習速查表》

介紹:機器學習速查表

《Best Papers vs. Top Cited Papers in Computer Science》

介紹:從 1996 年開始在計算機科學的論文中被引用次數最多的論文

《InfiniTAM: 基於深度圖像的體數據集成框架》

介紹:把今年的一個 ACM Trans. on Graphics (TOG)論文中的代碼整理為一個開源的演算法框架,共享出來了。歡迎大家使用。可以實時的採集 3D 數據、重建出三維模型。Online learning,GPU Random forest,GPU CRF 也會後續公開。

《Hacker"s guide to Neural Networks》

介紹:【神經網路黑客指南】現在,最火莫過於深度學習(Deep Learning),怎樣更好學習它?可以讓你在瀏覽器中,跑起深度學習效果的超酷開源項目 convnetjs 作者 karpathy 告訴你,最佳技巧是,當你開始寫代碼,一切將變得清晰。他剛發布了一本圖書,不斷在線更新。

《Building a Production Machine Learning Infrastructure》

介紹:前 Google 廣告系統工程師 Josh Wills 講述工業界和學術界機器學習的異同,大實話。

《Deep Learning Sentiment Analysis for Movie Reviews using Neo4j》

介紹:使用 Neo4j 做電影評論的情感分析。

《DeepLearning.University – An Annotated Deep Learning Bibliography》

介紹:不僅是資料,而且還對有些資料做了注釋。

《A primer on deeping learning》

介紹:深度學習入門的初級讀本

《Machine learning is teaching us the secret to teaching 》

介紹:機器學習教會了我們什麼?

《scikit-learn:用於機器學習的 Python 模塊》

介紹:scikit-learn 是在 SciPy 基礎上構建的用於機器學習的 Python 模塊。

《對話機器學習大神 Michael Jordan:解析領域中各類模型》

介紹:喬丹教授(Michael I. Jordan)教授是機器學習領域神經網路的大牛,他對深度學習、神經網路有著很濃厚的興趣。因此,很多提問的問題中包含了機器學習領域的各類模型,喬丹教授對此一一做了解釋和展望。

[《A
搜索演算法的可視化短教程》](Introduction to A*)

介紹:A*搜索是人工智慧基本演算法,用於高效地搜索圖中兩點的最佳路徑, 核心是 g (n) +h(n): g (n)是從起點到頂點n的實際代價,h(n)是頂點n到目標頂點的估算代價。 合集

《基於雲的自然語言處理開源項目 FudanNLP》

介紹:本項目利用了 Microsoft Azure,可以在幾分種內完成 NLP on Azure Website 的部署,立即開始對 FNLP 各種特性的試用,或者以 REST API 的形式調用 FNLP 的語言分析功能。

《吳立德《概率主題模型&數據科學基礎》》

介紹:現任復旦大學首席教授、計算機軟體博士生導師。計算機科學研究所副所長.內部課程。

《機器學習入門資源不完全匯總》》

介紹:好東西的乾貨真的很多

《收集從 2014 年開始深度學習文獻》

介紹:從硬體、圖像到健康、生物、大數據、生物信息再到量子計算等,Amund Tveit 等維護了一個 DeepLearning.University 小項目:收集從 2014 年開始深度學習文獻,相信可以作為深度學習的起點, github

《EMNLP 上兩篇關於股票趨勢的應用論文 》

介紹:EMNLP 上兩篇關於 stock trend 用到了 deep model 組織特徵; Exploiting Social Relations and Sentiment for Stock Prediction 用到了 stock network。

《Bengio 組(蒙特利爾大學 LISA 組)深度學習教程 》

介紹:作者是深度學習一線大牛 Bengio 組寫的教程,演算法深入顯出,還有實現代碼,一步步展開。

《學習演算法的 Neural Turing Machine 》

介紹:許多傳統的機器學習任務都是在學習 function,不過谷歌目前有開始學習演算法的趨勢。谷歌另外的這篇學習 Python 程序的 Learning to Execute 也有相似之處。

《Learning to Rank for Information Retrieval and Natural Language Processing》

介紹:作者是華為技術有限公司,諾亞方舟實驗室,首席科學家的李航博士寫的關於信息檢索與自然語言處理的文章。

《Rumor has it: Identifying Misinformation in Microblogs》

介紹:利用機用器學習在謠言的判別上的應用,此外還有兩個。一個是識別垃圾與虛假信息的 paper .還有一個是 網路輿情及其分析技術 。

《R機器學習實踐》

介紹:該課程是網易公開課的收費課程,不貴,超級便宜。主要適合於對利用R語言進行機器學習,數據挖掘感興趣的人。

《大數據分析:機器學習演算法實現的演化》

介紹:本章中作者總結了三代機器學習演算法實現的演化:第一代非分散式的, 第二代工具如 Mahout 和 Rapidminer 實現基於 Hadoop 的擴展,第三代如 Spark 和 Storm 實現了實時和迭代數據處理。 BIG DATA ANALYTICS BEYOND HADOOP

《圖像處理,分析與機器視覺》

介紹:講計算機視覺的四部奇書(應該叫經典吧)之一,另外三本是 Hartley 的《多圖幾何》、Gonzalez 的《數字圖像處理》、Rafael C.Gonzalez / Richard E.Woods 的《數字圖像處理》

《LinkedIn 最新的推薦系統文章 Browsemaps》

介紹:裡面基本沒涉及到具體演算法,但作者介紹了 CF 在 LinkedIn 的很多應用,以及他們在做推薦過程中獲得的一些經驗。最後一條經驗是應該監控 log 數據的質量,因為推薦的質量很依賴數據的質量!

《初學者如何查閱自然語言處理(NLP)領域學術資料》

介紹:初學者如何查閱自然語言處理(NLP)領域學術資料。

《樹莓派的人臉識別教程》

介紹:用樹莓派和相機模塊進行人臉識別。

《利用深度學習與大數據構建對話系統 》

介紹:如何利用深度學習與大數據構建對話系統。

《經典論文 Leo Breiman:Statistical Modeling: The Two Cultures 》

介紹:Francis Bach 合作的有關稀疏建模的新綜述(書):Sparse Modeling for Image and Vision Processing,內容涉及 Sparsity, Dictionary Learning, PCA, Matrix Factorization 等理論,以及在圖像和視覺上的應用,而且第一部分關於 Why does the l1-norm induce sparsity 的解釋也很不錯。

《Reproducing Kernel Hilbert Space》

介紹:RKHS 是機器學習中重要的概念,其在 large margin 分類器上的應用也是廣為熟知的。如果沒有較好的數學基礎,直接理解 RKHS 可能會不易。本文從基本運算空間講到 Banach 和 Hilbert 空間,深入淺出,一共才 12 頁。

《Hacker"s guide to Neural Networks》

介紹:許多同學對於機器學習及深度學習的困惑在於,數學方面已經大致理解了,但是動起手來卻不知道如何下手寫代碼。斯坦福深度學習博士 Andrej Karpathy 寫了一篇實戰版本的深度學習及機器學習教程,手把手教你用 Javascript 寫神經網路和 SVM.

《【語料庫】語料庫資源匯總》

介紹:【語料庫】語料庫資源匯總。

《機器學習演算法之旅》

介紹:本文會過一遍最流行的機器學習演算法,大致了解哪些方法可用,很有幫助。

《Reproducible Research in Computational Science》

介紹:這個裡面有很多關於機器學習、信號處理、計算機視覺、深入學習、神經網路等領域的大量源代碼(或可執行代碼)及相關論文。科研寫論文的好資源。

《NYU 2014 年的深度學習課程資料》

介紹:NYU 2014 年的深度學習課程資料,有視頻。

《計算機視覺數據集不完全匯總》

介紹:計算機視覺數據集不完全匯總。

《Machine Learning Open Source Software》

介紹:機器學習開源軟體

《LIBSVM》

介紹:A Library for Support Vector Machines

《Support Vector Machines》

介紹:數據挖掘十大經典演算法之一

《100 Best GitHub: Deep Learning》

介紹:github 上面 100 個非常棒的項目

《加州大學歐文分校(UCI)機器學習數據集倉庫》

介紹:當前加州大學歐文分校為機器學習社區維護著 306 個數據集。 查詢數據集

《Andrej Karpathy 個人主頁》

介紹:Andrej Karpathy 是斯坦福大學 Li Fei-Fei 的博士生,使用機器學習在圖像、視頻語義分析領域取得了科研和工程上的突破,發的文章不多,但每個都很紮實,在每一個問題上都做到了 state-of-art.

《Andrej Karpathy 的深度強化學習演示》

介紹:Andrej Karpathy 的深度強化學習演示, 論文在這裡

《CIKM 數據挖掘競賽奪冠演算法-陳運文》

介紹:CIKM Cup (或者稱為 CIKM Competition)是 ACM CIKM 舉辦的國際數據挖掘競賽的名稱。

《Geoffrey E. Hinton》

介紹:傑弗里·埃弗里斯特·辛頓 FRS 是一位英國出生的計算機學家和心理學家,以其在神經網路方面的貢獻聞名。辛頓是反向傳播演算法和對比散度演算法的發明人之一,也是深度學習的積極推動者.

《自然語言處理的深度學習理論與實際》

介紹:微軟研究院深度學習技術中心在 CIKM2014 上關於《自然語言處理的深度學習理論與實際》教學講座的幻燈片。

《用大數據和機器學習做股票價格預測》

介紹: 本文基於<支持向量機的高頻限價訂單的動態建模>採用了 Apache Spark 和 Spark MLLib 從紐約股票交易所的訂單日誌數據構建價格運動預測模型。(股票有風險,投資謹慎) GitHub 源代碼託管地址.

《關於機器學習的若干理論問題》

介紹:徐宗本院士將於熱愛機器學習的小夥伴一起探討有關於機器學習的幾個理論性問題,並給出一些有意義的結論。最後通過一些實例來說明這些理論問題的物理意義和實際應用價值。

《深度學習在自然語言處理的應用》

介紹:作者還著有《這就是搜索引擎:核心技術詳解》一書,主要是介紹應用層的東西。

《Undergraduate machine learning at UBC》

介紹:機器學習課程

《人臉識別必讀的N篇文章》

介紹:人臉識別必讀文章推薦

《推薦系統經典論文文獻及業界應用》

介紹:推薦系統經典論文文獻

《第十二屆中國"機器學習及其應用"研討會 PPT》

介紹:第十二屆中國"機器學習及其應用"研討會 PPT

《統計機器學習》

介紹:統計學習是關於計算機基於數據構建的概率統計模型並運用模型對數據進行預測和分析的一門科學,統計學習也成為統計機器學習。課程來自上海交通大學。

《機器學習導論》

介紹:機器學習的目標是對計算機編程,以便使用樣本數據或以往的經驗來解決給定的問題.

《CIKM 2014 主題報告的幻燈片》

介紹:CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum 的主題報告的幻燈片, Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin 的 Industry Track 報告的幻燈片。

《人工智慧和機器學習領域有趣的開源項目》

介紹:部分中文 列表

《機器學習經典演算法詳解及 Python 實現--基於 SMO 的 SVM 分類器》

介紹:此外作者還有一篇 元演算法、AdaBoost python 實現文章

《Numerical Optimization: Understanding L-BFGS》

介紹:加州伯克利大學博士 Aria Haghighi 寫了一篇超贊的數值優化博文,從牛頓法講到擬牛頓法,再講到 BFGS 以及L-BFGS, 圖文並茂,還有偽代碼。強烈推薦。

《簡明深度學習方法概述(一)》

介紹:還有續集 簡明深度學習方法概述(二)

《R language for programmers》

介紹:R語言程序員私人定製版

《谷歌地圖解密:大數據與機器學習的結合》

介紹:谷歌地圖解密

《空間數據挖掘常用方法》

介紹:空間數據挖掘常用方法

《Use Google"s Word2Vec for movie reviews》

介紹:Kaggle 新比賽 」When bag of words meets bags of popcorn「 aka 」邊學邊用 word2vec 和 deep learning 做 NLP「 裡面全套教程教一步一步用 python 和 gensim 包的 word2vec 模型,並在實際比賽裡面比調參數和清數據。 如果已裝過 gensim 不要忘升級。

《PyNLPIR》

介紹:PyNLPIR 提供了 NLPIR/ICTCLAS 漢語分詞的 Python 介面,此外 Zhon 提供了常用漢字常量,如 CJK 字元和偏旁,中文標點,拼音,和漢字正則表達式(如找到文本中的繁體字)。

《深度卷積神經網路下圍棋》

介紹:這文章說把最近模型識別上的突破應用到圍棋軟體上,打 16 萬張職業棋譜訓練模型識別功能。想法不錯。訓練後目前能做到不用計算,只看棋盤就給出下一步,大約 10 級棋力。但這篇文章太過樂觀,說什麼人類的最後一塊堡壘馬上就要跨掉了。話說得太早。不過,如果與別的軟體結合應該還有潛力可挖。@萬精油墨綠

《NIPS 審稿實驗》

介紹:UT Austin 教授 Eric Price 關於今年 NIPS 審稿實驗的詳細分析,他表示,根據這次實驗的結果,如果今年 NIPS 重新審稿的話,會有一半的論文被拒。

《2014 年最佳的大數據,數據科學文章》

介紹:KDNuggets 分別總結了 2014 年 14 個閱讀最多以及分享最多的文章。我們從中可以看到多個主題——深度學習,數據科學家職業,教育和薪酬,學習數據科學的工具比如R和 Python 以及大眾投票的最受歡迎的數據科學和數據挖掘語言。

《機器學習經典演算法詳解及 Python 實現--線性回歸(Linear Regression)演算法》

介紹:Python 實現線性回歸,作者還有其他很棒的文章推薦可以看看。

《2014 中國大數據技術大會 33 位核心專家演講 PDF》

介紹:2014 中國大數據技術大會 33 位核心專家演講 PDF 下載

《使用 RNN 和 Paragraph Vector 做情感分析》

介紹:這是T. Mikolov & Y. Bengio 最新論文 Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ,使用 RNN 和 PV 在情感分析效果不錯,[項目代碼](mesnilgr/iclr15%E5%85%AC%E5%B8%83%E5%9C%A8github%20(%E7%9B%AE%E5%89%8D%E6%98%AF%E7%A9%BA%E7%9A%84)%E3%80%82%E8%BF%99%E6%84%8F%E5%91%B3%E7%9D%80Paragraph) ) 公布在 github (目前是空的)。這意味著 Paragraph Vector 終於揭開面紗了嘛。

《NLPIR/ICTCLAS2015 分詞系統大會上的技術演講 》

介紹:NLPIR/ICTCLAS2015 分詞系統發布與用戶交流大會上的演講,請更多朋友檢閱新版分詞吧。 我們實驗室同學的演講包括: 孫夢姝-基於評論觀點挖掘的商品搜索技術研究李然-主題模型 。

《Machine Learning is Fun!》

介紹:Convex Neural Networks 解決維數災難。

《CNN 的反向求導及練習》

介紹:介紹 CNN 參數在使用 bp 演算法時該怎麼訓練,畢竟 CNN 中有卷積層和下採樣層,雖然和 MLP 的 bp 演算法本質上相同,但形式上還是有些區別的,很顯然在完成 CNN 反向傳播前了解 bp 演算法是必須的。此外作者也做了一個 資源集:機器學習,深度學習,視覺,數學等 。

《正則表達式優化成 Trie 樹 》

介紹:如果要在一篇文章中匹配十萬個關鍵詞怎麼辦?Aho-Corasick 演算法利用添加了返回邊的 Trie 樹,能夠在線性時間內完成匹配。 但如果匹配十萬個正則表達式呢 ? 這時候可以用到把多個正則優化成 Trie 樹的方法,如日本人寫的 Regexp::Trie

《Deep learning Reading List》

介紹:深度學習閱讀清單

《Caffe》

介紹:Caffe 是一個開源的深度學習框架,作者目前在 google 工作,作者主頁 Yangqing Jia (賈揚清)

《GoogLeNet 深度學習模型的 Caffe 復現 》

介紹:2014 ImageNet 冠軍 GoogLeNet 深度學習模型的 Caffe 復現模型, GoogleNet 論文.

《LambdaNet,Haskell 實現的開源人工神經網路庫 》

介紹:LambdaNetLambdaNet 是由 Haskell 實現的一個開源的人工神經網路庫,它抽象了網路創建、訓練並使用了高階函數。該庫還提供了一組預定義函數,用戶可以採取多種方式組合這些函數來操作現實世界數據。

《百度余凱&張潼機器學習視頻》

介紹:如果你從事互聯網搜索,在線廣告,用戶行為分析,圖像識別,自然語言理解,或者生物信息學,智能機器人,金融預測,那麼這門核心課程你必須深入了解。

《楊強在 TEDxNanjing 談智能的起源》

介紹:"人工智慧研究分許多流派。其中之一以 IBM 為代表,認為只要有高性能計算就可得到智能,他們的『深藍』擊敗了世界象棋冠軍;另一流派認為智能來自動物本能;還有個很強的流派認為只要找來專家,把他們的思維用邏輯一條條寫下,放到計算機里就行……" 楊強在 TEDxNanjing 談智能的起源。

《深度 RNN/LSTM 用於結構化學習 0) 序列標註 Connectionist Temporal ClassificationICML06》

介紹:1) 機器翻譯 Sequence to Sequence NIPS14 2) 成分句法 GRAMMAR AS FOREIGN LANGUAGE

《Deep Learning 實戰之 word2vec》

介紹:網易有道的三位工程師寫的 word2vec 的解析文檔,從基本的詞向量/統計語言模型->NNLM->Log-Linear/Log-Bilinear->層次化 Log-Bilinear,到 CBOW 和 Skip-gram 模型,再到 word2vec 的各種 tricks,公式推導與代碼,基本上是網上關於 word2vec 資料的大合集,對 word2vec 感興趣的朋友可以看看。

《Machine learning open source software》

介紹:機器學習開源軟體,收錄了各種機器學習的各種編程語言學術與商業的開源軟體.與此類似的還有很多例如: DMOZ - Computers: Artificial Intelligence: Machine Learning: Software , LIBSVM -- A Library for Support Vector Machines , Weka 3: Data Mining Software in Java , scikit-learn:Machine Learning in Python , Natural Language Toolkit:NLTK , MAchine Learning for LanguagE Toolkit , Data Mining - Fruitful and Fun, Open Source Computer Vision Library

《機器學習入門者學習指南》

介紹:作者是計算機研二(寫文章的時候,現在是 2015 年了應該快要畢業了),專業方向自然語言處理.這是一點他的經驗之談.對於入門的朋友或許會有幫助。

《A Tour of Machine Learning Algorithms》

介紹:這是一篇關於機器學習演算法分類的文章,非常好。

《2014 年的《機器學習日報》大合集》

介紹:機器學習日報裡面推薦很多內容,在這裡有一部分的優秀內容就是來自機器學習日報.

《 Image classification with deep learning 常用模型》

介紹:這是一篇關於圖像分類在深度學習中的文章。

《自動語音識別:深度學習方法》

介紹:作者與 Bengio 的兄弟 Samy 09 年合編《自動語音識別:核方法》 3)李開復 1989 年《自動語音識別》專著,其博導、94 年圖靈獎得主 Raj Reddy 作序。

《NLP 中的中文分詞技術》

介紹: 作者是 360 電商技術組成員,這是一篇 NLP 在中文分詞中的應用。

《Using convolutional neural nets to detect facial keypoints tutorial》

介紹: 使用 deep learning 的人臉關鍵點檢測,此外還有一篇 AWS 部署教程

《書籍推薦:Advanced Structured Prediction》

介紹: 由 Sebastian Nowozin 等人編纂 MIT 出版的新書《Advanced Structured Prediction》 http://t.cn/RZxipKG ,彙集了結構化預測領域諸多牛文,涉及 CV、NLP 等領域,值得一讀。網上公開的幾章草稿: 一 , 二 , 三 , 四 , 五

《An Introduction to Matrix Concentration Inequalities》

介紹: Tropp 把數學家用高深裝逼的數學語言寫的矩陣概率不等式用初等的方法寫出來,是非常好的手冊,領域內的 paper 各種證明都在用裡面的結果。雖說是初等的,但還是非常的難。

《The free big data sources you should know》

介紹: 不容錯過的免費大數據集,有些已經是耳熟能詳,有些可能還是第一次聽說,內容跨越文本、數據、多媒體等,讓他們伴你開始數據科學之旅吧,具體包括:Data.gov、US Census Bureau、European Union Open Data Portal、Data.gov.uk 等。

《A Brief Overview of Deep Learning》

介紹: 谷歌科學家、Hinton 親傳弟子 Ilya Sutskever 的深度學習綜述及實際建議。

《A Deep Dive into Recurrent Neural Nets》

介紹: 非常好的討論遞歸神經網路的文章,覆蓋了 RNN 的概念、原理、訓練及優化等各個方面內容,強烈推薦!本文作者 Nikhil Buduma 還有一篇 Deep Learning in a Nutshell值得推薦。

《機器學習:學習資源》

介紹:裡面融合了很多的資源,例如競賽,在線課程,demo,數據整合等。有分類。

《Statistical foundations of machine learning》

介紹:《機器學習的統計基礎》在線版,該手冊希望在理論與實踐之間找到平衡點,各主要內容都伴有實際例子及數據,書中的例子程序都是用R語言編寫的。

《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

介紹:IVAN VASILEV 寫的深度學習導引:從淺層感知機到深度網路。高可讀。

《Research priorities for robust and beneficial artificial intelligence》

介紹:魯棒及有益的人工智慧優先研究計劃:一封公開信,目前已經有 Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk 等人簽署 The Future of Life Institute (FLI) .這封信的背景是最近霍金和 Elon Musk 提醒人們注意 AI 的潛在威脅。公開信的內容是 AI 科學家們站在造福社會的角度,展望人工智慧的未來發展方向,提出開發 AI 系統的 Verification,Validity, Security, Control 四點要求,以及需要注意的社會問題。畢竟當前 AI 在經濟領域,法律,以及道德領域相關研究較少。其實還有一部美劇 《疑犯追蹤》 ,介紹了 AI 的演進從一開始的自我學習,過濾,圖像識別,語音識別等判斷危險,到第四季的時候出現了機器通過學習成長之後想控制世界的狀態。說到這裡推薦收看。

《metacademy》

介紹:裡面根據詞條提供了許多資源,還有相關知識結構,路線圖,用時長短等。號稱是」機器學習「搜索引擎。

《FAIR open sources deep-learning modules for Torch》

介紹:Facebook 人工智慧研究院(FAIR)開源了一系列軟體庫,以幫助開發者建立更大、更快的深度學習模型。開放的軟體庫在 Facebook 被稱作模塊。用它們替代機器學習領域常用的開發環境 Torch 中的默認模塊,可以在更短的時間內訓練更大規模的神經網路模型。

《淺析人臉檢測之 Haar 分類器方法》

介紹:本文雖然是寫於 2012 年,但是這篇文章完全是作者的經驗之作。

《如何成為一位數據科學家》

介紹:本文是對《機器學習實戰》作者 Peter Harrington 做的一個訪談。包含了書中部分的疑問解答和一點個人學習建議。

《Deep learning from the bottom up》

介紹:非常好的深度學習概述,對幾種流行的深度學習模型都進行了介紹和討論。

《Hands-On Data Science with R Text Mining》

介紹:主要是講述了利用R語言進行數據挖掘。

《Understanding Convolutions》

介紹:幫你理解卷積神經網路,講解很清晰,此外還有兩篇 Conv Nets: A Modular Perspective , Groups & Group Convolutions. 作者的其他的關於神經網路文章也很棒。

《Introduction to Deep Learning Algorithms》

介紹:Deep Learning 演算法介紹,裡面介紹了 06 年 3 篇讓 deep learning 崛起的論文。

《Learning Deep Architectures for AI》

介紹:一本學習人工智慧的書籍,作者是 Yoshua Bengio,相關 國內報道 。

《Geoffrey E. Hinton 個人主頁》

介紹:Geoffrey Hinton 是 Deep Learning 的大牛,他的主頁放了一些介紹性文章和課件值得學習。

《PROBABILITY THEORY: THE LOGIC OF SCIENCE》

介紹:概率論:數理邏輯書籍。

《H2O》

介紹:一個用來快速的統計,機器學習並且對於數據量大的數學庫。

《ICLR 2015 會議的 arXiv 稿件合集》

介紹:在這裡你可以看到最近深度學習有什麼新動向。

《Introduction to Information Retrieval》

介紹:此書在信息檢索領域家喻戶曉, 除提供該書的免費電子版外,還提供一個 IR 資源列表 ,收錄了信息檢索、網路信息檢索、搜索引擎實現等方面相關的圖書、研究中心、相關課程、子領域、會議、期刊等等,堪稱全集,值得收藏。

來源: github

原文鏈接:ty4z2008/Qix

------------------

最近比較忙,大家可以加我微信:tianshanliangyong ,一起探討深度學習、機器學習相關知識。謝謝


推薦閱讀:

以AlphaGo為例,如何理解神經網路的存儲容量(storage capacity)?
機器學習怎麼應用於流行病學研究?
如何評價微軟在Build 2015上發布的Project Oxford?
factorization machine和logistic regression的區別?
為什麼工業界喜歡用LR模型?

TAG:机器学习 | 深度学习DeepLearning | 数据科学家 |