機器學習應補充哪些數學基礎?

機器學習理論是眾多學科的交叉,在數學基礎方面,應該補充哪些知識呢?
希望推薦相關數學從入門到熟練書籍以及課程。


裡面鏈接無效的pdf文件 英文版 基本均可從 電子書庫.免費下載圖書.查找圖書 bookzz上下載 看好作者和版本就好了 最近比較忙 有空了 會把所有鏈接從新設置下 不好意思啊 各位
-------------原答案分割線-------------------
轉自: 機器學習經典書籍

    1. 數學基礎
      1. 《矩陣分析》 PDFRoger Horn。矩陣分析領域無爭議的經典
      2. 《概率論及其應用》 PDF威廉·費勒。極牛的書,可數學味道太重,不適合做機器學習的
      3. 《All Of Statistics》 PDF 掃描版PDF 高清版機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。
      4. 《Nonlinear Programming, 2nd》 PDF最優化方法,非線性規劃的參考書。
      5. 《Convex Optimization》 PDF配套代碼Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套代碼,是一本不可多得的好書。
      6. 《Numerical Optimization》 PDF第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。
      7. 《Introduction to Mathematical Statistics》 PDF第六版,Hogg著,本書介紹了概率統計的基本概念以及各種分布,以及ML,Bayesian方法等內容。
      8. 《An Introduction to Probabilistic Graphical Models》 PDFJordan著,本書介紹了條件獨立、分解、混合、條件混合等圖模型中的基本概念,對隱變數(潛在變數)也做了詳細介紹,相信大家在隱馬爾科夫鏈和用Gaussian混合模型來實現EM演算法時遇到過這個概念。
      9. 《Probabilistic Graphical Models-Principles and Techniques》 PDFKoller著,一本很厚很全面的書,理論性很強,可以作為參考書使用。
      10. 具體數學 PDF經典

      歡迎補充。

      文中提供的PDF下載鏈接,均來自於網路,如有問題,請站內告知。

    2. bind一月 4

      1. 線性代數 (Linear Algebra):我想國內的大學生都會學過這門課程,但是,未必每一位老師都能貫徹它的精要。這門學科對於Learning是必備的基礎,對它的透徹掌握是必不可少的。我在科大一年級的時候就學習了這門課,後來到了香港後,又重新把線性代數讀了一遍,所讀的是

        Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.

        這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較透徹。我個人覺得,學習線性代數,最重要的不是去熟練矩陣運算和解方程的方法——這些在實際工作中MATLAB可以代勞,關鍵的是要深入理解幾個基礎而又重要的概念:子空間(Subspace),正交(Orthogonality),特徵值和特徵向量(Eigenvalues and eigenvectors),和線性變換(Linear transform)。從我的角度看來,一本線代教科書的質量,就在於它能否給這些根本概念以足夠的重視,能否把它們的聯繫講清楚。Strang的這本書在這方面是做得很好的。

        而且,這本書有個得天獨厚的優勢。書的作者長期在MIT講授線性代數課(18.06),課程的video在MIT的Open courseware網站上有提供。有時間的朋友可以一邊看著名師授課的錄像,一邊對照課本學習或者複習。

        Linear Algebra

      2. 概率和統計 (Probability and Statistics):概率論和統計的入門教科書很多,我目前也沒有特別的推薦。我在這裡想介紹的是一本關於多元統計的基礎教科書:

        Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern

        這本書是我在剛接觸向量統計的時候用於學習的,我在香港時做研究的基礎就是從此打下了。實驗室的一些同學也借用這本書學習向量統計。這本書沒有特別追求數學上的深度,而是以通俗易懂的方式講述主要的基本概念,讀起來很舒服,內容也很實用。對於Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開了初步的論述。

        之後就可以進一步深入學習貝葉斯統計和Graphical models。一本理想的書是

        Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.

        我不知道這本書是不是已經出版了(不要和Learning in Graphical Models混淆,那是個論文集,不適合初學)。這本書從基本的貝葉斯統計模型出發一直深入到複雜的統計網路的估計和推斷,深入淺出,statistical learning的許多重要方面都在此書有清楚論述和詳細講解。MIT內部可以access,至於外面,好像也是有電子版的。

      3. 分析 (Analysis):我想大家基本都在大學就學過微積分或者數學分析,深度和廣度則隨各個學校而異了。這個領域是很多學科的基礎,值得推薦的教科書莫過於

        Principles of Mathematical Analysis, by Walter Rudin

        有點老,但是絕對經典,深入透徹。缺點就是比較艱深——這是Rudin的書的一貫風格,適合於有一定基礎後回頭去看。

        在分析這個方向,接下來就是泛函分析(Functional Analysis)。

        Introductory Functional Analysis with Applications, by Erwin Kreyszig.

        適合作為泛函的基礎教材,容易切入而不失全面。我特別喜歡它對於譜論和運算元理論的特別關注,這對於做learning的研究是特別重要的。Rudin也有一本關於functional analysis的書,那本書在數學上可能更為深刻,但是不易於上手,所講內容和learning的切合度不如此書。

        在分析這個方向,還有一個重要的學科是測度理論(Measure theory),但是我看過的書裡面目前還沒有感覺有特別值得介紹的。

      4. 拓撲 (Topology):在我讀過的基本拓撲書各有特色,但是綜合而言,我最推崇:

        Topology (2nd Ed.) by James Munkres

        這本書是Munkres教授長期執教MIT拓撲課的心血所凝。對於一般拓撲學(General topology)有全面介紹,而對於代數拓撲(Algebraic topology)也有適度的探討。此書不需要特別的數學知識就可以開始學習,由淺入深,從最基本的集合論概念(很多書不屑講這個)到Nagata-Smirnov Theorem和Tychonoff theorem等較深的定理(很多書避開了這個)都覆蓋了。講述方式思想性很強,對於很多定理,除了給出證明過程和引導你思考其背後的原理脈絡,很多令人讚歎的亮點——我常讀得忘卻飢餓,不願釋手。很多習題很有水平。

      5. 流形理論 (Manifold theory):對於拓撲和分析有一定把握時,方可開始學習流形理論,否則所學只能流於浮淺。我所使用的書是

        Introduction to Smooth Manifolds. by John M. Lee

        雖然書名有introduction這個單詞,但是實際上此書涉入很深,除了講授了基本的manifold, tangent space, bundle, sub-manifold等,還探討了諸如綱理論(Category theory),德拉姆上同調(De Rham cohomology)和積分流形等一些比較高級的專題。對於李群和李代數也有相當多的討論。行文通俗而又不失嚴謹,不過對某些記號方式需要熟悉一下。

        雖然李群論是建基於平滑流形的概念之上,不過,也可能從矩陣出發直接學習李群和李代數——這種方法對於急需使用李群論解決問題的朋友可能更加實用。而且,對於一個問題從不同角度看待也利於加深理解。下面一本書就是這個方向的典範:

        Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall

        此書從開始即從矩陣切入,從代數而非幾何角度引入矩陣李群的概念。並通過定義運算的方式建立exponential mapping,並就此引入李代數。這種方式比起傳統的通過「左不變向量場(Left-invariant vector field)「的方式定義李代數更容易為人所接受,也更容易揭示李代數的意義。最後,也有專門的論述把這種新的定義方式和傳統方式聯繫起來。


機器學習主要用到兩類數學:統計和凸優化
為了方便就貼亞馬遜了,這些書其實可以下到的。

統計方面,推薦Larry Wasserman的兩本書:
Amazon.com: All of Statistics: A Concise Course in Statistical Inference (Springer Texts in Statistics) (9780387402727): Larry Wasserman: Books

Amazon.com: All of Nonparametric Statistics (Springer Texts in Statistics) (9780387251455): Larry Wasserman: Books

凸優化方面,推薦stanford的教材:
http://www.stanford.edu/~boyd/cvxbook/

入門的話,本科的數學分析,線性代數,概率論與數理統計足夠了。


該回答分為兩個部分,前半部分為機器學習所需數學基礎概覽和簡要介紹,後半部分為數學與統計學相關公開課推薦和相關介紹。希望這個答案對於大家學習數學與機器學習有所幫助。

機器學習理論是統計學、概率學、計算機科學以及演算法的交叉領域,是通過從數據中的迭代學習去發現能夠被用來構建智能應用的隱藏知識。儘管機器學習和深度學習有著無限可能,然而為了更好地掌握演算法的內部工作機理和得到較好的結果,對大多數這些技術有一個透徹的數學理解是必要的。


邏輯回歸和神經網路的代價函數的計算方法

第一部分:你需要什麼水平的數學?

當你嘗試著去理解一個像機器學習(ML)一樣的交叉學科的時候,主要問題是理解這些技術所需要的數學知識的量以及必要的水平。這個問題的答案是多維的,也會因個人的水平和興趣而不同。關於機器學習的數學公式和理論進步正在研究之中,而且一些研究者正在研究更加先進的技術。下面我會說明我所認為的要成為一個機器學習科學家/工程師所需要的最低的數學水平以及每個數學概念的重要性。

1. 線性代數:我的一個同事 Skyler Speakman 最近說過,「線性代數是 21 世紀的數學」,我完全贊同他的說法。在機器學習領域,線性代數無處不在。主成分分析(PCA)、奇異值分解(SVD)、矩陣的特徵分解、LU 分解、QR 分解、對稱矩陣、正交化和正交歸一化、矩陣運算、投影、特徵值和特徵向量、向量空間和範數(Norms),這些都是理解機器學習中所使用的優化方法所需要的。令人驚奇的是現在有很多關於線性代數的在線資源。我一直說,由於大量的資源在互聯網是可以獲取的,因而傳統的教室正在消失。我最喜歡的線性代數課程是由 MIT Courseware 提供的(Gilbert Strang 教授的講授的課程):http://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/

2. 概率論和統計學:機器學習和統計學並不是迥然不同的領域。事實上,最近就有人將機器學習定義為「在機器上做統計」。機器學習需要的一些概率和統計理論分別是:組合、概率規則和公理、貝葉斯定理、隨機變數、方差和期望、條件和聯合分布、標準分布(伯努利、二項式、多項式、均勻和高斯)、 矩母函數 (Moment Generating Functions)、最大似然估計(MLE)、先驗和後驗、最大後驗估計(MAP)和抽樣方法。

3. 多元微積分:一些必要的主題包括微分和積分、偏微分、向量值函數、方向梯度、海森、雅可比、拉普拉斯、拉格朗日分布。

4. 演算法和複雜優化:這對理解我們的機器學習演算法的計算效率和可擴展性以及利用我們的數據集中稀疏性很重要。需要的知識有數據結構(二叉樹、散列、堆、棧等)、動態規劃、隨機和子線性演算法、圖論、梯度/隨機下降和原始對偶方法。

5. 其他:這包括以上四個主要領域沒有涵蓋的數學主題。它們是實數和複數分析(集合和序列、拓撲學、度量空間、單值連續函數、極限)、資訊理論(熵和信息增益)、函數空間和流形學習。

本文主要目的給出一些善意的關於數學在機器學中的重要性的建議,一些必需的數學主題。基本的吸納覺條件是本文所描述的數據分析,你可以在掌握更多的技術和演算法的過程中學習數學。


第二部分:什麼樣的課程適合你?

為了幫助你瀏覽這些課程,我將課程分為初級、中級以及高級三類,分別針對不同學習者。在深入學習前,請選擇你的數學專業水平。我添加了修習每個課程之前必須做的功課,以資參考。

學習完預備課程才能更好地理解後續課程,這樣的課程很少。所以,你一定要確定了解這些課程主題或者上過這些課。

接著讀,找到適合你的課程!

內容目錄:

  • 初級數學水平/統計學
  • 數據科學數學技巧
  • 描述統計學入門
  • 推論統計學入門
  • 概率和數據入門
  • 無處不在的數學:有限數學應用
  • 概率:基礎概念離散隨機變數
  • 數學生物統計學訓練營 1
  • 線性代數應用 第一部分
  • 數學思維入門
  • 中級數學水平/統計學
  • 貝葉斯統計學:從概念到數據分析
  • 博弈論 1
  • 博弈論 2 :高級應用
  • 數據科學的高級線性模型 1:最小二乘
  • 數據科學的高級線性模型 2:統計線性模型
  • 線性模型和矩陣代數入門
  • 運動中的數學
  • 高級數學水平/統計學
  • 離散優化
  • 基因組數據科學統計學
  • 大數據應用的生物統計學

初級水平的數學和統計學

1. 數據科學數學技巧(Data Science Maths Skills)

地址:https://www.coursera.org/learn/datasciencemathskills

課程周期:4 周

授課:杜克大學(Coursera)

如果你是個初學者,數學知識十分有限,那麼,這個課程很適合你。課程中,你會了解許多代數概念,比如集合論、不等式、函數、坐標幾何、對數以及概率等等。

這個課程會帶你瀏覽數學科學所需的所有基礎數學技能並打下堅實基礎。

課程開始時間為 2017 年 1 月 9 日,授課老師來自杜克大學。

預備知識:基礎數學知識

2. 描述統計學入門(Intro to Descriptive Statistics)

地址:https://www.udacity.com/course/intro-to-descriptive-statistics--ud827

課程周期:8 周

授課:Udacity (Coursera)

對於想要學習統計學的初學者來說,Udacity 的這門課是非常好的入門指南。內容有趣、實用,而且有很多實例。描述統計學首先會讓你熟悉各種統計學和定義。然後教授統計學概念,比如集中趨勢(central tendency)、可變性(variability)、標準正態分布以及取樣分布。這門課並不需要你提前掌握一些統計學知識,現開放註冊。

預備知識:無

3. 推論統計學入門(Intro to Inferential Statistics)

地址:https://www.udacity.com/course/intro-to-inferential-statistics--ud201

課程周期:8 周

授課:Udacity(Coursera)

學完描述統計學後,就該學習推論統計學了。本課程仍然延續了實用的授課方式。

課程中,你會學到諸如估算(estimation)、假設檢驗、t 檢驗、卡方檢驗、單向方差分析、雙向方差分析以及相關、回歸等統計概念。

每個主題後面還配有習題集和小測試。課程結束後,你還能在真實數據組上測試學習情況。課程已開放註冊。

預備知識:完全理解描述統計學(Descriptive Statistics,即上面的第 2 個推薦)

替代課程:《統計學:打開數據世界之門(Statistics: Unlocking the World of Data)》,一個為期 6 周的匹茲堡大學的課程(edX)。地址:https://www.edx.org/course/statistics-unlocking-world-data-edinburghx-statsx#!

4. 概率和數據入門(Introduction to Probability and Data)

地址:https://www.coursera.org/learn/probability-intro

課程周期:5 周

授課:杜克大學(Coursera)

本課會帶你使用 R 和 RStudio 接觸數據視覺化和數值統計。

首先帶你掌握概率和數據挖掘基本概念,開始對課程有個基本了解。然後,分別解釋不同主題下的各個概念。最後會使用真實數據集,通過一個數據分析項目測試你的學習情況。

授課人是來自杜克大學的統計學教授,也需要你預先掌握專門的 R 統計學知識。如果希望為了研究數學科學而學習 R,那麼,這門課程不容錯過。課程已開放註冊。

預備知識:基礎統計學和 R 知識。

5. 無處不在的數學:有限數學應用(Math is Everywhere: Applications of Finite Math)

地址:https://www.udemy.com/math-is-everywhere-applications-of-finite-math/

授課周期:1 周

授課:戴維森分校(Udemy)

課如其名,講授無處不在的數學,從憤怒的小鳥到谷歌。以有趣的方式講授應用中的數學概念。

課程中,你會學到如何使用線式方程(equation of lines)來創造計算機字體、圖論如何在憤怒的小鳥中扮演重要角色、線性系統如何為一個運動團隊的表現建模以及谷歌如何使用概率和模擬來保持在搜索引擎上的領先優勢。

授課人系戴維斯分校的數學教授,開放註冊。

預備知識:要懂線性代數和編程。

6. 概率論:基本概念和離散型隨機變數(Probability: Basic Concepts Discrete Random Variables)

地址:https://www.edx.org/course/probability-basic-concepts-discrete-purduex-416-1x

課程周期:6 周

授課:普渡大學(Purdue University)

本課程是為謀求有關數據科學和信息科學職業者所設計。其涵蓋了數學概率論的基本要素。

在本課程中,你將學習到概率論、隨機變數、分布、貝葉斯定理概率質量函數和 CDF、聯合分布律和期望值等基本概念。

一旦你熟悉了這些基礎知識,就可以研究更加深入的概念,如伯努力和二項式分布、幾何分布、負二項式分布、泊松分布、超幾何分布和離散均勻分布。

在學習本課程之後,你將對日常生活中的概率應用有一個深入了解。本課程已開放註冊。

預備知識:基本統計學知識。

7. 數學生物統計學訓練營 1(Mathematical Biostatistics Boot Camp 1)

地址:https://www.coursera.org/learn/biostatistics

課程周期:4 周

授課:約翰霍普金斯大學(Johns Hopkins University)

實際上,「生物統計學」裡面的「生物」是個誤導。本課程全是用於數據分析的概率論和統計學技術基礎。

該課程包含概率、期望、條件概率、分布、置信區間、bootstrapping、二項式分布(binomial proportions)和對數分布(logs)。

線性代數和編程的背景知識對本課程很有幫助,但不是強制需要的預備知識。該課程從 2017 年 1 月 16 日開始,由約翰霍普金斯大學的生物統計學教授授課。

該課程進度合理並會對數理統計進行完整的剖析。

預備知識:基本線性代數、微積分和實用編程(非強制)。

8. 線性代數的應用(第一部分)(Applications of Linear Algebra Part 1)

地址:https://www.edx.org/course/applications-linear-algebra-part-1-davidsonx-d003x-1

課程周期:5 周

授課:戴維森學院(Davidson College (edX))

這是一門講述線性代數在數據科學中應用的有趣課程。

本課程將首先介紹線性代數的基本知識。然後將向你介紹線性代數的應用,如用於手寫數字識別和球隊排名等在線代碼。

本課程開放註冊。

預備知識:基本線性代數知識

9、數學思維入門(Introduction to Mathematical Thinking)

地址:https://www.coursera.org/learn/mathematical-thinking#

課程周期:8 周

授課:斯坦福大學(Coursera)

這門來自斯坦福大學的課程會教你掌握分析思維技能。你能學到有趣的開箱即用的思維方式,幫助你在競爭中保持優勢。

在這門課中,你將學會一種語言、量詞分析,數論以及實分析的簡單入門。充分掌握這本課程需要熟悉代數、數系(number system)以及初級集合論的知識。

課程將於 2017 年 1 月 9 日開始,授課老師來自斯坦福大學。目前已開放註冊。

預備知識:基礎代數、數系以及初等集合論。

中等數學與統計學

這個時候,你應該已經知道了一個數據科學家需要知道的所有基礎概念。是時候把你的數學知識提升到下一個級別了。

1. 貝葉斯統計:從概念到數據分析(Bayesian Statistics: From Concept to Data Analysis)

地址:https://www.coursera.org/learn/bayesian-statistics

課程周期:4 周

授課:加州大學(Coursera)

貝葉斯統計師數據科學的一個重要課題。因某些原因,它沒獲得足夠的重視。

在此課程中,第一節講了基礎的概率課題,比如條件概率、概率分布和貝葉斯定理。然後,你會學習 Frequentist 和貝葉斯方法的統計推斷、選擇最優分布的方法、離散數據的模型以及連續數據的貝葉斯分析。

上此課程需要之前需要掌握統計概念的知識,課程開始於 2017 年 1 月 16 日。

預備知識:基礎與高級統計學

2. 博弈論 1(Game Theory 1)

地址:https://www.coursera.org/learn/game-theory-1

課程周期:8 周

授課:斯坦福大學和英屬哥倫比亞大學(Coursera)

博弈論是數據科學中一個非常重要的組成部分。本課中,你會學習博弈論的基礎知識及其應用。如果你打算今年掌握強化學習,這門課非常適合你。

課程會讓你對以下內容等有個基本了解:表徵博弈和策略、擴展形式(計算機科學家稱為博弈樹)、貝葉斯博弈(為諸如拍賣之類的事情建模)、重複和隨機博弈。每個概念都會輔以樣例和應用。授課老師來自斯坦福大學和英屬哥倫比亞大學,已開放註冊。

預備知識:基礎概率和數學思維

3. 博弈論 II:高級應用(Game Theory II: Advanced Applications)

地址:https://www.coursera.org/learn/game-theory-2

課程周期:5 周

授課:斯坦福大學和英屬哥倫比亞大學(Coursera)

在之前的課程上過博弈論基礎之後,該課程是對博弈論高級應用的講解。

在此課程中,你將會學到如何設計代理之間的交互,從而獲取好的社會結果(social outcome)。課程覆蓋的三個主要課題是:社會選擇理論、機制設計和競拍。

該課程開始於 2017 年 1 月 30 日,由來自斯坦福大學與英屬哥倫比亞大學的教授教課。

課程已經開放註冊。

預備知識:博弈論基礎

4. 線性模型導論和矩陣代數(Introduction to Linear Models and Matrix Algebra)

地址:https://www.edx.org/course/introduction-linear-models-matrix-harvardx-ph525-2x-0

課程周期:4 周

授課:哈佛大學(edX)

矩陣代數已在實驗性設計和高維數據分析的各種工具中使用。

為了易於理解,這個課程分成 7 部分以循序漸進的方式進行講授。你將會學到矩陣代數的符號及其運算,數據分析中的矩陣代數應用,線性模型和 QR 分解。

這個課程所用的編程語言是 R 語言。你可以自由選擇課程內容中更迎合你興趣點的部分並進行相應內容的學習。

這個課程是由哈佛大學的生物統計教授講授,且目前只開放給該課註冊學員。

預備知識:線性代數基礎和 R 語言知識

5. 數據科學的高階線性模型 1:最小二乘法(Advanced Linear Models for Data Science 1: Least Squares)

地址:https://www.coursera.org/learn/linear-models

課程周期:6 周

授課:約翰霍普金斯大學(來源:Coursera)

這個課程是高階線性統計學習模型兩部分系列的第一部分內容。那些對回歸模型已經有了解並且想要在這上面尋求進一步學習的人一定要學習這個課程。

在這個課程里,你將會學到一個和兩個參數的回歸分析、線性回歸分析、一般最小二乘法、最小二乘法的範例、基礎以及殘差。在你開始下一步學習之前,我需要澄清一點,你需要有線性代數基礎、多元微積分基礎、了解統計和回歸模型、熟悉基於論證的數學和 R 語言的操作知識。這個課程將在 2017 年 1 月 23 日開始。

預備知識:線性代數、微積分、統計學以及 R 語言知識

6. 數據科學的高階線性模型 2:統計的線性模型(Advanced Linear Models for Data Science 2: Statistical Linear Models)

地址:https://www.coursera.org/learn/linear-models-2

課程周期:6 周

授課:約翰霍普金斯大學

這個是高階線性統計學習模型課程的第二部分。那些對回歸模型已經有了解並且想要在這上面尋求進一步學習的人一定要學習這個課程。

在這個課程里,你將會學到多元正態分布的統計建模基礎、分布結果以及殘差選項的基礎內容。在你開始下一步學習之前,我需要澄清一點,你需要有線性代數基礎、多元微積分基礎、了解統計和回歸模型、熟悉基於論證的數學和 R 語言的操作知識。這個課程將在 2017 年 1 月 23 日開始。

預備知識:線性代數、微積分、統計學以及 R 語言知識

7. 體育中的數學(Maths in Sports)

地址:https://www.edx.org/course/math-sports-notredamex-mat150x

課程周期:8 周

授課:聖母(Notre Dam)大學(來源 edX)

我是一個對數學如何被用於觸發運動和日常生活更深入見解非常好奇的人。

我發現了這個課程,這個課程呈現了你最喜愛運動中如何運用數學來分析數據並且預知運動員及其團隊的發展趨勢和未來表現。

在這個課程里,你將會學到歸納推理是如何被用於數學分析的;概率論怎麼被用於數據評估以及風險和任何事件結果的評估。

所有主要的團隊運動,田徑運動,甚至極限運動如攀岩都包括在課程之中。這個課程是由聖母大學的教授講授,目前只開放給註冊該課程的學員。

預備知識:統計學和線性代數

高級數學和統計學

太棒了,到目前為止,你將可以完全自主學習了。你應該已經掌握了數學與統計上的一些技巧,將會對接下來的繼續學習充滿信心,加油!

1. 離散最優化(Discrete Optimization)

地址:https://www.coursera.org/learn/discrete-optimization

課程周期:8 周

授課:墨爾本大學(來源 Coursera)

所有行業以及公司都會運用最優化。航空公司運用最優化來確保固定的周轉時間;電子商務公司如亞馬遜運用最優化來實現貨物的準時送達。最優化在宏觀層面上的應用包括成千上萬人的供電部署、新葯的研發路徑制定等等。

這個課程給你提供一個全方位理解離散最優化的機會,並且離散最優化已用於我們日常生活。這個課程首先會帶你學習離散最優化的基礎知識及其不同技巧。你將會學到約束條件(constraint),線性和混合整數的編程。這個課程的最後一部分包括了最優化的高階專題。

學習這門課程的先決條件是你需要具備很好的編程能力,對基礎演算法的了解以及線性代數知識。這門課將在 2017 年 1 月 16 日開始,由墨爾本大學的教授講授。

預備知識:編程、演算法和線性代數

2. 基因數據科學的統計(Statistics for Genomic Data Science)

地址:https://www.coursera.org/learn/statistical-genomics

課程周期:4 周

授課:約翰霍普金斯大學

如果你渴望成為下一代數據測序科學家,那麼你必須學習這個課程。

在這個課程里,你將會學到探索性分析;線性建模;假設測試和多假設追蹤測試;不同類型的數據處理如轉錄組測序(RNA-seq)、全基因組關聯研究(GWAS)、染色質免疫共沉澱測序(ChIP-Seq)以及 DNA 甲基化(DNA Methylation)研究。這個課程是約翰霍普金斯大學基因組數據科學家特別專題的一部分。課程將會從 2017 年 1 月 16 日開始。

預備知識:高階統計和演算法

3. 大數據應用的生物統計(Biostatistics for Big Data Applications)

地址:https://www.edx.org/course/biostatistics-big-data-applications-utmbx-stat101x

課程周期:8 周

授課:德州大學醫學部(來源 edX)

這個課程是對運用生物醫學大數據進行數據分析的介紹。

在這個課程里,你將會學到生物統計方法的基本組件。不熟悉統計學的人在處理生物醫學的大數據時能遇到不同類型的挑戰。

學習在生物醫學數據類型下基本統計是如何運用的。你將在課程里學到 R 語言編程的基礎知識;如何創建以及解釋數據的圖形摘要;參數化和非參數化的推論統計方法。你將會收穫 R 語言下生物醫學問題的處理經驗。

這個課程開放給註冊該課程的學員。

預備知識:高階統計學和 R 語言知識

章節附註

希望你覺得這篇文章有用。到目前為止,你已經搞清楚了自學的學習領域。如果你有數學背景,可以學習高級課程。如果沒有,就從初級開始吧,再一步步前進。


原文鏈接:機器學習入門書籍簡介

在這篇文章中,我摘選出機器學習中涉及數學相關的書籍。其中數學可分為分析+概率,以下主要針對這兩方面給出筆者看過覺得比較優質的一些書籍供大家參考,希望對你有所幫助。

一、分析

數學分析:首推北大張築生版的數學分析新講一套三冊;全面深入細緻講解了數學分析的方方面面,如果覺得實數系構造這一塊不夠嚴謹,可以參考陶哲軒的實分析前面一兩章;如果不求嚴謹,無力啃下完整的數學分析又想學習演算法的同學,則推薦浙大版高等數學;再次一點可以看華中科技大出版的一元分析學多元分析學這兩本書;名字雖然叫分析學,實際比浙大高數還要簡單一些。

優化理論:滿分推薦《最優化導論》這本書,作者是Edwin.K.P.Chong,亞馬遜有中譯本;這本書是我苦尋很久才找到的一本,填補了從高數到學習演算法之間那一環的不二法本;第二本推薦是凸優化,不過目前只有英文版,門檻稍高,但是內容清晰簡練,非常值得一讀。

線性代數:推薦Gilbert Strang的Introduction to linear algebra;不解釋,網易上有對應的視頻,滿分推薦。

二、概率

概率論:這裡推薦陳希孺的教材吧。

貝葉斯:當之無愧的經典是james OBerger的《統計決策理論與貝葉斯分析》,微盤上有中文版的pdf;國內比較好的是茆詩松寫的《貝葉斯統計》這本書;這裡有個奇怪的現象,似乎八十年代貝葉斯在國內火過一段時間,然後就沉寂下去了,導致這塊我們實際理論知之甚少,如果不是研究lda的時候反覆查找才找到這兩本書,估計我也是傻乎乎的停留在貝葉斯公式的基礎上了。

以上是針對機器學習中需建立的數學入門基礎知識書籍的相關推薦,若想了解更多機器學習的書籍,歡迎 閱讀原文,另外個人的感受就是機器學習不嫌你懂得數學多;有精力、有實力的同學可以在分析的基礎上繼續往上攀爬:實分析、泛函分析、微分幾何、拓撲。
下面,推薦下相關的機器學習的文章:
機器學習從入門到出家

【機器學習入門系列】Regression 回歸:案例研究

【機器學習入門系列】 Error 的來源:偏差和方差

【機器學習入門系列】梯度下降法

【機器學習入門系列05】分類、概率生成模型


作為一個從0基礎開始自學機器學習的人,我建議你,不要抱著「我要補好了數學再學機器學習」的想法。


機器學習是一個實用學科,既然是實用學科,那麼其實你能用到數學中的知識是很具體的,而且只是一小部分。如果想著補好前置知識,等熟練了再學,既不能保證你熟練了以後還有學習機器學習的熱情,又不能保證你學的前置知識,就能用上。


最好的辦法,是現在,馬上,就在git上找到一些經典的機器學習代碼,照著擼。遇到不懂的地方,再去查資料學,這樣一來,你每個想學的東西,全部都是實用的,能夠學了馬上用上,及時反饋,也能提高你學習的熱情,而這種熱情,能夠進一步激勵你下一次遇到問題,再去查詢,學習。


其實學大部分的學科都是這樣,不要想著我把所有前置知識熟悉了再去學習,而要邊練,邊學。學以致用。


那些推薦大量書單的,說真心話,自己能看完嗎?


一個系列,足以學好機器學習基礎數學!本來就想寫一系列文章來盡量詳細講清在機器學習中所需要的重要數學知識的,看到有許多問題都在問機器學習中到底需要哪些基礎的數學知識,為了各種原因(下面有講),我將寫下下面一個系列的文章筆記,歡迎閱讀!

為什麼要寫這個系列?

  • 網上文章過於全面,一上來就推薦什麼MIT線性代數,推薦各種微積分,推薦什麼《微積分入門》啊,《概率論入門》啊等等,甚至很多還是英文版的,還要學很多英文術語才能看懂,我覺得沒有必要全看,因為就像MIT的線性代數,很多是我們在機器學習中用不到或者用的及其少但又很難理解的。什麼馬爾可夫矩陣,快速傅里葉變換,若爾當形,哇,有點頭暈....
  • 網上文章寫的過於簡略,機器學習雖說不用把多門數學完全學通,但和數學還是有很大關係的,很多文章一篇想概括所有在機器學習中重要的數學基礎。不贊同!寫的太簡略了,還不如寫個目錄,或者跳過太多重要數學基礎,還不如不寫。
  • 梳理並複習,我會盡量截取我認為重要的,並會指出在機器學習哪裡有應用的數學基礎,並盡量寫的通俗,亦寫的有深度。有助於我複習,並達到更新專欄的作用!

目錄:

線代篇:掌握機器學習數學基礎之線代(重點知識)

概率論篇:掌握機器學習數學基礎之概率統計(重點知識)

優化篇:

  • 掌握機器學習數學基礎之優化[1](重點知識)
  • 掌握機器學習數學基礎之優化[2](重點知識)

資訊理論及其他:掌握機器學習數學基礎之資訊理論及其他[完結篇](重點知識)

一些碎碎念:看這個問題的,應該都是想學好機器學習或者像從事人工智慧的,那既然想好了走這條路。以我的經歷告訴你,門檻真的有點高。一開始學習機器學習,用了一個月時間補數學,哇,真的很累。我是從後端轉機器學習的,那一個月包括後面學習機器學習基礎演算法,無時無刻都有放棄的想法。轉去前端多好,用JS,HTML,CSS,敲敲代碼,就可以做出炫酷的好玩的網頁,去學移動端多好,做個自己的APP,隨時」裝逼「還其樂無窮,真是不轉多好,後端大框架基本都學完了,設計模式,JVM也看的差不多了,眼看就可以伸手造輪子了,這個時候放棄一切,從頭開始,每天就學矩陣論啊,各種分布啊,鏈式求導啊,真的枯燥.....

對機器學習數學基礎的看法:

  • 需不需要學?需要,需要,真的需要啊!雖然枯燥,但是機器學習和數學密不可分,你想學好演算法精髓,你想看懂論文,想寫好論文,我的看法就是,網上怎麼通俗理解都是不夠的,數學畢竟是科學的皇后,當理解到數學這一層,大抵也就理解透了!
  • 怎麼去學?枯燥是必然的,但是,我們也要盡量想方法去避免這種枯燥啊,強烈建議在入門的時候不要一頭扎進理論,我們先寫寫好玩的代碼嘛,特別是像我這種從普通打多了代碼的」小開發仔「轉過來的,推薦《機器學習實戰》,上面有很多例子,數學理論不多,但容易出結果,看看自己寫的實驗效果,會比較有成就感的!
  • 什麼時候學?我想,很多人是在讀大一大二的時候學的基礎數學理論,然而,在學習機器學習的時候很可能是大四,研一了,或者就是工作一段時間之後轉行了。那之前的數學知識了,早就還給老師了吧.....那麼,我的觀點就是,在覺得走這條路的時候,就開始學習,先學習簡單的,慢慢深度,當然,如果發現時間不允許或者自己不想系統全部學習,歡迎來我的專欄,學習重要的機器學習數學基礎。

若基本學完數學,歡迎看下我這個問題的回答,開啟深度學習研究的大門吧!

最後,未來已來,共勉,加油!


https://github.com/exacity/deeplearningbook-chinese

《Deep Learning》中文印前版, 百度雲盤:https://pan.baidu.com/s/1jHQ1Rgi

馬春鵬翻譯的bishop的prml : http://pan.baidu.com/share/link?shareid=420257229uk=440209508

馬春鵬的《模式識別與機器學習》,李航的《統計機器學習》。游皓麟的《R語言預測實戰》也比較有意思,雖然跟這個沒太大關係。

向DL的譯者致敬:



概率論,矩陣論,凸優化。。。目前看來是最重要的三門基礎課了。


知乎上面有個很經典的回答,題主提了個問題是沒有數學基礎但是對機器學習很感興趣怎麼補基礎?有個大神回答我很贊同大意是為什麼沒有數學基礎就覺得自己對機器學習感興趣了?
對機器學習本身感興趣還是對看上去高大上的領域感興趣是很重要的點,如果數學不行並且逃避我覺得有些往APIBoy之路發展了,不可取啊.
年輕精力好的時候打基礎是應該也是必須的.


引言:

谷歌正在開發下一代機器學習框架; 1,無黑盒問題, 2,學習效率更高(可像兒童一樣看兩眼認識西紅柿) 3,學習過程更靈活可控(因為這條,據說甚至可運行在手機終端上)

SMG_NothingIsAll項目介紹:

1,基於能力開發(可自學各種語言) 2,不依賴演算法的後天能力(除視覺等先天功能) 3,可運行於終端(包括手機) 4,AGI(可學習開車,也可以學習作家務)

人工智慧系統大致結構:

Input-&>Feel-&>Understand-&>Store Mind-&>Understand-&>Feel-&>Output

Input(負責多媒體輸入,注意力性能優化)

    • 視覺
    • 物體,行為,表情,人臉等
    • 聽覺
    • 文本
    • 網路
    • ...

Feel(負責輸入數據的解析取屬性等)

    • 視覺
    • 物體(圖像,細節追加)
    • 行為(行為定義)
    • ...
    • 聽覺
    • 像人類一樣聽語言
    • 文本
    • 沒有分詞系統(全部使用Understand和Store工作)
    • ...

Understand(比較是人類最基本的運算能力)

1,思考:分解輸入的內容並存Memory和MK,分析記憶中的規律並存Logic

    • Input
    • 唯一性判斷(與Input和Store的往返交互)
    • 注意力
    • 分解,找不同
    • 規律,找相同

2,決策:

    • Mind產生的輸出需求決策
    • 任務隊列的任務決策

Mind(細膩,豐富)

1,自我感知(電量,安全性,我是誰)

2,冥想(用於調用Understand冥想整理記憶中的邏輯)

3,產生需求(充電需求,溝通需求,安全需求,快樂需求)

4,審美(先天標準)

5,七情六慾(先天定義)

6,創造力

7,好奇心

Store(記憶,圖譜,邏輯,習慣,GC等)

1,Memory記憶數據

2,MK知識圖譜

3,Logic邏輯

總結:

1,人類也是一台複雜的機器
2,所謂意識,只是Mind先天功能的體現
3,越完美的機器學習越需要完善的世界交互)
4,只有AGI才是真正的人工智慧
5,先天不需要數據,後天依賴數據
6,關於智力爆炸(這是個安全問題,1,建立在無黑盒的基礎上研發AI 2,我將把NothingIsAll閉源)
7,人法地,地法天,AI法人;恆且久者唯此道也;

參考資料:

https://www.github.com/jiaxiaogang/SMG_NothingIsAll

----轉載請申請,文章來自"赤臂生"


當我向高人求教這個問題時,他笑了,需要準備的數學知識太分散,如果僅僅是為了準備知識,反而效率不高,畢竟你可能會偏離方向。之後他推薦了我一本書,國外的教材叫做 Pattern recognition and machine learning
我感覺很6,但是很難,裡面所涉及到的數學知識就是需要搞清楚的。


微積分,概率論,矩陣論都學一點就可以


數學:高等數學、線性代數、概率論與數理統計、最優化,特別是最後一個要理解其解題方法。

所以基本上理科生在大學都是學過前三門的,補充看下第四個就可以了。

另外之前沒學過的可以參考國外教程,學過的還是看國內大學教材更親切一些。


覺得最好的機器學習數學入門書就是《統計學習方法》了。


機器學習:《數據挖掘實用機器學習工具與技術》、《數據挖掘導論》、《機器學習》、,《數據挖掘與機器學習WAKA應用技術與實踐》
Python:《利用Python進行數據分析》、《Python基礎教程》、《Python Cookbook》、《「笨辦法」學Python》
MATLAB:《精通MATLAB》、《MATLAB R2014a從入門到精通》、《MATLAB R2014a完全自學一本通》、《MATLAB寶典》
資料庫:《MongoDB權威指南》、《資料庫系統概念》、《SQL語言與資料庫操作技術大全》、《Oracle從入門到精通》
R語言:《統計建模與R軟體》、《R語言實戰》、《ggplot2數據分析與圖形藝術》、《數據挖掘與R語言》


考研數學複習全書。


估計樓主的目標不是搞研究做學問,那機器學習不需要什麼離奇的數學基礎,實際上ML需要的數學遠不如傳統的工科比如CS、EE和ME。

這麼說吧,如果你是EE/ME/CS研究生(實際上本科生就行),那麼你可能只需要花一個禮拜來看ML演算法,然後花一學期到一年積累使用經驗以及學習流行的ML軟體框架。

我是不是又一不小心說了實話?



推薦閱讀:

TAG:人工智慧 | 書籍 | 應用數學 | 機器學習 | 深度學習(Deep Learning) |