學習人工智慧需要哪些必備的數學基礎？

01-26

本文由【AI前線】原創，原文鏈接：http://t.cn/RTzPO4A

當下，人工智慧成了新時代的必修課，其重要性已無需贅述，但作為一個跨學科產物，它包含的內容浩如煙海，各種複雜的模型和演算法更是讓人望而生畏。對於大多數的新手來說，如何入手人工智慧其實都是一頭霧水，比如到底需要哪些數學基礎、是否要有工程經驗、對於深度學習框架應該關注什麼等等。

那麼，學習人工智慧該從哪裡開始呢？人工智慧的學習路徑又是怎樣的？

本文節選自王天一教授在極客時間 App 開設的「人工智慧基礎課」，已獲授權。更多相關文章，請下載極客時間 App，訂閱專欄獲取。

數學基礎知識蘊含著處理智能問題的基本思想與方法，也是理解複雜演算法的必備要素。今天的種種人工智慧技術歸根到底都建立在數學模型之上，要了解人工智慧，首先要掌握必備的數學基礎知識，具體來說包括：

線性代數：如何將研究對象形式化？
概率論：如何描述統計規律？
數理統計：如何以小見大？
最優化理論：如何找到最優解？
資訊理論：如何定量度量不確定性？
形式邏輯：如何實現抽象推理？

線性代數：如何將研究對象形式化？

事實上，線性代數不僅僅是人工智慧的基礎，更是現代數學和以現代數學作為主要分析方法的眾多學科的基礎。從量子力學到圖像處理都離不開向量和矩陣的使用。而在向量和矩陣背後，線性代數的核心意義在於提供了?種看待世界的抽象視角：萬事萬物都可以被抽象成某些特徵的組合，並在由預置規則定義的框架之下以靜態和動態的方式加以觀察。

著重於抽象概念的解釋而非具體的數學公式來看，線性代數要點如下：線性代數的本質在於將具體事物抽象為數學對象，並描述其靜態和動態的特性；向量的實質是 n 維線性空間中的靜止點；線性變換描述了向量或者作為參考系的坐標系的變化，可以用矩陣表示；矩陣的特徵值和特徵向量描述了變化的速度與方向。

總之，線性代數之於人工智慧如同加法之於高等數學，是一個基礎的工具集。

概率論：如何描述統計規律？

除了線性代數之外，概率論也是人工智慧研究中必備的數學基礎。隨著連接主義學派的興起，概率統計已經取代了數理邏輯，成為人工智慧研究的主流工具。在數據爆炸式增長和計算力指數化增強的今天，概率論已經在機器學習中扮演了核心角色。

同線性代數一樣，概率論也代表了一種看待世界的方式，其關注的焦點是無處不在的可能性。頻率學派認為先驗分布是固定的，模型參數要靠最大似然估計計算；貝葉斯學派認為先驗分布是隨機的，模型參數要靠後驗概率最大化計算；正態分布是最重要的一種隨機變數的分布。

數理統計：如何以小見大？

在人工智慧的研究中，數理統計同樣不可或缺。基礎的統計理論有助於對機器學習的演算法和數據挖掘的結果做出解釋，只有做出合理的解讀，數據的價值才能夠體現。數理統計根據觀察或實驗得到的數據來研究隨機現象，並對研究對象的客觀規律做出合理的估計和判斷。

雖然數理統計以概率論為理論基礎，但兩者之間存在方法上的本質區別。概率論作用的前提是隨機變數的分布已知，根據已知的分布來分析隨機變數的特徵與規律；數理統計的研究對象則是未知分布的隨機變數，研究方法是對隨機變數進行獨立重複的觀察，根據得到的觀察結果對原始分布做出推斷。

用一句不嚴謹但直觀的話講：數理統計可以看成是逆向的概率論。 數理統計的任務是根據可觀察的樣本反過來推斷總體的性質；推斷的工具是統計量，統計量是樣本的函數，是個隨機變數；參數估計通過隨機抽取的樣本來估計總體分布的未知參數，包括點估計和區間估計；假設檢驗通過隨機抽取的樣本來接受或拒絕關於總體的某個判斷，常用於估計機器學習模型的泛化錯誤率。

最優化理論：如何找到最優解？

本質上講，人工智慧的目標就是最優化：在複雜環境與多體交互中做出最優決策。幾乎所有的人工智慧問題最後都會歸結為一個優化問題的求解，因而最優化理論同樣是人工智慧必備的基礎知識。最優化理論研究的問題是判定給定目標函數的最大值（最小值）是否存在，並找到令目標函數取到最大值 (最小值) 的數值。 如果把給定的目標函數看成一座山脈，最優化的過程就是判斷頂峰的位置並找到到達頂峰路徑的過程。

通常情況下，最優化問題是在無約束情況下求解給定目標函數的最小值；在線性搜索中，確定尋找最小值時的搜索方向需要使用目標函數的一階導數和二階導數；置信域演算法的思想是先確定搜索步長，再確定搜索方向；以人工神經網路為代表的啟發式演算法是另外一類重要的優化方法。

資訊理論：如何定量度量不確定性？

近年來的科學研究不斷證實，不確定性就是客觀世界的本質屬性。換句話說，上帝還真就擲骰子。不確定性的世界只能使用概率模型來描述，這促成了資訊理論的誕生。

資訊理論使用「信息熵」的概念，對單個信源的信息量和通信中傳遞信息的數量與效率等問題做出了解釋，並在世界的不確定性和信息的可測量性之間搭建起一座橋樑。

總之，資訊理論處理的是客觀世界中的不確定性；條件熵和信息增益是分類問題中的重要參數；KL 散度用於描述兩個不同概率分布之間的差異；最大熵原理是分類問題匯總的常用準則。

形式邏輯：如何實現抽象推理？

1956 年召開的達特茅斯會議宣告了人工智慧的誕生。在人工智慧的襁褓期，各位奠基者們，包括約翰·麥卡錫、赫伯特·西蒙、馬文·閔斯基等未來的圖靈獎得主，他們的願景是讓「具備抽象思考能力的程序解釋合成的物質如何能夠擁有人類的心智。」通俗地說，理想的人工智慧應該具有抽象意義上的學習、推理與歸納能力，其通用性將遠遠強於解決國際象棋或是圍棋等具體問題的演算法。

如果將認知過程定義為對符號的邏輯運算，人工智慧的基礎就是形式邏輯；謂詞邏輯是知識表示的主要方法；基於謂詞邏輯系統可以實現具有自動推理能力的人工智慧；不完備性定理向「認知的本質是計算」這一人工智慧的基本理念提出挑戰。

《人工智慧基礎課》全年目錄

本專欄將圍繞機器學習與神經網路等核心概念展開，並結合當下火熱的深度學習技術，勾勒出人工智慧發展的基本輪廓與主要路徑。

專欄訂閱指南

請在蘋果和各大安卓應用市場搜索下載「極客時間」App，註冊登錄；
在發現頁找到專欄入口，點擊專欄完成購買。

關注我們的微信號"AI前線"，後台回復「AI」可獲得《AI前線》系列PDF電子書