機器學習的數學原理

所謂的人工智慧,在技術層面很多時候就是指機器學習,通過選擇特定的演算法樣本數據進行計算,獲得一個計算模型,利用這個模型,對以前未見過的數據進行預測,如果這個預測在一定程度上和事實相符,我們就認為機器象人一樣具有某種智能,即人工智慧。

這個過程和人類的學習成長非常類似,也是經歷一些事情(獲得樣本數據),進行分析總結(尋找演算法),產生經驗(產生模型),然後利用經驗(模型)指導自己的日常行為。如下圖。

機器學習系統

因此,構建一個機器學習系統,需要有三個關鍵要素:樣本、模型、演算法。

樣本

樣本即通常人們說的訓練數據,包括輸入和結果兩部分。比如我們要做一個自動化進行新聞分類的機器學習系統,對於採集的每一篇新聞,能夠自動發送到對應新聞分類頻道裡面,比如體育、軍事、財經等等。這時候我們就需要一批新聞和其對應的分類類別作為訓練數據。新聞通常隨機選取一批現成的新聞素材就可以了,分類卻需要人手工進行標註,也就是需要有人閱讀每篇新聞,根據其內容打上對應的分類標籤。

數學上,樣本通常表示為:

T = {(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) }

其中 x_{n} 表示一個輸入,比如一篇新聞, y_{n} 表示一個結果,比如這篇新聞對應的類別。

樣本的數量和質量對機器學習的效果至關重要,樣本量太少,或者樣本分布不均衡,對訓練出來的模型有很大影響。就像一個人一樣,見得市面少,讀書少,就更容易產生偏見和刻板印象。

模型

模型就是映射樣本輸入與樣本結果的函數,可能是一個條件概率分布,也可能是一個決策函數。一個具體的機器學習系統所有可能的函數構成了模型的假設空間,數學表示如下:

F = {f | Y = f(X)}

其中X是樣本輸入,Y是樣本輸出,f就是建立X和Y映射關係的函數。所有f的可能結果構成了模型的假設空間F。

很多時候F的函數類型是明確的,需要計算的是函數的參數,比如確定f函數為一個線性函數,那麼f的函數表示就可以寫為:

y = a_{1}x + a_{0}

這時候需要計算的就是 a_{1}a_{0} 兩個參數的值。這種情況下模型的假設空間的數學表示如下:

F = { f | Y = f_{	heta}(X),	hetain R^{n} }

其中 	heta 為f函數的參數取值空間,一個n維歐氏空間,被稱作參數空間。

演算法

演算法就是要從模型的假設空間中尋找一個最優的函數,使得樣本空間的輸入X經過該函數的映射得到的f(X),和真實的Y值之間的距離最小。這個最優的函數通常沒辦法直接計算得到,即沒有解析解,需要用數值計算的方法不斷迭代求解。如何尋找到f函數的全局最優解,以及使尋找過程盡量高效,就構成了機器學習的演算法。

如何保證f函數或者f函數的參數空間最接近最優解,就是演算法的策略。機器學習中用損失函數來評估模型是否最接近最優解。損失函數用來計算模型預測值與真實值的差距,常用的有0-1損失函數,平方損失函數,絕對損失函數,對數損失函數等,以平方損失函數為例,損失函數如下:

L(Y,f(X)) = (Y-f(X))^{2}

對於一個給定的樣本數據集

T = {(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) }

模型f(X)相對於真實值的平均損失為每個樣本的損失函數的求和平均值:

R_{emp}(f)=frac{1}{N}sum_{i=1}^{N}{L(y_{i},f(x_{i}))}

這個值被稱作經驗風險,如果樣本量足夠大,那麼使經驗風險最小的f函數就是模型的最優解,即求

min_{f in F}{frac{1}{N}sum_{i=1}^{N}{L(y_{i},f(x_{i}))}}

即可。但是相對於樣本空間的可能取值範圍,實際中使用的樣本量總是有限的,可能會出現使樣本經驗風險最小的模型f函數並不能使實際預測值的損失函數最小,這種情況被稱作過擬合,即一味追求經驗風險最小,而使模型f函數變得過於複雜,偏離了最優解。這種情況下,需要引入結構風險以防止過擬合。結構風險表示為:

R_{srm}(f)=frac{1}{N}sum_{i=1}^{N}{L(y_{i},f(x_{i}))+lambda J(f)}

在經驗風險的基礎上加上 lambda J(f) ,其中J(f)表示模型f的複雜度,模型越複雜,J(f)越大。要使結構風險最小,就要使經驗風險和模型複雜度同時小。求解模型最優解就變成求解結構風險最小值:

min_{f in F}{frac{1}{N}sum_{i=1}^{N}{L(y_{i},f(x_{i}))+lambda J(f)}}

這就是機器學習的數學原理,各種有監督的機器學習演算法基本上都是在各種模型的假設空間上求解結構風險最小值的過程。


推薦閱讀:

從機器人到谷歌大腦—人工智慧的6個智能等級
智能取餐櫃——引領智慧新零售
集智:負基礎就能學會的機器學習(一) 無需任何編程基礎
人工智慧將在2018年刷新這五大行業
怎樣看待人工智慧?

TAG:人工智慧 | 機器學習 | 大型網站技術架構核心原理與案例分析書籍 |