標籤:

Probabilistic interpretation of linear regression

在linear regression中講了線性回歸,並且採用了least-squares cost function J(	heta)=frac{1}{2}sum_{i=1}^{m}{h_{	heta}(x^{(i)}-y^{(i)})}^{2} ,那麼為什麼這樣的解決方案是有效的,本文將在、給定一系列概率假設的情況下,來解釋最小二乘回歸為什麼是一個很自然的演算法


1. 概率假設

我們假設目標變數和輸入之間的關係為 y^{(i)}=	heta^{T}x^{(i)}+epsilon^{(i)} ,其中前半部分 	heta^{T}x^{(i)} 為線性回歸,而 epsilon^{(i)} 表示一個誤差項,用來表示未被建模的部分影響(例如某些特徵是有影響的,而我們沒有將其利用起來)或者數據雜訊。

進一步,我們假定 epsilon^{(i)} 是獨立同分布,並且符合一個高斯分布 epsilon^{(i)}sim N(0,sigma^{2}) ,即 epsilon^{(i)} 的密度函數為

p(epsilon^{(i)})=frac{1}{sqrt{2pi}sigma}exp(-frac{(epsilon^{(i)})^{2}}{2sigma^{2}})

即可得到

p(y^{(i)}|x^{(i)};	heta)=frac{1}{sqrt{2pi}sigma}exp(-frac{(y^{(i)}-	heta^{T}x^{(i)})^{2}}{2sigma^{2}})

其中符號 p(y^{(i)}|x^{(i)};	heta) 表示在給定 x^{(i)} 和參數為 	heta 的情況下 y^{(i)} 的分布,注意這裡的 	heta 並不是一個任意的變數,而是在固定下的變數不可在計算過程中修改,因此不能寫成 p(y^{(i)}|x^{(i)}, 	heta) . 也可以寫為 y^{(i)}|x^{(i)};	hetasim N(	heta^{T}x^{(i)},sigma^{2})

2. 概率計算

在給定矩陣X和參數 	heta 的情況下,所有的 y^{(i)} 的分布是什麼呢?這個數據的可能性是 p(ar{y}|X;	heta) ,我們將這個方程可以看作是給定 	heta 之後關於 ar{y} 的函數,我們希望將其看作是 	heta 的函數,稱其為likelihood函數: L(	heta)=L(	heta;X,ar{y})=p(ar{y}|X;	heta)

因為之前的獨立同分布假設,我們可以寫為

L(	heta)=prod_{i=1}^{m}p(y^{(i)}|x^{(i)};	heta)=prod_{i=1}^{m}frac{1}{sqrt{2pi}sigma}exp(-frac{(y^{(i)}-	heta^{T}x^{(i)})^{2}}{2sigma^{2}})

現在問題轉化為給定了訓練集合 left{ (x^{(i)},y^{(i)});i=1,...,m 
ight} 和與之關聯的模型的情況下,如何給出參數 	heta 使其最好,我們採用maximum likelihood原則,即需要選擇參數 	heta 使得數據出現的可能性越高,也就是最大化 L(	heta) ,由於 L(	heta) 不好處理,我們可以最大化的任意嚴格增長函數,由於指數項的存在,我們最大化log likelihood l(	heta)

l(	heta)=logL(	heta)=logprod_{i=1}^{m}p(y^{(i)}|x^{(i)};	heta)=logprod_{i=1}^{m}frac{1}{sqrt{2pi}sigma}exp(-frac{(y^{(i)}-	heta^{T}x^{(i)})^{2}}{2sigma^{2}})

=sum_{i=1}^{m}log{frac{1}{sqrt{2pi}sigma}exp(-frac{(y^{(i)}-	heta^{T}x^{(i)})^{2}}{2sigma^{2}})}

=mlog(frac{1}{sqrt{2pi}sigma})-frac{1}{2sigma^{2}} cdotfrac{1}{2}sum_{1}^{m}{(y^{(i)}-	heta^{T}x^{(i)})^{2}}

第一項 mlog(frac{1}{sqrt{2pi}sigma}) 是個常量,與參數無關,因此最大化 l(	heta) 等價於最小化 frac{1}{2}sum_{1}^{m}{(y^{(i)}-	heta^{T}x^{(i)})^{2}} ,這跟我們之前定義的損失函數 J(	heta) 完全相同


總結

在之前給定的概率假設條件下,最小二乘回歸對應到尋找參數 	heta 的最大似然估計。要注意的是概率假設對於最小二乘並非一個必要條件,存在其他的自然假設能夠用來驗證它

推薦閱讀:

Deep Metric Learning via Lifted Structured Feature Embedding(CVPR,2016)
嘗試克服一下小夥伴對神經網路的恐懼No.26
機器學習:分類演算法(Classification)
【頂級資源】掌握線性代數為機器學習打下堅實基礎!
深度學習遇上推薦系統(一)--FM模型理論和實踐

TAG:機器學習 |