Probabilistic interpretation of linear regression
在linear regression中講了線性回歸,並且採用了least-squares cost function ,那麼為什麼這樣的解決方案是有效的,本文將在、給定一系列概率假設的情況下,來解釋最小二乘回歸為什麼是一個很自然的演算法
1. 概率假設
我們假設目標變數和輸入之間的關係為 ,其中前半部分 為線性回歸,而 表示一個誤差項,用來表示未被建模的部分影響(例如某些特徵是有影響的,而我們沒有將其利用起來)或者數據雜訊。
進一步,我們假定 是獨立同分布,並且符合一個高斯分布 ,即 的密度函數為
即可得到
其中符號 表示在給定 和參數為 的情況下 的分布,注意這裡的 並不是一個任意的變數,而是在固定下的變數不可在計算過程中修改,因此不能寫成 . 也可以寫為
2. 概率計算
在給定矩陣X和參數 的情況下,所有的 的分布是什麼呢?這個數據的可能性是 ,我們將這個方程可以看作是給定 之後關於 的函數,我們希望將其看作是 的函數,稱其為likelihood函數:
因為之前的獨立同分布假設,我們可以寫為
現在問題轉化為給定了訓練集合 和與之關聯的模型的情況下,如何給出參數 使其最好,我們採用maximum likelihood原則,即需要選擇參數 使得數據出現的可能性越高,也就是最大化 ,由於 不好處理,我們可以最大化的任意嚴格增長函數,由於指數項的存在,我們最大化log likelihood
第一項 是個常量,與參數無關,因此最大化 等價於最小化 ,這跟我們之前定義的損失函數 完全相同
總結
在之前給定的概率假設條件下,最小二乘回歸對應到尋找參數 的最大似然估計。要注意的是概率假設對於最小二乘並非一個必要條件,存在其他的自然假設能夠用來驗證它
推薦閱讀:
※Deep Metric Learning via Lifted Structured Feature Embedding(CVPR,2016)
※嘗試克服一下小夥伴對神經網路的恐懼No.26
※機器學習:分類演算法(Classification)
※【頂級資源】掌握線性代數為機器學習打下堅實基礎!
※深度學習遇上推薦系統(一)--FM模型理論和實踐
TAG:機器學習 |