EdX-Columbia機器學習課第5講筆記:貝葉斯線性回歸
04-07
Bayes線性回歸
MAP估計和ML估計都是對模型參數的點估計,也就是說它為向量找到一個確定的值,這個值可以最大化目標函數。其中ML只考慮數據模型,而MAP還考慮到了模型的先驗。在這個基礎上,貝葉斯推斷還使用貝葉斯定律進一步地推斷的不確定性考慮到後驗分布正比於似然與先驗分布的乘積,可以得出可以看出,也滿足高斯分布。因為高斯分布在指數上有一個,如果把概率密度函數展開,則是類似的,我們對預測值也可以給一個概率解釋。給定和作為訓練集,對新的預測,就是求條件概率。根據邊緣概率和聯合概率密度的定義,是對所有可能的的積分,即
又根據條件獨立性有因此可以得到預測的分布由於根據模型本身有,根據貝葉斯定律,有(其中和前面已有推導),則代入計算(比較複雜沒有推),有期望值仍然是MAP估計的值,但是現在可以得到方差主動學習
貝葉斯學習實際上可以看作是一個順序的過程,也就是說,原本的後驗,在看到一些數據以後,會變成接下來未知數據的先驗。令和是「老數據」,和是「新數據」,那麼根據貝葉斯定律
看到$(y,X)$以後的後驗又變成了的先驗。即這裡的意思是,在最開始沒有看到,只有的時候,計算出來的是後驗。但是當計算完了,來了新數據對的時候,計算新的後驗是用到的先驗實際上是,是上一步的後驗。一步一步滾雪球。既然是一個迭代的過程,那麼我們的問題是,能否智能地學習?也就是,對於,能否選擇一個迭代學習的順序?假設我們已經有了有標籤的數據集和後驗,則可以對中的其他構建預測分布:對每個,反映了我們的置信度,也就是說可以採用以下策略:1. 對所有沒有標籤的構建2. 找出最大的和其對應的3. 更新後驗,注意用到的
4. 使用更新的後驗,回到第一步這個過程實際上是減少了系統中的熵(也就是不確定性)。令一個代表一個連續分布,則其熵定義為它量度了分布的延展情況。該值越大說明分布越是一個「不確定」的分布(即方差越大)。多變數高斯分布的熵為也就是高斯分布的熵隨著其協方差矩陣的變化而變化。根據前面順序貝葉斯學習的理論,協方差矩陣從先驗變到後驗根據秩為1矩陣的行列式的更新性質,有因此最小化的也最大化了
模型選擇
其實就是如何選擇。貝葉斯學習還可以通過證據最大化(evidence maximization)來表達,即
這裡分母就是「證據」。證據給出了數據的似然,而且把積分掉了。最好的滿足也是正態分布,可以表示成,需要求出的最大值。這個值只能迭代求出,沒有解析解之前的最大似然是最大化主參數的似然,稱為I類機器學習。這裡是把主參數積分掉,最大化超參數,是II類機器學習,也稱為經驗Bayes。但是對複雜模型不適用。因此最好的找出的方法還是交叉驗證推薦閱讀:
※2-1 Model Representation
※Facebook如何運用機器學習進行億級用戶數據處理
※Cousera deeplearning.ai筆記 — 深度神經網路(Deep neural network)
※1-5 Unsupervised Learning
※[貝葉斯二]之貝葉斯決策理論