標籤:

機器學習導論——Day8、9

第四章參數方法

4.1引言

使用樣本的信息進行決策:參數方法。

4.2最大似然估計

假設,我們有一個獨立同分布idd的樣本X={x(t)},t=1……N。其中,x(t)是從某個定義在參數 	heta 上的已知概率密度族p(x| 	heta )中抽取的實例:x(t)~p(x| 	heta )。

在最大似然估計maximum likelihood estimation中,我們感興趣的是找到使x(t)最像是抽取的 	heta

樣本x(t)的似然likelihood是單個點似然的乘積,l ( 	heta |X) =p(X| 	heta )= prod_{t=1}^{N} p(x(t)| 	heta ).

對數似然log likelihood:L( 	heta |X) =log l ( 	heta |X) = Sigma_{t=1}^{N} log p(x(t)| 	heta ).

主要涉及的分布:兩類問題(伯努利分布)、多類問題(多項式分布)、正態分布。

4.3評價估計:偏倚和方差

均方誤差:r(d, 	heta )=E[(d(x)- 	heta )^2]

估計的偏倚:b(d)=E[d(x)]- 	heta

對所有 	heta 值都有b(d)=0,因為d(x)是 	heta 的無偏估計。

r(d, 	heta )=Var(d)+b(d)^2

4.4貝葉斯估計

專家會對 	heta 有先驗信息prior,先驗密度告訴我們在看到樣本前 	heta 的可能取值,把它和樣本數據告訴我們的似然密度p(x| 	heta )結合起來,利用貝葉斯規則,得到後驗密度posterior density。

4.5參數分類(閾值點法) 基於似然

方差相等時,相鄰兩個類均值的中點是決策閾值;x=(m1+m2)/2;

方差不等時,有兩個閾值,如果先驗概率不等,則具有向不可能的類的均值移動決策閾值的效果。

4.6回歸 基於判別式

回歸中喜歡把數值的輸出寫為數值的輸入的函數。

相對平方差(relative square error,RSE)

決定係數(coefficient of determination)

4.7調整模型的複雜度:偏倚方差兩難選擇

偏倚存在則是欠擬合,模型類不包含解;方差存在則是過擬合,模型類過於一般,也學習雜訊。

4.8模型的選擇過程

很多過程被用來調整模型複雜度,實踐中發現最佳複雜度的方法是交叉驗證。我們不能計算一個模型的偏倚和誤差,但可以計算總誤差。給定一個數據集,分為訓練集和驗證集,訓練集上訓練不同複雜度的候選模型,並在驗證集上驗證誤差。找到針對複雜度的拐點,即驗證集上的誤差停止降低或者不再進一步顯著降低,甚至隨著數據中的雜訊反而增加。

另一個方法是正則化regularization,使用增廣誤差函數augmented error function,記作

E=數據上的誤差+ lambda *模型複雜度。

貝葉斯模型選擇Bayesian model selection

當選擇的先驗使得較簡單的模型具有較高概率時,根據奧克姆剃刀規則,貝葉斯方法、正則化、SRM和MDL都是等價的。但是交叉驗證因為不做任何先驗假設,所以當有較大數據集時,是更好的選擇。當數據集較小時,其他模型變得有用。

4.9注釋

4.10習題

未做


推薦閱讀:

基於模糊層次綜合評價法和聚類演算法的多人戰鬥競技類遊戲平衡性分析
【最優化】無約束優化方法-阻尼牛頓法
一文弄懂神經網路中的反向傳播法——BackPropagation
機器學習篇-名詞:候選集,覆蓋率
SRCNN 論文閱讀

TAG:機器學習 |