計量經濟學裡面的懲罰因子penalty factor怎麼理解？

12-31

比如model selectionl裡面涉及了S^2模型，SIC,AIC模型，他們各自都有懲罰因子，請問懲罰因子的含義是什麼，應該怎麼理解

不知道計量經濟學裡面一般怎麼考慮，從衛生統計學的角度看，懲罰因子(AIC/Cp, BIC)是解決預測模型中過度擬合問題的一種方法。

1. 懲罰因子的來源。

我們知道隨著預測模型複雜度的增加，訓練誤差會逐漸下降，而測試誤差則一般會先下降後增加，這就是預測模型的過度擬合問題。由於測試樣本不能用來選擇模型，我們就需要通過其他方式來給預測模型選擇一個合適的複雜度。

赤池信息指數（AIC）和Cp統計量來自於樣本內誤差估計 (In sample Error)，即在保持原訓練樣本自變數不變的情況下，重新生成一批因變數，計算預測模型在這個新樣本中預測誤差。和訓練誤差相比，樣本內誤差能更加準確的代表測試誤差。當使用平方誤差函數時，樣本內誤差的估計是是Cp統計量，在使用對數似然誤差函數的時候，樣本內誤差的估計是AIC統計量。

貝葉斯信息指數（BIC）與AIC外形相似，對模型複雜度的懲罰更大（AIC是2,BIC是logN)。但兩者來源並不相同，BIC並不依賴於對樣本內誤差的估計，而是來自於對預測模型後驗概率的計算。隨著樣本量的增大，AIC會傾向於選擇複雜度更高的模型，而BIC則選擇後驗概率更大的模型，其複雜度不一定更高。所以，AIC在樣本量大時的懲罰能力不足，依然存在過度擬合的風險。

2.懲罰因子和正則化的區別。

看似兩者都是為了降低模型的複雜度，其實懲罰因子和正則化（regularization）有著完全不同的目的。正則化是向模型的損失函數中增加一個正則化項，比如衛生統計裡面常用的forward /backward /stepwise自變數篩選，其實就是給損失函數增加了一個回歸係數向量的zero-norm項。通過調整正則化項的係數大小，能夠製造出一系列不同複雜度的模型，我們使用懲罰因子能夠從這些不同複雜度的模型中選擇一個最優的。當然，正則化只是製造不同複雜度一種方式，我們還有例如early stopping，平滑，人為增加數據雜訊等方式來製造不同複雜度的模型，然後再用懲罰因子來選擇。

3.懲罰因子的其他選擇。

除了AIC和BIC等懲罰因子，我們一般更常使用的方法是從訓練樣本中再分出一個驗證樣本，或者交叉驗證，用驗證誤差來進行模型選擇。

4.懲罰因子的使用場合。

如開頭所說，懲罰因子是用於解決預測模型中過度擬合問題的方法。另外在一些結構方程模型中，我們關心不同模型的解釋能力，會使用懲罰因子從嵌套的結構模型中做選擇。但在嘗試評價變數之間因果關係的模型中，我們往往並不關心模型的擬合能力，而關心我們感興趣的變數回歸係數本身的偏倚(Bias)。懲罰因子並不能告訴我們遺漏某個協變數是否會造成混雜偏倚(Confounding), 這時候用懲罰因子來篩模型很不科學。

奧卡姆剃刀原則

統計講到R^2的時候應該會提到，增加自變數幾乎一定會使回歸模型的R^2增大（我在某個回答中提到過，某教授曾表示R^2就是用來衡量「數據x變數」這個矩陣有多「方」），所以我們要使用adjusted R^2來代替R^2。

懲罰因子其實是出於同樣的思想：不希望在模型中使用太多的自變數，因此增加一個新的自變數減小了殘差平方和的同時，要付出一定的「代價」，就是增大懲罰因子，這樣就能選擇出「適當」數目的自變數。