最大似然準則在什麼情況下不是最優演算法?


很多時候,尤其在非指數族估計,多元統計還有小樣本的情況下。

極大似然的優點

從似然函數的極大值這個角度,必然是最優的。。。這是廢話。

此外極大似然估計滿足函數變換下的不變性(Invariance)

在滿足一些正則條件的時候,極大似然是弱相合和強相合(weak and strong consistency),漸進正態(asymptotic normal),漸進有效(asymptotic efficient)的估計。這些都是大樣本性質,在小樣本的情況下,很可能不知道差到哪裡去了。

極大似然的一些問題

從無偏性的角度考慮,最簡單的一元正態情況下,均值的MLE是無偏的,但是方差的MLE就不是無偏的(方差的MLE的均方誤差也不是最優的)

多元的情況,參見James-Stein Estimator,即使是已知方差的多元正態分布均值的MLE(其實是UMVUE),在二次風險的意義下,也是不可行的(inadmissible),對Poisson,Negative Binomial等等也有類似結果。

非指數族的分布估計是個大坑。。。我也講不清楚。。。因為指數族的分布一般滿足上面提到的各種正則條件,而非指數組很可能是千奇百怪的,非指數族的極大似然可能是不相合的,漸進分布非正態的,非漸進有效的。。。anything is possible

Remarks

統計中評估一個統計量有很多種準則,從無偏,到最小方差,到均方誤差(mean square error)嗎,還有轉換不變性(transformation invariance),從統計決策論的角度可以構造各種loss function然後尋找minimax estimation,考慮估計的可行性(admissibility),還有各種漸進性質,等等等等,一個良好的估計要在小樣本和大樣本的情況下得到充分的檢驗才能被接受,總得來說MLE依然是非常好的估計方法,但對於具體的問題,不同的要求,可能存在更好的方法。This is the reason why statistics so interesting(可以水的topic太tmd多了)

想了解的更多的話,可以看看下列的幾本書,尤其是第一本

Theory of Point Estimation by Lehmann and Casella

Mathematical Statistics by Shao Jun

Elements of Large-Sample Theory by Lehmann


0. Supplementary on asymptotic behavior.

1.Maximal Likelihood is parametric model. We usually say MLE is optimal in the class of regular estimator.

2. For parametric model, one can define the concept "differential in quadratic mean"(DQM).

int[sqrt{p_{	heta+h}}-sqrt{p_	heta}-frac{1}{2}h^Tdot{l}_	hetasqrt{p_	heta}]^2du=o(||h||^2)

where p_{	heta} denote the parametric model with 	heta as the parameter index. h is any vector in the mathbb{R}^n space and n is the dimension of 	heta . When DQM is satisfied, regular estimator exists.

3. Under "differential in quadratic mean", MLE can be proved to be ASYMPTOTICALLY optimal in the class of regular estimator via convolution theorem

4. For twice differentiable parametric model, DQM is satisfied.

5. MLE is generally not necessarily optimal in finite sample case. (However, if I remember correctly, MLE is efficient in exponential family)

6. For details, please refer to Van Der Vaar ,"asymptotic statistics", chapter 7-8.


MLE(maximum likelihood estimation)有以下幾個特點:

  1. consistency
  2. asymptotic unbiased
  3. asymptotically normal

值得注意的是MLE的2、3條特點只保證了asymptotic, 也就是只有在樣本大小n趨向無窮是才是無偏的正態分布,而在n有限時並不能保證unbiased 和normal distribution性質。

假設待估參數為theta,那麼 MLE的asymptotic variance是1/n I(theta0). 其中theta0是theta真值,而I(theta)表示Fisher information.

而我們評價estimator是否優越可以有很多種衡量指標,常用的就是MSE (mean squared error), MSE= variance+bias^2. MSE越小則往往認為該estimator越準確。Cramer-Rao inequality則表明:

Let X1, X2,..., Xn be i.i.d. with density function f(x|theta). Let T=t(X1,X2,...,Xn) be an unbiased estiamte of theta. Then, under smoothness assumptions on f(x|theta),

Var(T)&>=1/n I (theta).

Cramer-Rao給出了所有無偏估計的方差下限,也就是說任何無偏估計的方差至少是這個值。所以我們可以看出來MLE的asymptotic variance正好是這個下限值,所以我們稱MLE為asymptotically efficient.

Cramer-Rao正好體現了MLE的優越性。所以在Cramer-Rao不能覆蓋的情況下,MLE往往不是最優的。比如Cramer-Rao只給出了unbiased estimator性質,可能有biased estimator,它的MSE綜合起bias和variance最小。還有MLE僅僅是asymptotic性質滿足unbiased estimators中最優的條件,但是如果只有finite sample size n,也不能滿足最優條件。


可以參考Jiao和Han的一篇文章http://arxiv.org/pdf/1409.7458.pdf


推薦閱讀:

乘客等車時間是否服從正態分布?若服從正態分布為什麼?
有一個正整數N可以分解成若干個正整數之和,問如何分解能使這些數的乘積最大?求詳細解釋。
如何生成總和固定的若干個隨機數?
隨機取一正整數n,其大於另一已知正整數m的概率是多少?
排序後的正態分布數列相鄰兩個數的差有什麼特點?也符合正態分布嗎?

TAG:機器學習 | 統計推斷 | 參數估計 | 概率論 |