極大似然,廣義最小二乘,一般最小二乘的優劣如何?
最近很是疑惑,一般參數估計的方法也就是分成這三個類別吧?可是這三中方法我到底應該怎麼選擇呢?
舉個例子,常見的logistic regression 就是使用的極大似然,而非線性化後的最小二乘。所以能不能有人幫忙比較一下三種方法的優劣。
謝邀。
參數估計的方法有好多,各種estimator,不止這三類。不同問題有不同的方法。
你的Logistic regression,的確可以轉化成非線性最小二乘,但是既然MLE已經是最efficient的,計算複雜度什麼的都差不多,為什麼還要用非線性最小二乘?
一般最小二乘就是線性的,非線性下不能用的。
MLE需要分布的假設,而非線性最小二乘一般不需要,只需要獨立性假設。
具體差別很多,具體情況具體分析。
參數估計的方法有很多,這裡就不多說了,說說評價參數估計方法的好壞問題吧。
我認為,不管是什麼參數估計的方法,評價它的標準總是包括以下幾個方面。- 假設。每種參數估計的方法都依賴一定的假設,比如OLS要求Gauss-Markov假設,MLE要求提前知道distribution的形式,等等。評價一個方法好不好,首先得看你的數據能不能夠符合, 多大程度上能符合這些假設。這裡可能存在一些trade-offs, 比如假設較嚴格, estimator的性質就比較好,但是數據可能不符合這些假設;假設較寬鬆,estimator的性質又沒那麼好。
- Estimators是否unbiased. 當然,並不是說unbiased的estimators就是比biased更好的,這個要看情況。
- Estimators是否consistent. 一般來說這個比unbiased要重要得多。
- Estimators是否efficient. 當然是有更加efficient的estimators的方法更好。
- Estimators的Asymptotic Distribution. 一般我們比較喜歡asymptotic distribution比較和諧的estimator,如果是normal的就最好了。這一點也許可以跟下面一點合併。
- 數學上分析的難度。 如果在數學上很難分析你的estimator的性質,那用起來就比較麻煩。
- 計算上的難度。比如OLS只需要算矩陣逆就行,非常簡單;但是MLE和NLS就需要數值最優化方法,需要考慮收斂性收斂速度等問題,就會比較麻煩一些。雖然現在一般不用自己造輪子,但是如果是全新的估計方法,還是要考慮這個維度的問題的。
- 統計推斷的難度。基於你的估計方法,做假設檢驗方不方便?怎麼構造統計量來進行檢驗,這些統計量服從什麼樣的distribution或者asymptotic distribution, 檢驗方法的power如何,都是需要考慮的問題。
- 穩健性。如果你的假設不成立,你的方法是否還能夠使用?會有多大的問題?如果有outliers, 對估計出的參數有多大的影響?等等
目前想到大概就這些,有新想法再補充。
以上。
沒學過線性回歸的學渣也來拋個磚。
首先OLS在Gaussian random noise 的時候就是MLE.
logistic regression是一種generalized linear model, 對應於response 是binary,link function是logistic function 的情形,把log likelihood 寫出來,就變成了logistic loss. Linear regression 對應於Gaussian response, identity link function, log likelihood 恰好是least square loss.所以least square只是MLE estimation的一個特殊情況。除了MLE,有些情況下Log likelihood 不好求,就用其他的一個函數近似它(或者代替它),但這個替代的函數也應該滿足parameter 的真值是對這個函數求期望之後(i.e. population version)的最小值點。然後通過minimize 這個函數估計參數。例子有cox model的partial likelihood estimation Proportional hazards model.
除此之外,在高維模型中,MLE 不consistent. 比如當linear regression 的covariance matrix 不可逆的時候,MLE不會趨向於parameter 的真值。這時要用penalized estimation, 比如ridge regression(L2-penalty), Lasso(L1), Scad, MCP, capped-L1,etc.
另外還有一些nonconvex的估計方法(上面的scad, mcp, capped-L1也是nonconvex的), 比如EM algorithm, alternating minimization等等,這些一般用在複雜的模型上。
好像還有econometrician用的一些估計方法,我就聽說過general method of moments,對這個領域完全不懂,雖不明,但覺厲。我咋一看以為這是一道佛學問題……
除了MLE 還有pseudo MLE qausi-MLE etc除了最小二乘 還有two step least square partial least square iterative least square etc就不說GMM Latent regression什麼的了…
推薦閱讀:
※求交換兩個整數最簡單的寫法?
※高維空間點的旋轉問題?
※matlab中for循環為什麼會慢?
※奇數階幻方構造方法的原理是什麼?
※這是用什麼演算法實現的?