最大似然法和貝葉斯的區別?


從應用的層面,簡單的說,是不是可以這樣理解:

依據所定義的損失函數,

  • 最大似然估計,就是求解【似然函數】最大的參數集合
    • 還會添加正則化,解決overfitting問題、特徵選擇等問題
  • 貝葉斯參數估計,就是求解【似然函數 * 先驗概率】 最大的參數集合

隨著觀察數據的增多,貝葉斯估計認為能夠更加精細的學習和遍歷參數集合。

通常,為了解決overfitting泛化能力弱等問題,最大似然估計,也會在【似然函數】中,添加【正則化】,控制有效特徵的數量以及範圍。某種意義上,所添加的【正則化】也可以認為是某種形式上在【先驗概率】的折射,正則化有L1、L2、LAR等方式。


最本質的區別是:

最大似然是對點估計,貝葉斯推斷是對分布估計。

即,假設求解參數θ,最大似然是求出最有可能的θ值,而貝葉斯推斷則是求解θ的分布。

在公式上,貝葉斯推斷還引入了先驗,通過先驗和似然來求解後驗分布,而最大似然直接使用似然函數,通過最大化其來求解。


簡而言之,最大似然估計認為參數的所有可能取值都是一樣可能的。而貝葉斯方法認為還存在一個先驗估計,有些取值更有可能,有些取值更加沒有可能。

其實我認為最大似然原理和貝葉斯方法的想法很像……

說一下自己對於貝葉斯方法和最大似然的看法,求指導。

貝葉斯方法應該是認為整個世界史這樣一個空間Theta 	imes X,前者是參數,後者是事件。在這個空間上有一個概率測度ThetaX
都是隨機變數。要對參數做一個估計,實際上就是根據自己的觀察x,就出在這個觀察x下的關於Theta的條件概率,P(Thetaleq 	heta|x)=frac{int_{x,Thetaleq	heta}dp }{int_{x}dp},如果先驗分布是連續的,那麼可以寫成f_{	heta|x}(s) =frac{ int_{x,	heta=	heta}dp 	imes f_{	heta}(s)}{int_{x}dp}.條件概率是一個隨機變數,要找到合適的參數,可以考慮均值,最大值,或者其他估計,這要根據情況而定。

而最大似然估計認為所有的參數都是一樣可能的,實際上這就簡化了問題,因為他們假設f_{	heta}為常數。雖然int f_{	heta} d{	heta}  int_x dp都不收斂(或者說沒有定義)。

要找到合適的參數只需要考慮最大值就可以了。

最近無聊去上了系裡面的統計推斷課,順便見一下市面,發現傳統統計的方法和自己的世界觀差得真大,自己認為世界是應該是貝葉斯的……

果然自己還是不要做統計的號


引用最近在看的DeepLearningBook 中文譯文(學渣一枚,英文黨請無視...)

先帖原文鏈接:exacity/deeplearningbook-chinese

然後截圖:


極大似然估計是對參數的估計,認為使發生事件概率最大的可能參數是真實參數,貝葉斯估計是通過先驗概率,歸一項和似然概率,求解後延概率,不像是同一個維度的事情。


感覺樓上側重原理上區別,答主來來說說做法上區別,兩者都是對參數估計,但不同點是最大似然法對參數沒有要求,即可以是從區間裡面均勻取值;而貝葉斯會對應有先驗概率分布,即參數是滿足固定分布,然後在該分部條件下取參數值。

取值過程中,會相應計算最大似然函數,將先驗概率和最大似然函數相乘即得後驗概率。然後再後驗概率基礎上估計參數值。

大致思路是這樣,具體可進一步參考Wikipedia (Bayesian inference)


一個是點估計,一個是分布估計,二者風馬牛不相及。


貝葉斯估計:參數(就是方程中的beta)是隨機變數(random variable)服從一個分布

最大似然估計:參數是一個值,正如前面所說是個點估計


推薦閱讀:

什麼是無偏估計?
扔一個六面的骰子,平均扔多少次能連續扔出三個相同的數字?
概率論中的隨機遊走(Random Walk)中,怎麼理解最終行走距離的平方的期望等於步數?
Data Scientist的日常工作作息是什麼樣的,這個工作女生能夠勝任么?

TAG:統計學 | 貝葉斯統計 |