最大似然法和貝葉斯的區別?
從應用的層面,簡單的說,是不是可以這樣理解:
依據所定義的損失函數,- 最大似然估計,就是求解【似然函數】最大的參數集合
- 還會添加正則化,解決overfitting問題、特徵選擇等問題
- 貝葉斯參數估計,就是求解【似然函數 * 先驗概率】 最大的參數集合
隨著觀察數據的增多,貝葉斯估計認為能夠更加精細的學習和遍歷參數集合。
通常,為了解決overfitting泛化能力弱等問題,最大似然估計,也會在【似然函數】中,添加【正則化】,控制有效特徵的數量以及範圍。某種意義上,所添加的【正則化】也可以認為是某種形式上在【先驗概率】的折射,正則化有L1、L2、LAR等方式。最本質的區別是:
最大似然是對點估計,貝葉斯推斷是對分布估計。即,假設求解參數θ,最大似然是求出最有可能的θ值,而貝葉斯推斷則是求解θ的分布。
在公式上,貝葉斯推斷還引入了先驗,通過先驗和似然來求解後驗分布,而最大似然直接使用似然函數,通過最大化其來求解。簡而言之,最大似然估計認為參數的所有可能取值都是一樣可能的。而貝葉斯方法認為還存在一個先驗估計,有些取值更有可能,有些取值更加沒有可能。
其實我認為最大似然原理和貝葉斯方法的想法很像……說一下自己對於貝葉斯方法和最大似然的看法,求指導。
貝葉斯方法應該是認為整個世界史這樣一個空間,前者是參數,後者是事件。在這個空間上有一個概率測度和都是隨機變數。要對參數做一個估計,實際上就是根據自己的觀察,就出在這個觀察下的關於的條件概率,=,如果先驗分布是連續的,那麼可以寫成.條件概率是一個隨機變數,要找到合適的參數,可以考慮均值,最大值,或者其他估計,這要根據情況而定。
而最大似然估計認為所有的參數都是一樣可能的,實際上這就簡化了問題,因為他們假設為常數。雖然和都不收斂(或者說沒有定義)。
要找到合適的參數只需要考慮最大值就可以了。最近無聊去上了系裡面的統計推斷課,順便見一下市面,發現傳統統計的方法和自己的世界觀差得真大,自己認為世界是應該是貝葉斯的……果然自己還是不要做統計的號引用最近在看的DeepLearningBook 中文譯文(學渣一枚,英文黨請無視...)
先帖原文鏈接:exacity/deeplearningbook-chinese
然後截圖:
極大似然估計是對參數的估計,認為使發生事件概率最大的可能參數是真實參數,貝葉斯估計是通過先驗概率,歸一項和似然概率,求解後延概率,不像是同一個維度的事情。
感覺樓上側重原理上區別,答主來來說說做法上區別,兩者都是對參數估計,但不同點是最大似然法對參數沒有要求,即可以是從區間裡面均勻取值;而貝葉斯會對應有先驗概率分布,即參數是滿足固定分布,然後在該分部條件下取參數值。
取值過程中,會相應計算最大似然函數,將先驗概率和最大似然函數相乘即得後驗概率。然後再後驗概率基礎上估計參數值。
大致思路是這樣,具體可進一步參考Wikipedia (Bayesian inference)
一個是點估計,一個是分布估計,二者風馬牛不相及。
貝葉斯估計:參數(就是方程中的beta)是隨機變數(random variable)服從一個分布
最大似然估計:參數是一個值,正如前面所說是個點估計
推薦閱讀:
※什麼是無偏估計?
※扔一個六面的骰子,平均扔多少次能連續扔出三個相同的數字?
※概率論中的隨機遊走(Random Walk)中,怎麼理解最終行走距離的平方的期望等於步數?
※Data Scientist的日常工作作息是什麼樣的,這個工作女生能夠勝任么?