最大似然法和貝葉斯的區別？

01-21

從應用的層面，簡單的說，是不是可以這樣理解：

依據所定義的損失函數，

最大似然估計，就是求解【似然函數】最大的參數集合

還會添加正則化，解決overfitting問題、特徵選擇等問題

貝葉斯參數估計，就是求解【似然函數 * 先驗概率】最大的參數集合

隨著觀察數據的增多，貝葉斯估計認為能夠更加精細的學習和遍歷參數集合。

通常，為了解決overfitting泛化能力弱等問題，最大似然估計，也會在【似然函數】中，添加【正則化】，控制有效特徵的數量以及範圍。某種意義上，所添加的【正則化】也可以認為是某種形式上在【先驗概率】的折射，正則化有L1、L2、LAR等方式。

最本質的區別是:

最大似然是對點估計，貝葉斯推斷是對分布估計。

即，假設求解參數θ，最大似然是求出最有可能的θ值，而貝葉斯推斷則是求解θ的分布。

在公式上，貝葉斯推斷還引入了先驗，通過先驗和似然來求解後驗分布，而最大似然直接使用似然函數，通過最大化其來求解。

簡而言之，最大似然估計認為參數的所有可能取值都是一樣可能的。而貝葉斯方法認為還存在一個先驗估計，有些取值更有可能，有些取值更加沒有可能。

其實我認為最大似然原理和貝葉斯方法的想法很像……

說一下自己對於貝葉斯方法和最大似然的看法，求指導。

貝葉斯方法應該是認為整個世界史這樣一個空間 $Theta imes X$ ,前者是參數，後者是事件。在這個空間上有一個概率測度 $Theta$ 和 $X$ 都是隨機變數。要對參數做一個估計，實際上就是根據自己的觀察 $x$ ，就出在這個觀察 $x$ 下的關於 $Theta$ 的條件概率， $P(Thetaleq heta|x)$ = $frac{int_{x,Thetaleq heta}dp }{int_{x}dp}$ ，如果先驗分布是連續的，那麼可以寫成 $f_{ heta|x}(s) =frac{ int_{x, heta= heta}dp imes f_{ heta}(s)}{int_{x}dp}$ .條件概率是一個隨機變數，要找到合適的參數，可以考慮均值，最大值，或者其他估計，這要根據情況而定。