極大似然估計為什麼有效?

研究生複試的時候被問到極大似然的原理,其實極大似然估計,就是樣本最可能被取到的時候對應的總體的分布。當總體數據都能知道了時候,我們可以直接計算出模型的參數。這個時候是不存在極大似然估計的。只有當取到的部分數據(樣本),我們才需要對模型的參數進行估計,因為取到的樣本不是唯一的,所以利用極大似然估計得到的參數(模型)不是唯一的。可以把極大似然估計看作是當前樣本發生情況下取到的最可能的模型。所以這是在了解總體分布,但不清楚它的參數的時候用的最好的方法。

極大似然函數寫作P(x1,x2,...,xn| heta)=P(x1| heta)P(x2| heta),...,P(xn| heta),概率密度函數寫作P(x| heta)。對於極大似然函數來說它已知的是數據(x1,x2,...,xn),未知的是參數 heta。之所以可以展開,是因為我們認為樣本在採樣的時候獨立的,每個樣本之間是獨立的。對於概率密度函數來說,它已知的是參數 heta,未知的是數據。還存在一種美妙的情況,那就是數據也不是全知道,參數也不知道。這種情況下我們可以用EM演算法,通過假設參數已知,來獲得未知數據的估計,然後利用極大似然估計,再得到新的參數。如此循環,直到收斂。張三:EM演算法從極大似然函數上的直觀解釋

最大似然估計也可以被解釋為,某一個總體分布是最可能取出來這個樣本的。P(x1| heta)P(x2| heta),...,P(xn| heta).對某一個 heta 來說,它必然能讓P(x1)最大,也就是x1最可能發生會對應一個 heta,但是這樣一個 heta雖然會讓px1變大,但是它卻可能會使其他的變小,所以我們要把它們乘起來,賦予它們同樣重要的地位。當然賦予它們同樣的地位也可以用連加,所以我們也可以寫成P(x1| heta)+P(x2| heta)+,...,+P(xn| heta),這對計算最後的 heta無傷大雅,但是這樣從樣本獨立分解概率密度函數的角度就不好解釋了,所以我們可以加上log,這樣從兩個方面獲得了統一。


推薦閱讀:

一起來學西瓜書!
機器學習筆記003 | 梯度下降演算法
快去註冊!吳恩達新書《機器學習思維》免費預定開啟
在數據為王的人工智慧時代如何收集機器學習數據
斯坦福大學《機器學習》- 核心內容(2.4)

TAG:機器學習 | 人工智慧 | 數學 |