標籤:

其實,交叉熵與最大似然估計很相似

交叉熵(Cross-Entropy)

交叉熵可在神經網路(機器學習)中作為損失函數,p表示真實標記的分布,q則為訓練後的模型的預測標記分布,交叉熵損失函數可以衡量p與q的相似性。交叉熵作為損失函數還有一個好處是使用sigmoid函數在梯度下降時能避免均方誤差損失函數學習速率降低的問題,因為學習速率可以被輸出的誤差所控制。

最大似然估計(MLE)

給定一堆數據,假如我們知道它是從某一種分布中隨機取出來的,可是我們並不知道這個分布具體的參,即「模型已定,參數未知」。例如,我們知道這個分布是正態分布,但是不知道均值和方差;或者是二項分布,但是不知道均值。最大似然估計(MLE,Maximum Likelihood

Estimation)就可以用來估計模型的參數。MLE的目標是找出一組參數,使得模型產生出觀測數據的概率最大。

我們知道每次拋硬幣都是一次二項分布,設正面朝上的概率是,那麼似然函數為:

為了求導方便,一般對目標取log。所以最優化對似然函數等同於最優化對數似然函數:

寫在最後:

對於二分類,利用極大釋然估計求解估計中利用對數求解,最後與交叉熵形式與意義不謀而合。

參考文獻:

[1] blog.csdn.net/rtygbwwwe

[2] cnblogs.com/sylvanas201

[3] baike.baidu.com/item/%E

推薦閱讀:

Paper Reading | 多角度講解自動駕駛中的激光雷達感知系統
Machine Learning 機器學習筆記
梯度下降及其優化演算法
RNN model
第二章:機器學習對配電網健康指數分析

TAG:機器學習 |