標籤:

logistic regression與最大熵模型

1.logistic regression模型

(1)Logistic distribution

曲線在中心附近增長速度較快,在兩端增長的速度較慢,形狀參數γ的值越小,曲線在中心附近的增長得越快.

(2)Binomial logistic regression model

在logistic regression model中,輸出Y=1的對數幾率是輸入x的線性函數.線性函數的值越接近正無窮,概率值就越接近1;線性函數的值越接近負無窮,概率值就越接近0.

(3)模型參數估計

logistic分類器是由一組權值係數組成的,最關鍵的問題就是如何獲取這組權值,通過極大似然函數估計獲得,並且Y~f(x;w)

似然函數是統計模型中參數的函數。給定輸出x時,關於參數θ的似然函數L(θ|x)(在數值上)等於給定參數θ後變數X的概率:L(θ|x)=P(X=x|θ)

似然函數的重要性不是它的取值,而是當參數變化時概率密度函數到底是變大還是變小。

極大似然函數:似然函數取得最大值表示相應的參數能夠使得統計模型最為合理

(4)多項logistic回歸

2.最大熵模型

(1)最大熵原理

最大熵模型(Maximum Entropy Model)由最大熵原理推導實現。

?最大熵原理:學習概率模型時,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型,表述為在滿足約束條件的模型集合中選取熵最大的模型。

學習的目的是在可能的模型集合中選擇最優模型,而最大熵原理則給出最優模型的一個準則.

(2)最大熵模型的定義

(3)最大熵模型的學習

(4)極大似然估計

最大熵模型與邏輯斯諦回歸模型有類似的形式,它們又稱為對數線性模型(log linear model). 模型學習就是在給定的訓練數據條件下對模型進行極大似然估計或正則化的極大似然估計。

3.模型學習的最優化演算法

邏輯斯諦回歸模型、最大熵模型學習歸結為以似然函數為目標函數的最優化問題,通常通過迭代演算法求解,它是光滑的凸函數,因此多種最優化的方法都適用。

常用的方法有:改進的迭代尺度法/梯度下降法/牛頓法/擬牛頓法

梯度下降法(gradient descent)

梯度下降法是一種迭代演算法.選取適當的初值x(0),不斷迭代,更新x的值,進行目標函數的極小化,直到收斂。由於負梯度方向是使函數值下降最快的方向,在迭代的每一步,以負梯度方向更新x的值,從而達到減少函數值的目的.

牛頓法(Newton method)/擬牛頓法(quasi Newton method)

有收斂速度快的優點.

牛頓法是迭代演算法,每一步需要求解目標函數的海賽矩陣的逆矩陣,計算比較複雜。擬牛頓法通過正定矩陣近似海賽矩陣的逆矩陣或海賽矩陣,簡化了這一計算過程。

牛頓法

擬牛頓法

改進的迭代尺度法

end

推薦閱讀:

道可道之機器學習(1) - 初探人工智慧
人工智慧的過去、現在、未來和幻想
AI重新定義Web安全
中國人工智慧技術支出2020年將佔全球12%
【願景學城】24小時AI熱點新聞的匯總(2018/04/2)

TAG:人工智慧 |