為什麼LR要使用sigmod函數

筆者認為可以解釋的原因有兩個:


1.邏輯斯特回歸中的 [p(y|x;	heta )] 服從伯努利分布,可以寫成指數族分布的形式如下: [egin{array}{l} P(y;eta ) = {phi ^y}{(1 - phi )^{1 - y}}\ ;;;;;;;;;;; = exp (ylog phi + (1 - y)log (1 - phi ))\ ;;;;;;;;;;; = exp [ylog frac{phi }{{1 - phi }} + log (1 - phi )] end{array}] (1)

同時這裡也說明一下指數族分布的定義:若某概率分布滿足  [P(y;eta ) = b(y)exp ({eta ^T}T(y) - a(eta ))] 就是指數族分布。其中 [eta ] 是自然參數, [T(y)] 是充分統計量, [exp ( - a(eta ))] 起到歸一化作用。統計學中的如伯努利分布,高斯分布,多項式分布,泊松分布都屬於指數族分布。

把(1)中的分布寫成指數族的形式可以得到 [T(y) = y,eta = log frac{phi }{{1 - phi }},a(eta ) = - log (1 - phi ) = log (1 + {e^eta }),b(y) = 1]

其中可以看到 [phi = frac{1}{{1{
m{ + }}{e^{ - eta }}}}] ,就是sigmod函數的形式


2.指數家族所具有的最佳性質,即最大熵的性質。熵原本是information theory中的概念,用在概率分布上可以表示這個分布中所包含的不確定度,熵越大不確定度越大。所以大家可以想像到,均勻分布熵最大,因為基本新數據是任何值的概率都均等。而我們現在關心的是,給定某些假設之後,熵最大的分布。也就是說這個分布應該在滿足我假設的前提下越均勻越好。比如大家熟知的正態分布,正是假設已知mean和variance後熵最大的分布。

回過來看logistic regression,這裡假設了 [P(y|x)] 服從伯努利分布,根據伯努利分布的性質,再利用最大熵學習的過程,可以推導出sigmod函數。當只有0和1兩個變數的時候

[P(y|x) = frac{1}{{1 + {e^{ - eta }}}}] 。這一推導過程在李航博士的《統計學習方法》85頁中有詳細介紹,而且特地logstic regression和最大熵是放在一個章節講的,可見兩者之間的關係。

其實,筆者認為1和2解釋都有一定的相似之處,指數函數族<->熵的關係

[每日問答]邏輯回歸為什麼使用Sigmod作為激活函數? - CSDN博客 為什麼 LR 模型要使用 sigmoid 函數,背後的數學原理是什麼? win-vector.com/dfiles/L

推薦閱讀:

Teaching Machines to Read and Comprehend
數據分析入門(Python) | 猴子社群第2期闖關遊戲怎麼玩?
A Diversity-Promoting Objective Function for Neural Conversation Models
【解讀】機器學習應用在量化投資中失敗的7個主要原因

TAG:机器学习 | 强化学习ReinforcementLearning | 深度学习DeepLearning |