為什麼LR要使用sigmod函數
筆者認為可以解釋的原因有兩個:
1.邏輯斯特回歸中的 服從伯努利分布,可以寫成指數族分布的形式如下: (1)
同時這裡也說明一下指數族分布的定義:若某概率分布滿足 就是指數族分布。其中 是自然參數, 是充分統計量, 起到歸一化作用。統計學中的如伯努利分布,高斯分布,多項式分布,泊松分布都屬於指數族分布。
把(1)中的分布寫成指數族的形式可以得到
其中可以看到 ,就是sigmod函數的形式
2.指數家族所具有的最佳性質,即最大熵的性質。熵原本是information theory中的概念,用在概率分布上可以表示這個分布中所包含的不確定度,熵越大不確定度越大。所以大家可以想像到,均勻分布熵最大,因為基本新數據是任何值的概率都均等。而我們現在關心的是,給定某些假設之後,熵最大的分布。也就是說這個分布應該在滿足我假設的前提下越均勻越好。比如大家熟知的正態分布,正是假設已知mean和variance後熵最大的分布。
回過來看logistic regression,這裡假設了 服從伯努利分布,根據伯努利分布的性質,再利用最大熵學習的過程,可以推導出sigmod函數。當只有0和1兩個變數的時候
。這一推導過程在李航博士的《統計學習方法》85頁中有詳細介紹,而且特地logstic regression和最大熵是放在一個章節講的,可見兩者之間的關係。
其實,筆者認為1和2解釋都有一定的相似之處,指數函數族<->熵的關係
[每日問答]邏輯回歸為什麼使用Sigmod作為激活函數? - CSDN博客 為什麼 LR 模型要使用 sigmoid 函數,背後的數學原理是什麼? http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf
推薦閱讀:
※Teaching Machines to Read and Comprehend
※數據分析入門(Python) | 猴子社群第2期闖關遊戲怎麼玩?
※A Diversity-Promoting Objective Function for Neural Conversation Models
※【解讀】機器學習應用在量化投資中失敗的7個主要原因
TAG:机器学习 | 强化学习ReinforcementLearning | 深度学习DeepLearning |