邏輯回歸1:(分類與概率)
先來3篇很厲害的博文,認真讀完以後會有一個對邏輯回歸比較清晰的理解,閱讀順序如下,我是用最後一篇作為梳理,因為前兩篇寫的很細緻,信息量比較大,顯的脈絡不是特別清晰,看完前兩篇用最後一篇的2.1進行梳理,然後有興趣可以繼續看這篇的其他內容
機器學習系列(1)_邏輯回歸初步 - CSDN博客
機器學習系列(2)_從初等數學視角解讀邏輯回歸 - CSDN博客
【機器學習演算法系列之二】淺析Logistic Regression
了解邏輯回歸
- 邏輯回歸是數學家為了得到[0,1]之間輸出,而使用線性回歸作為邏輯函數的輸入,所創造出來的東西
- 邏輯函數(logistic function)簡單的邏輯函數表達式為: ,圖形如下圖:
通過曲線圖可以看到邏輯函數是一個簡單的S函數(Sigmoid function),所以有些書里直接管它叫Sigmoid函數,也有的書里管邏輯函數叫對數幾率函數,這個原因會在文末揭曉。
- 線性回歸(Linear regression),一般表達式為: ,為簡便也可以將b寫入w中,將公式簡寫為: ,其中w={ ...}, 且 =b, =1。
- 最後把線性回歸作為邏輯回歸的輸入,從而它們組合在一起就有了邏輯回歸, ,z= 。
使用邏輯回歸的目標
- 擬合決策邊界:找到一個有足夠區分度的決策邊界,假設輸入的特徵向量為x∈R,Y取值為0,1。那麼決策邊界可以表示為 =0,當存在例子: 時可以判斷它屬於1類。其實只要 足夠複雜也可以完美擬合非線性的決策邊界,例如: ,其中 ,那麼這函數擬合的就是一個圓形的決策邊界。
2. 建立決策邊界與概率的聯繫:由於輸出結果為[0,1]之間,所以可以建立決策邊界與概率的聯繫,下面詳細講下這點:
先引入概率P,邏輯函數可以通過擬合決策邊界 把事件 分為 和 兩類,其中 類事件的發生概率為 ,而在邏輯函數 中 ,顯然概率 和z的範圍, 不是概率 ,在它們之間建立關係需要一個映射即函數,這種映射可以使得在區間 之間的概率 轉化成區間在(+ ,- )的 上,且因為 事件的概率為 時 事件的概率也是 ,說明事件正好在決策邊界線上,而決策邊界正是 ,即 時概率 。
總結一下映射關係:
- P [0,1]
- z (+ ,- )
- p=0.5時z=0
這不禁令人想到另一個爺爺輩的函數,logit function函數:y=log( )
所以我們可以說 (這裡的P是概率),反過來也就是 (這裡的P還是概率),而邏輯函數的公式正好就是 (這裡的P是邏輯函數輸出值),所以我們可以把兩個P劃等號,即把邏輯回歸的輸出值當做是一個概率。
在概率論中P是事件發生的概率,1-P是事件不發生的概率, 就是發生比(odds) 也叫幾率, 就是對數發生比(log-odds,或logit)也叫對數幾率,這就是為什麼邏輯函數也叫對數幾率函數,同是邏輯回歸也叫對數幾率回歸的原因。
—— 完 ——
推薦閱讀:
※正經機器學習之小巧的流程可視化機器學習工具
※谷歌今日上線基於TensorFlow的機器學習速成課程(免費中文版)
※機器學習入門:邏輯回歸案例
※推薦系統:經典方法
※一文弄懂神經網路中的反向傳播法——BackPropagation