簡單線性回歸和邏輯回歸(五)

什麼是回歸分析

管理決策經常要取決於兩個或者多個變數之間關係的分析,通常一個管理人員要依靠直覺和經驗來判斷這兩個變數之間的關係。但如果能取得數據,我們就可以利用統計方法來建立一個表示變數之間相互關係的方程,我們叫這一統計方法稱為回歸分析。

我們把預測的變數稱為因變數(標籤),通常用y表示,把用來預測因變數的值稱為自變數(特徵),用x表示。

什麼是簡單線性回歸

簡單線性回歸有以下的特點:

  1. 簡單線性回歸包含一個自變數(x)和一個因變數(y)
  2. 以上兩個變數的關係用一條直線來模擬
  3. 如果包含兩個以上的自變數,則稱作多元回歸分析(multiple regression)

簡單線性回歸模型:

被用來描述因變數(y)和自變數(X)以及偏差(error)之間關係的方程叫做回歸模型

簡單線性回歸的模型是:

ε是一個隨機變數,稱為模型的誤差量。

簡單線性回歸方程:

這個方程對應的圖像是一條直線,稱作回歸線。

其中,β0是回歸線的截距,β1是回歸線的斜率。

E(y)是在一個給定x值下y的期望值(均值)。

β1>0時,為正線性關係,β1<0時,為負線性關係,β1=0時,無關係。

估計的簡單線性回歸方程:

如果β0和β1是已知的,對於一個給定的x我們就可以求出y的平均值,但實際中他們都是未知的。所以我們要用樣本數據去估計他們。

其中,b0是估計線性方程的縱截距,b1是估計線性方程的斜率。

y?是在自變數x等於一個給定值的時候,y的估計值。

b0和b1,可以利用最小二乘法來算出:

從而我們就可以得出估計的線性方程。

什麼是判定係數

我們得到的估計的線性方程,能否很好的擬合數據,我們需要為回歸方程提供一個擬合優度的度量,判定係數就可以是這麼一個度量。

SSR為預測值y?與y的期望值偏差的平方和,稱為回歸平方和。

SST為樣本值y與y的期望值偏差的平方和,稱為總的平方和。

判定係數給出的測度數值在0到1之間,相比於樣本的相關係數,判定係數因為可以使用在兩個及以上的變數中,所以,有著更廣泛的使用範圍。

什麼是邏輯回歸

在許多回歸應用中,因變數僅能被假定為兩個值,比如願不願意,可不可以。所以邏輯回歸也稱為分類回歸,用來解決分類問題。

它的核心思想是,如果線性回歸的結果輸出是一個連續值,而值的範圍是無法限定的,那我們有沒有辦法把這個結果值映射為可以幫助我們判斷的結果呢。而如果輸出結果是 (0,1) 的一個概率值,這個問題就很清楚了。我們在數學上找了一圈,還真就找著這樣一個簡單的函數了,就是很神奇的sigmoid函數(如下):

如果把sigmoid函數圖像畫出來,是如下的樣子:

從函數圖上可以看出,函數y=g(z)在z=0的時候取值為1/2,而隨著z逐漸變小,函數值趨於0,z逐漸變大的同時函數值逐漸趨於1,而這正是一個概率的範圍。

判定邊界(決策面)

我們現在再來看看,為什麼邏輯回歸能夠解決分類問題。這裡引入一個概念,叫做判定邊界,可以理解為是用以對不同類別的數據分割的邊界,邊界的兩旁應該是不同類別的數據。

從二維直角坐標系中,舉幾個例子,大概是如下這個樣子:

也可能是這樣的:

上述圖中的紅綠樣本點為不同類別的樣本,而我們划出的線,不管是直線、圓或者是曲線,都能比較好地將圖中的兩類樣本分割開來。這就是我們的判定邊界。

最後我們總結一下邏輯回歸。它始於輸出結果為有實際意義的連續值的線性回歸,但是線性回歸對於分類的問題沒有辦法準確而又具備魯棒性地分割,因此我們設計出了邏輯回歸這樣一個演算法,它的輸出結果表徵了某個樣本屬於某類別的概率。

邏輯回歸的成功之處在於,將原本輸出結果範圍通過sigmoid函數映射到(0,1),從而完成概率的估測。

而直觀地在二維空間理解邏輯回歸,是sigmoid函數的特性,使得判定的閾值能夠映射為平面的一條判定邊界,當然隨著特徵的複雜化,判定邊界可能是多種多樣的樣貌,但是它能夠較好地把兩類樣本點分隔開,解決分類問題。

推薦閱讀:

總是忘做檢驗的線性回歸(2)--外部檢驗
總是忘做檢驗的線性回歸(1)--內部檢驗
回歸模型中哪個自變數的作用更大?標準化回歸係數來解答!
回歸模型中的啞變數是個啥?何時需要設置啞變數?
讀懂回歸分析結果-SPSS為例

TAG:機器學習 | 線性回歸 | 回歸分析 |