簡單線性回歸和邏輯回歸(五)
什麼是回歸分析
管理決策經常要取決於兩個或者多個變數之間關係的分析,通常一個管理人員要依靠直覺和經驗來判斷這兩個變數之間的關係。但如果能取得數據,我們就可以利用統計方法來建立一個表示變數之間相互關係的方程,我們叫這一統計方法稱為回歸分析。
我們把預測的變數稱為因變數(標籤),通常用y表示,把用來預測因變數的值稱為自變數(特徵),用x表示。
什麼是簡單線性回歸
簡單線性回歸有以下的特點:
- 簡單線性回歸包含一個自變數(x)和一個因變數(y)
- 以上兩個變數的關係用一條直線來模擬
- 如果包含兩個以上的自變數,則稱作多元回歸分析(multiple regression)
簡單線性回歸模型:
被用來描述因變數(y)和自變數(X)以及偏差(error)之間關係的方程叫做回歸模型
簡單線性回歸的模型是:
ε是一個隨機變數,稱為模型的誤差量。
簡單線性回歸方程:
這個方程對應的圖像是一條直線,稱作回歸線。
其中,β0是回歸線的截距,β1是回歸線的斜率。
E(y)是在一個給定x值下y的期望值(均值)。
β1>0時,為正線性關係,β1<0時,為負線性關係,β1=0時,無關係。
估計的簡單線性回歸方程:
如果β0和β1是已知的,對於一個給定的x我們就可以求出y的平均值,但實際中他們都是未知的。所以我們要用樣本數據去估計他們。
其中,b0是估計線性方程的縱截距,b1是估計線性方程的斜率。
y?是在自變數x等於一個給定值的時候,y的估計值。
b0和b1,可以利用最小二乘法來算出:
從而我們就可以得出估計的線性方程。
什麼是判定係數
我們得到的估計的線性方程,能否很好的擬合數據,我們需要為回歸方程提供一個擬合優度的度量,判定係數就可以是這麼一個度量。
SSR為預測值y?與y的期望值偏差的平方和,稱為回歸平方和。
SST為樣本值y與y的期望值偏差的平方和,稱為總的平方和。
判定係數給出的測度數值在0到1之間,相比於樣本的相關係數,判定係數因為可以使用在兩個及以上的變數中,所以,有著更廣泛的使用範圍。
什麼是邏輯回歸
在許多回歸應用中,因變數僅能被假定為兩個值,比如願不願意,可不可以。所以邏輯回歸也稱為分類回歸,用來解決分類問題。
它的核心思想是,如果線性回歸的結果輸出是一個連續值,而值的範圍是無法限定的,那我們有沒有辦法把這個結果值映射為可以幫助我們判斷的結果呢。而如果輸出結果是 (0,1) 的一個概率值,這個問題就很清楚了。我們在數學上找了一圈,還真就找著這樣一個簡單的函數了,就是很神奇的sigmoid函數(如下):
如果把sigmoid函數圖像畫出來,是如下的樣子:
從函數圖上可以看出,函數y=g(z)在z=0的時候取值為1/2,而隨著z逐漸變小,函數值趨於0,z逐漸變大的同時函數值逐漸趨於1,而這正是一個概率的範圍。
判定邊界(決策面)
我們現在再來看看,為什麼邏輯回歸能夠解決分類問題。這裡引入一個概念,叫做判定邊界,可以理解為是用以對不同類別的數據分割的邊界,邊界的兩旁應該是不同類別的數據。
從二維直角坐標系中,舉幾個例子,大概是如下這個樣子:也可能是這樣的:
上述圖中的紅綠樣本點為不同類別的樣本,而我們划出的線,不管是直線、圓或者是曲線,都能比較好地將圖中的兩類樣本分割開來。這就是我們的判定邊界。
最後我們總結一下邏輯回歸。它始於輸出結果為有實際意義的連續值的線性回歸,但是線性回歸對於分類的問題沒有辦法準確而又具備魯棒性地分割,因此我們設計出了邏輯回歸這樣一個演算法,它的輸出結果表徵了某個樣本屬於某類別的概率。
邏輯回歸的成功之處在於,將原本輸出結果範圍通過sigmoid函數映射到(0,1),從而完成概率的估測。
而直觀地在二維空間理解邏輯回歸,是sigmoid函數的特性,使得判定的閾值能夠映射為平面的一條判定邊界,當然隨著特徵的複雜化,判定邊界可能是多種多樣的樣貌,但是它能夠較好地把兩類樣本點分隔開,解決分類問題。
推薦閱讀:
※總是忘做檢驗的線性回歸(2)--外部檢驗
※總是忘做檢驗的線性回歸(1)--內部檢驗
※回歸模型中哪個自變數的作用更大?標準化回歸係數來解答!
※回歸模型中的啞變數是個啥?何時需要設置啞變數?
※讀懂回歸分析結果-SPSS為例