你以為線性回歸和邏輯回歸是一回事嗎？

07-17

【導讀】邏輯回歸到底是回歸還是分類？邏輯回歸和線性回歸是一回事兒嗎？它們有什麼區別和聯繫？其實它們從輸出到公式，再到殘差分布，都不一樣。本文將認真「探討」關於以上問題的一些思考。

作者 | Rakshith Vasudev

編譯 | 專知

翻譯 | Yongxi, Hujun

How are Logistic Regression & Ordinary Least Squares Regression (Linear Regression) Related?

Why the 「Regression」 in Logistic?

如果你和我一樣，覺得「邏輯回歸」的真實名稱應該是「邏輯分類」，本文給出了關於此類問題的一些思考。

對邏輯回歸與線性回歸的解釋

邏輯回歸通過一組預測器變數，可以很有效的預測特徵與輸出結果。這與線性回歸很相似，但更適用於二分類問題。方程係數可以用來估計模型中的自變數的比率，這適用於更廣泛的問題模型，另一方面，可以將邏輯回歸用於確定某個事件的可能性，輸出值為0或1。

在邏輯回歸中不僅可以解決二分類問題，也可以求解多分類問題，只不過它常被用來做二分類。

線性回歸：通過估計線性方程中的係數，包括一個或多個獨立變數，進而給出最佳的預測結果。例如，可以通過年齡、教育背景、工作年份等特徵預測銷售員全年的銷售情況。

線性回歸求解的是連續問題，而邏輯回歸求解的是離散問題。

更多連續vs離散變數的對比可以點擊查看:

https://hackernoon.com/continuous-vs-discrete-variables-in-the-context-of-machine-learning-15d9005e2525

他們是如何相關的呢？

邏輯回歸通過估計輸出的可能性。把事件編碼為二進位變數，1代表目標事件發生，0代表不發生。

線性回歸也通過線性概率模型，建模為二進位變數。線性回歸可以給出超過（0，1）範圍的預測值，但該方法對於分類與假設檢驗仍然是非常有用的。

邏輯回歸模型把事件概率作為自變數函數，讓y表示casei中的因變數，並令相同case中的自變數k表示為x（j=l，k）。假設Y是二元變數，來衡量某個組合的相關度。令y=l代表該組合包括某成員值，反之y=0。令p為y=1的概率值，則y=1的可能性為p/(1-p)。log概率函數或p的logit等於p/(1-p)的自然對數。邏輯回歸將對數比值作為自變數的線性組合。

Logit(p) = B0 + B1X2 + …… + BkXk

線性回歸利用自變數集合與因變數間的關係建模。因變數的值等於自變數線性相加後再加上一個誤差?。

Y = B0 + B1X1 + B2X2+……. + BkXk + ?

其中（BO…Bk）是回歸的係數，Xs是自變數（列向量），?是誤差值。

邏輯回歸通常被用於建模二元因變數，邏輯回歸模型的結構被設計為輸出二元信息。

線性回歸不是為了解決二元分類問題，而邏輯回歸則很擅長解決數據點的分類，邏輯回歸用的是對數損失函數，而線性回歸用的是最小平方誤差。

它們的相關性在哪呢？

線性規劃使用通用的線性公式：Y=b0+∑(biXi)+?，其中Y是連續的因變數，Xi是自變數。?是難以解釋的偏差值。當因變數值通過Yj表示，進而公式變為：Yj=b0+∑(biXij)+?j。

輸出為：

邏輯回歸是另一個常見的線性模型（GLM），使用了相似的線性公式，但將連續的y替換為一組分類概率輸出。最簡單的模式中，這意味著，我們只需要考慮一個輸出的二元值，或0或1。

Y=1概率的公式如下：

P(Y=1)=1/(1+e?^(b0+∑(biXi)))

變數的解釋與上文中的相同。

自變數Xi可以使連續的或二值的，回歸係數bi可以取冪值來放大Y與Xi間的相關變化情況。

輸出的sigmoid曲線如下所示：

這兩種都是線性模型，然而：

邏輯回歸的重點不是分類，它只是在預測概率的基礎上加了一個決策規則。邏輯回歸是一個回歸模型因為它利用特徵的多重線性變換來預測每一類出現的概率。

這可能會使我們認為其不應該被稱為邏輯回歸，而應該稱為邏輯分類。

為了回答這個問題，我們必須回到19世紀邏輯回歸剛剛被提出時說起。它當時被廣泛用於發現人口增長和化學自動催化反應的過程中。http://papers.tinbergen.nl/02119.pdf

可以看出，「邏輯回歸」這一名詞比「監督學習」等相關名詞的出現早了太多年。而且，「回歸」並不僅僅意味著輸出總是連續的，這裡有篇文章指出了這一問題。http://papers.tinbergen.nl/02119.pdf

線性回歸通常被用來解決最小化方差問題，因而較大的誤差會被抵消。

FYI：下麵線性回歸的損失函數：

使用logistic損失函數會導致較大的誤差被懲罰為漸近常數（asymptotic constant）。

分析{0，1}分類中的線性回歸過程，可以看到為什麼會出現這一問題。對於值67，如果模型預測置信度是1時，損失函數不是很大。線性回歸將嘗試減少67，而邏輯回歸則不會，也就是說，在連續輸出上使用邏輯回歸，無法減少更多的損失。它會認為損失值並不大，換句話說，邏輯回歸併沒有懲罰損失，這使得輸出結果根本不是「最佳擬合線」。

邏輯回歸結果在許多方面都可以與線性回歸結果對比，可以發現對於結果概率給出了更準確的預測，而線性回歸則能準確地從因變數中預測連續值。

從上面的分析中可以發現，「回歸」是一個抽象詞條，隨著上下文的變化，有著不同的解釋。

邏輯與線性回歸對比如下：

為了總結，我們一起來分析下兩類方法中的各個屬性。

輸出：

線性回歸：連續值，兩個以上的輸出。

邏輯回歸：離散值，通常兩類輸出{0，1}，但也可以有多類，通過四捨五入的方式得到。

係數解釋：

線性回歸：線性回歸的係數表示因變數對某個單元自變數變化的相關性加權。換句話說，當保持其他的變數值不變，增加某個變數，因變數預計會變化多少。

邏輯回歸：係數與概率因素有關，直觀理解可以查看如下鏈接：https://www.youtube.com/watch?v=eX2sY2La4Ew

公式：

線性回歸：線性回歸是對兩個變數間關係建模的方法。可以把方程看做是斜率公式，Y=a+bX，其中Y是因變數，X是自變數，b是斜率，a是截距。

錯誤項表示為?。

邏輯回歸：邏輯回歸的公式和線性回歸非常像。輸入值x結合線性權重來預測輸出值。與線性回歸的關鍵區別在於所建模輸出值為二元數值（0，1），而不是連續數值。

誤差公式

邏輯回歸：輸出是被分類的概率。常用損失函數是「分類交叉熵」，與神經網路中的很像。

線性關係

線性回歸：需要自變數與因變數間的線性關係。

邏輯回歸：不需要自變數與因變數間的線性關係。

殘差分布（Distribution of Residuality:）：

線性回歸：要求誤差服從正態分布。

邏輯回歸：不要求誤差服從正態分布。

原文鏈接：

https://towardsdatascience.com/how-are-logistic-regression-ordinary-least-squares-regression-related-1deab32d79f5