用Python實現線性回歸,8種方法哪個最高效?

時至今日,深度學習早已成為數據科學的新寵。即便往前推10年,SVM、boosting等演算法也能在準確率上完爆線性回歸。

那麼,為什麼我們還需要線性回歸呢?

一方面,線性回歸所能夠模擬的關係其實遠不止線性關係。線性回歸中的「線性」指的是係數的線性,而通過對特徵的非線性變換,以及廣義線性模型的推廣,輸出和特徵之間的函數關係可以是高度非線性的。另一方面,也是更為重要的一點,線性模型的易解釋性使得它在物理學、經濟學、商學等領域中佔據了難以取代的地位。

如何用Python來實現線性回歸?

由於機器學習庫scikit-learn的廣泛流行,常用的方法是從該庫中調用linear_model來擬合數據。雖然這可以提供機器學習的其他流水線特徵(例如:數據歸一化,模型係數正則化,將線性模型傳遞到另一個下游模型)的其他優點,但是當一個數據分析師需要快速而簡便地確定回歸係數(和一些基本相關統計量)時,這通常不是最快速簡便的方法。

下面,我將介紹一些更快更簡潔的方法,但是它們所提供信息量和建模的靈活性不盡相同。

後台回復「線性回歸」,獲取完整源碼。

以下方法使用SciPy包,是基於Python的Numpy擴展構建的數學演算法和函數的集合。通過為用戶提供便於操作和可視化數據的高級命令和類,為互動式Python會話增加了強大的功能。

8種方法實現線性回歸

方法一:Scipy.polyfit( ) or numpy.polyfit( )

這是一個最基本的最小二乘多項式擬合函數(least squares polynomial fit function),接受數據集和任何維度的多項式函數(由用戶指定),並返回一組使平方誤差最小的係數。這裡給出函數的詳細描述。對於簡單的線性回歸來說,可以選擇1維函數。但是如果你想擬合更高維的模型,則可以從線性特徵數據中構建多項式特徵並擬合模型。

方法二:Stats.linregress( )

這是一個高度專業化的線性回歸函數,可以在SciPy的統計模塊中找到。然而因為它僅被用來優化計算兩組測量數據的最小二乘回歸,所以其靈活性相當受限。因此,不能使用它進行廣義線性模型和多元回歸擬合。但是,由於其特殊性,它是簡單線性回歸中最快速的方法之一。除了擬合的係數和截距項之外,它還返回基本統計量,如R2係數和標準差。

方法三:Optimize.curve_fit( )

這與Polyfit方法是一致的,但本質上更具一般性。這個強大的函數來自scipy.optimize模塊,可以通過最小二乘最小化將任意的用戶自定義函數擬合到數據集上。

對於簡單的線性回歸來說,可以只寫一個線性的mx + c函數並調用這個估計函數。不言而喻,它也適用於多元回歸,並返回最小二乘度量最小的函數參數數組以及協方差矩陣。

方法四:numpy.linalg.lstsq

這是通過矩陣分解計算線性方程組的最小二乘解的基本方法。來自numpy包的簡便線性代數模塊。在該方法中,通過計算歐幾里德2-範數||b-ax||2最小化的向量x來求解等式ax = b。

該方程可能有無數解、唯一解或無解。如果a是方陣且滿秩,則x(四捨五入)是方程的「精確」解。

你可以使用這個方法做一元或多元線性回歸來得到計算的係數和殘差。一個小訣竅是,在調用函數之前必須在x數據後加一列1來計算截距項。這被證明是更快速地解決線性回歸問題的方法之一。

方法五:Statsmodels.OLS ( )

Statsmodels是一個小型的Python包,它為許多不同的統計模型估計提供了類和函數,還提供了用於統計測試和統計數據探索的類和函數。每個估計對應一個泛結果列表。可根據現有的統計包進行測試,從而確保統計結果的正確性。

對於線性回歸,可以使用該包中的OLS或一般最小二乘函數來獲得估計過程中的完整的統計信息。

一個需要牢記的小技巧是,必須手動給數據x添加一個常數來計算截距,否則默認情況下只會得到係數。以下是OLS模型的完整匯總結果的截圖。結果中與R或Julia等統計語言一樣具有豐富的內容。

方法六和七:使用矩陣的逆求解析解

對於條件良好的線性回歸問題(其中,至少滿足數據點個數>特徵數量),係數求解等價於存在一個簡單的閉式矩陣解,使得最小二乘最小化。由下式給出:

這裡有兩個選擇:

(a)使用簡單的乘法求矩陣的逆

(b)首先計算x的Moore-Penrose廣義偽逆矩陣,然後與y取點積。由於第二個過程涉及奇異值分解(SVD),所以它比較慢,但是它可以很好地適用於沒有良好條件的數據集。

方法八:sklearn.linear_model.LinearRegression( )

這是大多數機器學習工程師和數據科學家使用的典型方法。當然,對於現實世界中的問題,它可能被交叉驗證和正則化的演算法如Lasso回歸和Ridge回歸所取代,而不被過多使用,但是這些高級函數的核心正是這個模型本身。

八種方法效率比拼

一個可以用來確定可擴展性的好辦法是不斷增加數據集的大小,執行模型並取所有的運行時間繪製成趨勢圖。

下面是源代碼及其運行結果(github.com/tirthajyoti/)。

由於其簡單,即使多達1000萬個數據點,stats.linregress和簡單的矩陣求逆還是最快速的方法。

簡單矩陣逆求解的方案更快

作為數據科學家,我們必須一直探索多種解決方案來對相同的任務進行分析和建模,並為特定問題選擇最佳方案。

本文的目標主要是討論這些方法的相對運行速度和計算複雜度。我們在一個數據量持續增加的合成數據集(最多達1000萬個樣本)上進行測試,並給出每種方法的運算時間。

令人驚訝的是,與廣泛被使用的scikit-learnlinear_model相比,簡單矩陣的逆求解的方案反而更加快速。

原文地址:

medium.freecodecamp.org


【機器學習 第九期】BAT工業實戰,作業、考試1V1批改!

機器學習 第九期 [作業考試均1v1批改,加送數學課] (點擊鏈接,免費抽獎,能不能免得看人品了)


推薦閱讀:

在windows7中python3.4下如何升級pip?
pip常用命令
《Django By Example》第八章 中文翻譯
01 貓眼電影-最受期待榜榜單
一起來寫pydu——常用數據結構工具集庫

TAG:機器學習 | Python |