線性回歸建模中殘差異方差性的分析和處理

1 問題背景

線性回歸模型廣泛應用於經濟和金融的量化分析中。本文主要基於Coursera平台Data Science專題的線性回歸模型課程的材料,加上本人的的學習和實踐心得,對殘差異方差性的各種情況和處理方法進行討論。

線性回歸方程的通式如下:

 Y = eta_1*X + eta_2 + epsilon

其中Y為因變數,X為自變數,eta_1為自變數的係數,eta_2為截距,epsilon為殘差項。

在建模過程中,我們得到一系列數據點的X和Y值,對參數eta_1eta_2進行估計。當應用線性回歸對數據進行建模的時候,我們實際上假設了因變數Y的取值由線性部分( eta_1X +eta_2 )和隨機部分(服從正態分布的epsilon)決定。對於殘差項的分析,是分析模型合理性的重要指標。在線性回歸模型中,殘差應滿足白雜訊假設(White Noise Condition):

(1) 殘差獨立同分布(independent and identical distribution,iid),且無自相關性;

(2) 殘差和自變數X不相關;

(3) 殘差的均值為0,方差為常數。

在統計學中,白雜訊隨機序列是指一組無自相關性,且有相同分布的隨機序列。理論上,白雜訊假設不要求隨機變數服從正態分布,而可以是任意分布。但基於中心極限定理,假設殘差服從正態分布是一個合理的近似。

基於以上白雜訊假設的第3條,當殘差方差為常數時,我們稱殘差具有同方差性(homoscedasticity);當殘差方差不是常數時,稱殘差具有異方差性(heteroscedasticity)。

異方差性的存在意味著違反了線性回歸模型的白雜訊假設。因此,對於異方差性的分析有助於我們理解數據的問題或特徵,而對於異方差性的修正則有助於提高模型參數估計的準確度。

2. 數據可視化,離群值和殘差異方差性的判斷

在進行線性回歸建模前,一般要先通過散點圖來觀察數據的基本特徵。著名的安斯庫姆四重奏(Anscombe"s quartet)展示了在線性回歸模型中具有相同的統計特徵,但數據分布明顯不同的四個例子,用於說明線性回歸建模前進行數據可視化分析的重要性:

一般在進行可視化分析的時候,我們除了關注數據是否存在明顯的線性相關特徵外,還需要觀察離群值的數量。離群值和殘差異方差性是緊密相關的概念。通常,如果一個數據點為離群值,同時也意味著它對應的殘差具有較大的方差,因此數據中的離群值數量較多的話,殘差一般也會出現明顯的異方差性。

關於線性回歸的離群值的判斷,有兩個要點:

數據中存在少量的離群值是合理的。例如,當我們產生1000個服從標準正態分布的隨機數,以距離均值大於兩個標準差作為離群值判斷標準,因為數據落在兩個標準差之外的概率約為4.5%,意味這1000個抽樣中大約會有45個離群值。此時如果我們去除這45個離群值來估計分布的方差,將會得到小於1的結論。因此,在刪去離群值前應慎重考慮,除了因為存在少量離群值是合理的以外,離群值可能包含抽樣或者數據的特徵或者存在的問題。因此,如果數據中存在相當數量的離群值,應分析其成因,而非簡單將其刪去。

線性回歸離群值(regression outlier)是指對線性回歸模型參數估計有強影響力的離群值(influential outlier)。只有當一個離群值具有高槓桿值(high leverage)且有明顯的偏差(significant discrepancy)時,它才有可能是具有強影響力的。對於一元回歸而言,只有當數據點出現在圖的右下方時,它才有可能是有強影響力的。

對於多元回歸模型,不能通過簡單可視化來判斷離群值的數量。可以通過cook』s distance或者已添加變數圖(added variable plot)來進行判斷。

在完成線性回歸建模後,我們可以通過殘差圖(residual plot)來判斷殘差的異方差性:

如果殘差在圖X軸兩側均勻分布,則意味著異方差性較弱;而如果呈現出明顯的不均勻分布,則意味著存在明顯的異方差性。

3. 殘差異方差性的成因分析

根據本人學習和經驗,異方差性的成因總結為以下四種:

(1) Y和X本身存在非線性關係;

(2) Y本身存在顯著的自相關性;

(3) 殘差中包含和因變數X線性相關,但未被模型考慮的變數,導致殘差和X相關;

(4) 受數據採樣精度或流程所限,數據抽樣時不獨立,或環境發生顯著變化,殘差不滿足獨立同分布的假設。

3.1 Y和X本身存在非線性關係引起的殘差異方差性

對於第1種情況,例如Y與X本身滿足的是如下函數關係:Y=Sin(X)

因為Y和X存在顯著地非線性相關,因此此時用簡單線性回歸,將會出現欠擬合(underfitting)的問題。欠擬合可理解為在建模過程中,選擇的模型過於簡單,因而無法反映數據的精細結構的問題。

當在大部分實際問題分析中,我們不可能準確知道Y和X的關係。理論上,我們可以在模型中考慮高次多項式來擬合Y和X非線性相關部分(多項式回歸):

Y = eta_1*X + eta_2*X^2 + eta_2*X^3 + … +eta_n*X^n

用高次多項式作為基組進行擬合,等價於對Y進行泰勒展開,理論上項數考慮越多,對於Y的擬合精度越高。而使用高次多項式的主要問題在於可能出現過擬合(overfitting),即估計模型參數時,把相當多雜訊考慮其中,從而影響模型的泛化能力。在實際中,一般只能加入二次多項式來對非線性部分進行擬合。在下文討論穩健回歸(robust regression)時將看到具體例子。

在《機器學習實戰》一書中線性回歸模型部分,還提到另外一種擬合非線性部分的回歸模型,稱為局部加權線性回歸 (Locally Weighted Linear Regression,LWLR)。該模型通過在最小二乘法得到的參數估計的表達式中,加入一個核函數矩陣,在進行參數估計時給予附近的點一定的權重,來擬合數據的非線性相關部分:

eta = dfrac{X^T}{X^TW X} Y

其中W通常選擇為高斯核函數矩陣,該矩陣為對角矩陣,對角線性的元素為:

W (i, i)=exp{left( -dfrac{(x_{i}- x)^2}{2k^2}  
ight)  }

其中x_{i}為數據點x附近的數據點,k決定了附近數據點的權重。擬合效果如下圖所示:

局部加權線性回歸模型中,可以通過權衡偏差和係數估計方差來權衡k的合理值。偏差(bias)為預測值和真實值之間的誤差,而係數估計方差(variance)則是利用不同的訓練集得到一組參數估計值後,用這種估計值計算得到的方差。通常方差的估計通過交叉驗證 (cross-validation)來實現。欠擬合的模型一般具有高偏差和低方差,而過擬合的模型則具有低偏差和高方差,合理的模型應該同時具有較低的偏差和方差,如下圖所示:

3.2 因變數Y本身存在顯著自相關性引起的殘差異方差性

在經濟學中,因變數Y本身存在顯著自相關性最著名的例子是股票的波動率的聚合(volatility cluster),如下圖所示,自變數X為時間,因變數Y為波動率。圖中顯示當波動率上升時,下一時刻波動率也傾向於上升,呈現明顯的自相關性。

對於因變數本身存在顯著自相關性,且自變數為時間的數據,我們應該採用時間序列分析建模。對於波動率,我們有EWMA,ARCH和GARCH模型等進行建模和分析。在這裡不對這些模型的細節進行探討。

更一般地,因變數自相關性的存在意味著因變數Y和殘差項均不滿足正態分布的假設。一種解決思路是利用Box-Cox transformation,通過數據變換使得因變數更接近正態分布。此外,下面介紹的廣義最小二乘法也有助於消除殘差的自相關性。但需要注意的是,這些處理技巧能夠降低因變數/殘差存在自相關性的影響,但如果數據本身存在很強的異方差性,那麼應仔細分析數據的抽樣流程和統計特徵,再判斷線性回歸是否適用。

3.3 殘差和自變數X線性相關

殘差和因變數X相關,意味著殘差中存在未被模型考慮的變數,且該變數和X相關。而殘差和因變數X相關引起的異方差性,對於模型預測能力的影響,取決於被忽略的變數是否和因變數Y線性相關。

我們可以通過一個簡單的例子來理解這個問題。假設我們以雪糕的銷量作為因變數Y,季節作為自變數X進行線性回歸建模。基於生活常識,夏天應該和雪糕的銷量存在明顯的正相關,而冬天應該和雪糕銷量存在明顯的負相關。

除了季節以外,還會有很多變數影響雪糕的銷量,例如溫度。溫度顯然和季節相關,又很有可能和雪糕銷量相關。在統計學中,一般稱這樣的變數為混淆變數(confounding variable)。混淆變數是指和其它變數同時相關,導致我們無法準確其它變數的關係的變數。

在建模中,如果存在混淆變數,即和Y及X都顯著相關的變數進入殘差中,將會導致忽略變數偏差(omiited variable bias),造成係數和模型的估計有偏,模型的預測能力將會被大大影響。

混淆變數進入殘差項中,通常是因為建模時對自變數共線性(colinearity)處理不當。自變數共線性是指自變數之間存在線性相關,如果存在多個自變數線性相關,則稱為多重共線性(multicolinearity)。自變數共線性不會影響模型的整體預測能力,但會影響對於單個變數的係數估計。當共線性較為顯著時,自變數的協方差矩陣是一個奇異矩陣,影響最小二乘法對於參數的估計。

在處理共線性問題時,一個重要的原則是不能忽略和Y顯著相關的變數(可以通過該變數加入模型與否會明顯改善參數顯著性檢驗來判斷)。只有在該變數和Y無明顯相關性時,我們才能考慮去掉這個變數。

在不去掉任何自變數的前提下,仍然有很多辦法處理共線性問題,例如主成分分析,或者進行正則化處理的嶺回歸和Lasso回歸等。自變數共線性處理是線性回歸的另一個重要問題,在這裡不再作深入討論。

另外,在實際問題建模中,我們不可能知道所有的混淆變數,甚至可能存在無法測量混淆變數的情況。除了採用合適的建模方法來處理這些問題,更為根本的方法是提高抽樣的數量和質量,來減少混淆變數的影響。

3.4 抽樣時不獨立或環境發生顯著變化引起的殘差異方差性

在對數據建模時,了解數據是如何採集的,有助於我們理解數據的特徵和可能存在的問題,同時也可判斷數據是否滿足建模方法的假設,從而採用合適的建模手段。

在特殊情況下,當抽樣流程存在嚴重問題,或者受抽樣手段的限制,數據中的噪音較大,無法有效提取數據的特徵時,那麼線性回歸模型將難以對數據進行解釋和預測。

4. 殘差異方差性的處理

在參數估計中,我們一般通過最小二乘法,以最小化殘差的方差為目標進行參數估計:

min{F} = min{{(Y-eta*X)^T(Y-eta*X)} }

求上式最小值等價於令函數F對eta^T的導數為0:

dfrac{delta F}{deltaeta^T} = X^T(Y-eta*X)=0

因此得到係數eta的表達式

eta = dfrac{X^T}{X^T X} Y

從上述表達式可以看出,係數eta 為Y的線性組合,因為Y滿足正態分布(線性部分+正態分布殘差),因此係數滿足聯合正態分布,這是一般係數顯著性檢驗的基礎。

因為最小二乘法估計的目標是最小化殘差的方差,因此當殘差存在異方差性時,係數的估計值將受那些具有較大方差的數據點影響,從而具有較大的方差,影響後續的模型的顯著性檢驗和離群值判斷。為了降低殘差異方差性對參數估計的影響,以下介紹穩健回歸(robust regression)和廣義最小二乘法 (generalized least square) 兩種方法。

4.1 穩健回歸

為了降低具有較大的方差的數據點對參數估計的影響,穩健回歸選擇最小化以下的目標函數:

min{S} = min{{|Y-F(X)|} }

一種方式是選擇F(X) = aX^2 + bX + c,用二次多項式來擬合Y和X的非線性相關部分。

穩健回歸的優點在於它放棄了最小二乘法的平方和形式的目標函數,從而降低了殘差方差較大的數據點對參數估計的影響,且能夠擬合Y和X的非線性相關部分。

穩健回歸的缺點在於參數a,b和c可能存在多組解能夠最小化上述目標函數,從而造成參數估計不穩定;此外,使用二次多項式也導致了過擬合的風險;而穩健最重要的問題是,最小二乘法得到的參數估計表達式滿足聯合正態分布,這是一般進行線性回歸建模係數顯著性檢驗的基礎假設。但穩健回歸無法保證參數符合聯合正態分布,因此一般參數顯著性檢驗的方法未必適用。

4.2 廣義最小二乘法

廣義最小二乘法對最小二乘法的目標函數進行以下調整:

min{f} = min{{(Y-eta*X)^TOmega^{-1}(Y-eta*X)} }

其中Omega^{-1}為殘差協方差矩陣的逆矩陣。

引入Omega^{-1}的意義可作如下分析。因為協方差矩陣為半正定矩陣,因此可對其進行特徵分解:

 Omega=U^TSigma U

其中U為正交矩陣,U^T為其轉置,Sigma為對角矩陣。

由此可得到Omega^{-1}的特徵分解:

 Omega^{-1}=U^TSigma^{-1} U

廣義最小二乘法的表達式可寫為:

min{f} = min{{(Y-eta*X)^TU^TSigma^{-1}U (Y-eta*X)} }

由此可看到,引入Omega^{-1}的意義在於通過正交矩陣U把殘差投影到一個新的線性空間,從而剔除其自相關性;同時Sigma^{-1}可理解為賦予殘差不同的權重(權重和殘差的方差成反比),從而降低了殘差異方差性的影響。

以上,和穩健回歸相比,廣義最小二乘法的優點在於最小二乘法目標函數的形式稍作調整,在降低殘差異方差性影響的同時,也使得一般的係數顯著性檢驗能夠繼續使用。廣義最小二乘法的主要缺點在於其運算量較大,在建模過程中必須先用最小二乘法建模,得到殘差的估計值,計算其經驗協方差矩陣,再用於廣義最小二乘法建模。

5. 殘差異方差性分析和處理總結

以上我們對於殘差異方差性的判斷,成因,處理方法進行了探討。需要強調的是,雖然以上介紹的穩健回歸和廣義最小二乘法能夠降低殘差異方差性對於參數估計的影響,但不經考慮使用這些方法,可能會掩蓋了數據本身的特徵(存在顯著的非線性相關,因變數存在自相關性等),或者建模及抽樣時出現的問題(混淆變數進入殘差中,抽樣不合理),從而使得線性模型未能準確提取數據特徵,也不具備準確預測的能力。

因此,總結來說,只有在建模時對於數據的採集方式,數據的特徵和各種建模方式的深入了解,才能保證我們對於殘差異方差性有一個準確的認識,得到的是一個合理的線性回歸模型。

推薦閱讀:

廣義線性模型(Generalized Linear Model)
求一條直線使得這條直線到給定點集距離的平方和最小。應該怎麼推導?
請問為何「E(XY)=E(X)E(Y)」或者「相關係數=0」等價於「變數之間沒有線性關係」?有沒有幾何解釋呢?
在進行 OLS 估計時,為了滿足 BLUE 條件,為什麼會有 X 取值要在重複抽樣時固定的前提?

TAG:宽客Quant | 线性回归 | 统计 |