R軟體問題,「學生化殘差與槓桿值圖(Residuals vs Leverage)」如何分析?

來自R軟體殘差模擬:裡面的兩條紅線0.5,1是什麼意思?還有R與e-views做出來的結果差別很大,差分之後的P值完全不同。。。求賜教

圖中涉及的指標統計意義是什麼?分析判斷標準是什麼?能否用R對各個指標逐一分析?


這個圖裡面顯示了三個指標,都是用來衡量異常點的指標,分別是:桿桿值,標準化殘差,考克斯距離,最後一個指標是用等高線形式顯示出來的,在線之外的表示是異常點。


(待更新)

一.作用

這個「殘差與槓桿圖」可以鑒別出離群點,高槓桿值點和強影響點。下面細說這三個指標的定義和統計意義,以及R求解。

二.定義

離群點:粗糙的判斷標準是標準化殘差大於2或者小於-2,即看各個點在y軸方向上偏離0點的程度即可。也可以通過Q-Q圖判斷。

高槓桿值點:即與其他預測變數有關的離群點。通過帽子統計量判斷。帽子統計量的計算涉及如下幾個公式和定義。

1.hat-value定義.

hat{Y_i} = h_{i1}Y_1+h_{i2}Y_2+...+h_{in}Y_n=sum_{j = 1}^{n}h_{ij}Y_j

其中,h_{ij}的定義如下

egin{equation}
 egin{array}{rcl}
hat{y}  =  Xb \
    = X(X^{T}X)^{-1}X^{T}y \
   =Hy \
	herefore H = X(X^{T}X)^{-1}X^{T}

end{array}
end{equation}

這裡,我覺得可以將h_{ij}理解成一種權重,根據h_{ij}的定義,當h_{ij}相對較大時,則說明第j個觀測值對第i個擬合值有較大的影響。

2.H矩陣(Hat Matrix)的性質及槓桿值定義

  • 冪等性H = H^2
  • 對稱性H = H^T
  • 從而有槓桿值(leverage score)的定義:h_i =h_{ii} =frac{partial{hat{y_{i}}}}{partial y_i}=mathbf{{h_i}^Th_i}=sum_{j =1}^{n}h_{ij}^2(第三個等號由冪等性得到).
  • 利用該定義,容易推出0leq h_{ii} leq 1 .它可以用來測定Y_i對所有擬合值的槓桿。
  • 另外,它的均值為ar{h} = (k+1)/n(是判斷高槓桿值的標準).
  • 從一元線性回歸中h_i的表達式來對均值驗證一番:h_i = frac{1}{n}+frac{(X_i-ar{X})^2}{sum_{j=1}^{n}(X_j-ar{X})^2}.
  • 高槓桿值點判斷標準:帽子值大於帽子均值的2或3倍以上。

3.槓桿值跟學生化殘差的關係:

  • 利用以上性質可以得到殘差方差

Var(e) = Var((I-H)Y) = sigma^2(I-H) \
	herefore Var(e_i) = (1 - h_{ii})sigma^2

  • 從而,得到學生化殘差(studentized residual)

t_i = frac{e_i}{hat{sigma} sqrt{1-h_{ii}}}

由學生化殘差與槓桿值的關係,可以發現槓桿值對學生化殘差有放大的效應(或許這也是「槓桿」這一名名稱的由來)。分布在「殘差與槓桿圖」右上方和右下方的離群點尤其值得關注。因為這些點對「模型偏離真實情況」存在很強的作用(使模型偏離的罪魁禍首,它們將模型拉扯到了其他觀測點)。這些點即是後面要說到的強影響點。

強影響點:強影響點是對模型的參數估計值有些比例失衡的點(即移除某一個強影響點,則會對使模型的參數發生很大的變動,這樣的點,使得模型的穩健性大打折扣)。涉及如下定義。

1.Cook"s Distance.

D_i= frac{t_{i}^2}{k+1}	imes frac{h_i}{1-h_i}

  • 第一部分測量了偏離程度,第二部分測量了槓桿值。

  • 判斷強影響點的標準:Cook"s Distance大於4/(n-k-1).
  • 圖中的兩條紅線0.5和1,我覺得應該起到的是一個類似置信區間的判斷標準的作用。

三.用R中的函數分別求值,繪圖

可能會有理解錯誤,歡迎指正:)

-------------------

部分性質詳細推導可以參考:

機器學習筆記-Linear Regression

Leverage (statistics)

Cook"s distance

識別方法


我當時學習R的時候,記得這幾個圖,是對應檢驗做回歸分析的假設前提的。

希望幫到題主!


推薦閱讀:

數據分析工具類軟體,好用的有哪些?
強化學習是什麼?
在生活中,你有沒有發現一些現象,可以作為表現經濟形勢的標誌和指標?
如何通過分析數據查找可能的醫保欺詐記錄?

TAG:數據分析 | R編程語言 | 圖表 |