R軟體問題,「學生化殘差與槓桿值圖(Residuals vs Leverage)」如何分析?
01-22
來自R軟體殘差模擬:裡面的兩條紅線0.5,1是什麼意思?還有R與e-views做出來的結果差別很大,差分之後的P值完全不同。。。求賜教圖中涉及的指標統計意義是什麼?分析判斷標準是什麼?能否用R對各個指標逐一分析?
這個圖裡面顯示了三個指標,都是用來衡量異常點的指標,分別是:桿桿值,標準化殘差,考克斯距離,最後一個指標是用等高線形式顯示出來的,在線之外的表示是異常點。
(待更新)
一.作用這個「殘差與槓桿圖」可以鑒別出離群點,高槓桿值點和強影響點。下面細說這三個指標的定義和統計意義,以及R求解。二.定義
離群點:粗糙的判斷標準是標準化殘差大於2或者小於-2,即看各個點在y軸方向上偏離0點的程度即可。也可以通過Q-Q圖判斷。高槓桿值點:即與其他預測變數有關的離群點。通過帽子統計量判斷。帽子統計量的計算涉及如下幾個公式和定義。1.hat-value定義.其中,的定義如下
這裡,我覺得可以將理解成一種權重,根據的定義,當相對較大時,則說明第個觀測值對第個擬合值有較大的影響。2.H矩陣(Hat Matrix)的性質及槓桿值定義- 冪等性
- 對稱性
- 從而有槓桿值(leverage score)的定義:(第三個等號由冪等性得到).
- 利用該定義,容易推出.它可以用來測定對所有擬合值的槓桿。
- 另外,它的均值為(是判斷高槓桿值的標準).
- 從一元線性回歸中的表達式來對均值驗證一番:.
- 高槓桿值點判斷標準:帽子值大於帽子均值的2或3倍以上。
3.槓桿值跟學生化殘差的關係:
- 利用以上性質可以得到殘差方差
- 從而,得到學生化殘差(studentized residual)
由學生化殘差與槓桿值的關係,可以發現槓桿值對學生化殘差有放大的效應(或許這也是「槓桿」這一名名稱的由來)。分布在「殘差與槓桿圖」右上方和右下方的離群點尤其值得關注。因為這些點對「模型偏離真實情況」存在很強的作用(使模型偏離的罪魁禍首,它們將模型拉扯到了其他觀測點)。這些點即是後面要說到的強影響點。
強影響點:強影響點是對模型的參數估計值有些比例失衡的點(即移除某一個強影響點,則會對使模型的參數發生很大的變動,這樣的點,使得模型的穩健性大打折扣)。涉及如下定義。
1.Cook"s Distance.- 第一部分測量了偏離程度,第二部分測量了槓桿值。
- 判斷強影響點的標準:Cook"s Distance大於.
- 圖中的兩條紅線0.5和1,我覺得應該起到的是一個類似置信區間的判斷標準的作用。
三.用R中的函數分別求值,繪圖
可能會有理解錯誤,歡迎指正:)
-------------------部分性質詳細推導可以參考:機器學習筆記-Linear RegressionLeverage (statistics)Cook"s distance識別方法我當時學習R的時候,記得這幾個圖,是對應檢驗做回歸分析的假設前提的。希望幫到題主!
推薦閱讀:
※數據分析工具類軟體,好用的有哪些?
※強化學習是什麼?
※在生活中,你有沒有發現一些現象,可以作為表現經濟形勢的標誌和指標?
※如何通過分析數據查找可能的醫保欺詐記錄?