總是忘做檢驗的線性回歸(1)--內部檢驗

線性回歸是我們最常使用的數據分析方法。可是大家往往都只做一半…

實際上完整的線性回歸不僅包括數據的擬合,還要包括擬合後數據的檢驗。

數據的檢驗分為內部和外部檢驗。

通常來說(反正我進了環境行當後)數據量比較小時,數據在沒有辦法做外部檢驗的情況下,至少要進行內部檢驗。

那麼問題來了,數據的內部檢驗和外部檢驗是什麼?要怎麼操作?有什麼用?

別著急,聽我細說。

在我們毒理學上目前有一種常用的計算毒理學方法,定量構效關係(QSAR)模型,這個模型最常用的也是線性回歸分析,但是由於它生態和機理意義很重要,因此2004 年提出了建立的QSARs模型需要遵循5個法則

[1]:(1) 確定的終點;(2)明確的運算方法;(3)定義應用範圍;(4)適當驗證模型擬合優度穩健性和預測能力;(5)如果可能,進行機理解釋。一般認為,有數據條件的、嚴格的QSARs模型驗證程序需要包括內部驗證和外部驗證[2]

其實這在數學上看完全就是通的,可以借鑒到任何做線性回歸的領域。不要問我為什麼,因為這就是線性回歸的內部檢驗和外部檢驗再加上外部可預測區域,簡直完美。

這一篇我們先說內部檢驗

內部檢驗分為兩大塊:擬合優度和穩健性檢驗

1. 擬合優度

採用RSE、R2

、F統計量和調整過的R2

四種統計量描述模型的擬合優度。

擁有最小RSE值和最大R2的模型被認為是最佳模型。

2. 穩健性檢驗

採用交叉驗證法檢驗模型的穩健性。

採用數學軟體如R、MATLAB等完成上述檢驗。

下一篇我們說外部檢驗和最優預測空間的方法。

歡迎討論。

希望能夠幫助到大家。

參考文獻

1. OECD. Guidance document on the validation of (quantitative)structure-activity relationship (Q)SAR models[R]. Paris:Organisation forEconomic Co-operation and Development, 2007.

2. Puzyn T, Rasulev B, Gajewicz A, et al. Using nano-QSAR topredict the cytotoxicity of metal oxide nanoparticles[J]. Naturenanotechnology, 2011, 6(3): 175-178.


推薦閱讀:

總是忘做檢驗的線性回歸(2)--外部檢驗
讀懂回歸分析結果-SPSS為例

TAG:回歸分析 | 數據分析 |