總是忘做檢驗的線性回歸（1）--內部檢驗

04-15

線性回歸是我們最常使用的數據分析方法。可是大家往往都只做一半…

實際上完整的線性回歸不僅包括數據的擬合，還要包括擬合後數據的檢驗。

數據的檢驗分為內部和外部檢驗。

通常來說（反正我進了環境行當後）數據量比較小時，數據在沒有辦法做外部檢驗的情況下，至少要進行內部檢驗。

那麼問題來了，數據的內部檢驗和外部檢驗是什麼？要怎麼操作？有什麼用？

別著急，聽我細說。

在我們毒理學上目前有一種常用的計算毒理學方法，定量構效關係（QSAR）模型，這個模型最常用的也是線性回歸分析，但是由於它生態和機理意義很重要，因此2004 年提出了建立的QSARs模型需要遵循5個法則

[1]：(1) 確定的終點；(2)明確的運算方法；(3)定義應用範圍；(4)適當驗證模型擬合優度穩健性和預測能力；(5)如果可能，進行機理解釋。一般認為，有數據條件的、嚴格的QSARs模型驗證程序需要包括內部驗證和外部驗證[2]

。

其實這在數學上看完全就是通的，可以借鑒到任何做線性回歸的領域。不要問我為什麼，因為這就是線性回歸的內部檢驗和外部檢驗再加上外部可預測區域，簡直完美。

這一篇我們先說內部檢驗。

內部檢驗分為兩大塊：擬合優度和穩健性檢驗。

1. 擬合優度

採用RSE、R2

、F統計量和調整過的R2

四種統計量描述模型的擬合優度。

擁有最小RSE值和最大R2的模型被認為是最佳模型。

2. 穩健性檢驗

採用交叉驗證法檢驗模型的穩健性。

採用數學軟體如R、MATLAB等完成上述檢驗。

下一篇我們說外部檢驗和最優預測空間的方法。

歡迎討論。

希望能夠幫助到大家。

參考文獻

1. OECD. Guidance document on the validation of (quantitative)structure-activity relationship (Q)SAR models[R]. Paris:Organisation forEconomic Co-operation and Development, 2007.

2. Puzyn T, Rasulev B, Gajewicz A, et al. Using nano-QSAR topredict the cytotoxicity of metal oxide nanoparticles[J]. Naturenanotechnology, 2011, 6(3): 175-178.