總是忘做檢驗的線性回歸(1)--內部檢驗
通常來說(反正我進了環境行當後)數據量比較小時,數據在沒有辦法做外部檢驗的情況下,至少要進行內部檢驗。
那麼問題來了,數據的內部檢驗和外部檢驗是什麼?要怎麼操作?有什麼用?別著急,聽我細說。在我們毒理學上目前有一種常用的計算毒理學方法,定量構效關係(QSAR)模型,這個模型最常用的也是線性回歸分析,但是由於它生態和機理意義很重要,因此2004 年提出了建立的QSARs模型需要遵循5個法則[1]:(1) 確定的終點;(2)明確的運算方法;(3)定義應用範圍;(4)適當驗證模型擬合優度穩健性和預測能力;(5)如果可能,進行機理解釋。一般認為,有數據條件的、嚴格的QSARs模型驗證程序需要包括內部驗證和外部驗證[2]
。
其實這在數學上看完全就是通的,可以借鑒到任何做線性回歸的領域。不要問我為什麼,因為這就是線性回歸的內部檢驗和外部檢驗再加上外部可預測區域,簡直完美。
這一篇我們先說內部檢驗。
內部檢驗分為兩大塊:擬合優度和穩健性檢驗。
1. 擬合優度
採用RSE、R2
、F統計量和調整過的R2四種統計量描述模型的擬合優度。
擁有最小RSE值和最大R2的模型被認為是最佳模型。2. 穩健性檢驗
採用交叉驗證法檢驗模型的穩健性。
採用數學軟體如R、MATLAB等完成上述檢驗。
下一篇我們說外部檢驗和最優預測空間的方法。
歡迎討論。
希望能夠幫助到大家。
參考文獻
1. OECD. Guidance document on the validation of (quantitative)structure-activity relationship (Q)SAR models[R]. Paris:Organisation forEconomic Co-operation and Development, 2007.
2. Puzyn T, Rasulev B, Gajewicz A, et al. Using nano-QSAR topredict the cytotoxicity of metal oxide nanoparticles[J]. Naturenanotechnology, 2011, 6(3): 175-178.
推薦閱讀: