怎樣判斷一個分布的正態性?
對於這類問題,我比較同意 Yihui Xie | 謝益輝 大神的觀點,引用如下:
根據數據檢驗總體的分布在我看來幾乎沒有什麼用處,不過歷史上已經出現了無數種關於分布的檢驗,例如 Chi-square 檢驗、KS 檢驗、Shapiro 正態性檢驗等等。我覺得檢驗沒有實際用處的原因有二:
一、若拒絕零假設,即數據不服從某種分布,那麼往往會使得下面要做的工作的前提假設不成立——這顯然會很慘;
二、若不拒絕零假設——這幾乎是無用的結論,因為不拒絕這個零假設,不代表能拒絕其它零假設,因此你仍然不知道數據是什麼分布——這顯然更慘;
所以我們要把自己的眼睛捂上,假裝看不見,像數理統計學家那樣,我們假定 X 服從帕累托分布,然後咋地咋地。
…
附 2:還要補充說明一點,關於分布的假設檢驗中,零假設往往是確定的分布,而不是帶有未知參數的籠統的分布,即分布的參數都是確定的值。只有少數幾個關於正態分布的檢驗除外,因為它們有漸近性質。因此,提問時最好不要抽象地問怎麼檢驗樣本是否是廣義極值分布。
(cf. 統計分布的檢驗)
(關於假設檢驗,我的另一個回答:假設檢驗中,為何要避免第一類錯誤,而不避免第二類錯誤? - 知乎用戶的回答。)
有很多種辦法,以下按個人感覺的常用程度排序,各統計軟體都有內置命令。
1 Kolmogorov-Smirnov檢驗,也叫K-S檢驗,主要是用來檢驗兩個隨機變數分布是否相等,當然也可以用來檢驗正態性。如果待檢驗正態分布均值、方差未知需要做一點修正,一般也可以用統計軟體完成。
相關資料:Kolmogorova€「Smirnov test2 Jarque-Bera檢驗,針對正態性本身的檢驗,主要是利用Pearson分布族的性質,針對偏度、峰度構造統計量,看兩者和0、3的差距。這一檢驗有很多變種。
相關資料:https://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test3 Shapiro-Wilk檢驗,針對正態性本身的檢驗,主要是構造樣本分布的順序統計量,然後和正態分布的對應指標做比較。這一檢驗也很常用。
相關資料:Shapiroa€「Wilk test4 Anderson-Darling檢驗,主要用來檢驗給定樣本是否來自特定分布,原理是假定隨機變數X分布F已知,那麼F(X)服從均勻分布,以此可以檢驗正態性。
相關資料:Andersona€「Darling test5 Ryan-Joiner檢驗,這個檢驗的原理我不是很清楚,也沒有找到特別好的資料。文獻顯示它似乎和Shapiro-Wilk檢驗非常接近。
6 Kuiper檢驗,主要用來檢驗給定樣本是否來自特定分布,原理是利用樣本中極值構造統計量,然後和待檢驗分布的尾部做比較。
相關資料:Kuiper"s test7 QQ圖,其實感覺這個才是最常用的,用眼睛比一比兩條線就好了......
相關資料:QQ圖法檢驗正態分布估計方法還不止這些,期待補充。自己最常用的一般就是1、2還有7。可以先在R里畫個qq-plot比較比較,再決定要不要用其他方法。這裡有個教程以及示例代碼:Exploratory Data Analysis: Quantile-Quantile Plots for New Yorka€?s Ozone Pollution Data
不能判斷。只能判斷不是正態分布。
高票說了很多,我再補充個最近學的,附帶我的分析過程~一,一般參數比較多的話可以在做描述性分析的時候,可以先做直方圖粗略看看是否符合正態性。二,對有可能符合正態分布的數據做qq圖,還是粗略的分析。三,對經過前兩步篩選後剩下的參數進行檢驗,檢驗有很多,比如萬能的卡方,shapiro-wilk等高票提及的檢驗,還有shapiro-francia檢驗。不嫌麻煩或者有必須檢驗正態性的參數可以直接第三步。才疏學淺,大概了解s-f檢驗是s-w檢驗修正版(?)。目前知道R的nortest包有很多正態性檢驗。歡迎指正。
推薦閱讀:
※試驗設計Design of Experiment的精髓是什麼?若能結合實例來說明更好。
※機器學習中如何做單元測試(Unit Test)來檢測模型穩定性?
※怎麼畫出含最大最小平均值的圖,即帶標準偏差的曲線圖?
※深度為n的滿二叉樹中選擇k個點,不能有直系親屬關係,共有多少種選法?
※求推薦分位數回歸的基礎書籍或文獻?