抽樣分布篇之十一:抽樣分布的終極分布是什麼,你知道嗎?

這篇文章源於某個微信群里的一個問題,是關於F-檢驗的,在回答問題的時候突然冒出一個想法:這麼大的樣本量用正態近似應該怎麼算呢?我們在學習的時候老師都說過,抽樣分布在樣本量趨於無窮大的時候逼近正態分布。

為此我查閱了幾本《概率論與數理統計》的教科書,多數都沒有提及,所以我估計很多人並不知道。另外這個知識點也不是重點,即使有人學過,可能也沒有特別留意。當然關注抽樣分布的正態近似意義也不是很大,因此這篇小文就當做資料吧,有人想知道的時候可以來查查。

推導過程咱就沒必要談了,直接上結論。當樣本量很大時,三大抽樣分布趨於正態分布,但不一定是標準正態分布,這個是要注意的。

當自由度n非常大時,t分布漸趨N(0, n/(n-2)),而n/(n-2)趨於1,因此可以用N(0,1)也就是標準正態分布來近似。

當自由度n非常大時,卡方分布漸趨N(n, 2n)。

在分子和分母的自由度分別為mn且非常大時,F分布漸趨以下的正態分布

假設m=n且非常大時,上式可簡化為N(1,4/n)。

寫到這兒,文章可以結束了。

不對!還有個問題,自由度達到多少才可以很好地用正態來近似呢?

有人注意到了這個問題,防災技術學院的王福昌等就對此進行了研究,其論文《χ2分布、t分布和F分布的近似計算》發表在《防災科技學院學報》2008年3月第10卷第1期上,本文直接引用其結論。

選擇自由度5、10、20、50,對比t分布和正態分布的概率密度曲線如下圖:

可以看到,自由度為50時,兩個分布基本重合,如果再對比一下自由度為30的曲線,其重合程度也是可以接受的,這就是我們常說樣本量在30以上是大樣本的原因之一吧。

以SQRT(n/(n-2))作為標準差,分別取1、2、3倍標準差的點,計算其右側累積概率。對比如下表(論文中的表有錯誤,還是我自己來做吧。這樣明顯的錯誤編輯怎麼沒發現呢?唉……)。

註:正態近似的計算沒有採用論文中的多項式近似公式計算,因此計算結果略有偏差。

n為均值SQRT(2n)作為標準差,分別取1、2、3倍標準差的點,計算其右側累積概率。選擇自由度為20、50、100、200,對比曲線圖下圖:

量化的對比見下表:

採用同樣的方法,取m=nF分布正態近似的對比曲線如下圖:

量化的對比見下表:

由上面的對比分析可見,隨著樣本量的增加,t分布很快收斂於正態分布,而另外兩個分布收斂的速度則比較慢。這是由於t分布是對稱分布,且本身就是用於修正小樣本狀態下正態分布估計的差異的,因此t分布與正態分布關係比較密切就可以理解了。

另外兩種分布屬於偏態分布,具體來說是右偏分布,而且樣本量越小,其分布越偏,因此當樣本量增大時,這種偏態分布向對稱的正態分布的收斂就顯得比較慢了。

當然現在的軟體計算概率分布已經非常方便了,即使是EXCEL都可以很容易計算,因此沒有什麼必要再考慮採用正態近似了。

請關注我的微信公眾號:張老師漫談六西格瑪


推薦閱讀:

質量人都膜拜的「6σ」管理,到底有多厲害?
數據收集篇之七:測不準的幾種情形
抽樣分布篇之四:戈塞特和t-分布
六西格瑪的思維和方法是否適用於互聯網產品的產品質量或者服務質量?

TAG:六西格玛 | 精益六西格玛 | 质量管理 |