最低樣本量的問題?
最近一次統計學考試,問「某項調查(沒說是什麼研究)中的最低樣本量需要多少(即最低樣本數要多少)?」
答案是30,我不以為然,懷疑答案的嚴謹性。請問這個問題有沒有絕對量解答。
如果籠統的說最低樣本量的話,這是沒有確定數字的,應該是在合理的sampling design的前提下以及成本下越多越好。
如果給了具體的hull hypothesis,alternative hypothesis,要control 的 type-1 error rate以及想要達到的最小statistical power的話,是可以定量的算出一個最低樣本量,也就是sample size的。不過你的題目好像沒給這些條件?------------------------------------------------------------------------對於 @Kate Zhou 的回答,我做一些補充,以免題主理解有偏差。1. 30這個數字作為經驗法則一般只在入門統計教科書里才會提,因為一般初學者不太容易理解統計學裡各種收斂的性質,比如在「大樣本」這個概念中牽扯到的依分布收斂,依概率收斂以及幾乎一定收斂等。實際操作中,30這個數字一般不納入考慮,都是具體問題具體分析,一刀切地判斷樣本量是否足夠很可能導致一些錯誤的結論。
2.這個公式只是做proportion test的時候才有效,如果檢驗的是均值,或者用別的方法(不同的模型假設),比如線性回歸等,樣本量計算公式都是不一樣的。如果模型複雜,也可以通過simulation的方法來確定最小樣本量。
3.公式中的E叫做margin of error,可以粗略地解釋為confidence interval的長度的一半。
4.t分布與正態分布在假設檢驗這方面的區別並不是小樣本與大樣本的區別,這牽扯到了具體模型假設的內容。如果假設數據本身服從正態分布,且方差未知,那麼計算而得的統計量服從t分布,即使是大樣本,也是服從t分布,只不過這個時候t分布的自由度很大,t分布就接近正態分布了。而如果不假設數據本身是正態分布,且方差未知,那麼就只能使用大樣本理論(large sample theory)中的一些定理(中心極限定理和Slutsky定理),來證明,這個統計量漸進(asymptotically)服從正態分布。Sample Size Calculator 樣本量大小計算器,可以計算出在調研中可以準確反映目標群體的樣本量大小。
Sample Size Calculator
在使用該計算器之前,需要了解兩個概念。confidence
interval (置信區間)和 confidence
level(置信水平)。
置信區間也成為誤差區間,指在報告中表示的正負誤差為多少。比如,當47%的樣本選擇某選項,且誤差區間為4時,那麼你可以確信地說在樣本所代表的群體中有43%(47-4)到51%(47+4)的人會選擇該選項。
置信水平表示對結果的確定程度,以百分比形式呈現,表示了在置信區間範圍內,總體中有多少人會選擇某個選項。一般研究會定置信水平為95%,即有95%的確定程度。
當把置信區間(誤差區間)和置信水平放在一起時,可以表述為有95%可以確定總體中有43%-51%的人會選擇該選項。置信區間越大,置信水平也就越大,結果就越有把握。
影響置信區間的因素
Sample
Size樣本量大小
樣本量越大,越能反應總體特徵。當給定置信水平時,樣本量越大,誤差區間越小,然而這個關係並不是線性的。樣本量增大兩倍,並不一定能將誤差區間減少一半。
Percentage百分率
精確性受樣本選擇選項的百分比影響。如果99%的樣本選擇「是」,不管樣本量多少,得出該結果犯錯誤的概率極小。然而,如果是51%選擇「是」,「49%
」選擇「否」,那麼犯錯誤的概率就增大了。
當確定所有條件下的樣本量大小,並給定置信水平時,還需要使用最壞情況下的百分比即50%。
Population
Size群體大小
該樣本量計算程序忽略了當群體大小未知或大群體量的情況,群體大小只有在群體量相對較小時才對樣本量有所影響。
樣本量的經驗判斷
當總體足夠大時,樣本量1000+已足夠。
30是個經驗法則,統計教科書里都這麼說,認為&>30的就屬於大樣本,就可以應用一些統計分布的結論。但是具體到某個研究要多少樣本,就要根據誤差和置信度去計算了。具體計算公式是:n=1.96^2*P(1-P)/E^2. 其中E是誤差,P是估計的總體比例,1.96是置信度為95%的標準值
---------補充----------
感謝 @Detian Deng 補充!最近在做一些人口屬性方面的統計工作,主要涉及到的是性別比例,對統計學上的相關知識也是現學現用,所以也想探討一些問題:
1. 在大樣本抽樣中,樣本比例p的抽樣分布可以按照正態分布逼近。在我的之前的回答中,n=1.96^2*P(1-P)/E^2 其實只是有放回抽樣情況下對樣本量的計算,因為此時樣本比例p服從期望E(p)=P,方差V(p)=P(1-P)/n 的正態分布,根據區間估計,有E=1.96*V(p)^2,以此可以求得n。而在無放回抽樣中,樣本比例p的方差是V(p)=(N-n/N-1)P(1-P)/n,同樣的求解方式,樣本量n=1.96^2*P(1-P)/(E^2+1.96^2*P(1-P)/N),但此時,樣本量n的大小就與總體量N有關了。是這樣吧?
2. 無論是區間估計,還是求樣本量,中間都用到了總體比例P。但是明明求這個總體比例P是我們抽樣的目的,所以在我們求n和置信區間時,涉及到P我們往往都用一個以往統計的總體比例值作為參考。因此,從這些公式中可以發現,我們對總體比例的估計,是根據1)以往統計的總體比例;2)抽樣樣本的比例。是這樣吧?嚴謹來說的話,最低樣本量沒有絕對量來解答。要看抽取的樣本能不能代替總體。
推薦閱讀:
※有哪些概率論的入門書籍?
※馬雲的成功有哪些偶然性?
※如果未來生女孩的概率是95%這個世界會怎樣?
※概率是什麼?Sigma algebra, Borel field 是什麼意思,意義何在?
※拿10元去賭,兩種玩法,一種每次賭十塊,另一種每次賭一塊,直到輸光或贏到100才走。哪種輸光概率大?