經典比較篇之十:要收集多少數據才能做有效比較?
在《α風險 vs. β風險》一文里,我提到「在檢驗差異一定,且α風險一定的條件下,只要樣本量足夠大,我們肯定能夠拒絕原假設,這也是我們不說接受原假設的原因。」
nn現在問題來了,究竟樣本量要多大才合適呢?樣本量小了,顯然可信性不高;但樣本量太大也不行,數據收集的成本太高。但總是會有一個恰當的樣本量的。
nn本文只討論均值和比率比較,具體包括單樣本t、雙樣本t、單比率、雙比率,方差比較就不涉及了。方差分析的樣本量估計在寫到方差分析的時候再考慮。
nn在均值比較中,樣本量跟什麼有關呢?顯然與實際差異δ、σ(或S)、α、功效1-β有關,當然也與分布有關,本文只考慮t分布的情況。
nn我們可以直觀判斷:
nn
δ越大,所需樣本量越小,因為如果差異大,我們只需要比較少的證據就可以做出肯定的判斷;
nnσ越大,所需樣本量越大,這好理解,需要更多的數據來把均值的分布變得更瘦,以保證檢驗的功效,這是中心極限定理在起作用;
nnα越大,所需樣本量越小,因為拒絕的區域擴大了;
nn功效越大,則需要的樣本量就越大,因為功效大意味著β要小,根據中心極限定理,在其它條件一定時,樣本量越大,均值的分布就越瘦,就使得β越小。
nn如果還不明白,請回頭去看看《α風險 vs. β風險》。
nn下面我們就來看看這些因素是如何影響樣本量的估算的。
nn1.單樣本t檢驗的樣本量估算
nn以單邊的檢驗為例(大於和小於結果是一樣的),先祭出一張圖。
我們知道,t檢驗要先建立統計量,即下式:
用實際均值μ代替樣本均值,從上面的圖上可以很直觀地看到:
由上式可以導出:
現在問題來了,我還沒有開始抽樣呢,怎麼可能知道δ和S是多少呢?這沒辦法,一是看過去的經驗,二是可以先少量抽一點樣估計一下。當然估算樣本量還有一個作用,就是檢驗一下已經完成的比較分析樣本量是否足夠。
當然還有一個更大的問題,樣本量未知時,t值是無法計算的。解決的辦法就是用先用正態分布的z值來代替t值算出一個n,然後用n-1作為自由度,帶入上面的公式中。具體的計算方法見下式:
通常α和功效1-β分別取0.05和0.9,這樣計算出的z值分別為1.645和1.282。如果已知δ=0.5,S=0.5,根據公式計算出的最小樣本量為n=8.56,取整數為9。將自由度9-1=8帶入上面用t分布計算的公式中得n=10.6,取整為11。下一步可以繼續把11-1=10作為自由度帶入公式中,直到計算出的樣本量不變為止,一般再算一次就可以了。本例通過這種迭代後最終確定為n=11。
如果計算出的樣本量較大,t分布與正態分布的差異就比較小了,兩個公式估算出的結果沒有多少差異。
對於雙邊檢驗,其實很簡單,把公式中的α改成α/2就行了。用上面的例子可以算出n=13。
2. 雙樣本t檢驗的樣本量估算
雙樣本t檢驗的樣本量計算方法與單樣本類似,直接給出公式。對於樣本量相同單邊檢驗:
雙邊檢驗要將α改成α/2。
沿用上一個例子,通過迭代計算,單邊檢驗時,n=18,總樣本量為36。
看到這裡,你可能會有一個疑問,這個估算公式中是假設方差相等的,那如果方差不相等怎麼辦?通常我們在做設計時是不會假設方差不相等的,如果實際收集到的數據確實方差不等,再考慮做一些修正。畢竟我們估算樣本量的目的是提高檢驗的精度,提高檢驗的功效,所以在估算時要稍保守一些。
另一個問題,F檢驗顯示方差沒有顯著差異,但從數據上看兩個方差還是有一些差的,是不是要計算合併方差?出於保守穩妥的考慮,建議估算時用那個大一點的方差,這樣估算出的樣本量要大一些。當然你可以再用小的方差來估算一下,看看兩次估算的樣本量差異有多大,然後適當做一些折中調整。
樣本量的估算只是在具體行動之前提供一些參考,具體應該收集多少數據還受到很多實際條件的影響,如成本、時間等,在醫學上還會受到志願者徵集方面的限制。
如果樣本量無法保持一致,則需要對公式進行修正。設兩樣本的樣本量佔總樣本的比例為q1和q2,其關係如下式:
如果q1=q2=0.5,則兩組樣本量相同。樣本量估算公式改為
按上面的公式計算出總樣本量,然後乘以各自的比例就得出各自的樣本量。
3. 單比率檢驗的樣本量估算
根據中心極限定理,比率檢驗通常採用大樣本的正態近似,比率的方差為:
但與連續數據不同的是,原假設和備擇假設各有其方差,兩者是不同的,原假設的方差為
而備擇假設的方差為
在這種情況下,計算α值需要用原假設的方差,而計算β值需要用備擇假設的方差。
通常用樣本的比率p來代替總體的比率π,因此單邊檢驗樣本量估算公式可寫成:
其中:δ為實際比率與目標比率(原假設)之差。
設p0=0.3,p1=0.5,代入公式,得每組的最小樣本量為49。
同樣,雙邊檢驗要將α改成α/2。
4. 雙比率檢驗的樣本量估算
如果兩組樣本量相等,與單比率類似,原假設方差用合併比率來計算,而備擇假設方差是兩個比率的合併方差。即原假設
其中
則單側檢驗每組所需的樣本量可由下式估算:
式中δ為兩比率之差。
設p1=0.3,p2=0.5,代入公式,算得每組最小樣本量為101。
雙側檢驗把上式的α改成α/2。
如果兩組樣本量不同,則可以預先定義兩個樣本量的比值k,n2=k*n1,於是原假設的合併比率變成:
單側檢驗每組所需的樣本量估算變成:
設p1=0.3,p2=0.5,k=0.8,代入公式,算得n1=114,n2 =91。
同樣,雙邊檢驗要將α改成α/2。
本文著重講述了最基本檢驗方法的樣本估算,這種估算的目的是在儘可能保證檢驗有較高的功效。如果拒絕原假設的情況下,檢驗的功效過低,則假陰性的可能性就很大,因此這也不是很好的檢驗。通常我們在做六西格瑪項目或日常的質量管理過程中,通常會忽略檢驗的功效,希望本文能起到一點提醒的作用。
請關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀: