為什麼 30 個樣本就稱為「大樣本」,而不是 40 或 50?

數理統計書上這麼寫的


這是一個流傳甚廣的謬誤,題主看書的注意一下上下文。
我以前讀書的時候也疑惑過,最後揣測提30個樣本是大樣本,是從t分布的角度說。

如圖,t分布是一簇分布,當自由度越小,圖形越平。當自由度趨近正無窮,則t分布趨近正態分布。一般而言,n=30的時候,已經很接近正態分布了。所以一般認為30就是大樣本。此時可以利用正態分布的一些特徵來推斷總體參數。

如圖,t分布是一簇分布,當自由度越小,圖形越平。當自由度趨近正無窮,則t分布趨近正態分布。一般而言,n=30的時候,已經很接近正態分布了。所以一般認為30就是大樣本。此時可以利用正態分布的一些特徵來推斷總體參數。

但是拿30作為大樣本是不科學的,具體請參照 @慧航 的答案。在計量經濟學裡,很難有一定的大樣本標準,跟你研究的問題有關。

t分布和費雪的故事,你可以搜一下,很好玩。


謝邀。我保證不打死寫書的。
大樣本理論是什麼?n
ightarrow infty,也就是樣本量趨向於無窮的時候。30approx infty?
究竟多少數據是大樣本?這個真的很難說。
首先,你有多少個參數需要估計?我有29個參數,你只有30個樣本,這也能叫大樣本?實際情況是當你有29個參數的時候,你會過度擬合數據,而且得到的參數估計偏差很大。
其次,你用的什麼統計方法?我猜數理統計書上這麼寫僅僅是針對特殊情況的特殊模型,暗含特殊假設吧?不同統計方法的收斂速度可能差別很大的,很多情況下可能根本不是sqrt{n}-consistent 的估計量。比如我做一個最簡單的一元非參數回歸,收斂速度可能是sqrt{n^{4/5}} ,收斂速度可以看看圖:

最下面,也就是收斂速度最快的是sqrt{n},接下來分別是收斂速度可能是sqrt{n^{4/5}} sqrt{n^{4/6}} 。。。分別代表著一維、二維、三維的非參數估計的收斂速度。你看看在n=30這個點上差別有多大。
最後,就算你的數據是服從正態的,而且就是為了計算一個均值,我們來看,sqrt{n}left( ar{x} -mu 
ight)  sim Nleft( 0,sigma^2
ight) ,你是不是還要考慮數據的方差有多大啦?如果數據方差很大,為了達到某個精度,恐怕幾百個樣本都不夠。當然,這還是數據服從正態所以你有精確的小樣本特性的時候,非正態30個樣本?呵呵了。
特別現在都大數據時代了,數據量還是問題?數據量不到100我是絕對不敢拿出來的,更何況我們做東西動輒幾千幾萬的樣本。
這個30有沒有道理?我猜是沒有道理的。
===========================
回應一下 @李二公子
t分布是一個很好的想法,但是這裡並不能迴避一個很嚴重的問題。
什麼問題呢?首先我們得先來談一下為什麼我們需要大樣本理論。因為在很多情況下,有限樣本的統計量的分布我們是不知道的。正態分布是一個特例,在正態分布的情況下,我們可以得到樣本均值的精確分布(得益於正態分布相加還是正態分布),進而得到假設檢驗時候的t分布。
但是!很多情況下,數據並不是正態分布的,比如,是卡方分布,那麼小樣本情況下我們很難得到其樣本均值的精確分布,所以我們需要大樣本理論,因為如果樣本足夠大,那麼其均值漸進的服從正態分布(z值)。
這裡你要注意,精確的t分布是一定要假設正態分布的,否則你上面不是正態,下邊不是卡方,你還不能證明上面和下面獨立,怎麼能證明出是t分布呢?
而即使是在大樣本下,大家發現做假設檢驗的時候對自由度進行懲罰一般來說檢驗統計量表現的更好,所以大家大樣本條件下還是會用t分布。
所以這裡個人感覺用t分布來說明30是大樣本有點邏輯上的問題。本來大樣本提出來是為了解決小樣本非正態總體的情況下,精確分布不知道的問題,而t分布是在假設了正態之後才能精確的得出,所以兩者前提條件都不一樣,這樣很難說服別人。
這裡給大家舉個栗子。我從chi^2left( 3 
ight) 抽出30個樣本出來,計算均值,重複這個過程1000次,這樣我就得到了這些均值的分布:

其中紅色的是t(30)的概率密度函數,紅色的中間夾著一條藍色的線,是樣本量為30的正態均值的分布,可見的確跟t分布是一樣的。但是大家看下面那條藍色的線,是樣本量為30的卡方分布的均值的分布,是不是差別很大?你還敢說在非正態的條件下,30是大樣本么?附Matlab Code:

其中紅色的是t(30)的概率密度函數,紅色的中間夾著一條藍色的線,是樣本量為30的正態均值的分布,可見的確跟t分布是一樣的。但是大家看下面那條藍色的線,是樣本量為30的卡方分布的均值的分布,是不是差別很大?你還敢說在非正態的條件下,30是大樣本么?附Matlab Code:

clear
N=1000;
ave=zeros(N,1);
for i=1:N
rn=randn(30,3);
rn=sum(rn.^2,2);
ave(i)=(mean(rn)-3)/std(rn)*sqrt(30);
end
ksdensity(ave)
x=-5:0.01:5;
t=tpdf(x,30);
hold on
plot(x,t,"r*");
hold off
ave=zeros(N,1);
for i=1:N
rn=randn(30,1);
ave(i)=mean(rn)*sqrt(30);
end
hold on
ksdensity(ave);
hold off


來個初學者能看懂的:這是一個經驗法則(Rule of Thumb),對於估計一個均值來說是夠了,多個參數肯定不行(參見慧航),選30就是因為t和z的差別很小,具體參見李二公子。
rule of thumb


可以這樣看這個問題。

這種 Rule of thumb,通常都是幾十年前誕生的。那時候沒有什麼計算機,絕大部分計算是靠查表手算。所以呢,能近早用高斯分布近似得到可接受的結果就會選擇近似,如果要 n 很大才能用高斯近似,那搞統計的人會辛苦很多的。

但這些規則到現在大多不適用了。因為無論是計算的能力,還是數據收集處理的能力,模型的複雜度,都今非昔比了。


中心極限定理吧,CPK最小樣本32

根據中心極限定理,任何一種連續型隨機變數,不管它本身的圖形如何,只要它的樣本個數超過30個,它的均值就可以視為服從正態分布.
抽樣統計學原理概要
我們從一個總數為N的群體中選取n個樣本,並估計參數μ和σ2,即樣本容量和方差。
可以用這兩個參數來描述分布狀態,尤其是正態分布。
隨機性確保了群體中的每個單元都有均等的入選機會,它排除了選擇的偏差。估計值ā和s2, 即樣本的平均值和方差都有它們各自的分布形式,我們常假定正態分布是最佳分布形式。 可以用這種分布來估計z的概率和正態偏差(即用t分布估計t的概率)或者形成確定樣本數的z、t分布表。
有許多種隨機取樣方法,最簡單的是對隨機性沒有限制的簡單隨機取樣。
例如,如果一個取樣區域的一部分是斜坡,而另一部分是平地,那麼,這兩個部分應該分別進行取樣分析和解釋。
我們可以對隨機性附加些限定條件,如在分層隨機取樣中我們希望去除層次之間的變異, 其限制條件是在每一個層次中都分別隨機性處理。在簡單隨機取樣中,樣本平均值總是群體平均值的無偏估計值。
我們談到的「最優」估計值是指它的取樣方差最小。 其結果是樣本平均值和樣本方差都能達到最優等。
人們經常想到的是樣本的大小。如果樣本的採集方法合適,我們知道,取樣分數n/N小, 它的值就很難保證估計的精確度,其有效精確度依賴於樣本數絕對值。這也就意味著在估計最佳樣本數時, 有必要考慮絕對樣本數,而不是樣本百分數。在確定樣本數的公式中,經常用n而不用n/N。

從樣本數和精確度考慮,樣本平均值ā的精確度隨樣本數的提高而提高。
在不考慮抽樣群體的總體形狀時,樣本均值ā隨樣本數的增大而更接近於正態分布,它的根據是中心極限定理。30個樣本對於標準估計是足夠的(但是,我們也可以抽取超過30個的樣本從而達到必要的精確度)。
這種假設關係的根據是,方差是有限的,而從總體中抽取樣本是隨機的。
First, you have to make sure whether these data are the means of the subgroups or individual samples. If they are individual samples(I guess this is the case you are talking about), the standard deviation of the data are estimated by the moving range, which is related to the sequence of the data. So if you change the sequence of the data, you"ll get different standard deviation and thus different Cpk given the process specifications are fixed.
首先,你必須確定這些數據是否為這個小組或者個體樣品計算所提供的手段。如果它們為個體樣品(我猜測這個正是你們在談論的情形),這些數據的標準偏差在允許的範圍內被估計,其和數據的序列有關係。所以,如果你改變數據的序列,你將會得到不同的標準偏差。同時,如此不同的 CPK會給不同的規格提供修正。
Second, you have to understand thoroughly what Cpk is all about. It"s a process capability ratiCpk=min{Cpl,Cpu}. It shows how well the process is centered on the target comparing with Cp. So generally people use Cp and Cpk togather trying to figure out the process capability. Furthermore, there are cases where process capability is low but the process is in control, and there are cases where the process is out of control but the process capability is comparative high. These are all related to the variance of the process and how well the process is targeted. There are lots of misleadings in the use of the process capability ratios in the industries.CP
其次,你必須全面理解什麼是CPK。 它是一個加工能力比率Cpk=min{Cpl,Cpu},其顯示出該能力是目標中心並優於CP。因此,人們通常將CP和CPK一起使用,並嘗試理解其加工能力。此外,這裡有很多情形就是加工能力低但加工處於控制之中,而加工處於控制之外時加工能力則相對較高。他們與加工的方方面面聯繫,同時加工有很強的目的性。在工業CP中使用加工能力的過程中出現了許多誤導的情形。
In some industries, such as auto industry, people call the calculation of Cpk as Ppk.
As to why people use 32 or more data to calculate Cpk, I did a little research about it. In the industry, people accept Cp 1.33 as a commom sense for existing process which corresponds to 4 sigma variance level. If you use this date to do a little calculatiuon and check the table published by Quality Society of America ( I was trying to post that table before, but it didn"t work. It was all messy. I guess the admin deleted that post), you will get the number approximately 32. But even 32 is not enough sometimes to get a unbiased estimation of the process capability ratio.
在諸如汽車業的一些產業中,人們將對CPK的計算稱作PPK。至於人們為什麼用32或者更多的數據來計算CPK,我對此做了一些研究。人們在運算中視cp1。33為普通理解與當前能力與4sigma的離差保持一致。如果你用這個數據做一些計算然後對照美國質量出版社出版的表格。(我曾嘗試著郵寄那張表,但都沒有成行。這簡直太糟了,我猜想管理部門遺失了該郵件)。你可以取值接近32,但即使32有時候也不足以得到一個沒有誤差的加工能力比率

What I wanna stress again is that capability ratio is not everything, there are too many misuses in the industry, don"t count all on it.我想再一次強調的是加工能力比率並不是萬能的,在工業上有很多的誤用,不要全部依靠它來計算。
Here is my answer to the question of 32 sample size:這裡是我對樣本尺寸為32的問題的回答。
A practice that is increasingly common in industry is to require a supplier to demonstrate process capability as part of the contractual agreement. Thus, it is frequently necessary to prove that the process capability ratio Cp meets or exceeds some particular target value---say, Cp0. This problem may be formulated as a hypothesis testing problem:
一個要在工業中日漸成熟的練習是需要一個供應者示範如契約的協議部份般的程序能力。 因此,有必要經常證明加工能力比率CP等於或者超過如CP0的一些特殊目標價值。這個問題可能被制定為一個假設的測試問題:

H0: Cp= Cp0 (or the process is not capable)

H1: Cp≥ Cp0 (or the process is capable)

We would like to reject H0 (recall that in statistical hypothesis testing rejection of Null hypothesis is always a strong conclusion), thereby demonstrating that the process is capable. We can formulate the statistical test in terms of Cp』, so that we will reject H0 if Cp』 exceeds a critical value C.

我們想要否定H0( 取消對統計的假設中無效力假設的測試否定一直是一個強大的結論)。因此,示範加工是有能力的。我們可以根據 Cp" 制定統計的測試, 所以如果 Cp"超過一個關鍵的價值 C,那麼我們會否定H0 。

Kane(1986) has investigated this test, and provide a table of sample sizes and critical values for C to assist in testing process capability. We may define Cp(High) as a process capability that we would like to accept with probability (1-α) and Cp(low) as a process capability that we』d like to reject with probability (1-β). Please refer to the table created by Kane and used by American Society for Quality Control.

凱恩 (1986) 已經調查這上述測試, 而且向C提供一張有樣品大小和關鍵值的表給來協助測試的加工能力。就如我們喜歡接受(1-α)的可能性和CP(低)作為程序能力和否定(1-β)的可能性一樣,我們可以將CP(高)定義為一個加工能力。請查閱凱恩所創建的並為美國社會質量控制所用的表格。

Now we take the minimum required Cp value from the first table for two-sided specifications, which is 1.33. thus, the hypothesis testing problem then becomes:

現在,我們將從第一張表格中得到的具有兩面規格的CP的最小需求量設置為1.33,假設測試的問題就將變為:

H0: Cp= 1.33

H1: Cp≥ 1.33

Now we want to be sure, at the 95% confidence level, that the process capability is bigger or lower than 1.33 before we accept or reject it. And we set the high value as 2, which is actually 6-sigma quality level. Namely, Cp(high)=2, Cp(low)=1.33 , α =β=1-0.95=0.05.

目前,在信度為95%的水平下,我們通過加工能力值的高1。33或低1。33來確定是接受還是否定。同時,我們把高的值設定為2,其實際的質量水平為6-Σ,即為Cp(high)=2, Cp(low)=1.33 , α =β=1-0.95=0.05.

Cp(high)/Cp(low)=2/1.33=1.504

Then check the table, the corresponding sample size is about n=32. And 接下來核對該表,對應的樣品大小為n=32

C/Cp(low)= 1.2

So, C= 1.2Cp(low)=1.21.33=1.6

Thus, to demonstrate the capability, the supplier must take a sample of n=32, and the sample process capability ratio must exceed C=1.6.

This is obtained using minimum process capability requirement in the industry. The higher the requirements, the smaller the Cp(high)/Cp(low) value will be. From the second table we know that the required sample sizes are increasing. It』s fairly common practice to accept the process as capable at the level Cp≥ 1.33 based on a sample of size 30≤n≤50 parts. Clearly, this procedure does not account for sampling variation in the estimate of sigma, and larger values of sample size may be necessary in practice.

因此, 就示範能力而言,供應者定會提供一個 n=32 的樣品,而且樣品加工能力比一定超過 C=1.6。這被視為獲得到使用工業的最小程序能力需求。需求愈高,Cp(高度)/Cp(低點)的比值愈小。從第二張表格中我們知道必需的樣品尺寸正在逐漸增加。公平而常見的做法是接受程序能力在以一個大小 30 ≤ n ≤ 50個部份的樣品為基礎的 Cp ≥ 1.33 的水平上。清楚地,這個程序不涉及到在Σ的估算中考慮樣本的不同,同時,樣本尺寸的值不斷變大在實踐中是很必要的。
以上,複製六西格瑪品質網...


醫學、生理學研究者說30個是大樣本,生態學研究者、地理研究者笑了。
生態學研究者、地理研究者說1000個是大樣本,量化交易研究者、體育統計研究者笑了。
量化交易研究者、體育統計研究者說10^6個是大樣本,自然語言處理研究者、語音識別研究者、計算機視覺研究者都笑了……


前面有人說:如果小概率事件為0.05,那麼30個樣本一定會有1次出現。按照二項分布的規律看,假如在總體中抽30個樣本,能夠抽到小概率事件的概率為33.89%。不一定一定會出現。
另外嚴廣偉貼的書上有這樣的一段就是樣本容量小於30時,不能使用Z檢驗。嚴格講是在95%置信度要求下,樣本容量小於30不能進行Z檢驗。但可以用t檢驗。由於假定檢驗通常都是在95%前提下進行的,所以書中就省略了這個前提的內容。
樣本數的決定取決於需要預測的精度。預測精度簡單理解就是能夠容忍的差是多少,可以表現為標準偏差的差,也可以表現為百分比的差。也就是μ-M 允許差多少。μ為總體的均值,M為抽樣得到的均值。差越小,抽樣數就越需要多。
如果允許10%的預測誤差的話, 就是 ▏μ-M /μ&<10%,這通常被認為是一種穩定的狀態。那麼也就是最大誤差不能超過0.1倍總體的偏差。總偏差的寬度是6個標準偏差,那麼允許的誤差就應該是五分之三標準偏差。按照這樣的精度要求計算,樣本數是30。所以,30個樣本數就是這樣產生的。
在計算技術不發達的初期,為了能夠讓普通人都能運用統計手法,統計學家制定了這樣的一個方案。

關於如何計算樣本數,有以下公式計算得到,α=0.05、β=0.1。有興趣的可以計算一下。

在實際當中需要多少樣本數才能反映總體呢?
比如:拋硬幣,有人曾問過這樣的問題,就是拋了10次都是正面,那麼第11次是正面的概率是多少。。。拋硬幣時候確實會有連續是某一面的情況存在,但這並不是它本質的概率。如果獲得準確的本質概率需要拋多少次才能反映呢?拋11次,得到某一面出現的概率為50%的結論的概率只有70%。如果要達到99%準確的話,則需要試驗9604次試驗。因此樣本需要多少,完全取決於需要達到多少預測的精度。

上表

上表就是樣本數量的一個計算表,E代表的是我們可以忍受的誤差。拋硬幣試驗,歷史上有好多人都做過試驗,結果證實了以上的計算結果。


在網上找到了一篇文章貼上,供參考:
如何確定樣本量,基本方法很多,但是公式檢驗表明,當誤差和置信區間一定時,不同的樣本量計算公式計算出來的樣本量是十分相近的,所以,我們完全可以使用簡單隨機抽樣計算樣本量的公式去近似估計其他抽樣方法的樣本量,這樣可以更加快捷方便,然後將樣本量根據一定方法分配到各個子域中去.所以,區域二相抽樣不能計算樣本量的說法是不科學的.
  1.簡單隨機抽樣確定樣本量主要有兩種類型:
  (1)對於平均數類型的變數
  對於已知數據為絕對數,我們一般根據下列步驟來計算所需要的樣本量.已知期望調查結果的精度(E), 期望調查結果的置信度(L),以及總體的標準差估計值σ的具體數據,總體單位數N.
計算公式為:n=σ2/(e2/Z2+σ2/N)
特殊情況下,如果是很大總體,計算公式變為:n= Z2σ2/e2
例如希望平均收入的誤差在正負人民幣30元之間,調查結果在95%的置信範圍以內,其95%的置信度要求Z的統計量為1.96.根據估計總體的標準差為150元,總體單位數為1000.
樣本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88
(2)於百分比類型的變數
對於已知數據為百分比,一般根據下列步驟計算樣本量.已知調查結果的精度值百分比(E),以及置信度(L),比例估計(P)的精度,即樣本變異程度,總體數為N.
則計算公式為:n=P(1-P)/(e2/Z2+ P(1-P)/N)
同樣,特殊情況下如果不考慮總體,公式為:n= Z2P(1-P)/e2
一般情況下,我們不知道P的取值,取其樣本變異程度最大時的值為0.5.
例如:希望平均收入的誤差在正負0.05之間,調查結果在95%的置信範圍以內,其95%的置信度要求Z的統計量為1.96,估計P為0.5,總體單位數為1000.樣本量為:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=278
2.樣本量分配方法
  以上分析我們獲得了採用簡單隨機抽樣公式計算得到的樣本量,總的樣本量需要在此基礎上乘以設計效應的值得到.由於樣本總量已經確定,我們採用總樣本量固定方法分配樣本,這種方法包括按照比例分配和不按照比例分配兩類.實際工作中首先計算取得區縣總的樣本量,然後逐級將其分配到各階分層中,如果不清楚各階分層的規模和方差等,一般採取比例分配或者比例平方根分配法.如果有一定輔助變數可以使用,可以採用按照規模分配法分配樣本量.
  3.樣本量和總體大小的關係:   在其它條件一定的情況下,即誤差、置信度、抽樣比率一定,樣本量隨總體的大小而變化.但是,總體越大,其變化越不明顯;總體較小時,變化明顯.
  二者之間的變化並非是線性關係.所以,樣本量並不是越大越好,應該綜合考慮,實際工作中只要達到要求就可以了.
結論:樣本大小與我們期望的預測精度以及總體大小有關,預測精度越高,樣本量就越大。。。直至百分百的調查。
為保證95%的置信度,我們通常認為至少30組數據為抽樣調查的樣本數。如果一組是5個數據的話,那麼一般就按照125執行。總體數小於3000的情況下,我們基本上就可以按照125樣本數實施。



小樣本是在樣本量固定的條件下,進行統計推斷和分析的樣本。只要樣本量是固定的,不管樣本量是30還是99999都叫小樣本。大樣本是在樣本量n趨向無窮的條件下,做統計推斷和分析的的一個樣本。只要n已知,就是小樣本。

(順便說一句,我們從定義可以看出,很多實際情況下,這個定義特別不方便)

但是,大家會發現【各個版本】的統計學教材,都不約而同的有「n≥30為大樣本,n<30是小樣本」。

這些作者也都傻的太巧了吧!
這些大牛也都傻的太巧了吧!

難道他們曾有一段過往?一起把這個「錯誤」寫在自己的書上是約好的?不論版本修訂多少次,歃血為盟,至死不改?


這個說法,確實是有理由的、有規律的,是一種經驗說法,研究多了,發現這個太普遍,為了方便。

經驗說法!
經驗說法!
不是謬論!

比如,我們都知道人家劉備的國號是「漢」,蜀是對劉備政權的蔑稱,但我們就叫「魏蜀吳」。即使它不嚴謹,可是我們一眼明白它的含義,很多出版物上也會出現,出版的東西和在知乎上隨便寫寫是不一樣的,知乎可以是錯的,出版物錯了那還怎麼養活一出版公司的人。

在各種研究中,很多總體分布不明的分布,在n≥30時,分布圖像都接近正太分布,這是規律。

典型的例子有中心極限定理。

想學到更多請看其他答案咯╮(╯_╰)╭



難道書上不是這麼說的?


30是一個經驗值,但這個問題應該是與中心極限定理有關,我們估計總體均值的時候要注意標準誤的大小。因為標準誤(SE)的是總體方差除以樣本量的平方根。而樣本量的平方根單調下降得很快。樣本量大於三十時,樣本量平方根的倒數已經只有0.18,那麼標準誤會非常小,這時估計總體均值就比較準確了。附圖是樣本量平方根的倒數函數圖形。這也說明樣本量越大其實越容易拒絕原假設。大數據的情形下應該要將p值設定得更小。


1.李子奈, 潘文卿. 計量經濟學(第三版)[M]. 北京:高等教育出版社, 2010. 71

1.李子奈, 潘文卿. 計量經濟學(第三版)[M]. 北京:高等教育出版社, 2010. 71


樣本數大於30是指可以遵循central limit theorem的最低值吧。這個跟"大樣本"什麼的似乎沒有關係啊。。。

其實30也就是一個經驗值而已不用太在意為什麼了因為實際採樣統計的時候樣本數量通常都會往大的去。


主要跟t分布有關,其實30,40,50對於都是屬於較小的樣本,只是因為樣本量30以下通常使用t分布比較準確,在30以上通常使用正態分布比較準確,所以樣本30以下我們通常說成小樣本,以上則為大樣本


實際上數據是很難得到的,尤其是工程上的數據。比如說火箭發射成功率,你要發射一百次,然後看成功幾次失敗幾次,然後算成功率,這是不可能的。在本人的研究領域,一般15個數據以上就是大樣本了。大樣本數據就可以用極大似然法之類的參數估計方法了。很多論文都是這樣。另外本人專業研究小樣本數據,一般樣本容量不超過5


題主是這個意思嗎。。。建議再看看書。。

題主是這個意思嗎。。。建議再看看書。。


不是一般認為是120嗎。。而且也只是一般認為,具體情況還要具體分析


因為書上就是這麼寫的


約定俗成。書是lehmann的elements of large-sample theory.



來自《統計學導論》曾五一 肖紅葉主編.


推薦閱讀:

TAG:應用數學 | 高等數學 | 數理統計學 | 概率論與數理統計 |