如何理解「總體」「樣本」並進行相關「推斷」和「檢驗」?
前言
- 本文從「總體、樣本」入手,目的在於根據樣本推斷總體的情況;
- 本文涉及不同容量的樣本推斷總體的不同方法;
- 閱讀本文大約需要10分鐘,大神請繞道。如有錯誤,歡迎指正。
一,總體與樣本
- 總體:是我們要研究對象的總和,多數情況是未知的;
- 樣本:是從總體中隨機選取的,用於代表總體的個體集。
注意:
- 總體是我們要研究的所有對象,我們不知道且不可能確切的知道,況且很多時候一味的追求總體數量也沒有實際意義;
- 樣本是隨機抽取,不能完全代表總體,只是用於研究總體的一小部分數據集,樣本可以有無數個。而且,樣本本身也可看成是隨機變數,關於總體特徵的隨機變數。
下面根據python中的random包和randint函數,展示總體與樣本。
import randoma=random.randint(0,9)a8# 模擬抽獎過程for i in range(1,11): userID=random.randint(1,395) i=str(i) userID=str(userID) print(第%s位獲獎者的ID是:%s%(i,userID))第1位獲獎者的ID是:182第2位獲獎者的ID是:137第3位獲獎者的ID是:191第4位獲獎者的ID是:263第5位獲獎者的ID是:335第6位獲獎者的ID是:233第7位獲獎者的ID是:132第8位獲獎者的ID是:91第9位獲獎者的ID是:88第10位獲獎者的ID是:188import numpy as npimport pandas as pddf=pd.DataFrame(np.arange(5*4).reshape((5,4)))df
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
4 16 17 18 19
# 隨機選取一個n行的子集:注意是n行,子集一定包含所有的列sample1=df.sample(3)sample1
2 8 9 10 11
3 12 13 14 15
4 16 17 18 19
如上,padas的sample可直接抽取樣本,省去了很多自己出樣的麻煩。
二,大樣本與小樣本
如上,樣本容量極大的影響了樣本推斷總體的準確度,則:
- 當樣本容量n大於30時,屬於大樣本,此時樣本推斷總體,用「中心極限定理」
- 當樣本容量n小於30時,屬於小樣本,此時樣本推斷總體,用t分布
下面逐步闡述大、小樣本如何推斷總體特徵。
三,大樣本:中心極限定理
定理結論
「隨機變數之和的分布函數向正態分布收斂。「
凡是在一定條件下斷定隨機變數之和的極限分布是正態分布的定理,在概率論中被統稱為「中心極限定理」。
理解
該定理的著眼點是「變數之和的分布」,一個變數服從正態分布的並不多,但多個變數之和的分布服從於正態分布則是普遍存在的。
例如均值,我們知道均值就是多個變數值之和的變換形式,是變數之和的平均值,故樣本均值也是服從正態分布的。
中心極限定理揭示了大部分社會經濟現象表現為正態分布的原因,正是中心極限定理讓正態分布有了如此廣闊的應用。在考慮隨機因素總和的極限分布時,只要那些因素對總體的影響均勻的小,同時又是獨立的,總和達到一定數量,則可認為其服從正態分布。
中心極限定理解讀
- 樣本均值約等於總體平均值;
- 不管總體是什麼分布,任意一個總體的樣本均值總會圍繞在總體均值左右,呈現正態分布
如何應用?
如上可知,我們不知道總體的數量和均值,有了中心極限定理我們就可以通過一個抽樣得到的樣本,來推斷總體的特徵,這為我們研究總體的特性指明了一條路。
具體標準作業流程如下:
- 直接抽取樣本,其容量為n,最好大於30
- 求出均值和標準差s
- 根據標準差s,求出標準誤差SE=
- 根據置信水平,如95%,查Z表,求出標準分
- 均值加減標準分個標準誤差,即得出置信區間的上線限
正態分布表如下:
至此我們會得出一個可信度為95%的區間,也就是說總體均值有95%的可能性落在這個區間里。這樣我們僅通過一個樣本的分析,就得到了不可能知曉的總體的均值的一個範圍。
需要注意的是,大樣本的估計本質上是,根據中心極限定理應用正態分布,求Z值,來計算置信區間。
四,小樣本:t分布估計
當n小於30時,可用t分布來估計,其方法與大樣本的方法類似:
- 確定要求解的問題;
- 求樣本的平均值和標準差,進而求出標準誤差SE=$s/ sqrt n$,其中s表示樣本標準差,n表示樣本數量;
- 根據置信水平,也就是要求的精度,如95%,查t表格。需要注意的是,查t表格的方法與查正態分布的z表格不同,應根據自由度df=n-1對應的置信水平查找對應的t值;
- 得到t值後,則置信區間的上下限為樣本均值加減t值個標準誤差。
t表格如下:
至此,我們僅用一個數量小於30的小樣本,就推斷出總體均值的一個可能性為95%的區間。
- 總體方差已知:隨機抽樣來自正態分布的總體,且方差已知,則樣本平均數的分布也為正態分布,可以把觀測值轉化成標準正態分布,用Z值分布表來查詢從總體中取特定值的概率;
- 總體方差未知:t分布也是正態分布的一種,從正態總體中抽取隨機樣本,若總體方差未知,則樣本平均數為t分布。t分布是更高狹的正態分布,當n趨向於無限大時,t分布會越來越接近正態分布,;
我們總結一下求置信區間的4個步驟:
求置信區間的4個步驟
- 確定要求解的問題;
- 求樣本的平均值和標準誤差,注意:標準誤差SE=$s/ sqrt n$,其中s表示樣本標準差,n表示樣本數量
- 確定置信水平,如95%;
- 求置信區間的上下限值:
根據置信水平求出顯著性水平,如2.5%;根據2.5%,查表,查0.025對應的標準分;上下限等於均值加減標準分個標準誤差
如上,無論是大、小樣本均可應用上述標準流程往裡套。區別只是在於大小樣本查表、求標準分的過程略有不同:
- 大樣本:查正態分布的z表;
- 小樣本:查t分布表,其中應注意自由度的演算法為n-1
五,自由度
t分布中涉及的自由度,其定義為:
- 自由度是指在不影響給定限制條件的情況下,可以自由變換信息的數量;
- 自由度可看做,估算其他信息時可有的獨立信息數量。
如何理解t分布的自由度為n-1?
自由度表示估算其他信息時可有的獨立信息數量,舉個例子,若一個樣本容量為4的樣本,我們已經知道來其均值為5,則在選擇這4個樣本元素的時候,我們可以自由選擇幾個元素呢?答案是3個,因為前3個我們可以自由選,但最後一個由於已知了均值,則其值已經定了,就不能自由選了。也就是說,4次機會,在我們已知均值的時候,已經用掉了一次,只能有4-1次了。
推廣開來看,
- 推斷樣本的時候,由於已知了樣本均值,則自由度為n-1;
- 而推斷總體時,由於我們對總體情況不知,故自由度為n。
這就說明了:
- 我們知道的越多,已知條件就越多,相應的自由度越小;
- 對於總體,我們不知道的信息多,約束條件少,自由度就大。
六,樣本方差和標準差
- 樣本方差和標準差的分布為卡方分布,方便多組比較;卡方分布也是正偏態分布,所得值也為正,而且卡方分布具有可加性,n個隨機變數平方的分布就是卡方分布。
- F分布是正偏態分布,分布曲線隨著分子分母自由度的增加而逐漸趨向於正態分布,F值總是正值,因為F是組間方差和組內方差的比率,當分子自由度為1(也就是只有兩組樣本作比較),當分母自由度為任意值(也就是組內數據個數不限)時,F值與分母自由度相同概率的t值平方相等;也就是兩樣本方差之比服從F分布。 F分布是兩個或者多個樣本方差之比的分布,通過比較組間差異和所有樣本間差異來判斷組間差異是否顯著,如顯著則說明試驗干預發揮了作用,所以F值要大於1才有意義,越大差異月顯著。
七,小結
- 本文主要是闡述大小樣本及對應的置信區間、水平的求解方法;
- 既然是抽樣獲取樣本,必然會有誤差。誤差思維有助於我們更好的理解這些問題,並且生活中的一些標題黨,大多是沒有統計基礎和誤差思維導致的;
- 假設檢驗和區間估計,本質上是互逆命題,其實並不複雜;
- 樣本均值推斷總體均值,用t分布和正態分布;樣本方差推斷總體方差,用卡方分布和F分布。只是還需要多家練習;
- 檢驗指標,除了顯著性水平,還有一個更重要的指標就是p值。p值表示對原假設的支持程度,p值越大則越應支持原假設。
以上就是本文的全部,我自己也有不知道的餓地方,等我慢慢補全了自己的知識體系後再逐漸豐滿本文吧,謝謝。
(人氣稀薄????,急需關愛????。如果您竟然看到了這裡還沒走開,請幫忙多多點贊、收藏哈,謝謝啦朋友們~~)
推薦閱讀:
※50個工作中最常用excel技巧
※《利用Python進行數據分析》之數據整理
※《利用Python進行數據分析》之Pandas
※離散、連續概率分布小結+python中的應用