如何理解「總體」「樣本」並進行相關「推斷」和「檢驗」?

前言

  • 本文從「總體、樣本」入手,目的在於根據樣本推斷總體的情況;
  • 本文涉及不同容量的樣本推斷總體的不同方法;
  • 閱讀本文大約需要10分鐘,大神請繞道。如有錯誤,歡迎指正。

一,總體與樣本

  • 總體:是我們要研究對象的總和,多數情況是未知的;
  • 樣本:是從總體中隨機選取的,用於代表總體的個體集。

注意:

  1. 總體是我們要研究的所有對象,我們不知道且不可能確切的知道,況且很多時候一味的追求總體數量也沒有實際意義;
  2. 樣本是隨機抽取,不能完全代表總體,只是用於研究總體的一小部分數據集,樣本可以有無數個。而且,樣本本身也可看成是隨機變數,關於總體特徵的隨機變數

下面根據python中的random包和randint函數,展示總體與樣本。

import randoma=random.randint(0,9)a8# 模擬抽獎過程for i in range(1,11): userID=random.randint(1,395) i=str(i) userID=str(userID) print(%s位獲獎者的ID是:%s%(i,userID))1位獲獎者的ID:1822位獲獎者的ID:1373位獲獎者的ID:1914位獲獎者的ID:2635位獲獎者的ID:3356位獲獎者的ID:2337位獲獎者的ID:1328位獲獎者的ID:919位獲獎者的ID:8810位獲獎者的ID:188import numpy as npimport pandas as pddf=pd.DataFrame(np.arange(5*4).reshape((5,4)))df

0 1 2 3

0 0 1 2 3

1 4 5 6 7

2 8 9 10 11

3 12 13 14 15

4 16 17 18 19

# 隨機選取一個n行的子集:注意是n行,子集一定包含所有的列sample1=df.sample(3)sample1

0 1 2 3

2 8 9 10 11

3 12 13 14 15

4 16 17 18 19

如上,padas的sample可直接抽取樣本,省去了很多自己出樣的麻煩。


二,大樣本與小樣本

如上,樣本容量極大的影響了樣本推斷總體的準確度,則:

  1. 當樣本容量n大於30時,屬於大樣本,此時樣本推斷總體,用「中心極限定理」
  2. 當樣本容量n小於30時,屬於小樣本,此時樣本推斷總體,用t分布

下面逐步闡述大、小樣本如何推斷總體特徵。


三,大樣本:中心極限定理

定理結論

「隨機變數之和的分布函數向正態分布收斂。「

凡是在一定條件下斷定隨機變數之和的極限分布是正態分布的定理,在概率論中被統稱為「中心極限定理」。

理解

該定理的著眼點是「變數之和的分布」,一個變數服從正態分布的並不多,但多個變數之和的分布服從於正態分布則是普遍存在的。

例如均值,我們知道均值就是多個變數值之和的變換形式,是變數之和的平均值,故樣本均值也是服從正態分布的。

中心極限定理揭示了大部分社會經濟現象表現為正態分布的原因,正是中心極限定理讓正態分布有了如此廣闊的應用。在考慮隨機因素總和的極限分布時,只要那些因素對總體的影響均勻的小,同時又是獨立的,總和達到一定數量,則可認為其服從正態分布。

中心極限定理解讀

  1. 樣本均值約等於總體平均值;
  2. 不管總體是什麼分布,任意一個總體的樣本均值總會圍繞在總體均值左右,呈現正態分布

如何應用?

如上可知,我們不知道總體的數量和均值,有了中心極限定理我們就可以通過一個抽樣得到的樣本,來推斷總體的特徵,這為我們研究總體的特性指明了一條路。

具體標準作業流程如下:

  1. 直接抽取樣本,其容量為n,最好大於30
  2. 求出均值和標準差s
  3. 根據標準差s,求出標準誤差SE= s/ sqrt n
  4. 根據置信水平,如95%,查Z表,求出標準分
  5. 均值加減標準分個標準誤差,即得出置信區間的上線限

正態分布表如下:

至此我們會得出一個可信度為95%的區間,也就是說總體均值有95%的可能性落在這個區間里。這樣我們僅通過一個樣本的分析,就得到了不可能知曉的總體的均值的一個範圍。

需要注意的是,大樣本的估計本質上是,根據中心極限定理應用正態分布,求Z值,來計算置信區間。


四,小樣本:t分布估計

當n小於30時,可用t分布來估計,其方法與大樣本的方法類似:

  1. 確定要求解的問題;
  2. 求樣本的平均值和標準差,進而求出標準誤差SE=$s/ sqrt n$,其中s表示樣本標準差,n表示樣本數量;
  3. 根據置信水平,也就是要求的精度,如95%,查t表格。需要注意的是,查t表格的方法與查正態分布的z表格不同,應根據自由度df=n-1對應的置信水平查找對應的t值;
  4. 得到t值後,則置信區間的上下限為樣本均值加減t值個標準誤差。

t表格如下:

至此,我們僅用一個數量小於30的小樣本,就推斷出總體均值的一個可能性為95%的區間。

  1. 總體方差已知:隨機抽樣來自正態分布的總體,且方差已知,則樣本平均數的分布也為正態分布,可以把觀測值轉化成標準正態分布,用Z值分布表來查詢從總體中取特定值的概率;
  2. 總體方差未知:t分布也是正態分布的一種,從正態總體中抽取隨機樣本,若總體方差未知,則樣本平均數為t分布。t分布是更高狹的正態分布,當n趨向於無限大時,t分布會越來越接近正態分布,;

我們總結一下求置信區間的4個步驟:

求置信區間的4個步驟

  1. 確定要求解的問題;
  2. 求樣本的平均值和標準誤差,注意:標準誤差SE=$s/ sqrt n$,其中s表示樣本標準差,n表示樣本數量
  3. 確定置信水平,如95%;
  4. 求置信區間的上下限值:

根據置信水平求出顯著性水平,如2.5%;根據2.5%,查表,查0.025對應的標準分;上下限等於均值加減標準分個標準誤差

如上,無論是大、小樣本均可應用上述標準流程往裡套。區別只是在於大小樣本查表、求標準分的過程略有不同:

  1. 大樣本:查正態分布的z表;
  2. 小樣本:查t分布表,其中應注意自由度的演算法為n-1

五,自由度

t分布中涉及的自由度,其定義為:

  1. 自由度是指在不影響給定限制條件的情況下,可以自由變換信息的數量;
  2. 自由度可看做,估算其他信息時可有的獨立信息數量。

如何理解t分布的自由度為n-1?

自由度表示估算其他信息時可有的獨立信息數量,舉個例子,若一個樣本容量為4的樣本,我們已經知道來其均值為5,則在選擇這4個樣本元素的時候,我們可以自由選擇幾個元素呢?答案是3個,因為前3個我們可以自由選,但最後一個由於已知了均值,則其值已經定了,就不能自由選了。也就是說,4次機會,在我們已知均值的時候,已經用掉了一次,只能有4-1次了。

推廣開來看,

  • 推斷樣本的時候,由於已知了樣本均值,則自由度為n-1;
  • 而推斷總體時,由於我們對總體情況不知,故自由度為n。

這就說明了:

  • 我們知道的越多,已知條件就越多,相應的自由度越小;
  • 對於總體,我們不知道的信息多,約束條件少,自由度就大。

六,樣本方差和標準差

  • 樣本方差和標準差的分布為卡方分布,方便多組比較;卡方分布也是正偏態分布,所得值也為正,而且卡方分布具有可加性,n個隨機變數平方的分布就是卡方分布。
  • F分布是正偏態分布,分布曲線隨著分子分母自由度的增加而逐漸趨向於正態分布,F值總是正值,因為F是組間方差和組內方差的比率,當分子自由度為1(也就是只有兩組樣本作比較),當分母自由度為任意值(也就是組內數據個數不限)時,F值與分母自由度相同概率的t值平方相等;也就是兩樣本方差之比服從F分布。 F分布是兩個或者多個樣本方差之比的分布,通過比較組間差異和所有樣本間差異來判斷組間差異是否顯著,如顯著則說明試驗干預發揮了作用,所以F值要大於1才有意義,越大差異月顯著。

七,小結

  • 本文主要是闡述大小樣本及對應的置信區間、水平的求解方法;
  • 既然是抽樣獲取樣本,必然會有誤差。誤差思維有助於我們更好的理解這些問題,並且生活中的一些標題黨,大多是沒有統計基礎和誤差思維導致的;
  • 假設檢驗和區間估計,本質上是互逆命題,其實並不複雜;
  • 樣本均值推斷總體均值,用t分布和正態分布;樣本方差推斷總體方差,用卡方分布和F分布。只是還需要多家練習;
  • 檢驗指標,除了顯著性水平,還有一個更重要的指標就是p值。p值表示對原假設的支持程度,p值越大則越應支持原假設。

以上就是本文的全部,我自己也有不知道的餓地方,等我慢慢補全了自己的知識體系後再逐漸豐滿本文吧,謝謝。

(人氣稀薄????,急需關愛????。如果您竟然看到了這裡還沒走開,請幫忙多多點贊、收藏哈,謝謝啦朋友們~~)

推薦閱讀:

50個工作中最常用excel技巧
《利用Python進行數據分析》之數據整理
《利用Python進行數據分析》之Pandas
離散、連續概率分布小結+python中的應用

TAG:數據分析 | 數據分析師 | Python |