hypothesis testing幾個不同的test類型到底有什麼具體區別?

Parametric test:independent sample t-test

paired sample t-test

ANOVA

Non Parametric equivalent:

Mann-Whitney test

Wilcoxon Signed rank test

Kruskal-Wallis Test

這幾種Hypothesis testing之間有什麼區別?網上搜的感覺每一種都差不多,但是做題時卻分辨不出應該用哪一種?求統計大神們給我講講~ 急急急!


任何test都是為了驗證你想出來的數學模版對某一個事物描述的好不好。驗證步驟如下,

1.通過觀察,或是直接猜想出假設模版

2.用想出的模版算關於人口的數據

3.從現實中收集數據

4.對比 除非在一定範圍內(關係到significant level,必須在test之前規定好不然有作弊嫌疑)互相衝突 否則認為沒有證據否定假設

不同的test可以用來測不同的假說模版,比如你要是想知道工廠A和工廠B生產的iPhone厚度是不是一樣,可以用Normal distribution來測試,因為一般工廠之間的機器有相同且已知的方差。kai square distribution則可以用來測某一個假設的模版是不是可以很好的描述一個事件(e.g.3路公交車是不是三分鐘來一趟)。f distribution可以測兩個樣本(sample)的方差是不是一樣,比如小康和小虹量身高是不是量地一樣准,還是小虹的誤差比較大,所以小康量出來的更可信。哦對了,剛剛的kai distribution還可以測某一個樣本的方差是不是和整個人口(population)的方差一樣,比如說看看一個工廠里的某一個機器是不是比廠商聲稱地更不穩定更容易造出比較厚或比較薄的iphone。

題目中提到的independent t-test是用在當一個population的方差不知道的情況下+sample size比較小的情況下(因為如果sample size比較大那麼central limit theorem就會發作然後任何distribution都可以用normal來近似)且整個population是normal的情況下,用t distribution來進行一系列測試。旁註,並不需要知道太多關於人口的信息就可以推斷出一個人口是不是normal 分布。比如你不需要測量整個學校的人的身高但是你知道身高這種東西在某個年齡段一定是normal分布的(i.e.特別高和特別矮的人比較少,中間身高的人比較多)。比較粗略地描述一下t distribution,它長得像normal但是用改變寬度來應對未知方差這個事實,其運作原理可以追溯到kai square。比如超人急需一件質量好的斗篷,於是他從一個小作坊A里拿了他們成產的十塊布,從另一個小作坊B中拿了二十塊。他想看看兩個作坊生產的布tensile strength是不是有區別。因為它們是小作坊所以方差是未知的,樣本數量也相對少,如果把這幾塊布算出來的方差(就算是unbiased estimate of variance)來當作整個population的variance然後來用normal test來看sample mean的區別未免太厚顏無恥了。結果也差很多。一般機器要測幾千次才知道方差是多少呢,這才只有十塊和二十塊布。經過了一系列數學上的推倒,Mr Student(別笑)發明了t test來應對這個問題。

而paired sample t test也是用到Mr Student發明的t distribution 而區別就是這次我們要對比兩個相關聯的樣品數量比較小的樣品。小作坊A和B是兩個獨立的個體他們生產的布tensile strength一不一樣都不能說明什麼。但是如果是你對某個變化(e.g.喝酒前喝酒後,培訓前培訓後)對一件事物的影響有興趣可以用paired test。比如超人想知道小作坊A在引進新機器前後tensile strength有沒有變化就可以用paired sample test,test的過程就不細說了。

第一次回答這麼正經的問題,希望不要誤導別人吧。


其實 parametric test 本質是一樣的都是通過構造統計量,求得統計量所服從的分布,通過小概率事件不可能發生的假設 從而拒絕或者不拒絕原假設得到結論。這些test 的不同點就是model assumption不同導致構造統計量的方法可能不同 其統計量的分布有可能不同。非參數檢驗的區別在於統計量的構建不依賴於參數分布的假設 其本質還是相同的。使用區別就看你實際問題的假設滿足哪個檢驗的假設


首先題主要知道什麼叫假設檢驗。

別人給了我們一個假設(Null Hypothesis),我們需要根據某種準則(Criterion),來判斷我們做的這個假設到底是真的(Not Reject)還是假的(Reject)。這種準則具體在計算機上就是你看到的那個p值(p-value),如果它小於0.05就拒絕假設,大於0.05就不拒絕假設。

題主需要自己看書學的部分是「某種準則是什麼」,它的學名叫「假設檢驗原理」。如果題主想真正徹底搞明白假設檢驗(Hypothesis Testing)到底是什麼東西,而不是一知半解只知道做題的話,一定要看這個,絕對是值得的。

其次題主要知道什麼叫參數檢驗(Parametric test)什麼叫非參數檢驗(Nonparametric test)。

所謂參數檢驗,意思是說樣本的總體是已知的某個分布(Distribution),這個分布是必須在確定了具體的參數(Parameter)後才能最終確定下來。我們掌握著各種關於這個分布的信息,進而我們就可以通過某種方法來做假設檢驗。所謂非參數檢驗,意思是說樣本的總體不是已知的某個分布,我們只能根據基於數據/觀測(Data/Observation)本身的某種方法來做假設檢驗。

題主需要自己看書學的部分是「分布的信息是什麼」和「某種方法是什麼」,它們的學名叫「常見分布」和「服從某分布的統計量的構造拒絕域的構造」

最後針對題主列舉的這些檢驗,我可以大致說說它們針對的都是幾樣本問題,具體的(原)假設是什麼。

參數檢驗:

Independent sample t-test(獨立樣本t檢驗)

單樣本問題,均值為給定值

Paired sample t-test(成對樣本t檢驗)

兩樣本問題,兩總體均值相等

ANOVA/Analysis of Variance(方差分析)

多樣本問題,多總體均值相等

非參數檢驗:

Wilcoxon Signed Rank test(威爾科克森符號秩檢驗)

單樣本問題,對稱總體的均值為給定值

Mann-Whitney test(曼惠特尼U統計量檢驗)

兩樣本問題,兩個同分布的總體是完全相同的(平移量為0)

Kruskal-Wallis test(好像沒有中文名)

多樣本問題,多個同分布的總體是完全相同的(平移量為0)


首選從大的角度分析,parametric test 是需要我們知道test變數的分布,例如如果如果我要test一段時間內某件事情發生的頻率,我可以用poission distribution。那麼相對的 non-parametric test 不需要任何概率分布即可使用,譬如我要用mann kendal trend test 來test 我的data set 是否有任何趨勢(trend)。t test 和 z test 的主要區別在於我們知不知道true variance。譬如,如果我們知道要test 的變數是 binomial distribution 的,然後我要test 平均值 np,那麼根據binomial的特性,true variance就是np(1-p). 就是說這裡我們唯一不知道就是p,因為n是sample size。只要知道了p那麼true variance也就只知道了。這種情況下我們要用z test和z score。與之相反的如果我們的變數是normal distribution,true variance 我們不知道。那我們只能計算sample variance來代替,那這裡就需要t test和t score。分清楚了這些,下面來說說兩種t test:one sample 和 two sample t tests。

t test 主要是test 平均值的。例如我有一組數據,我要看看他的平均值是不是0,那麼我就用one sample t test。如果我要test 兩組數據平均值的差那我就用two sample t test。具體的hypothesis和test statistics題主隨便一搜就知道在這裡不做贅述。因為t test這裡有用到 central limit theorem, sample size 大於 30 的一般可以把平均值看作正態分布,所以這裡true variance我們不知道,所以我們要用t test。

下面講講ANOVA。這個玩意和上面講的t test最根本的區別在於這裡我我們不在對單個變數做假設進行驗證。這裡我要要驗證的是一個變數和另一個變數線性關係(linear regression)。例如,咱們把房價設成Y,其他任何能左右房價的變數設成Xi(房間大小,有無獨立衛生間等),那麼我想要test Y 和 Xi 之間有沒有一種線性關係:

換句話說:Y = a +bX1 +cX2 + dX3+...

這裡字母a b c ……代表實數,是個係數。如果這些係數不等於零,那麼就說明Y確實和那個X有關係。那麼如何test 這些係數是不是0呢?鑒於這裡不是統計課,僅僅是個提供大概思路的地方,我就大致說兩種情況。第一是我們要test單個係數是不是0,這種情況下我們要t test。第二種情況也就是題主問到的,ANOVA專門就是test 多個係數是不是同時等於零的。

這裡大概講解了一下個別的parametric test,至於non-parametric test就交給其他人吧,畢竟術業有專攻我就不嫌丑了。


參數檢驗:

1:indepenent t test(X對Y的差異;X是定類數據並且一定是兩組,比如X是性別包括男和女兩組;Y是定量數據且正態比如身高);

2:ANOVA(X對Y的差異;X是定類數據一般超過兩組,比如X是學歷包括本科以下,本科,碩士3組;Y是定量數據且正態比如身高)

3:paired t test:配對數據的差異檢驗,實驗或類實驗時使用;配對數據滿足正態性。

非參數檢驗:

1:mann-whitney(X對Y的差異;X是定類數據並且一定是兩組,比如X是性別包括男和女兩組;Y是定量數據但不正態)

2:Kruskal-Wallis Test(X對Y的差異;X是定類數據一般超過兩組,比如X是學歷包括本科以下,本科,碩士3組;Y是定量數據但不正態)

3:Wilcoxon Signed rank test:配對數據的差異檢驗,實驗或類實驗時使用;配對數據不滿足正態性。

另外上述分析方法建議均可使用 網頁在線版本SPSS軟體SPSSAU 進行分析,裡面全部均有全自動化的文字分析。比如非參數檢驗時默認軟體會自動選擇對應的檢驗方法,並且給出理由,使用軟體的同時學習統計知識,學習統計知識的同時使用軟體。拖拽 點一下就完成分析。


推薦閱讀:

無跡卡爾曼到底是什麼東西?
在給定可接受的第一、二類錯誤概率的情況下,是否可以互換原假設和備擇假設形成一個新的假設檢驗?
怎樣理解隨機過程中鞅的停時?
如何理解隨機變數序列?X和x有什麼區別?

TAG:統計學 | 數據統計 | 統計 | SPSS | 統計學習 |