數據分析-假設檢驗和P值

統計方法包括描述統計和推斷統計,其中推斷統計又包括參數估計和假設檢驗。

名詞概念解釋:

參數估計與假設檢驗的區別

參數估計和假設檢驗是統計推斷的兩個組成部分,都是利用樣本信息對總體進行推斷,但角度不同。參數估計是樣本統計量估計總體參數的方法,總體參數在估計前是未知的。假設檢驗是先對總體參數提出一個假設,然後用樣本信息去驗證這個假設是否正確。

原假設:我們希望否定的結果作為原假設;明確的作為原假設;一般有等號。

備折假設:我們希望得到的結果作為備折假設;模糊不清的作為備折假設;一般沒等號。

原假設和備折假設是一個完備事件組,而且相互對立。

雙側檢驗:備折假設沒有特定的方向性,並含有符合「≠」的假設檢驗,稱為雙側檢驗或雙尾檢驗。

單側檢驗:備折假設具有特定的方向性,並含有符合「>」或「<」的假設檢驗,稱為單側檢驗或單尾檢驗。例如,其中方向為「<」稱為左側假設檢驗。

顯著水平和拒絕域:如果樣本統計量落到了如下橘紅色區域內(落在拒絕域),那麼拒絕原假設。(因為α區間是小概率事件,發生了就拒絕原假設)

如下圖分別是雙側檢驗和左側檢驗。

決策規則:

1.給定顯著性水平,查表得出相應的的臨界值。

2.利用樣本數據,計算檢驗統計量的值與顯著性水平的臨界值進行比較。(也可以通過P值與顯著性水平的臨界值比較)

3.作出決策

-雙側檢驗:|統計量|>臨界值,拒絕H0

-左側檢驗:統計量<-臨界值,拒絕H0

-右側檢驗:統計量>臨界值,拒絕H0

什麼是P值:被稱為觀察到的(或實測的)顯著性水平。反映實際觀測到的數據與原假設H0之間不一致的程度。

P值就是計算出的樣本統計量的面積,當P<α時,就拒絕H0。

構造統計量:


推薦閱讀:

IMDB——python數據分析報告
用Python進行基礎的數據分析
數據分析師入門選手經驗談
AB 測試最佳實踐

TAG:假設檢驗 | 數據分析 |