數據分析-假設檢驗和P值
05-01
統計方法包括描述統計和推斷統計,其中推斷統計又包括參數估計和假設檢驗。
名詞概念解釋:
參數估計與假設檢驗的區別:
參數估計和假設檢驗是統計推斷的兩個組成部分,都是利用樣本信息對總體進行推斷,但角度不同。參數估計是樣本統計量估計總體參數的方法,總體參數在估計前是未知的。假設檢驗是先對總體參數提出一個假設,然後用樣本信息去驗證這個假設是否正確。
原假設:我們希望否定的結果作為原假設;明確的作為原假設;一般有等號。
備折假設:我們希望得到的結果作為備折假設;模糊不清的作為備折假設;一般沒等號。
原假設和備折假設是一個完備事件組,而且相互對立。
雙側檢驗:備折假設沒有特定的方向性,並含有符合「≠」的假設檢驗,稱為雙側檢驗或雙尾檢驗。
單側檢驗:備折假設具有特定的方向性,並含有符合「>」或「<」的假設檢驗,稱為單側檢驗或單尾檢驗。例如,其中方向為「<」稱為左側假設檢驗。
顯著水平和拒絕域:如果樣本統計量落到了如下橘紅色區域內(落在拒絕域),那麼拒絕原假設。(因為α區間是小概率事件,發生了就拒絕原假設)
如下圖分別是雙側檢驗和左側檢驗。
決策規則:
1.給定顯著性水平,查表得出相應的的臨界值。
2.利用樣本數據,計算檢驗統計量的值與顯著性水平的臨界值進行比較。(也可以通過P值與顯著性水平的臨界值比較)
3.作出決策
-雙側檢驗:|統計量|>臨界值,拒絕H0
-左側檢驗:統計量<-臨界值,拒絕H0
-右側檢驗:統計量>臨界值,拒絕H0
什麼是P值:被稱為觀察到的(或實測的)顯著性水平。反映實際觀測到的數據與原假設H0之間不一致的程度。
P值就是計算出的樣本統計量的面積,當P<α時,就拒絕H0。
構造統計量:
推薦閱讀: