[重溫Statistics] P-Value
- Null hypothesis : 這個metric在測試組和對照組沒有發生變化
- Alternative hypothesis :這個metrics發生了變化(變好變壞姑且不談,但是一般是期望變好)
那麼跑了實驗,得出一個實驗結果之後,我們需要有一個指標來衡量,我們是不是應該Reject Null hypothesis 而擁抱 Alternative hypothesis。這時候我們會用到p-value。關於p-value一個直覺性的理解是:p-value越小,針對Null hypothesis的反對證據就越明顯,我們就越應該擁抱Alternative hypothesis。
Size of Hypothesis test
為了定義一個test,我們需要定義 rejection region (用R表示)。如果 的話,我們就reject null hypothesis。
一個簡單的例子是:從一個分布裡面抽樣N個數據點 。Null hypothesis: X的平均值是0,但是我們觀察到的數據取平均並不是0,甚至絕對值比0大很多,那麼這個時候我們就可以定義: 其中c是一個常數,只要觀察數據平均值絕對值大於這個值我們就reject null hypothesis並認為X的期望不是0 。
接下來介紹一個重要概念:Size of a test
用人話來說就是:當Null hypothesis為真的時候,我們用這個test把它拒絕掉的概率,最高能到多少。顯然,我們希望這個值越小越好。
還有另外一個相關的概念叫做level。我們說一個test有level 如果它的size小於等於
P-Value
正式的定義是:
翻譯成人話:在所有能reject null hypothesis的test裡面,size最小的test對應的size就是p-value。
如何使用P-Value (教科書上搬過來的表格,當作經驗之談?)
- < 0.01:我們有很強的證據證明 Null hypothesis是錯誤的
- 0.01 ~ 0.05:有比較強的證據證明 Null hypothesis是錯誤的
- 0.05 ~ 0.10: 有證據但是較弱證明 Null hypothesis是錯誤的
- > 0.1:沒有或者只有很弱的證據證明 Null hypothesis是錯誤的
注意事項是:p-value大並不能作為Null hypothesis為真的證據,只能說明要麼Null hypothesis為真,要麼這個test不夠「強力」。p-value 不等於給定觀測數據下Null hypothesis為真的概率。
推薦閱讀:
※醫療保健行業將如何受益於數據科學的發展?
※和生意人打交道,數據科學家常犯的三大典型錯誤
※為什麼說 Python 是數據科學的發動機(二)工具篇(附視頻中字)
※久等了,一小時後BitTiger Pro公開發售!順便說說我們開發它的故事
※Kaggle 入門指南
TAG:数据科学 |