標籤:

[重溫Statistics] P-Value

現在的互聯網公司講究數據驅動,經常需要跑A/B測試,然後比較某個metric是不是有提升。按照統計學的術語來說的話,這是一個Hypothesis testing的問題:

  • Null hypothesis Theta_0: 這個metric在測試組和對照組沒有發生變化
  • Alternative hypothesis Theta_1:這個metrics發生了變化(變好變壞姑且不談,但是一般是期望變好)

那麼跑了實驗,得出一個實驗結果之後,我們需要有一個指標來衡量,我們是不是應該Reject Null hypothesis 而擁抱 Alternative hypothesis。這時候我們會用到p-value。關於p-value一個直覺性的理解是:p-value越小,針對Null hypothesis的反對證據就越明顯,我們就越應該擁抱Alternative hypothesis。

Size of Hypothesis test

為了定義一個test,我們需要定義 rejection region (用R表示)。如果X in R 的話,我們就reject null hypothesis。

一個簡單的例子是:從一個分布裡面抽樣N個數據點 X_1,cdots,X_n sim P(X)。Null hypothesis: X的平均值是0,但是我們觀察到的數據取平均並不是0,甚至絕對值比0大很多,那麼這個時候我們就可以定義:T=bar X, R = {X: |bar X| > c} 其中c是一個常數,只要觀察數據平均值絕對值大於這個值我們就reject null hypothesis並認為X的期望不是0 。

接下來介紹一個重要概念:Size of a test

alpha = sup_{theta in Theta_0} P_{theta}(X in R)

用人話來說就是:當Null hypothesis為真的時候,我們用這個test把它拒絕掉的概率,最高能到多少。顯然,我們希望這個值越小越好。

還有另外一個相關的概念叫做level。我們說一個test有level alpha 如果它的size小於等於alpha

P-Value

正式的定義是:

pvalue = inf { alpha : T(X) in R_alpha }

翻譯成人話:在所有能reject null hypothesis的test裡面,size最小的test對應的size就是p-value。

如何使用P-Value (教科書上搬過來的表格,當作經驗之談?)

  • < 0.01:我們有很強的證據證明 Null hypothesis是錯誤的
  • 0.01 ~ 0.05:有比較強的證據證明 Null hypothesis是錯誤的
  • 0.05 ~ 0.10: 有證據但是較弱證明 Null hypothesis是錯誤的
  • > 0.1:沒有或者只有很弱的證據證明 Null hypothesis是錯誤的

注意事項是:p-value大並不能作為Null hypothesis為真的證據,只能說明要麼Null hypothesis為真,要麼這個test不夠「強力」。p-value 不等於給定觀測數據下Null hypothesis為真的概率。

推薦閱讀:

醫療保健行業將如何受益於數據科學的發展?
和生意人打交道,數據科學家常犯的三大典型錯誤
為什麼說 Python 是數據科學的發動機(二)工具篇(附視頻中字)
久等了,一小時後BitTiger Pro公開發售!順便說說我們開發它的故事
Kaggle 入門指南

TAG:数据科学 |