假設檢驗之五:α風險 vs. β風險
既然是基於隨機數據,帶有概率的判斷,那肯定會有出現判斷錯誤的風險的,奈曼-皮爾遜為此定義了兩類風險,即α風險和β風險。相信學過六西格瑪的人,不管他是否理解,應該都知道。我這裡也不多啰嗦,直接給出下面這張圖。
運用反證法時,我們總是先假設原假設為真,那麼備擇假設為偽,因此我們將α風險命名為拒真風險,β風險命名為納偽風險。在我學的通信原理中也稱其為虛警概率和漏警概率。兩種風險描述的都是出錯的概率。
在企業,無論是製造業或者是服務業,α風險代表生產者的風險,β風險代表使用者的風險。在產品出廠時通常要做終檢,α風險的含義就是將合格的產品檢驗為不合格的產品,要麼返修、要麼報廢,總之生產者要承擔損失;β風險是把不合格的產品當成合格的產品流到使用者手上,給使用者帶來損失。
同樣,你將可疑的人當成小偷抓起來,如果他是無辜的,你把他當小偷打一頓,那是α風險,也是嫌疑人的風險;如果他真是小偷,你把他放過,那就是β風險,也就是你的風險了。
α風險和β風險是相愛相殺的一對,雖為孿生,然終生未見,卻也彼此相依,此消彼長。它們長成什麼樣子呢?讓我們逐步揭開它們的面紗。
我們來看看α風險和β風險長成什麼樣子。首先建立假設:
:μ=10,:μ>10
這是一個單總體的假設檢驗,設總體方差已知,=1,樣本量為16。根據中心極限定理,樣本均值的標準差為
那麼可得α如下圖(取值0.05)。一般將陰影部分稱為拒絕域,它是原假設成立時抽到不合理結果的小概率事件區域,其它部分稱為接受域。如果樣本均值落在拒絕域中,小概率事件就發生了,我們就說原假設不成立,因此拒絕原假設;如果樣本均值落在接受域,我們就說無法拒絕原假設。根據標準差(總體的或樣本的)、樣本量和事先定義的α值計算出的拒絕域與接受域的邊界稱為臨界值,如果是z檢驗,則記為,如果是t檢驗,則記為。
不同的假設,拒絕域也不同,這裡只是舉一個簡單的例子來做個說明。
那麼β風險在哪兒呢?我們再假設一下實際的總體均值,比如是10.5吧(在實際的檢驗中,通常是用樣本的均值來估計),方差不變,還是1。那麼β風險就如下圖:
可見β風險不是人為確定的,也就是說在樣本量一定的條件下,這兩種風險你只能確定其中之一,不能兩種都事先確定。
如果你認為α風險取0.05小了,改成0.1也可以接受,那麼上圖就變成這樣:
β風險變小了。由此可以看出,在樣本量一定的條件下,α越大,β越小,反之亦然。
那麼有沒有辦法保證在α一定的條件下,β也儘可能的小呢?有!起決定作用的就是樣本量,樣本量越大,則均值的標準差就越小,曲線看起來就越瘦,兩個曲線交叉的部分就越少,這樣β風險就會變小。我們把樣本量改為36、64,看看會有什麼變化。
可以看到,隨著樣本量的增加,β迅速變小。
下圖給出了在均值差異固定(本例為10.5-10)、α=0.05條件下,功效1-β隨樣本量的變化情況。可以看出,在樣本量較小時,隨著樣本量增加,功效迅速提高。但當功效達到較高水平後,樣本量的增加對它的影響就很小了。
需要注意的是,當p值正好為0.05時,備擇假設正好與重合,這時候備擇假設的分布密度曲線一半在接受域,一半在拒絕域,功效正好等於0.5。
各位看官又要問了,那樣本量要多大才能保證有較高的功效呢?別急,以後會說的。
功效還與備擇假設與原假設之差的大小有關,差越大,則功效越高。下圖就是在均值為10,標準差為1,樣本量為25時,p值與功效隨檢驗差異(圖中假設備擇假設比原假設大)的增大而變化的趨勢。
雖然這裡用單總體檢驗作為例子,但兩種風險的規律是普遍的。最後給大家總結一下:
1. α風險和β風險都是判斷錯誤所帶來的風險;
n2. 在樣本量一定的條件下,α風險越大,則β風險越小,反之亦然;
n3. 在樣本量一定的條件下,檢驗差異越大,則β風險越小,反之亦然;
4. 在檢驗差異一定,且α風險一定的條件下,樣本量越大,則β風險越小;
5. 在檢驗差異一定,且α風險一定的條件下,只要樣本量足夠大,我們肯定能夠拒絕原假設,這也是我們不說接受原假設的原因。
請關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀: