第一類錯誤和第二類錯誤的關係是什麼?
01-14
統計學當中有第一類錯誤和第二類錯誤,即把真當假和把假當真,從定性上來說,它們總是一個大一個小。問題是:它們存在怎樣的數量關係?
一般情形下只有定性關係。特殊情形下,知道一者可以算出另一者,比如規定 1.知道test statistic在null和alternative假設下的分布 2.use a single critical values/thresholds as criterion to reject the null hypotheses,那麼給定一個type 1 error就可以算出critical value,從而確定type 2 error,反之亦然。但是即使在上述特殊情形下,也沒有一般性的非平凡關係,比如它們的和不一定總是小於1。
瀉藥,首先糾正題主問題的提法,兩類錯誤是在檢驗問題提出之後就確定下來了的,他們兩個之間永遠是對立的。題主所說的一個大一個小指的是兩類錯誤的概率。他們兩個的關係由勢函數給出。勢函數指檢驗拒絕原假設的概率。在原假設為真時就是犯第一類錯誤的概率(size),原假設為假時表示1-犯第二類錯誤的概率。在茆詩松寫的《高等數理統計》上有些勢函數的圖像,題主你可以看下找點直觀。
這就好比談戀愛。比方說:
H0:一個真心愛你的男生
H1:一個不是真心愛你的男生如果H0實際上成立,而你憑經驗拒絕了H0,也就是說,你拒絕了一個你認為不愛你而實際上真心愛你的男生,那麼你就犯了第Ⅰ類錯誤;如果H0實際上不成立,而你接受了H0,同樣的道理,你接受了一個你感覺愛你而實際上並不愛你的男生,那麼你就犯了第Ⅱ類錯誤。如果要同時減小犯第Ⅰ類錯誤和第Ⅱ類錯誤的概率,那就只能增加戀愛的次數n,比如一個經歷過n=100次戀愛的女生,第101次戀愛犯第Ⅰ類錯誤和第Ⅱ類錯誤的概率就會小很多了。為了回答這個問題,我專門寫了一篇文章,對於各位理解兩類風險的區別與聯繫可能會有幫助。把文章內容拷貝過來聽麻煩的,請感興趣的各位移步到我的專欄文章假設檢驗之五:α風險 vs. β風險 - 知乎專欄查看詳情。
假設以藍線為判別閾值,兩個彩色區域面積分別是兩類錯誤的概率。要想知道兩者的數量關係必須要知道兩類分布的概率密度函數(pdf),而實際中pdf很難得到,一般可以先進行分布的假設,如高斯分布,然後進行參數估計。然後兩類錯誤都是判別閾值的函數,這樣兩類錯誤通過閾值這個參數建立了數值關係。
1.兩類錯誤相加不一定等於一2.如果增加樣本容量,犯兩類兩類錯誤的概率可同時降低
一個是放棄了正確的選項;
另一個是選擇了錯誤的選項。
一個拜金,一個傻白甜
反對@ 馬志陽 的比喻
感覺這個101次比喻並不對,如果我們在101次判斷正確的概率提高的話,確切來說是學習效應讓我們判斷正確的概率提高(並不是樣本量增大,因為這次的樣本量仍然是1),而學習效應的提高是以該女生知道前100次答案為前提的,而增加樣本量是指在一次抽樣中我多抽幾個(注意,此時我們並不知道真正的答案是什麼)。
推薦閱讀:
※如何優化邏輯回歸(logistic regression)?
※如何評價airbnb的data scientist實習項目水平?
※「人民日報:我國殺人案低於世界公認治安最好國家偵破率的94.5% 」是否屬實?
※如果只學 3 個 Excel 函數,你會推薦哪 3 個?
※如何利用一批去年的數據,來預測未來三年的數據?