標籤:

為什麼 AUC 對測試集上的類分布變化是不敏感的?

Tom Fawcett 的論文 An Introduction to ROC Analysis 裡面第 4.2 節 Class Skew 裡面說 AUC 對於測試集上的類分布變化是不敏感的。這是為什麼?


ROC曲線橫坐標FP=錯誤錯誤的負類樣本數/負類樣本總數,縱坐標是TP=判斷正確的正類樣本數/正類樣本總數。看到了吧,這兩個值都只與類內部分布有關,與類與類之間的大小關係無關。

舉個例子來說,假設我現在有正、負類樣本各100個,在某個閾值下FP=0.3,TP=0.6。

現在,我將正類樣本數擴大10倍,在與之前的閾值、分類器下,負類樣本不變,因此FP還是0.3。正類樣本變為了原來的10倍,只要正類樣本的分布沒發生變化,這1000樣本中應該還是有大概60%的會被分對,因此TP也不會發生大的變化。歸結到底,ROC曲線基本不會發生移動,因此AUC也就基本不會改變了。


看看我對這個問題的回答:

https://www.zhihu.com/question/39840928


這篇文章寫了ROC, AUC是什麼 寫的還不錯:

做機器學習,再別把IoU,ROI 和 ROC,AUC 搞混了 !聊聊目標檢測,醫療領域的那些評價函數


推薦閱讀:

TAG:機器學習 |