Evaluation(驗證指標,主要是二分類)
演算法需要根據不同的問題而設計不同的評估指標來衡量演算法的性能,不同的問題的評判指標往往也不同,評估的指標會涉及速度,準確率,魯棒性,可擴展性......
本篇notes重點介紹準確率和準確率相關的評估指標(也很吻合這一系列文章的主題,分類問題).
本篇Notes的大致思路為:
第一部分: 正確率與錯誤率
1.正確率和錯誤率是最簡單而又常見的評估指標,本篇notes以此為出發點進行介紹,先講泛化誤差,因為泛化誤差在真實情況下無法得到,退而求其次計算近似誤差,其實實踐生產中我們討論誤差時往往會講訓練和測試誤差都是近似誤差,可是既然談到訓練測試誤差我們自然就不得不介紹過擬合和欠擬合,於是notes後面就介紹過擬合和欠擬合併解釋了訓練誤差不可靠的原因等.同時還介紹了在不同數據集大小情況下發現並緩解過擬合的方法,包括使用驗證集(樣本少時用CV),還有採用learning curve進行調參等方式.
第二部分:最小化損失函數
在分類問題中,我們往往會以正確率或者錯誤率來定義一個模型的好壞,毫無疑問,我們的目標是儘可能最大化正確率(最小化錯誤率),為了達到這個目的,我們分類器的損失函數就會根據我們的優化目標進行設計,直接優化原始正確率的定義在這個時候就顯得較為困難,所以我們就尋找該指標的近似函數(一般是上界),例如MSE等,定義了大的框架如MSE=(f(x)-y)^2等之後,我們考慮細節的設計f(x)的設計,f(x)的設計往往很難決定任務的複雜程度,一種較好的策略是f(x)設計為擁有較強能力的分類器同時用正則項來控制模型的複雜度.此處又進一步做了一些擴展,萬一我們的數據是不平衡的,我們該如何處理?常見的處理手段是代價矩陣.但是這個時候準確率往往也會顯得沒什麼意義,那麼我們就需要尋找一種新的衡量指標.
第三部分:二分類問題中的樣本不平衡問題
在樣本不平衡的二分類問題中最為重要的幾個指標就是Recall,Precision,F值,AUC等,其中傳統比賽中經常使用的AUC指標一般是ROC-AUC,橫軸(x軸)為False positive rate,縱軸為True positive rate,但是因為這種曲線在很多問題中表現類似,所以實際中大家認為PR-AUC的效果要比ROC-AUC的情況更好,具體的細節可以看論文《The Relationship Between Precision Recall and ROC Curves》.關於這個裡面的一些細節大家可以參考吳老師的notes.
第四第五部分
這兩個部分和我們的指標的關係並不是那麼直接,兩個主要問題就是我們是否可以達到100%的準確率?對自己模型的一個confidence程度以及比較兩個分類器好壞的方法等.感興趣的看notes即可.
文章鏈接:https://cs.nju.edu.cn/wujx/paper/Error.pdf
對應ppt(第一部分):https://pan.baidu.com/s/1dFITaLF
對應ppt(第二部分):https://pan.baidu.com/s/1crUKrk
推薦閱讀: