多標籤圖片分類指標mAP

02-03

多標籤圖片分類指標mAP：mean AVERAGE PRECISION。這個概念解釋前先說一下AP:average precision。

每一個測試圖片都會針對每一個類別輸出一個概率值。假設我們測試了20張圖片，我們將這20張圖片中針對某一類（例如car）的prob值取出保存在一個文件中（xxx_test.txt），形成如下形式：（gt-label：ground truth label表示實際標籤值）

排序後得到：

然後，我們取top-N的結果作為識別該圖片為該類（例如car）的結果，我們取top-5為例：

此時，true positives就是4、2，false positives是13、19、6，false negative是9、16、7、20，true negative是1,18,5,15,10,17,12,14,8,11,3。相應precision=2/5，recall=2/6。

實際中，我們通常不能使用top-5來衡量，而是需要知道top-1到top-N的（N為所有測試樣本個數，此處為20）相應precision和recall值。最新的AP的計算方法是：假設這N個樣本中有M個正例，那麼我們會得到M個recall值（1/M, 2/M, ..., M/M）,對於每個recall值r，我們可以計算出對應（r > r）的最大precision，然後對這M個precision值取平均即得到最後的AP值。

顯然隨著我們選定的樣本越來也多，recall一定會越來越高，而precision會呈單調遞減趨勢。把recall當成橫坐標，precision當成縱坐標，即可得到常用的precision-recall曲線。

AP衡量的是學出來的模型在每個類別上的好壞，mAP衡量的是學出的模型在所有類別上的好壞，得到AP後mAP的計算就變得很簡單了，就是取所有AP的平均值。

參考連接：http://blog.sina.com.cn/s/blog_9db078090102whzw.html