多標籤圖片分類指標mAP
多標籤圖片分類指標mAP:mean AVERAGE PRECISION。這個概念解釋前先說一下AP:average precision。
每一個測試圖片都會針對每一個類別輸出一個概率值。假設我們測試了20張圖片,我們將這20張圖片中針對某一類(例如car)的prob值取出保存在一個文件中(xxx_test.txt),形成如下形式:(gt-label:ground truth label表示實際標籤值)
排序後得到:
然後,我們取top-N的結果作為識別該圖片為該類(例如car)的結果,我們取top-5為例:
此時,true positives就是4、2,false positives是13、19、6,false negative是9、16、7、20,true negative是1,18,5,15,10,17,12,14,8,11,3。相應precision=2/5,recall=2/6。
實際中,我們通常不能使用top-5來衡量,而是需要知道top-1到top-N的(N為所有測試樣本個數,此處為20)相應precision和recall值。最新的AP的計算方法是:假設這N個樣本中有M個正例,那麼我們會得到M個recall值(1/M, 2/M, ..., M/M),對於每個recall值r,我們可以計算出對應(r > r)的最大precision,然後對這M個precision值取平均即得到最後的AP值。
顯然隨著我們選定的樣本越來也多,recall一定會越來越高,而precision會呈單調遞減趨勢。把recall當成橫坐標,precision當成縱坐標,即可得到常用的precision-recall曲線。
AP衡量的是學出來的模型在每個類別上的好壞,mAP衡量的是學出的模型在所有類別上的好壞,得到AP後mAP的計算就變得很簡單了,就是取所有AP的平均值。
參考連接:http://blog.sina.com.cn/s/blog_9db078090102whzw.html
推薦閱讀:
※Slack CEO:如何利用AI降低信息過載
※人工智慧推薦書目
※最前沿:史蒂夫的人工智慧大挑戰
※這個麻省理工的模塊機器人,讓你想做啥做啥!
TAG:人工智能 |