圖像分割領域常見的loss fuction有哪一些?

RT


第一,softmax+cross entropy loss,比如fcn和u-net。

第二,sigmoid+dice loss, 比如v-net,只適合二分類,直接優化評價指標。

第三,第一的加權版本,比如segnet。其實最早是david eigen用的。

第四,online bootstrapped cross entropy loss,比如FRNN。其實最早是沈春華用的。最近湯曉鷗老師的學生也用。像素級的難例挖掘。

第五,使用adversarial training,加入gan loss。


最簡單的自然是逐像素分類了,也是segmentation領域第一篇深度方法的論文fcn的做法。

此外就是crf了,利用rnn的形式去改進crf使得其能夠end2end learning。當然發展出來的mrf之類的也有一些。

至於一些新論文沒怎麼細跟,從我個人理解來說,如果硬要說的話,instance segmentation里引入detection loss來粗定位,然後再做切割也是不錯的。

然後既然是逐像素分類,理論上focal loss以及其他的改進版classifaction loss和對應的hard sample之類的方法亦是可行。逐像素分類,其實類別應該存在嚴重的不均衡,可以考慮引入一些策略做一些改進。

如果還有思路的話,不妨多去看看傳統segmentation的方法,試著學習crf把其套入cnn里,用貝葉斯去約束,的確也是個水論文的好路線。


題主說的是語義分割?

按照物體的語義信息來進行像素級別的分割。最常用的為PASCAL VOC 2012數據集 有20種前景物體。

在這類問題上,最常用的是分類Loss: Cross-entropy loss

每個像素做21類(20前景+1背景) 分類。


非監督的方法,比如k-mean 聚類,基於邊緣信息和區域信息的曲線演化模型,圖優化方式的graphcut和random walk以及基於Hamilton-Jacobi/Bellman方程的shortest path方法等。

PS 我是做PDE驅動的分割方法的.


推薦閱讀:

如何使用js獲取圖片像素矩陣?
圖像上的頻率指的是什麼?
數字圖像處理處理中的數學怎麼提高?
圖像處理和機器學習有什麼關係?
FPGA工程師的技能樹是怎樣的?

TAG:圖像處理 | 神經網路 | 深度學習DeepLearning | Caffe深度學習框架 | TensorFlow |