Object Context:通往更好的場景分割演算法

Object Context:通往更好的場景分割演算法

24 人贊了文章

論文鏈接:

https://arxiv.org/pdf/1809.00916.pdf?

arxiv.org

代碼鏈接:

PkuRainBow/OCNet?

github.com

場景分割問題在最近幾年吸引了很多研究人員的興趣與關注,其中最出名的工作比如DeepLab系列跟PSPNet,而PSPNet還有DeepLabv3的一個很重要的實驗結論就是image-level的context對於分割的結果性能提升非常重要,這方面的工作比較突出的是之前Liu Wei的ParseNet。

PSPNet,DeepLabv3中採用的context的定義很簡單而且有效,在不同的分割任務上都取得了很好的效果。具體的話,就是採用Global Average Pooling 來對feature map處理得到的特徵作為context來使用的。

但是這種context也存在一些問題。比如說這種context沒有考慮不同的pixel的category信息。對於這種context的理解大家也沒有一個公認的解釋,在PSPNet的工作中,作者根據ADE20K數據集上存在的一個問題提出了自己的解釋「global average pooling的context其實是編碼了圖片所在的scene的category信息,比如說ADE20K上的圖片其實是屬於300多個不同的場景類別包括飛機場,洗手間,卧室等等。而如果利用這些scene的category信息可以幫助更好的做分割任務,因為在卧室洗手間不會出現飛機,從而在一定程度上可以reduce一些干擾信息。」。之前在ParseNet論文中作者提到的一個好處是使用global average pooling的context是所有位置共享的,所以可以看做是用smoothness item。

這些不同的解釋都有一定的道理,但是我們認為這種解釋仍然不夠好,所以我們最近做了一篇工作來重新認識一下context, 我們的motivation也比較明確,我們是從scene parsing的問題的定義出發,「the label of each pixel P is defined as the category of the object it belongs to」,所以我們就想是否把像素P所在的物體對應的context拿過來會更好呢?

但是像素P屬於什麼物體,屬於哪一個物體是事先無法獲取的,所以怎麼去預測像素P所屬於的物體呢,我們就想到了嘗試採用attention的策略,具體的話可以參考論文中的細節。

等有空了我再分享更多細節,以及我們下一步的想法。

09/06/2018

RainbowSecret


後面我會持續分享自己在這方面的思考。

不過說實話自從PSPNet以來,場景分割方面的論文都做的不是很exciting,要麼做的比較複雜,要麼就是用了更好的backbone network, 要麼就是使用更多的額外的數據。我們希望我們這篇工作能提供一個簡單並且有效的baseline。我們希望我們的工作也能像PSPNet一樣促進場景分割演算法更好的發展。

我們也會在不遠的幾周完全開源我們的實現,希望大家可以在更好的結果上繼續進行場景分割方面的研究工作。

歡迎大家指正討論。

推薦閱讀:

ICCV2017語義分割相關論文摘要及框架
3d segmentation
ICCV2015語義分割相關論文摘要及框架
CVPR2018語義分割相關論文摘要翻譯及框架
Deep Learning for Brain MRI Segmentation: State of the Art and Future Directions 論文筆記

TAG:計算機視覺 | 圖像分割 | 深度學習DeepLearning |