PSPNet,DeepLabv3中採用的context的定義很簡單而且有效,在不同的分割任務上都取得了很好的效果。具體的話,就是採用Global Average Pooling 來對feature map處理得到的特徵作為context來使用的。
但是這種context也存在一些問題。比如說這種context沒有考慮不同的pixel的category信息。對於這種context的理解大家也沒有一個公認的解釋,在PSPNet的工作中,作者根據ADE20K數據集上存在的一個問題提出了自己的解釋「global average pooling的context其實是編碼了圖片所在的scene的category信息,比如說ADE20K上的圖片其實是屬於300多個不同的場景類別包括飛機場,洗手間,卧室等等。而如果利用這些scene的category信息可以幫助更好的做分割任務,因為在卧室洗手間不會出現飛機,從而在一定程度上可以reduce一些干擾信息。」。之前在ParseNet論文中作者提到的一個好處是使用global average pooling的context是所有位置共享的,所以可以看做是用smoothness item。
這些不同的解釋都有一定的道理,但是我們認為這種解釋仍然不夠好,所以我們最近做了一篇工作來重新認識一下context, 我們的motivation也比較明確,我們是從scene parsing的問題的定義出發,「the label of each pixel P is defined as the category of the object it belongs to」,所以我們就想是否把像素P所在的物體對應的context拿過來會更好呢?