【CV-Semantic Segmentation】FCIS閱讀筆記

原論文Fully Convolutional Instance-aware Semantic Segmentation

motivation

作者認為這是第一篇full sonvolutional end-to-end的解決方案來完成instance-aware segmentation任務(FCIS),也是MSCOCO2016數據集上的第一名。

這篇文章主要解決的問題是 instance segmentation(也稱為Simultaneous Detection and Segmentation)。instance segmentation比起檢測,需要得到物體更精確的邊界信息;比起語義分割,需要區分不同的物體個體,所以說它要解決的問題是檢測(Object Detection)和語義分割(Semantic Segmentation)綜合的問題(在CV總目錄中有這些區別的示意圖)。

MSRA團隊不只是在object detection領域霸佔很多年,Deformable Convolutional Networks,R-FCN、Mask R-CNN等這些耳熟能詳的模型,現在又利用先發優勢去搞 instance segmentation,實力相當強悍。

本論文mxnet的實現版本:github.com/msracver/FCI ,可以認真研究一下模型的復現。

註:理解本篇論文需要深入了解MSRA的另外兩篇文章: ● Instace-sensitive Fully Convolutional Networks.ECCV 2016 ● R-FCN:Object Detection via Region-based Fully Convolutional Networks.NIPS2016

Architecture

CNN具有平移不變性,可用於分類,但是由於同一圖像像素無論在什麼位置都將得到相同的響應,即對位置不敏感。而instance segmentation需要同時對位置信息和類別信息進行判定。作者首先指出之前自家模型FCN和InstanceFCN的缺點(與其否定自己不如自己先否定自己,不斷對自己革命):FCN 最終輸出的是類別的概率圖,只有類別輸出,沒有單個對象輸出,InstanceFCN輸出3*3的位置信息圖, 只有單個對象輸出,沒有類別信息,需要單獨的downstream網路完成類別信息。本文的 FCIS通過計算position-sensitive inside/outside score maps,同時輸出 instance mask 和類別信息。

Position-sensitive Score Map Parameterization

FCN中訓練一個classifier來預測一個像素屬於某個物體類的似然得分,它是平移不變而且無法區分單個物體實例。比如同樣的一個像素,它既可以是物體1的前景也可以是相鄰物體2的背景,兩個物體屬於同一類,那麼FCN產生的每個類只有一個score map,是沒有辦法區屬於哪一個物體。

InstanceFCN提出了positive-sensitive score map,每個score表示一個像素在某個相對位置上屬於某個物體實例的似然得分。所以本文也要採用position-sensitive score maps,只不過在物體實例中區分inside/outside,目的是想引入一點context信息。

Joint Mask Prediction and Classification

作者認為以往的SDS、Hypercolumn、CFM等演算法,具有相似的結構:兩個子網路分別用於對象分割和檢測子任務,且兩個網路的結構、參數、執行順序隨機。作者認為分離的網路沒有真正挖掘到兩個認為的聯繫,提出共同的 「position-sensitive score map」 ,同時用於object segmentation and detection子任務。

network

RPN與 FCIS 共享卷積層。RPN 產生的興趣區域(RoI)會作用在 score maps 上,同時產生分類和分割預測。

FCIS使用ResNet模型,去除最後一層全連接層,僅訓練卷積層,使用RPN生成ROIs,從conv5層,生成2k2×(C+1)個得分圖,計算分割概率圖和分類得分。

Experiment

按照個人慣例,只展示權威性實驗數據,感興趣的去原文閱讀:

返回CV-Semantic Segmentation目錄

返回CV總目錄

推薦閱讀:

二叉樹什麼場景下會使用?
有哪些充滿暴力美學的數據結構或演算法?
2道極好的Python演算法題|帶你透徹理解裝飾器的妙用
多邊形自交的處理?

TAG:深度学习DeepLearning | 算法 | 计算机视觉 |