【CV-Semantic Segmentation】FCIS閱讀筆記

02-05

原論文Fully Convolutional Instance-aware Semantic Segmentation

motivation

作者認為這是第一篇full sonvolutional end-to-end的解決方案來完成instance-aware segmentation任務（FCIS），也是MSCOCO2016數據集上的第一名。

這篇文章主要解決的問題是 instance segmentation（也稱為Simultaneous Detection and Segmentation）。instance segmentation比起檢測，需要得到物體更精確的邊界信息；比起語義分割，需要區分不同的物體個體，所以說它要解決的問題是檢測（Object Detection）和語義分割（Semantic Segmentation）綜合的問題（在CV總目錄中有這些區別的示意圖）。

MSRA團隊不只是在object detection領域霸佔很多年，Deformable Convolutional Networks，R-FCN、Mask R-CNN等這些耳熟能詳的模型，現在又利用先發優勢去搞 instance segmentation，實力相當強悍。

本論文mxnet的實現版本：https://github.com/msracver/FCIS ，可以認真研究一下模型的復現。

註：理解本篇論文需要深入了解MSRA的另外兩篇文章： ● Instace-sensitive Fully Convolutional Networks.ECCV 2016 ● R-FCN:Object Detection via Region-based Fully Convolutional Networks.NIPS2016

Architecture

CNN具有平移不變性，可用於分類，但是由於同一圖像像素無論在什麼位置都將得到相同的響應，即對位置不敏感。而instance segmentation需要同時對位置信息和類別信息進行判定。作者首先指出之前自家模型FCN和InstanceFCN的缺點（與其否定自己不如自己先否定自己，不斷對自己革命）：FCN 最終輸出的是類別的概率圖，只有類別輸出，沒有單個對象輸出，InstanceFCN輸出3*3的位置信息圖，只有單個對象輸出，沒有類別信息，需要單獨的downstream網路完成類別信息。本文的 FCIS通過計算position-sensitive inside/outside score maps，同時輸出 instance mask 和類別信息。

Position-sensitive Score Map Parameterization

FCN中訓練一個classifier來預測一個像素屬於某個物體類的似然得分，它是平移不變而且無法區分單個物體實例。比如同樣的一個像素，它既可以是物體1的前景也可以是相鄰物體2的背景，兩個物體屬於同一類，那麼FCN產生的每個類只有一個score map，是沒有辦法區屬於哪一個物體。

InstanceFCN提出了positive-sensitive score map，每個score表示一個像素在某個相對位置上屬於某個物體實例的似然得分。所以本文也要採用position-sensitive score maps，只不過在物體實例中區分inside/outside，目的是想引入一點context信息。

Joint Mask Prediction and Classification

作者認為以往的SDS、Hypercolumn、CFM等演算法，具有相似的結構：兩個子網路分別用於對象分割和檢測子任務，且兩個網路的結構、參數、執行順序隨機。作者認為分離的網路沒有真正挖掘到兩個認為的聯繫，提出共同的「position-sensitive score map」，同時用於object segmentation and detection子任務。

network

RPN與 FCIS 共享卷積層。RPN 產生的興趣區域（RoI）會作用在 score maps 上，同時產生分類和分割預測。

FCIS使用ResNet模型，去除最後一層全連接層，僅訓練卷積層，使用RPN生成ROIs，從conv5層，生成2k2×(C+1)個得分圖，計算分割概率圖和分類得分。

Experiment

按照個人慣例，只展示權威性實驗數據，感興趣的去原文閱讀：

返回CV-Semantic Segmentation目錄

返回CV總目錄