《Learning Video Object Segmentation with Visual Memory》論文筆記

ICCV 2017接收論文,做video objec segmentation任務。

Basic idea:

引入two-stream網路,同時帶有一個memory module。Memory module用來捕獲視頻中目標的演化,由convolutional gated recurrent units(Conv GRU)構成。

Two stream包括appearance stream和temporal stream。

Appearance stream:採用DeepLab(largeFOV版本)網路,在PASCAL VOC上預訓練過。取視頻的一幀作為輸入。

Temporal stream:是一個motion prediction network,網路採用MPNet(作者之前的工作),在FlyingThings3D 上預訓練過。光流作為motion network的輸入。

Memory module:由convolutional gated units (ConvGRU)構成。兩條分支的輸出結果串接在一起,作為Conv GRU的輸入。

Bidirectional processing:考慮到視頻存在這樣的情況:目標前幾幀是靜止的,後面才開始移動。作者的方法前向處理不能分割好初始幀的目標,因為缺少prior memory representation of the object in the first frame。所以採取雙向處理的方式。

雙向處理如上圖所示。兩個並行的ConvGRU,第一個從第一幀開始前向處理,第二個從最後一幀開始後向處理。來自兩個方向的激活輸出被串接起來。

在實驗部分展示了雙向處理能夠帶來將近3%的提升(在DAVIS數據集上),5%的提升(在Freiburg-Berkeley數據集上)

Contribution:

1. present an approach for moving object segmentation in unconstrained videos that does not require any manually-annotated frames in the input video。網路結構包含 memory unit,this is the first recurrent network based approach to accomplish the video segmentation task。

2. 在DAVIS和Freiburg-Berkeley兩個數據集上得到state-of-the-art的結果。

論文鏈接:arxiv.org/pdf/1704.0573

推薦閱讀:

TAG:深度學習DeepLearning | 計算機視覺 | 人工智慧 |