深度學習從入門到放棄之CV-video segmentation綜述

目錄

1、Problem

2、metrics 、datasets和challenge

3、two main approaches

4、DAVIS-2017 challenge

5、 video segmentation參考文獻

1、Problem

計算機視覺領域中,Image和目標有關的經典任務有三種:classification, detection 和segmentation。其中classification實現「是什麼」,detection 和segmentation都可以實現定位,前者是依照邊界框形式,而後者是像素級的分割。

Classical computer vision tasks (image from Stanford』s cs231n course slides)

Video實現目標檢測任務有:Visual tracking,action classification, action (temporal) Recognition, video semantic segmentation,person ReID,Pose estimation等。

video object segmentation和Visual tracking有相似之處。video object segmentation需要解決的是半監督問題,只給出視頻第一幀的正確分割掩膜,然後在之後的每一連續幀中像素級分割標註的目標,實際就是像素級的目標追蹤問題;而Visual tracking解決的是只給出視頻第一幀的定位邊界框,在後續每一連續幀中同樣用邊界框的形式標註物體。兩者關係類似於Segmentation和Detection的關係。

Visual tracking一直是相關濾波的天下,CNN一直很難佔領;video object segmentation自 DAVIS-2016,主流演算法就是基於CNN的OSVOS和MaskTrack。而且classification/detection/ segmentation/Visual tracking論文滿天飛,detection領域有RGB,Kaiming He等不斷填坑,與大神競爭實在是很難。但是,Video Object Segmentation領域才開始,DAVIS Challenge on Video Object Segmentation 才舉辦兩年,演算法實時性/精度有限,很多荒地等待開墾。

基於圖片的語義分割經典演算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Kernel Matters等。但是,視頻目標分割任務和圖片的語義分割有兩個基本區別:視頻目標分割任務分割的是非語義的目標,並且視頻目標分割添加了一個時序模塊,它的任務是在視頻的每一連續幀中尋找目標的對應像素。直接使用經典的語義分割演算法難以達到視頻處理的性能,這也是為什麼基於時序的MaskTrack演算法優於基於視頻獨立幀獨立處理的OSVOS演算法。

Segmentation子領域和代表數據集

Video Segmentation問題中,又可以劃分兩個子類別Unsupervised 和Semi-supervised,如上圖所示:

Unsupervised :任務是查找和分割視頻中的主要目標,因為沒有監督,演算法自行決定主分割是什麼。

Semi-supervised:只給出視頻第一幀的正確分割掩膜,然後在之後的每一連續幀中像素級分割標註的目標,實際就是像素級的目標追蹤問題。Semi-supervised又可以細分為單目標分割和多目標分割。

2、metrics 、datasets和challenge

metrics

分割的準確率主要有兩個標準:

區域相似度(Region Similarity):區域相似度是掩膜 M 和真值 G 之間的 Intersection over Union 函數

輪廓精確度(Contour Accuracy):將掩膜看成一系列閉合輪廓的集合,並計算基於輪廓的 F 度量,即準確率和召回率的函數。即輪廓精確度是對基於輪廓的準確率和召回率的 F 度量。

直觀上,區域相似度度量標註錯誤像素的數量,而輪廓精確度度量分割邊界的準確率。

datasets和challenge

1、DAVIS-2016和DAVIS-2017,鏈接 davischallenge.org/code

2、DAVIS挑戰賽官網鏈接 davischallenge.org/

3、GyGO: E-commerce Video Object Segmentation by Visualead,電商視頻目標分割數據集,鏈接 github.com/ilchemla/gyg

3、two main approaches

DAVIS-2016出現的演算法OSVOS(One Shot Video Object Segmentation,OSVOS)和MaskTrack,成為DAVIS-2017的主流演算法。OSVOS 獨立地分割視頻的每一幀,而 MaskTrack 還需要考慮視頻中的時序信息。OSVOS和MaskTrack 演算法相關論文和筆記可以參考第五部分的目錄。

4、DAVIS-2017 challenge

在準確性方面,2017年DAVIS的表現有了顯著的飛躍。作為參考:2016年最先進的OSVOS在2017年的挑戰中獲得了46%的區域相似度得分,而今年的獲勝者取得了令人印象深刻的67.9分!在DAVIS-2017 22個參賽隊伍中,排名前9位的成績如下:

從上述表格,可以看到如下趨勢:

1、MaskTrack 和OSVOS佔主流,前三名使用MaskTrack ,後六名使用OSVOS,MaskTrack 已經完勝OSVOS。

2、另外一種數據增強方式Lucid Data Dreaming走上舞台。前九名6個參賽隊伍在使用,包括冠軍和亞軍。

3、VGG16和ResNet各佔4名,ResNet走上前台。

4、很多參賽隊在其解決方案中使用語義分割或目標檢測(Faster -RCNN)網路。

5、video segmentation參考文獻

特別參考Eddie Smolyansky撰寫的博客:

The Basics of Video Object Segmentation

A Meta-analysis of DAVIS-2017 Video Object Segmentation Challenge

相關論文:

2016----A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

2016----Clockwork Convnets for Video Semantic Segmentation

2016----MaskTrack ----Learning Video Object Segmentation from Static Images

2017----DAVIS-Challenge-1st----Video Object Segmentation with Re-identification

2017----DAVIS-Challenge-2nd----Lucid Data Dreaming for Multiple Object Tracking

2017----DAVIS-Challenge-3rd----Instance Re-Identification Flow for Video Object Segmentation

2017----DAVIS-Challenge-4th----Multiple-Instance Video Segmentation with Sequence-Specific Object Proposals

2017----DAVIS-Challenge-5th Online Adaptation of Convolutional Neural Networks for the 2017 DAVIS Challenge on Video Object Segmentation

2017----DAVIS-Challenge-6th ----Learning to Segment Instances in Videos with Spatial Propagation Network

2017----DAVIS-Challenge-7th----Some Promising Ideas about Multi-instance Video Segmentation

2017----DAVIS-Challenge-8th----One-Shot Video Object Segmentation with Iterative Online Fine-Tuning

2017----DAVIS-Challenge-9th----Video Object Segmentation using Tracked Object Proposals

2017----ICCV2017----SegFlow_Joint Learning for Video Object Segmentation and Optical Flow

2017----OSVOS----One-Shot Video Object Segmentation

2017----Surveillance Video Parsing with Single Frame Supervision

2017----The 2017 DAVIS Challenge on Video Object Segmentation

2017----Video Propagation Networks

返回CV總目錄


推薦閱讀:

TAG:深度学习DeepLearning | 计算机视觉 | 算法 |