深度學習從入門到放棄之CV-video segmentation綜述
目錄
1、Problem
2、metrics 、datasets和challenge
3、two main approaches
4、DAVIS-2017 challenge
5、 video segmentation參考文獻
1、Problem
計算機視覺領域中,Image和目標有關的經典任務有三種:classification, detection 和segmentation。其中classification實現「是什麼」,detection 和segmentation都可以實現定位,前者是依照邊界框形式,而後者是像素級的分割。
Video實現目標檢測任務有:Visual tracking,action classification, action (temporal) Recognition, video semantic segmentation,person ReID,Pose estimation等。
video object segmentation和Visual tracking有相似之處。video object segmentation需要解決的是半監督問題,只給出視頻第一幀的正確分割掩膜,然後在之後的每一連續幀中像素級分割標註的目標,實際就是像素級的目標追蹤問題;而Visual tracking解決的是只給出視頻第一幀的定位邊界框,在後續每一連續幀中同樣用邊界框的形式標註物體。兩者關係類似於Segmentation和Detection的關係。
Visual tracking一直是相關濾波的天下,CNN一直很難佔領;video object segmentation自 DAVIS-2016,主流演算法就是基於CNN的OSVOS和MaskTrack。而且classification/detection/ segmentation/Visual tracking論文滿天飛,detection領域有RGB,Kaiming He等不斷填坑,與大神競爭實在是很難。但是,Video Object Segmentation領域才開始,DAVIS Challenge on Video Object Segmentation 才舉辦兩年,演算法實時性/精度有限,很多荒地等待開墾。
基於圖片的語義分割經典演算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Kernel Matters等。但是,視頻目標分割任務和圖片的語義分割有兩個基本區別:視頻目標分割任務分割的是非語義的目標,並且視頻目標分割添加了一個時序模塊,它的任務是在視頻的每一連續幀中尋找目標的對應像素。直接使用經典的語義分割演算法難以達到視頻處理的性能,這也是為什麼基於時序的MaskTrack演算法優於基於視頻獨立幀獨立處理的OSVOS演算法。
Video Segmentation問題中,又可以劃分兩個子類別Unsupervised 和Semi-supervised,如上圖所示:
Unsupervised :任務是查找和分割視頻中的主要目標,因為沒有監督,演算法自行決定主分割是什麼。
Semi-supervised:只給出視頻第一幀的正確分割掩膜,然後在之後的每一連續幀中像素級分割標註的目標,實際就是像素級的目標追蹤問題。Semi-supervised又可以細分為單目標分割和多目標分割。
2、metrics 、datasets和challenge
metrics
分割的準確率主要有兩個標準:
區域相似度(Region Similarity):區域相似度是掩膜 M 和真值 G 之間的 Intersection over Union 函數
輪廓精確度(Contour Accuracy):將掩膜看成一系列閉合輪廓的集合,並計算基於輪廓的 F 度量,即準確率和召回率的函數。即輪廓精確度是對基於輪廓的準確率和召回率的 F 度量。
直觀上,區域相似度度量標註錯誤像素的數量,而輪廓精確度度量分割邊界的準確率。
datasets和challenge
1、DAVIS-2016和DAVIS-2017,鏈接 http://davischallenge.org/code.html
2、DAVIS挑戰賽官網鏈接 http://davischallenge.org/
3、GyGO: E-commerce Video Object Segmentation by Visualead,電商視頻目標分割數據集,鏈接 https://github.com/ilchemla/gygo-dataset
3、two main approaches
DAVIS-2016出現的演算法OSVOS(One Shot Video Object Segmentation,OSVOS)和MaskTrack,成為DAVIS-2017的主流演算法。OSVOS 獨立地分割視頻的每一幀,而 MaskTrack 還需要考慮視頻中的時序信息。OSVOS和MaskTrack 演算法相關論文和筆記可以參考第五部分的目錄。
4、DAVIS-2017 challenge
在準確性方面,2017年DAVIS的表現有了顯著的飛躍。作為參考:2016年最先進的OSVOS在2017年的挑戰中獲得了46%的區域相似度得分,而今年的獲勝者取得了令人印象深刻的67.9分!在DAVIS-2017 22個參賽隊伍中,排名前9位的成績如下:
從上述表格,可以看到如下趨勢:
1、MaskTrack 和OSVOS佔主流,前三名使用MaskTrack ,後六名使用OSVOS,MaskTrack 已經完勝OSVOS。
2、另外一種數據增強方式Lucid Data Dreaming走上舞台。前九名6個參賽隊伍在使用,包括冠軍和亞軍。
3、VGG16和ResNet各佔4名,ResNet走上前台。
4、很多參賽隊在其解決方案中使用語義分割或目標檢測(Faster -RCNN)網路。
5、video segmentation參考文獻
特別參考Eddie Smolyansky撰寫的博客:
The Basics of Video Object Segmentation
A Meta-analysis of DAVIS-2017 Video Object Segmentation Challenge
相關論文:
2016----A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation
2016----Clockwork Convnets for Video Semantic Segmentation
2016----MaskTrack ----Learning Video Object Segmentation from Static Images
2017----DAVIS-Challenge-1st----Video Object Segmentation with Re-identification
2017----DAVIS-Challenge-2nd----Lucid Data Dreaming for Multiple Object Tracking
2017----DAVIS-Challenge-3rd----Instance Re-Identification Flow for Video Object Segmentation
2017----DAVIS-Challenge-4th----Multiple-Instance Video Segmentation with Sequence-Specific Object Proposals
2017----DAVIS-Challenge-5th Online Adaptation of Convolutional Neural Networks for the 2017 DAVIS Challenge on Video Object Segmentation
2017----DAVIS-Challenge-6th ----Learning to Segment Instances in Videos with Spatial Propagation Network
2017----DAVIS-Challenge-7th----Some Promising Ideas about Multi-instance Video Segmentation
2017----DAVIS-Challenge-8th----One-Shot Video Object Segmentation with Iterative Online Fine-Tuning
2017----DAVIS-Challenge-9th----Video Object Segmentation using Tracked Object Proposals
2017----ICCV2017----SegFlow_Joint Learning for Video Object Segmentation and Optical Flow
2017----OSVOS----One-Shot Video Object Segmentation
2017----Surveillance Video Parsing with Single Frame Supervision
2017----The 2017 DAVIS Challenge on Video Object Segmentation
2017----Video Propagation Networks
返回CV總目錄
推薦閱讀:
TAG:深度学习DeepLearning | 计算机视觉 | 算法 |