實現端到端的物體分割訓練

實現端到端的物體分割訓練

來自專欄 Paper Reading15 人贊了文章

編者按:Momenta Paper Reading致力於打造一個自動駕駛學術前沿知識的分享溝通平台,深入淺出讓你輕鬆讀懂AI。

本期分享的論文是《Fully Convolutional Instance-aware Semantic Segmentation》。

本文為Momenta高級研發工程師梁繼對精彩論文的解讀,後附現場與論文作者QA的實錄。

自從 FCN(Fully Convolutional Networks for Semantic Segmentation) 一文將全卷積、端到端的訓練框架應用在了圖像分割領域,這種高效的模式被廣泛應用在了大多數的語義分割任務(semantic segment)中。它在網路結構中只使用卷積操作,輸出結果的通道個數和待分類的類別個數相同。後接一個 softmax 操作來實現每個像素的類別訓練。

物體分割(instance aware segment)有別於語義分割。在語義分割中,同一類的物體並不區分彼此,而是統一標記為同一類。但物體分割需要區分每一個獨立的個體。

上圖的示例可以看出兩個任務的區別。左圖中的五隻羊,在語義分割任務中(中圖),被賦予了同一種類別標籤。而在物體分割中(右圖),每隻羊都被賦予了不同的類別。

在一張圖像中,待分割的物體個數是不定的,每個物體標記一個類別的話,這張圖像的類別個數也是不定的,導致輸出的通道個數也無法保持恆定,所以不能直接套用FCN的端到端訓練框架。

因此,一個直接的想法是,先得到每個物體的檢測框,在每個檢測框內,再去提取物體的分割結果。這樣可以避免類別個數不定的問題。比如,在faster rcnn的框架中,提取ROI之後,對每個ROI區域多加一路物體分割的分支。

這種方法雖然可行,但留有一個潛在的問題:label的不穩定。 想像一下有兩個人(A,B)離得很近,以至於每個人的檢測框都不得不包含一些另一個人的區域。當我們關注A時,B被引入的部分會標記為背景;相反當我們關注B時,這部分會被標記為前景。

為了解決上述問題,本文引用了一種 Instance-sensitive score maps 的方法(首先在 Instance-sensitive Fully Convolutional Networks 一文中被提出),簡單卻有效的實現了端到端的物體分割訓練。

具體的作法是:

將一個object 的候選框分為NxN的格子,每個格子的feature 來自不同通道的feature map。

以上圖為例,可以認為,將物體分割的輸出分成了9個channel,分別學習object 的左上,上,右上…..右下等9個邊界。

這種改變將物體從一個整體打散成為9個部分,從而在任何一張feature map上,兩個相鄰的物體的label不再連在一起(feature map 1 代表物體的左上邊界,可以看到兩個人的左上邊界並沒有連在一起), 因此,在每張feature map上,兩人都是可區分的。

打個比喻,假設本來我們只有一個person類別,兩個人如果肩並肩緊挨著站在一起,則無法區分彼此。 如果我們劃分了左手,右手,中心軀幹等三個類別,用三張獨立的feature map 代表。那麼在每張feature map上兩個人都是可區分的。 當我們需要判斷某個候選框內有沒有人時,只需要對應的去左手,右手,中心軀幹的feature map上分別去對應的區域拼在一起,看能不能拼成一個完整的人體即可。

借用這個方法,本文提出了一個物體分割端到端訓練的框架,如上圖所示,使用region proposal網路提供物體分割的ROI,對每個ROI區域,應用上述方法,得到物體分割的結果。

文章中還有一些具體的訓練細節,不過這裡不再佔用篇幅贅述。本文最大的價值在於,第一個提出了在物體分割中可以端到端訓練的框架,是繼FCN之後分割領域的又一個重要進展。

作者Q&A

Q1: 文中將物體劃分為NxN的格子,這種人為規則是否有不適用的情況?

A1:目前還沒有發現不適用的情況。對於硬性劃分帶來的潛在問題,可以考慮一些soft 分格的方法。

Q2: 是否考慮去掉rpn提取proposal的步驟,直接在整圖上做multi class 的 instance aware segment?

A2:這也是我們要嘗試實現的。

Q3: instance aware segment目前主要的應用場景是什麼?

A3:不清楚。留給做應用開發的人去發掘。

論文下載鏈接:openaccess.thecvf.com/c

(版權歸原作者所有,資源僅供學習交流使用)

------------------------------------------------

知乎機構號:Momenta,打造自動駕駛大腦。

基於深度學習的環境感知、高精度地圖、駕駛決策技術,讓無人駕駛成為可能。

Momenta?

www.zhihu.com圖標

知乎專欄:Paper Reading,集聚自動駕駛知名大咖的前沿知識分享平台,歡迎申請加入或直接投稿。

Paper Reading?

zhuanlan.zhihu.com圖標


推薦閱讀:

Master AI | 研發背後不為人知的故事
2018年10篇最值得閱讀的深度學習文章
Maker的深度學習玩具? 角蜂鳥AI視覺套件
2030年行業的爆發點
人工智慧寫詩,你怎麼看?

TAG:人工智慧 | 機器學習 | 深度學習DeepLearning |