標籤:

Mask Rcnn 論文翻譯(2)

Mask Rcnn 論文翻譯(2)

來自專欄 深度學習論文翻譯

論文地址:arxiv.org/pdf/1703.0687

Mask R-CNN在概念上是簡單的:Faster R-CNN對於每個候選對象具有兩個輸出,一個類別標籤和多餘的偏移量;為此,我們添加一個第三個分支輸出對象掩碼。Mask R-CNN因此是一個自然而直觀的想法。但是額外的掩碼輸出不同於類和框輸出,需要提取物體的更精細的空間布局。 接下來,我們介紹Mask R-CNN的關鍵要素,包括像素對像素對齊,這是Fast/Faster R-CNN的主要缺失部分。

Faster R-CNN:我們首先簡要回顧一下Faster R-CNN探測器[34]。Faster R-CNN由兩個階段組成。第一階段稱為區域提案網路(RPN),提出候選對象邊界框.第二階段,本質上是Fast R-CNN [12],使用RoIPool從每個候選框中提取特徵並執行分類和邊界框回歸。兩個階段使用的功能可以共享以加快推斷速度. 我們引用讀者[21]進行最新的綜合比較 更快的R-CNN和其他框架。

Mask R-CNN:Mask R-CNN採用相同的兩階段流程,與第一階段相同(即RPN)。在第二階段,並行地預測類別和邊框偏移量,Mask R-CNN也為每個RoI輸出一個二進位掩碼。這與分類所依賴的最新系統形成對比在掩模預測(例如[32,10,26])上。我們的方法遵循Fast R-CNN的精神[12]並行應用邊界框分類和回歸(這實際上很大程度上簡化了原有R-CNN的多級流水線[13])。

形式上,在訓練期間,我們將每個抽樣的RoI定義多任務loss為:

分類損失 L_{cls} 和邊界框丟失 L_{box} 與[12]中定義的相同。掩碼分支對於每個RoI具有 K_{m^{2}} 維輸出,它編碼解析度為 K 個二進位掩碼 m*m ,每個 K 類一個。為此,我們應用每像素點用sigmoid,並定義 L_{mask} 作為平均二元交叉熵損失。對於與真實情況類 K 相關的RoI, L_{mask}僅在第k個mask上定義(其他掩碼輸出不會造成損失)。

我們對 L_{mask} 的定義允許網路為每個類生成mask 沒有類之間的競爭;我們依靠專門的分類分支來預測用於的分類標籤選擇輸出掩碼。這可以將掩碼和類別預測分開。這與應用FCN進行語義分割時的常見做法不同[29],其通常使用每像素softmax和多項交叉熵損失。在這種情況下,跨類的mask競爭; 在我們的案例中,與每像素sigmoid和二進位損失,他們不存在這些缺點。我們通過實驗證明這個配方是獲得良好的實例分割結果的關鍵。

掩碼錶示法:掩碼編碼輸入對象的空間布局。因此,與通過完全連接(fc)層不可避免地摺疊成短輸出矢量的類標籤或框偏移不同,提取掩模的空間結構可以通過卷積提供的像素到像素對應自然地解決。

具體來說,我們從每個RoI預測一個 m*m 的mask使用FCN [29]。這允許掩碼分支中的每個層保持顯式的 m*m 而不將其摺疊成缺少空間維度的矢量表示。與之前的方法採用fc層進行掩模預測不同[32,33,10], 我們的完全卷積表示需要更少的參數,並且如實驗所證明的那樣更精確。

這種像素到像素的行為需要我們的RoI功能,其中本身是小特徵地圖,很好地對齊以忠實地保留顯式的每個像素的空間對應。這促使我們開發了以下RoIAlign圖層,該圖層在mask預測中發揮關鍵作用。

RoIAlign:RoIPool [12]是從每個RoI提取小特徵映射(例如,7*7)的標準操作。RoIPool首先將浮點數RoI量化為特徵映射的離散粒度,然後將這個量化的RoI細分為自身量化的空間倉,

最後匯總每個bin所涵蓋的特徵值(通常通過最大池)。通過計算[x / 16]在例如連續坐標x上執行量化,其中16是特徵映射步長並且是舍入;同樣地,當分成分箱時執行量化(例如,7*7)。這些量化引入了RoI之間的不一致和提取的功能。 雖然這可能不會影響分類,這對於小型翻譯很有用,它對預測像素精確的掩模有很大的負面影響。

歡迎關注公眾號:huangxiaobai880

https://www.zhihu.com/video/952838209491664896
推薦閱讀:

《代微積拾級》中的符號和術語
To cure sometimes, to relieve often and to comfort always
Families and work 家庭和工作,性別鴻溝仍待跨越
中英對照:李克強總理在2017夏季達沃斯論壇開幕式上的致辭
DF277翻譯對比:萬丈潭(杜甫)

TAG:翻譯 |