語義分割 | 發展綜述

語義分割 | 發展綜述

來自專欄 ApprentissageProfond22 人贊了文章

發現好多同學收藏但是不贊??

上周做了一個語義分割的綜述報告,現在把報告總結成文章。這篇文章將分為三個部分:

1.語義分割基本介紹:明確語義分割解決的是什麼問題。

2.從FCN到Deeplab v3+:解讀語義分割模型的發展,常用方法與技巧

3.代碼實戰中需要注意的問題。


一.語義分割基本介紹

1.1 概念

語義分割(semantic segmentation) : 就是按照「語義」給圖像上目標類別中的每一點打一個標籤,使得不同種類的東西在圖像上被區分開來。可以理解成像素級別的分類任務。

輸入: (H*W*3)就是正常的圖片

輸出: ( H*W*class )可以看為圖片上每個點的one-hot表示,每一個channel對應一個class,對每一個pixel位置,都有class數目 個channel,每個channel的值對應那個像素屬於該class的預測概率。

figure1

1.3評價準則

1.像素精度(pixel accuracy ):每一類像素正確分類的個數/ 每一類像素的實際個數。

2.均像素精度(mean pixel accuracy ):每一類像素的精度的平均值。

2.平均交並比(Mean Intersection over Union):求出每一類的IOU取平均值。IOU指的是兩塊區域相交的部分/兩個部分的並集,如figure2中 綠色部分/總面積。

4.權頻交並比(Frequency Weight Intersection over Union):每一類出現的頻率作為權重

figure2

二.從FCN 到Deeplab V3+ :語義分割的原理和常用技巧

2.1 FCN

FCN是語義分割的開山之作,主要特色有兩點:

1.全連接層換成卷積層

2.不同尺度的信息融合FCN-8S,16s,32s

看詳細講解 推薦:

ZOMI:全卷積網路 FCN 詳解?

zhuanlan.zhihu.com圖標

2.1.1 全連接層換成卷積層

figure3

以Alexnet的拓撲結構為例

原本的結構:224大小的圖片經過一系列卷積,得到大小為1/32 = 7的feature map,經過三層全連接層,得到基於FC的分散式表示。

我們把三層全連接層全都換成卷積層,卷積核的大小和個數如下圖中間行所示,我們去掉了全連接層,但是得到了另外一種基於不同channel的分散式表示:Heatmap

舉一個例子,我們有一個大小為384的圖片,經過替換了FC的Alexnet,得到的是6*6*1000的Heatmap,相當於原來的Alexnet 以stride = 32在輸入圖片上滑動,經過上採樣之後,就可以得到粗略的分割結果。

figure4

2.1.2 不同尺度的信息融合

就像剛剛舉的Alexnet的例子,對於任何的分類神經網路我們都可以用卷積層替換FC層,只是換了一種信息的分散式表示。如果我們直接把Heatmap上採樣,就得到FCN-32s。如下圖

figure5

但是我們知道,隨著一次次的池化,雖然感受野不斷增大,語義信息不斷增強。但是池化造成了像素位置信息的丟失:直觀舉例,1/32大小的Heatmap上採樣到原圖之後,在Heatmap上如果偏移一個像素,在原圖就偏移32個像素,這是不能容忍的。

見figure6,前面的層雖然語義信息較少,但是位置信息較多,作者就把1/8 1/16 1/32的三個層的輸出融合起來了。先把1/32的輸出上採樣到1/16,和Pool4的輸出做elementwose addition , 結果再上採樣到1/8,和Pool3的輸出各個元素相加。得到1/8的結果,上採樣8倍,求Loss。

figure6

2.2 U-net

figure7

U-net用於解決小樣本的簡單問題分割,比如醫療影片的分割。它遵循的基本原理與FCN一樣:

1.Encoder-Decoder結構:前半部分為多層卷積池化,不斷擴大感受野,用於提取特徵。後半部分上採樣回復圖片尺寸。

2.更豐富的信息融合:如灰色剪頭,更多的前後層之間的信息融合。這裡是把前面層的輸出和後面層concat(串聯)到一起,區別於FCN的逐元素加和。不同Feature map串聯到一起後,後面接卷積層,可以讓卷積核在channel上自己做出選擇。注意的是,在串聯之前,需要把前層的feature map crop到和後層一樣的大小。

2.3 SegNet

figure 8

在結構上看,SegNet和U-net其實大同小異,都是編碼-解碼結果。區別在意,SegNet沒有直接融合不同尺度的層的信息,為了解決為止信息丟失的問題,SegNet使用了帶有坐標(index)的池化。如下圖所示,在Max pooling時,選擇最大像素的同時,記錄下該像素在Feature map的位置(左圖)。在反池化的時候,根據記錄的坐標,把最大值復原到原來對應的位置,其他的位置補零(右圖)。後面的卷積可以把0的元素給填上。這樣一來,就解決了由於多次池化造成的位置信息的丟失。

figure9

2.4 Deeplab V1

figure10

這篇論文不同於之前的思路,他的特色有兩點:

1.由於Pooling-Upsample會丟失位置信息而且多層上下採樣開銷較大,把控制感受野大小的方法化成:帶孔卷積(Atrous conv)

2.加入CRF(條件隨機場),利用像素之間的關連信息:相鄰的像素,或者顏色相近的像素有更大的可能屬於同一個class。

2.4.1 Atrous Conv

如右下圖片所示,一個擴張率為2的帶孔卷積接在一個擴張率為1的正常卷積後面,可以達到大小為7的感受野,但是輸出的大小並沒有減小,參數量也沒有增大。

figure 11

2.4.2 條件隨機場CRF

2.5 PSPnet

figure12

原理都大同小異,前面的不同level的信息融合都是融合淺層和後層的Feature Map,因為後層的感受野大,語義特徵強,淺層的感受野小,局部特徵明顯且位置信息豐富。

PSPnet則使用了空間金字塔池化,得到一組感受野大小不同的feature map,將這些感受野不同的map concat到一起,完成多層次的語義特徵融合。

2.6 Deeplab V2

figure 13

Deeplab v2在v1的基礎上做出了改進,引入了ASPP(Atrous Spatial Pyramid Pooling)的結構,如上圖所示。我們注意到,Deeplab v1使用帶孔卷積擴大感受野之後,沒有融合不同層之間的信息。

ASPP層就是為了融合不同級別的語義信息:選擇不同擴張率的帶孔卷積去處理Feature Map,由於感受野不同,得到的信息的Level也就不同,ASPP層把這些不同層級的feature map concat到一起,進行信息融合。

2.7 Deeplab v3

Deeplab v3在原有基礎上的改動是:

1.改進了ASPP模塊

2.引入Resnet Block

3.丟棄CRF

figure14

新的ASPP模塊:

1.加入了Batch Norm

2.加入特徵的全局平均池化(在擴張率很大的情況下,有效權重會變小)。如圖14中的(b)Image Pooling就是全局平均池化,它的加入是對全局特徵的強調、加強。

在舊的ASPP模塊中:我們以為在擴張率足夠大的時候,感受野足夠大,所以獲得的特徵傾向於全局特徵。但實際上,擴張率過大的情況下,Atrous conv出現了「權值退化」的問題,感受野過大,都已近擴展到了圖像外面,大多數的權重都和圖像外圍的zero padding進行了點乘,這樣並沒有獲取圖像中的信息。有效的權值個數很少,往往就是1。於是我們加了全局平均池化,強行利用全局信息。

2.8 Deeplab v3+

可以看成是把Deeplab v3作為編碼器(上半部分)。後面再進行解碼,並且在解碼的過程中在此運用了不同層級特徵的融合。

此外,在encoder部分加入了Xception的結構減少了參數量,提高運行速遞。關於Xception如何減少參數量,提高速度。建議閱讀論文 : Mobilenet

https://arxiv.org/pdf/1704.04861.pdf?

arxiv.org

2.9 套路總結

看完這麼多論文,會發現他們的方法都差不多,總結為一下幾點。在自己設計語義分割模型的時候,遵循一下規則,都是可以漲點的。但是要結合自己的項目要求,選擇合適的方法。

1.全卷積網路,滑窗的形式

2.感受野的控制: Pooling+Upsample => Atrous convolution

3.不同Level的特徵融合: 統一尺寸之後Add / Concat+Conv, SPP, ASPP…

4.考慮相鄰像素之間的關係:CRF

6.在條件允許的情況下,圖像越大越好。

5.分割某一個特定的類別,可以考慮使用先驗知識+ 對結果進行圖像形態學處理

6.此外還有一些其他的研究思路:實時語義分割,視頻語義分割

推薦閱讀:

機械男到tfboy的歷程
學習深度學習的四個步驟
演算法太多挑花眼?教你如何選擇正確的機器學習演算法
面向機器學習的特徵工程 三、文本數據: 展開、過濾和分塊
有了這個神器,機器學習特徵選擇再也不用愁!

TAG:計算機視覺 | 機器學習 |