FCN學習筆記

FCN學習筆記

來自專欄 腦圖像深度搬磚之路

原文:Fully Convolutional Networks for Semantic Segmentation

評價(翻譯自A Review on Deep Learning Techniques Applied to Semantic Segmentation):

最近,最成功用於語義分割的深度學習技術均來自同一個工作,即全卷積網路FCN [65],該方法的出色之處在於,其利用了現存的CNN網路作為其模塊來產生層次化的特徵。作者將現存的知名的分類模型包括AlexNet、VGG-16、GoogLeNet和ResNet等轉化為全卷積模型:將其全連接層均替換為卷積層,輸出空間映射而不是分類分數。這些映射由小步幅卷積上採樣(又稱反卷積)得到,來產生密集的像素級別的標籤。該工作被視為里程碑式的進步,因為它闡釋了CNN如何可以在語義分割問題上被端對端的訓練,而且高效的學習了如何基於任意大小的輸入來為語義分割問題產生像素級別的標籤預測。本方法在標準數據集如PASCAL VOC分割準確率上相對於傳統方法取得了極大的進步,且同樣高效。由於上述及更多顯著的貢獻,FCN成為了深度學習技術應用於語義分割問題的基石。

先介紹下語義分割,我之前做的是PPT,所以直接就把PPT轉成圖片放進來了


接著進入FCN的論文內容

跳過論文1、2章,看第3章

下圖對應論文3.1

對應論文3.2、3.3、3.4,說了下傳統的dense prediction方法(現在也基本不用這些方法了)

dense prediction直譯是密集預測,意思大概就是對圖像的像素都進行類別預測(其實和語義分割的任務要求意思差不多)


論文第4章,網路結構

先降採樣(卷積、池化),再上採樣(反卷積)

降採樣是為了更好的獲得語義信息,就是不多卷幾層就沒法正確分類。但是卷積和池化之後feature map變的很小了,需要還原成原圖大小,所以就用上採樣(反卷積)的方式把feature map 還原回原圖大小。

下面解釋下反卷積(本人渣渣若有錯誤請大神指正)

下面舉例說下反卷積怎麼算的,以及為啥人們都說反卷積其實應該叫轉置卷積

人類是像下圖這樣計算卷積的

人類實現卷積運算

但是計算機實際上是下圖這樣計算卷積的

計算機實現卷積運算

所以計算機實現反卷積(轉置卷積)實際上是下圖這樣算的

計算機實現反卷積(轉置卷積)

把上圖的操作變成人類的操作就是下圖這樣:

所以就相當於那個動畫中pad了兩圈零再進行了卷積

再插下剛才那個圖


回到論文,下圖是FCN論文提出的網路結構


總結下


推薦閱讀:

圖像語義分割入門+FCN/U-Net網路解析
語言背後的代數學(三):語義模型
語言背後的代數學(六):Henkin模型

TAG:深度學習DeepLearning | 圖像分割 | 語義 |