SENet閱讀筆記

論文題目:Squeeze-and-Excitation Networks

論文作者:Jie Hu, Li Shen, Gang Sun

論文地址:[1709.01507] Squeeze-and-Excitation Networks

論文代碼:hujie-frank/SENet

前言

SENet在ImageNet 2017 挑戰賽中奪冠。SENet主要關某個卷積層中的每個卷積核提取到的feature map之間的關係。他們提出了SE(Squeeze-and-Excitation)block結構,對卷積層提取到的feature map進行重標定,對每個feature map學習到一個對應的權重,再乘以原來的feature map以達到對feature map進行特徵選擇的作用。SE block可以加入到所有的CNN結構中,同時參數的增加量也不是很大,對比SE-ResNet-50與ResNet-50,前者(加入SE block)的參數量增加了2%~10%,但是SE-ResNet-50可以達到和ResNet-101一樣的精度。

網路結構

圖1 SENet結構圖

圖1就是SENet的結構圖,左邊的第一個feature maps X (大小為 H	imes W	imes C )經過若干層網路 F(tr) 的變換,得到了第二個feature maps U (大小為 H	imes W	imes C )。然後網路分為上下兩個部分,上面的部分就是SE block。SE block是對大小為 H	imes W	imes C 的feature maps的每一個通道(一共 C 個通道)的feature map(大小為 H 	imes W )進行 F_{sq}(cdot) 映射為 1	imes1	imes C ,這樣每一個通道都得到一個對應的值,一個 C 個通道得到 1	imes1	imes C 的一個向量,然後進過 F_{ex}(cdot,W) ,將這些值改變得到新的 1	imes1	imes C 的向量,再與原來的 U 進行相乘, U 的每個通道都乘以重標定後的 1	imes1	imes C 中的對應的值,以達到特徵選擇的作用,最終的 widetilde{X} 就是重標定後的feature maps。

圖2 GoogleNet加入SE block結構圖

如圖2所示,在GoogleNet加入SE block結構。inception結構的輸出大小為 H	imes W	imes C ,此處選擇 F_{sq}(cdot) 為globe average pooling。為了更好的綜合每個feature map中的所有的信息同時又為了不增加太複雜的結構,因此採用了globe average pooling將 H	imes W	imes C 映射為 1	imes 1	imes C ,之後接著的 F_{ex}(cdot,W) 選擇為 FC-RELU-FC-Sigmoid 最終輸出重標定後的 1	imes1	imes C然後經過與inception結構的輸出 H	imes W	imes C 相乘,每個通道都乘以重標定後的 1	imes1	imes C向量中對應的值,就得到了特徵選擇之後的 widetilde{X}

圖3 加入SE block的ResNet結構

計算複雜度

圖4 errro與GPLOPs分析

由圖4可以看出,對比於原模型SE block帶來的計算量很小,但是卻使得top-1 error與top-5 error降低了很多,例ResNet-50在加入SE block之後top-1 error與top-5 error幾乎與原版的ResNet-152相同,但是GFLOPs僅僅增加了0.01。

推薦閱讀:

腦洞大開的機器視覺多領域學習模型結構 | CVPR 2018論文解讀
CycleGAN:圖片風格,想換就換 | ICCV 2017論文解讀
CVPR 2018視頻分析論文關注
GAN階段性小結(損失函數、收斂性分析、訓練技巧、應用「高解析度、domain2domain」、研究方向)
[計算機視覺論文速遞] 2018-04-28

TAG:深度學習DeepLearning | 計算機視覺 | 卷積神經網路CNN |