必讀的計算機視覺開創性論文

04-27

摘要： 學習計算機視覺必須要看的幾篇論文！

從ILSVRC中可以看出，近幾年圖像分類神經網路架構的錯誤率以驚人的幅度下降

深度學習已經存在了幾十年，Yann Lecun在1998年就發表了一篇關於卷積神經網路（CNN）的論文。但是直到十年前，深度學習才開始真正的發展並慢慢成為人工智慧研究的主要焦點領域。這些轉變主要是因為處理能力（即 GPU）的增強、大量可用性的數據（即Imagenet數據集）以及新的演算法和技術。2012年，AlexNet（一種大型深度卷積神經網路），贏得了年度ImageNet大規模視覺識別挑戰賽（ILSVRC）。

從此以後，CNN的變體開始在ILSVRC中稱霸，並超過人類精確度的水平。

作為人類，我們很容易理解圖像的內容。例如，在觀看電影時，我們認知一個東西是矮人後，可以輕鬆的去識別其他的矮人。然而，對於一台機器來說，這項任務極具挑戰性，因為它在這幅圖中看到的是一組數字。

在本篇文章中作者基於以往在深度學習方面的經驗，列出了一些具有啟發性的研究論文，這些論文是任何與計算機視覺相關的人必讀的。

關於圖像分類的開創性研究論文

AlexNet

在2012年的ILSVRC 中，Alex Krizhevsky，IIya Sutskever和Geoffrey Hinton介紹了一種深度卷積神經網路-AlexNet。在這場比賽中AlexNet的以15.4%的錯誤率拿下榜首，並遠超第二名（第二名的錯誤率是26.2%）。AlexNet的這一傲人成績震撼了整個計算機視覺社區，並使深度學習和CNN得到了很大的重視。

這個CNN架構模型清晰地展示了兩個GPU之間的責任劃定：一個GPU運行圖形頂部的圖層部分，另一個運行圖層底部的圖層部分。

這是第一個在ImageNet數據集上表現得非常好的模型，AlexNet奠定了深度學習的基礎。它仍然是關於深度學習中引用次數最多的論文之一，被引用約7000次。

ZFNet

Matthew D Zeiler（Clarifai的創始人）和Rob Fergous奪得了2013年ILSVRC的冠軍，它將錯誤率降至11.2%。ZFNet引入了一種新穎的可視化技術，可以深入了解中間要素圖層的功能以及分類器的運行情況，而這些AlexNet都沒有。

ZFNet的網路架構

ZFNet利用被稱為解卷積網路（Deconvolutional Networks）的技術檢查不同功能激活以及與輸入空間關係。

VGG網路

牛津大學的Karen Simonyan和Andrew Zisserman創建了深度CNN，被選為2014年ISLVRC圖像分類比賽中的第二名。VGG Net表明，通過將深度增加到16-19個重量層可以實現對現有技術配置的顯著改進。

VGG網路的宏觀架構

該架構很容易理解（比GoogleLeNet更為簡單），但仍然可以表現出最佳的準確性。它的特徵映射現在在轉移學習和其他需要預先訓練的網路的演算法中被大量使用，如大多數生成式對抗網路(GANs）。

GoogLeNet

2014年ISLVRC的獲獎者Christian Szegedy等提出了一個名為GoogLeNet的22層神經網路。這是一種初始模型，鞏固了Google在計算機視覺領域的地位。GoogLeNet將錯誤率下降到6.7%。這種架構的主要特徵在於提高了網路內部計算資源的利用率。這是通過精心設計實現的，可以在保持計算預算不變的同時增加網路的深度和寬度。GooLeNet引入了Inception module的概念，並不是所有的事情都是按順序發生的，存在一些並行發生的網路部分。

GoogLeNet架構的示意圖，突出顯示的框是啟動模塊。

值得注意的是，GoogLeNet的錯誤率接近人類的表現。GoogLeNet是第一批將CNN圖層並不總是按順序疊加的概念化模型之一。

RESNET

微軟的ResNet由Kaiming He、Xiangyu Zhang和Shaoqing Ren開發，它是一種學習框架，用於緩解比以前更深的網路訓練。作者提供了全面的經驗證據，表明這些殘留網路更容易優化，並且可以通過增加深度提高準確性。

ResNet架構中的殘餘塊。

ResNet以一種新的152層網路架構，其錯誤率為3.57%，超過了人類的性能，通過一個令人難以置信的架構在分類、檢測和本地化領域創造了新的記錄。

Wide ResNets

Sergey Zagoruyko和Nikos Komodakis在2016年發表了這篇論文，對ResNet模塊的架構進行了詳細的實驗研究，在此基礎上他們提出了一種新穎的架構，它可以減少整個網路的深度並增加殘餘網路的寬度。

作者使用的各種殘餘塊

作者將最終的網路結構命名為寬殘差網路（WRNs）。與ResNet的卷積層相比，Wide ResNet可以具有2-12倍甚至更多的特徵映射。

ResNeXt

ResNeXt在2016年的ILSCRV 中獲得第二名。它是一個簡單的高度模塊化的圖像分類網路架構。ResNeXt設計產生了一種同構的多分支體系結構，只有少數超參數可供設置。

一個ResNeXt塊（右）與一個ResNet塊（左）

這種策略揭示了一個新的維度，作為除深度和寬度維度以外的一個重要因素，作者將其命名為「基數」。容量增加時，增加基數比變深或變寬更有效。因此，它的準確性要高於ResNets和Wide ResNets。

DenseNet

密集卷積網路由Gao Huang, Zhuang Liu,Kilian Q.Weinberger和Laurens van der Maaten在2016年開發，以前饋方式將每層連接到每個其他層。對於每一層，前面所有圖層的特徵映射都被用作輸入，並且它自己的特徵映射被用作所有後續圖層的輸入。

一個5層密集塊。每個圖層都將前面的所有要素圖作為輸入。

DenseNet有幾個引人注目的優點，例如緩解梯度消失問題，加強特徵傳播，鼓勵特徵重用以及大幅度減少參數數量。DenseNet勝過ResNets,同時需要更少的內存和計算來實現高性能。

新的構架具有前景廣闊的未來潛力

CNN的變體可能主宰圖像分類體系結構設計。Attention Modules和SENets將在適當的時候變得更加重要。

SENets

2017年ILSCRV 的獲獎作品Squeeze-and-Excutation Networks（SENet）在比賽中錯誤率為令人難以置信的2.251%，該作品適用於擠壓、激勵和縮放操作。SENets並沒有為特徵通道的整合引入新的空間，而是開展了一項新的「特徵重新校準」策略。

SENet模型的示意圖：擠壓，激勵和縮放操作

作者模擬了功能通道之間的相互依賴關係。訓練SENet可以自動獲得每個功能通道的重要性，並利用這個來增強有用的功能。

Residual Attention Networks

Residual Attention Network是一種使用注意機制的卷積神經網路，可以以端到端的訓練方式與先進的前饋網路架構（state-of-art feed forward network）相結合。注意力殘留學慣用於訓練非常深的Residual Attention Networks，這些網路可以輕鬆擴展到數百層。

Residual Attention Network分類插圖：選擇的圖像顯示不同的功能在參與注意網路中具有不同的對應注意掩碼。天空面具減少了低級別的背景藍色功能。氣球示例蒙版突出顯示高級氣球底部特徵。

本文由阿里云云棲社區組織翻譯，譯文鏈接：http://click.aliyun.com/m/46069/

文章原標題《Must-read Path-breaking Papers About Image Classification》

作者：PARTH SHRIVASTAVA

譯者：烏拉烏拉，審校：袁虎。

文章為簡譯，更為詳細的內容，請查看原文文章。

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎