[計算機論文速遞] 2018-03-23

04-15

通知：這篇文章有15篇論文速遞信息，涉及目標檢測、目標跟蹤、姿態估計、SLAM、GAN、行為識別、去霧、網路優化等方向

PS：計算機論文速遞，純屬個人興趣，目前只是速遞，所以只有知識面上的廣度，還沒有深度。由於整理資料工作量較大，所以下述翻譯就直接google來的，所以還請大家見諒~

目標檢測

[1]《Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection》

Abstract：近年來，使用深度學習技術在物體檢測領域取得了令人振奮的成就。儘管取得了重大進展，但是大多數現有的檢測器被設計用於檢測具有相對低質量的位置預測的對象，即，通常在默認情況下用交叉點聯合（IoU）閾值設置為0.5來訓練，這可以產生低質量或者甚至是低質量嘈雜的檢測。如何在不犧牲檢測性能的情況下設計和訓練能夠實現更精確定位（即IoU [數學處理誤差] 0.5）的高質量檢測器仍然是一個公開挑戰。在本文中，我們提出了一種雙向金字塔網路（BPN）的新型單發檢測框架，以實現高質量的目標檢測，該框架由兩個新穎的組件組成：（i）雙向特徵金字塔結構，用於更有效和更魯棒的特徵表示;和（ii）梯級錨定細化，以逐步改善預先設計的錨點的質量以進行更有效的訓練。我們的實驗表明，所提出的BPN在PASCAL VOC和MS COCO數據集上的所有單級物體檢測器中都達到了最佳性能，特別是對於高質量檢測。

註：咦，提高IoU的目標檢測器！還是Single-Shot類型！Bidirectional Pyramid Networks (BPN)！！！實驗結果IoU在0.5、0.6和0.7下的mAp是最高的！比two-stage還高！

arXiv：

[1803.08208] Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection?

arxiv.org

目標跟蹤

[2]《Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World》

Abstract：在開放的世界環境中進行多人追蹤需要特別的努力來進行精確的檢測。此外，當場景混亂引入遮擋目標的具有挑戰性的問題時，檢測階段的時間連續性變得更加重要。為此，我們提出了一個深度網路體系結構，它可以共同提取人體部位，並在短暫的時間跨度內將它們關聯起來。我們的模型明確地處理閉塞的身體部位，通過幻覺看不見關節的合理解決方案。我們提出了由 textit提供的四個分支（ textit {可見heatmaps}， textit {occluded heatmaps}， textit {零件關聯欄位}和 textit {時間關聯欄位}）組成的新的端到端體系結構{時間鏈接器}功能提取器。為了克服跟蹤，身體部分和遮擋注釋缺乏監視數據，我們創建了最快的計算機圖形數據集，用於人們在城市場景中進行跟蹤，通過利用真實感的視頻遊戲進行跟蹤。它是迄今為止在城市情景中跟蹤人體的最快數據集（大約500,000幀，超過1000萬個身體姿態）。我們在虛擬數據方面進行培訓的體系結構在公共實際跟蹤基準上具有良好的泛化能力，當圖像解析度和清晰度足夠高時，可生成可用於進一步批量數據關聯或重新標識模塊的可靠tracklets。

arXiv：

[1803.08319] Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World?

arxiv.org

姿態估計

[3]《Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations》

Abstract：從單個圖像中進行三維（3D）人體姿態估計的任務可以被分成兩部分：（1）從圖像中的二維（2D）人體關節檢測和（2）根據二維關節估計3D姿態。這裡，我們關注第二部分，即，來自2D關節位置的3D姿態估計。現有方法存在的問題是它們需要（1）從視頻序列中獲取的連續幀中的3D姿態數據集或（2）2D關節位置。我們旨在解決這些問題。我們第一次提出一種在沒有任何3D數據集的情況下學習3D人體姿勢的方法。我們的方法可以預測單個圖像中2D關節位置的3D姿態。我們的系統基於生成的敵對網路，網路以無監督的方式進行訓練。我們的主要想法是，如果網路可以正確預測3D人體姿態，則投射到2D平面上的3D姿態即使垂直旋轉也不應該塌陷。我們使用Human3.6M和MPII數據集評估了我們方法的性能，結果表明我們的網路可以很好地預測3D姿態，即使3D數據集在訓練期間不可用。

arXiv：

https://arxiv.org/abs/1803.08244?

arxiv.org

[4]《PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model》

Abstract：我們提出了一個無盒自下而上的方法，用於使用高效的單次模型對多人圖像中的人進行姿態估計和實例分割。建議的PersonLab模型使用基於部件的建模來處理語義層推理和對象部分關聯。我們的模型採用了卷積網路，可以學習檢測各個關鍵點並預測它們的相對位移，從而使我們能夠將關鍵點分組為人物姿勢實例。此外，我們提出了一個部分誘導的幾何嵌入描述符，它允許我們將語義人像素與其相應的人員實例相關聯，從而提供實例級別的人員分段。我們的系統基於完全卷積體系結構，可以進行高效的推理，運行時間基本上與場景中出現的人數無關。僅依靠COCO數據訓練，我們的系統通過單尺度推理獲得了0.665的COCO測試 - 開發關鍵點平均精度，使用多尺度推理實現了0.687的COCO測試 - 開發關鍵點平均精度，明顯優於所有以前的自下而上的姿勢估計系統。我們也是第一種自下而上的自下而上方法來報告COCO實例細分任務中人員類別的競爭結果，實現人類分類平均精度為0.417。

arXiv：

Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model?

arxiv.org

[5]《Deep Pose Consensus Networks》

Abstract：在本文中，我們解決了從單個圖像估計三維人體姿態的問題，這很重要但很難解決，原因很多，如遮擋，外觀變化以及二維3D估計的固有模糊性線索。這些困難使這個問題不適當，這已經變得越來越複雜的估計人員需要提高績效。另一方面，大多數現有的方法都是基於單個複雜的估計器來處理這個問題，這可能不是很好的解決方案。在本文中，為了解決這個問題，我們提出了一個基於多部分假設的框架，用於從單個圖像估計3D人體姿態的問題，可以以端到端的方式進行微調。我們首先使用所提出的採樣方案從人類關節模型中選擇幾個關節組，並基於深度神經網路分別估計每個關節組的三維姿態。之後，使用建議的魯棒優化公式來聚合它們以獲得最終的3D姿勢。整個過程可以以端到端的方式進行微調，從而獲得更好的性能。在實驗中，所提出的框架顯示了在流行的基準數據集上的最新性能，即Human3.6M和HumanEva，它們證明了所提出的框架的有效性。

arXiv：

[1803.08190] Deep Pose Consensus Networks?

arxiv.org

[6]《A Unified Framework for Multi-View Multi-Class Object Pose Estimation》

Abstract：對象姿態估計的一個核心挑戰是確保在複雜的背景雜波中為大量不同的前景對象提供精確和穩健的性能。在這項工作中，我們提出了一個可擴展的框架，可以為單個或多個視圖中的大量對象類準確推斷六個自由度（6-DoF）姿態。為了學習辨別性姿態特徵，我們將三種新功能集成到深度卷積神經網路（CNN）中：一種推理方案，它基於SE（3）的統一曲面細分將分類和姿態回歸相結合，將先前類別融入訓練通過平鋪的類地圖進行處理，以及使用深度監視和對象蒙版的附加正則化。此外，制定了一個有效的多視圖框架來解決單視圖模糊。我們證明這一貫地改善了單視圖網路的性能。我們在三個大型基準測試中評估我們的方法：YCB-Video，JHUScene-50和ObjectNet-3D。我們的方法比目前最先進的方法實現了競爭力或卓越的性能。

arXiv：

[1803.08103] A Unified Framework for Multi-View Multi-Class Object Pose Estimation?

arxiv.org

GAN

[7]《Branched Generative Adversarial Networks for Multi-Scale Image Manifold Learning》

Submitted to ECCV 2018

Abstract：我們引入了BranchGAN，一種新穎的訓練方法，使無條件的生成對抗網路（GAN）能夠學習多尺度的圖像流形。 BranchGAN的獨特之處在於它在多個分支進行了培訓，隨著培訓圖像解析度的增加，逐漸覆蓋網路的廣度和深度，以顯示更精細的特徵。具體而言，作為輸入到發生器網路的每個雜訊向量被明確地分成幾個子向量，每個子向量對應於並且被訓練以學習特定尺度的圖像表示。在訓練過程中，我們逐步「逐步」解凍子矢量，因為一組新的高解析度圖像被用於訓練，並且添加了更多的網路層。這種明確的子矢量指定的結果是我們可以直接操縱甚至組合與特定特徵尺度關聯的潛在（子矢量）代碼。實驗證明了我們的訓練方法在圖像流形和合成的多尺度，解體學習中的有效性，沒有任何額外的標籤，並且不會損害合成的高解析度圖像的質量。我們進一步演示了BranchGAN啟用的兩個新應用程序。

arXiv：

[1803.08467] Branched Generative Adversarial Networks for Multi-Scale Image Manifold Learning?

arxiv.org

行為識別

[8]《Towards Universal Representation for Unseen Action Recognition》

Accepted at CVPR 2018

Abstract：看不見的行為識別（UAR）旨在識別新的行為類別，沒有訓練的例子。雖然以前的方法專註於內部數據集看到/看不見的分裂，但本文提出了一種使用大規模訓練源來實現通用表示（UR）的流水線，該泛化表示可推廣到更現實的跨數據集UAR（CD-UAR）場景。我們首先將UAR稱為廣義多實例學習（GMIL）問題，並使用分散式內核從大規模ActivityNet數據集中發現「構建塊」。必要的視覺和語義組件被保存在一個共享空間中，以實現可以高效地推廣到新數據集的UR。通過簡單的語義適應可以改進預測的UR範例，然後在測試過程中使用UR可以直接識別出看不見的動作。在沒有進一步培訓的情況下，廣泛的實驗顯示出UCF101和HMDB51基準測試的顯著改進。

arXiv：

[1803.08460] Towards Universal Representation for Unseen Action Recognition?

arxiv.org

SLAM

[9]《PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Reconstruction》

Abstract：我們引入了一種新穎的RGB-D patch描述符，設計用於在SLAM重建中檢測共面曲面。我們方法的核心是一個深卷積神經網路，它接收圖像中平面斑點的RGB，深度和正常信息，並輸出可用於從其他圖像找到共面斑點的描述符。我們訓練網路10 百萬三平面共面和非共面面片，並評估由商品RGB-D掃描產生的新共面性基準。實驗表明，我們的學習描述符勝過了為這個新任務擴展的備選方案，而且效果明顯。此外，我們證明了在一個穩健的RGBD重建公式中共面性匹配的好處。我們發現用我們的方法檢測到的共面性約束足以獲得與大多數場景中最先進的框架相媲美的重建結果，但優於其他方法在與簡單的關鍵點方法相結合的標準基準測試中。

arXiv：

Patch Coplanarity Prediction for Robust RGB-D Reconstruction?

arxiv.org

優化

[10]《Group Normalization》

Abstract：批量標準化（BN）是深度學習發展中的一項里程碑式技術，可讓各種網路進行培訓。但是，沿著批量維度進行歸一化會帶來一些問題---批量統計估算不準確導致批量變小時，BN的誤差會迅速增加。這限制了BN用於培訓更大型號的功能，並將功能轉移到計算機視覺任務，包括檢測，分割和視頻，這些任務都需要小批量的內存消耗。在本文中，我們提出組標準化（GN）作為BN的簡單替代方案。 GN將通道分成組，並在每組內計算標準化的均值和方差。 GN的計算與批量大小無關，並且其準確度在各種批量大小下都很穩定。在ImageNet上訓練的ResNet-50上，GN使用批量大小為2時的錯誤率比BN對手低10.6％;當使用典型的批量時，GN與BN相當，並且優於其他標準化變數。而且，GN可以自然地從預培訓轉向微調。 GN可以勝過其競爭對手，或者與其在國陣的對手進行COCO中的目標檢測和分割以及Kinetics中的視頻分類競爭，表明GN可以在各種任務中有效地取代強大的BN。 GN可以通過現代庫中的幾行代碼輕鬆實現。

註：Yuxin Wu和何凱明的大作啊！！！Facebook AI出品，必屬精品，期待論文復現的童鞋好好表現！

arXiv：

[1803.08494] Group Normalization?

arxiv.org

註：附上機器之心的解讀FAIR何愷明等人提出組歸一化：替代批歸一化，不受批量大小限制

綜述

[11]《A Comprehensive Analysis of Deep Regression》

submitted to TPAMI

Abstract：深度學習使數據科學發生了革命性的變化，最近它的受歡迎程度呈指數級增長，使用深度網路的論文數量也呈指數增長。諸如人體姿勢估計等視覺任務並沒有擺脫這種方法上的改變。大量的深層架構導致過多的方法在不同的實驗協議下評估。此外，網路體系結構或數據預處理過程中的微小變化以及優化方法的隨機性導致了顯著不同的結果，使得篩選出明顯優於其他方法的方法變得非常困難。因此，當提出回歸演算法時，從業者可以通過反覆試驗來進行。這種情況激發了目前的研究，我們對香草深層回歸的性能進行了系統評估和統計分析 - 對於具有線性回歸頂層的卷積神經網路來說，這是一個縮寫。據我們所知，這是對深度回歸技術的首次綜合分析。我們對三個視覺問題進行實驗，並報告中值性能的置信區間以及結果的統計顯著性（如果有的話）。令人驚訝的是，由於不同的數據預處理程序引起的變化性通常掩蓋了由於網路體系結構中的修改而導致的變化性。

註：硬梆梆的文章！介紹並分析了VGGG-16、ResNet-50網路，AdaGrad、RMSProp、AdaDelta、Adam等優化器，Batch size、Batch Normalization和Dropout的作用。

arXiv：[1803.08450] A Comprehensive Analysis of Deep RegressionarXiv：

https://arxiv.org/abs/1803.08450?

arxiv.org

其它

[12]《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》

Abstract：我們提出一種從自然語言生成彩色3D形狀的方法。為此，我們首先學習自由文本描述和彩色3D形狀的聯合嵌入。我們的模型結合併擴展了通過關聯和度量學習方法進行的學習，以學習隱式的跨模態連接，併產生了一個聯合表示，它捕捉語言和3D形狀的物理屬性（如顏色和形狀）之間的多對多關係。為了評估我們的方法，我們收集ShapeNet數據集中物理3D對象的自然語言描述的大型數據集。通過這種學習的聯合嵌入，我們展示了比基線方法更好的文本到形狀檢索。使用我們的帶有新穎條件Wasserstein GAN框架的嵌入，我們從文本生成彩色3D形狀。我們的方法是第一個將自然語言文本與真實的3D對象連接起來，呈現豐富的顏色，紋理和形狀細節變化。

註：太硬的文章！！！

arXiv：

Generating Shapes from Natural Language by Learning Joint Embeddings?

arxiv.org

[13]《Group Sparsity Residual with Non-Local Samples for Image Denoising》

Abstract：受到基於群組的稀疏編碼的啟發，最近提出的群體稀疏殘差（GSR）方案在圖像處理中表現出優越的性能。然而，GSR中的一個挑戰是通過使用基於組的稀疏編碼（GSC）的適當參考來估計殘差，希望儘可能接近真實。以前的研究利用了其他演算法（即GMM或BM3D）的估計，這些演算法不準確或太慢。在本文中，我們建議使用非局部樣本（NLS）作為GSR機制中的圖像去噪的參考，因此稱為GSR-NLS。更具體地說，我們首先通過圖像非局部自相似性獲得組稀疏係數的良好估計，然後通過有效的迭代收縮演算法求解GSR模型。實驗結果表明，所提出的GSR-NLS不僅勝過許多最先進的方法，而且還提供了速度的競爭優勢。

arXiv：

[1803.08412] Group Sparsity Residual with Non-Local Samples for Image Denoising?

arxiv.org

[14]《Densely Connected Pyramid Dehazing Network》

CVPR 2018

Abstract：我們提出了一種稱為密集連接金字塔除霧網路（DCPDN）的新型端到端單圖像去霧方法，它可以共同學習透射圖，大氣光和去霧。端到端學習是通過將大氣散射模型直接嵌入到網路中來實現的，從而確保所提出的方法嚴格遵循物理驅動的散射模型。受密集網路的啟發，可以最大限度地利用不同層次特徵的信息流，我們提出了一種新的邊緣保持密集連接的編碼器 - 解碼器結構，其中包含用於估計傳輸圖的多層金字塔池模塊。該網路使用新引入的邊緣保留損失函數進行了優化。為了進一步在估計的傳輸圖和去抖動結果之間結合相互結構信息，我們提出了一種基於生成對抗網路框架的聯合鑒別器，以確定相應的去霧圖像和估計的傳輸圖是真實的還是假的。進行消融研究以證明在估計的傳輸圖和去除顫動結果時評估的每個模塊的有效性。大量的實驗證明，所提出的方法比現有技術的方法有顯著的改進。

arXiv：

[1803.08396] Densely Connected Pyramid Dehazing Network?

arxiv.org

github：

hezhangsprinter/DCPDN?

github.com

[15]《Deep Learning using Rectified Linear Units (ReLU)》

Abstract：我們引入修正線性單元（ReLU）作為深度神經網路（DNN）中的分類函數。傳統上，ReLU被用作DNN中的激活功能，其中Softmax功能作為其分類功能。但是，有幾項關於使用除Softmax以外的分類功能的研究，本研究是對這些研究的補充。我們通過在神經網路中激活倒數第二層hn-1，然後將其乘以權重參數θ來獲得原始分數oi。之後，我們將原始分數oi設為0，即f（o）= max（0，oi），其中f（o）是ReLU函數。我們通過argmax函數，即argmax f（x）提供類別預測y ^。

註：Amazing！！！ReLU直接做分類函數了！來，雙擊666666

arXiv：

[1803.08375] Deep Learning using Rectified Linear Units (ReLU)?

arxiv.org

------我是可愛的分割線-------

若喜歡Amusi推送的文章（目前還只是論文速遞，後期會鋪送一些更硬的乾貨），可以掃描下方二維碼關注CVer公眾號！

http://weixin.qq.com/r/NioZAUbEpRvarQJi938k (二維碼自動識別)