CVPR 2018 | Spotlight 論文:非參數化方法實現的極端無監督特徵學習

CVPR 2018 | Spotlight 論文:非參數化方法實現的極端無監督特徵學習

來自專欄機器之心

選自arXiv,機器之心編譯。

本研究受監督學習中的輸出排序的啟發,指出數據本身的表面相似性而非語義標籤,使得某些類比其他類更加接近。研究者據此提出了一種極端化的無監督學習方法,主要特點是非參數化訓練、實例級判別(一個實例視為一個類)。在 ImageNet 上的實驗結果表明,該方法在圖像分類方面遠超過最先進的無監督方法。若有更多的訓練數據和更好的網路架構,該演算法會持續提高測試結果。

深度神經網路,特別是卷積神經網路(CNN)的興起,在計算機視覺領域取得了若干突破。大多數成功的模型都是通過監督學習進行訓練的,而這需要大量的依任務類型而定的特定標註數據集。但是,在某些情況下,獲取標註數據通常代價昂貴甚至不可行。近年來,無監督學習受到學界越來越多的關注 [5,2]。

研究者在本文中提出的無監督學習的創新方法源於對監督學習物體識別結果的一些觀察。在 ImageNet 上,top-5 分類誤差遠低於 top-1 誤差 [18],並且圖像在 softmax 層輸出中的預測值排第二的響應類更可能與真實類有視覺關聯。

如圖 1 所示,包含獵豹(leopard)的圖像被識別成美洲豹(jaguar)的概率比識別成書櫃(bookcase)高很多 [11]。這一觀察表明,經典的判別式學習方法在沒有干預時可以自動發現語義類別之間的表面(明顯的)相似性。換句話說,明顯的相似性不是來自語義注釋,而是來自圖像本身。

圖 1:激勵研究者提出無監督方法的有監督學習效果圖。以獵豹圖片為例,網路輸出的幾個最高響應類都是視覺相關的,例如美洲豹和獵豹。數據本身的表面相似性而非語義標籤,使得某些類比其他類更加接近。該無監督方法將類監督發展到極致,並學習了辨別各個單獨實例的特徵表示。

研究者將類監督發展到極端的實例監督,並提出這樣的問題:我們是否可以通過純粹的判別學習來學到反映實例間表面相似性的度量?圖像本身具有鮮明的特徵,並且每幅圖像與相同語義類別中的其他圖像都可能有很大差異 [23]。

如果我們在沒有語義信息的情況下學習區分單獨實例,那麼我們最終可能會得到一個可以捕獲實例間的表面相似性的特徵表示,就像類監督學習在類別間仍然保留表面相似性那樣。

無監督學習作為實例級別的判別形式在技術上也引人入勝,因為它可以受益於監督學習判別網路的最新進展,例如,新的網路架構。

然而,現在我們還面臨著一個重大挑戰,即現在「類別」的數量就是整個訓練集的大小。對於 ImageNet 來說,「類別」將是 120 萬而不是 1000 個類。簡單將 softmax 擴展到更多的類是不可行的。研究者通過使用雜訊對比估計(NCE)[9] 逼近的 softmax 分布並採用近端正則化方法 [29] 以穩定訓練過程來解決這個挑戰。

為了評估無監督學習的有效性,過去的工作如 [2,31] 依賴於線性分類器(例如,支持向量機(SVM)),在測試時將學習到的特徵與類別信息結合以便進行分類。但是,我們不清楚未知的測試任務為什麼可以將訓練學習到的特徵線性分離。

研究者提倡在訓練和測試時都採用非參數化方法。他們將實例級別的分類看作度量學習問題,其中實例之間的距離(相似度)是以非參數方式直接從特徵中計算得到的。也就是說,每個實例的特徵都存儲在離散的內存塊中,而不是網路中的權重。

在測試階段,使用基於學習度量的 k-近鄰(kNN)進行分類。因為模型的學習和評估都與圖像間的相同的度量空間有關,所以其訓練和測試是一致的。研究者總結了與 SVM 和 kNN 的準確率對比實驗結果。

實驗結果表明,在無監督領域,該方法在圖像分類方面遠超過最先進的方法。具體地,在 ImageNet 1K [1] 上的 top-1 準確率為 46.5%,Places 205 [41] 為 41.6%。若有更多的訓練數據和更好的網路架構,該演算法會持續提高測試結果。

通過微調學習到的特徵,可進一步獲得半監督學習和物體檢測任務的具競爭性的結果。最後,該非參數化模型非常緊湊:每張圖片有 128 個特徵,存儲一百萬張圖像僅需 600MB,從而在運行時實現快速最近鄰檢索。

圖 2:本文提出的無監督特徵學習方法的工作流圖。研究者使用骨幹 CNN 將每個圖像編碼為 128 維空間並進行 L2 歸一化的特徵向量。最佳特徵嵌入過程是通過實例級判別器學習的,該判別器嘗試將訓練樣本的特徵最大程度地散布在 128 維的單位球上。

表 1:通過在學習到的特徵上應用線性 SVM 或 kNN 分類器在 CIFAR10 的 Top-1 準確率。本文提出的非參數化的 softmax 優於參數化的 softmax,並且用 NCE 方法 得到的準確率隨 m 單調遞增。

圖像分類

研究者在 ImageNet ILSVRC [34] 上學習特徵表示,並將他們的方法與代表性的無監督學習方法進行比較。

實驗設置。研究者通過經驗驗證來選擇並設計參數。具體來說,他們設定 τ= 0.07,並使用 m = 4,096 的 NCE 來平衡性能和計算成本。該模型使用帶 momentum 的 SGD 訓練 200 個 epoch。批量大小為 256,學習率初始化為 0.03,在訓練 120 個 epoch 後每 40 個 epoch 乘一次 0.1。

對比實驗。研究者將他們的方法與隨機初始化的網路(作為下界)及各種無監督學習方法進行了比較,包括自監督學習 [2,47,27,48]、對抗學習 [4] 和 Exemplar CNN [3]。split-brain 自編碼器 [48] 提供代表當前最佳水平的強大基線。

在他們的初版論文中,他們的實驗網路都基於 AlexNet 架構 [18],除了 exemplar CNN [5],其基於 ResNet-101 [3]。由於網路架構對性能有很大影響,研究者考慮了一些經典的架構:AlexNet [18]、VGG16 [36]、ResNet-18 和 ResNet-50 [10]。

研究者使用兩種不同的標準評估性能:(1)對從 conv1 到 conv5 的中間特徵運行線性 SVM。注意,VGG16 和 ResNet 中也有對應層 [36,10]。(2)對輸出特徵運行 kNN。

表 2:在 ImageNet 上的 Top-1 分類準確率。

表 3:直接基於在 ImageNet 上學習特徵的、沒有微調的在 Places 上的 Top-1 分類準確率。

圖 5:查詢示例的檢索結果。左列是驗證集的查詢,右列是訓練集中檢索到的 10 個最接近的實例。上半部分展示了最好的表現。下半部分展示了最差的表現。

論文:Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

論文地址:arxiv.org/abs/1805.0197

開源代碼:http://github. com/zhirongw/lemniscate.pytorch

摘要:在標註數據集上訓練過的神經網路分類器無須人為干預就可以在各個類別間捕捉明顯的視覺相似性。我們研究了這一行為是否可以擴展到傳統的監督學習領域之外:我們是否可以僅通過獲取可區分單獨實例的特徵來學習一個可以很好捕捉實例間而非類間明顯相似性的特徵表示?我們將該思路看做實例級的非參數化分類問題,並使用雜訊對比估計來解決大量實例類帶來的計算挑戰。我們的實驗結果表明,在無監督學習條件下,我們的演算法性能遠超 ImageNet 分類問題上最先進的演算法。若有更多的訓練數據和更好的網路架構,我們的演算法會持續提高測試結果。通過微調學習到的特徵,我們進一步獲得了半監督學習和物體檢測任務的有競爭力的結果。我們的非參數化模型非常緊湊:每張圖片有 128 個特徵,我們的方法存儲一百萬張圖像僅需 600MB,從而在運行時實現快速最近鄰檢索。


推薦閱讀:

重磅 | 牛津劍橋OpenAI聯合發出AI預警《人工智慧的惡意使用》
用互聯網大腦架構預測2018年四個重要科技發展趨勢
人工智慧一小時vs人類的一萬年
思維的革命-從 「機械性思維」 到「資訊理論思維"(筆記)
盤點2017年人工智慧行業大事件,你知道多少呢?

TAG:機器學習 | CVPR | 人工智慧 |