CVPR 2018 最佳論文 | 任務分類法:解構任務遷移學習

CVPR 2018 最佳論文 | 任務分類法:解構任務遷移學習

來自專欄機器之心60 人贊了文章

選自stanford,作者:Amir R. Zamir等,機器之心編譯。

引言

目標識別、深度估計、邊緣檢測、姿態估計等都是研究界認為有用的和已解決的常見視覺任務的例子。其中一些任務之間有著明顯的相關性:我們知道曲面法線和深度是相關的(其中一個是另外一個的導數),或者空間中的滅點(vanishing point)對於定位是有幫助的。其他任務相關性不太明顯:關鍵點檢測和空間中的陰影如何共同執行姿態估計。

計算機視覺領域發展至今,確實沒有明確地使用這些相關關係。我們通過開發先進的學習器(如 ConvNets)已經取得了顯著的進展,這些學習器能夠在給定訓練數據即多組滿足 x ∈ X,y ∈ Y 的(x,y)時,找到從 X 到 Y 的複雜映射關係。這通常被稱為是完全監督學習,並且常常可以獨立地解決問題。主題分類任務使得訓練新任務或綜合感知系統成為一個西緒弗斯式的挑戰,每項任務都需要單獨從頭開始學習。這樣做,忽略了任務之間可量化的相關性,導致了對大量標記數據的需求。

圖 1:由計算任務分類(Taskonomy)發現的一個示例任務結構。例如,從圖中可以發現通過將曲面法線估計器和遮擋邊緣檢測器學習到的特徵結合起來,用少量標記數據就能快速訓練用於重描影和點匹配的優質網路。

另外,結合了任務之間相關性的模型只需要較少的監督,使用更少的計算並以更可預測的方式運行。結合這樣的一種架構是開發可被證明有效的綜合/通用感知模型 [34, 4] 的第一塊墊腳石,也就是說,這種模型能夠在對監督或計算的需求變得棘手之前解決大量任務。然而,這個任務空間的結構及其影響在很大程度上仍然是未知的。這些相關性是重要的,然而因為我們的學習模型和優化器還不完善,所以找到它們變得十分複雜。

在本文中,研究者試圖揭示這個底層結構,並提出一個映射視覺任務空間的框架。這裡所說的「結構」指的是一組通過計算髮現的相關關係,其指定哪些任務向另一個任務提供有用的信息,以及提供多少信息(見圖 1)。

為此,通過將神經網路作為計算函數類,研究者採用了一種完全計算的方法。在一個前饋網路中,每一層相繼生成輸入的更抽象表徵,這些表徵包含從輸入到輸出的映射所需的信息。然而,若假設任務以某種形式相互關聯 [83, 19, 58, 46],則這些表徵可以傳輸對解決其他輸出(任務)有益的統計量。本文方法的基礎:基於一項任務的解決方案是否可以足夠輕易地從另一項任務訓練的表徵中讀出,以計算任務之間的親和矩陣。這樣的遷移是完全抽樣的,並且通過一個二進位整數規劃範式從中提取一個全局有效的遷移策略。結果表明,相比於獨立地學習任務,這個模型可以使用更少的數據來解決任務,同時最終得到的結構對常用數據集一樣有效(ImageNet [78] 和 Places [104])。

本文提出的完全計算和基於表徵的方法避免了在任務空間上施加先驗(可能是錯的)假設。這是至關重要的,因為有關任務之間相關性的先驗通常源於人的直覺或分析性知識,然而神經網路並不需要遵循相同的原理運行 [63, 33, 40, 45, 102, 88]。比如,儘管我們可能預期深度可以更好的遷移到曲面法線(求導是容易的),但發現在一個計算框架中反向遷移更好(即更適合神經網路)。

圖 2:任務相關性的計算建模並創建分類。從左到右:I. 訓練特定任務的網路。II. 在隱空間內訓練(一階或更高階)任務之間的遷移函數。III. 使用 AHP(層次分析法)得到歸一化的遷移親和性。IV. 使用 BIP(二進位整數規劃)查找全局遷移的分類。

圖 3:任務字典。對一項查詢(左上)的(26 個任務中的)24 個特定任務網路的輸出。在這裡查看視頻中應用框架的逐幀結果。

圖 4:遷移函數。訓練一個小型讀取函數,將源任務凍結的編碼器的表徵映射到目標任務的標籤上。如果階數 > 1,則遷移函數接收來自多項源任務的表徵。

圖 5:將結果從 5 個不同的源任務上遷移到曲面法線(上)和 2.5 維分割(下)。不同源之間可轉移性的差異是明顯的,在這種情況下,重描影是遷移性最佳的任務之一。特定任務的網路使用 60 倍的數據進行訓練。「Scratch」是無遷移學習下的從頭開始訓練。

圖 6:高階遷移。表徵可以包含輔助信息。例如,通過從三維邊緣和曲率同時進行遷移,單個樓梯能被提取出來。有關更多的示例,請參閱公開的互動式遷移可視化頁面:taskonomy.stanford.edu/

圖 7:經過層次分析法(AHP)歸一化操作前(左)、後(右)的一階任務親和矩陣。越低意味著遷移表現越好。對於可視化,我們使用了標準親和距離,dist = e^?β·P(其中 β = 20 並且 e 是逐元素求矩陣對數)。對於高階遷移的完整矩陣,請參閱補充材料。

表 1:特定任務網路的性能:勝率 vs. 隨機(高斯)網路表徵的讀數與統計上獲知的猜測平均值。勝率(%)是測試集中超過基準的圖片比例。表 1 提供了特定任務網路與兩種基準的勝率。一個隨機測試樣本的可視化輸出如圖 3 所示。表 1 中的高勝率和定性結果表明網路訓練良好且穩定,可用於建模任務空間。

圖 8:給定不同監督預算(x 軸)和允許的最大遷移階數(y 軸)的情況下,用於解決 22 個任務的計算分類法。其中一個被放大以提高可見性。具有傳入邊緣的節點是目標任務,其傳入邊緣的數量是其選擇的遷移函數的階數。當預算為 26(全部預算)時,仍然遷移到某些目標上意味著某些遷移開始比它們完全監督下特定任務的對應變體表現的更好。通過增益和性能指標來查看節點顏色編碼的互動式求解器網站:taskonomy.stanford.edu/。顏色暗淡的節點只是源任務,因此,只有在通過 BIP 優化轉化為其中一個來源這項操作被認為是有價值的時候,其才會參與到分類中。

圖 9:為解決完整的任務字典而計算的分類評估。隨著監督預算的增加(→),使用計算分類法推薦的策略得到每個任務的增益(左)和性能(右)。遷移階數如下所示為 1 到 4。

圖 10:推廣到新的任務。每行表示一個新的測試任務,左:使用針對新任務設計的「全合一」的 1-4 階的遷移策略得到增益和性能。右:在各種自監督方法、ImageNet 特徵和從頭開始訓練下的遷移策略的勝率(%),如圖中彩色行所示。請注意分類法的巨大優勢。無顏色的行表示相應的損失值。

圖 11:架構的重要性。本文的分類法與隨機遷移策略(使用允許的最大監督預算的隨機可行分類法)的比較。Y 軸表示性能或增益,X 軸是監督預算。綠線和灰線分別代表本文的分類法和隨機連接。誤差線表示 5% - 95%。

圖 12:評估已有架構在其他數據集上的表現:用於目標分類的 ImageNet [78](左)和用於場景分類的 MIT Places [104](右)。Y 軸表示外部基準的準確率,而 X 軸上的條形根據數據集上的分類預測性能進行排序。一個單調遞減的圖形相當於保持相同的順序和完美的泛化。

圖 13:任務相似性樹。基於遷移-輸出模式的任務的合併聚類(即使用歸一化親和矩陣的列作為任務特徵)。三維、二維、低維幾何和語義任務使用一種完全計算的方法聚集在一起。

論文:Taskonomy: Disentangling Task Transfer Learning(任務分類法:解構任務遷移學習)

論文地址:taskonomy.stanford.edu/

視覺任務之間是否相關?例如,能否使用曲面法線簡化估計圖像深度的過程?直覺上對這些問題的正面回答暗示著在各種視覺任務之間存在一種結構。了解這種結構具有巨大的價值;它是遷移學習背後的概念,且可為識別任務間的冗餘提供了一種有理可依的方法,比如,為了在相關任務間無縫地重複使用監督或在一個系統中解決多個任務而不增加複雜度。

我們提出了一種完全計算的方法來建模視覺任務的空間結構,通過在一個位於隱空間內的 26 個二維、2.5 維、三維和語義任務中尋找(一階或更高階)遷移學習依賴關係來實現。其成品是用於任務遷移學習的計算分類圖。我們研究了這個結構的成果,比如出現的非平凡相關關係,並利用它們減少對標註數據的需求。比如,我們展示了解決一組 10 個任務所需的標註數據點總數可以減少約 2/3(與獨立訓練相比),同時保持性能幾乎一致。我們提供了一套計算和探測這種分類結構的工具,包括一個求解器,用戶可以用它來為其用例設計有效的監督策略。

推薦閱讀:

CVPR 2018 | 曠視科技Face++率先提出DocUNet 可復原扭曲的文檔圖像
CVPR2018 | 讓AI識別語義空間關係:斯坦福大學李飛飛組提出「參考關係模型」
CVPR 2018 | Spotlight論文:單攝像頭數秒構建3D人體模型
[Paper Share -5]DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations
[IJCAI2018筆記]Adversarial Metric Learning

TAG:計算機視覺 | 人工智慧 | CVPR |