CVPR2018 | 直接建模視覺智能體?讓「小狗」動起來~
文章選自arXiv,作者:Kiana Ehsani 等,機器之心編譯。
近日,來自華盛頓大學和艾倫人工智慧研究所的研究者在 arXiv 上發布論文,介紹了其處理計算機視覺任務的新方法:利用視覺數據直接建模視覺智能體。研究者對狗的相關動作進行建模,在多種度量方式下,對於給定視覺輸入,其模型能成功地在各種環境下建模智能體。此外,該模型學得的表徵能編碼不同的信息,還可以泛化至其他的領域。目前,該論文已被 CVPR 2018 接收。
1. 引言
計算機視覺研究通常集中在一些特定的任務上,包括圖像分類、目標識別、目標檢測、圖像分割等等。這些任務出現,並隨著時間的推移逐漸成為視覺智能問題實際應用的典型代表。視覺智能涵蓋了許多領域,很難正式地定義或評估。因此,這些代表性任務成為社區重點關注的對象。
本論文作者承認這些計算機視覺研究領域的代表性任務所帶來的影響,也贊成對這些基本問題進行持續性的研究。然而,這些代表性任務的理想輸出與視覺智能系統的期望功能之前仍然存在差距。這篇論文對視覺智能問題給出了直接的答案。受影響於近期關於行為與互動在視覺理解中作用的研究 [56, 3, 31],本論文研究者將視覺智能問題定義為「理解視覺數據,使得智能體能夠在視覺世界中執行動作並解決問題」。在這樣的定義下,研究者提出學習像這樣的智能體一樣在視覺世界裡處理問題。
圖 1. 研究者解決了三個問題:(1) 模仿狗的行為:根據給出的一系列狗之前的相關行為照片,預測狗接下來的行為動作。(2) 模仿狗的動作規劃方式:目的是找出一組動作使狗能從一個給定位置移動到另一給定位置。(3) 利用關於狗的數據來學習:利用學得的知識解決這一問題(例如:預測一個可供行走的地面區域)。
通常情況下,模仿視覺智能體是一個充滿挑戰並且難以定義的問題。一個動作通常對應一系列包含複雜語義的運動。本論文通過將動作視為其最基本、無語義的形式——簡單運動,在模仿視覺智能體方面做出了微小的貢獻。
研究者將對狗建模,作為視覺智能體。狗相對人來說,有著更簡單的動作空間,使研究變得相對簡單。同時,它們能很好地展示視覺智能的特性,例如它們可以分辨食物、障礙、別的動物以及人類,並作出相應的反應輸出。然而,它們的目的和動機通常是事先不知道的。因此研究者可以說是在建模一個黑箱。關於這個黑箱系統,我們只知道它的輸入和輸出。
本論文研究如何基於視覺輸入學習模仿狗的行為和動作規劃方式。研究者編寫了一個以狗為第一人稱視角的動作數據集 ( DECADE ),包括以狗為第一人稱視角的視頻及其對應的運動。為了記錄相關的運動,研究者在狗的身體和關節處安裝了慣性測量單元 (IMU)。研究者記錄了這些裝置的絕對位置,然後計算狗的四肢與身體之間的相對角度。
使用 DECADE 數據集,研究者探索了上面提到的三個主要問題 ( 見圖 1 ):(1) 模仿狗的行為;(2) 模仿狗的動作規劃方式;(3) 將狗的行為動作作為表徵學習的監控信號。
在學習模仿狗的行為時,研究者通過觀察狗到目前為止的觀察結果來預測狗在未來可能的動作(關節屈伸)。在模仿狗的動作規劃方式時,研究者解決了預測狗的系列運動動作的問題,這些動作將狗的狀態從一個特定狀態轉變為目標狀態。在利用狗作監督時,研究者發現將狗的動作用於表徵學習的潛力。
結果是令人欣喜的。研究者的模型可以預測狗在各種場景下的運動(模仿狗的行為),也可以預測狗如何決定從一個狀態轉化為另一狀態(模仿狗的動作規劃方式)。除此之外,研究者還展示了根據狗的行為構建的模型也可以泛化至其他的一些任務。更重要的是,在使用狗行為模型為可行走表面預測以及場景識別等任務作預訓練之後,這些任務的結果準確率都得到了提高。
圖 2. 模仿狗行為的模型架構。該模型是一個編碼器-解碼器神經網路。編碼器接收一系列圖像對,解碼器輸出各個關節的預測動作。編碼器和解碼器之間有一個全連接層(FC),以更好地捕捉相關域中的變化(從圖像變為動作)。在解碼器中,每一個時間步的動作輸出概率會被傳輸至下一個時間步。兩個 ResNet 塔共享權重。
圖 3. 用於模仿狗動作規劃方式的模型架構。這個模型結合了 CNN 和 LSTM。模型的輸入是兩個圖像 I_1 和 I_N,它們在視頻中相差 N-1 個時間步。LSTM 接收來自 CNN 的特徵數據作為輸入,然後輸出一組能使狗從 I_1 的狀態轉化為 I_N 的動作(關節屈伸)。
圖 4. 用於預測可行走表面的模型架構。研究者使用解卷積和卷積層來增強 ResNet 的最後四層,得出可供行走的表面。
圖 5. 定性結果:模型學會了如何執行動作。研究者向模型輸入了一個視頻的五幀,這五幀中一個男人開始向一隻狗扔球。在視頻中,這個球撞到牆反彈,而狗轉向右邊來追這個球。僅僅是使用了視頻一開始的五幀,該模型就能精確地預測出狗在球飛過時如何轉向右側的。
表 2. 模仿動作模型的輸出結果。研究者輸入了視頻的前五幀然後預測接下來的五個動作。
表 3. 模仿規劃方式模型的輸出結果。預測了從開始幀到結束幀之間的動作組。研究者認為從開始的圖像轉化成結束的圖像需要五步。
圖 4. 對模型效果的評估。第一列(Angular metric)當中的數值越小越好。第二列(All joints)當中數值越大越好。
論文:Who Let The Dogs Out? Modeling Dog Behavior From Visual Data
論文鏈接:https://arxiv.org/abs/1803.10827
摘要:我們研究了如何直接建模一個視覺智能體。計算機視覺通常專註於解決各種與視覺智能相關的子任務。我們偏離了處理計算機視覺任務的標準方法,直接對視覺智能體進行建模。我們的模型將視覺信息作為輸入並直接預測視覺智能體的動作。為了達成這一目標,我們引入了 DECADE,一個包含以狗為第一人稱視角的視頻以及相應動作的數據集。利用這樣的數據集,我們可以建模狗的行為方式和動作規劃方式。在多種度量方式下,對於給定視覺輸入,我們能成功地在各種環境下建模智能體。此外,相比用圖像分類訓練出的表徵學習,我們的模型學得的表徵能編碼不同的信息,還可以泛化至其他的領域。特別是,通過將這種對狗的建模用於表徵學習,我們在可行走表面預測和場景分類任務中得到了非常好的結果。
推薦閱讀:
※AI人才之洞見
※書評 | 《未來簡史》:失望之作,一次堆砌科技新聞囈語的自嗨
※據說是世界上第一門探討「強人工智慧」的公開課開課了!
※「人工智慧」下的「失業焦慮」