《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》論文筆記

來源:CVPR 2018 oral

論文的方法刷新了image captioning的結果,另外獲得了2017 VQA Challenge的第一名,下面針對VQA任務來介紹。

Motivation:

人類視覺系統存在兩種attention機制。Top-down attention由當前任務所決定,我們會根據當前任務(即VQA中的問題),聚焦於與任務緊密相關的部分。Bottom-up attention指的是我們會被顯著的、突出的、新奇的事物給吸引。

以前的方法用到的visual attention mechanisms大都屬於top-down類型,即取問題作為輸入,建模attention分布,然後作用於CNN提取的圖像特徵(image features)。然而,這種方法的attention作用的圖像對應於下圖的左圖,沒有考慮圖片的內容。對於人類來說,注意力會更加集中於圖片的目標或其他顯著區域,所以作者引進Bottom-up attention機制,如下圖的右圖所示,attention作用於object proposal。

Basic idea:

引進Bottom-up注意力機制,即基於目標(objects)或顯著區域(salient image regions)來計算attention。具體來說,bottom-up機制基於Faster R-CNN,得到圖片中每個目標或顯著區域的特徵向量(feature vector)表示。而top-down機製取question作為輸入,建模特徵權重(feature weightings)或者說attention分布。

Approach:

如上圖所示,VQA模型的overview。圖像送入Faster R-CNN,挑選出k個目標區域,每個區域用一個特徵向量表示(2048維)。對於question,首先分詞處理,然後進行修整,將詞的長度固定為14,即對於少於14的進行填充,對於超過14的進行捨棄。接著,每個詞用300維的向量表示(word embedding),傳給GRU。

模型中用到的所有非線性層採用gated hyperbolic tangent activation,定義為如下:

其中 sigma 為sigmoid函數。

分類器的設計:訓練集中的所有正確答案,出現超過8次則作為候選答案,產生了3129個候選答案。多標籤分類,每個問題由10個人標註答案,若10個標註有不一致的答案,則用概率表示該問題的答案的score(超過3次則為1,否則頻次/3),作為label。

Experimental results:

獲得2017 VQA Challenge的第一名,在VQA v2.0 test-standard集上達到70.3%(30個模型融合)。


推薦閱讀:

圖解Faster R-CNN簡單流程
Model for Video Understanding【1】
CS231n 2017 Lecture 1: Course Introduction 隨堂筆記
深度學習的「警察」與「小偷」
用於三維重建和3d deep learning的公開數據集

TAG:深度學習DeepLearning | 計算機視覺 | 人工智慧 |