《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》論文筆記

05-12

來源：CVPR 2018 oral

論文的方法刷新了image captioning的結果，另外獲得了2017 VQA Challenge的第一名，下面針對VQA任務來介紹。

Motivation：

人類視覺系統存在兩種attention機制。Top-down attention由當前任務所決定，我們會根據當前任務（即VQA中的問題），聚焦於與任務緊密相關的部分。Bottom-up attention指的是我們會被顯著的、突出的、新奇的事物給吸引。

以前的方法用到的visual attention mechanisms大都屬於top-down類型，即取問題作為輸入，建模attention分布，然後作用於CNN提取的圖像特徵（image features）。然而，這種方法的attention作用的圖像對應於下圖的左圖，沒有考慮圖片的內容。對於人類來說，注意力會更加集中於圖片的目標或其他顯著區域，所以作者引進Bottom-up attention機制，如下圖的右圖所示，attention作用於object proposal。

Basic idea：

引進Bottom-up注意力機制，即基於目標（objects）或顯著區域（salient image regions）來計算attention。具體來說，bottom-up機制基於Faster R-CNN，得到圖片中每個目標或顯著區域的特徵向量（feature vector）表示。而top-down機製取question作為輸入，建模特徵權重（feature weightings）或者說attention分布。

Approach：

如上圖所示，VQA模型的overview。圖像送入Faster R-CNN，挑選出k個目標區域，每個區域用一個特徵向量表示（2048維）。對於question，首先分詞處理，然後進行修整，將詞的長度固定為14，即對於少於14的進行填充，對於超過14的進行捨棄。接著，每個詞用300維的向量表示（word embedding），傳給GRU。

模型中用到的所有非線性層採用gated hyperbolic tangent activation，定義為如下：

其中 $sigma$ 為sigmoid函數。

分類器的設計：訓練集中的所有正確答案，出現超過8次則作為候選答案，產生了3129個候選答案。多標籤分類，每個問題由10個人標註答案，若10個標註有不一致的答案，則用概率表示該問題的答案的score（超過3次則為1，否則頻次/3），作為label。

Experimental results：

獲得2017 VQA Challenge的第一名，在VQA v2.0 test-standard集上達到70.3%（30個模型融合）。