[CVPR2018筆記]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

05-13

CVPR 2018 ORAL，主題是attention+VQA

這是作者讀的第一篇關於這個領域的問題，可能難免會有講的不夠透徹的地方，歡迎批評指正和討論。

本文的主要思路是用faster-rcnn提取出proposal，然後用其做image captioning或者VQA，該method取得了2017 VQA challenge的第一名。

Bottom-Up Attention Model

簡言之，該部分就是直接復用了faster-rcnn，提取出超過特定閾值的區域，並提取出其平均池化特徵。

在這裡作者提到，該文的captioning系統即便在沒有基於faster rcnn的前提下，也有著相當好的體現，具體效果可以看experiment部分。

該部分作者未能講的非常透徹，主要是對NLP理解相當有限，後面會更新這部分的講解，這部分主要做的事情是用兩層lstm，以faster rcnn生成的feature和sentence做輸入，生成對應features的attention weights

該部分由兩層LSTM組成：

h的右上標的12分別代表attention，language lstm的輸出

1，第一層LSTM，top-down attention

在這裡直接將faster-rcnn階段生成的region feature稱為V，該曾的輸入時將：平均池化後的v，上一時刻language LSTM的輸出，之前生成的words，concat起來。

對於某一個時刻attention lstm的輸出，生成一個normalized attention weight，如下圖：

2，第二層LSTM，language

該層將faster-rcnn階段生成的region feature與attention LSTM的輸出concat起來作為這一層的輸入。

很容易理解，不做解釋

3，objectives

該部分作者只是引用並復用了已有方法。

先將問題用GRU encode成the hidden state q，這個q又當做top-down系統的輸入，即上面提到的兩層lstm，生成attention weight。