[CVPR2018筆記]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 ORAL,主題是attention+VQA

這是作者讀的第一篇關於這個領域的問題,可能難免會有講的不夠透徹的地方,歡迎批評指正和討論。

本文的主要思路是用faster-rcnn提取出proposal,然後用其做image captioning或者VQA,該method取得了2017 VQA challenge的第一名。

Bottom-Up Attention Model

簡言之,該部分就是直接復用了faster-rcnn,提取出超過特定閾值的區域,並提取出其平均池化特徵。

Captioning Model

在這裡作者提到,該文的captioning系統即便在沒有基於faster rcnn的前提下,也有著相當好的體現,具體效果可以看experiment部分。

該部分作者未能講的非常透徹,主要是對NLP理解相當有限,後面會更新這部分的講解,這部分主要做的事情是用兩層lstm,以faster rcnn生成的feature和sentence做輸入,生成對應features的attention weights

該部分由兩層LSTM組成:

h的右上標的12分別代表attention,language lstm的輸出

1,第一層LSTM,top-down attention

在這裡直接將faster-rcnn階段生成的region feature稱為V,該曾的輸入時將:平均池化後的v,上一時刻language LSTM的輸出,之前生成的words,concat起來。

對於某一個時刻attention lstm的輸出,生成一個normalized attention weight,如下圖:

2,第二層LSTM,language

該層將faster-rcnn階段生成的region feature與attention LSTM的輸出concat起來作為這一層的輸入。

很容易理解,不做解釋

3,objectives

該部分作者只是引用並復用了已有方法。

VQA model

先將問題用GRU encode成the hidden state q,這個q又當做top-down系統的輸入,即上面提到的兩層lstm,生成attention weight。


推薦閱讀:

看到了CVPR 2018 accepted paper list,大家有什麼想說的?
CVPR2018 | 讓AI識別語義空間關係:斯坦福大學李飛飛組提出「參考關係模型」
[CVPR2018]StarGAN:Unified Generative Adversarial Networks for Multi-Domain ImagetoImage Translation
SCNN-用於時序動作定位的多階段3D卷積網路
[Paper Share -5]DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations

TAG:自然語言處理 | 計算機視覺 | CVPR |