[CVPR2018筆記]Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
CVPR 2018 ORAL,主題是attention+VQA
這是作者讀的第一篇關於這個領域的問題,可能難免會有講的不夠透徹的地方,歡迎批評指正和討論。
本文的主要思路是用faster-rcnn提取出proposal,然後用其做image captioning或者VQA,該method取得了2017 VQA challenge的第一名。
Bottom-Up Attention Model
簡言之,該部分就是直接復用了faster-rcnn,提取出超過特定閾值的區域,並提取出其平均池化特徵。
Captioning Model
在這裡作者提到,該文的captioning系統即便在沒有基於faster rcnn的前提下,也有著相當好的體現,具體效果可以看experiment部分。
該部分作者未能講的非常透徹,主要是對NLP理解相當有限,後面會更新這部分的講解,這部分主要做的事情是用兩層lstm,以faster rcnn生成的feature和sentence做輸入,生成對應features的attention weights
該部分由兩層LSTM組成:
1,第一層LSTM,top-down attention
在這裡直接將faster-rcnn階段生成的region feature稱為V,該曾的輸入時將:平均池化後的v,上一時刻language LSTM的輸出,之前生成的words,concat起來。
對於某一個時刻attention lstm的輸出,生成一個normalized attention weight,如下圖:
2,第二層LSTM,language
該層將faster-rcnn階段生成的region feature與attention LSTM的輸出concat起來作為這一層的輸入。
3,objectives
該部分作者只是引用並復用了已有方法。
VQA model
先將問題用GRU encode成the hidden state q,這個q又當做top-down系統的輸入,即上面提到的兩層lstm,生成attention weight。
推薦閱讀:
※看到了CVPR 2018 accepted paper list,大家有什麼想說的?
※CVPR2018 | 讓AI識別語義空間關係:斯坦福大學李飛飛組提出「參考關係模型」
※[CVPR2018]StarGAN:Unified Generative Adversarial Networks for Multi-Domain ImagetoImage Translation
※SCNN-用於時序動作定位的多階段3D卷積網路
※[Paper Share -5]DeepFashion:Powering Robust Clothes Recognition and Retrieval with Rich Annotations