標籤：

《DAN 》總結

08-18

《DAN 》總結

來自專欄 Cross-media Retrieval

Dual Attention Networks for Multimodal Reasoning and Matching

CVPR 2017

圖文匹配終極問題是整個Text與整個Image的匹配問題，但是這個問題比較難以解決，所以一個最基本的想法就是把這個問題拆分開來，Text由不同的單詞構成，Image由不同的區域構成，如果能把Text的單詞與Image的區域進行一個匹配，那麼這個問題就會變得比較簡單。

一個基本的思路就是使用Attention機制，在網路中自動匹配文本單詞與圖像區域進行匹配。作者引用了兩種Attention機制，分別是：Visual Attention以及Text Attention。

一、Introduction

文章亮點：

1.文章提出雙重attention機制：Visual Attention以及Text Attention，用triplet loss度量文本和圖像之間的相似性。

2.訓練出end-to-end模型

3.同時解決了VQA與Image-Text Matching的問題，提出了r-DAN與m-DAN模型

關注圖片中「傘」和文本中「color」

關注語義相同的特定區域和單詞，如圖片中女孩和「girl」的相似度

二、Model

1.文本特徵：將輸入文本one-hot向量做word embedding，然後再用Bi-LSTM來提取文本的特徵，文本的特徵為N個512維的向量，最後將N個向量做平均得到初始化的文本特徵向量 $u_{0}$

2.圖像特徵：將圖像resize成448x448的大小，然後再利用152層的resnet，採用res5c卷積層的feature map，在這個feature map上面做pooling得到N個（image region的個數）2048維的特徵向量，然後將N個2048維的特徵向量取平均並乘一個權重矩陣，然後再用tanh激活得到初始化的圖像特徵 $v_{0}$

3.初始化記憶向量（memory vector）:

將初始化的文本特徵向量 $u_{0}$ 與初始化的圖像特徵 $v_{0}$ 做點乘，得到初始化的記憶向量。

文中用了兩種Attention機制，分別是：Visual Attention以及Text Attention。

這兩種Attention都是使用前面一種的狀態，決定下一個狀態需要Attention的"位置"。

4.雙重attention

文本attention:

將初始化的文本特徵向量query(在r-DAN中為前一層的memory vector即前一層圖像特徵與文本特徵的點乘)和文本的特徵key

用兩層前饋神經網路(FNN）相連，然後再用tanh激活並做點乘，然後用softmax做歸一化得到權重向量（N維向量），利用權重向量將N個512維的向量做加權平均，得到文本attention向量。

圖像attention:

分別將初始化的圖像特徵向量(在r-DAN中為前一層的memory vector即前一層圖像特徵與文本特徵的點乘)和圖像的特徵

用兩層前饋神經網路(FNN）相連，然後再用tanh激活並做點乘，然後用softmax做歸一化得到權重向量（N維向量），利用權重向量將N個2048維的向量做加權平均，然後再乘以一個權重矩陣，最後再用tanh進行激活，得到圖像attention向量。

兩種Attention的步長K是超參，作者在實驗中證明K=2效果是最好的。

5. VQA & Image-Text Matching

文中作者解決了兩種不同的問題，都用到了前面的Attention機制，但是不同的問題，提出了r-DAN(用於VQA)和m-DAN（用於Image-Text Matching）兩種模型

A. Visual Question and Answer

VQA本質上為分類問題，將圖像attention特徵和文本attention特徵融合得到memory vector，做分類任務。

B. Image-Text Matching

圖文匹配問題與VQA最大的不同就是，他要解決的是一個Rank問題，所以需要比對兩種特徵之間的距離，因此就不能共享一個相同的Memory Vector。

對應Image和Text都有自己的Memory Vector, 他們的計算公式如下：

每一步的Attention都會產生一個匹配的向量，這裡做的是把所有的S進行相加。

6.Loss Function

Triplet Loss（文章中沒有提到hard的思想，負樣本應該是在minibatch裡面隨機選的）

相似度S為內積：

參考文章：

http://www.wangqingbaidu.cn/category/Papers/?

www.wangqingbaidu.cn

推薦閱讀：

※華夏大地騰空起，兩江之星耀蒼穹！零壹空間OS-X火箭首飛成功！
※2017雙十一落幕，看看這些剁手之「最」
※NB-IoT在畜牧業中的應用
※新科技如期領漲，回馬槍果然來了（兼0508預報）
※令美國科技公司汗顏的10家亞洲企

TAG:科技 |