標籤:

《DAN 》總結

《DAN 》總結

來自專欄 Cross-media Retrieval

Dual Attention Networks for Multimodal Reasoning and Matching

CVPR 2017

圖文匹配終極問題是整個Text與整個Image的匹配問題,但是這個問題比較難以解決,所以一個最基本的想法就是把這個問題拆分開來,Text由不同的單詞構成,Image由不同的區域構成,如果能把Text的單詞與Image的區域進行一個匹配,那麼這個問題就會變得比較簡單。

一個基本的思路就是使用Attention機制,在網路中自動匹配文本單詞與圖像區域進行匹配。作者引用了兩種Attention機制,分別是:Visual Attention以及Text Attention

一、Introduction

文章亮點:

1.文章提出雙重attention機制:Visual Attention以及Text Attention,用triplet loss度量文本和圖像之間的相似性。

2.訓練出end-to-end模型

3.同時解決了VQA與Image-Text Matching的問題,提出了r-DAN與m-DAN模型

關注圖片中「傘」和文本中「color」

關注語義相同的特定區域和單詞,如圖片中女孩和「girl」的相似度

二、Model

1.文本特徵:將輸入文本one-hot向量做word embedding,然後再用Bi-LSTM來提取文本的特徵,文本的特徵為N個512維的向量,最後將N個向量做平均得到初始化的文本特徵向量 u_{0}

2.圖像特徵:將圖像resize成448x448的大小,然後再利用152層的resnet,採用res5c卷積層的feature map,在這個feature map上面做pooling得到N個(image region的個數)2048維的特徵向量,然後將N個2048維的特徵向量取平均並乘一個權重矩陣,然後再用tanh激活得到初始化的圖像特徵 v_{0}

3.初始化記憶向量(memory vector):

將初始化的文本特徵向量 u_{0} 與初始化的圖像特徵 v_{0} 做點乘,得到初始化的記憶向量。

文中用了兩種Attention機制,分別是:Visual Attention以及Text Attention。

這兩種Attention都是使用前面一種的狀態,決定下一個狀態需要Attention的"位置"。

4.雙重attention

文本attention:

將初始化的文本特徵向量query(在r-DAN中為前一層的memory vector即前一層圖像特徵與文本特徵的點乘)和文本的特徵key

用兩層前饋神經網路(FNN)相連,然後再用tanh激活並做點乘,然後用softmax做歸一化得到權重向量(N維向量),利用權重向量將N個512維的向量做加權平均,得到文本attention向量。

圖像attention:

分別將初始化的圖像特徵向量(在r-DAN中為前一層的memory vector即前一層圖像特徵與文本特徵的點乘)和圖像的特徵

用兩層前饋神經網路(FNN)相連,然後再用tanh激活並做點乘,然後用softmax做歸一化得到權重向量(N維向量),利用權重向量將N個2048維的向量做加權平均,然後再乘以一個權重矩陣,最後再用tanh進行激活,得到圖像attention向量。

兩種Attention的步長K是超參,作者在實驗中證明K=2效果是最好的。

5. VQA & Image-Text Matching

文中作者解決了兩種不同的問題,都用到了前面的Attention機制,但是不同的問題,提出了r-DAN(用於VQA)和m-DAN(用於Image-Text Matching)兩種模型

A. Visual Question and Answer

VQA本質上為分類問題,將圖像attention特徵和文本attention特徵融合得到memory vector,做分類任務。

B. Image-Text Matching

圖文匹配問題與VQA最大的不同就是,他要解決的是一個Rank問題,所以需要比對兩種特徵之間的距離,因此就不能共享一個相同的Memory Vector

對應Image和Text都有自己的Memory Vector, 他們的計算公式如下:

每一步的Attention都會產生一個匹配的向量,這裡做的是把所有的S進行相加。

6.Loss Function

Triplet Loss(文章中沒有提到hard的思想,負樣本應該是在minibatch裡面隨機選的)

相似度S為內積:

參考文章:

http://www.wangqingbaidu.cn/category/Papers/?

www.wangqingbaidu.cn


推薦閱讀:

華夏大地騰空起,兩江之星耀蒼穹!零壹空間OS-X火箭首飛成功!
2017雙十一落幕,看看這些剁手之「最」
NB-IoT在畜牧業中的應用
新科技如期領漲,回馬槍果然來了(兼0508預報)
令美國科技公司汗顏的10家亞洲企

TAG:科技 |