《DAN 》總結
來自專欄 Cross-media Retrieval
Dual Attention Networks for Multimodal Reasoning and Matching
CVPR 2017
圖文匹配終極問題是整個Text與整個Image的匹配問題,但是這個問題比較難以解決,所以一個最基本的想法就是把這個問題拆分開來,Text由不同的單詞構成,Image由不同的區域構成,如果能把Text的單詞與Image的區域進行一個匹配,那麼這個問題就會變得比較簡單。
一個基本的思路就是使用Attention機制,在網路中自動匹配文本單詞與圖像區域進行匹配。作者引用了兩種Attention機制,分別是:Visual Attention
以及Text Attention
。
一、Introduction
文章亮點:
1.文章提出雙重attention機制:Visual Attention以及Text Attention,用triplet loss度量文本和圖像之間的相似性。
2.訓練出end-to-end模型
3.同時解決了VQA與Image-Text Matching的問題,提出了r-DAN與m-DAN模型
二、Model
1.文本特徵:將輸入文本one-hot向量做word embedding,然後再用Bi-LSTM來提取文本的特徵,文本的特徵為N個512維的向量,最後將N個向量做平均得到初始化的文本特徵向量
2.圖像特徵:將圖像resize成448x448的大小,然後再利用152層的resnet,採用res5c卷積層的feature map,在這個feature map上面做pooling得到N個(image region的個數)2048維的特徵向量,然後將N個2048維的特徵向量取平均並乘一個權重矩陣,然後再用tanh激活得到初始化的圖像特徵
3.初始化記憶向量(memory vector):
將初始化的文本特徵向量 與初始化的圖像特徵 做點乘,得到初始化的記憶向量。
文中用了兩種Attention機制,分別是:Visual Attention以及Text Attention。
這兩種Attention都是使用前面一種的狀態,決定下一個狀態需要Attention的"位置"。
4.雙重attention
文本attention:
將初始化的文本特徵向量query(在r-DAN中為前一層的memory vector即前一層圖像特徵與文本特徵的點乘)和文本的特徵key
用兩層前饋神經網路(FNN)相連,然後再用tanh激活並做點乘,然後用softmax做歸一化得到權重向量(N維向量),利用權重向量將N個512維的向量做加權平均,得到文本attention向量。
圖像attention:
分別將初始化的圖像特徵向量(在r-DAN中為前一層的memory vector即前一層圖像特徵與文本特徵的點乘)和圖像的特徵
用兩層前饋神經網路(FNN)相連,然後再用tanh激活並做點乘,然後用softmax做歸一化得到權重向量(N維向量),利用權重向量將N個2048維的向量做加權平均,然後再乘以一個權重矩陣,最後再用tanh進行激活,得到圖像attention向量。
兩種Attention的步長K是超參,作者在實驗中證明K=2效果是最好的。
5. VQA & Image-Text Matching
文中作者解決了兩種不同的問題,都用到了前面的Attention機制,但是不同的問題,提出了r-DAN(用於VQA)和m-DAN(用於Image-Text Matching)兩種模型
A. Visual Question and Answer
VQA本質上為分類問題,將圖像attention特徵和文本attention特徵融合得到memory vector,做分類任務。
B. Image-Text Matching
圖文匹配問題與VQA最大的不同就是,他要解決的是一個Rank問題,所以需要比對兩種特徵之間的距離,因此就不能共享一個相同的Memory Vector。
對應Image和Text都有自己的Memory Vector, 他們的計算公式如下:
每一步的Attention都會產生一個匹配的向量,這裡做的是把所有的S進行相加。
6.Loss Function
Triplet Loss(文章中沒有提到hard的思想,負樣本應該是在minibatch裡面隨機選的)
相似度S為內積:
參考文章:
http://www.wangqingbaidu.cn/category/Papers/推薦閱讀:
※華夏大地騰空起,兩江之星耀蒼穹!零壹空間OS-X火箭首飛成功!
※2017雙十一落幕,看看這些剁手之「最」
※NB-IoT在畜牧業中的應用
※新科技如期領漲,回馬槍果然來了(兼0508預報)
※令美國科技公司汗顏的10家亞洲企
TAG:科技 |