《圖文匹配&VQA》小結
圖文匹配以及圖像的QA是圖像與文本多模態融合,是計算機視覺與自然語言處理的交叉。
圖文匹配:將圖像與文本都映射到一個相同的語義空間,然後通過距離對他們的相似度進行判斷。
圖文匹配問題與VQA最大的不同就是,需要比對兩種特徵之間的距離。將文本和圖像分別做attention,DAN計算每一步attention後的文本和圖像向量相似度累加得到similarity.
VQA:給定一張圖像和一個關於該圖像內容的文字問題,視覺問答旨在從若干候選文字回答中選出正確的答案,本質上是一個分類問題,其核心思想是讓圖像的Attention的位置隨著問題進行變化。
使用CNN從圖像中提取圖像特徵,用RNN從文字問題中提取文本特徵,融合視覺和文本特徵,最後通過全連接層進行分類。該任務的關鍵是如何融合這兩個模態的特徵。
直接融合的方法幾種:視覺和文本特徵向量拼接、逐元素相加或相乘、內積、外積。
注意力機制包括視覺注意力(「看哪裡」)和文本注意力(「關注哪個詞」)兩者。DAN將視覺和文本的注意力結果映射到一個相同的空間,並據此同時產生下一步的視覺和文本注意力。
通過視覺特徵向量和文本特徵向量的外積,可以捕獲這兩個模態特徵各維之間的交互關係。
總結
1.最基本的是文本和圖像的encoder模型都要足夠的好
2.特徵的融合
目前有兩種融合特徵的方式,一個是前融合一個是後融合。
前融合將圖像信息與文本信息輸入到一個網路進行進一步的encoder,最後再使用任務相關的網路;後融合就是圖像文本的encoder出來的特徵直接concat,然後輸入到任務相關的網路,一般來說前融合的網路要好於後融合。
3.圖文匹配是一個全部句子與全部圖像的匹配問題,直接去解這個問題可能相對來說比較困難, 所以一個最基本的想法就是把這個問題分為多個元素。
Text由不同的單詞構成,Image由不同的區域構成,如果能把Text的單詞與Image的區域進行一個匹配,那麼這個問題就會變得比較簡單。
4.模型訓練中可以有很多的trick
推薦閱讀: