《圖文匹配&VQA》小結

01-22

圖文匹配以及圖像的QA是圖像與文本多模態融合，是計算機視覺與自然語言處理的交叉。

圖文匹配：將圖像與文本都映射到一個相同的語義空間，然後通過距離對他們的相似度進行判斷。

圖文匹配問題與VQA最大的不同就是，需要比對兩種特徵之間的距離。將文本和圖像分別做attention，DAN計算每一步attention後的文本和圖像向量相似度累加得到similarity.

VQA：給定一張圖像和一個關於該圖像內容的文字問題，視覺問答旨在從若干候選文字回答中選出正確的答案，本質上是一個分類問題，其核心思想是讓圖像的Attention的位置隨著問題進行變化。

使用CNN從圖像中提取圖像特徵，用RNN從文字問題中提取文本特徵，融合視覺和文本特徵，最後通過全連接層進行分類。該任務的關鍵是如何融合這兩個模態的特徵。

直接融合的方法幾種：視覺和文本特徵向量拼接、逐元素相加或相乘、內積、外積。

注意力機制包括視覺注意力(「看哪裡」)和文本注意力(「關注哪個詞」)兩者。DAN將視覺和文本的注意力結果映射到一個相同的空間，並據此同時產生下一步的視覺和文本注意力。

通過視覺特徵向量和文本特徵向量的外積，可以捕獲這兩個模態特徵各維之間的交互關係。

總結

1.最基本的是文本和圖像的encoder模型都要足夠的好

2.特徵的融合

目前有兩種融合特徵的方式，一個是前融合一個是後融合。
前融合將圖像信息與文本信息輸入到一個網路進行進一步的encoder，最後再使用任務相關的網路；後融合就是圖像文本的encoder出來的特徵直接concat，然後輸入到任務相關的網路，一般來說前融合的網路要好於後融合。

3.圖文匹配是一個全部句子與全部圖像的匹配問題，直接去解這個問題可能相對來說比較困難，所以一個最基本的想法就是把這個問題分為多個元素。

Text由不同的單詞構成，Image由不同的區域構成，如果能把Text的單詞與Image的區域進行一個匹配，那麼這個問題就會變得比較簡單。

4.模型訓練中可以有很多的trick