[論文筆記] AttnGAN: Fine-Grained Text to Image Generation with GAN
論文概述
純屬個人理解,梳理自己思路用,僅供參考(可能會有標點錯誤或語句不通順 +_+)
本文提出了細粒度的圖像生成,通過藉助文本描述生成包含充分細節的圖像,利用attention-driven、multi-stage refinement、GAN三種方法來生成理想的圖片,建立了文本描述到圖片細節的attention。構建DAMSM使text-encoder與image-encoder生成的特徵能夠在公共空間中對齊,表示相似性,也就是所利用多模態相似性為目標函數來協同優化特徵提取,使其提取的特徵能夠有利於GAN性能提升。關於模態間的attention效果展示,如下圖所示:
本文核心包含兩個部分,一個是attentional GAN,另一個是DAMSM。框架整體結構如下圖所示,GAN通過attention分別針對不同region來生成,對GAN使用了3個階段來實現細粒度圖像生成。
Attentional Generative Network
使用條件GAN作為圖像生成模型,並設計了三個階段的GAN來逐漸細粒度的精鍊生成圖像。F0階段對全局生成目標四分之一解析度的圖片,F1階段利用attention生成目標二分之一解析度的圖片,F2階段利用attention生成目標相同解析度的圖片,其中F0,F1,F2分別對應一個神經網路。整體公式如下所示:
F1和F2受文本特徵的attention引導,公式如下所示:
為了實現multi-level的精鍊意圖,設計整體流程的損失函數,如下圖所示:
其中adversarial loss,定義如下:
判別網路的損失函數,定義如下:
Deep Attentional Multimodal Similarity Model
DAMSM引導兩個神經網路,將各自特徵在公共特徵空間中,進行語義對齊,建立細粒度相似性度量。這兩個網路提前訓練好,在配合上面時是固定不變,不參與訓練。
- Text Encoder 採用雙向LSTM網路,提取每個word的特徵表示,以及全局整句的特徵表示。- Image Encoder 採用Inception-v3網路,來提取每個region(使用mixed_6e來表示,768×289,即289個)以及全局(使用last average pool layer)的特徵表示,然後在通過線性操作壓縮特徵到文本相同的維度。- Attention-driven image-text matching score 設計基於attention來度量image-sentence匹配的目標函數,針對每個region和word使用點乘的方式表示相似性,如下公式使用下式,歸一化每個word匹配對應region的概率:
使用attention模型計算image所有region在word引導下的特徵表示,如下公式:
其中γ1來調節attention的依賴程度。
定義第i個word和整個image的相似性使用餘弦距離表示,那麼attention的得分函數,定義如下:- DAMSM Loss
採用監督的方式訓練attention model,在image-sentence數據對中,定義D表示描述信息,Q表示圖像信息,後驗概率表示公式:
在數據對中,只有Di匹配Qi,其餘的都不匹配,採用softmax loss作為損失函數,如下公式
反過來有,
在考慮全局特徵對應的全局損失函數,因此DAMSM的loss定義如下:
推薦閱讀:
※《論語》,孔子的喪葬工作筆記
※筆記工具推薦
※DL4-Deep Learning for Language Modeling
※毛中特·第一章-馬克思主義中國化
※孩子畫,畫的好,將來學醫不用愁!