如何評價 On Unifying Deep Generative Models 這篇 paper?
[1706.00550] On Unifying Deep Generative Models
Supplementary materials:
http://www.cs.cmu.edu/~zhitingh/data/arxiv17unifying_supp.pdf
學界 | CMU新研究試圖統一深度生成模型:搭建GAN和VAE之間的橋樑Abstract:
Deep generative models have achieved impressive success in recent years. Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs), as powerful frameworks for deep generative model learning, have largely been considered as two distinct paradigms and received extensive independent study respectively. This paper establishes formal connections between deep generative modeling approaches through a new formulation of GANs and VAEs. We show that GANs and VAEs are essentially minimizing KL divergences with opposite directions and reversed latent/visible treatments, extending the two learning phases of classic wake-sleep algorithm, respectively. The unified view provides a powerful tool to analyze a diverse set of existing model variants, and enables to exchange ideas across research lines in a principled way. For example, we transfer the importance weighting method in VAE literatures for improved GAN learning, and enhance VAEs with an adversarial mechanism. Quantitative experiments show generality and effectiveness of the imported extensions.
回複評論里的提問:關於我們的工作與最近"試圖統一VAE和GAN"工作比如 「Adversarial Variational Bayes: Unifying Variational Autoencoders and Generative Adversarial Networks」 的關係:
我們的論文(最近做了大的更新)里有討論這些工作(see section 6)。Generally,這些論文提出了新的結合VAE和GAN的deep generative models (DGMs),因此這裡的"unifying"指combine兩種model變成一個joint model。而我們則是試圖對這些DGM models and algorithms建立一個統一的視角("unified view"),發現他們之間的關係,而不是設計新的model instance.
Specifically, 這篇Adversarial Variational Bayes主要是用implicit distribution作為VAE的inference model (而標準的VAE是assume 一個explicit inference distribution,比如Gaussian)。為了learn這個implicit distribution, 論文用了adversarial loss (因為implicit distribution不支持likelihood evaluation, 傳統的reconstruction loss不適用)。最近類似的工作還有很多,比如我們論文里已經cite的[26,36,49,54], 大體思想都是用implicit distribution作為inference model。這些工作可以看做是我們提出的統一視角的一個特例,具體的說(專有名詞太多就用英文寫了):
Briefly, these works are instances of the general idea proposed in our paper, i.e., symmetric modeling of generation and inference (section 6) — we can apply implicit distributions and adversarial loss for *generation* (i.e., GANs). Symmetrically, we can apply implicit distributions and adversarial loss for *inference* with exact the same formulation, which are essentially what these works do. For example, if we let z be the observed data and x the latent code, InfoGAN is exactly a VAE with implicit distribution as its inference model.
The idea of symmetric view of generation and inference is one of the key insights of our work. It helps reveal the connections between GANs and ADA, as well as the resemblance of GANs to variational inference.
===============分割線以下為原答案===========
謝謝關注我們的工作。我們會對論文初稿繼續改進,對不足之處也歡迎大家指正和交流。
這個工作里我們的目標不是提出新的模型,而是希望對deep generative model (DGM)的幾類基本方法重新formulate,揭示他們間的關係,建立統一的interpretation。統一的框架主要有兩個好處:
(1)對已有模型以及種類繁多的變種有更好或者新的理解,把握演算法演進的脈絡;
(2)促進 後續研究中,各個本來相互獨立的DGM研究方向的融合。期待論文提出的分析框架能促進後續更多的DGM演算法/模型的提出。
對於(1),論文的主要結論是: GANs 和 VAEs 大體上是在minimize 不同方向的KL Divergence。 *Roughly speaking*, 對優化generator P來說,GANs 做 min_{P} KL(P||Q),VAEs 做 min_{P} KL(Q||P)。由此帶來一些insights:
1) GAN 的這個形式和貝葉斯推斷的variational inference類似:把P看做inference model,Q看做posterior。因此我們是在用*inference*來解釋*generation*。這一點在論文最後的discussion section有更具體的討論。
2) 優化兩個方向的KL,正好和經典的wake sleep演算法的兩個phase對應。GAN可以看做sleep phase的extension,VAE可以看做wake phase的extension。
3) 根據KL的不對稱性質,GANs優化的KL(P||Q)決定了GANs傾向於miss mode,而VAEs傾向於cover mode。這點在之前的一些論文 e.g. [1][29],也有涉及。
對於(2),我們舉了兩個例子,來說明各種加強VAEs的方法能直接應用在GANs上來提高GANs,反之,之前用來提高GANs的方法也能用來提高VAEs。前者,我們從importance weighted VAEs出發可以很輕鬆推導出importance weighted GANs;後者,我們將GANs的對抗機制直接複製到VAEs上。實驗基本沒調過參數,不過對base model基本都有提高。
利益相關:作者之一
這是一個挺有意思的工作。這篇工作試圖把近來很火爆的一系列深度生成模型(特別是GAN和VAE)和他們的諸多變種用統一的框架解釋。
舉個例子,比如GAN,原始的GAN paper是用博弈論來構造出整個模型的,最近也有不少文章試圖來從不同角度理解或解釋GAN(比如 https://arxiv.org/abs/1606.00709, https://arxiv.org/abs/1610.03483)。但是這篇文章從另一個角度出發:把X(比如圖片)看做隱變數(latent variable),用Bayesian Inference裡面的經典方法變分(variational inference)來解釋生成過程(generation),很巧妙。
他這種formulation最大的好處是很容易把一些以前常見的模型聯繫起來, 比如VAE,wake-sleep等等;這些模型或演算法,本身都是從variational inference的角度出發的。有了這個理解以後,很方便把各種靠VI求解的模型或很多現成的VI inference方法和GAN這一套體系結合起來,說不定在各個benchmark上又能搞點新聞出來。
利益相關。。。。我看著一作在我旁邊把這個paper寫出來的...
已召喚一作大神來答題,期待(☆▽☆)~
感覺概念說得不簡潔,甚至覺得亂
有一些式子的證明還不是特別clear,期待supplementary materials
理論分析很到位,期待它在聊天對話任務上的效果。
推薦閱讀:
TAG:機器學習 | 深度學習DeepLearning | 生成對抗網路GAN |