如何評價丘成桐團隊關於GAN的論文?

01-01

（提問有字數限制，所以沒有把論文全名加進去。）
[1710.05488] A Geometric View of Optimal Transportation and Generative Model

A Geometric View of Optimal Transportation and Generative Model

Na Lei, Kehua Su, Li Cui, Shing-Tung Yau, David Xianfeng Gu
(Submitted on 16 Oct 2017)

In this work, we show the intrinsic relations between optimal transportation and convex geometry, especially the variational approach to solve Alexandrov problem: constructing a convex polytope with prescribed face normals and volumes. This leads to a geometric interpretation to generative models, and leads to a novel framework for generative models. By using the optimal transportation view of GAN model, we show that the discriminator computes the Kantorovich potential, the generator calculates the transportation map. For a large class of transportation costs, the Kantorovich potential can give the optimal transportation map by a close-form formula. Therefore, it is sufficient to solely optimize the discriminator. This shows the adversarial competition can be avoided, and the computational architecture can be simplified. Preliminary experimental results show the geometric method outperforms WGAN for approximating probability measures with multiple clusters in low dimensional space.

謝邀。人要藏拙，對於論文中的拓撲學知識的確超過了我的知識儲備，需要再查查相關資料。

概括來說，作者們試圖找到一種幾何學的對GAN的合理解釋。主要使用的方法是將GAN和最優運輸問題(optimal transportation)、凸幾何進行類比。作者試將一種GAN模型(WGAN)放在了這個框架下進行解釋，並提出中對於低維下判別器和生成器的一種計算幾何學解釋：

判別器：計算Kantorovich勢能 (約等於WGAN中判別器中計算Wasserstein距離)
生成器：計算Brenier勢能
在選用特定的運輸成本函數下(歐式空間中必存在凸代價函數)，Brenier勢能可以通過Kantorovich勢能求得。通過類比，由此類比可知，生成器存在有關於判別器的閉式解(closed-form solution)

作者認為只需要對判別器進行訓練和優化，而生成器可以通過判別器得到顯示解，不需要單獨的網路對生成器進行訓練，其實本不需要「競爭學習」。為了證明這個理論的有效性和拓展，作者提出了了兩個實驗(2維/3維空間內)。

所以作者的發現主要是：

低維下一種計算幾何學對於WGAN的等價表示/理解方法
通過這種等價表示認為生成器網路是不需要訓練的，只需要根據判別器的訓練的最優值通過得到結果，即不需要「競爭」
WGAN的訓練方式事實上沒有得到最優解，用計算幾何的方法會得到更好的結果(實驗1) 。並由此提出了一種「幾何生成模型」
這種類比關係在高維空間還無法用計算幾何求得也不存在閉式解，但作者認為有其他的理論可以將結論推廣到高維

如果讓我胡言亂語幾句的話。那麼首先作者的理論限定在低維空間，只有在特殊情況下才可以將最優運輸理論和凸幾何聯繫起來，最終才能使得WGAN-&>OMT-&>Convex Theory-&>閉式解說通。這也解釋了為什麼實驗設計的這麼簡單，畢竟工作都是逐步推進的這只是第一步。其次就是作者通過Brenier的理論證明在低維空間上必存在為凸的代價函數，因此最終得到了閉式解。這個也再次提醒了我們維度很重要不然很難有這麼漂亮的結果。同時，作者也指出實驗中只是一個很小的數據集，只需要一個core和500mb內存，網路也只有1-2層，因此只是個toy example。在低維度、小樣本下，作者似乎可以證明計算幾何的生成框架比WGAN的生成效果好，但這個是否公平還有待商榷。

我覺得從理論上試圖打開黑箱是很好的嘗試，但不知道在高維空間中、也就是更實用的領域將來是否能得到這樣漂亮的解釋。因此這個工作是很積極的，但帶來的直接影響還是要謹慎看待。從吸引關注的角度來看，生成器不需要訓練非常吸睛，但請大家不要惶恐立馬決定棄坑。暫時來看，對於做GAN應用和研究沒什麼太大的影響，畢竟實用性還是非常重要的考量。從機器學習角度來看，因為維度上升而帶來的難度上升是遠超線性的，很多低維可行的理論在高維往往失去可比照的結果。在高維度中很多指標往往失去了意義，所以將結論從歐式幾何繼續推廣難度想必不小。因為能力有限，我會繼續謹慎觀望後續工作並好好補一下拓撲學、流形學知識。

話說回來，理論解釋和實用性往往都不是並駕齊驅一起發展的，總是一前一後交替前行。這也是基礎學科和應用學科之間最微妙的關係。本文僅是簡單的歸納和一點點個人理解，求輕拍。

最後附上作者之一的顧險峰教授對於文章思路的解釋，建議閱讀：

虛構的對抗，GAN with the wind
看穿機器學習（W-GAN模型）的黑箱
看穿機器學習的黑箱（II）
看穿機器學習的黑箱（III）

之前一直在關注顧教授的微信公眾號，他之前有幾篇公眾號文章在講wgan和optimal transportation theory，monge方程，kantorovich potential，brenier potential之間的關係。論文出來以後第一時間看了，先總結一下論文的內容：

1，提出一個新的gan計算框架：首先利用vae之類的模型對樣本進行降維autoencode，之後在編碼空間（低維）里尋找平凡測度（如均勻或正態）到樣本測度的最優映射。這樣就建立了低維空間平凡測度-&>低維空間樣本編碼測度-&>高維樣本空間樣本生成這個流程。

2，論文認為gan模型的對抗訓練過程不必要，generator對應於optimal transportation的測度映射，discriminator對應於kantorovich potential的計算，而這兩步在低維空間里可以解析求解。

3，文章大量篇幅集中在求解monge問題上，這裡介紹了kantorovich potential，kantorovich duality（就是wgan求解wasserstein distance的方法）以及平方度量下的brenier potential的數值求解。但是這裡不局限於平方度量，任意距離度量下利用power diagram都可以數值求解kantorovich potential，只不過平方度量下這個求解比較簡單。

4，文章關注於vae降維後低維空間的概率測度映射的求解，做了兩個二維空間里的實驗，其一是高斯混合模型，其二是彌勒佛表面均勻採樣問題。

我覺得這篇文章理論框架很好，如果在真實應用場景下能夠證實其有效性，那會徹底改變目前gan模型訓練alternative learning過程里大量利用trick的現狀，也會簡化計算。

不過我認為目前文章還有一個不成熟的地方：

樣本量太小，低維空間的維度太低。如果我的理解沒問題，brenier potential求解需要用到monte carlo sampling估計梯度（利用poincare duality的newton method我估計大樣本量基本用不了），這個sampling在樣本量稍大的情形還能不能很好的計算是個問題。

前面幾個答主提到的一些問題我認為有如下解釋：

1，樣本空間是離散測度。

這個可以在離散測度上得到的brenier potential上做一個卷積連續化一下

2，平方度量不同於wgan的距離度量。

power diagram可以用來求解任意度量的kantorovich問題，平方度量求解特別簡單，因此拿來示例。

3，online learning，minibatch不好擴展的問題。

大樣本量確實是這個模型計算上的挑戰，然而minibatch只是用來解決非凸問題里計算複雜度和收斂性問題的，這個框架里目標問題為凸，計算框架本身複雜度就低，根本用不到minibatch。至於online learning可能確實是我孤陋寡聞了，不知道gan這樣複雜的計算框架還有online 版本。

今天剛剛講完這篇

說GAN沒有online版本的，iclr2018 submit：https://openreview.net/pdf?id=H1Yp-j1Cb

原來深度學習理論就是做一個optimal transport………

你們自己玩的開心就好

最大問題放最前面

他們算了optimal trans?po?r?t

但是沒有生成器啊

只記住了所有樣本

根本就不能生成新樣本

也就是說我不需要準確的empirical distribution

我要的是對empirical distribution的一個估計啊

典型的沒有泛化

典型的手裡拿著鎚子看什麼都像釘子

mmp一群人看到丘的名字就覺得讀不懂

這篇給我們學校大二的都有一堆能看懂的

slide optimal transport的是以前做的，看文章加slide+追這一季fate也就用了一晚上4小時

slide放在這裡了：http://about.2prime.cn/WGAN.pdf

順便這個slide是給我們學校大二大三一個討論班講的

http://aa.2prime.cn

談一下我的看法

基本就是數學家自high吧

首先W_1改成W_2去算一個重要觀察是W_p誘導的拓撲都是弱拓撲

他們的計算框架只能算平方度量………

如果顧險峰老師逛知乎建議他看下這篇

Arora S, Ge R, Liang Y, et al. Generalization and Equilibrium in Generative Adversarial Nets (GANs)

這篇說了硬解optimal transport沒有好處，目標函數的逼近是一個很好的

其次虛假對抗有屁用。。。

有對抗是為了解問題

你來算一個有幾百萬個小塊的幾萬維pde吧。。。。。。

其次用這篇文章方法沒法做batch learning吧。。。

online learning貌似也難，也就是做一個lazy learning？

好歹做一個高維的demo 啊。。。。。。

從數學角度上極端漂亮，給了一個非常直觀的幾何含義[就是給定面積和法方向恢復多面體，還有一個圖的對偶，整個對偶過程就是tranport map

會follow

數學家做ml，先仔細學一遍ml好么。。。。。。。。

這種反面教材我能拉出來一堆

==========================================================

我關心的是幾何結構對我們設計gan有什麼啟示

有些細節我都沒仔細follow

仔細follow後再更新吧

好像沒啥point... 有點像數學家自high, 不是寫給machine learning community的.

Point 1. Abstract 說

``By using the optimal transportation view of GAN model, we show that the discriminator computes the Kantorovich potential, the generator calculates the transportation map. For a large class of transportation costs, the Kantorovich potential can give the optimal transportation map by a close-form formula. Therefore, it is sufficient to solely optimize the discriminator. This shows the adversarial competition can be avoided, and the computational architecture can be simplified. ""

文章中似乎對應於定理3.7