正如我們所知,GANs背後的主要目標是讓生成器開始將隨機雜訊轉換成我們想要模擬的某些給定數據。因此,在GAN中,比較兩個分布之間的相似性的是非常必要的。最廣泛使用的兩種指標是:
WGAN使用Wasserstein distance,W(pr,pg)=1Ksup‖f‖L≤K??x~pr[f(x)]???x~pg[f(x)] (supsup代表上確界),作為損失函數。與KL和JS的差異相比,Wasserstein給出了一個平滑的度量。這使得它更適合在梯度下降過程中創建一個穩定的學習過程。
而且,與KL和JS相比,Wasserstein距離幾乎在任何地方都是可微的。正如我們所知,在反向傳播期間,我們對損失函數進行微分,以創建梯度,從而更新權重。因此,有一個可微損失函數是非常重要的。
如前所述,生成器是LSTM網路,是一種遞歸神經網路(RNN)。RNN用於時間序列數據,因為它們跟蹤所有以前的數據點,並可以捕獲隨時間發展的模式。因倉儲物的性質、RNNs很多時間受到消失的梯度,也就是權重變化期間接受的培訓變得如此之小,他們不改變,使網路無法收斂到最小損失(有時也可以觀察到相反的問題——當梯度太大了。這叫做梯度爆炸,但是解決這個問題的方法很簡單——如果梯度開始超過某個常數,即梯度漸變)。有兩種方法可以解決這個問題——門控循環單元(GRU)和長短期記憶(LSTM)。兩者最大的區別是: